版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、概率方法建模,數(shù)學(xué)與信息科學(xué)系任煜東qq:466432705,前言:什么是數(shù)學(xué)建模,1、高考報名問題2、包餃子問題3、駭鳥體重問題4、海戰(zhàn)問題,1、高考報名問題,一個真實的案例某同學(xué)2014年高考分?jǐn)?shù)為535,理科,現(xiàn)在面臨報考志愿的問題,希望你能給他一些建議。有如下的參考資料:2014年河南高考錄取分?jǐn)?shù)線:文科理科,一個簡單的方法,換算成去年的分?jǐn)?shù):,解出:,也就是說,這個分?jǐn)?shù)相當(dāng)于去年的494.5分。而連續(xù)兩年之
2、間的招生計劃、高考人數(shù)等應(yīng)該變化不大,可以參照去年的錄取情況報考志愿。這里,我們就建立了一個簡單的數(shù)學(xué)模型。,通常,1公斤面, 1公斤餡,包100個湯圓(餃子),今天,1公斤面不變,餡比 1公斤多了,問應(yīng)多包幾個(小一些),還是少包幾個(大一些)?,問題,圓面積為S的一個皮,包成體積為V的湯圓, 若分成n個皮,每個圓面積為s,包成體積為v,V和 nv 哪個大?,2.從包湯圓(餃子)說起,定性分析,V比 nv大多少?,定量分析,從包湯
3、圓(餃子)說起,假設(shè),1. 皮的厚度一樣,2. 湯圓(餃子) 的形狀一樣,模型,應(yīng)用,若100個湯圓(餃子)包1公斤餡,則50個湯圓(餃子) 可以包 公斤餡,R ~大皮 半徑,,,V是 nv是 倍,1.4,r ~小皮半徑,,數(shù)學(xué)建模的一般步驟,模型準(zhǔn)備,了解實際背景,明確建模目的,搜集有關(guān)信息,掌握對象特征,形成一個比較清晰的‘問題’,模型假設(shè),針對問題特點和建模目的,作出合理的、簡化的假設(shè),在合理
4、與簡化之間作出折中,模型構(gòu)成,用數(shù)學(xué)的語言、符號描述問題,發(fā)揮想像力,使用類比法,盡量采用簡單的數(shù)學(xué)工具,數(shù)學(xué)建模的一般步驟,模型求解,各種數(shù)學(xué)方法、軟件和計算機(jī)技術(shù),如結(jié)果的誤差分析、統(tǒng)計分析、模型對數(shù)據(jù)的穩(wěn)定性分析,模型分析,模型檢驗,與實際現(xiàn)象、數(shù)據(jù)比較,檢驗?zāi)P偷暮侠硇?、適用性,模型應(yīng)用,數(shù)學(xué)建模的一般步驟,例3 駭鳥尺寸建模,大約7百萬年前,北美洲出現(xiàn)了一種巨大的、不會飛的食肉鳥,稱為“駭鳥”。它是已知存在的最
5、大的獵食鳥。各種各樣的駭鳥尺寸從5~9英尺不等。有一種叫“泰坦巨鳥”是最大的,但化石極少,所以其尺寸不清楚。已經(jīng)估計出其身高在6~7英尺,試試看能否用數(shù)學(xué)建模的方法獲知有關(guān)“駭鳥”的更多信息。,首先,這個問題比較模糊。題目中只是要求我們“獲知有關(guān)’駭鳥’的更多信息”,什么信息呢?題目中沒有明說,需要我們自己去尋找。尋找問題,發(fā)現(xiàn)問題,提出問題的過程,是數(shù)學(xué)建模的第一個步驟,叫做“識別問題”。識別問題這一步通常比較困難。因為現(xiàn)實生活中,
6、沒有人簡單給你一個有待解決的數(shù)學(xué)問題,通常要從大量數(shù)據(jù)中搜索及識別所研究問題的某些特定的方面。此外,還要把描述問題的口頭陳述翻譯成數(shù)學(xué)符號來表示。當(dāng)然,‘駭鳥尺寸’問題相對簡單容易,通常要考慮其“體重”,第一步:識別問題,現(xiàn)在我們已經(jīng)明確了要探究的問題:預(yù)測駭鳥的體重。進(jìn)一步分析:如何進(jìn)行預(yù)測?根據(jù)什么預(yù)測?注意到我們只能得到一些化石,且“化石極少”。由于股骨(即大腿骨)支撐了身體的大部分體重,所以我們選擇股骨的某個特征量,比如周長
7、來預(yù)測。于是問題識別為:預(yù)測作為其股骨周長的函數(shù)的駭鳥的體重。,第二步:假設(shè)和變量,我們已經(jīng)確定采用“股骨的周長”預(yù)測駭鳥的體重。股骨的周長和體重之間是一個什么樣的函數(shù)關(guān)系呢?我們假定:駭鳥和當(dāng)今的大鳥是幾何相似的。由幾何相似性的假設(shè),我們得到駭鳥的體積和任何特征量的立方成正比:,如果我們假設(shè)體重密度不變,那么駭鳥的體積和其重量成正比:從而有由于我們選擇股骨的周長作為特征量,這就給出了模型:,第三步:模型求解,由于這個模型比較
8、簡單,所以不存在求解問題。但是要注意,在很多問題中常常會發(fā)現(xiàn)完成這一步,我們的準(zhǔn)備還相當(dāng)不夠,或者可能得到一個不能求解或不會解釋的難以處理的模型。遇到這種情況,我們應(yīng)該回到第二步做出另外的簡化假設(shè),甚至回到第一步重新定義問題。,第四步:模型驗證,我們利用各種鳥的尺寸的數(shù)據(jù)集檢驗?zāi)P?。這是因為:1,我們有各種鳥的尺寸的數(shù)據(jù)集。2,駭鳥是鳥,所以這些數(shù)據(jù)是合適的。下面是股骨周長和鳥的體重的數(shù)據(jù)和對應(yīng)的散點圖:,散點圖揭示其趨勢是凹向上的
9、增函數(shù),w對 的圖像:,因為我們建議的模型是 畫出w對 的圖像近似得到一條過原點的直線,因此有理由認(rèn)為模型是精確的。,過原點的直線的斜率大約是0.0398,這就給出:下圖是對原來的數(shù)據(jù)模型畫圖,第五步:模型應(yīng)用,測量得到駭鳥股骨的周長21cm,應(yīng)用模型求得駭鳥體重約為368.58公斤,比例性和幾何相似性,駭鳥尺寸建模問題中,用到了兩個基本的假設(shè):比例性和幾何相
10、似性。比例性和幾何相似性是建模過程中常用的簡化方法,比例性,定義:兩個變量y和x是成比例的,如果一個變量總是另一個變量的常數(shù)倍,即對于某個常數(shù)k我們記為,例如,彈簧的伸長和彈簧末端質(zhì)量的試驗中,收集到如下數(shù)據(jù):,散點圖展現(xiàn)它是過原點的一條近似直線擬合得出 k=0.01625于是建立估算模型: e=0.01625m,做出散點圖:,關(guān)于比例性的其他例子:,當(dāng)且僅當(dāng),當(dāng)且僅當(dāng),當(dāng)且僅當(dāng),比例有傳遞性:,則,因此,與同一個變量成
11、比例的所有變量成比例,著名的比例性的例子:,虎克定律:F=kS,S是壓縮或拉長的弦長,F(xiàn)是恢復(fù)力牛頓定律:F=ma,F(xiàn)是合外力,a是加速度歐姆定律:V=iR,V是電壓,i是電流,R是電阻波爾定律:V=k/P,V是常溫下的體積,P是壓強(qiáng)質(zhì)能方程:E=mc^2,E是能量,m是質(zhì)量光子能量:E=hu,E是能量,u是頻率,幾何相似性,定義:如果兩個物體各點之間存在著一個一一對應(yīng),使得對應(yīng)點之間的距離之比對所有可能點對都不變,則稱這兩個
12、物體是幾何相似的。例如:相似三角形之間、圓與圓之間、球與球之間、飛機(jī)模型和飛機(jī)之間都是是幾何相似的總之,幾何相似就是形狀一樣,等比例放大(或縮?。?幾何相似的性質(zhì),類似于相似三角形,一旦兩個物體是幾何相似的,那么對應(yīng)點之間的距離是成比例的。一旦規(guī)定了比例因子k,可以把表面積和體積的比例性通過某個選定的特征量表示出來。如果選擇長度l作為特征量,由于,由于所以 對任何
13、兩個幾何相似的物體成立即,例4 特拉法爾戰(zhàn)斗,1805年法國、西班牙聯(lián)軍和英國海軍作戰(zhàn),一開始法西聯(lián)軍有33艘戰(zhàn)艦,英國有27艘戰(zhàn)艦。在每一次遭遇戰(zhàn)中,每一方的戰(zhàn)艦損失都是對方戰(zhàn)艦的10%。,動力系統(tǒng)模型:n表示戰(zhàn)斗過程中遭遇戰(zhàn)的階段,表示第n階段英軍的戰(zhàn)艦數(shù),表示第n階段法西聯(lián)軍的戰(zhàn)艦數(shù),經(jīng)過11次戰(zhàn)斗后,法西聯(lián)軍有18艘戰(zhàn)艦,而英軍有3艘戰(zhàn)艦且至少一艘重傷。,分割并各個擊敗戰(zhàn)略:,法軍33艘戰(zhàn)艦分為3個戰(zhàn)斗編組,一字排開:B=
14、17,A=3,C=13,英軍戰(zhàn)略:用13艘迎戰(zhàn)法軍A組,另外14艘備用然后用戰(zhàn)斗后存留下來的加上備用的迎戰(zhàn)B組,最后所有剩下的迎戰(zhàn)C組。,加設(shè)每次損失對方戰(zhàn)艦數(shù)的5%(增加圖解效果),結(jié)果如下:,利用分割并各個擊敗戰(zhàn)略模型的預(yù)測結(jié)果與歷史上真正發(fā)生的戰(zhàn)斗結(jié)果類似。,一、概率的定義和概率模型的構(gòu)成,假定已經(jīng)確定了樣本空間以及與之相聯(lián)系的隨機(jī)試驗,對于每一個事件A,都有一個確定的實數(shù)P(A)與之對應(yīng),刻畫它發(fā)生的可能性的大小,稱為概率。
15、概率是定義在事件(或集合)上的函數(shù)(通常稱為測度)必須滿足下面的幾條公理:,(1)(非負(fù)性)對一切事件A,滿足(2)(可加性)設(shè)A和B是兩個互不相容的事件(互不相交的集合),則他們的并滿足 更一般的,若 是一個互不相容的事件序列,則他們的并滿足(3)(歸一性)整個樣本空間Ω(必然事件)的概率為1:,概率模型的構(gòu)成:,樣本空間Ω:這是一個實驗的所有可能結(jié)果的集合;概率:為實驗結(jié)果的集合A(稱之為事
16、件)確定一 個非負(fù)數(shù)P(A)(稱為事件A的概率)。這個非負(fù)數(shù)刻畫了我們對事件A的認(rèn)識或所產(chǎn)生的信念的程度。概率必須滿足三條公理。,隨機(jī)試驗,,,,,,事件A,事件B,,,事件,,,A,B,,,概率,樣本空間(可能結(jié)果的集合),概率與頻率,概率的更具體、更直觀的解釋是頻率。比如P(A)=2/3,表示在大量重復(fù)試驗中事件A出現(xiàn)的頻率大約是2/3.實際應(yīng)用中,可以用頻率估算概率例:在某本書中,一頁內(nèi)出現(xiàn)錯誤的次數(shù)為X,數(shù)據(jù)如下:,于是
17、我們計算出頻率,以估算概率:,概率的性質(zhì),概率的很多重要性質(zhì)沒有包含在公理系統(tǒng)中,因為它們可以從公理系統(tǒng)中推導(dǎo)出來。例如:,*一般情況,設(shè) 是任意n個事件,記其中 是個和式,每一項是從 n個事件中選取k個事件的交集的概率。,例1 給擲一枚硬幣的試驗建立概率模型。解:擲一枚硬幣,有兩個可能的結(jié)果:正面和反面。若用 表示正面, 表示反面,則樣本空間為:
18、 事件為:根據(jù)定義和性質(zhì),得到,概率建模實例:,如果硬幣是均勻的,正面和反面出現(xiàn)的機(jī)會相同,于是由可加性和歸一性知由此可得:于是概率為顯然,這樣建立的概率滿足三條公理。,例2 為依次拋擲三枚硬幣的試驗建立概率模型。解 用“1”表示正面向上,“0”表示反面向上,樣本空間為: W={(1,1,1),(1,1,0),(1,0,1),(1,0,0),(0,1,1),(0,1,0),(
19、0,0,1),(0,0,0)}如果上述8種結(jié)果出現(xiàn)的可能性相同,根據(jù)可加性和歸一性,每個結(jié)果的概率為 1/8.現(xiàn)利用三條公理建立概率:例如事件A表示“只有一次正面向上”,則A={(1,0,0), (0,1,0), (0,0,1)},,于是 P(A)=P({(1,0,0), (0,1,0), (0,0,1)}) = P({(1,0,0)})+P({(0,1,0)})+P({(0,0,1)}相似的,任何事
20、件的概率等于1/8乘上該事件中包含的結(jié)果的個數(shù)。,補(bǔ)充: 有一枚骰子,偶數(shù)邊出現(xiàn)的概率比奇數(shù)邊出現(xiàn)的概率大一倍,而不同偶數(shù)邊出現(xiàn)的概率相同,不同奇數(shù)邊出現(xiàn)的的概率也相同。將這枚骰子投擲一次,為這個試驗建立概率模型,并求點數(shù)小于4的概率。解 設(shè)Ai表示“出現(xiàn)i點”,i=1,2,...,6,則樣本空間為 根據(jù)可加性和歸一性,有又根據(jù)題意,,得出 點數(shù)小于4的概率為:,,例3 若A發(fā)生的概率為0.6,A與B都發(fā)生的概率為0.1
21、,A與B都不發(fā)生的概率為0.15,求(1)A發(fā)生但B不發(fā)生的概率;(2)B發(fā)生但A不發(fā)生的概率;(3)A與B至少有一個發(fā)生的概率。解:樣本空間可以用下面四個結(jié)果表示,,,,,由A發(fā)生的概率為0.6,得:A與B都發(fā)生的概率為0.1,得:A與B都不發(fā)生的概率為0.15,得:結(jié)合歸一化公式:得到:,于是:(1)A發(fā)生B不發(fā)生的概率為:(2)B發(fā)生A不發(fā)生的概率為:(3)A與B至少有一個發(fā)生的概率為:,二
22、、生活中的概率模型,1、男女問題(兩孩)2、打牌中的問題3、假陽性之謎4、三門問題5、賭徒破產(chǎn)問題,例1 中國的計劃生育政策使很多家庭只能有一個小孩,部分家庭可以由兩個小孩。在有兩個小孩的家庭中,男孩女孩各一個比例非常大。請用概率的方法解釋一下這種現(xiàn)象。解:男孩用B表示,女孩用G表示,樣本空間為 W={BB, BG, GB, GG}由于每種情況的可能性相等,故一男一女的概率為 0.5;而兩個男孩或兩個女孩的概率都是0.
23、25,例2 在用兩副牌“打升級”的比賽中,如果某人拿了底牌后手中有紅心“對k”,但沒有紅心A。問其余三個人甲、乙、丙中,手中有紅心“對A”的可能性有多大?解 兩副牌一共108張,其余三人一共有75張牌,所以基本事件的總數(shù)為甲拿紅心“對k”的基本事件數(shù):而甲、乙、丙拿紅心“對k”是互不相容的三個事件,且可能性相同,因此所求概率為:,例3(假陽性之謎)設(shè)對于某種少見的疾病的檢出率為0.95:如果一個被檢驗的人有某種疾病,其檢驗結(jié)果
24、為陽性的概率為0.95,如果該人沒有這種疾病,其檢驗結(jié)果為陰性的概率為0.95.現(xiàn)假定某一人群中患有這種病的概率為0.001,并從這個樣本中隨機(jī)抽取一個人進(jìn)行檢驗,檢查結(jié)果為陽性?,F(xiàn)在問這個人患有這種病的概率有多大?解:設(shè)A=“患有這種疾病”, B=“經(jīng)檢驗此人為陽性”,,利用貝葉斯推斷:盡管檢驗方法很精確,一個經(jīng)檢測為陽性的人仍然不大可能真正患有這種病。然而多數(shù)人不知道正確答案,大部分人認(rèn)為這種情
25、況患病概率為95%,你站在3個封閉的門前,其中一個門的門后有一個獎品。當(dāng)然,獎品在哪個門后是完全隨機(jī)的。當(dāng)你選定一個門以后,你的朋友打開其余兩扇門中的一扇空門,顯示門后沒有獎品。此時你可以有兩種選擇:保持原來的選擇或改選另一扇沒有被打開的門。當(dāng)你做出最后選擇以后,打開的門后有獎品,這個獎品就歸你的了?,F(xiàn)在有3種策略:,例4 (三門問題),(a)堅持原來的選擇;(b)改選另一扇沒有被打開的門;(c)你首先選擇1號門,當(dāng)你的朋友打開2號
26、空門,你不改變主意。當(dāng)你的朋友打開的是3號空門,你改變主意,選擇2號門。最好的策略是什么呢?現(xiàn)在計算在各種策略下贏得獎品的概率:在策略(a)之下,你的初始選擇會決定你的輸贏。由于獎品的位置是隨機(jī)確定的,得獎的概率是1/3,在策略(b)之下,如果獎品的位置在原來指定的門后(概率為1/3),由于改變了主意,因而失去了獲獎的機(jī)會。如果獎品不在你原來指定的門后(概率為2/3),而你的朋友又將沒有獎品的那一扇門打開,當(dāng)你改變選擇時,改變選擇
27、后所指定的門后一定有獎品。所以獲獎的概率為2/3.(b)比(a)好。在策略(c)下,由于提供的信息不夠充分,還不能確定贏得獎品的概率。答案依賴于朋友打開空門的方式。先討論兩種情況:,第一種情況:當(dāng)獎品的位置在1號門后,假定你的朋友總是打開2號空門(當(dāng)獎品在2號或3號門后時,你朋友沒有選擇的余地)如果獎品在1號門后(概率1/3),朋友打開2號門,你不改變主意,得到獎品。如果獎品在2號門后(概率1/3),朋友打開3號空門,你改變主意,
28、得到獎品。如果獎品在3號門后(概率1/3),朋友打開2號空門,你不改變主意,失去獎品。這樣,獲獎機(jī)會是2/3.,第二種情況:假定獎品在1號門,朋友隨機(jī)打開2號門或3號門(概率各為1/2),如果獎品在1號門后(概率1/3), 當(dāng)朋友打開2號門時,按照策略(c),不改變主意,得到獎品(概率1/6)。但是若朋友打開3號門,此時你改變主意,失去了得獎機(jī)會。如果獎品在2號門后(概率1/3),朋友將打開3號空門,按照策略改變主意,贏得獎品
29、。,如果獎品在3號門后(概率1/3),朋友將打開2號空門,按照策略不改變主意,失去獎品。綜合來看,贏得獎品的概率為1/6+1/3=1/2,此時,策略(b)比策略(c)差。,例5 (賭徒破產(chǎn)問題)一個賭徒進(jìn)行一系列相互獨立的押注活動,每次押注,他以概率p贏1元錢,以概率1-p輸1元錢。開始押注時他有k元錢,當(dāng)他輸光錢的時候,或他的累計錢數(shù)為n元的時候,他就停止押注。問他以累計錢數(shù)為n元而停止押注的概率有多大解 事件A表示累計錢數(shù)為
30、n元而停止押注, 事件F表示第一次押注贏得1元錢, wk表示他開始的時候有k元錢的條件下事件A發(fā)生的概率,利用全概率公式,有:,利用過去押注結(jié)果和以后的押注結(jié)果是相互獨立的,第一次押注贏得1元錢,故類似的這樣我們得到這個結(jié)果可以寫成其中利用這個遞推公式和邊界條件可以解得,從而得到:上面的和可以分成r=1 (p=q)和r≠1(p≠q)兩種情況計算出來,得到:由于 利用上式
31、得到,從而下面是n=100時,不同的r對應(yīng)的w和k的關(guān)系圖:,r=0.5,r=0.93,r=0.98,r=1,r=1.02,r=1.05,r=1.5,當(dāng)rq 時,隨著k的增加wk很快接近1,當(dāng)r>1,即p<q 時,需要更大的k,wk才能接近1,程序 plot1,三、假設(shè)檢驗問題,例8(藥效檢查)有一種治療某種疾病的藥物,有人宣稱其治愈率高達(dá)90%?,F(xiàn)讓10個病人服用此藥,結(jié)果治愈6人,問能否承認(rèn)此藥的療效是90%?
32、解 :假設(shè)此藥的療效是0.9,那么讓10個人服用此藥,不超過6人治愈的概率為:,此事件的概率很小,大約在100次這樣的檢查中,該事件才會出現(xiàn)一次.而在一次檢查中,此事件不應(yīng)該出現(xiàn).但事實上該事件出現(xiàn)了,我們有理由認(rèn)為此藥的療效不夠0.9。以上所用的推理,就是假設(shè)檢驗的原理。,,一、假設(shè)檢驗的理論依據(jù)--小概率事件原理 小概率事件在一次試驗中是幾乎不可能發(fā)生的?! ?如果在假設(shè) H0 成立的條件下某事件
33、是小概率事件,但在一次試驗中卻發(fā)生了,于是就可懷疑假設(shè) H0 的正確性從而拒絕它。,,不是一定不發(fā)生,二. 假設(shè)檢驗的兩類錯誤1. 第一類錯誤 (棄真): H0是正確的,但卻被錯誤地否定了。2. 第二類錯誤 (取偽): H0 是不正確的,但卻被錯誤地接受了。顯然犯第一類錯誤的概率為,P { 拒絕H0 | H0為真 } =,P { 接受 H0 | H0 不真 } =,(顯著性水平),犯第二類錯誤的概率記為,注:兩類錯誤是互相
34、關(guān)聯(lián)的, 當(dāng)樣本容量 n 固定時,一類錯誤概率的減少必導(dǎo)致另一類錯誤概率的增加。 要同時降低兩類錯誤的概率 α、β,或者要在 α不變的條件下降低 β ,需要增加樣本容量 n。在實際問題中,通常的做法是: 先對犯第一類錯誤(棄真)的概率加以控制,同時再考慮使犯第二類錯誤(取偽)的概率盡可能的小(即盡量增加樣本容量)。,,三、假設(shè)檢驗的過程步驟:第一步:提出原假設(shè)H0,必要時給出備擇假設(shè)H1。第二步:選取適當(dāng)
35、的檢驗統(tǒng)計量,在H0成立時,此統(tǒng)計量的分布一般應(yīng)當(dāng)是已知的。第三步:根據(jù)實際問題的要求規(guī)定顯著性水平α,并確定拒絕域和接收域。第四步:由樣本的觀測值計算統(tǒng)計量的值。第五步:通過比較作出判斷,若統(tǒng)計量的值落在接收域,則接收H0;若統(tǒng)計量的值落在拒絕域,則拒絕H0而接收H1。,例3:一自動車床加工零件的長度 X 服從正態(tài)分布 ,正常時零件長度均值為10.5厘米。經(jīng)過一段時間生產(chǎn)后,要檢驗這車床是否工作正常,為此,隨機(jī)抽取該車床加工的3
36、1個零件,測得數(shù)據(jù)如下:,若加工零件長度方差不變,問此車床工作是否正常(α=0.05),分析:,我們稱之為T統(tǒng)計量,由樣本可計算出T統(tǒng)計量的具體值,查t分布的雙側(cè)臨界值表,得臨界值,即,對給定的顯著性水平α=0.05,說明小概率事件發(fā)生了,因此拒絕原假設(shè),可認(rèn)為該車床工作是不正常的。,解決這類問題所用的方法稱為T檢驗法。,按照假設(shè)檢驗的一般步驟,下面給出此題的具體解法。,解:,選取統(tǒng)計量,對顯著性水平α=0.05,查表得臨界值,計算,拒
37、絕H0,即可以認(rèn)為該車床工作不正常的。,例4:,,已知某種化學(xué)反應(yīng)的溫度服從正態(tài)分布,今隨機(jī)測量了6個溫度值如下:31.87,30.00,31.03,32.50,31.64,29.66 (單位 ),解:,選取統(tǒng)計量,(α=0.01),對α=0.01,查表得臨界值,計算,接受H0,可以認(rèn)為這種化學(xué)反應(yīng)的平均溫度為,四、分布擬合問題和分布檢驗,1、matlab畫密度函數(shù)圖像2、matlab畫直方圖3、直方圖與密度函數(shù)疊加問題
38、4、分布檢驗問題,1、matlab畫密度函數(shù)圖像,常見的幾種分布的命令字符為:,每一種分布都提供五類函數(shù),其命令字符為:,將以上所列的分布命令字符與函數(shù)命令字符接起來,并輸入自變量(可以是標(biāo)量、數(shù)組或矩陣)和參數(shù)即可求出對應(yīng)數(shù)值。,1、對均值為0、標(biāo)準(zhǔn)差為1的正態(tài)分布,,x=3時的密度函數(shù)值:,normpdf(3,0,1),2、均值為1、標(biāo)準(zhǔn)差為2的正態(tài)分布,,x=2時的分布函數(shù)值:,normcdf(2,1,2),3、均值為0、標(biāo)準(zhǔn)差為
39、1的正態(tài)分布,,α=0.05時的上測臨界值值:,norminv(0.95,0,1),4、參數(shù)為50,0.33的二項分布的均值與方差:,[m,v]=binostat(50,0.33),5、隨機(jī)數(shù)生成:normrnd(mu,sigma,m,n) 產(chǎn)生m×n階的正態(tài)分布隨機(jī)數(shù)矩陣.,此命令產(chǎn)生了2×3的正態(tài)分布隨機(jī)數(shù)矩陣,各數(shù)分別服從 N(1,0.12), N(2,22),
40、N(3, 32), N(4,0.12), N(5, 22),N(6, 32),例 命令:M=normrnd([1 2 3;4 5 6],0.1,2,3) 結(jié)果為:M=0.9567 2.0125 2.8854 3.8334 5.0288 6.1191,例1 畫出正態(tài)分布N(0,2²)的概率密度函數(shù)圖形.
41、在Matlab中輸入以下命令:x=-6:0.01:6; y=normpdf(x,0,2);plot(x,y)例2 畫出參數(shù)為2的泊松分布的分布列:在Matlab中輸入以下命令:x=0:5; y=poisspdf(x,2);bar(x,y),2、matlab畫直方圖,1、給定數(shù)據(jù)data的頻數(shù)表的命令為: [N,X]=hist(data,k)此命令將區(qū)間[min(data),max(data)]分為
42、k個小區(qū)間(缺省為10),返回數(shù)矩data落在每一個小區(qū)間的頻數(shù)N和每一個小區(qū)間的中點X.描繪數(shù)據(jù)data的頻數(shù)直方圖的命令為: hist(data,k),例 data=[459 362 624 542 509 584 433 748 815 505 ... 612 452 434 982 640 742 565 706 593 680 ... 926
43、 653 164 487 734 608 428 1153 593 844 ... 527 552 513 781 474 388 824 538 862 659 ... 775 859 755 49 697 515 628 954 771 609 ... 402 960 885 610 292 837 473 677 358 638 ..
44、. 699 634 555 570 84 416 606 1062 484 120 ... 447 654 564 339 280 246 687 539 790 581 ... 621 724 531 512 577 496 468 499 544 645 ... 764 558 378 765 666 763 217 715 310
45、 851];hist(data),3、直方圖與密度函數(shù)疊加問題,假定做直方圖時,分割的區(qū)間長度是 d一方面,區(qū)間上的概率可以用頻率表示:另一方面,區(qū)間上的概率可以用密度函數(shù)表示:,兩者相等,得到即結(jié)論:頻率除以分割區(qū)間的長度后,才能與密度函數(shù)圖疊加。,上例中,在matlab中輸入以下命令:[n,x]=hist(data);%計算頻數(shù)及區(qū)間中點值h=max(data)-min(data); %計算極差d=h/10
46、; %計算區(qū)間長度f=n/sum(n);%計算頻率f1=f/d;%頻率除以每個分割區(qū)間的長度bar(x,f1)%畫出頻率的柱狀圖Hold on u=mean(data);v=std(data);%計算期望方差x1=min(data):0.1:max(data);y=normpdf(x1,u,v);plot(x1,y,’r’)%疊加正態(tài)分布密度函數(shù),作圖程序: plot2,4、分布檢驗問題,1. 卡方檢驗,2. 正態(tài)性檢驗
47、的W法(Shapiro-wilk法)、D法(Kolmogorov-Smirnov法),第一節(jié) 卡方擬合優(yōu)度檢驗的原理與計算步驟,1. 原理,判斷樣本觀察頻數(shù)(Observed frequency)與理論(期望)頻數(shù)(Expected frequency )之差是否由抽樣誤差所引起。,數(shù)據(jù)格式與計算公式,注意:理論頻數(shù)Ei不宜過?。ㄈ绮恍∮?),否則需要合并組段!,注意:理論頻數(shù)不宜過小,否則需要合并,2. 計算步驟,,,,,,,3.
48、84,7.81,12.59,,,,,,,,P=0.05的臨界值,χ2分布(chi-square distribution),卡方分布下的檢驗水準(zhǔn)及其臨界值,第二節(jié) 離散型隨機(jī)變量分布的擬合優(yōu)度檢驗,一、二項分布的擬合優(yōu)度檢驗,二、Poisson分布的擬合優(yōu)度檢驗,一、二項分布的擬合優(yōu)度檢驗,【例7.4】某研究人員在某地隨機(jī)抽查了150戶3口之家,結(jié)果全家無某疾病有112戶,家庭中1人患病的有20戶,2人患病的有11戶,3人全患病有7
49、戶,問該病在該地是否有家族聚集性。,解:如果家庭成員之間的發(fā)病與否(X)互不影響,則X符合二項分布(兩種互斥結(jié)果、試驗條件不變、各次試驗獨立)。也就表明疾病不具有家族聚集性。,二、Poisson分布的擬合優(yōu)度檢驗,【例7.3】將酵母細(xì)胞的稀釋液置于某種計量儀器上,數(shù)出每一小方格內(nèi)的酵母細(xì)胞數(shù),共觀察了413個小方格,結(jié)果見表7.3第1、2列,試問該資料是否服從Poisson分布?,卡方分量,P(7)=0.000556,其他離散型變量分布
50、的擬合優(yōu)度檢驗,二項分布Poisson分布超幾何分布負(fù)二項分布 可仿照上述二項分布、Poisson分布的方法進(jìn)行分布的擬合優(yōu)度檢驗。,第三節(jié) 連續(xù)型隨機(jī)變量分布的擬合優(yōu)度檢驗,一、采用卡方檢驗進(jìn)行正態(tài)性檢驗,二、采用Shapiro-Wilk法進(jìn)行正態(tài)性檢驗,三、采用Kolmogorov-Smirnov法進(jìn)行正態(tài)性檢驗,一、采用卡方檢驗進(jìn)行正態(tài)性檢驗,,,擬合優(yōu)度卡方檢驗的問題,分組不同,擬合的結(jié)
51、果可能不同。需要有足夠的樣本含量。,對于連續(xù)型變量的優(yōu)度擬合,卡方檢驗并不是理想的方法。,統(tǒng)計學(xué)家推薦的擬合檢驗方法是: Shapiro-Wilk檢驗 Kolmogorov-Smirnov檢驗,二、采用Shapiro-Wilk法進(jìn)行正態(tài)性檢驗,由Shapiro和Wilk于1965年提出。常簡稱為W法,軟件可計算出W統(tǒng)計量。適用于小樣本。計算時需要采用常數(shù)表(附表
52、9)。大樣本時計算很復(fù)雜。,【例7.6】用小鼠研究正常肝核糖核酸(RNA)對癌細(xì)胞的生物學(xué)作用,測定水層RNA誘導(dǎo)肝癌細(xì)胞的果糖二磷酸酯酶(FDP)活性的結(jié)果如下,請分析FDP活性是否服從正態(tài)分布?,排序后的數(shù)據(jù)一分為二,,由附表9獲得,所有變量值的SS,三、采用Kolmogorov-Smirnov法進(jìn)行正態(tài)性檢驗,由Kolmogorov與Smirnov提出。原理:尋找最大距離(Distance), 所以常簡稱為D法。適用于大樣本
53、。,具體做法: 比較實際頻數(shù)與理論頻數(shù)的累積概率間的差距,找出最大距離D,根據(jù)D值來判斷實際頻數(shù)分布是否服從理論頻數(shù)分布。,Kolmogorov-Smirnov擬合優(yōu)度檢驗 圖示,P-P圖,表7-8的第4列,表7-8的第5列,六、蠓蟲分類模型,兩種蠓蟲Af和Apf已由生物學(xué)家羅納(W.L.Grogna)和威爾斯(W.W.Wirth)與1981年根據(jù)他們的觸角長和翼長加以區(qū)分。已經(jīng)測得9只Af和6只Apf的數(shù)據(jù)如下:Af:
54、(1.24,1.72),(1.36,1.74),(1.38,1.64), (1.38,1.90),(1.40,1.70),(1.48,1.82), (1.38,1.82),(1.54,1.82),(1.56,2.08)Apf:(1.14,1.78),(1.18,1.96),(1.20,1.86), (1.26,2.00),(1.28,2.00),(1.30,1.96),根據(jù)觸角長和翼
55、長來區(qū)別一只蠓蟲標(biāo)本是Af還是Apf是很重要的。(1)給定一只Af族或Apf族的蠓蟲,如何正確的區(qū)分它是哪一組.(2)將你的方法用于觸角長分別為(1.24,1.80),(1.28,1.84),(1.40,2.04)的三個標(biāo)本.(3)設(shè)Af是傳播益蟲,Apf是某種疾病的載體,是否應(yīng)該修改你的分類方法?若需要修改,為什么?,一、分析,這是典型的分析判斷題。它給出有限的實驗數(shù)據(jù)對,需要根據(jù)數(shù)據(jù)對的特點,對兩類蠓蟲進(jìn)行分類。通常首先要觀
56、察數(shù)據(jù),有一些直觀的認(rèn)識:Af:(1.24,1.72),(1.36,1.74),(1.38,1.64),(1.38,1.90), (1.40,1.70),(1.48,1.82),(1.38,1.82),(1.54,1.82), (1.56,2.08)Apf:(1.14,1.78),(1.18,1.96),(1.20,1.86), (1.26,2.00),(1.28,2.00),(1.30,1.96),通過對數(shù)據(jù)的初步觀
57、察,應(yīng)該有一些直觀的認(rèn)識,比如平均值的差別等等。但與對蠓蟲進(jìn)行分類的要求還相差甚遠(yuǎn)。為了更進(jìn)一步的加深直觀的認(rèn)識,我們還可以畫出散點圖,觀察其特點。,散點圖顯示,兩種蠓蟲顯然是分開的。根據(jù)這個特點,可以尋找一些初等的方法。但要更加精確的定量分析,需要找出它們的分布規(guī)律。,2、基本假設(shè),根據(jù)我們的常識,蠓蟲的觸角長和翼長應(yīng)該服從二維正態(tài)分布。于是有如下基本假設(shè):1、兩種群的觸角長ξ和翼長η服從二維正態(tài)分布。,Af和Apf類的密度函數(shù),
58、其中 為10個未知參數(shù),它們分別為Apf和Af的期望、標(biāo)準(zhǔn)差和相關(guān)系數(shù)。,參數(shù)的估計,由已知所給數(shù)據(jù),可以分別確定f(x,y)和g(x,y)中的有關(guān)參數(shù)。利用矩估計法有:,求得參數(shù)值如下表:,密度函數(shù)圖像,從圖可以看出,兩個函數(shù)的峰是明顯的分開的,這樣有利于分類。如何分類?,3、應(yīng)用貝葉斯公式求概率:,先復(fù)習(xí)課本上的一個例子:例(
59、假陽性之謎)設(shè)對于某種少見的疾病的檢出率為0.95:如果一個被檢驗的人有某種疾病,其檢驗結(jié)果為陽性的概率為0.95,;如果該人沒有這種疾病,其檢驗結(jié)果為陰性的概率為0.95.現(xiàn)假定某一人群中患有這種病的概率為0.001,并從這個樣本中隨機(jī)抽取一個人進(jìn)行檢驗,檢查結(jié)果為陽性?,F(xiàn)在問這個人患有這種病的概率有多大?,解:設(shè)A=“患有這種疾病”, B=“經(jīng)檢驗此人為陽性”,,利用貝葉斯推斷:,分析:設(shè)蠓蟲的觸角長和翼長分
60、別為(x,y),我們要判斷它屬于哪一類,就需要求出它屬于Apf類的概率和屬于Af類的概率。即:P(Apf|(x,y)) 和 P(Af|(x,y))并且,P(Apf|(x,y))+P(Af|(x,y))=1令A(yù)1代表Af類蠓蟲,A2代表Apf類蠓蟲B代表觸角長和翼長分別為(x,y)的蠓蟲。要求出,根據(jù)條件概率的定義,但P(B)=0于是,我們考慮(X,Y)落入小鄰域: 內(nèi)的概率。根據(jù)全概率公式,,首先看P(A1
61、)和P(A2)P(A1)和P(A2)應(yīng)該與兩種蠓蟲的數(shù)量有關(guān)。如果數(shù)量比是1:1,那么P(A1)=P(A2)=0.5,如果數(shù)量比是1:2,那么但它們的數(shù)量比是多少呢?題目中沒有給出。,第二個假設(shè),2、認(rèn)為Af與Apf類群體的數(shù)量比r是一個確定值。由于問題沒有特別說明,因此假設(shè)Af與Apf的總數(shù)相同,即數(shù)量比為1:1或由于題目中給出9只Af樣本和6只Apf樣本,故假定Af占總數(shù)的9/15,Apf占總數(shù)的6/15。一般情況,A
62、f占 ,Apf占,P(B|A1)和P(B|A2)的計算,由于A1表示Af類蠓蟲,密度函數(shù)為B表示(X,Y)落入小鄰域:于是P(B|A1)的表達(dá)式為:,根據(jù)二重積分的幾何意義近似的有:同理,,于是,我們把代入得到:,初步應(yīng)用:,把樣本代入 可以計算這個樣本屬于Af類的概率。例如,若樣本值為:(1.24,1.8
63、0),r=1,則可以計算出P(A1|B)=0.264,從而得出 P(A2|B)=1- P(A1|B)=0.736,閥值(臨界值)α的選取,通常,由于P(A2|B)> P(A1|B),我們判斷此樣本屬于A2,也就是屬于Apf。但實際上更一般的考慮,我們可以設(shè)定一個閥值(臨界值)α,若P(A1|B)> α則認(rèn)為樣本屬于A1,也就是Af類。若α取0.5,就是上面的判斷。根據(jù)不同要求, α可以取其他的值,如0.9,0.
64、1等等。,4、閥值(臨界值)α的選取,并進(jìn)行討論,選定α的值進(jìn)行上述判斷時,冒著犯兩類錯誤的風(fēng)險:第一類錯誤是將Apf類誤判為Af類;第二類錯誤是將Af類誤判為Apf類。閥值α的選取依賴于把Apf類誤判為Af及把Af類誤判為Apf類的概率。現(xiàn)將兩類錯誤分析如下:,(1)Apf類正誤判。把Af類識別為Apf類.根據(jù)我們的判斷方法,發(fā)生這種錯誤時,一定是p< α,并且樣本屬于Af類。因此,其概率為:同理, (2)Apf類
65、負(fù)誤判。把Apf類識別為Af類,概率為:,誤判概率的計算,1、根據(jù)二重積分的定義,采用分割、近似、求和的方法。首先把積分區(qū)域分割成小矩形;每個小矩形與密度函數(shù)構(gòu)成的小曲頂柱體用立方體近似,立方體的高等于小矩形上的密度函數(shù)值;然后求和得出近似值。分割的越細(xì)密,近似程度越高。2、為了方便計算,可以用一個較大的矩形區(qū)域作為積分區(qū)域,而把被積函數(shù)定義為如下形式:,經(jīng)過這樣處理之后,就可以用matlab編程計算。3、Apf負(fù)誤判的概率可以類似
66、的求得。4、兩種誤判都受閥值α的選取以及總比值r的制約。由假設(shè)(2)知,r可取1或1.5,α的選取,分別取r=1和1.5,用不同的閥值a試驗,計算出兩類犯錯概率如下表:由表可見,當(dāng)閥值為0.5時,不論a=1還是1.5,正、負(fù)誤判的概率都小于3%,因而兩者的分布明顯分開,可以作為判斷Apf類或Af類的準(zhǔn)則,5、模型的檢驗:,只有(1.28,1.84)在兩種群數(shù)量比由1變?yōu)?.5時改變了類別。對此我們需要進(jìn)一步檢驗。上文計算,犯兩類
67、錯誤的概率低于3%,兩種群的分布應(yīng)明顯分開,可見(1.28,1.84)落在f,g的末尾處。發(fā)生這種情況的概率并不大。,函數(shù)p(x,y)圖像:,可以看出,p在最大值和最小值附近變化不大,比較平滑,取介于最大值和最小值之間的值只是在一個較小的區(qū)域內(nèi),在這個區(qū)域內(nèi)p值不穩(wěn)定。f,g函數(shù)大部分落在p的穩(wěn)定區(qū)域內(nèi),所以,根據(jù)p來檢驗是可行的。,5、模型的修改:,(3)設(shè)Af是傳播益蟲,Apf是某種疾病的載體,是否應(yīng)該修改你的分類方法?若需要修改,
68、為什么?這個問題只需要對閥值α做出修改即可。,(1)如果Apf是某疾病的載體,Af是益蟲,模型做何修改?若Apf危害極大,務(wù)必消除,則取a=0.01,將消滅100%的Apf,而消滅10.9%的Af(2)如果Af為傳粉益蟲,是珍稀動物,需重點保護(hù),則可取a=0.9,可以消滅90.8%的Apf,而消滅不超過1%的Af,利用這種思想,在不同情況下,對于不同的試驗?zāi)康目梢酝ㄟ^閥值的不同選取來實現(xiàn)。,謝謝大家!,散點圖,xaf=[1.2
69、4 1.36 1.38 1.38 1.40 1.48 1.38 1.54 1.56 ];yaf=[ 1.72 1.74 1.64 1.90 1.70 1.82 1.82 1.82 2.08];xapf=[1.14 1.18 1.20 1.26 1.28 1.30 ];yapf=[ 1.78 1.96 1.86 2.00 2.00 1.96];plot(xaf,yaf,'*',xapf,yapf,'+
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于概率主題模型的情境建模方法研究.pdf
- 考慮時空相關(guān)性的源荷功率概率建模和概率預(yù)測方法.pdf
- 淮北煤田灰?guī)r地震巖石物理概率建模方法.pdf
- 基于云模型負(fù)荷建模的小干擾穩(wěn)定概率評估方法研究.pdf
- 概率計算方法
- 計及分布式電源出力相關(guān)性的概率建模方法研究.pdf
- 結(jié)合測試用例約簡和概率圖建模的軟件錯誤定位方法研究.pdf
- 基于數(shù)學(xué)建模思想的“概率統(tǒng)計”課程教學(xué)
- 概率模糊集理論研究及其建模.pdf
- 數(shù)學(xué)建模-基于概率分布法的機(jī)票預(yù)訂策略
- 圖論中的組合方法和概率方法.pdf
- 基于概率的工業(yè)過程數(shù)據(jù)建模與故障檢測.pdf
- 基于概率建模圖像標(biāo)注算法的研究及實現(xiàn).pdf
- 低截獲概率相控陣?yán)走_(dá)系統(tǒng)建模與仿真.pdf
- 概率論和數(shù)理統(tǒng)計的數(shù)學(xué)建模研究
- 風(fēng)電功率概率特征建模及風(fēng)險分析應(yīng)用.pdf
- 數(shù)學(xué)建?;A(chǔ)概率統(tǒng)計部分2回歸分析
- [學(xué)習(xí)]概率的定義及其確定方法
- 排列組合、概率知識在數(shù)學(xué)建模中的應(yīng)用
- 基于概率建模的電網(wǎng)安全性風(fēng)險評估.pdf
評論
0/150
提交評論