什麼是正态分布
正态概率分布是連續型随機變量概率分布中最重要的形式,它在實踐中有着廣泛的應用。在生活中有許多現象的分布都服從正态分布,如人的身高、體重、智商分數;某種産品的尺寸和質量;降雨量;學習成績,特别是,在統計推斷時,當樣本的數量足夠大時,許多統計數據都服從正态分布。下面以人的身高為例,通俗解釋一下什麼是正态分布?
随機抽取200位同等年齡上下的男性,測量好他們的身高之後計算出平均身高,通過将平均身高和他們各自的身高對比,我們可以輕松發現這一現象:大多數男性的身高都集中在平均身高上下浮動,有極少數男性身高很矮,也有極少數男性身高很高。這200為男性身高的概率密度函數可能如下圖所示:
實際上,這種形狀十分常見,應用很廣泛,它叫做正态分布。
正态分布的概率密度函數
正态分布之所以被稱為正态,是因為它的形态看起來合乎理性。在現實生活中,遇到測量值之類的大量連續數據時,正常情況下都會期望看到這種形态。正态分布的概率密度函數的計算公式如下:
其中µ=均值,σ=标準差,π=3.14159,e=2.71828。如果随機變量X符合上述概率密度函數的分布,則稱X是服從參數為µ,σ2的正态分布,記為X~N(µ,σ2)。
正态分布的概率密度函數具有下列性質;
以x=µ為對稱軸的對稱分布;
σ2指分散性,σ2值越大,正态分布的曲線越扁平、越寬;
以x軸為漸近線;
若随機變量X1,X2…,Xn皆服從正态分布,且相互獨立,則對任意幾個常數a1,a2,…,an(不全為0),Z=a1X1 a2x2 …… anXn也服從正态分布。
正态分布求概率
在《每天一點統計學——概率密度函數》中,我們已經知道如何使用概率密度函數求概率的方法。但是在正态分布中求概率是非常困難的,提供包括所有不同的µ和σ的正态分布表也是不可能的。所以統計學家通過一種簡單的方法來解決這一問題。對于一個随機變量X~N(µ,σ2),如果令Z=(x-µ)/σ(标準分),則随機變量Z服從µ=0,σ2=1的正态分布,記為Z~N(0,1),稱為标準正态分布。
标準正态分布的概率密度函數為:
通過上式可以看出标準正态分布不再依賴于參數µ和σ,它是固定的,是唯一的。因此,标準正态分布中随機變量與其概率的對應關系被計算出來,并列為标準正态概率分布表,以便查詢。于是,對于不同的µ和σ,隻要将變量值轉化為Z值,然後查表即可得到其概率值。
标準正态概率分布表
例子:已知研究生完成一篇碩士論文的時間服從正态分布,平均花費2500h,标準差為400h,現随機找到一個已完成論文的學生,求:
(1)他完成論文的時間超過2700h的概率;
(2)他完成論文的時間低于2000h的概率;
(3)他完成論文的時間在2400h~2600h之間的概率。
解:用X表示完成論文的時間,則X~N(2500,400*400)。這是非标準的正态分布,如果直接計算概率是非常麻煩的,我們首先将其轉化為标準正态分布,然後通過标準正态分布表查出變量的概率值。
(1)求P(X>2700)
Z=(x-µ)/σ=(2700-2500)/400=0.5
可以查詢标準正态分布概率表,表中第一列是z值,第一行是z值的補充值,現z=0.5求的是從0.5到 ∞的區間上的概率,即1-0.6915 = 0.3085。
(2)求P(X<2000)
Z=(x-µ)/σ=(2000-2500)/400=-1.25
根據正态分布的對稱性,1.25的概率值與-1.25的概率值完全對稱,所以隻查1.25的概率值即可。Z=1.25時,P(1.25)=0.8944,則P(-1.25)= 1-P(1.25)=0.1056
(3)求P(2400<X<2600)
Z1=(x-µ)/σ=(2600-2500)/400=0.25
Z2=(x-µ)/σ=(2400-2500)/400=-0.25
查詢标準正态分布概率表,可得出P(0.25) = 0.5987,P(-0.25) = 0.4013。
P(2400<x<2600)=P(x<2600) - P(x<2400) = 0.5987 - 0.4013 = 0.1974
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!