正态分布是與中的定量現象的一個方便模型。各種各樣的心理學測試分數和現象比如計數都被發現近似地服從正态分布。
開始前,先看幾個重要概念:
概率函數:把事件概率表示成關于事件變量的函數
概率分布函數:一個随機變量ξ取值小于某一數值x的概率,這概率是x的函數,稱這種函數為随機變量ξ的分布函數,簡稱分布函數,記作F(x),即F(x)=P(ξ<x) (-∞<x< ∞),由它并可以決定随機變量落入任何範圍内的概率。
概率密度函數:
概率密度等于變量在一個區間(事件的取值範圍)的總的概率除以該段區間的長度。
概率密度函數是一個描述随機變量在某個确定的取值點附近的可能性的函數。
概率分布函數與概率密度函數的關系:
連續型随機變量X的概率分布函數F(x),如果存在非負可積函數f(x),使得對任意實數x,有
f(x)為X的概率密度
高斯分布通過概率密度函數來定義高斯分布:
高斯分布的概率密度函數是:
均值為μ,标準差為σ
高斯分布的概率分布函數是:
高斯分布标準差在概率密度分布的數據意義
高斯分布重要量的性質
- 密度函數關于平均值對稱
- 平均值是它的衆數(statistical mode)以及中位數(median)
- 函數曲線下68.268949%的面積在平均值左右的一個标準差範圍内
- 95.449974%的面積在平均值左右兩個标準差2σ的範圍内
- 99.730020%的面積在平均值左右三個标準差3σ的範圍
其中第3-5條稱為68-95-99.7法則
舉一個例子:
檢查一些示例數據:
女性體重的平均值= 127.8
标準偏差(SD)= 15.5
一個标準差的範圍
兩個标準差的範圍
如何檢查你的數據是不是高斯分布
· 看直方圖! 是不是看起來像鐘形?
· 計算描述性彙總度量 - 平均值,中位數和模式是否相似?
· 2/3的觀察是否位于平均值的±标準差1内? 95%的觀察值是否在平均值的±2标準差範圍内?
中心極限定理正态分布有一個很重要的性質:在特定條件下,大量統計獨立的随機變量的和的分布趨于正态分布,這就是中心極限定理。中心極限定理的重要意義在于,依據這一定理的結論,其它概率分布能夠用正态分布作為近似。
高斯分布可以從二項式(或泊松)推導出假設:
p不接近1或者0時,n非常大
我們有一個連續變量而不是一個離散變量
考慮扔一次硬币10,000次。
p(頭)= 0.5,N = 10,000
對于二項分布:
平均數為μ = np=5000,标準差為σ = [np(1 − p)] 1/2=50。
此二項分布的概率在μ±1範圍内:
高斯分布均值±一個标準差的概率積分:
高斯分布線性組合的重要性質
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!