樣本均值與總體均值的含義是不相同的。一般來說,我們想要獲悉的是總體均值,但實際上,我們隻能計算得到樣本均值,然後用它來估計總體均值。我們使用置信區間,嘗試用它用來評價“使用樣本均值估計總體均值”的精确程度。
置信區間如果你想要估計國内女性的平均身高,你可能會這樣做:調研10名女性的身高為樣本,并估計:樣本的均值接近于總體均值。讓我們用程序模拟一下整個過程。
隻是簡單地獲得樣本均值沒有太大意義,因為我們并不知道用它來估計總體均值是否準确。那麼這樣估計的準确性究竟如何呢?我們可以觀察樣本的方差:樣本方差越大,這樣估計的準确性就越低,且越不穩定。
說明:
文中提到的“樣本”概念,其本身是可以由多個單元組成的,我們稱單個樣本所含的單元總數為樣本容量。比如:把“所有中國人的身高”視為一個總體,從中随機取一百個人的身高。對于總體來說,這一百個人的身高數據就是它的一個樣本。而某一個樣本中個體數量就是樣本容量。注意:不能說樣本的數量就是樣本容量,因為總體中的若幹個個體隻組成一個樣本,樣本容量不需要帶單位。
然而光有方差或标準差(standard deviation)還是沒有太大意義,為了真正地摸清樣本均值與總體均值的相關性,我們需要去計算标準誤差(Standard Error),它常被被用來度量基于不同樣本得到的樣本均值間的方差(離散程度)。
注意:計算标準誤差是建立在以下假設條件之上:
1、樣本是無偏的且服從正态分布
2、樣本間是相互獨立
如果假設無法滿足,标準差也将不再準确。有很多方法用來進行檢驗并作出修正。标準差的計算公式為:
公式中,σ 是樣本标準差,n是樣本數量。
在Scipy的Stats庫中,提供了内建的标準誤差的函數。這個函數默認進行自由度修正,通常不需要啟用(對于足夠大的樣本,自由度的修正實際上顯得無關緊要)。你可以把ddof這個參數設置為0來關閉修正。
拓展:
standard deviation 是标準差,表示一組數值之間的離散程度,計算公式為:
standard error 是标準誤,是樣本統計量的标準差,這裡說的統計量,包括但不限于平均數,标準差,方差,相關系數等。計算公式分為兩部分:
1、總體标準差已知,公式為:
2、總體标準差未知,采用樣本标準差的無偏估計,公式為:
注意,标準差與标準誤差公式中的N和n含義不同。N代表的是樣本容量,比如10個人為一組,樣本容量就是10;而n代表的是樣本統計量的數量,比如每10個人一個樣本,重複采樣20次進而對20個樣本分别求得樣本均值,就有20個“均值樣本",那麼n=20。
假設我們的數據是基于正态分布的,我們可以使用标準誤差來計算“置信區間”。首先我們要做的,是預先确定我們期望達到的置信水平,比如95%。然後,我們要決定在正負幾個标準差之内,能夠達到這個置信水平。事實證明對于标準正态分布,95%的置信水平對應于正負1.96個标準差之内。當樣本量足夠大時(通常 > 30),中心極限定理便能派上用場,據此放心地做出樣本是服從正态分布的假設。如果樣本量偏小,一個更加謹慎的做法是,采用“指定适當的自由度的t分布”。實際應用中,可以根據累積分布函數來計算達到符合預期的置信區間,對應的标準差範圍是多少。關于分布函數與累計分布函數以前的文章中也有過介紹,可以查看參考。現在讓我們來演示一下如何通過Python 函數做檢驗。
注意:請謹慎應用中心極限定理,由于在金融領域中,許多數據都不是正态分布的。因此不考慮這些情況就随意地應用中心極限定理,将數據做正态分布的推斷,是不被建議的。
以下是我們将95%的置信區間可視化以後的效果:
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!