在本文開始前,大家應該清楚一點,樣本均值與總體均值是不同的。一般情況下,我們都希望得到總體均值,但是往往隻能計算出樣本均值,進而使用樣本均值去估計總體均值,這就引入了置信區間的概念,置信區間是用來衡量使用樣本均值估計總體均值的精确程度。
置信區間如果想要評估美國女性的平均身高,你會怎麼做?你可以能随機測量10名女性的身高,以此來估計整體的平均身高,下面我們使用代碼來模拟下這個過程:
計算樣本平均身高
很輕松我們就可以計算出樣本的平均身高,但是它對于我們卻沒有太大用處,因為我們無法确定它與總體平均間的關系。
可以通過計算方差來嘗試得到樣本的離散度,方差越高,則不穩定性與不确定性越高。
計算标準差
但這依舊是不夠的,這就需要我們計算标準誤,标準誤是用來衡量樣本均值的方差。
注:在計算标準誤之前,你首先需要确保你的樣本具有無偏性,并且數據是服從正态分布且獨立的。如果沒有滿足這些條件,那麼所計算出得标準誤就沒法使用,但對于這種情況,也有許多檢驗與矯正的方式,下文中會提到。
标準誤的計算公式:
标準誤計算公式
由此公式,寫出對應的Python代碼:
标準誤計算示例代碼
繼續我們的旅程,假設我們的數據是服從正态分布的,那麼我們可以使用标準誤來計算置信區間。首先,設定期望的置信區間,比如95%,然後就可以确定在多大的偏差範圍内可以包含95%的數據,對于标準正态分布來說,是介于-1.96與1.96之間。當樣本足夠大時(通常>30即可認為足夠大),根據中心極限法則,可以認定分布服從正态分布;如果樣本不夠大時,使用指定自由度的t分布則更為安全。
注意:在使用中心極限法則時要十分小心,因為許多金融數據都是非正态的
下面使用matplotlib繪制一下标準正态分布的95%的置信區間:
繪制置信區間示例代碼
繪制圖形如下:
95%置信區間
到這裡,我們除了孤零零的樣本均值之外,還計算出了置信區間,總體均值更有可能落在此區間内。假設我們的樣本均值為μ,那麼置信區間則為:
置信區間
必讀
在任何給定數據的情況下,估計的真值與置信區間都是固定的。但需要注意的是,“美國女性平均身高在63英尺與65英尺之間的概率為95%”這種常見的理解是不對的,正确的解讀應該為,“在多次試驗中,有95%的試驗中,真值會落在計算出得置信區間内”。所以當僅存在一個樣本,并計算出了置信區間的情況下,我們是沒法評估區間包含總體均值的概率的,下面會通過繪圖方式演示給大家。
例子中有100個樣本,對于每個樣本分别計算其樣本均值與置信區間
示例代碼
結果圖
進一小步回到本文最初的身高案例,因為樣本很小,所以我們使用t檢驗。使用之前提到的标準誤公式,可算出該樣本的置信區間
身高案例置信區間
用scipy.stats的内建函數,可以更為便捷地完成計算,但這裡需要注意參數中需要傳入自由度。
scipy内置函數計算
注:可以看到,伴随着置信水平的提高,置信區間範圍也更廣
如果假設總體服從正态分布,也可以使用更為簡化的方法進行計算,這裡就不再需要傳入自由度
正态假設下計算
現在再來回顧一下,我們設定了一個期望的置信水平,并由此得到了可能包含真值的一個區間,要求的置信水平越高,則區間範圍越大。通常情況下都不會使用一個點進行估計,因為其為真值的概率實在太小。值得注意的是,伴随着樣本數量的增加,我們得到的置信區間範圍會更加精确(小)。
樣本數量增加時置信區間縮小
示例接下來,我們使用一個包含100個數據的樣本(正态分布),同時繪制頻度柱狀圖及其均值的置信區間。
100個樣本圖例
示例圖
假設違背導緻的估計錯誤标準差、标準誤與置信區間的計算均依賴于特定的假設,如果這些假設不滿足,那麼就很有可能導緻在你期望的95%的置信水平下,最終得到置信區間達不到你的期望,這就被稱作估計錯誤。
下面就舉一個例子,也是非常常見的一種情況——自相關。自相關會導緻更多極值,這是因為新值會依賴于之前的值,則已經偏離均值的數據序列則更有可能繼續偏離,下面以如下形式的自相關數據來解釋一下:
自相關
下面我們産生一個自相關的數據序列,并将其繪制出來
産生自相關數據代碼
示例圖形
從圖形學也可以大緻看出,随着樣本數量的增加,樣本均值會逐漸收斂于0的,下面我們來驗證下,200組樣本,樣本大小逐步增大
示例代碼
示例圖
再計算所有樣本均值的均值。
計算所有樣本均值的均值
可以看到結果是非常接近于0的,那麼我們先基于經驗,認為其總體均值确實為0,接下來再基于正态分布的假設,來驗證下得到的置信區間是否準确,首先先引入兩個輔助函數,分别用于計算置信區間與檢查覆蓋範圍
輔助函數
接下來進行500次試驗,對每次試驗見過進行範圍檢查,看其得到的置信區間是否包含真值0,
經驗覆蓋率vs期望覆蓋率
由結果,實際的覆蓋率隻有73.2%,達不到期望的95%。針對自相關的情況,一般需要對其進行Newey-West矯正。
因此,在實際使用中,對于假設的檢驗是非常重要的,檢查數據自相關性有很快速便捷的檢查方法。Jarque Bera檢驗則可以幫助我們檢驗數據是否服從正态分布。
本文就到這裡,感謝閱讀,歡迎訂閱!
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!