當我們對數據總體進行統計時,由于每一個數據都被使用到,所以計算得到的标準差和方差是能夠準确體現整個數據集特征的。而當從總體中提取出某個樣本時,該樣本當中的數據在一定程度上會集中在某個範圍之中,由此計算出來的标準差和方差不能準确體現出數據總體的情況,通常來說得到的結果會比總體的要小。
舉一個例子,如果一個數據集滿足高斯分布(Normal Distribution),那當我們提取樣本的時候,數據基本上會集中在中間的部分,而邊緣值的數目可能會比較少,所以最後得到的樣本方差和樣本标準差會比總體要小。為了修正這個偏差,在計算樣本的方差和标準差時,我們将使用 n-1 代替 n。這樣處理後最直接的結果是,公式中的分母變小,得到的結果将會變大,能夠更加準确地通過該樣本預測總體的情況。
對于一個随機變量X進行n次抽樣,獲得樣本
,那麼樣本均值為
有偏樣本方差為:
無偏樣本方差為:
先聲明一下期望的兩個重要屬性:
定義一個公式:
那麼:
設:
對于證明,我還需要樣本平均值平方的期望值:
在繼續之前,我可以找到平均值的期望值和平均值的方差的表達式:
期望值運算符是線性的:
同理:
那麼:
又:
前面已經得到:
我們知道:
我使用前面的結果表明,除以n-1可以提供無偏估計:
樣本方差的期望值等于無偏估計的總體方差。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!