概率論中方差用來度量随機變量和其數學期望(即均值)之間的偏離程度。
統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。
概率論中的方差表示方法 :
樣本方差,無偏估計、無偏方差(unbiased variance)。對于一組随機變量,從中随機抽取N個 樣本,這組樣本的方差就 是Xi^2平方和除以N-1。
總體方差,也叫做有偏估計,其實就是我們從初高中就學到的那個标準定義的方差,除數是N。
統計中的方差表示方法 :
簡單的回答,是因為因為均值你已經用了n個數的平均來做估計在求方差時,隻有(n-1)個數和均值信息是不相關的。
而你的第n個數已經可以由前(n-1)個數和均值來唯一确定,實際上沒有信息量。所以在計算方差時,隻除以(n-1)。
那麼更嚴格的證明呢?
樣本方差計算公式裡分母為n-1的目的是為了讓方差的估計是無偏的。
無偏的估計(unbiased estimator)比有偏估計(biased estimator)更好是符合直覺的,盡管有的統計學家認為讓mean square error即MSE最小才更有意義,這個問題我們不在這裡探讨;
不符合直覺的是,為什麼分母必須得是n-1而不是n才能使得該估計無偏。
首先,我們假定随機變量的數學期望是已知的,然而方差未知。在這個條件下,根據方差的定義我們有
由此可得
這個結果符合直覺,并且在數學上也是顯而易見的。
現在,我們考慮随機變量
為了方便叙述,在這裡說明好數學符号:
前面說過樣本方差之所以要除以(n-1)是因為這樣的方差估計量才是關于總體方差的無偏估計量。在公式上來講的話就是樣本方差的估計量的期望要等于總體方差。如下:
但是沒有修正的方差公式,它的期望是不等于總體方差的
也就是說,樣本方差估計量如果是用沒有修正的方差公式來估計總計方差的話是有偏差的
下面給出比較好理解的公式推導過程:
也就是說,除非
否則一定會有
需要注意的是不等式右邊的才是的對方差的“正确”估計,但是我們是不知道真正的總體均值是多少的,隻能通過樣本的均值來代替總體的均值。
所以樣本方差估計量如果是用沒有修正的方差公式來估計總計方差的話是會有偏差,是會低估了總體的樣本方差的。為了能無偏差的估計總體方差,所以要對方差計算公式進行修正,修正公式如下:
這種修正後的估計量将是總體方差的無偏估計量,下面将會給出這種修正的一個來源;
為了能搞懂這種修正是怎麼來的,首先我們得有下面幾個等式:
1.方差計算公式:
2. 均值的均值、方差計算公式:
對于沒有修正的方差計算公式我們有:
因為:
所以有:
在這裡如果想修正的方差公式,讓修正後的方差公式求出的方差的期望為總體方差的話就需要在沒有修正的方差公式前面加上來進行修正,即:
所以就會有這樣的修正公式:
而我們看到的都是修正後的最終結果:
這就解釋了為什麼要對方差計算公式進行修正,且為什麼要這樣修正。
上面的解釋如果有什麼錯誤,或者有哪些解釋不正确的地方歡迎大家指正。謝謝大家。希望能對大家有點幫助。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!
,
2023-07-19