tft每日頭條

 > 圖文

 > 統計學算法

統計學算法

圖文 更新时间:2025-02-02 20:42:16

費歇爾小時候有很嚴重的視力損傷,因此醫生禁止他晚上在燈光下閱讀。即使後來上學時,他的數學導師也在黑暗中教他數學,黑暗使人強大,長期在黑暗中腦補使得費歇爾形成了強大的幾何能力。這也是為什麼費歇爾可以很輕易的解決t檢驗的證明等一系列問題,因為這些問題本質上就是數形結合的問題。費歇爾的黑暗能力使他看到了别人都沒有注意到的新概念——自由度。在t檢驗中,我們首先要計算一個t值,t值的計算方法就是用均值的差值除以标準誤(這個我們後面會講到)。不同自由度下t值的分布是不同的,而一旦給定自由度,t值的分布就固定了(對于很多其他檢驗也是如此,比如方差分析中的F值),這就是為什麼我們在做t檢驗的時候要在後面的括号裡寫上自由度,一般情況下,對t檢驗而言,自由度就是被試量n再減去1。t值的分布不是一個固定的圖形,而是一系列圖形,費歇爾直接用多維幾何把他腦子裡在黑暗中呈現的分布族圖形給描述出來了,這也是為什麼戈賽特和卡爾.皮爾遜看不懂費歇爾的文章。

統計學算法(統計起源第四講)1

t值的分布是一個分布族,df就是自由度,對t檢驗df=n-1,df越大則t值的分布越接近正态分布

上一講我們說到了集中與平均數,這一講我們要說變異性了。我們為什麼需要變異性?假設你的班主任嘗試了新的教學方法,使全班的平均成績提高了5分,我們能說這個新方法是有效的嗎?如果這裡的成績指的是雅思成績,雅思滿分9分,平均提高5分的話這個老師就可以封神了;不過如果這裡的成績指的是SAT,SAT滿分1600分,提高5分有可能隻是這一次同學們偶然的發揮好了而已。如果不衡量變異性,我們将不知道5分意味着什麼。

統計學算法(統計起源第四講)2

實驗A和實驗B中,兩組樣本的均值差值都是5,但實驗A的樣本間有明顯的不同,兩個實驗的差别就是變異性的不同

生活中,無論我們測量什麼,都有意想不到的變異,我們不能徹底消滅變異,但是卻可以測量它。把一組數據中的每一個分數都減去他們的平均數,然後平方(平方是為了消除負号),再把它們加起來,這就是平方和SS(sum of squared deviations)。請記住SS,因為我們之後會經常用上它。

統計學算法(統計起源第四講)3

SS有兩種計算方法,得到的結果是一樣的,右面的方法計算起來容易些,所以叫計算公式

平方和再除以自由度就是方差,對于總體而言,每個數據都是自由的,因此自由度就是總的個數N;對于樣本而言,樣本均值理論上應該等于總體的均值,用總體均值和前n-1個數據就可以估計最後一個數據,因此隻有n-1個數據是自由的,所以樣本的自由度是n-1。

統計學算法(統計起源第四講)4

由于範圍變窄了,樣本的變異性要小于總體的變異性,而樣本方差除以n-1時彌補了這個差異,就變回“無偏”了

另外,由于平方的操作導緻方差的單位不對,如果你測量了幾個人的身高(以米作為單位),這組樣本的方差的單位将是平方米,因此需要開根号,方差再開根号就是标準差。需要注意的是,我們在第一講說過,總體和樣本的标準差的符号不同。好好理解一下标準差吧,因為下一講,标準誤就要登場了。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved