黑暗天才費歇爾本科的時候就在《生物統計》上發表了一篇短文(應當就是戈賽特遞給卡爾.皮爾遜的那篇),前面講到,卡爾.皮爾遜的師父高爾頓提出了一個回歸的概念,為了描述回歸又搞出一個相關系數來。卡爾.皮爾遜就把這個相關系數的分布問題介紹給了黑暗天才費歇爾。這位老皮爾遜也許本來隻是想用這個複雜的問題壓一壓天才的銳氣,沒想到我們的黑暗天才不到一周就搞定了。費歇爾在《生物統計》上投了稿,但是卡爾.皮爾遜卻看不懂裡面的數學,卡爾.皮爾遜叫來“學生”戈賽特,“學生”也是一臉懵逼。于是費歇爾的這篇文章就被扣下了,同時老皮爾遜的助手開始計算那張龐大的分布表。一年多以後,老皮爾遜發表了這個分布表,而費歇爾的工作隻是作為腳注出現。這就好比你本來有一篇頂刊一作,最後被雜志社主編坑了,變成了不知道多少作了。從此費歇爾再也沒有在《生物統計》上發表過文章,并且開始了與卡爾.皮爾遜的互黑之路,互相指責對方的工作有問題。我們可以想象當年一老一小對着統計問題開始互黑“我們這本來挺真實的統計學咋就被你搞成個玄學?”“自由度都搞不清楚就在那裡畫表?”
統計學總是有一堆表,圖中所示是标準正态分布的表,以後我們會用到
兩個人在統計方面處處存在分歧。其中很重要的一條就是卡爾.皮爾遜認為分布是真實的,而費歇爾認為總體的分布并不真實存在,隻能用樣本統計量來估計,并且每次估計都有誤差(這跟“學生”戈賽特的想法類似,費歇爾把戈賽特的t體檢的思想給一般化了)。老皮爾遜的想法就是收集足夠多的數據就可以把分布圖畫出來,實際上現在我們來看老皮爾遜求出的分布就是樣本分布,而費歇爾就說了,你樣本量跟總體數量差那麼多,你頂天了就是用樣本分布來估計一下總體分布。這裡費歇爾引出了總體分布與樣本分布的不同,于是就有了第二講中樣本統計量對總體參數的估計。同時費歇爾還提出一個好的統計量要滿足三個準則:一緻性、無偏性、有效性。上一講中計算樣本方差時除以n-1的操作就是它變成了無偏的,而開根号以後變成了樣本标準差就不再是無偏估計了。
總體與樣本的關系,用樣本統計量估計總體參數,這就是推論統計
“學生”戈賽特在《生物統計》期刊上發表的那篇題名《平均數的可能誤差》(The Probable Error of the Mean)的文章,所提出的問題就是,樣本的平均數跟總體的平均數究竟有多大的誤差呢?為了探究這個問題,我們必須引入第三種分布,樣本均值分布。樣本均值分布既不是樣本的分布也不是總體的分布,而是假設你不停的抽樣本,每組樣本的均值的分布。好,讓我們說人話,為了簡化問題,假設我們抓了4個外星人,然後我們教他們學英語,再帶他們去考雅思,然後他們分别考了2,4,6,8分。這個時候4個外星人的雅思成績就是要研究的總體(在特定的情況下總體包含的數量可能會很小,但是為了模拟真實的情況,我們還是抽取樣本來研究),我們從這4個數組成的總體裡有放回的抽取一個樣本量n=2的樣本,第一次,抽到了2和4,計算樣本平均數為3;第二次,抽到了4和4(因為有放回,可能抽到同一個數),計算樣本平均數是4,;第三次,抽到了2和6,計算樣本平均數還是4;就這樣一直抽,抽了16次以後,我們把這16組樣本的均值畫在圖上,就得到了樣本均值頻數分布圖。
左圖是一個隻有4個數的總體,右圖是樣本均值的頻數分布圖
在現實生活中,總體一般不會隻有4個數,比如所有運動員的身高,所有減肥者的體脂率,所有科學家的發量……而且當我們抽取很多很多次以後,我們就能觀察到樣本均值分布變成正态分布了!這就是中心極限定理。
随着格子越來越多,就能逐漸看出,樣本均值分布是滿足正态分布的
樣本均值服從的分布就叫樣本均值分布,一般來說,這個分布是服從正态分布的。樣本均值分布的均值等于總體的均值,樣本均值分布的标準差被稱為标準誤,标準誤等于總體的标準差除以根号n(n是樣本量,這個例子裡n=2)。因此,雖然樣本均值分布是假想中不斷抽取樣本并求出一大堆均值得到的,但是實際上樣本均值分布的形狀隻與總體有關。看着樣本均值分布的圖形,你就知道樣本的均值跟總體的均值之間的誤差有多少了,這個誤差不是一個固定的數,而是一個概率分布,它的特點是,如果你隻抽取一組樣本,它的均值很可能跟總體均值很接近,但是也有很小的概率離總體均值很遠。這就是戈賽特所提出的問題的答案。
在分布中面積的比就是概率,樣本均值M在總體均值μ附近的概率最大,距離越遠則概率越小
你能準确說出标準差和标準誤的區别嗎?歡迎評論區留言,這對後面的内容非常重要。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!