在20世紀以前,統計學所處理的數據一般都是大量的、自然采集的,所用的方法以拉普拉斯中心極限定理為依據,總是歸結到正态。到了19世紀末期,數據與正态拟合不好的情況也日漸為人們所注意,
進入20世紀之後,人工試驗條件下所得數據的統計分析問題,日漸被人們所重視。由于試驗數據量有限,那種依賴于近似正态分布的傳統方法開始招緻質疑,這促使人們研究這種情況下正确的統計方法問題。
在這樣的背景之下,統計學三大分布χ2分布、t分布,F分布逐步登上曆史的舞台。這三大分布是數理統計必須的知識點。這三個分布都和英國現代數理統計學的三位大神有關
χ2分布
最早發現這個分布的其實是物理學家麥克斯韋,他在推導空氣分子的運動速度的分布時,發現分子速度在三個坐标軸上的分量是正态分布,而分子運動速度的平方v^2符合自由度為3的χ2分布。麥克斯韋雖然發現了這個分布,但是真正把他完善并推廣的是皮爾遜。沒錯,就是在數據挖掘中經常出現的,就是那個皮爾遜相關系數的那個人。
在分布曲線和數據拟合優度檢驗中χ2分布可是一個利器。而且皮爾遜的這個工作被認為是假設檢驗的開山之作。
皮爾遜在統計學上研究頗深,在19世紀末到20世紀初的很長一段時間,一直都是數理統計方面的執牛耳者。
t分布戈塞特(W.S.Gosset),筆名是大家都熟悉的學生氏(Student),而他發現的是t分布。戈塞特是化學、數學雙學位,依靠自己的化學知識進釀酒廠工作,工作期間考慮釀酒配方實驗中的統計學問題,追随卡爾·皮爾遜學習了一年的統計學,最終依靠自己的數學知識打造出了t 分布而青史留名。1908年,戈塞特提出了正态樣本中樣本均值和标準差的比值的分布,并給出了應用上極其重要的第一個分布表。戈塞特在t分布的工作是開創了小樣本統計學的先河。
F分布費希爾(R.A.Fisher) ,F分布就是為了紀念費希爾而用他的名字首字母命名的。在這三位中當屬費希爾的天賦最高,費希爾統計造詣極高,受高斯的啟發,系統地創立了極大似然估計法,這套理論現在在統計學參數估計中用處最廣。
費希爾還未出名,皮爾遜已經是統計學的泰鬥了,兩人歲數相差了33歲,而戈塞特介于他們中間。三人在統計學難免切磋見解。費希爾天賦極高,年少氣盛;而皮爾遜為人強勢,難免固執己見,以大欺小;費希爾着實受了皮爾遜不少氣。而戈塞特性格溫和,經常在兩人之間調和。畢竟是長江後浪推前浪,一代新人換舊人,在衆多擂台比試中,費希爾都技高一籌,而最終取代了皮爾遜成為數理統計學第一大劍客。
由于這三大劍客和統計三大分布的出現,正态分布在數理統計學中不再是一枝獨秀,數理統計的領地基本上是被這三大分布搶走了半壁江山。不過這對正态分布而言并非壞事,我們細看這三大分布的數學細節:假設獨立随機變量
這三大分布皆出自正态分布的,當初都是從正态分布切入進行研究的。有了統計學三大分布的加持,正态分布在數理統計學獨領風騷。
統計學這三大牛成為了現代數理統計學的奠基人。以哥塞特為先驅,費歇爾為主将,掀起了小樣本理論的革命,事實上提升了正态分布在統計學中的地位。在數理統計學中,除了以正态分布為基礎的小樣本理論獲得了空前的勝利,其它分布上都沒有成功的案例,這不能不讓人對正态分布刮目相看。在随後的發展中,相關回歸分析、多元分析、方差分析、因子分析、布朗運動、高斯過程等等諸多統計分析方法陸續登上了曆史舞台,而這些和正态分布密切相關的方法,成為推動現代統計學飛速發展的一個強大動力。
當然正态分布還有更多令人着迷的數學性質,我們可以欣賞一下:
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!