擲一枚均勻的硬币200次,出現100次正面朝上的概率為:
一般地,這裡的随機變量X服從二項分布X~B( 200 , 1/2 ). 對應的概率及分布如下:
二項分布的研究始于雅各布•伯努利(Jacob Bernoulli,1654-1705)。在《推測術》(1713)一書中,伯努利提出了通過"頻率來估計概率"的"大數定理":
設m是n次獨立試驗中事件A發生的次數,且事件A在每次試驗中發生的為p,則對任意正數ε,有公式:
這為概率在實際中的應用提供了有力工具。因為很多時候某事件發生的概率是未知的,但是通過多次重複試驗,以頻率來估計概率,可行性很好。在知曉了單次事件發生的概率以後,接下來是研究多次重複實驗的二項分布的計算問題。當然,對于個别随機變量求值,通過公式(*)就可計算得到。但是實際運用中,(*)中的實驗次數n往往很大,而且需要對(*)在某區間内求和。怎麼處理呢?下一個大咖出場了。
棣莫弗(De Moivre,1667-1754)是18世紀法國著名數學家,1933年,他提出和證明了以下的棣莫弗中心極限定理:
中心極限定理一度在概率論研究中占據了核心地位,在棣莫弗的基礎上,以拉普拉斯為代表的數學家做出了更深入的研究。從現在的角度來看,(***)具有以下幾方面的重要意義。首先, 該定理的初衷是計算二項分布X∼B(n , 1/2)中, X 落在二項分布中心點E(X)=1/2·n周圍的概率,這隻需在原式基礎上稍作變化即可:
可得到伯努利大數定理(**)。
最後,也是最重要的一點,該定理說明了:二項分布的極限分布是正态分布。盡管棣莫弗時代并沒有正态分布的概念,但它的确以密度函數的形式在中心極限定理中出現了。這是正态分布的第一次登場,但一點也不閃亮,因為中心極限定理提供了一個近似計算二項分布的簡便算法,但其中蘊含的正态分布并沒有被獨立看待,也沒有像現在這樣的重要,甚至漸漸被遺忘。但是在另一個領域,正态分布正等待一個超級大咖的出現。
誤差分析源于天文、航海、戰争等實際需要,測量必不可少。但受限于器材精度等原因,測量誤差無處不在。如何更好的減少誤差自古就是一個世界級難題。
17世紀以前多以多組測量數據的算術平均值來估計真值,到了18世紀在拉普拉斯等數學家的努力下有了一定的突破。最終在勒讓德和高斯手中得到一個系統的方法——最小二乘法。
高斯的最小二乘法因為與"正态分布"強強結合,而更勝勒讓德一籌。高斯的大緻思路是這樣的。
設一次測量得到了n個數據:a,b,c,...。 它們與真實值這間的誤差x分别為:x-a,x-b,x-c,...。高斯引入了下面的概率密度函數:
這是大多數人印象中正态分布的第一次出現。的确,高斯在誤差分析中強有力的使用了正态分布,它是如此的深刻和意義重大,以及影響深遠。數學家們将在高斯發現的這個強有力的工具下,将統計與概率帶入一個前所未有的深度。
融入社會科學
正态分布在高斯及拉普拉斯的努力下,在誤差分析上取得了巨大的成功。從19世紀開始,數學家試圖将其應用拓展到更寬廣的領域。衆多探索者之中,第一個獲得重要成果的是比利時統計學家凱特勒 (Adolphe Quetelet, 1796-1874)。
凱特勒 (Adolphe Quetelet, 1796-1874)
我們知道,統計學最早可追溯到公元前,而概率論萌芽于中世紀。但是由于16世紀賭博的盛行和對機會獲勝的好奇,使得在費馬、惠更斯等數學家的努力下,概率論得到了前所未有的發展,可以說到了18世紀,概率論已經日趨成熟了。但是統計學卻進步很緩慢。直到19世紀,随着自然科學和社會科學中各類大數據的常态化,加之概率論的發展成熟,才為統計學的理論研究和實踐應用提供了條件。
首先,是統計學中抽樣調查的使用。拉普拉斯首先使用了代表性抽樣來估計人口數量,凱特勒沿用了拉普拉斯的方法和數據比例。但當時的抽樣調查=面臨很多的問題。比如,在衆多的我們并不知曉的個體中,應該選取哪些個體作為樣本?尤其在處理社會問題上,某一事件受到的影響因素往往很多,而又該把哪部分個體放在一起研究才會保證其"同質性"?在當時多少數學家認為不同質的個體放在一起研究意義是不大的。
在并沒有随機調查的方法指導下,凱特勒需要找到一個合适的工具來解決"同質性"問題。1823年,凱特勒訪問巴黎,深入學習了高斯正太誤差理論和拉普拉斯中心極限定理,并受此啟發而決定使用正态分布來處理"同質性"。即:凱特勒把一批數據是否充分好的拟合一個正态分布,作為該批數據是否同質的一個判斷依據。
凱特勒的這個方法,對于處理當時的較多社會學統計問題都取得了較好的拟合效果,以實踐為基礎,正态分布為利器,他一生寫了許多有關統計學方面的著作——《論人及其才能的發展》(1835)、《關于應用于道德科學、政治科學的概率論的書簡》(1846)等。同時,因為他的卓越貢獻而被統計學界稱為"近代統計學之父"、"國際統計會議之父"。
自然科學的滲透達爾文的表弟——高爾登(Calton,1822-1911)是凱特勒的超級粉絲。而凱特勒在社會統計學上取得的成功,啟發了高爾登将統計學引入到自然科學上的工作。
高爾登在1863年将正态分布應用于身高、考試成績等統計數據,發現拟合度都是很好的,因此,他也深信"于正态分布曲線拟合得好是數據同質性的可靠标志"。但同時,更多的統計數據研究也讓他産生了一些困惑。
如,他在考察親子兩代的身高數據時,發現它們居然遵循同一個正态分布。要知道,"受大量的影響不大的因素作用"是數據呈正态分布的條件 ,但是"遺傳"在親自兩代的形狀中占了主導因素。似乎在此産生了矛盾,經過多年的深入研究,高爾登用了一個"正态漏鬥"的虛拟裝置調和了這種矛盾。
如上圖,當釘子的排數n趨向于無窮大時,各槽内球數近似服從正态分布。現在在裝置的中間某處加一個橫闆将落下的小球截住,則落在橫闆上的小球依然服從正态分布。最後,将橫闆去掉,小球自然落下,這時會得到很多的小的正态分布。
高爾登借助這個實驗說明:1.一個大的正态分布可以由許多小的正态分布疊加而成。對應到"親自兩代身高"問題上,遺傳這個核心的影響因素,可以分解為許多個大量的影響不大的因素,這直接導緻親子兩代服從于同一個正态分布。2.個體同質性表面的背後是諸多"異質"成分的疊加。
這樣的研究振奮人心,高爾登進一步的将其運用到自然科學的統計研究上——人的肘長、身高,豌豆的性狀等等,并最後導緻了他關于回歸等重要統計學工具的發現。
總之,自從高斯在概率中引入"正态分布"這一概念以後,它首先在物理的誤差分析中扮演重要的角色,之後又被引入到社會科學和自然科學中,而到現在,它更是滲透到我們生活的方方面面。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!