互聯網時代每天産生的數據正在以指數級增長,如何看透數據背後隐藏的秘密和規律,統計學概率論應運而生,很快成為科學的基礎工具,滲透到了整個自然科學和社會科學領域。
概率論是研究随機現象數量規律的數學分支,它可以幫助我們應對不确定性、預測未來、并做出科學決策。面對随機而又複雜的世界,數學家用分布來刻畫變量的變差(在某個類型内部的差異)和多樣性(不同類型之間的差異),将變量表示為在數值上或類别上定義的概率分布。分布為事件或價值分配概率。
每日降雨量、考試分數或身高的分布為每一個可能的結果值分配一個概率。各種統計量将分布中包含的信息壓縮為單個數值,例如均值是分布的平均值。
社會科學家經常通過均值來比較各個國家的經濟發展水平。例如:2020年,美國的人均國内生産總值為63051美元,日本為39048美元,中國是10582美元。 常見的概率分布有泊松分布,二項分布,伯努利分布,正态分布,均勻分布。其中正态分布是最為核心的概率分布。
一、認識正态分布正态分布,也稱“常态分布”,又名高斯分布,正态曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。
正态分布函數公式如下:
其中μ為均數,σ為标準差。μ決定了正态分布的位置,與μ越近,被取到的概率就越大,反之越小。σ描述的是正态分布的離散程度。σ越大,數據分布越分散曲線越扁平;σ越小,數據分布越集中曲線越陡峭。在一個标準正态分布中,約有 68.2% 的點落在 ±1 個标準差的範圍内。約有 95.5% 的點落在 ±2 個标準差的範圍内。約有 99.7% 的點落在 ±3 個标準差的範圍内。
正态分布概念是由法國數學家棣莫弗于1733年首次提出的,後由德國數學家高斯率先将其應用于天文學研究,故正态分布又叫高斯分布,高斯這項工作對後世的影響極大,所以有了“高斯分布”的美稱。
在我們的自然界,大多數物種的高度和重量都滿足正态分布,它們圍繞着均值對稱分布,而且不會包含特别大或特别小的事件.
例如:我們從來沒有遇到過1米長的螞蟻,也沒有看到過1千克重的大象。世界似乎被代表正态分布的“鐘形”包圍着,很多事物都是服從正态分布的:人的高度、胖瘦、壽命、雪花的尺寸、測量誤差、燈泡的壽命、IQ分數、面包的分量、學生的考試分數,員工上班所需時間等等。
正态分布有以下幾個特征:
集中性:曲線的最高峰位于正中央,且位置為均數所在的位置。
對稱性:正态分布曲線以均數所在的位置為中心左右對稱且曲線兩端無線趨近于橫軸。
均勻變動性:正态分布曲線以均數所在的位置為中心均勻向左右兩側下降。
面積恒等:曲線與橫軸間的面積總等于1。
正态分布有兩個非常重要的參數,它們分别是:樣本的均值和标準差。均值是樣本中所有點的平均值。均值定義了正态分布的峰值位置,大多數值都集中在均值周圍。标準差是表示數據集與樣本均值的偏離程度。标準差定義了正态分布的寬度,決定了觀察值與均值的偏離程度。标準差越小,正态分布曲線越窄。标準差越大,正态分布曲線越寬。當分布較窄時,值落在均值附近的概率會更高。
正态分布的解釋力非常強,因為分布的均值、衆數和中位數是相等的;我們隻要用平均值和标準差就可以解釋整個分布。
就數學理論而言,正态分布有其優越性:
①兩個正态分布的乘積仍然是正态分布;
②兩個正态分布的和是正态分布;
③正态分布的傅裡葉變換仍然是正态分布。
二、正态分布産生的原因鐘形分布曲線無處不在,這是為什麼呢?其奧秘來自于中心極限定理。
中心極限定理:隻要各随機變量是相互獨立的,每個随機變量的方差都是有限的,且沒有任何一小部分随機變量貢獻了大部分變差,那N≥20個随機變量的和就近似一個正态分布。
中心極限定理告訴我們:
任何一個樣本的平均值将會約等于其所在總體的平均值。
不管總體是什麼分布,任意一個總體的樣本平均值都會圍繞在總體的平均值周圍,并且呈正态分布。
案例1:在一個500人的小城鎮中,人們的購買行為數據顯示,每個人平均每個星期花費100美元。在這些人中,可能有些人這個星期隻花50美元、下個星期則花150美元,另一部分人可能每3個星期花費300美元。而其他人則可能每個星期的花費在20至180美元之間。隻要每個人的支出都隻有有限的變差并且沒有任何一小部分人貢獻了大部分變差,那麼分布的總和必定是一個正态分布,其均值為50000美元。每個星期的總支出也将是對稱的:可能高于55000美元,也可能低于45000美元。
案例2:中心極限定理來解釋人類身高的正态分布。一個人的身高取決于基因、環境以及兩者之間的相互作用。基因的貢獻率可能高達80%,因此不妨假設身高隻取決于基因。研究表明,至少180個基因有助于人體長高。
例如,一個基因可能有助于長出較長的頸部或頭部,另一個基因可能有助于長出更長的胫骨。雖然基因之間存在相互作用,但我們可以假設在“長高”這件事情上,每個基因都是相互獨立的。如果身高等于180個基因貢獻的總和,那麼身高将呈現正态分布。
高爾頓釘闆試驗更加形象地證明了正态分布。弗朗西斯•高爾頓是英國著名的統計學家、心理學家和遺傳學家。他設計了一個釘闆實驗,希望從統計的觀點來解釋遺傳現象。
如下圖所示,木闆上釘了數排(n排)等距排列的釘子,下一排的每個釘子恰好在上一排兩個相鄰釘子之間;從入口處放入若幹直徑略小于釘子間距的小球,小球在下落的過程中碰到任何釘子後,都将以1/2的概率滾向左邊,以1/2的概率滾向右邊,碰到下一排釘子時又是這樣。如此繼續下去,直到滾到地闆的格子裡為止。試驗表明,隻要小球足夠多,它們在底闆堆成的形狀将近似于正态分布。因此,高爾頓釘闆實驗直觀地驗證了中心極限定理。
中心定理并不是萬能的,他擁有三個很重要的前提:随機、獨立和相加。
首先,第一個前提就是取樣需要随機。如果我們抽取人的時候,隻抽取長的高的或者隻抽取長得矮的人,那麼結果自然不符合正态分布。
第二,影響結果的因素是相互獨立或者是相互影響比較小的。以身高為例,影響一個人長高的因素有很多,例如:父母長得高還是矮、營養是否跟得上、是否熱愛運動......等等。父母長得高還是矮,對營養的補充沒有很大的關系,跟是否熱愛運動也沒有關系,所以可以看成是相互獨立的因素,所以身高的人群分布曲線自然就符合正态分布。
第三是相加,如果一個事物受到多種因素的影響,不管每個因素本身是什麼分布,它們加總後,結果的平均值就是正态分布。正态分布隻适合各種因素累加的情況,如果這些因素不是彼此獨立的,會互相加強影響,那麼就不是正态分布了。如果各種因素對結果的影響不是相加,而是相乘,那麼最終結果就變成了對數正态分布。
在一定條件下,各種随意形狀概率分布生成的随機變量,它們加在一起的總效應,是符合正态分布的。中心極限定理告訴我們:無論引起過程的各種效應的基本分布是什麼樣的,當實驗次數n充分大時,所有這些随機分量之和近似是一個正态分布的随機變量。
中心極限定理從理論上證明了,在一定的條件下,對于大量獨立随機變量來說,隻要每個随機變量在總和中所占比重很小,那麼不論其中各個随機變量的分布函數是什麼形狀,也不論它們是已知還是未知,當獨立随機變量的個數充分大時,它們的和的分布函數都可以用正态分布來近似。這就是為什麼實際中遇到的随機變量,很多都服從正态分布的原因,這使得正态分布既成為統計理論的重要基礎,又是實際應用的強大工具。中心極限定理和正态分布在概率論、數理統計、誤差分析中占有極其重要的地位。
三、正态分布的應用場景1、檢驗顯著性
我們可以利用正态分布的規律來檢驗各種平均值的顯著性差異。顯著性檢驗就是事先對總體(随機變量)的參數或總體分布形式做出一個假設,然後利用樣本信息來判斷這個假設(備擇假設)是否合理,即判斷總體的真實情況與原假設是否有顯著性差異。其原理就是“小概率事件實際不可能性原理”來接受或否定假設。如果經驗均值與假設均值之間的偏差了超過兩個标準差,那麼社會科學家就會拒絕這兩種均值相同的假設。
例如:現在提出這樣一個假設,即舊金山的通勤時間與洛杉矶的通勤時間相同。假設數據表明,舊金山的通勤時間平均為33分鐘,而洛杉矶為34分鐘。如果這兩個數據集的均值标準差都是1分鐘,那麼我們就不能拒絕舊金山和洛杉矶兩地通勤時間相同的假設。雖然二者的均值不同,但隻存在1個标準差。如果洛杉矶的平均通勤時間為37分鐘,那麼我們就會拒絕這個假設,因為均值之間相差4個标準偏差。
2、六西格瑪方法
六西格瑪方法是摩托羅拉公司于20世紀80年代中期提出的,目的是減少誤差,該方法根據正态分布對産品屬性進行建模。試想這個例子:一家企業專業生産制造門把手所用的螺栓。它生産的螺栓必須天衣無縫地與其他制造商生産的旋鈕組裝在一起。規格要求是螺栓直徑為14毫米,但是任何直徑介于13毫米與15毫米之間的螺栓也可以接受。如果螺栓的直徑呈正态分布,均值為14毫米,标準差為0.5毫米,那麼任何超過兩個标準差的螺栓都是不合格的。
兩個标準差事件發生的概率為5%,這個概率對于一家制造企業來說太高了。六個西格瑪要求每一百萬個機會中有3.4個出錯的機會,即合格率是99.99966%。企業可以根據中心極限定理,從整體中抽樣幾百個,并根據這樣一個樣本來估計均值和标準差。然後推斷出正态分布。這樣一來,這家螺栓制造企業就可以得出一個基準标準差,然後花大力氣去降低它。
3、對數正态分布
中心極限定理要求我們對随機變量求和或求平均值,以獲得正态分布。如果随機變量是不可相加而是以某種方式相互作用的,或者如果它們不是相互獨立的,那麼産生的分布就不一定是正态分布。例如,獨立随機變量之間的乘積就不是正态分布,而是對數正态分布。對數正态分布缺乏對稱性,因為大于1的數字乘積的增長速度比它們的和的增長速度快,比如,4 4 4 4=16,但4×4×4×4=256;而小于1的數字的乘積則比它們的和小,比如,1/4 1/4 1/4 1/4=1,但1/4*1/4*1/4*1/4=1/256。如果将20個不均勻地分布在0到10之間的随機變量相乘,那麼多次相乘後所得到的乘積将會包括一些很接近于零的結果與一些相當大的結果,從而生成如下圖所示的對數正态分布。
對數正态分布
一個對數正态分布的尾部長度取決于随機變量相乘的方差。如果它們的方差很小,尾巴就會很短,如果方差很大,尾巴就可能會很長。如前所述,将一組很大的數相乘會産生一個非常大的數字。在各種各樣的情況下都會出現對數正态分布,包括新冠肺炎的傳染人數、大多數國家的收入分布也近似于對數正态分布。
一個簡單的模型可以解釋為什麼收入分布更接近于對數正态分布而不是正态分布。這個模型将與工資增長有關的政策與這些政策所隐含的分布聯系起來。大多數企業和機構都按某種百分比來分配加薪,表現高于平均水平的人能夠得到更高百分比的加薪,表現低于平均水平的人則隻能得到更低百分比的加薪。與這種加薪方法相反,企業和機構也可以按絕對金額來分配加薪。例如普通員工可以獲得1000美元的加薪,表現更好的人可以獲得更多,而表現更差的人則隻能獲得更少。
百分比加薪方法與絕對金額加薪方法兩者之間的區别乍一看似乎隻是語義上的區别,但其實不然。如果每一年的績效都是相互獨立且随機的,那麼根據員工績效按百分比加薪,就會産生一個對數正态分布。即使後來的表現相同,未來幾年的收入差距也會加劇。
假設一名員工因過去幾年表現良好,收入水平達到了80000美元,而另一名員工則隻達到了60000美元。在這種情況下,當這兩名員工的表現同樣出色并都可以獲得5%的加薪時,前者能夠獲得4000美元的加薪,後者卻隻能得到3000美元的加薪。這就是說,盡管績效完全相同,不平等也會導緻更大的不平等。如果企業按絕對數額分配加薪,那麼兩名績效相同的員工将獲得相同的加薪,由此産生的收入分布将接近正态分布。
總結正态分布啟示我們,要用整體的觀點來看事物。用整體來看事物才能看清楚事物的本來面貌,才能得出事物的根本特性。不能隻見樹木不見森林,也不能以偏概全。同時正态分布曲線及面積分布圖告訴我們一定要抓住重點,因為重點就是事物的主要矛盾,它對事物的發展起主要的、支配性的作用。正态分布是科學的世界觀,也是科學的方法論,是我們認識和改造世界的最重要和最根本的工具之一,對我們的理論和實踐有重要的指導意義。
正态分布如此重要,不僅因為它在自然界普遍存在,還因為它是被證明的、其他複雜概率分布的演化結果,可以說是所有概率分布的最終宿命。根據“熵增”原理,一個孤立系統的熵總是在不斷增大。而對一個已知均值和方差的分布,正态分布的熵值最大,即這個孤立系統中的所有結果持續演化,最終一定是呈正态分布的穩定狀态。對于宇宙熵增的最終穩定态,是宇宙各部分能量達到平衡,失去活力,陷入熱寂。
參考資料:
《模型思維》
作者:斯科特·佩奇
浙江人民出版社
《從擲骰子到阿爾法狗:趣談概率》
作者:張天蓉
清華大學出版社
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!