有人天真的人認為我們的世界在很多領域經常發生極端事件,在一些領域中也許存在這樣特别極端的例子,但是,其實很大一部分領域,極端現象都非常少,就像世界上沒有身高15米的人一樣,因為我們的世界大部分事物服從正态分布。
1. 正态分布的三個數學特性
“正态分布”這個詞,聽上去挺複雜,但它的英文叫normal distribution,直接翻譯過來就是“正常的分布”“一般的分布”,意思是其它分布都是特殊的,隻有正态分布是一般的、正常的。從名字上,我們也能感受到它的重要性。
有趣的是,正态分布不僅非常重要,而且還特别簡單。說起正态分布曲線,就是一條對稱的倒鐘形曲線,中間很高,兩邊下降,像個鼓起的小山。圖片就長這樣:
在正态分布的曲線圖裡,橫坐标代表随機變量的取值範圍,越往右,随機變量的值就越大。縱坐标,則代表概率的大小,最底下的概率是0,越往上概率越大。因為這條曲線是左右對稱的,所以中間的最高點,就代表平均值出現的概率最大,數據最多,而兩邊陡峭下降,就意味着越靠近平均值,數據越多,越遠離平均值,數據就越少。正态分布能給人充分的掌控感,每個案例相差都不會很大,通常翻不了天。
平均值和标準差就都可以用平時的流量數據統計出來。有了平均值和标準差你就可以大緻估算各種事件發生的概率:95%的事情都發生在兩個标準差之内,99.7% 的事情發生在三個标準差之内。有個極客說要找個美貌程度在兩個标準差之外的女朋友,那就意味着她要比 97.5%的人都漂亮。就像這個圖:
從上面的例子我們可以知道正态分布的三個特性:
一是均值就是期望。也就是正态分布曲線中間最高點的橫坐标,不僅代表随機變量的平均值,而且還等于它的數學期望,平均值也就代表随機事件的價值。
二是極端值很少。這有兩層含義:一是極端值出現的概率很低,二是極端值對均值的影響很小。也因此,正态分布是穩定的系統。
性質三:标準差決定胖瘦。前面講過,标準差就是方差的平方根,也能用來描述随機變量的波動情況。在正态分布中,标準差越大,數據的波動越劇烈,鐘形曲線就越矮胖,标準差越小,數據越集中,鐘形曲線就越高瘦。
2.決定正态分布的是中心極限定理
并不是所有随機事件都滿足正态分布,想要學會判斷什麼樣的事件滿足正态分布,需要了解“中心極限定理”。中心極限定理說,如果一個事件滿足下面這些條件,它的分布就是正态分布。
① 它是由多個(至少 20 個)随機變量相加的結果;
② 這衆多的随機變量是互相“獨立”的,且每個随機變量的方差都隻有有限大;
③ 起到決定性作用的因素也是多個。
中心極限定理的表達方式有好幾種,但核心的數學性質隻有一條——大量獨立的随機變量相加,無論各個随機變量的分布是怎樣的,它們相加的結果必定會趨向于正态分布。換句話說,正态分布是必然産生的。而這個證明源于嚴格的數學推導,是一定正确的。
3.正态分布是所有分布的參照系和世界的宿命
正态分布就像一個标準、一個參照系,服從正态分布,可以直接用它分析,不服從正态分布,也可以為人類指明繼續探索的方向。如果一個這個随機事件不服從正态分布,那它就一定不滿足正态分布背後的中心極限定理。而不滿足中心極限定理,我們就能知道,要麼是它的影響因素不夠多,要麼是各種影響因素不相互獨立,要麼是某種影響因素的影響力太大等,就給我們繼續探索指出了思路。
中心極限定理告訴我們,正态分布普遍存在。比如,影響人身高的因素很多,營養、遺傳、環境、族裔、性别等都有影響,這些因素的綜合效果就使人的身高服從正态分布。
所有的分布,不是正态分布,就是在變成正态分布的路上。信息論領域發現了“熵最大原理”,就是說,在一個孤立系統中,熵總是在不斷增大。正态分布就是所有已知均值和方差的分布中,信息熵最大的一種分布。
如果熵不斷增長是孤立系統确定的演化方向,那熵的最大化,所以就是孤立系統演化的必然結果。最終任何分布疊加最終都會形成正态分布,所以無論是對數分布還是幂律分布,無論是指數分布還是其他任何分布,隻要自身不斷演化,不斷自己疊加自己,最終也一樣會變成正态分布,好像冥冥中自有定數。
參考資料:
得到app《劉嘉·概率論22講》《萬維鋼·精英日課3》。
(關注、點贊、轉發)(全網同名:書童寒不冷)
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!