tft每日頭條

 > 生活

 > 一文搞懂正态分布所有知識點

一文搞懂正态分布所有知識點

生活 更新时间:2024-11-25 11:45:37

導讀:在現實生活中,絕大多數的随機不是均勻分布的。

作者:徐晟

來源:華章科技

一文搞懂正态分布所有知識點(終于有人把正态分布和二八法則講明白了)1

如果你是一位程序員,編程時就一定用過随機(random)函數。它的功能是在特定取值範圍内随機生成一些數。這個函數在很多編程語言中是預置的,可以直接調用。

例如,要從1到100之間随機生成一個整數,寫程序時就要事先定義一個1到100的取值範圍,然後調用随機函數,得到一個該取值範圍内等概率的随機數,就是說這100個數中出現任何數字的概率都是1/100。

用慣了随機函數的程序員會誤以為“随機”就代表了均勻分布的數據,即等概率事件。這是一個誤區。在現實生活中,絕大多數的随機不是均勻分布的。

舉個例子,我們知道抛硬币正反兩面朝上的概率各有一半,但如果你真的抛上10次硬币,就會發現硬币正好有5次正面朝上的概率既不是50%,也不是10%,而是在25%左右。因為在自然界中,最普遍的“随機”是正态分布(也稱為高斯分布),其分布曲線呈“鐘形”,如圖1-1所示。

一文搞懂正态分布所有知識點(終于有人把正态分布和二八法則講明白了)2

▲圖1-1 正态分布數學函數圖

正态分布是一組數據在正常狀态下的概率分布。描述這種分布隻需要兩個參數:一是這組數據的平均值,通常用希臘字母μ來表示,它位于函數圖像正中間的坐标位置。二是标準差,通常用希臘字母σ來表示,它代表了這組數據的離散程度。标準差越小,數據就越集中,反之說明數據越分散。

假如一組數據服從正态分布,根據分布特性,其中有68%的數會集中在平均值正負1個标準差區間内,有95%的數會集中在平均值正負2個标準差區間内,有99.7%的數會集中在平均值正負3個标準差區間内。由于3個标準差的區間幾乎涵蓋了大部分數據,因此它在數學中有着非常廣泛的運用,适用于很多場景下的推導和估計。

概括地講,正态分布說明了“一般的很多,極端的很少”的現象。這種現象生活中很常見。比如,大部分人的身高都在一個區間範圍内,太高或太矮的人不多。仔細觀察身邊的人,可以發現非常聰明或者非常愚笨的人很少。統計全社會範圍内的收入,中檔次收入的人比較多,特别貧窮和特别富裕的人較少。

人們常說的二八法則(也稱帕累托法則),隻是換種方式來描述正态分布現象。二八法則告訴我們,20%的富人擁有世界上80%的财富;隻要掌握字典中20%的文字就能理解文章80%的内容;20%的超大城市中居住了80%的人口,等等。

正态分布的特性還有其他廣泛應用。我們知道,利用多次抽樣可以從相對較少的數據中得出令人信服的總體結論。比如隻要調研100個人,就能大緻了解人類普遍的心理認知。隻要抽查100件商品,就能得出這批次商品的質量結論。

這些民意調查、商品抽樣,都在運用抽樣樣本對總體進行估計,其背後的數學原理是中心極限定理。中心極限定理從理論上證明了,無論随機變量總體呈現什麼分布,隻要抽樣次數足夠大,樣本的平均值将近似服從正态分布。

也就是說,雖然每個人或者每件商品都會受到大量随機因素的影響,這些因素會對最終狀态産生一定影響,但我們不必關心這些因素的細節,而隻要把人或商品看成一個整體。該整體的統計規律服從正态分布。

而上述這些情況,才是真實世界中的“随機”。

關于作者:徐晟,某商業銀行IT技術主管,畢業于上海交通大學,從事IT技術領域工作十餘年,對科技發展、人工智能有自己獨到的見解,專注于智能運維(AIOps)、數據可視化、容量管理等方面工作。

本文摘編自《大話機器智能:一書看透AI的底層運行邏輯》,經出版方授權發布。(ISBN:9787111696193)

一文搞懂正态分布所有知識點(終于有人把正态分布和二八法則講明白了)3

《大話機器智能:一書看透AI的底層運行邏輯》

推薦語:AI是什麼?機器如何擁有“智能”?“智能”如何起作用?本書以通俗易懂的方式,勾勒人工智能的全貌,展現AI的底層運行邏輯,即AI是如何工作的。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved