轉自公衆号“機器學習煉丹術”,已獲得作者授權
文章目錄:
每個人都相信它(正态分布):實驗工作者認為它是一個數學定理,數學研究者認為它是一個經驗公式。----加布裡埃爾·李普曼
本文主要是為了之後講解最小二乘法、嶺回歸等優化方法做個鋪墊。
1 生活中的正态分布生活中女性的身高,
假設你有200個相親對象,然後你老媽搜集了他們所有人的身高信息,然後以5cm為單位,來數一數每5cm各有多少人。接着用身高為橫軸,人數為縱軸,畫了下面的圖:
這種數據分布就是正态分布,正太分布像是一個小山,兩頭低,中間高,左右對稱,大部分數據集中在平均值,小部分分布在兩端
實際上人的分高确實是符合正态分布的。2017年我國18歲及以上成年男性的平均身高是167.1cm,所以167.1的身高就是中國普遍男性身高的數值,如果是150cm或者是190cm都是人數比較少的,處于分布兩端的人群。
神奇的地方在于,不管是人的身高,手臂長度,肺活量,還是他們的考試成績,都符合正态分布。
這是為什麼呢?
2 名字由來正太正态分布為什麼不叫“正點”呢?
這個要從這個東西說起,下面這個東西
這個東西叫做高爾頓釘闆,你猜猜這是誰發明的?沒錯,就是維多利亞時期的學者Francis Galton(高爾頓)。他做了這個釘闆之後,發現這種形狀适用于很多數據,所以他将其命名為“正态分布”(The Normal Distribution).
正态分布的英文“normal”,表示常見的,典型的 , 用來表示這種分布能代表多種多樣的數據類型。
3 剖析細節高爾頓釘闆中,每一個小珠子下滾的時候,撞到柱子就會随機的向左走或者向右走。然後一個小珠子一路滾下來會選擇多次方向,最終的分布就會接近正态分布。
關鍵點在于,一個事情經過多個随機的因素的影響,結果似乎就是正态分布 。
女性身高可能會受父母身高的影響、飲食習慣的影響、是否喜好運動的影響 等等,這些影響類比成高爾頓釘闆中的柱子。
此外,還要注意一點就是高爾頓釘闆 中,所有珠子的初始狀态一緻。
4 有偏分布現實中,也有很多有偏分布,比如在醫學中的檢測。有一種說法是因為在細胞中,細胞分類是乘法而非加法。所以用log方法來将乘法變成加法,所以log方法也可以把有偏數據變成正态分布。
對橫坐标取log:
【個人感想】人生也是如此,左邊是貧窮,右邊是富有。人生面臨無數的随機選擇,大部分人落在了中間位置,成為了一般人。少數運氣不好的和運氣好的人變成了特别窮的人和特别富有的人,但是大部分的我們變成了普通人。我們之所以努力,就是希望在每一次選擇的時候,可以做出更好的選擇,讓我們的未來更好。共勉!
- END -
轉自公衆号“機器學習煉丹術”,已獲得作者授權
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!