今天發揚一下科學精神,我們聊一聊正态分布。
1801年1月,意大利天文學家朱塞普-皮亞齊在天空中發現了一顆新星,但這哥們在夜空中出現6個星期、掃過8度角之後,就在太陽光下徹底消失了,再也觀測不到。遺憾的是,當時皮亞齊留下的觀測數據極為有限,所以也計算不出來新星的軌道,天文學家甚至無法确定這顆新星到底是行星還是彗星。不過天文學家雖然搞不定,但有一位數學家卻對這個問題産生了興趣,他就是數學王子——高斯。為了重新發現這顆新星,高斯直接創立了一種全新的星體軌道計算方法,短短一個小時之内,就計算出了星體的軌道,并預言了它在夜空中出現的時間和位置。算的對不對呢?1801年12月31日夜晚,德國天文學家奧伯斯在高斯預言的時間裡,把望遠鏡對準了預言的位置,果不其然,這顆新星重新回到了人類視野,它就是人類發現的第一顆矮行星——谷神星。
皮亞齊
谷神星
如果說高斯之前隻是在數學界如雷貫耳的話,那麼從此開始,高斯在整個歐洲名聲大震。而他所用到的數據分析方法,正是正态分布。事實上,高斯并不是發現正态分布的第一人,但正态分布無疑是因為高斯才被世人所知,于是正态分布也被稱為“高斯分布”。當然了對于高斯這種數學天才來說,他的發現不勝枚舉,一個正态分布算不上什麼大事兒,但後人顯然不這麼認為,因為正态分布确實成為了一個強有力的數學工具,于是我們就發現,在10馬克高斯頭像的旁邊,印的正是正态分布,而不是他引以為傲的正十七邊形。那麼正态分布究竟是個什麼東西呢?不用慌,它其實非常簡單。
10馬克
其實客觀地說,正态分布這個名字起的不是很好,讓人有一種敬而遠之的感覺,當然了這是翻譯的問題,事實上,它的英文非常簡單,就叫normal distribution,你聽聽咱這個蘇格蘭調情發音,直接翻譯過來就是正常的分布,所以台灣省的翻譯就比較直觀了,人家就叫“常态分布”。也就是說,除了正态分布以外,其他分布都是特殊的,隻有正态分布才是一般的、正常的和普遍的,既然如此,它的重要性就可見一斑了。
從形态上看,正态分布就十分簡單,無非就是一條對稱的鐘形曲線,中間很高、兩邊下降,就像一個鼓起來的山包,或是鼓起來的其他東西,你懂的。橫坐标代表随機變量的取值範圍,越往右,随機變量的值就越大,越往左,随機變量的值就越小。而縱坐标則代表概率的大小,最下面的概率是0,越往上概率就越大。如此一來,在曲線上随便找一點,确定它的橫坐标與縱坐标,我們就可以知道這個值出現的概率是多少。由于這條曲線是左右對稱的,所以中間的最高點,就代表平均值出現的概率最大,數據最多,而兩邊呈陡峭下降趨勢,就意味着越是靠近平均值,數據就越多,反之,數據就越少。可以說對于很多數值的統計,都呈現為典型的正态分布,比如說人的身高、體重、智商、考試分數、股票基金收益、公司收入,還比如說節目的收看數量,都符合正态分布,像是咱2049每期節目的播放量,估計就是在這條鐘形曲線的最左邊那部分,那些富有科學精神的,自然就在最右邊,我們知道,左代表無産階級,右代表資産階級,他們是不具備革命性的。當然了這是我胡扯的。
正态分布曲線
好了接下來我們再進一步整點高端的。整體來看,正态分布有三大數學性質。
第一個性質是:均值就是期望值。也就是說,正态分布曲線中間最高點的橫坐标,不僅代表着随機變量的平均值,而且也代表着它的數學期望,這一點已經得到了數學上的嚴格證明,至于是怎麼證明的,打死我也不告訴你。我們知道,數學期望代表着長期價值,而現在平均是又是數學期望,所以在正态分布中,平均值就代表着随機事件的價值。
比如說一個小妹妹和我網聊,在沒有奔現之前,她是不知道我身高幾何的,于是她對我身高的期望值就是174cm,因為174cm正是遼甯省男性的平均身高。還比如說我們常用高考的平均分,來衡量一所高中的教學質量,為什麼,原因也在于平均值就代表期望值,而期望值正代表着随機事件的長期價值,一個學校平均分總是600,那這個學校肯定不會差,但如果它隻告訴你最高分,對平均分避而不談,這就很有問題了。當然了還需要注意的是,隻有在正态分布中,平均值才具有這樣的意義,如果不是正态分布,平均值基本就不能說明什麼問題了,比如說現在10個人組成一個團夥,我、黃博士、潘博士、士、再加5個要飯的和一個比爾-蓋茨,這個群體的個人資産,顯然不呈正态分布,那我告訴你,我們的平均資産是50億美元,就沒有任何意義。
正态分布的第二個性質是:極端值非常少。也就是說,大多數數據都集中在平均值附近,比如說還是剛才網聊那個例子,小妹妹對我身高的期望是174cm,那麼在174cm上下浮動正是我最有可能的身高。同時也正是因為極端值非常少,所以極端值對平均值的影響也非常小,也就是說,正态分布非常穩定,不管姚明和潘長江是不是遼甯人,遼甯男人174cm的平均身高并不會産生什麼變化,除非你像珠穆朗瑪一樣高,但這顯然是不可能的,這還叫人麼?這麼高隻能是科普人。
正态分布的第三個特征是:标準差或是說方差決定形狀。可以發現,正态分布雖然都是鐘形曲線,但形狀是各不相同的,有的會矮胖一些,有的會高瘦一些,而造成這種差異的原因,正在于标準差的不同。高中數學告訴我們,标準差或是方差,可以描述随機變量的波動情況,标準差越大,數據波動越劇烈,反之,數據波動就越平緩。具體到正态分布中也一樣,标準差越大,數據越是分散,波動越是劇烈,鐘形曲線看起來就會更加矮胖。而标準差越小,數據就會更加集中,波動不怎麼劇烈,鐘形曲線就會更加高瘦。當然了這可能與你直觀看上去有點出入,不過你仔細想想我想應該可以想明白,如果絞盡腦汁還是想不明白,簡單,漂亮小妹妹可以來問我,我手把手教給你,嘴對嘴告訴你,那是一發入魂、終生難忘。
總之通過以上三大特征我們可以發現,平均值決定了正态分布曲線的最高點,平均差或是方差,決定了曲線的彎曲度,兩個數據就可以确定曲線的形狀,實在是不知道高到哪裡去了。
好了一個正态分布我們可以對其進行分析,那麼不同的正态分布曲線可不可以進行比較呢?當然是可以的。具體來看就是三種情況,一是方差相同、平均值不同,在這種情況下可以比較好壞,這很簡單,比如說兩所高中的高考分數,标準差一樣,自然是平均分越高,教學質量越高。
第二種情況是平均值相同、方差不同,這種情況可以比較波動,比如有統計顯示,男女智商的平均值是差不多的,但在正态分布曲線上,男性智商的曲線要矮胖一些,女性智商的曲線要高瘦一些,這就說明,雖然整體上看,男女智商沒有高低之分,但男性智商值顯然更加分散,波動比較大,極端數據存在的情況比較多。也就是說,男性智商超群的人要比女性更多,同樣的,傻X也是男人更多,比如說我和黃博士,還有那些特别喜歡擡杠和認死理的鍵盤俠,我看基本都是男性,而在我接觸的無數女性中,我就沒有發現什麼低智商。
第三種情況就是方差和平均值都不同,這就可以比較專業和業餘了。比如說我和許海峰比賽射擊,人家許海峰肯定是9環、10環、11環來回轉,波動十分小,平均值非常高,直觀表現就是正态分布曲線非常高瘦。我就完了,一會1環、一會2環,偶爾還能蒙個9環、10環,有時候還能打到裁判,所以我的成績波動就十分大,同時平均值也非常小,直觀表現就是曲線非常矮胖,恨不得平了。
好了最後一個問題,正态分布這玩意究竟有什麼用?簡單來說就是,它可以為我們提供一個估算個體在整體中位置的便捷方法,像智商、身高、體重、考試成績等,隻要服從正态分布,我們就可以快速得到答案。比如說我表弟今天高考,估分估了560,然後網上就會告訴他預計排名,那麼哪些網站是怎麼做到的呢?你可能會認為,它一定是收集了所有人的估分數據,然後得出答案,其實根本不用這麼麻煩,再說了它也得不到所有人的數據,事實上,它隻要得到一部分數據,然後通過平均值和方差構建出一個正态分布模型,就可以大緻得出560分在全省的排名。還有一個應用我估計你每天都會遇到,這就是在電腦開機的時候,都會告訴你,啊,你的電腦太快了,打敗了全國百分之90幾的用戶,用到的辦法也是正态分布。再見。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!