tft每日頭條

 > 生活

 > 兩組數據不服從正态分布怎麼檢驗

兩組數據不服從正态分布怎麼檢驗

生活 更新时间:2024-09-27 21:25:42

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)1

從身高分布到馬太效應

正态分布無處不在

上一年超模君在高考的前一天,押中了高考作文題

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)2

現在距離緊張又刺激的高考,隻剩下2天了。

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)3

看樣子又到超模君蒙題的時刻,以下内容有可能是考試重點,請做好筆記:

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)4

某位不願透露姓名的考生問到超模君,他現在考上清華還有希望嗎?

超模君看了看他的近期成績,Emmm...

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)5

這位考生近期模拟考的分數分别為580,600,680,620,四次考試的平均值為620分,标準差為37.4,而一個學生的成績可以近似看做正态分布。

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)6

清華大學的分數線是680分,把它在上圖标出來:

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)7

上圖陰影的面積為0.03,也就是說考上清華大學的概率為3%。

所以超模君的建議是:

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)8

其實除了高考成績外,我們的生活中還有許多這樣的例子,比如:

身高

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)9

人的IQ分布

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)10

正态分布的前世今生

正态分布概念是由德國的數學家和天文學家棣莫弗(Moivre)于1733年首次提出,但當時他并沒有正态分布更多的應用成果,所以并沒有什麼名氣。

後來,德國數學家高斯(Gauss)率先将其應用于天文學家研究,這時候正态分布才引起了人們的廣泛重視,因此正态分布又叫高斯分布。

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)11

左:棣莫弗 右:高斯

到了19世紀,高爾頓和凱特勒把正态分布用在了其他學科上,他們用實際的行動開拓了應用統計學,為數理統計學的産生奠定了基礎。

在他們兩人的影響下,正态分布獲得了普遍認可和廣泛應用(甚至是濫用)。

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)12

左:高爾頓 右:凱特勒

那麼這麼厲害的正态分布到底講的是什麼呢?别急,我們先來看看高爾頓是怎麼研究的。

1877 年,高爾頓設計了一個叫高爾頓釘闆的實驗,模拟正态分布的性質:

實驗視頻隻需14秒!

高爾頓釘闆試驗内容:

有一塊貼在牆上的木闆,木闆上有一些水平釘子,它們彼此的距離均相等。讓一些小球從木闆上方的入口處自由落體,經過一次次碰撞後,這些小球最終掉落到下方的豎槽中。

知道了實驗内容後,我們來看看高爾頓釘闆實驗的細節:

彈珠往下滾的時候,撞到釘子就會随機選擇往左邊走,還是往右邊走:

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)13

這些小球最終的分布位置如下圖:

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)14

像這種左右對稱,兩頭低,中間高的曲線我們稱它為正态分布,又因其曲線呈鐘形,人們又經常叫它鐘形曲線。

為什麼正态分布會如此常見呢?

咳咳,接下來就是今天内容的重點了(敲黑闆)!

這個問題可以用中心定理(central limit theorem)來回答:在适當的條件下,大量相互獨立随機變量的均值經适當标準化後依分布收斂于正态分布。

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)15

中心極限定理提出者——棣莫弗

這個定理可以這麼理解:

生活中各種各樣的因素就像高爾頓釘闆實驗中的釘子一樣,對我們各個方面産生了大大小小的影響,使得最後的結果分布趨近于正态分布;

但中心定理并不是萬能的,他擁有兩個很重要的前提:

首先,第一個前提就是取樣需要随機。

這個前提相信大家可以很好地理解,如果我們抽取的人的時候,隻抽抽長的高的或者隻抽取長得矮的人,那麼結果自然不符合正态分布。

第二,影響結果的因素是相互獨立或者是相互影響比較小的。

也就是說,如果影響結果的因素之間并沒有太大的關系,那麼這些因素可以看成是相互獨立的,這樣結果才能符合正态分布。

以身高為例,影響一個人長高的因素有很多,例如:

父母長得高還是矮

營養是否跟得上

是否熱愛運動

......

等等

父母長得高還是矮對營養的補充沒有很大的關系,跟是否熱愛運動也沒有關系,所以可以看成是相互獨立的因素,所以身高的人群分布曲線自然就符合正态分布。

這時刻可能有人會問,如果這些因素不獨立,甚至是有緊密的聯系會怎麼樣呢?

我們來看看下面這個例子:人均财富分布(馬太效應)。

從下圖可以發現:富人的有錢程度(可以一直向x軸右端延伸)遠遠超出窮人的貧窮程度,即财富分布曲線有右側的長尾。

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)16

人均财富分布圖

這是因為導緻财富差距的因素比如教育資源,家庭背景,工作單位相互影響,并不獨立。

如果一個人家庭背景不錯,那麼他大有機會獲得好的教育資源,從而選擇更好的工作。

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)17

這麼來看的話,家庭,教育,工作3個因素産生了1 1 1>3的結果;而相互獨立的因素應該是1 1 1=3(加法)。

這就導緻圖像并沒有出現正态分布。

但是後來統計學家們發現,既然這些因素相互影響,那麼完全可以把這些相互影響的因素看做乘法,接下來我們通過對數把乘法轉換為加法。

這裡需要補一點高中的數學識:

大家在高中的時候都學過對數,對數有一個獨特的性質——可以把乘法變成加法。(如下圖所示)

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)18

把乘法變成加法後,不就可以看成結果是是由一個個獨立的因素影響的嗎?

因此我們對之前的數據取自然對數,結果就接近于正态分布了:

兩組數據不服從正态分布怎麼檢驗(如何讓8歲表妹學會正态分布)19

這就是正态分布的一個衍生——對數正态分布。

總的來說,正态分布解釋了自然界中大部分常見的分布問題,但事情的結果往往還是由自己決定的。

3%離100%的成功還差了32倍的汗水和付出。

如果想在高考(或者考研,國考)這個戰場上取得更好的成績,走進更好的學術殿堂,那麼還是需要不斷地提升自己,減小随機性(标準差)。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved