中心極限定理是在統計學中除了大數定理的另一塊基石,有着極為重要的意義和廣泛的應用空間,本文就以通俗的案例來講解什麼是中心極限定理,中心極限定理的數據演示以及中心極限定理的應用。
什麼是中心極限定理?
中心極限定理就是随機樣本的均值總是圍繞在總體均值周圍,且呈正太分布。
先舉個栗子:
現在要統計燕山大學2015年8000名畢業生三年後的平均薪資情況,把所有的畢業生都調查一遍的話成本太高,現在我們調查25組,每組40人,一共調查1000人,然後求出每一組的平均值,中心極限定理就是說,這些均值呈正太分布,而且随着每組樣本的增加,效果會更好。把這些平均值相加再求均值,這個均值就非常接近總體均值了。
其中有幾個點需要注意一下:
用實際數據來演示中心極限定理
注:使用python來模拟數據,不懂的同學可以略過代碼
生成數據:我們用擲骰子這一概率論中經常用到的道具來演示,用python模拟擲100000次骰子,并求總體平均值。
import numpy as np
import pandas as pd
shaizi_data=np.random.randint(1,7,100000) #生成擲骰子随機數據
print(shaizi_data.mean()) #打印平均值
print(shaizi_data.std()) #打印标準差
import matplotlib.pyplot as plt
var=np.bincount(shaizi_data) #頻次統計
plt.bar([1,2,3,4,5,6],var[1:],0.5) #繪制條形圖
plt.show()
平均值:3.5049 ,标準差:1.697(每次生成數據都會有細微的差别)
把生成的數據用條形圖圖展示出來是這樣的:1~6的分布都很均勻,ok~
10萬次擲骰子頻數分布直方圖
下面就是見證奇迹的時刻,我們要在此數據集上來驗證中心極限定理:
先抽取1000組數據,每組100個樣本,結果見下圖:
分組均值的均值:3.498,分組均值的标準差:0.167
抽樣均值的分布規律
那在不同的組數與組内樣本數量的情況下,是不是都是這樣的呢,下邊就限定組數進行對比,每組100個樣本,分别抽取50組,100組,1000組,10000組來觀察數據,以下是代碼實現:
for m,k in zip([50,100,1000,10000],[221,222,223,224]): #限定不同的組内樣本數
n=1000
s=[]
for i in range(n):
x_=0
for i in range(m):
x=shaizi_data[int(np.random.random()*100000)]
x_=x_ x
x_=x_/m
s.append(x_)
s=np.array(s)
print(s.mean())
print(s.std())
plt.subplot(k)
plt.hist(s,40,range=[3,4],edgecolor="black")
plt.show()
圖見下方:
相同樣本數,不同組數的抽樣結果
組數 均值 标準差
50 3.518 0.173
100 3.488 0.162
1000 3.495 0.172
10000 3.490 0.171
随着組數的增多,樣本均值的均值就越來越靠近總體均值,也就是說,在可以的情況下,取樣的組數盡可能多,那麼樣本均值就越能夠代表總體均值。
下邊再看一下組數不變的情況下,每組内樣本數量不同會發生什麼變化。一共取1000組,每組數據的樣本數量分别限制在50,個,100個,1000個,10000個,看效果:
不同樣本數量的随機樣本均值分布
每組内的樣本個數 均值 标準差
50 3.493 0.240
100 3.499 0.167
1000 3.494 0.055
10000 3.492 0.017
在組數不變,組内樣本越來越多的情況下,樣本均值的标準差越來越小,樣本均值越來越向總體均值靠攏 。
中心極限定理在實際當中的應用主要有兩方面:
中心極限定理與大數定理的關系:
大數定理證明了樣本平均值趨近于總體平均值的趨勢,但是卻沒有量化樣本平均值趨向于總計平均值的概率,而中心極限定理證明了這一點,具體的說明了,随機樣本平均數與總體平均數的差值不差過一定範圍的概率大小問題。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!