tft每日頭條

 > 科技

 > 中心極限定理的的原理與應用

中心極限定理的的原理與應用

科技 更新时间:2024-08-07 11:13:31

中心極限定理是在統計學中除了大數定理的另一塊基石,有着極為重要的意義和廣泛的應用空間,本文就以通俗的案例來講解什麼是中心極限定理,中心極限定理的數據演示以及中心極限定理的應用。

什麼是中心極限定理?

中心極限定理就是随機樣本的均值總是圍繞在總體均值周圍,且呈正太分布。

先舉個栗子:

現在要統計燕山大學2015年8000名畢業生三年後的平均薪資情況,把所有的畢業生都調查一遍的話成本太高,現在我們調查25組,每組40人,一共調查1000人,然後求出每一組的平均值,中心極限定理就是說,這些均值呈正太分布,而且随着每組樣本的增加,效果會更好。把這些平均值相加再求均值,這個均值就非常接近總體均值了。

其中有幾個點需要注意一下:

  • 不管總體是怎樣的分布,最後每組的均值還是呈正太分布
  • 樣本每組要足夠大,但也不需要太大,取樣本的時候,一般認為,每組大于等于30個,即可讓中心極限定理發揮作用。

用實際數據來演示中心極限定理

注:使用python來模拟數據,不懂的同學可以略過代碼

生成數據:我們用擲骰子這一概率論中經常用到的道具來演示,用python模拟擲100000次骰子,并求總體平均值。

import numpy as np

import pandas as pd

shaizi_data=np.random.randint(1,7,100000) #生成擲骰子随機數據

print(shaizi_data.mean()) #打印平均值

print(shaizi_data.std()) #打印标準差

import matplotlib.pyplot as plt

var=np.bincount(shaizi_data) #頻次統計

plt.bar([1,2,3,4,5,6],var[1:],0.5) #繪制條形圖

plt.show()

平均值:3.5049 ,标準差:1.697(每次生成數據都會有細微的差别)

把生成的數據用條形圖圖展示出來是這樣的:1~6的分布都很均勻,ok~

中心極限定理的的原理與應用(中心極限定理的的原理與應用)1

10萬次擲骰子頻數分布直方圖

下面就是見證奇迹的時刻,我們要在此數據集上來驗證中心極限定理:

先抽取1000組數據,每組100個樣本,結果見下圖:

分組均值的均值:3.498,分組均值的标準差:0.167

中心極限定理的的原理與應用(中心極限定理的的原理與應用)2

抽樣均值的分布規律

那在不同的組數與組内樣本數量的情況下,是不是都是這樣的呢,下邊就限定組數進行對比,每組100個樣本,分别抽取50組,100組,1000組,10000組來觀察數據,以下是代碼實現:

for m,k in zip([50,100,1000,10000],[221,222,223,224]): #限定不同的組内樣本數

n=1000

s=[]

for i in range(n):

x_=0

for i in range(m):

x=shaizi_data[int(np.random.random()*100000)]

x_=x_ x

x_=x_/m

s.append(x_)

s=np.array(s)

print(s.mean())

print(s.std())

plt.subplot(k)

plt.hist(s,40,range=[3,4],edgecolor="black")

plt.show()

圖見下方:

中心極限定理的的原理與應用(中心極限定理的的原理與應用)3

相同樣本數,不同組數的抽樣結果

組數 均值 标準差

50 3.518 0.173

100 3.488 0.162

1000 3.495 0.172

10000 3.490 0.171

随着組數的增多,樣本均值的均值就越來越靠近總體均值,也就是說,在可以的情況下,取樣的組數盡可能多,那麼樣本均值就越能夠代表總體均值。

下邊再看一下組數不變的情況下,每組内樣本數量不同會發生什麼變化。一共取1000組,每組數據的樣本數量分别限制在50,個,100個,1000個,10000個,看效果:

中心極限定理的的原理與應用(中心極限定理的的原理與應用)4

不同樣本數量的随機樣本均值分布

每組内的樣本個數 均值 标準差

50 3.493 0.240

100 3.499 0.167

1000 3.494 0.055

10000 3.492 0.017

在組數不變,組内樣本越來越多的情況下,樣本均值的标準差越來越小,樣本均值越來越向總體均值靠攏 。

中心極限定理在實際當中的應用主要有兩方面:

  1. 抽樣估計:這種情況是我們不能知道我們想要研究的對象的平均值,标準差之類的統計參數。中心極限動力在理論上保證了我們可以隻用抽樣一部分的方法,達到研究推測對象統計參數的目的。就像上文的例子中,通過調研部分畢業生的薪資水平而推算出整體畢業生的平均薪資。
  2. 假設檢驗:這種情況下,是我們已知總體的分布,來計算樣本的置信區間,或者規定了規定了樣本空間反向計算樣本容量。典型的應用場景是,計算炮彈的命中幾率。

中心極限定理與大數定理的關系:

大數定理證明了樣本平均值趨近于總體平均值的趨勢,但是卻沒有量化樣本平均值趨向于總計平均值的概率,而中心極限定理證明了這一點,具體的說明了,随機樣本平均數與總體平均數的差值不差過一定範圍的概率大小問題。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved