tft每日頭條

 > 生活

 > 中心極限定理與大數定理理解

中心極限定理與大數定理理解

生活 更新时间:2024-11-25 07:01:32

樣本均值分布

信用卡是銀行對個人資質進行審核後發放給個人的透支卡。A 銀行所有信用卡客戶的收入分布情況如圖 8-6 所示,該圖中的數據曲線以中位數和均值為基準,明顯右偏,稱為右偏分布。

信用卡客戶的收入大部分集中在 7000 元左右,均值向左的一側數據線條較短,是因為銀行通常會拒絕低收入者的申請;均值向右的一側數據線條較長且呈下降趨勢,是因為随着收入的增高,用戶對信用卡的依賴性會越來越低,同時,高收入者的數量占總體比例更小。

可是,這并不代表高收入人群不需要信用卡,月入 10 萬元的人可能喜歡高端信用卡帶來的尊貴感。每個銀行發放信用卡的策略不同,如果有個銀行特别喜歡發行高端信用卡,對于月收入 1 萬元以下的客戶審核非常嚴格,導緻很少能通過申請,那麼曲線應該是左偏的。

中心極限定理與大數定理理解(中心極限定理)1

圖 8-6 A 銀行信用卡用戶月平均收入水平分布

假設以 A 銀行的全部信用卡用戶為總體進行随機抽樣,抽取 1000 個用戶,計算得到樣本均值 7100,樣本中位數 8800,如圖 8-7 所示。

中心極限定理與大數定理理解(中心極限定理)2

圖 8-7 從 A 銀行信用卡用戶中随機抽樣得到的樣本分布

從圖 8-7 可見樣本分布和總體分布的形狀很相似,均值的變化幅度很小。由于每次抽樣都有差别,如果多次抽樣,每次抽樣都是 1000 個用戶,每次的分布都是既相似又不同,如圖 8-8 所示。

中心極限定理與大數定理理解(中心極限定理)3

圖 8-8 多次抽樣後不同樣本的分布及均值

将圖 8-8 中所有的實心圓點對應的值(樣本均值)取出來,可以得到一個均值列表,該列表中有 6 個均值,如果次數足夠多,抽取 m 次,那麼就可以得到一個由 m 個值組成的樣本均值列表,如圖 8-9 所示。

中心極限定理與大數定理理解(中心極限定理)4

圖 8-9 m 次抽樣得到的樣本均值列表

統計學家證明,如果 m 的次數足夠大,由 m 個均值得到的分布是一個正态分布。

由此可以得到中心極限定理:對于任意給定的分布,每次抽取 n 個樣本,一共抽取 m 次,對 m 組樣本數據分别求出均值,m 個均值的分布呈正态分布。

從 A 銀行的例子中可以看到,總體的分布可以是任意分布(可以不是正态分布),這不影響樣本均值的分布是正态分布。但是中心極限定理是否能發揮作用,極度依賴于樣本量 n的大小。

假設樣本量 n 分别為 2、3、10、30,并分别做出樣本均值分布圖,如圖 8-10 所示。随着樣本數 n的增大,樣本均值分布曲線越來越接近正态分布。

中心極限定理的标準定義:

對一個均值為 µ 、标準差為δ的總體抽取樣本量為 n 的随機樣本,x 是樣本平均數。

™ 當抽樣次數 n 足夠大時,樣本均值的抽樣分布接近正态分布。經驗認為,n ≥ 30 時樣本量足夠大。

中心極限定理與大數定理理解(中心極限定理)5

圖 8-10 樣本均值分布曲線随着 n 的變化而變化

樣本均值的抽樣分布的均值等于 µ 。

樣本均值抽樣分布的标準差是 / n 。總體的方差是δ 2,樣本均值的方差就是δ 2/n,将方差開方即得到标準差為 / n 。

樣本均值分布的标準差也稱為抽樣誤差。

表8-1标準差與标準誤差的區别

術語

主體

表達式

标準差

總體分布

6

标準誤差

樣本均值分布

6 /n

樣本分為大樣本和小樣本,通常認為樣本量 n ≥ 30 時是大樣本,n < 30 時是小樣本。這是統計學的經驗說法。在更複雜的計量經濟學中,有時成百上千的樣本量也算不上大樣本,所以大小樣本要看實際情況而定。

中心極限定理的應用

中心極限定理與大數定理理解(中心極限定理)6

某銀行服務商同時為多家銀行服務,假設出現信息洩露事件,導緻一萬名銀行信用卡客戶的收入數據外洩。最初并不知道這些數據屬于哪一家銀行,所以每一個銀行都在驗證是否是自家客戶,A 銀行也是其中之一。

由于數據已經洩露,A 銀行也可以拿到這批數據,所以 A 銀行第一時間确定了該數據樣本量,這批數據的客戶數量是 10 000,客戶收入均值是 12 800。A 銀行同時也知道自己客戶的收入均值為 7000,标準差為 1600。如果給 A 銀行的所有客戶進行樣本量為 10 000 的随機抽樣,樣本均值抽樣分布的均值是 7000,标準誤差是 1600/ 10 000 =16。

假設這批客戶是 A 銀行的,那麼其均值應該服從 A 銀行的樣本均值抽樣分布,如圖 8-11 所示。

中心極限定理與大數定理理解(中心極限定理)7

圖 8-11 A 銀行樣本均值抽樣分布

樣本均值的分布近似于正态分布,那麼它也具備正态分布的所有特征,同樣也适用 68-95-99.7 法則(請參閱 7.4.2 節)。從圖 8-11 中可以看到,從均值向右 3 個标準誤差的值是 7048,均值向左 3 個标準誤差的值是 6952,均值在 7048和 6952 之間的概率是 99.7%,而這批數據的均值是 12 800,大于 7048,也就是說這批數據是 A 銀行流出的可能性幾乎為零。

中心極限定理是統計推斷的基礎,統計推斷又是統計學的核心内容,隻有真正理解了中心極限定理,才能靈活運用各種假設檢驗。

END

中心極限定理與大數定理理解(中心極限定理)8

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved