tft每日頭條

 > 生活

 > 置信區間取端點嗎

置信區間取端點嗎

生活 更新时间:2025-02-24 14:35:42
樣本均值與總體均值

樣本均值與總體均值的含義是不相同的。一般來說,我們想要獲悉的是總體均值,但實際上,我們隻能計算得到樣本均值,然後用它來估計總體均值。我們使用置信區間,嘗試用它用來評價“使用樣本均值估計總體均值”的精确程度。

置信區間

如果你想要估計國内女性的平均身高,你可能會這樣做:調研10名女性的身高為樣本,并估計:樣本的均值接近于總體均值。讓我們用程序模拟一下整個過程。

置信區間取端點嗎(量學堂-13置信區間)1

隻是簡單地獲得樣本均值沒有太大意義,因為我們并不知道用它來估計總體均值是否準确。那麼這樣估計的準确性究竟如何呢?我們可以觀察樣本的方差:樣本方差越大,這樣估計的準确性就越低,且越不穩定。

說明:

文中提到的“樣本”概念,其本身是可以由多個單元組成的,我們稱單個樣本所含的單元總數為樣本容量。比如:把“所有中國人的身高”視為一個總體,從中随機取一百個人的身高。對于總體來說,這一百個人的身高數據就是它的一個樣本。而某一個樣本中個體數量就是樣本容量。注意:不能說樣本的數量就是樣本容量,因為總體中的若幹個個體隻組成一個樣本,樣本容量不需要帶單位。

然而光有方差或标準差(standard deviation)還是沒有太大意義,為了真正地摸清樣本均值與總體均值的相關性,我們需要去計算标準誤差(Standard Error),它常被被用來度量基于不同樣本得到的樣本均值間的方差(離散程度)。

注意:計算标準誤差是建立在以下假設條件之上:

1、樣本是無偏的且服從正态分布

2、樣本間是相互獨立

如果假設無法滿足,标準差也将不再準确。有很多方法用來進行檢驗并作出修正。标準差的計算公式為:

置信區間取端點嗎(量學堂-13置信區間)2

公式中,σ 是樣本标準差,n是樣本數量。

置信區間取端點嗎(量學堂-13置信區間)3

在Scipy的Stats庫中,提供了内建的标準誤差的函數。這個函數默認進行自由度修正,通常不需要啟用(對于足夠大的樣本,自由度的修正實際上顯得無關緊要)。你可以把ddof這個參數設置為0來關閉修正。

置信區間取端點嗎(量學堂-13置信區間)4

拓展:

standard deviation 是标準差,表示一組數值之間的離散程度,計算公式為:

置信區間取端點嗎(量學堂-13置信區間)5

standard error 是标準誤,是樣本統計量的标準差,這裡說的統計量,包括但不限于平均數,标準差,方差,相關系數等。計算公式分為兩部分:

1、總體标準差已知,公式為:

置信區間取端點嗎(量學堂-13置信區間)6

2、總體标準差未知,采用樣本标準差的無偏估計,公式為:

置信區間取端點嗎(量學堂-13置信區間)7

注意,标準差與标準誤差公式中的N和n含義不同。N代表的是樣本容量,比如10個人為一組,樣本容量就是10;而n代表的是樣本統計量的數量,比如每10個人一個樣本,重複采樣20次進而對20個樣本分别求得樣本均值,就有20個“均值樣本",那麼n=20。

假設我們的數據是基于正态分布的,我們可以使用标準誤差來計算“置信區間”。首先我們要做的,是預先确定我們期望達到的置信水平,比如95%。然後,我們要決定在正負幾個标準差之内,能夠達到這個置信水平。事實證明對于标準正态分布,95%的置信水平對應于正負1.96個标準差之内。當樣本量足夠大時(通常 > 30),中心極限定理便能派上用場,據此放心地做出樣本是服從正态分布的假設。如果樣本量偏小,一個更加謹慎的做法是,采用“指定适當的自由度的t分布”。實際應用中,可以根據累積分布函數來計算達到符合預期的置信區間,對應的标準差範圍是多少。關于分布函數與累計分布函數以前的文章中也有過介紹,可以查看參考。現在讓我們來演示一下如何通過Python 函數做檢驗。

注意:請謹慎應用中心極限定理,由于在金融領域中,許多數據都不是正态分布的。因此不考慮這些情況就随意地應用中心極限定理,将數據做正态分布的推斷,是不被建議的。

以下是我們将95%的置信區間可視化以後的效果:

置信區間取端點嗎(量學堂-13置信區間)8

置信區間取端點嗎(量學堂-13置信區間)9

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved