tft每日頭條

 > 圖文

 > 置信區間統計學操作

置信區間統計學操作

圖文 更新时间:2024-11-20 01:30:33
點估計與區間估計

在上一篇文章---"兩個重要統計量——均值和比率“裡,我們介紹了用樣本均值`x估計未知的總體均值`a,這個`x是一個數(而不是一個範圍),因此這種形式的估計叫作點估計

另外,我們還介紹了方差和标準差,我們認識到用`x估計`a是有誤差的,而标準差從平均的意義上反映了誤差幅度,因此,如果我們以标準差作為衡量散布度的一個單位,把未知的總體均值`a估計在(`x -一個标準差)的範圍内,這種形式的估計就叫作區間估計,因為它把未知值估計在一個範圍内。

分布密度曲線與分布密度函數

方差是總體中各個體指标的散布程度的綜合刻畫,它在一定意義上也有助于刻畫樣本均值在估計總體均值時的精度。但是,由于總體中個體指标值的分布可能是均勻的,可能是“兩頭大,中間小”或“兩頭小,中間大”等,這種分布上的差異,将導緻區間(`x -一個标準差)的可靠程度有很大差異。

對于分布我們将做如下介紹。設一總體包含N個個體,其指标值分别為a1 , …, aN。所謂“指标值”,就是個體的某種性質的數量刻畫,而這種性質是與我們所研究的問題有關的。設我們從總體中随機抽出一個個體,并以X記其指标值,常把X稱為随機變量。當把相近的指标值結成一組,并給出組的比率,我們将得到如下的分布的直方圖

置信區間統計學操作(統計學系列區間估計)1

在許多實際問題中,總體所含個體數或者是為數極大的,或者在理論上說是無窮大的。則X這個變量原則上有無窮個可能值,我們可以采用“以有限逼近無限”的方法,在X的取值無限制地增加下,直方圖在理論上愈來愈接近一條曲線,如下圖(b)所示。

置信區間統計學操作(統計學系列區間估計)2

置信區間統計學操作(統計學系列區間估計)3

從理論的觀點看,這條曲線給出了總體指标分布的一個完整的描述,即稱為總體指标的分布密度曲線。如果在平面上引進直角坐标系,分别以x和y記一個點的橫坐标和縱坐标,則一條曲線可用一個函數y=f(x)去刻畫,這個f(x)也就稱為總體指标的分布密度函數

置信區間統計學操作(統計學系列區間估計)4

上圖即為分布密度曲線與函數。并具有以下三條基本性質:

1) 這條曲線全在橫軸的上方;

2) 總體中,指标值介于a和b之間的個體所占的比率,等于圖中斜線部分的面積;

3) 曲線與橫坐标軸之間圍成的面積等于1。

正态分布

下圖曲線所代表的的函數就是标準正态密度函數。确切公式為:

置信區間統計學操作(統計學系列區間估計)5

置信區間統計學操作(統計學系列區間估計)6

這條曲線關于y軸對稱,在x=0處達到它的最高點,從這最高點出發,往正負兩個方向都下降到橫軸上去。這條曲線與橫軸圍成的面積為1,而且:

在-1到1之間的面積為0.683;

在-2到2之間的面積為0.956;

在-3到3之間的面積為0.997;

在-1.960到1.960之間的面積為0.950;

在-2.576到2.576之間的面積為0.990;等。

服從标準正态分布的總體,其指标值X的均值是0,方差是1。常記為X~N(0,1)。若X服從正态分布,但其均值為a,方差為σ^2,則記為X~N(a,σ^2),且(X-a)/σ~N(0,1)。(X-a)/σ稱為把指标X“标準化”。

正态分布是統計學中最重要的一種分布。

1) 實用方面看,在許多問題中,總體指标的分布都很接近于正态分布,例如一群人的身高、體重、血壓,重複測量某個量(如稱物)所得到的結果,大批生産一種産品時,其某項質量指标等等。

2) 正态分布的統計問題在理論上解決得很徹底且便于應用。它具有許多優良性質,列舉兩個如下:

(1)樣本均值的正态性。設總體中個體的某項指标X~N(a,σ^2)。現在給定一個自然數n,從該總體中随機地抽出n個樣本,結果記為X1,…,Xn。以`x記樣本均值,則`x仍服從正态分布,

置信區間統計學操作(統計學系列區間估計)7

(2)若指标X服從正态分布N(a,σ^2),A和B為兩個常數,A不等于0。 令Y=AX B,則指标Y仍服從正态分布,确切地說,有

置信區間統計學操作(統計學系列區間估計)8

區間估計

前文我們說到,标準差可以在平均意義上反映樣本均值的精度,但是從區間估計的角度看,僅憑标準差已不能給出什麼帶普遍性的結論,而必須結合指标的分布去考察才行。

由于在實際問題中分布是各式各樣的,這就注定了不可能提出一種簡易可行、處處适用的方法。幸好,上文提到的正态分布有很大的普遍性,因此,針對這種分布提出的解法(即得到給定置信系數的區間估計,置信系數:把未知的均值估計在某一區間内,其正确的機會),有相當程度的普遍意義。另外,對一般的(可以是非正态的)分布而言,隻要樣本大小足夠大,基于正态分布的解法仍能适用,隻是從理論上說,這種解法是近似地而非确切的。下面分三種情況介紹相應的解法:

1) 總體中個體指标X的分布是正态的,即X~N(a,σ^2),其中方差已知,要估計的是均值.

從總體中抽取了n個樣本X1,…,Xn,則樣本均值

置信區間統計學操作(統計學系列區間估計)9

,于是标準化變量

置信區間統計學操作(統計學系列區間估計)10

服從标準正态分布N(0,1)

我們知道标準正态密度曲線在-1到1之間的那部分面積是0.683(即總體中指标值介于±1之間的那些個體,在總體中所占比率為0.683)。根據這個結論,不等式

置信區間統計學操作(統計學系列區間估計)11

實現的機會為0.683。以上不等式可改寫為

置信區間統計學操作(統計學系列區間估計)12

未知的a落在該區間内的置信系數為0.683。

同理,我們可以得到一系列的區間估計:

置信區間統計學操作(統計學系列區間估計)13

以上,可以看出,置信系數取得越高(即對估計越有把握),相對應付出的代價就是估計區間變大了。

一旦取定了一個置信系數,則區間長度也定下來了。

例如,取置信系數為0.95,則區間長度為

置信區間統計學操作(統計學系列區間估計)14

如果l太大,則估計很粗糙并且實際意義也很小。我們不能靠犧牲置信系數來降低這個長度,因為這會使估計變得很不可靠,用起來有危險。解決辦法是選擇适當的樣本大小n。由上面求l的式子可知,如果我們指定區間之長不能超過某個限度l0,則n必須滿足:

置信區間統計學操作(統計學系列區間估計)15

2) 總體中個體指标X的分布是正态的,即X~N(a,σ^2),其中方差未知,要估計的是均值.

例如,取置信系數為0.95,在方差已知的情況下,則用區間估計

置信區間統計學操作(統計學系列區間估計)16

,現在由于方差未知,則這區間的端點算不出來。一種解救辦法是用樣本的标準差s,經修正為無偏估計的s1作為σ的估計以代替

置信區間統計學操作(統計學系列區間估計)17

得出的區間估計為

置信區間統計學操作(統計學系列區間估計)18

由于我們對上面區間估計的計算是根據

置信區間統計學操作(統計學系列區間估計)19

服從标準正态分布N(0,1)這個性質的,用s1代替後,由于s1本身就是從樣本算出的,它有随機性而非常數,故代替後的變量已不再是服從标準正态分布。它的分布是英國統計學家哥色特在1908年發現的,稱為自由度為n-1的t分布,常記為tn-1。此分布的形狀與标準正态分布很相似,在外表上無法區别,理論上可以證明,當樣本大小n愈來愈大,t分布愈來愈接近于标準正态分布。大樣本的情況将在接下來介紹,但針對總體服從正态分布,方差未知,又是小樣本的情況,t分布将給我們的區間估計帶來幫助。

由于分布tn-1已不是标準正态分布,與置信系數0.95,0.99和0.90等對應的,已不是前面指出的1.96,2.576和1.645,而是比較複雜,因為它與自由度n-1有關。我們約定用tn-1(置信系數)記相對應的系數,修正後的區間估計是

置信區間統計學操作(統計學系列區間估計)20

3) 設有一個無限總體(包含無窮個個體),或包含極大數目個體的總體。從總體中抽取了n個樣本X1,…,Xn,要用它對均值作估計。

統計學的理論證明了一個極重要的事實:不論原總體的分布如何,隻要n很大且n/N很小,則變量

置信區間統計學操作(統計學系列區間估計)21

仍近似地有正态分布,甚至在把用其估計值s1代替時,這個性質仍成立:

置信區間統計學操作(統計學系列區間估計)22

近似地服從N(0,1)。在統計學上,把這個重要的理論結果叫作“中心極限定理”。在這個約定的前提下,用前面的方法,就可以求出的區間估計(置信系數為0.95)為

置信區間統計學操作(統計學系列區間估計)23

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved