在上一篇文章---"兩個重要統計量——均值和比率“裡,我們介紹了用樣本均值`x估計未知的總體均值`a,這個`x是一個數(而不是一個範圍),因此這種形式的估計叫作點估計。
另外,我們還介紹了方差和标準差,我們認識到用`x估計`a是有誤差的,而标準差從平均的意義上反映了誤差幅度,因此,如果我們以标準差作為衡量散布度的一個單位,把未知的總體均值`a估計在(`x -一個标準差)的範圍内,這種形式的估計就叫作區間估計,因為它把未知值估計在一個範圍内。
分布密度曲線與分布密度函數方差是總體中各個體指标的散布程度的綜合刻畫,它在一定意義上也有助于刻畫樣本均值在估計總體均值時的精度。但是,由于總體中個體指标值的分布可能是均勻的,可能是“兩頭大,中間小”或“兩頭小,中間大”等,這種分布上的差異,将導緻區間(`x -一個标準差)的可靠程度有很大差異。
對于分布我們将做如下介紹。設一總體包含N個個體,其指标值分别為a1 , …, aN。所謂“指标值”,就是個體的某種性質的數量刻畫,而這種性質是與我們所研究的問題有關的。設我們從總體中随機抽出一個個體,并以X記其指标值,常把X稱為随機變量。當把相近的指标值結成一組,并給出組的比率,我們将得到如下的分布的直方圖。
在許多實際問題中,總體所含個體數或者是為數極大的,或者在理論上說是無窮大的。則X這個變量原則上有無窮個可能值,我們可以采用“以有限逼近無限”的方法,在X的取值無限制地增加下,直方圖在理論上愈來愈接近一條曲線,如下圖(b)所示。
從理論的觀點看,這條曲線給出了總體指标分布的一個完整的描述,即稱為總體指标的分布密度曲線。如果在平面上引進直角坐标系,分别以x和y記一個點的橫坐标和縱坐标,則一條曲線可用一個函數y=f(x)去刻畫,這個f(x)也就稱為總體指标的分布密度函數。
上圖即為分布密度曲線與函數。并具有以下三條基本性質:
1) 這條曲線全在橫軸的上方;
2) 總體中,指标值介于a和b之間的個體所占的比率,等于圖中斜線部分的面積;
3) 曲線與橫坐标軸之間圍成的面積等于1。
正态分布下圖曲線所代表的的函數就是标準正态密度函數。确切公式為:
這條曲線關于y軸對稱,在x=0處達到它的最高點,從這最高點出發,往正負兩個方向都下降到橫軸上去。這條曲線與橫軸圍成的面積為1,而且:
在-1到1之間的面積為0.683;
在-2到2之間的面積為0.956;
在-3到3之間的面積為0.997;
在-1.960到1.960之間的面積為0.950;
在-2.576到2.576之間的面積為0.990;等。
服從标準正态分布的總體,其指标值X的均值是0,方差是1。常記為X~N(0,1)。若X服從正态分布,但其均值為a,方差為σ^2,則記為X~N(a,σ^2),且(X-a)/σ~N(0,1)。(X-a)/σ稱為把指标X“标準化”。
正态分布是統計學中最重要的一種分布。
1) 實用方面看,在許多問題中,總體指标的分布都很接近于正态分布,例如一群人的身高、體重、血壓,重複測量某個量(如稱物)所得到的結果,大批生産一種産品時,其某項質量指标等等。
2) 正态分布的統計問題在理論上解決得很徹底且便于應用。它具有許多優良性質,列舉兩個如下:
(1)樣本均值的正态性。設總體中個體的某項指标X~N(a,σ^2)。現在給定一個自然數n,從該總體中随機地抽出n個樣本,結果記為X1,…,Xn。以`x記樣本均值,則`x仍服從正态分布,
(2)若指标X服從正态分布N(a,σ^2),A和B為兩個常數,A不等于0。 令Y=AX B,則指标Y仍服從正态分布,确切地說,有
區間估計
前文我們說到,标準差可以在平均意義上反映樣本均值的精度,但是從區間估計的角度看,僅憑标準差已不能給出什麼帶普遍性的結論,而必須結合指标的分布去考察才行。
由于在實際問題中分布是各式各樣的,這就注定了不可能提出一種簡易可行、處處适用的方法。幸好,上文提到的正态分布有很大的普遍性,因此,針對這種分布提出的解法(即得到給定置信系數的區間估計,置信系數:把未知的均值估計在某一區間内,其正确的機會),有相當程度的普遍意義。另外,對一般的(可以是非正态的)分布而言,隻要樣本大小足夠大,基于正态分布的解法仍能适用,隻是從理論上說,這種解法是近似地而非确切的。下面分三種情況介紹相應的解法:
1) 總體中個體指标X的分布是正态的,即X~N(a,σ^2),其中方差已知,要估計的是均值.
從總體中抽取了n個樣本X1,…,Xn,則樣本均值
,于是标準化變量
服從标準正态分布N(0,1)
我們知道标準正态密度曲線在-1到1之間的那部分面積是0.683(即總體中指标值介于±1之間的那些個體,在總體中所占比率為0.683)。根據這個結論,不等式
實現的機會為0.683。以上不等式可改寫為
未知的a落在該區間内的置信系數為0.683。
同理,我們可以得到一系列的區間估計:
以上,可以看出,置信系數取得越高(即對估計越有把握),相對應付出的代價就是估計區間變大了。
一旦取定了一個置信系數,則區間長度也定下來了。
例如,取置信系數為0.95,則區間長度為
如果l太大,則估計很粗糙并且實際意義也很小。我們不能靠犧牲置信系數來降低這個長度,因為這會使估計變得很不可靠,用起來有危險。解決辦法是選擇适當的樣本大小n。由上面求l的式子可知,如果我們指定區間之長不能超過某個限度l0,則n必須滿足:
2) 總體中個體指标X的分布是正态的,即X~N(a,σ^2),其中方差未知,要估計的是均值.
例如,取置信系數為0.95,在方差已知的情況下,則用區間估計
,現在由于方差未知,則這區間的端點算不出來。一種解救辦法是用樣本的标準差s,經修正為無偏估計的s1作為σ的估計以代替
得出的區間估計為
由于我們對上面區間估計的計算是根據
服從标準正态分布N(0,1)這個性質的,用s1代替後,由于s1本身就是從樣本算出的,它有随機性而非常數,故代替後的變量已不再是服從标準正态分布。它的分布是英國統計學家哥色特在1908年發現的,稱為自由度為n-1的t分布,常記為tn-1。此分布的形狀與标準正态分布很相似,在外表上無法區别,理論上可以證明,當樣本大小n愈來愈大,t分布愈來愈接近于标準正态分布。大樣本的情況将在接下來介紹,但針對總體服從正态分布,方差未知,又是小樣本的情況,t分布将給我們的區間估計帶來幫助。
由于分布tn-1已不是标準正态分布,與置信系數0.95,0.99和0.90等對應的,已不是前面指出的1.96,2.576和1.645,而是比較複雜,因為它與自由度n-1有關。我們約定用tn-1(置信系數)記相對應的系數,修正後的區間估計是
3) 設有一個無限總體(包含無窮個個體),或包含極大數目個體的總體。從總體中抽取了n個樣本X1,…,Xn,要用它對均值作估計。
統計學的理論證明了一個極重要的事實:不論原總體的分布如何,隻要n很大且n/N很小,則變量
仍近似地有正态分布,甚至在把用其估計值s1代替時,這個性質仍成立:
近似地服從N(0,1)。在統計學上,把這個重要的理論結果叫作“中心極限定理”。在這個約定的前提下,用前面的方法,就可以求出的區間估計(置信系數為0.95)為
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!