我經常會被問到這麼一個問題:樣本量多大就不用進行正态性檢驗了。殊不知,這問題的本身就是錯誤的,并不是樣本大,就一定要服從正态分布。我們可以輕易舉出一個反例來說明這個問題。比方說就用1-1000這一千個(甚至更多)自然數,組成一個樣本,那麼這個樣本的分布就不是正态分布,因為1-1000服從的是均勻分布。另外,數據的分布基于形成的機理,有的分布天生就非正态(如壽命數據)。
但有些朋友,并不覺得這是一個錯誤的問題,甚至在他們的學習中還流傳着這麼一個說法:樣本量大于30就可以認為是服從正态分布。當你向他問為什麼的時候,會得到一個專業的解釋——中心極限定理。
中心極限定理
中心極限定理(Central Limit Theorem)是統計學中最重要的結論之一。在這裡,我并不想給出中心極限定理專業的定義,隻需要了解它告訴我們:來自某總體的一個樣本,無論該總體服從什麼分布,隻要樣本容量足夠大,其樣本均值都近似服從正态分布。
請注意這裡的說法:“樣本均值“近似正态,而不是樣本本身服從正态(不是說你抽了30個樣品組成的樣本數據就正态)。這裡又有一個大家疑惑的地方,樣本容量足夠大,多大才是足夠大?這個問題的答案和總體分布的形狀相關,如果樣本本是來自近似對稱分布的總體,那麼當樣本量取相當小(如樣本量取5)的值的時候,正态逼近的結果也會非常好。然後,如果總體的分布嚴重傾斜,則樣本量必須取相當大的值。根據檢驗,對于大多數總體來說,樣本容量取30或者更大,就足以得到令人滿意的正态逼近結果。我想這可能就是錯誤認為樣本量大于30就認為是正态分布的出處了。
模拟擲骰子展示中心極限定理
為了展示中心極限定理,模拟多次投擲骰子來說明。
假設您擲骰子 1000 次。您希望得到相等數目的 1、2 等。讓我們查看 1000 次骰子的分布(圖1)。
現在假設您将投擲 2 次,并采用兩次投擲的平均值。您還将重複此試驗 1000 次。讓我們來看看兩次投擲的平均值的分布。這種分布如圖 2 所示。您是否注意到在隻進行了兩次投擲的情況下,平均值的分布已經呈現出了土堆形?
假設您現在投擲骰子三次,然後取三次投擲的平均值。再次重複此試驗 1000 次。讓我們來看看此舉對投擲的平均值分布有何影響。這種分布如圖 3 所示。同樣,分布的形狀與正态分布的形狀相當接近。您是否注意到分布上發生了其他變化?
讓我們投擲骰子五次,并取其平均值。再次重複此試驗 1000 次。這種分布如圖 4 所示。您是否已開始注意到所發生的情形中存在任何模式?
讓我們繼續增加平均投擲次數。此時您将投擲 10 次,并采用 10 次投擲的平均值。這種分布如圖 5 所示。
現在,随着您增加投擲次數,将看到兩個現象。首先,您會看到,平均分布的形狀開始與正态分布的形狀相似。其次,您會看到,随着投擲次數的增加,分布變得越來越窄。讓我們繼續增加投擲次數。此時,您将投擲骰子 20 次。這種分布如圖 6 所示。
到現在,您應該确信增大樣本數量對樣本平均值分布是有影響的。您将再次增大樣本數量,以強化這種認知。此時,您将投擲骰子 30 次。這種分布如圖 7 所示。
讓我們看看所呈現的情況,在一個圖中繪制大小為 2、5、10、20、30 的樣本的直方圖,以查看變化的分布。
從上面的模拟結果,可以知道,當樣本量大于30的時候,那麼樣本均值(取了1000次樣本,得到1000個均值)的分布基本呈正态分布。
另外該定理還指出,如果根據總體不斷重複繪制随機樣本數量 n 以及有限均值 mu(y) 和标準差 sigma(y),然後在 n 較大時,樣本均值的分布将近似呈正态分布,并且均值等于 mu(y),标準差等于 (sigma(y))/sqrt(n)。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!