tft每日頭條

 > 生活

 > 對分類變量進行正态分布檢驗

對分類變量進行正态分布檢驗

生活 更新时间:2025-01-16 04:51:53
正态分布簡介

正态分布(Normal Distribution)是統計學中一個非常重要的連續性分布,又稱為高斯分布。我們在高中或者大學概率論中都學過,正态分布基本上能描述所有常見的事物和現象,如正常人的身高、體重等。同時,不少醫學現象是服從正态分布或近似正态分布的,如同性别健康成人的紅細胞數、血紅蛋白量、脈搏數等;醫學實驗中的随機誤差,一般表現為正态分布;當然,也有的醫學資料雖不呈正态分布,但可經過變量變換,轉換為正态分布,由此在轉換後可按正态分布規律來處理。

正态曲線呈鐘型兩頭低中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線

對分類變量進行正态分布檢驗(連續變量假設檢驗)1

正态分布是一種概率分布,通常記作N(μ,σ)μ是遵從正态分布的随機變量的均值σ是該随機變量的方差。從整體分布圖上可看出,正态分布以均數 μ 為中心左右對稱,當x < μ ,f(x)随着x的增大而增大;當 x> μ 時,f(x)随着x的增大而減小;

正态分布有兩個參數,即均數 μ 和标準差σ,其中μ是位置參數,當 恒定後, μ增大,則曲線沿橫軸向右移動;反之,則向左移動。 σ是形狀參數,當μ恒定時, σ越大,表示數據越分散,曲線就變“矮胖”, σ越小,表示數據集中,曲線越“瘦高”

正态分布的特征,歸納起來有兩點:一是對稱性,二是峰度。分布不對稱的就是偏态,有正偏态和負偏态,峰度也有兩種,一是尖峭峰,另一個是闊峰。

SPSS正态檢驗方法

在SPSS中有兩種檢驗方法:

一是圖示法,主要采用概率圖 P-P圖Q-Q圖,其中 P-P圖中有以正态分布标準參考線,若散點在參考線周圍,則符合正态分布。可通過SPSS中的“分析-描述統計—P-P圖/Q-Q圖”和“分析—描述統計—探索性分析”中實現

二是計算法,可用 K-S 檢驗S-W檢驗。可使用“分析—描述統計—探索性分析”和“分析—非參數檢驗—舊對話框—單樣本K-S檢驗”。

圖示法檢驗:P-P圖

P-P圖名為“Probability-Probability Plot”,指橫坐标為某種理論分布的累計概率,而縱坐标為當前數據分類累計概率的數據圖。

示例:打開數據,某市從城市工業園地區抽取15名7歲以下兒童測量其體内血鉛含量,那麼計算該工業園地區兒童的血鉛含量是否符合正态分布。

1. 打開 分析—描述統計—P-P圖

對分類變量進行正态分布檢驗(連續變量假設檢驗)2

2. 參數說明:

  • 變量:需分析的變量,可選擇多個或一個
  • 檢驗分布:檢驗分布類型,默認是正态分布,在下拉列表中可供選擇類型包括β分布、χ2分布、指數分布、拉普拉斯分布、Logistic分布、對數正态分布、帕累托分布等
  • 分布參數:定義所檢驗的分布參數,默認是“根據數據估算”,即根據樣本數據估計總體參數。
  • 轉換:對原始數據進行一定的變換後再進行相應的分布檢驗,默認是不進行任何變換。可供選擇變化:自然對數變換、數值标準化、差分變化和季節差分變化。當選擇差分和季節差分變換時,需填入差分變化的數值,季節性變化僅當數據為時間序列數據時可選。
  • 比例估算故事和分配給綁定的秩:較少選擇,采取默認即可

3. 結果輸出與說明

  • 首先呈現的是個案處理摘要和估算的分布參數,給出了數據的樣本數、正态分布的均值以及标準差。

對分類變量進行正态分布檢驗(連續變量假設檢驗)3

  • 對于P-P圖可看出,數據點基本分布在對角線周圍,表明期望累計概率和實際累計概率較為吻合,說明數據服從正态分布,從去趨勢的整體P-P圖來看,殘差基本在y=0上下均勻分布,并且沒有呈現一定的趨勢,說明數據的正态分布比較好。

對分類變量進行正态分布檢驗(連續變量假設檢驗)4

4. 語法:

PPLOT /VARIABLES=xqhl /NOLOG /NOSTANDARDIZE /TYPE=P-P /FRACTION=BLOM /TIES=MEAN /DIST=NORMAL.

圖示法檢驗:Q-Q圖

Q-Q圖原理與P-P圖非常類似,也用于比較變量的實際分布與其所假定的理論分布是否一緻。但P-P圖比較的是兩者的累計概率分布,而Q-Q圖則是根據變量的實際百分位數與理論的百分位數進行繪制的,相比之下,Q-Q的适用條件較寬松,結果也更穩健。

Q-Q圖的對話框界面、操作方式和P-P圖基本類似。

對分類變量進行正态分布檢驗(連續變量假設檢驗)5

  1. 結果輸出與說明
  • 首先呈現的是個案處理摘要和估算的分布參數,給出了數據的樣本數、正态分布的均值以及标準差。

對分類變量進行正态分布檢驗(連續變量假設檢驗)6

  • 對于Q-Q圖可看出,數據點基本分布在對角線周圍,說明數據服從正态分布,從去趨勢的整體P-P圖來看,殘差基本在y=0上下均勻分布,并且沒有呈現一定的趨勢,說明數據的正态分布比較好。

對分類變量進行正态分布檢驗(連續變量假設檢驗)7

  1. 語法:

PPLOT /VARIABLES=xqhl /NOLOG /NOSTANDARDIZE /TYPE=Q-Q /FRACTION=BLOM /TIES=MEAN /DIST=NORMAL.

計算法:K-S檢驗:
  1. 方法一:通過 探索對話實現
  • 打開 分析—描述統計—探索,進入對話框

對分類變量進行正态分布檢驗(連續變量假設檢驗)8

  • 關于 探索 對話框中各個選擇在前面讨論過,在此不再讨論。在對話框中選擇 圖—含檢驗的正态圖,點擊 确定

對分類變量進行正态分布檢驗(連續變量假設檢驗)9

  • 結果輸出與說明:我們僅看 正态分布檢驗參數

對于K-S檢驗和S-W檢驗,當顯著性(p)大于0.05時,提示數據符合正态分布。但:

---當樣本量小時,很可能數據分布畸形,檢驗結果卻不顯著

---當樣本量大時,數據分布貼近正态,但結果顯示p<0.05

由此可看,兩個檢驗結果容易受到樣本量的影響。有學者建議:

---當樣本量小于50時,使用S-W檢驗

---當樣本大于50時,使用K-S檢驗

--- 在SPSS中,當樣本量大于5000時,SPSS隻輸出K-S檢驗

對分類變量進行正态分布檢驗(連續變量假設檢驗)10

從上表看,樣本量隻有15個樣本,所以我們看S-W檢驗結果,p=0.263>0.05,說明原數據分布呈正态分布,同我們通過P-P圖和Q-Q圖得出的結論一緻。

如果我們需要檢驗不同組别樣本正态性,可在“探索”對話框中将分組變量選入“因子列表”,可分别檢驗 不同組别樣本上的 正态性。

示例:判斷不同醫院在麻醉費用上的分布是否呈正态性?

對分類變量進行正态分布檢驗(連續變量假設檢驗)11

  • 語法:

EXAMINE VARIABLES=xqhl /PLOT BOXPLOT STEMLEAF /COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

  1. 方法二:通過 非參數檢驗方法實現
  • 打開 分析—非參數檢驗—舊對話框—單樣本K-S,進入對話框

對分類變量進行正态分布檢驗(連續變量假設檢驗)12

  • 參數說明:
  • --- 檢驗分布:有四種分布可以進行檢驗,默認為正态

    --- 選項:提供統計(描述、四分位數等)等常用統計量以及對缺失值的處理方式。

    對分類變量進行正态分布檢驗(連續變量假設檢驗)13

    • 輸出結果與說明

    由下表可知,K -S 檢驗=0.169,P =0.200 > 0.05,血鉛含量符合正态分布。

    對分類變量進行正态分布檢驗(連續變量假設檢驗)14

  • 語法
  • NPAR TESTS /K-S(NORMAL)=xqhl /MISSING ANALYSIS.

    下次我們介紹 連續變量分布--單樣本t檢驗

    ,

    更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

    查看全部

    相关生活资讯推荐

    热门生活资讯推荐

    网友关注

    Copyright 2023-2025 - www.tftnews.com All Rights Reserved