一、基本概念:卡方檢驗
(一)定義
卡方檢驗主要用于研究定類與定類數據之間的差異關系。一般使用卡方檢驗進行分析的目的是比較差異性。例如研究人員想知道兩組學生對于手機品牌的偏好差異情況。
(二)卡方值
卡方值表示觀察值與理論值之間的偏離程度。
卡方值的大小與樣本量(自由度)有關。一般來說,卡方值越大越好,但并不準确。比如5000和5010的差異為10;40和50的差異為10,明顯後者差異更大。
最終查看卡方值對應的 p 值更準确。
二、卡方檢驗分類
(一)方法分類
SPSSAU系統中,卡方檢驗分為【通用方法】中的交叉卡方,以及【醫學/研究】模塊中的卡方檢驗、配對卡方、卡方拟合優度、分層卡方五類。
(二)方法對比
(1) 交叉卡方
适用于大部分場景之中,滿足大部分用戶需求,使用頻率高,僅使用Pearson卡方,不支持加權數據。
交叉卡方僅輸出一個交叉卡方分析結果如下圖:
可以看到卡方值為16.667,p =0.000<0.01,所以不同地區的飲食習慣情況呈現出顯著性差異。
(2) 卡方檢驗
适用于實驗醫學研究方向,專業性更強,使用頻率高。
從上表可知,利用卡方檢驗(交叉分析)去研究減肥方式對于膽固醇水平共1項的差異關系【獨立性】,不同減肥方式樣本對于膽固醇水平共1項呈現出顯著性(p <0.05)。
總結可知:不同減肥方式樣本對于膽固醇水平全部均呈現出顯著性差異。
①Pearson卡方、yates校正卡方、Fisher卡方三類卡方,具體選擇标準如下圖
上表格為卡方檢驗的中間過程值,由于本案例數據為3*2格式,且1 <=E<5 格子的比例大于20%(此處為33.33%),因而最終選擇使用yates校正卡方值。
【特别備注: Pearson卡方和yates校正卡方完全相同是正常現象,多數情況下二者完全相等】
② 加權數據
數據格式如下
③效應量指标(研究差異幅度情況,效應量值越大說明差異幅度越大,通常情況下效應量小、中、大的區分臨界點分别是 0.20,0.50 和 0.80)卡方檢驗時,通常有5個指标均可表示效應量大小,區别在于使用場合不一樣,選擇标準如下圖:
上表格為效應量指标,由于本案例數據為3*2格式,所以使用Cramer V 研究差異幅度情況。Cramer V =0.47,說明各減肥方式下膽固醇水平差異接近中等水平。
④卡方檢驗多重比較(多重比較得到多個卡方值,比較更加全面,通常在醫學研究中使用,且類别數量較少時使用)
卡方檢驗多重比較指兩兩類别組合(每個組合共4個數字)重複進行卡方檢驗; 多重比較的次數=C(X類别個數)*C(Y類别個數),比如X類别為3,Y類别個數為5,則為C(3,2)*C(5,2)=30次;
多重比較時,檢驗次數增多會增加一類錯誤的概率,建議使用校正顯著性水平(Bonferroni校正);如果顯著性水平為0.05,并且兩兩比較次數為3次,那麼Bonferroni校正顯著性水平為0.05/3次=0.0167,即 p 值需要與0.0167進行對比,而不是0.05;
【特别提示:多重比較通常在醫學研究中使用,且類别數量較少時使用】
⑤ 趨勢卡方檢驗(Cochran-Armitage 趨勢卡方檢驗(Linear-by-Linear)研究k*2(或2*k)列聯表數據的趨勢差異關系;通常用于k*2(或2*k)的列聯表結構,k為有序定類數據,2指兩個類别)
SPSSAU默認均提供趨勢卡方檢驗(Linear-by-Linear)結果,但需要注意使用此指标的前提條件。
(3)
配對卡方
配對卡方研究配對定類數據間的差異關系,适用于兩配對數據的比較,使用頻率低,提供McNemar檢驗與Bowker檢驗,選擇标準如下:
本次配對對比類别數量為2(即配對四表格),因而使用McNemar檢驗進行研究。配對數據之間呈現0.05水平的顯著性(chi=2.000,p=0.022<0.05),意味着配對數據間有着明顯的差異性。
總結可知:使用McNemar檢驗研究A方法共有兩種結果和B方法共有兩種結果之間的差異性,分析顯示配對數據間呈現出顯著性差異。
(4) 卡方拟合優度檢驗
卡方拟合優度檢驗研究定類數據的頻數分布是否與期望頻數保持一緻。
針對性别進行卡方拟合優度檢驗,研究數據分布是否與期望分布保持一緻,從上表可以看出:性别全部均沒有呈現顯著性(p >0.05),意味着接受原假設(原假設:實際分布比例與預期比例一緻),即數據分布與預期一緻。
(5) 分層卡方
分層卡方研究X與Y之間的差異時,進一步研究是否存在擾動因素項Factor項。
針對分層卡方,其涉及的理論知識内容,如下表格:
通常情況下,首先查看 "比值比齊性檢驗",如果其呈現出顯著性(p < 0.05),則說明具有混雜因素,即需要考慮分層項,分别查看不同分層項下的數據結果。反之如果沒有通過 "比值比齊性檢驗",即說明沒有混雜因素不需要考慮分層項,報告整體的結果即可(包括卡方檢驗,以及OR值)。
三、卡方檢驗應用
(一)分析步驟
(1)分析X分别與Y之間是否呈現出顯著性(p 值小于0.05或0.01);
(2)如果呈現出顯著性,具體對比選擇百分比(括号内值),描述具體差異所在;未呈現出顯著性則停止分析;
(3)對分析進行總結。
(二)多選題分析中的應用
(1)卡方拟合優度:多選題,檢驗各選項選擇比例是否有顯著性差異
從上表可以看出,各選項選擇沒有顯著差異,百分比選擇分布較均勻(chi=5.947,p=0.203>0.05)。
(2)Pearson卡方:單選-多選,交叉差異檢驗
從上表可以看出,性别對于共五項表示的多選題并不會呈現出顯著差異性(chi=1.208,p=0.877>0.05)。
(3)Pearson卡方:多選-多選,交叉差異檢驗
從上表可以看出,兩個多選題之間并沒有明顯的關聯關系,百分比選擇分布較均勻(chi=0.732,p=1.000>0.05)。
四、數據格式
卡方檢驗數據格式可分為常規格式與加權格式兩類。
上述五類卡方檢驗方法,除交叉卡方外,其餘四類卡方檢驗均支持加權數據格式。
(1)常規格式
一行代表一個樣本,如果有100個樣本即為100行;一列代表一個屬性;這類格式最為常見,而且此類數據格式可以做任何的分析。因為其攜帶着所有最原始的數據信息。
(2)加權格式
例如:膽固醇水平有2項,減肥方式有3項,因而為3*2共6種組合,則一定需要有6行,并且一定為3列,最後一列叫‘加權項’,這樣的數據格式上傳到SPSSAU後進行分析即可。
五、差異幅度
效應量值越大說明差異幅度越大,通常情況下效應量小、中、大的區分臨界點分别是: 0.20,0.50 和 0.80。
六、定量數據做卡方檢驗
卡方檢驗主要用來研究定類與定類數據間差異關系的;
那麼定量數據能否進行卡方檢驗呢?此時可以分為以下三種情況讨論:
(1)定量數據可以轉化為定類數據(可以進行卡方檢驗)
① 自動按分位數分組
例如:想讓樣本數據按五分位數進行分樣本處理; 第一步将數據按照指定變量從小到大排列; 第二步分别找到20%分位點、40%分位點、60%分位點、和80%分位點; 第三步将小于20%分位點的全部取值為1,20%-40%取值為2,60%-80%取值為3,80%以上取值為4。
② 按實際意義分組
例如:本科以下、本科以上兩組; 20歲以下、20-30歲、30歲以上。
(2)定量和定類模糊(視研究偏好而定)
例如:量表數據,比如非常不滿意,不滿意,一般,滿意和非常滿意
(3)定量不可轉化為定類數據(不可以進行卡方檢驗)
如果研究定類與定量數據之間的關系,此時應該使用方差或者T檢驗。
差異關系研究方法選擇見下表:
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!