SPSS中有多個模塊中的多個指标反映變量間相關或關聯程度,現簡單介紹如下:
一、相關分析有關統計量及意義
(一)兩個計量資料的相關分析
1、Pearson 相關系數
最常用的相關系數,又稱積差相關系數,該系數的計算和檢驗為參數方法。r介于-1與1之間,r的正負值表示兩變量之間線性關系的方向,即r>0為正相關、r<0為負相關、r=0為零相關。r的絕對值大小則表示兩變量之間線性相關的密切程度,r越接近0,說明密切程度越低。r=0時,也可能會存在非線性關系,可通過散點圖來确定。Pearson相關系數不适合描述兩變量的非線性關系。适用條件如下:
(1)兩變量呈直線相關關系,如果是曲線相關可能不準确。
(2)極端值會對結果造成較大的影響。
(3)兩變量符合雙變量聯合正态分布。
2、Spearman 等級相關系數
可用于描述兩個等級變量間關聯程度與方向,其相關系數用rs表示。這類方法對原變量的分布不作要求,屬于非參數統計方法,可用于不服從正态分布或不知道總體分布類型的連續性數據、結果不能用具體數字表示、半定量數據或等級資料的相關分析。檢驗效能較 Pearson 系數低。Spearman等級相關系數rs,rs介于-1與1之間,即rs>0為正相關、rs<0為負相關、rs=0為零相關。
4、偏相關
偏相關系數(partialcorrelation coefficient)在控制一個或多個附加變量的效應後,描述兩變量間線性關系(linear relationship)。
3、距離相關
測量兩個連續變量間的相似性(數值越大表示距離越近)或相異性(數值越大表示距離越遠)。
4、各種相關矩陣
在SPSS的多個模塊中都可以計算各種相關矩陣,如因子分析中,可計算相關矩陣行列式及逆矩陣、包含反影像的再生相關矩陣等。
(二)有序分類(雙向有序)資料的相關
兩個變量均為有序變量的情況,即雙向有序資料。有序分類變量的相關性又稱為一緻性,即行變量等級高的列變量等級也高,如果行變量等級高而列變量等級低,則稱為不一緻,均為非參數相關。
1、Kendall相關系數τb
系數符号表示關聯方向,絕對值表示關聯強度,絕對值越大則表示關聯程度越強。系數值介于-1至1之間,但系數值-1和1隻能在正方表(square table)中獲得。
1、Kendall相關系數τc
系數符号表示關聯方向,絕對值表示關聯強度,絕對值越大則表示關聯程度越強,系數值介于-1至1之間,但系數值-1和1隻能在正方表中獲得。
3、γ系數
γ法是兩個有序變量的相聯度量,γ系數G介于-1至1之間,G的絕對值越接近1時,表示兩個變量間的關聯程度越大,其絕對值越接近0,兩變量間的關聯程度越小。對于2維交叉表計算零階γ系數(zero-order Gamma),3維或高維交叉表則計算條件γ系數(conditional gamma)。
4、Somers d統計量
兩個有序變量間的相聯度量,介于-1至1之間,絕對值接近1時,表示兩個變量之間存在緊密的關系,接近0時表示關系很弱或沒有關系。
(三)名義(雙向無序)資料的相關
對于行變量和列變量均為名義數據(nominal data)(無内在順序,如工人、農民等)的情況,即雙向無序資料,
1、列聯系數
屬于獨立性卡方檢驗,可用于描述兩個分類變量之間的關聯程度,系數值介于0至1之間,系數值越接近0,說明兩個分類變量幾乎沒有關系,越接近1,說明關系越密切。
2、Φ系數和Cramer V系數
Φ系數和Cramer V系數均屬于獨立性卡方檢驗,可用于描述兩個分類變量之間的關聯程度,系數值越接近0,說明兩個分類變量幾乎沒有關系,越接近1,說明關系越密切。Φ系數隻适用于四格表資料,對于多行多列資料,隻能采用Cramer V系數和列聯系數。
3、Lambda(λ統計量)
反映用自變量值預測因變量值時誤差成比例降低程度的相聯度量,1表示自變量能完全地預測因變量,0表示自變量對于預測因變量沒有幫助。
4、不确定系數
表示用一個變量值預測其他變量值時,誤差成比例降低程度的相聯度量,可計算對稱或不對稱不确定系數。如不确定系數為0.83表示如果知道一個變量值,那麼在預測其他變量值時會将誤差降低83%。
5、優勢比和相對危險度
OR、RR 也是衡量兩變量之間的相關程度的指标。
(四)名義資料與計量資料(單向有序)的相關
1、η系數
介于0至1之間的相聯度量,0表示行變量(rowvariable)和列變量(columnvariable)間無關聯性,接近1表示高度關聯。系數适用于因變量為間隔尺度(interval scale)資料(等距資料),如收入等,自變量為有限數字的分類資料(如性别)。
(五)配對二分變量或等級資料的相關
1、Cohen κ系數
内部一緻性系數,用于描述同一批研究對象兩次定性觀測結果的一緻性,κ值考慮了機遇因素對一緻性的影響。κ值僅可用正方表(m×m)資料,即兩個變量具有相同分類值及分類數。κ介于-1至 1之間,一般認為,κ≤0.4,一緻性較差;0.4<κ<0.75,一緻性較好;κ≥0.75,一緻性好,系數值最好接近0.90;κ<0時,一緻性比偶然預期的還要弱,不過這種情況很少發生。
2、McNemar檢驗
二值變量(binary variable)的配對卡方檢驗。可用于對照組和處理組或實驗幹預前後的頻數或比率是否有差異。配對資料變量的分類分為兩類,如“是”或“否”,“陽性”或“陰性”,“有反應”或“無反應”。對于大正方表(R×R表,R≥2)将進行對稱性McNemar-Bowker檢驗(McNemar-Bowker test of symmetry)。
(六)多個變量間的相關
1、Kendall W檢驗
該方法屬于協調分析,W統計量又稱協調系數(coefficientof concordance),表示多個指标間相互關聯的程度,常用于評價不同評分者評分的一緻性程度。每個個案是一名裁判員或評分者,每個變量是被裁判的一個指标或一個人。Kendall W統計量的範圍介于0(完全不一緻)到1(完全一緻)之間。
2、Cochran Q檢驗
該方法與Friedman檢驗相同,是McNemar檢驗向多樣本情況的延伸,用于檢驗完全随機區組設計的二分變量是否具有相同平均值的假設,Cochran's Q統計量是近似卡方分布的。
(七)兩組變量(多個變量與多個變量)間的典型相關
典型相關分析(CanonicalCorrelation Analysis)又稱正則相關分析或典則分析,是研究兩組指标(變量)間的一種多變量統計分析方法,其目的是尋找一組指标的線性組合與另一組指标的線性組合,使兩者之間的相關達到最大(即兩組典型變量的相關達最大值)。這兩組指标多半是相同研究對象有關系的兩組不同指标。這兩組典型變量彼此之間的最大相關就是第1個典型相關,而線性組合的系數稱為典型相關系數。接着典型相關分析将繼續尋找第2組典型變量(與第1組無關聯),以生成第2高的相關。典型相關分析會如此重複叠代尋找典型變量,直到配對的典型變量數等于兩組原始變量中個數較少的那一個數時才停止。
還有還有,就是時間序列分析中自相關和交叉相關,還有很多很多……,就不再贅述了。
二、SPSS常用操作
1、交叉表分析
2、雙變量相關
3、偏相關
4、距離相關
5、兩相關樣本非參數檢驗
6、多個相關樣本的非參數檢驗
7、典型相關分析
【作者介紹】
李志輝,長期從事各類統計軟件應用研究,《SPSS常用統計分析教程(SPSS 22.0中英文版)(第4版)》等教材的主編,主編或參編SPSS、MINITAB、STATISTICA多個統計軟件教材共8本。
獲取更多的統計知識,請關注微信同名訂閱号“一起學SPSS"
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!