研究背景
主成分分析用于對數據信息進行濃縮,比如總共有20個指标值,是否可以将此20項濃縮成4個概括性指标。除此之外,主成分分析可用于權重計算和綜合競争力研究。即主成分分共有三個實際應用場景:
數據格式
主成分分析時,一列标識1個指标,一行為1個樣本;如果為面闆數據,比如100家公司每家公司10年,那麼就會有100*10=1000個樣本,可能需要單獨兩列分别是公司名和年份來标識面闆格式而已,但主成分分析并不區分是否面闆數據,隻針對指标進行分析即可,另一般分析樣本量需要超出分析項(指标)的5倍,類似數據格式如下圖:
SPSSAU操作
1.上傳數據
登錄賬号後進入SPSSAU頁面,點擊右上角“上傳數據”,将處理好的數據進行“點擊上傳文件”上傳即可。
2.拖拽分析項
可以勾選“成分得分”以及“綜合得分”點擊開始分析後,左側分析框就會出現,成分得分與綜合得分:
SPSSAU分析
背景:當前有一份數據,共涉及9個指标,希望将此9個指标使用主成分分析進行降維,并計算綜合得分。
1.KMO 和 Bartlett 的檢驗
使用主成分分析進行信息濃縮研究,首先分析研究數據是否适合進行主成分分析,從上表可以看出:KMO為0.913,大于0.6,滿足主成分分析的前提要求,意味着數據可用于主成分分析研究。以及數據通過Bartlett 球形度檢驗(p<0.05),說明研究數據适合進行主成分分析。
2.方差解釋率表格
上表格針對主成分提取情況,以及主成分提取信息量情況進行分析,從上表可知:主成分分析一共提取出2個主成分,此2個主成分方差解釋率分别是55.907%,8.133%,累積方差解釋率為64.040%另外,本次分析共提取出2個主成分,它們對應的加權後方差解釋率即權重依次為:55.907/64.040=87.30%;8.133/64.040=12.70%;
3.載荷系數表格
載荷系數表格,主要展示主成分對于研究項的信息提取情況,以及主成分和研究項對應關系。
共同度代表某題項可被提取的信息量,共同度越高說明指标能被主成分解釋的程度越高,被提取的信息量越多。一般以0.4作為标準。
上表格展示主成分對于研究項的信息提取情況,以及主成分和研究項對應關系,從上表可知:所有研究項對應的共同度值均高于0.4,意味着研究項和主成分之間有着較強的關聯性,主成分可以有效的提取出信息。确保主成分可以提取出研究項大部分的信息量之後,接着分析主成分和研究項的對應關系情況(載荷系數絕對值大于0.4時即說明該項和主成分有對應關系)。
補充說明:如果主成分分析結果不佳,可考慮使用因子分析,在主成分分析的基礎上,因子分析多出旋轉功能,更容易找出因子和分析項對應關系。
4.成份得分系數矩陣
使用主成分分析目的在于信息濃縮,則忽略“成份得分系數矩陣”表格。如果使用主成分分析法進行權重計算,則需要使用“成份得分系數矩陣”建立主成分和研究項之間的關系等式(基于标準化後數據建立關系表達式),如下:成分得分1(成分1)=
0.151*X1 0.142*X2 0.150*X3 0.162*X4 0.152*X5 0.147*X6 0.134*X7 0.142*X8 0.154*X9;成分得分2(成分2)=
-0.076*X1-0.205*X2-0.097*X3-0.090*X4-0.387*X5-0.498*X6 0.101*X7 0.823*X8 0.463*X9;
5.碎石圖
可結合碎石圖輔助判斷主成分提取個數。當折線由陡峭突然變得平穩時,陡峭到平穩對應的主成分個數即為參考提取主成分個數。實際研究中更多以專業知識,結合主成分與研究項對應關系情況,綜合權衡判斷得出主成分個數。圖中可以看出當橫坐标為2時,折線突然變得比較平穩。
6.載荷圖
載荷圖是針對成分與旋轉後載荷值關系的圖形化展示,使用較少,通常需要手工加‘圓圈’把挨在一起的因子圈起來,更直觀展示成分與分析項的隸屬對應關系情況。由于可讀性和解釋性問題,一般隻關注于方差解釋率靠前的前面幾個成分,多數情況下隻關注2個。
7.線性組合系數及權重結果
SPSSAU的主成分分析結果中默認提供“線性組合系數及權重結果表”包括上述的過程值及結果,包括線性組合系數、綜合得分系數、以及指标各自的權重。
8.綜合得分排名
根據之前勾選的“綜合得分”,即可自動得到綜合得分結果。
SPSSAU默認命名為CompScore_XXXX。使用【數據處理】→【标題處理】功能可以對題目重命名。
【數據處理】→【生成變量】裡的排名功能。點擊“綜合得分”,再選擇“排名(Rank)”,點擊确認處理。
右上角“我的數據”也可以将數據進行下載。
其它說明1. 提示出現奇異矩陣?
如果提示出現“奇異矩陣”,通常情況下由于分析樣本量太少(比如分析項有20個,分析樣本僅10個),此裡需要加大樣本量或者減少分析項即可;以及還有一種情況是分析項之間的相關性非常非常弱或者非常非常強,此時需要移除掉相關性非常弱或者非常強的分析項(使用相關分析進行檢查相關關系)。
2. ‘分析之前是否需要對數據進行标準化處理’?
SPSSAU默認就已經進行過标準化處理,因此不需要再對數據處理。當然标準化後的數據再次标準化依舊還是自身沒有任何變化,結果永遠均一緻。
3.綜合得分如何使用?
SPSSAU默認可保存綜合得分(以及因子得分等);一般該值越大表示越有競争力等;研究者通常需要把綜合得分的具體數據下載後使用,并且在EXCEL進行排序(也可使用SPSSAU生成變量裡面的排序功能)。 通過右上角我的數據可下載具體綜合得分的具體數據等。
4.特征根值沒有大于1可以嗎?
主成分分析時通常需要綜合自己的專業知識,以及軟件結果進行綜合判斷,即使是特征根值小于1,也一樣可以提取主成分。
5.主成分回歸是什麼意思?
進行主成分時,選擇保存‘成分得分’,然後利用系統生成的‘成分得分’數據進行線性回歸,即為主成分回歸。
6.累積方差解釋率出現100%以上如何辦?
正常情況下,累積方差解釋率會小于100%,但如果數據的共線性問題太嚴重,有可能出現方差解釋率值大于100%,此時建議進行相關分析,找出相關性太強(比如相關系數大于0.8)的項,然後從分析框中移出後再次分析。與此同時,如果樣本量太少也可能出現此問題建議加大樣本量即可。
7. KMO值過低?
一般需要KMO值大于0.6即可,如果是兩個分析項,KMO值一定是0.5;因而建議删除掉共同度(公因子方差)值較低項,這樣可以提升KMO值。
如果不輸出KMO值,意味着數據質量過差,建議可使用相關分析看下相關關系,如果相關系數值基本均小于0.3(或者沒有呈現出顯著性),則說明題項間關聯性弱,則KMO值一定會較低,建議先移除相關系數值較低項後再次分析。
提示:KMO值綜合衡量分析項間的信息重疊情況(即分析項之間的相關關系情況)。分析項之間的相關系數過低(比如小于0.2或沒有顯著性),信息重疊度低無法有效濃縮信息,這會導緻KMO值較低,如果分析項之間的相關系數過高(比如大于0.8),這會導緻嚴重共線性可能無法輸出KMO值。分析項之間的相關系數值一般希望介于0.3~0.7之間較好。
總結主成分分析的原理在于信息濃縮,對于信息濃縮的幫助越大,指标權重可越大,正是利用此原理,可進行指标權重的計算。主成分分析的作用更多側重于計算權重、計算綜合競争力。不會過多關注主成分與分析項對應關系,不要求每個主成分有明确的含義。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!