tft每日頭條

 > 生活

 > spss因子分析和主成分分析

spss因子分析和主成分分析

生活 更新时间:2025-02-12 03:48:08

主成分分析(principal components analysis,簡稱PCA)是一種降維分析,将多個指标轉換為少數幾個綜合指标,由霍特林于1933年首先提出。

主成分分析方法之所以能夠降維,本質是因為原始變量之間存在着較強的相關性,如果原始變量之間的相關性較弱,則主成分分析不能起到很好的降維效果,所以進行主成分分析前最好先進行相關性分析。

一個例子

中心城市的綜合發展是帶動周邊地區經濟發展的重要動力。因而,分析評價全國35個中心城市的綜合發展水平,無論是對城市自身的發展,還是對周邊地區的進步,都具有十分重要的意義。

原始數據及指标解釋。我們選取了反映城市綜合發展水平的12個指标,其中包括8個社會經濟指标,分别為:—非農業人口數(萬人);—工業總産值(萬元);—貨運總量(萬噸);—批發零售住宿餐飲業從業人數(萬人);—地方政府預算内收入(萬元);—城鄉居民年底儲蓄餘額(萬元);—在崗職工人數(萬人);—在崗職工工資總額(萬元)。

4個城市公共設施水平的指标:—人均居住面積(平方米);—每萬人擁有公共汽車數(輛);—人均擁有鋪裝道路面積(平方米);—人均公共綠地面積(平方米)。

問題:請使用主成分分析,将這12個指标綜合為少出幾個綜合指标。

spss因子分析和主成分分析(主成分分析PCA原理及SPSS實操)1

在開始解決這個問題之前,有必要先了解一下主成分分析的基本原理及其求解方法。

主成分分析基本原理

1、幾何意義

如下圖所示,平面上散落着N個點,無論是沿x1軸方向,還是沿x2軸方向,均有較大的離散性,即這些點所代表的信息由兩個指标x1,x2所決定,若隻考慮x1和x2中的任何一個,原始數據中的信息均會有較大的損失。

spss因子分析和主成分分析(主成分分析PCA原理及SPSS實操)2

如果我們将坐标軸進行一個旋轉操作,得到新的坐标軸y1和y2,如上圖所示。則會發現這些點隻在y1方向上有較大的離散性,即y1可以代表原始數據的絕大部分信息。

也就說原來需要2個指标才能表示的信息,經過一些處理後,變成隻需要1個指标,而且不會損失太多的信息,即所謂的降維。

上述坐标旋轉公式如下:

spss因子分析和主成分分析(主成分分析PCA原理及SPSS實操)3

從公式可以看出,坐标旋轉本質上是線性變換,将原來的x1和x2,通過線性變換轉換為y1和y2。

所以主成分分析其實就是将原來的指标進行線性變換,生成新的指标,下面介紹主成分分析更一般的數學模型。

以下提到的數學理論,不感興趣可以略過,因為主成分分析一般都是通過工具(如SPSS)進行,不需要手動計算!

2、數學模型

主成分分析數學上的處理是将原始的p個變量作線性組合,作為新的變量。

spss因子分析和主成分分析(主成分分析PCA原理及SPSS實操)4

從上方可以看到,有幾個原始變量,就會得到幾個主成分

實際研究工作中,通常隻挑選前幾個方差最大的主成分,從而達到簡化系統結構、抓住問題實質的目的。

如何求主成分及如何選擇主成分?

從數學的角度看,求解主成分,其實就是根據數據源的協方差陣,求解特征根、特征向量的過程。

一個結論:主成分可以利用協方差陣的特征值對應的單位正交特征向量來表示。

說明:上述結論其實是一個數學定理,有嚴格的證明過程,感興趣的同學可以參考相關書籍。

求出主成分後,如何選擇主城分呢?我們引入貢獻率,貢獻率通過特征根的來表示。

spss因子分析和主成分分析(主成分分析PCA原理及SPSS實操)5

說明:上述λ其實就是特征根。

根據貢獻率,一般要求累計貢獻率達到80%以上就可以了。當然,這隻是一個大體标準,具體選擇幾個要看實際情況。

從數學角度看,求解主成分的步驟分為以下4步。

spss因子分析和主成分分析(主成分分析PCA原理及SPSS實操)6

關于數據是否标準化

因為主成分分析涉及不同指标之間的運算,所以需要考慮數據的标準化。

  • 對于度量單位不同的指标或取值範圍彼此差異非常大的指标,應該先将數據标準化,然後求協方差陣;
  • 對同度量或取值範圍在同量級的數據,從協方差矩陣求解主成分。

說明:主成分本來是從協方差陣開始分析,如果從“相關系數矩陣”出發進行分析,相當于将原始數據标準化後,再從協方差陣進行主成分分析,即從相關系數矩陣出發進行主成分分析,則不需要單獨進行數據标準化

實操:利用SPSS進行主成分分析

用SPSS進行主成分分析,主要分為以下3步。

1、将數據複制到SPSS中,選擇菜單:分析-降維-因子分析,得到以下對話框

spss因子分析和主成分分析(主成分分析PCA原理及SPSS實操)7

說明:SPSS中沒有單獨的主成分分析選項,通過因子分析(另一種降維分析方法)中的主成分分析進行。

2、“描述”對話框中,勾選“系數”,即給出相關系數矩陣

spss因子分析和主成分分析(主成分分析PCA原理及SPSS實操)8

“抽取”對話框,默認就行。

spss因子分析和主成分分析(主成分分析PCA原理及SPSS實操)9

說明:這裡通過相關系數矩陣判斷原始變量的相關性。

3、單擊“确定”,即可得出主成分分析的相關結論,SPSS會給出以下4個方面的結論

(1)相關系數矩陣

spss因子分析和主成分分析(主成分分析PCA原理及SPSS實操)10

由相關系數矩陣可以看出,原始變量之間的相關性還是不錯的,至少部分變量之間如此,說明可以采用主成分分析。

(2)公因子方差

spss因子分析和主成分分析(主成分分析PCA原理及SPSS實操)11

公因子方差反映了本次主成分分析從每個原始變量提取的信息,即對每個原始變量的代表程度,可以看出,主成分對于大部分原始變量的代表程度還是不錯,個别較低。

(3)總方差解釋

spss因子分析和主成分分析(主成分分析PCA原理及SPSS實操)12

總方差解釋反映了各個主成分的貢獻率及累計貢獻率,第三列表示貢獻率,第四列表示累計貢獻率,可以看到,提取前3個主成分,累計貢獻率就可以達到87%以上,即這3個主成分集中了12個原始變量的87%的信息。

(4)成分矩陣(或因子載荷矩陣)

spss因子分析和主成分分析(主成分分析PCA原理及SPSS實操)13

成分矩陣(或因子載荷矩陣)反映了提取的3個主成分與原始變量的相關性,從上面可以得出以下結論:

  • 主成分1跟原始變量x1,x2,x3,...,x8的相關性較強;
  • 主成分2跟原始變量x10,x11,x12的相關性較強;
  • 主成分3跟原始變量x9的相關性較強。

對主成分進行解釋:

  • 原始變量x1,x2,x3,...,x8反應的是城市規模和經濟發展水平,所以主成分1命名為城市規模及經濟水平
  • 原始變量x10,x11,x12反應的是城市基礎設施,所以主成分2命名為城市基礎設施
  • 原始變量x9反應的是城市人均居住面積,所以主成分3命名為城市人均居住面積

綜上,通過主成分分析,将反應原始數據的12個指标綜合為3個綜合指标,分别為:

  • 城市規模及經濟水平
  • 城市基礎設施
  • 城市人均居住面積

從而起到了降維的作用。

你是否使用過主成分分析(PCA)呢?歡迎留言評論!

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved