數據分析工作,并不是直接從分析開始的,當拿到一份要分析的數據,往往需要先進行一項基礎工作-數據處理。數據處理一般的操作方法,正如SPSSAU【數據處理】闆塊中所提供的這些處理方法。
并且上圖的【生成變量】方法中包涵了多種對數據變量重新處理的方法:
其中數據的标準化處理,是在進行很多數據分析之前都需要做的:
在一些分析比如主成分分析、因子分析、線性回歸分析等均希望數據标準化處理。
同時一些綜合性評價方法還會要求更多的數據處理,比如中心化等,中心化是指:X-平均值。
還有一些經管類的方法:比如中介作用、調節作用等均要求标準化。
如果不進行标準化處理,後面的分析結果可能會存在誤差。
數據的标準化處理主要是為了消除指标之間的量綱和取值範圍差異的影響。什麼是消除指标的量綱?一般情況下,我們所收集的數據是有單位的,比如收集到一份個人信息,其中包括人的身高和體重兩個指标,身高有單位cm,體重有單位kg,消除指标的量綱就是消除它們的單位,當不同指标的量級差别很大時,消除量綱是有必要的,否則,數據的分析結果可能由量級較大的指标值決定,而忽略了量級小的指标,所以消除量綱,使之全部變成沒有單位的數據,便于之後的分析。
例如下面的案例,需要對我國各省市的綜合發展情況做因子分析,表中有六個指标。
像這樣的數據,有的指标值特别大,有的指标值特别小,比如“高校數量”和“人均GDP”這兩個指标,那麼在進行因子分析之前,就需要先對這六個指标變量進行數據标準化。
數據标準化的處理中,使用最廣泛的一種标準化方法是z-score标準化,這篇文章分享z-score标準化的原理和做法,以及怎麼進行因子分析。
一、數據的Z-score标準化
(1)Z-score标準化原理
z-score标準化是基于原始數據的均值μ和标準差σ進行的,通過下面的轉換公式,就可以将原始值轉換為統一的均值為0,标準差為1的數據。
z-score标準化轉換公式:
新得到的标準化數據的意義是“給定數據距離均值相對來說有多少個标準差”,在均值之上的數據會得到一個正的标準化分數,在均值之下的則得到一個負的标準化分數。标準化之後數據就會全部統一起來,不會有數據非常大比如10000,而有的數據非常小比如10。如下圖:
适用:z-score标準化的方法适用于一個變量的最大值和最小值未知的情況,或有超出取值範圍的離群數據的情況。
(2)使用SPSSAU對數據進行标準化處理
實際的分析操作中,數據标準化處理很簡單,這裡以上面的案例數據來演示如何做。
1、首先打開SPSSAU網站,上傳好數據如下圖:
2、對6個衡量各省市的綜合發展情況的指标值進行标準化處理,在SPSSAU頁面右側選擇【數據處理】版塊中的【生成變量】按鈕。
3、接着選擇Z标準化方法,選中需要标準化的6個指标,點擊【确認處理】即可。
4、處理結果
SPSSAU系統自動生成新的标準化後的指标變量,原始指标值仍然存在。
此時也可以查看具體的标準化後的數值,可以看到所有的數據都被壓縮到了特定區間内:
這樣就完成了數據标準化處理,接下來可以用标準化後的數據做因子分析了。
二、因子分析
SPSSAU中提供現成的因子分析方法,可以快速完成,操作如下:
(1)操作步驟
在SPSSAU頁面左側選擇【進階方法】中的【因子】按鈕,将标準化後的6個指标變量拖拽到頁面右側的分析框中,根據研究實際情況選擇因子數量,這裡選擇3個,點擊【開始分析】即可得出因子分析結果。
(2)輸出結果
SPSSAU共輸出4個結果表格,自動生成2個可視化圖形,分别如下:
1、KMO和Bartlett的檢驗:
因子分析探索定量數據可以濃縮為幾個方面(因子),每個方面(因子)和題項對應關系;
第一:分析KMO值;如果此值高于0.8,則說明非常适合進行因子分析;如果此值介于0.7~0.8之間,則說明比較适合進行因子分析;如果此值介于0.6~0.7,則說明可以進行因子分析;如果此值小于0.6,說明不适合進行因子分析;
第二:如果Bartlett檢驗對應p值小于0.05也說明适合進行因子分析;
第三:如果僅兩個分析項,則KMO無論如何均為0.5。
2、方差解釋率表格
3、旋轉後因子載荷系數表格
4、成份得分系數矩陣
5、碎石圖
6、載荷圖
7、線性組合系數及權重結果
三、總結
總之,在做因子分析之前,一般需要先進行數據标準化處理,消除數據指标的量綱影響,數據标準化與因子分析在SPSSAU在線SPSS數據分析工具中都被傻瓜化處理,隻需要點點拽拽即可完成,更方便統計入門者使用。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!