因子分析法是指從研究指标相關矩陣内部的依賴關系出發,把一些信息重疊、具有錯綜複雜關系的變量歸結為少數幾個不相關的綜合因子的一種多元統計分析方法。
是一種旨在尋找隐藏在多變量數據中、無法直接觀察到卻影響或支配可測變量的潛在因子、并估計潛在因子對可測變量的影響程度以及潛在因子之間的相關性的一種多元統計分析方法
基本思想
根據相關性大小把變量分組,使得同組内的變量之間相關性較高,但不同組的變量不相關或相關性較低,每組變量代表一個基本結構一即公共因子。
為什麼做因子分析
舉例說明:在實際門店問題中,往往我們會選擇潛力最大的門店作為領航店,以此為樣闆,實現業績和利潤的突破及未來新店的标杆。選擇領航店過程中我們要注重很多因素,比如:
↘所在小區的房價
↘總面積
↘戶主年齡分布
↘小區戶數
↘門店面積
↘2公裡範圍内競争門店數量等
收集到所有的這些數據雖然能夠全面、精準的确定領航店的入選标準,但實際建模時這些變量未必能夠發揮出預期的作用。主要體現兩方面:計算量的問題;變量間的相關性問題。
這時,最簡單直接的方案就是削減變量個數,确定主要變量,因子分析以最少的信息丢失為前提,将衆多的原有變量綜合成少數的綜合指标。
因子分析特點
因子個數遠小于變量個數;
能夠反應原變量的絕大數信息;
因子之間的線性關系不顯著;
因子具有命名解釋性
因子分析步驟
1.原有變量是否能夠進行因子分析;
2.提取因子;
3.因子的命名解釋;
4.計算因子得分;五、綜合評價
因子與主成分分析的區别
相同:都能夠起到處理多個原始變量内在結構關系的作用
不同:主成分分析重在綜合原始變适的信息.而因子分析重在解釋原始變量間的關系,是比主成分分析更深入的一種多元統計方法
因子分析可以看做是優化後的主成分分析,兩種方法有很多共通的地方,但應用方面各有側重。
因子分析應用場景
因子分析方法主要用于三種場景,分别是:
l信息濃縮:将多個分析項濃縮成幾個關鍵概括性指标。比如将多個問卷題濃縮成幾個指标。如果偏重信息濃縮且關注指标與分析項對應關系,使用因子分析更為适合。
l權重計算:利用方差解釋率值計算各概括性指标的權重。在信息濃縮的基礎上,可進一步計算每個主成分/因子的權重,構建指标權重體系。
l綜合競争力:利用成分得分和方差解釋率這兩項指标,計算得到綜合得分,用于綜合競争力對比(綜合得分值越高意味着競争力越強)。此類應用常見于經濟、管理類研究,比如上市公司的競争實力對比。
因子分析案例
現在有 12 個地區的 5 個經濟指标調查數據(總人口、學校校齡、總雇員、專業服務、中等房價),為對這 12 個地區進行綜合評價,請确定出這 12 個地區的綜合評價指标。(綜合競争力應用場景)
同一指标在不同地區是不同的,用單一某一個指标難以對12個地區進行準确的評價,單一指标隻能反映地區的某一方面。所以,有必要确定綜合評價指标,便于對比。因子分析方法就可以應用在這個案例中。
5 個指标即為我們分析的對象,我們希望從這5個可觀測指标中尋找出潛在的因素,用這些具有綜合信息的因素對各地區進行評價。
下圖spss因子分析的操作界面主要包括5方面的選項,變量區隻能選擇數值型變量,分類型變量不能進入該模型。
spss軟件為了消除不同變量間量綱和數量級對結果的影響,在該過程中默認自動進行标準化處理,因此不需要對這些變量提前進行标準化處理。
描述統計選項卡
希望看到各變量的描述統計信息,要對比因子提取前後的方差變化,選定“單變量描述性”和“原始分析結果”;
現在是基于相關矩陣提取因子,所以,選定相關矩陣的“系數和顯著性水平“,
另外,比較重要的還有 KMO 和球形檢驗,通過KMO值,我們可以初步判斷該數據集是否适合采用因子分析方法,kmo結果有時并不會出現,這主要與變量個數和樣本量大小有關。
抽取選項卡:在該選項卡中設置如何提取因子
提取因子的方法有很多,最常用的就是主成分法。
因為參與分析的變量測度單位不同,所以選擇“相關矩陣”,如果參與分析的變量測度單位相同,則考慮選用協方差矩陣。
經常用到碎石圖對于判斷因子的個數很有幫助,一般都會選擇該項。關于特征值,一般spss默認隻提取特征值大于1的因子。收斂次數比較重要,可以從首次結果反饋的信息進行調整。
因子旋轉選項卡
因子分析要求對因子給予命名和解釋,是否對因子旋轉取決于因子的解釋。
旋轉就是坐标變換,使得因子系數向1 和 0 靠近,對公因子的命名和解釋更加容易。旋轉方法一般采用”最大方差法“即可,輸出旋轉後的因子矩陣和載荷圖,對于結果的解釋非常有幫助。
如果不經旋轉因子已經很好解釋,那麼沒有必要旋轉,否則,應該旋轉。
保存因子得分
要計算因子得分就要先寫出因子的表達式。因子是不能直接觀察到的,是潛在的。但是可以通過可觀測到的變量獲得。
因子分析模型是原始變量為因子的線性組合,現在我們可以根據回歸的方法将模型倒過來,用原始變量也就是參與分析的變量來表示因子。從而得到因子得分。因子得分作為變量保存,對于以後深入分析很有用處。
結果解讀:驗證數據是否适合做因子分析
參考kmo結果,一般認為大于0.5,即可接受。同時還可以參考相關系數,一般認為分析變量的相關系數多數大于 0.3,則适合做因子分析;
KMO=0.575 檢驗來看,不是特别适合因子分析,基本可以通過。
結果解讀:因子方差表
提取因子後因子方差的值均很高,表明提取的因子能很好的描述這 5 個指标。
方差分解表表明,默認提取的前兩個因子能夠解釋 5 個指标的 93.4%。碎石圖表明,從第三個因子開始,特征值差異很小。綜上,提取前兩個因子。
結果解讀:因子矩陣
旋轉因子矩陣可以看出,經旋轉後,因子便于命名和解釋。
因子 1主要解釋的是中等房價、專業服務項目、中等校平均校齡,可以命名為社會福利因子;
因子 2 主要解釋的是其餘兩個指标,總人口和總雇員。可以命名為人口因子。
因子分析要求最後得到的因子之間相互獨立,沒有相關性,而因子轉換矩陣顯示,兩個因子相關性較低。可見,對因子進行旋轉是完全有必要的。
結果解讀:因子系數
因子得分就是根據這個系數和标準化後的分析變量得到的。在數據視圖中可以看到因子得分變量。
結論
經過因子分析實現了目的,找到了兩個綜合評價指标,人口因子和福利因子。
從原來的 5 個指标挖掘出 2 個潛在的綜合因子。可以對12 個地區給出客觀評價。
可以根據因子1或因子2得分,對這12個地區進行從大到小排序,得分高者被認為在這個維度上有較好表現。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!