線性回歸分析是一種研究影響關系的方法,在實際研究裡非常常見。不管你有沒有系統學習過,對于線性回歸,相信多少都有那麼一點了解。
即使如此,在實際分析時,還是會碰到很多小細節,讓我們苦思冥想,困擾很久,以緻拖慢進度,影響效率。
因此本文就一起梳理下回歸分析的分析流程,閑話少說,我們開始吧。
回歸分析實質上就是研究一個或多個自變量X對一個因變量Y(定量數據)的影響關系情況。
當自變量為1個時,是一元線性回歸,又稱作簡單線性回歸;自變量為2個及以上時,稱為多元線性回歸。在SPSSAU裡均是使用【通用方法】裡的【線性回歸】實現分析的。
SPSSAU線性回歸 1. 數據類型
線性回歸要求因變量Y(被解釋變量)一定是定量數據。如果因變量Y為定類數據,可以用【進階方法】中的【logit回歸】。
2. 變量篩選
對于引入模型的自變量,通常沒有個數要求。但從經驗上看,不要一次性放入太多自變量。如果同時自變量太多,容易引起共線性問題。建議根據專業知識進行選擇,同時樣本量不能過少,通常要滿足樣本個數是自變量的20倍以上。
如果自變量為定類數據,需要對變量進行啞變量處理,可以在SPSSAU的【數據處理】→【生成變量】進行設置。具體設置步驟查看SPSSAU有關啞變量的文章:什麼是虛拟變量?怎麼設置才正确?
控制變量,可以是定量數據,也可以是定類數據。一般來說更多是定類數據,如:性别,年齡,工作年限等人口統計學變量。通常情況下,不需要處理,可以直接和自變量一起放入X分析框分析即可。
3. 正态性檢驗理論上,回歸分析的因變量要求需服從正态分布,SPSSAU提供多種檢驗正态性的方法。
如果出現數據不正态,可以進行對數處理。若數據為問卷數據,建議可跳過正态性檢驗這一步。原因在于問卷數據屬于等級數據,很難保證正态性,且數據本身變化幅度就不大,即使對數處理效果也不明顯。
4. 散點圖和相關分析一般來說,回歸分析之前需要做相關分析,原因在于相關分析可以先了解是否有關系,回歸分析是研究有沒有影響關系,有相關關系但并不一定有回歸影響關系。當然回歸分析之前也可以使用散點圖查看數據關系。
5. SPSSAU操作案例:在線英語學習購買因素研究
①操作步驟
将性别、年齡、月收入水平、産品、促銷、渠道、價格、個性化服務、隐私保護共九個變量作為自變量,而将購買意願作為因變量進行線性回歸分析。
勾選“保存殘差和預測值”。
②指标說明
非标準化系數(B):非标準化回歸系數。回歸模型方程中使用的是非标準化系數。
标準化系數(Beta):标準化回歸系數。一般可用于比較自變量對Y的影響程度。Beta值越大說明該變量對Y的影響越大
t值:t檢驗的過程值,回歸分析中涉及兩種檢驗(t檢驗和F檢驗),t檢驗分别檢驗每一個X對Y的影響關系,通過t檢驗說明這個X對Y有顯著的影響關系;F檢驗用于檢驗模型整體的影響關系,通過F檢驗,則說明模型中至少有一個X對Y有顯著的影響關系。此處的t值,為t檢驗的過程值,用于計算P值。一般無需關注。
p值:t檢驗所得p值。P值小于0.05即說明,其所對應的X對因變量存在顯著性影響關系。
VIF值:共線性指标。大于5說明存在共線性問題。
R²:決定系數,模型拟合指标。反應Y的波動有多少比例能被X的波動描述。
調整R²:調整後的決定系數,也是模型拟合指标。當x個數較多是調整R²比R²更為準确。
F檢驗:通過F檢驗,說明模型中至少有一個X對Y有顯著的影響關系。分析時主要關注後面的P值即可。
D-W值:D-W檢驗值,Durbin-Watson檢驗,是自相關性的一項檢驗方法。如果D-W值在2附近(1.7~2.3之間),則說明沒有自相關性,模型構建良好。
③結果分析
分析時可按照“分析建議”給出的步驟進行。
模型公式顯示在智能分析中,可直接使用。
本例中得到的分析結果為:
産品、促銷、個性化服務、保護隐私四個變量對購買意願有正向影響關系。
6. 模型後檢驗
到這裡很多人認為已經分析完了,可以得出結果,實際上還遠遠沒結束。回歸模型有很多限制條件,上述步驟裡我們隻是構建了模型,至于模型質量如何,模型是否滿足線性回歸的前提條件,都需要在這一步進行确認。
通常需要對線性回歸模型檢驗以下幾個方面:
多重共線性
在進行線性回歸分析時,容易出現自變量之間彼此相關的現象,我們稱這種現象為多重共線性。
當出現嚴重共線性問題時,會導緻分析結果不穩定,甚至出現回歸系數的符号與實際情況完全相反的情況,因而需要及時進行處理。
①診斷指标
檢驗多重共線性,可查看分析結果中的VIF值。
VIF>5說明存在共線性問題,VIF>10說明存在嚴重的多重共線性問題,模型構建較差,需要進行處理。
②處理方法
(1)增加分析的樣本量,是解釋共線性問題的一種辦法,但在實際操作中較難實現。
(2)對自變量進行相關分析,找出相關系數高的變量,手工移出後再做線性回歸分析。
(3)采用逐步回歸法,讓系統自動篩選出最優分析項,剔除引起多重共線性的變量。
(4)如果不想涉及核心自變量,不希望剔除,可使用嶺回歸分析。
殘差獨立性(自相關)
殘差獨立性是線性回歸方程的基本前提之一。如果回歸方程存在自相關,說明可能存在與因變量相關的因素沒有引入回歸方程,整體模型構建較差。
①診斷指标
D-W值用于判斷自相關性,判斷标準是2附近即可(1.8~2.2之間),如果達标說明沒有自相關性,即樣本之間并沒有幹擾關系。
②處理方法
問卷數據基本不會出現自相關問題,如有自相關問題時建議查看因變量Y的數據。
殘差正态性
①診斷指标
殘差正态性也是線性回歸方程的基本前提之一。在分析時可保存殘差項,然後使用“正态圖”直觀檢測殘差正态性情況。
regressionXXXX_residual代表殘差值
regressionXXXX_prediction 代表預測值
殘差正态圖
如果殘差直觀上滿足正态性,說明模型構建較好,反之說明模型構建較差。如果殘差正态性非常糟糕,建議重新構建模型,比如對Y取對數後再次構建模型等。
殘差方差齊性(異方差)
①檢驗方法
方差齊性可以通過散點圖來考察,在分析時可保存殘差項,以模型自變量X或因變量Y為橫坐标,殘差值為縱坐标,作散點圖。
如果随着預測值的增加,殘差值保持相同的離散程度,則說明方差齊。
如果殘差值随着預測值的增加而變寬或變窄,則說明有異方差問題。
②異方差的處理方法
處理異方差問題有三種辦法,分别是數據處理、穩健标準誤回歸、FGLS回歸(可行廣義最小二乘法回歸)。
問卷研究裡很少出現異方差問題,如果遇到異方差問題建議查看幫助手冊。
異常值
除此之外,如果回歸分析出現各類異常,可能存在異常值應該回歸模型。在散點圖裡可觀察到是否有異常值存在。
以上就是線性回歸分析的分析流程梳理,但在實際研究過程中,理論與實際操作會有較大“距離”,具體還需要結合實際研究考察。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!