tft每日頭條

 > 生活

 > 線性回歸各個數據怎麼分析

線性回歸各個數據怎麼分析

生活 更新时间:2024-10-03 16:13:06

線性回歸各個數據怎麼分析(線性回歸分析思路總結)1

線性回歸分析是一種研究影響關系的方法,在實際研究裡非常常見。不管你有沒有系統學習過,對于線性回歸,相信多少都有那麼一點了解。

即使如此,在實際分析時,還是會碰到很多小細節,讓我們苦思冥想,困擾很久,以緻拖慢進度,影響效率。

因此本文就一起梳理下回歸分析的分析流程,閑話少說,我們開始吧。

線性回歸各個數據怎麼分析(線性回歸分析思路總結)2

回歸分析實質上就是研究一個或多個自變量X對一個因變量Y(定量數據)的影響關系情況。

當自變量為1個時,是一元線性回歸,又稱作簡單線性回歸;自變量為2個及以上時,稱為多元線性回歸。在SPSSAU裡均是使用【通用方法】裡的【線性回歸】實現分析的。

線性回歸各個數據怎麼分析(線性回歸分析思路總結)3

SPSSAU線性回歸

1. 數據類型

線性回歸要求因變量Y(被解釋變量)一定是定量數據。如果因變量Y為定類數據,可以用【進階方法】中的【logit回歸】。

線性回歸各個數據怎麼分析(線性回歸分析思路總結)4

2. 變量篩選

對于引入模型的自變量,通常沒有個數要求。但從經驗上看,不要一次性放入太多自變量。如果同時自變量太多,容易引起共線性問題。建議根據專業知識進行選擇,同時樣本量不能過少,通常要滿足樣本個數是自變量的20倍以上。

如果自變量為定類數據,需要對變量進行啞變量處理,可以在SPSSAU的【數據處理】→【生成變量】進行設置。具體設置步驟查看SPSSAU有關啞變量的文章:什麼是虛拟變量?怎麼設置才正确?

線性回歸各個數據怎麼分析(線性回歸分析思路總結)5

控制變量,可以是定量數據,也可以是定類數據。一般來說更多是定類數據,如:性别,年齡,工作年限等人口統計學變量。通常情況下,不需要處理,可以直接和自變量一起放入X分析框分析即可。

3. 正态性檢驗

理論上,回歸分析的因變量要求需服從正态分布,SPSSAU提供多種檢驗正态性的方法。

線性回歸各個數據怎麼分析(線性回歸分析思路總結)6

如果出現數據不正态,可以進行對數處理。若數據為問卷數據,建議可跳過正态性檢驗這一步。原因在于問卷數據屬于等級數據,很難保證正态性,且數據本身變化幅度就不大,即使對數處理效果也不明顯。

4. 散點圖和相關分析

一般來說,回歸分析之前需要做相關分析,原因在于相關分析可以先了解是否有關系,回歸分析是研究有沒有影響關系,有相關關系但并不一定有回歸影響關系。當然回歸分析之前也可以使用散點圖查看數據關系。

5. SPSSAU操作

案例:在線英語學習購買因素研究

①操作步驟

将性别、年齡、月收入水平、産品、促銷、渠道、價格、個性化服務、隐私保護共九個變量作為自變量,而将購買意願作為因變量進行線性回歸分析。

勾選“保存殘差和預測值”。

線性回歸各個數據怎麼分析(線性回歸分析思路總結)7

②指标說明

線性回歸各個數據怎麼分析(線性回歸分析思路總結)8

線性回歸各個數據怎麼分析(線性回歸分析思路總結)9

非标準化系數(B):非标準化回歸系數。回歸模型方程中使用的是非标準化系數。

标準化系數(Beta):标準化回歸系數。一般可用于比較自變量對Y的影響程度。Beta值越大說明該變量對Y的影響越大

t:t檢驗的過程值,回歸分析中涉及兩種檢驗(t檢驗和F檢驗),t檢驗分别檢驗每一個X對Y的影響關系,通過t檢驗說明這個X對Y有顯著的影響關系;F檢驗用于檢驗模型整體的影響關系,通過F檢驗,則說明模型中至少有一個X對Y有顯著的影響關系。此處的t值,為t檢驗的過程值,用于計算P值。一般無需關注。

p:t檢驗所得p值。P值小于0.05即說明,其所對應的X對因變量存在顯著性影響關系。

VIF:共線性指标。大于5說明存在共線性問題。

R²:決定系數,模型拟合指标。反應Y的波動有多少比例能被X的波動描述。

調整R²:調整後的決定系數,也是模型拟合指标。當x個數較多是調整R²比R²更為準确。

F檢驗:通過F檢驗,說明模型中至少有一個X對Y有顯著的影響關系。分析時主要關注後面的P值即可。

D-W:D-W檢驗值,Durbin-Watson檢驗,是自相關性的一項檢驗方法。如果D-W值在2附近(1.7~2.3之間),則說明沒有自相關性,模型構建良好。

結果分析

分析時可按照“分析建議”給出的步驟進行。

線性回歸各個數據怎麼分析(線性回歸分析思路總結)10

線性回歸各個數據怎麼分析(線性回歸分析思路總結)11

線性回歸各個數據怎麼分析(線性回歸分析思路總結)12

模型公式顯示在智能分析中,可直接使用。

本例中得到的分析結果為:

産品、促銷、個性化服務、保護隐私四個變量對購買意願有正向影響關系。

6. 模型後檢驗

到這裡很多人認為已經分析完了,可以得出結果,實際上還遠遠沒結束。回歸模型有很多限制條件,上述步驟裡我們隻是構建了模型,至于模型質量如何,模型是否滿足線性回歸的前提條件,都需要在這一步進行确認。

通常需要對線性回歸模型檢驗以下幾個方面:

線性回歸各個數據怎麼分析(線性回歸分析思路總結)13

多重共線性

在進行線性回歸分析時,容易出現自變量之間彼此相關的現象,我們稱這種現象為多重共線性。

當出現嚴重共線性問題時,會導緻分析結果不穩定,甚至出現回歸系數的符号與實際情況完全相反的情況,因而需要及時進行處理。

①診斷指标

檢驗多重共線性,可查看分析結果中的VIF值。

線性回歸各個數據怎麼分析(線性回歸分析思路總結)14

VIF>5說明存在共線性問題,VIF>10說明存在嚴重的多重共線性問題,模型構建較差,需要進行處理。

②處理方法

線性回歸各個數據怎麼分析(線性回歸分析思路總結)15

(1)增加分析的樣本量,是解釋共線性問題的一種辦法,但在實際操作中較難實現。

(2)對自變量進行相關分析,找出相關系數高的變量,手工移出後再做線性回歸分析。

(3)采用逐步回歸法,讓系統自動篩選出最優分析項,剔除引起多重共線性的變量。

(4)如果不想涉及核心自變量,不希望剔除,可使用嶺回歸分析。

殘差獨立性(自相關)

殘差獨立性是線性回歸方程的基本前提之一。如果回歸方程存在自相關,說明可能存在與因變量相關的因素沒有引入回歸方程,整體模型構建較差。

①診斷指标

D-W值用于判斷自相關性,判斷标準是2附近即可(1.8~2.2之間),如果達标說明沒有自相關性,即樣本之間并沒有幹擾關系。

線性回歸各個數據怎麼分析(線性回歸分析思路總結)16

②處理方法

問卷數據基本不會出現自相關問題,如有自相關問題時建議查看因變量Y的數據。

殘差正态性

①診斷指标

殘差正态性也是線性回歸方程的基本前提之一。在分析時可保存殘差項,然後使用“正态圖”直觀檢測殘差正态性情況。

線性回歸各個數據怎麼分析(線性回歸分析思路總結)17

線性回歸各個數據怎麼分析(線性回歸分析思路總結)18

  • regressionXXXX_residual代表殘差值

  • regressionXXXX_prediction 代表預測值

線性回歸各個數據怎麼分析(線性回歸分析思路總結)19

殘差正态圖

如果殘差直觀上滿足正态性,說明模型構建較好,反之說明模型構建較差。如果殘差正态性非常糟糕,建議重新構建模型,比如對Y取對數後再次構建模型等。

殘差方差齊性(異方差)

①檢驗方法

方差齊性可以通過散點圖來考察,在分析時可保存殘差項,以模型自變量X或因變量Y為橫坐标,殘差值為縱坐标,作散點圖。

線性回歸各個數據怎麼分析(線性回歸分析思路總結)20

如果随着預測值的增加,殘差值保持相同的離散程度,則說明方差齊。

如果殘差值随着預測值的增加而變寬或變窄,則說明有異方差問題。

②異方差的處理方法

處理異方差問題有三種辦法,分别是數據處理、穩健标準誤回歸、FGLS回歸(可行廣義最小二乘法回歸)。

問卷研究裡很少出現異方差問題,如果遇到異方差問題建議查看幫助手冊。

異常值

除此之外,如果回歸分析出現各類異常,可能存在異常值應該回歸模型。在散點圖裡可觀察到是否有異常值存在。

以上就是線性回歸分析的分析流程梳理,但在實際研究過程中,理論與實際操作會有較大“距離”,具體還需要結合實際研究考察。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved