一、前期準備
1.研究目的
線性回歸分析研究影響關系情況,回歸分析實質上就是研究X(自變量)對Y(因變量,定量數據)的影響關系情況。當自變量為1個時,是一元線性回歸,又稱作簡單線性回歸;自變量為2個及以上時,稱為多元線性回歸。線性回歸廣泛的應用于自然科學、社會科學等各個領域中。例如:研究吸煙、肥胖、運動等因素是否影響高血壓發病率;土壤、水分、光照是否影響植物生長等。
2.數據類型
線性回歸要求因變量Y(被解釋變量)一定是定量數據。如果因變量Y為定類數據,可以用“進階方法”中的“logit回歸”。
3.分析要求
(1)一般對于分析項的自變量個數沒有要求,但是一般建議不要一次性放入太多,過多容易引起多重共線性,如果需要對啞變量進行處理,需要在SPSSAU“數據處理”中的“生成變量”,可以查看:SPSSAU啞變量幫助手冊:
(2)正态性檢驗
SPSSAU提供多種正态性檢驗的方法,例如:“通用方法”中的“正态性檢驗”;“可視化”中的“直方圖”; “可視化”中的“P-P/Q-Q圖”。
理論上要求線性回歸中的因變量要滿足“正态性”,但是若數據為問卷數據,建議可跳過正态性檢驗這一步。原因在于問卷數據屬于等級數據,很難保證正态性,且數據本身變化幅度就不大,即使對數處理效果也不明顯。
(3)線性趨勢
線性回歸模型要求自變量和因變量是呈線性關系的,可以通過SPSSAU中“可視化”中的“散點圖”進行查看。如果不成線線性可以使用SPSSAU中的曲線回歸。
補充說明:相關分析和回歸分析
一般來說,回歸分析之前需要做相關分析,原因在于相關分析可以先了解是否有關系,回歸分析是研究有沒有影響關系,有相關關系但并不一定有回歸影響關系。
二、SPSSAU上傳數據1.上傳數據
登錄賬号後進入SPSSAU頁面,點擊右上角“上傳數據”,将處理好的數據進行“點擊上傳文件”上傳即可。
2.拖拽分析項
在“通用方法”模塊中選擇“線性回歸”方法,将Y定量數據放于上方分析框内,X自變量放于下方分析框内,點擊“開始分析”即可。
補充說明:如果想一次拖拽多個分析項,則可以使用ctrl鍵不連續多選,shift鍵連續多選;左右拖拽。
3.選擇參數
勾選後可以将殘差和預測值保存起來,可用于進—步分析使用。
三、SPSSAU分析背景:分析員工當前工資影響因素(數據已滿足線性回歸分析要求參考來源:SPSS統計分析第5版)。
1.線性回歸分析結果
從上表可以看出,模型公式為:當前工資=-338.130 1.750*起始工資 710.927*受教育程度(年)-10.009*過去經驗(月)-77.206*年齡,模型R方值為0.803,意味着起始工資,受教育程度(年),過去經驗(月),年齡可以解釋當前工資的80.3%變化原因。
對模型進行F檢驗時發現模型通過F檢驗(F=476.677,p=0.000<0.05),也即說明起始工資,受教育程度(年),過去經驗(月),年齡中至少一項會對當前工資産生影響關系,另外,針對模型的多重共線性進行檢驗發現,模型中VIF值全部均小于5,意味着不存在着共線性問題;并且D-W值在數字2附近,因而說明模型不存在自相關性,樣本數據之間并沒有關聯關系,模型較好。
具體分析:
(1)起始工資的回歸系數值為1.750(t=29.259,p=0.000<0.01),意味着起始工資會對當前工資産生顯著的正向影響關系。
(2)受教育程度(年)的回歸系數值為710.927(t=4.190,p=0.000<0.01),意味着受教育程度(年)會對當前工資産生顯著的正向影響關系。
(3)過去經驗(月)的回歸系數值為-10.009(t=-1.762,p=0.079>0.05),意味着過去經驗(月)并不會對當前工資産生影響關系。
(4)年齡的回歸系數值為-77.206(t=-1.535,p=0.126>0.05),意味着年齡并不會對當前工資産生影響關系。
補充說明如下:
2.模型預測
SPSSAU提供模型預測,輸入自變量X後就會得到相應的因變量Y,例如:假設某員工“起始工資”為3000,“受教育程度”10年,過去經驗為12個月,年齡為25,則通過模型預測出當前工資約為9971元(數據結果僅供案例分析)。
3.模型結果圖
可以直觀的看到自變量與因變量的之間的關系(基于回歸系數基礎上)。
4.模型彙總
從上表可知,将起始工資,受教育程度(年),過去經驗(月),年齡作為自變量,而将當前工資作為因變量進行線性回歸分析,從上表可以看出,模型R方值為0.803,意味着起始工資,受教育程度(年),過去經驗(月),年齡可以解釋當前工資的80.3%變化原因。
5.ANOVA表格分析
對模型進行F檢驗時發現模型通過F檢驗(F=476.677,p=0.000<0.05),也即說明起始工資,受教育程度(年),過去經驗(月),年齡中至少一項會對當前工資産生影響關系。
6.回歸系數分析
總結分析可知:起始工資, 受教育程度(年)會對當前工資産生顯著的正向影響關系。但是過去經驗(月), 年齡并不會對當前工資産生影響關系。
PS:此外SPSSAU還提供了coefPlot
coefPlot展示具體的回歸系數值和對應的置信區間,可直觀查看數據的顯著性情況,如果說置信區間包括數字0則說明該項不顯著,如果置信區間不包括數字0則說明該項呈現出顯著性。
四、常見問題說明比如有兩個題“我願意向朋友推薦SPSSAU”,“我有需要會再來使用SPSSAU”,此兩個題是“忠誠度”的體現。但現在需要“忠誠度”這個整體,而不是具體兩個标題,
具體操作如下圖:
VIF值用于檢測共線性問題,一般VIF值小于10即說明沒有共線性(嚴格的标準是5),有時候會以容差值作為标準,容差值=1/VIF,所以容差值大于0.1則說明沒有共線性(嚴格是大于0.2),VIF和容差值有邏輯對應關系,因此二選一即可,一般描述VIF值。
如果出現多重共線性問題,一般可有3種解決辦法,一是使用逐步回歸分析;二是使用嶺回歸分析,三是進行相關分析,手工移出相關性非常高的分析項,然後再做線性回歸分析。
控制變量指可能幹擾模型的項,比如年齡,學曆等基礎信息。從軟件角度來看,并沒有“控制變量”這樣的名詞。“控制變量”就是自變量,所以直接放入“自變量X”框中即可。
有效樣本不足是指分析時,可以進行分析的樣本量低于方法需要的樣本量。解決方法是加大樣本量。一般來說,至少要求樣本量起碼是變量數的5-10倍,結果更具備參考意義。
标準化回歸系數是消除了量綱影響後的回歸系數,可以用來比較各個自變量的“重要性大小”。如果目的在于預測模型,一般使用非标準化回歸系數。
五、總結線性回歸分析步驟總結如下:
第一步:首先對模型情況進行分析包括模型拟合情況(比如R 為0.3,則說明所有X可以解釋Y 30%的變化原因),模型共線性問題(VIF值小于5則說明無多重共線性),是否通過F 檢驗(F 檢驗用于判定是否X中至少有一個對Y産生影響,如果呈現出顯著性,則說明所有X中至少一個會對Y産生影響關系)。
第二步:分析X的顯著性如果顯著(p 值判斷),則說明具有影響關系,反之無影響關系。第三步:判斷X對Y的影響關系方向回歸系數B值大于0說明正向影響,反之負向影響。
第四步:其它比如對比影響程度大小(回歸系數B值大小對比X對Y的影響程度大小)。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!