前言
嶺回歸:嶺回歸分析是在構建多重線性回歸模型時, 對基于“最小二乘原理”推導出的估計回歸系數的計算公式作一下校正,使回歸系數更穩定。
當自變量之間存在較強的多重共線性時,求得的多重線性回歸模型很不穩定; 尤其是某些自變量回歸系數的正負号與實際問題的專業背景不吻合時,嶺回歸分析可以很好地解決這一問題。
1 實施的一般步驟
1 嶺回歸分析通常要先對 X 變量作中心化和标準化處理, 以使不同自變量處于同樣數量級上而便于比較。
2确定 k 值
① 嶺迹圖
嶺迹法主要是通過将 β( k) 的分量 βi( k) 的嶺迹畫在同一幅圖上, 從圖中選擇盡可能小的 k 值, 使得各回歸系數的嶺估計大體穩定, 即各分量在圖上的嶺迹曲線趨于平行于X 軸。
選擇 k 值的一般原則主要有: ①各回歸系數的嶺估計基本穩定; ②用最小二乘估計時符号不合理的回歸系數, 其嶺估計的符号将變得合理; ③回歸系數的大小要與實際相符, 即從專業上講對因變量影響較大的自變量其系數的絕對值也較大; ④均方誤差增大不太多。
②方差膨脹因子法
方差膨脹因子 cjj 度量了多重共線性的嚴重程度, 一般當 cjj > 10 時, 模型就有嚴重的多重共線性。
3根據嶺迹圖進行變量篩選及重新确定k值
把嶺迹應用于回歸分析中自變量的選擇,其基本原則為:
(1)去掉嶺回歸系數比較穩定且絕對值比較小的自變量。這裡嶺回歸系數可以直接比較大小,因為設計陣 X 是假定已經中心标準化了的。
(2)去掉嶺回歸系數不穩定但随着 k 值的增加迅速趨于零的自變量。
(3)去掉一個或若幹個具有不穩定嶺回歸系數的自變量。如果不穩定的嶺回歸系數很多,究竟去掉幾個, 去掉哪幾個, 并無一般原則可遵循。這要結合已找出的複共線性關系以及去掉後重新進行嶺回歸分析的效果來決定。
4對模型進行表達及作出專業結論
在進行嶺估計後, 應根據所估計的參數寫出回歸方程, 并結合專業知識判斷方程中各自變量的系數及正負号是否符合實際情況。最後根據回歸系數的大小來判斷各自變量對因變量影響的大小及根據所求得的回歸方程進行預測。
2 案例分析
以下為11名兒童的智力測試數據,試以IQ為因變量拟合多重線性回歸模型。其中,變量常識(X1)、算數(X2)、理解(X3)、拼圖(X4)、積木(X5)、譯碼(X6),IQ(Y)。
數據類型:自變量(X1~X6),因變量Y 均為定量資料;根據研究目的,試采用多重線性回歸模型來分析。
3 SPSS操作
(Ⅰ)先拟合多重線性回歸模型
(Ⅱ)輸出結果
為了說明問題,隻列出系數表;
變量X1~X6 ,p-value 均 大于0.05,即納入多重線性回歸模型中無統計學意義;其次,共線性診斷中,VIF(variation inflation factor)均大于10,提示變量間存在多重共線性。
由于多重共線性的存在,使得多重線性回歸模型不穩定,而嶺回歸分析可以很好地解決這個問題。
4 SPSS之嶺回歸
在SPSS中沒有專門的菜單模塊來做嶺回歸分析,但可以通過額外編寫了一個程序文件: ridge regression.sps, 用戶可以編寫一段代碼來調用該程序做嶺回歸分析。
其中,
INCLUDE ' 文件 Ridge regression.sps 所在路徑 ' .
RIGDEREG ENTER = 自變量
/DEP = 因變量
/START = k值起始值
/STOP = k值終末值
/INC = k值步長
【運行】單擊 Run☞ALL
運行結果:
嶺回歸:嶺迹圖,從圖中大緻看出k≧0.1 時,嶺迹曲線趨于穩定 。
輸出的變量X1~X6 不同K值情況下的回歸系數
(在SPSS中,原始數據已标準化)
驗證當k=0.1時的模型,
驗證結果:
本結果拟合得不太理想,僅供參考~~~
因此可以寫出嶺回歸方程式:y= ~~~~
來源:SPSS天天學
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!