tft每日頭條

 > 生活

 > 回歸分析截距的意義

回歸分析截距的意義

生活 更新时间:2024-09-27 12:23:03
序曲

楊柳枝詞

【唐】白居易

一樹春風千萬枝,嫩于金色軟于絲。

永豐西角荒園裡,盡日無人屬阿誰?

這是一首寫景寓意詩,前兩句寫景,極寫柳樹的美态,詩人所抓的着眼點是柳條,寫出了動态、形态和色澤顯出它的材質之美。後兩句寫的是詩人對柳樹遭遇及自己的評價,因為柳樹所生之地不得其位,而不能得到人的欣賞,寓意懷才不遇而鳴不平,含蓄地抨擊了當時的人才選拔機制和相關政府官員。

這首詠物詩,抒發了對永豐柳的痛惜之情,實際上就是對當時政治腐敗、人才埋沒的感慨。生活的時期,由于朋黨鬥争激烈,不少有才能的人都受到排擠。詩人自己,也為避朋黨傾軋,自請外放,長期遠離京城。此詩所寫,亦當含有詩人自己的身世感慨在内。

此詩将詠物和寓意熔在一起,不着一絲痕迹。全詩明白曉暢,有如民歌,加以描寫生動傳神,當時就"遍流京都"。後來寫《洞仙歌》詞詠柳,有"永那畔,盡日無人,誰見金絲弄晴晝"之句,隐括此詩,讀來仍然令人有無限低回之感,足見其藝術力量感人至深了。

共線性診斷簡介

共線性是多元回歸分析時存在的一個普遍問題。共線性是指自變量之間存在近似的線性關系,即某個自變量能近似地用其他自變量的線性函數來表示。在實際回歸分析應用中,自變量間完全獨立很難,所以共線性問題并不少見。自變量一般程度上的相關不會對回歸結果造成嚴重的影響。然而,當共線性趨勢非常明顯時,它就會對模型的拟合帶來嚴重影響,使得模型的預測精度會大大地降低,甚至會得到專業上無法解釋或專業意義上完全相悖的回歸方程。

(1) 回歸系數的估計值大小甚至是方向明顯與常識不相符

(2) 從專業角度看對應變量有影響的因素,卻不能選入方程中

(3) 去除一兩個記錄或變量,方程的回歸系數發生劇烈的變化,非常不穩定

(4) 整個模型的檢驗有統計學意義,而模型包含的所有自變量均無統計學意義。

當出現以上情況時,就需要考慮是不是變量之間存在共線性關系。

共線性診斷方法

SPSS中可以通過以下指标來輔助判斷有無共線性的存在。

  • 相關系數判斷:依據相關系數确定自變量之間的是否具有共線性,一般認為,兩個自變量的相關系數超過0.9,認為兩個自變量會出現共線性。但僅為初步判斷不全面
  • 容許度(Tolerance):即以每個自變量作為因變量對其他自變量進行回歸分析時得到的殘差比例,大小用1減決定系數來表示,指标越小,說明該自變量被其餘變量預測的越精确,共線性越嚴重;根據經驗來說,若某個自變量的容忍度小于0.1則可能存在共線性問題。
  • 方差膨脹因子(Variance Inflation Factors, 簡記作VIF):診斷共線性嚴重程度的常用指标之一,是容忍度的倒數,VIF越大,顯示共線性越嚴重。通常情況下,當VIF>=5VIF>=10,可認為自變量間存在嚴重共線性
  • 特征根(Eigenvalue):若特征根接近于0,則提示自變量間存在嚴重的共線性。特征根為0的個數即為共線性數目
  • 條件指數(Condition Index):當某些維度的指标大于30時,則提示存在共線性
  • 變異構成:指回歸模型中各項(包括常數項)的變異被各主成分所能解釋的比例,或者說各主成分對模型各項的貢獻。若某個主成分對兩個或多個自變量的共享均較大(如大于0.5),則說明這幾個自變量間存在一定程度的共線性。
SPSS實現共線性診斷

示例:研究表明在血清中低密度脂蛋白增高和高密度值蛋白降低是引起動脈硬化的一個重要原因。現測量30名懷疑患有動脈硬化的就診患者的載脂蛋白A、載脂蛋白B、載脂蛋白E、載脂蛋白C、低密度脂蛋白中的膽固醇、高密度脂蛋白中的膽固醇含量,數據如下表所示,是分析低密度脂蛋白中膽固醇含量中與載脂蛋白A/B/E/C的線性回歸方程。

回歸分析截距的意義(回歸分析之共線性診斷)1

1. 打開 分析—回歸—線性

回歸分析截距的意義(回歸分析之共線性診斷)2

2. 參數選擇

(1) 主頁面說明

  • 如下圖所示,将 低密度脂蛋白 放入因變量框,載脂蛋白A/B/E/C為自變量,方法選擇 輸入法

回歸分析截距的意義(回歸分析之共線性診斷)3

(2)"統計"頁面

  • 選擇 估算值、模型拟合、R方變化量、德賓-沃森、個案診斷、共線性診斷

回歸分析截距的意義(回歸分析之共線性診斷)4

(3)"圖"頁面

  • 标準化殘差(ZRESID)放入Y 軸框,标準化預測殘差ZPRED)放入X 軸框,同時勾選殘差直方圖正态概率圖。此步目的是驗證殘差是否正态,反映Y 是否獨立

(4)"保存"頁面

  • 選擇 未标準化值、單值,如下圖所示

(5)"選項"頁面

  • 保持默認選項,如下圖所示

3. 結果輸出與解釋:

(1) 模型摘要

  • 由下圖可知,調整後的R方為0.494,表示可以解釋49.4% 的變異。

回歸分析截距的意義(回歸分析之共線性診斷)5

(2) 共線性診斷

  • 從圖A中可看出,各自變量的VIF均小于5,說明各變量間不存在共線性
  • 但從圖B中可看出,載脂蛋白B和載脂蛋白E在第4個主成分上的貢獻>=0.5,說明兩變量間存在一定程度的共線性。

回歸分析截距的意義(回歸分析之共線性診斷)6

4. 共線性解決方法

  • 增大樣本含量,可部分解決多重共線性問題
  • 自變量篩選方法拟合模型,建立最優的回歸方程,但同時會丢失部分可利用的信息
  • 專業知識角度出發,去除專業上認為次要的,或者缺失值比較多測量誤差較大的共線性因子
  • 進行主成分分析,提取公因子代替原變量進行回歸分析
  • 進行嶺回歸分析,可有效解決多重共線性問題
  • 進行路徑分析(Path Analysis),可對應/自變量間的複雜關系精細刻畫

5. 語法

********************回歸分析******************. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA COLLIN TOL CHANGE /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT y1 /METHOD=ENTER x1 x2 x3 x4 /SCATTERPLOT=(*ZRESID ,*ZPRED) /RESIDUALS DURBIN HISTOGRAM(ZRESID) NORMPROB(ZRESID) /CASEWISE PLOT(ZRESID) OUTLIERS(3).

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved