對統計學基本概念的梳理,其中普通字體為賈俊平著《統計學(第六版)》中的重要概念,引用字體的内容為書中沒有标注為重要概念的較為重要的補充,批注為我依據所學知識的補充。
多元回歸模型 multiple regression model
設因變量為y,k個自變量分别為x1,x2,…,xk,描述因變量y如何依賴于自變量x1,x2,…,xk和誤差項ε的方程稱為多元回歸模型。其一般形式可表示為:
式中,β0,β1,β2,…,βk是模型的參數;ε為誤差項。
多元回歸方程 multiple regression equation
多元回歸方程,描述了因變量y的期望值與自變量x1,x2,…,xk之間的關系。一般形式可表示為:
估計的多元回歸方程 estimated multiple regression equation
回歸方程中的參數是未知的,需要利用樣本數據去估計它們。當用樣本統計量去估計回歸方程中的未知參數時,就得到了估計的多元回歸方程,其一般形式為:
多重判定系數 multiple coefficient of determination
多重判定洗漱是多元回歸中的回歸平方和占總平方和的比例,它是度量多元回歸方程拟合程度的一個統計量,反映了在因變量y的變差中被估計的回歸方程所解釋的比例。其定義如下:
調整的多重判定系數 adjusted multiple coefficient of determination
因為随着自變量個數的增加将影響到因變量中被估計的回歸方程所解釋的變差數量。當增加自變量時,會使預測誤差變得較小,從而減少殘差平方和SSE。由于回歸平方和SSR=SST-SSE,當SSE變小時,SSR就會變大,從而使R^2變大。如果模型中增加一個自變量,即使這個自變量在統計上并不顯著,R^2也會變大。因此,為避免增加自變量而高估R^2,統計學家提出用樣本量n和自變量的個數k去調整R^2,計算出調整的多重判定系數,記為Ra^2,其計算公式為:
多重共線性 multicollinearity
當回歸模型中兩個或兩個以上的自變量彼此相關時,則稱回歸模型中存在多重共線性。在實際問題中,所使用的自變量之間存在相關是一件很平常的事,但是在回歸分析中存在多重共線性将會産生某些問題:首先,變量之間高度相關時,可能會使回歸的結果混亂,甚至會把分析引入歧途;其次,多重共線性可能對參數估計值的正負号産生影響,特别是βi的正負号有可能同預期的正負号相反。
檢測多重共線性的方法有多重,其中最簡單的一種方法是計算模型中各對自變量之間的相關系數,并對各相關系數進行顯著性檢驗。如果有一個或多個相關系數是顯著的,就表示模型中所使用的自變量之間相關,因而存在多重共線性問題。
具體來說,如果出現下列情況,暗示存在多重共線性:
1.模型中各對自變量之間顯著相關。
2.當模型的線性關系檢驗(F檢驗)顯著時,幾乎所有回歸系數βi的t檢驗卻不顯著。
3.回歸系數的正負号與預期的相反。
4.容忍度與方差擴大因子,一般認為方差擴大因子大于10時,存在嚴重的多重共線性。
容忍度 tolerance
(在多元回歸模型中)某個自變量的容忍度等于1減去該自變量為因變量而其他k-1個自變量為預測變量時所得到的線性回歸模型的判定系數,即1-Ri^2。容忍度越小,多重共線性越嚴重。
方差擴大因子 variance inflation factor / VIF
(在多元回歸模型中)方差擴大因子等于容忍度的倒數,即VIF=1/(1-Ri^2)。顯然,VIF越大, 多重共線性越嚴重。一般認為VIF大于10時,存在嚴重的多重共線性。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!