tft每日頭條

 > 科技

 > 線性回歸分析講解

線性回歸分析講解

科技 更新时间:2024-07-26 04:07:15

了解相關關系後,現在來學習第二種關系——回歸函數關系。通過數據間的相關性,可以進一步構建回歸函數關系,即回歸模型,預測數據未來的發展趨勢。

回歸是研究自變量與因變量之間關系形式的分析方法,它主要是通過建立因變量Y與影響它的自變量X之間的回歸模型,來預測因變量Y的發展變量。例如,銷售額對推廣費用有着依存關系,通過對這一依存關系的分析,在已确定下一期推廣費用的條件下,可以預測将實現的銷售額。

相關分析和回歸分析的聯系與區别

相關分析與回歸分析的聯系是:

均為研究、測量兩個或兩個以上變量之間關系的方法。在實際工作中,一般先進行相關分析,計算相關系數,然後拟合回歸模型,進行顯著性檢驗,最後用回歸模型推算或預測。

相關分析與回歸分析的區别是:

  1. 相關分析研究的都是随機變量,并且部分自變量與因變量,回歸分析研究的變量有自變量與因變量之分,并且自變量是确定的普通變量,因變量是随機變量;

  2. 相關分析主要描述兩個變量之間線性關系的密切程度,回歸分析不僅可以揭示變量X對變量Y的影響大小,還可以由回歸模型進行預測。

回歸分析模型主要包括線性回歸及非線性回歸。線性回歸又分為簡單線性回歸與多重線性回歸,而對于非線性回歸,我們通常通過對數轉化等方式,将其轉化為線性回歸的形式,所以接下來将重點學習線性回歸。線性回歸分析主要有五個步驟:

簡單線性回歸

簡單線性回歸也稱為一元線性回歸,也就是回歸模型隻含一個自變量,否則稱為多重線性回歸。簡單線性回歸模型為:

Y = a bX ε

Y——因變量

X——自變量

a——常數項,是回歸直線在縱坐标上的截距

b——回歸系數,是回歸直線的斜率

ε——随機誤差,即随機因素對因變量所産生的影響

結合Excel回歸分析工具,以“企業季度數據”為例,先不考慮其他費用因素,隻考慮推廣費用對銷售額的影響,如果确定了2012年第3季度推廣費用預算,通過給出的數據,如何預測2012年第3季度銷售額呢?

一、繪制散點圖

散點圖是一種比較直觀地描述變量之間相互關系的圖形。一般在做線性回歸之前,需要先用散點圖查看數據之間是否具有線性分布特征,隻有當數據具有線性分布特征時,才采用線性回歸分析方法。

1、【插入】選項卡中,選擇【散點圖】,選擇數據源,進行相關設置:

線性回歸分析講解(每天一點數據分析)1

2、右擊散點圖,添加趨勢線,并顯示拟合直線方程和R平方值;

線性回歸分析講解(每天一點數據分析)2

這裡隻是通過繪圖的方式建立回歸分析模型的一個簡單做法,之後還要進一步使用多個統計指标來檢驗,如回歸模型的拟合優度檢驗(R^2)、回歸模型的顯著性檢驗(F檢驗)、回歸系數的顯著性檢驗(t檢驗)等綜合評估回歸模型的優劣,這時就需要使用到Excel分析工具庫中的“回歸”分析工具來實現了。

3、在【數據分析工具】中選擇“回歸”分析工具進行相關設置:

線性回歸分析講解(每天一點數據分析)3

其中,殘差是指觀測值與預測值(拟合值)之間的差,也稱剩餘值;标準殘差是指(殘差-殘差的均值)/殘差的标準差;殘差圖是以回歸模型的自變量為橫坐标,以殘差為縱坐标繪制的散點圖。若繪制的點在以0為橫坐标的直線上下随機分布,則表示拟合結果合理,否則需要重新建模;線性拟合圖是以回歸模型的自變量為橫坐标,以因變量及預測值為縱坐标繪制的散點圖;正态概率圖是以因變量的百分位排名為橫坐标,以因變量作為縱坐标繪制的散點圖。

最後生成結果如下:

線性回歸分析講解(每天一點數據分析)4

通過“回歸”分析工具生成了回歸統計表、方差分析表、回歸系數表,而這三張表就分别用于回歸模型的拟合優度檢驗(R^2)、回歸模型的顯著性檢驗(F檢驗)、回歸系數的顯著性檢驗(t檢驗)。

回歸統計表

回歸統計表用于衡量因變量Y與自變量X之間相關程度的大小,以及檢驗樣本數據點聚集在回歸直線周圍的密集程度,從而評價回歸模型對樣本數據的代表程度,即回歸模型的拟合效果,主要包含以下5個部分。

Multiple R:因變量Y與自變量X之間的相關系數絕對值。本例中R=0.9516,銷售額與推廣費用成高度正相關;

R Square:判定系數R^2(也稱拟合優度或決定系數),即相關系數R的平方,R^2越接近1,表示回歸模型拟合效果越好。本例中R^2=0.9055,回歸模型拟合效果好;

Adjusted R Square:調整判定系數Adjusted R^2,僅用于多重線性回歸時才有意義,它用于衡量其他自變量後模型的拟合程度。

标準誤差:其實應當是剩餘标準差(Std. Error of the Estimate),在對多個回歸模型比較拟合程度時,通常會比較剩餘标準差,此值越小,說明拟合程度越好。這裡的标準誤差為526.41。

觀測值:用于估計回歸模型的數據個數(n),這裡的n = 46。

方差分析表

方差分析表的主要作用是通過F檢驗來判斷回歸模型的回歸效果,即檢驗因變量與所有自變量之間的線性關系是否顯著,用線性模型來描述它們之間的關系否巧當。表中主要有Df(自由度),SS(誤差平方和)、MS(均方差)、F(F統計量)、Significance F(P值)五大指标,通常我們隻需要關注F、Significance F兩個指标,其中主要參考Significance F,因為計算出F統計量,還需要查找F分布臨界值表,并與之進行表叫才能得出結果,而P值可直接與顯著性水平α比較得出結果。

F:F統計量,用于衡量變量間線性關系是否顯著,這裡的F = 421.54;

Significance F:是在顯著性水平α(常用取值0.01或0.05)下的F的臨界值,也就是統計學中常說的P值。一般我們以此來衡量檢驗結果是否具有顯著性,如果P值>0.05,則結果不具有顯著的統計學意義;如果0.01<P值<=0.05,則結果具有顯著的統計學意義;如果P值<=0.01,則結果具有及其顯著的統計學意義。

回歸系數表

回歸系數表主要用于回歸模型的描述和回歸系數的顯著性檢驗。回歸系數的顯著性檢驗,即研究回歸模型中的每個自變量與因變量之間是否存在顯著的線性關系,也就是研究自變量能否有效地解釋因變量的線性變化,它們能否保留在線性回歸模型中。

回歸系數表中,第一列中的Intercept、推廣費用,分别為回歸模型中的a(截距)、b(斜率),對于大多數回歸分析來講,關注b要比a重要;第二列是a和b的值,據此可以寫出回歸模型;第四、五列分别是回歸系數t檢驗和相應的P值,P值on個樣與顯著性水平α進行比較,最後一列是給出的a和b的95%的置信區間的上下限。

我們最後得到的銷售額和推廣費用的簡單線性回歸模型為Y = 4361.4864 1.1980X,其中判定系數R^2=0.9055,回歸模型拟合效果較好。回歸模型的F檢驗與回歸系數的t檢驗相應的P值都遠小于0.01,具有顯著線性關系。綜合來說,回歸模型拟合較好。

多重線性回歸

多重線性回歸模型是指包含一個因變量和多個自變量的回歸模型,而多元線性回歸是指包含兩個或兩個以上因變量的回歸模型。所以多重線性回歸模型為:

Y = a b1X1 b2X2 ...... bnXn ε

Y——因變量

Xn——第n個自變量

a——常數項,是回歸直線在縱坐标上的截距

bn——第n個偏回歸系數

ε——随機誤差,即随機因素對因變量所産生的影響

依然可以采用Excel分析工具庫的“回歸”分析工具來實現,之前在進行回歸設置的時候,“X值輸入區域”隻選擇了推廣費用,而多重線性回歸需要同時選擇推廣費用和其他費用,這是和簡單線性回歸設置的唯一區别。最後生成結果如下:

線性回歸分析講解(每天一點數據分析)5

多重線性回歸中,回歸模型拟合優度的檢驗應該采用調整判定系數Adjusted R^2,最終得到的銷售額與推廣費用、其他費用的多重線性回歸模型為Y = 4943.9764 1.8844X1 - 3.7513X2,其中調整判定系數Adjusted R^2 = 0.94,回歸模型拟合效果較好,回歸模型的F檢驗與回歸系數的t檢驗相應的P值都遠小于0.01,具有顯著性線性關系,綜合來說,回歸模型拟合較好。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved