一個例子線性回歸分析是統計中的一種很重要的統計分析方法。方差分析研究分類型自變量與數值型因變量之間關系的分析方法,而線性回歸分析主要研究數值型自變量和數值型因變量之間關系的分析方法。
從處理變量的多少來看,如果研究的是兩個變量之間的關系,稱為一元線性回歸分析,如果研究的是兩個以上變量之間的關系,稱為多元線性回歸分析。本文主要介紹一元線性回歸分析。
一個大型商業銀行在多個地區設有分行,其業務主要是進行基礎設施建設、國家重點項目建設、固定資産投資等項目的貸款。近年來,該銀行的貸款額平穩增長,但不良貸款額也有較大比例的提高,這給銀行業務的發展帶來較大壓力。為弄清楚不良貸款形成的原因,管理者希望利用銀行業務的有關數據做些定量分析,以便找出控制不良貸款的辦法。下表就是該銀行所屬的25家分行的有關業務數據。
管理者想知道,不良貸款是否與貸款餘額、累計應收貸款、貸款項目的多少、固定資産投資額等因素有關?如果有關系,它們之間是一種什麼樣的關系?關系強度如何?試繪制散點圖,并分析不良貸款與貸款餘額、累計應收貸款、貸款項目個數、固定資産投資額之間的關系。
相關關系說相關關系之前,先說下初高中數學學過的函數關系,這是是我們比較熟悉的關系。例如,函數y = f (x),其中 x 稱為自變量,y 稱為因變量,x與y是一一對應的關系。例如,圓的面積S與半徑R之間的關系可表示為S=πR^2,給定一個半徑,就可以計算出一個面積,半徑越大,面積也越大。
相關關系不同于函數關系,變量之間存在不确定的數量關系稱為相關關系。例如,收入水平y與受教育程度x之間的關系,一般來說,受教育程度越高,收入水平也越高,但這并不絕對,隻能說大部分情況下是,我們無法通過一個函數關系來定量描述收入水平y與受教育程度x之間的關系,隻能說它們相關。
從上面可以看出,相關關系有以下2個特點。
1、散點圖
針對前面的商業銀行數據,用Excel繪制散點圖,分别繪制不良貸款與貸款餘額、累計應收貸款、貸款項目個數及固定資産投資額的散點圖。
(1)不良貸款與貸款餘額的散點圖(這裡添加了趨勢線,下同)
(2)不良貸款與累計應收貸款的散點圖
(3)不良貸款與貸款項目個數的散點圖
(4)不良貸款與固定資産投資額的散點圖
2、相關系數
通過散點圖可以判斷兩個變量之間有無相關關系,并對變量間的關系形态作出大緻的描述,但是散點圖不能準确反映變量之間的關系強度。
為了準确度量兩個變量之間的關系強度,需要計算相關系數。
相關系數用得較多的是皮爾遜相關系數(Pearson's correlation coefficient),計算公式如下:
幸運的是,我們不需要手動計算,在Excel中,可以通過分析工具庫直接得出相關系數(這裡加上了條件格式)。
通過相關系數看出,跟不良貸款線性關系最緊密的是各項貸款餘額。
附:Excel分析工具庫中的相關系數工具。
回歸方程及最小二乘法
對于回歸分析,關鍵是要求出回歸方程。對于一元線性回歸,估計的回歸方程為:
需要求出該方程的常數項和回歸系數,一般采用最小二乘法來求解。
最小二乘法的意思是,在下圖中,找到一條直線,使得它到各個觀測點的距離最近,即讓這些點盡量均勻分布在直線兩側。
最小二乘法的數學原理及計算,如果不感興趣,可以先不用管,因為我們一般是通過工具進行回歸分析,如Excel、SPSS等,這些工具可以直接給出結果!
回歸直線的拟合優度拟合優度:表示回歸直線與各觀測點的接近程度,一般用判定系數來衡量回歸方程的拟合優度。
回歸分析的誤差一般通過離差平方和(即誤差)來表示,如下圖所示。
各平方和的計算公式如下。
總平方和(SST)=回歸平方和(SSR) 殘差平方和(SSE)
回歸直線的拟合優度取決于回歸平方和SSR占總平方和SST的比例,即SSR/SST。
通過Excel進行回歸分析,可以直接給出判定系數,不用擔心計算的問題。
顯著性檢驗回歸分析中的顯著性檢驗主要包括兩方面的内容:
1、線性關系檢驗
2、回歸系數檢驗
線性關系檢驗主要是檢驗自變量x與因變量y之間的線性關系是否顯著。
回歸系數檢驗主要是檢驗自變量對因變量的影響是否顯著。
線性關系檢驗主要關心F分布的P值,回歸系數檢驗主要關心t分布的P值,具體理論這裡略去,因為Excel可以直接給出對應的P值,判斷的原則就是,P值越小越好,一般是小于0.05就符合要求。
實操:用Excel進行一元線性回歸分析用Excel進行一元線性回歸分析分為以下三步:
1、計算相關系數,并進行顯著性檢驗
2、選擇合适的自變量x,與y進行線性回歸
3、根據Excel給出的分析結果,寫出回歸方程并進行預測
具體操作步驟如下:
1、計算相關系數,并進行顯著性檢驗
在Excel中,可以通過分析工具庫直接得出相關系數,并加上條件格式。
通過相關系數矩陣看出,跟不良貸款線性關系最緊密的是各項貸款餘額。
說明:顯著性檢驗這裡暫時略去。
2、選擇合适的自變量x,與y進行線性回歸
在“數據分析”中選擇回歸:
Y值輸入區域,選擇“不良貸款”,X值輸入區域,選擇“各項貸款餘額”,置信度用默認的95%,殘差部分,勾選“殘差”、“殘差圖”、“線性拟合圖”,确定即可。
得出以下分析結果:
在上方的結果中,判定系數、顯著性檢驗的結果如标黃區域所示。
從上面可以看到,判定系數為0.71,說明兩者有較強的線性關系。
線性關系檢驗的顯著性水平遠小于0.05,回歸系數檢驗的顯著性水平也是遠小于0.05,說明都是可以通過檢驗的。
Excel也給出了殘差圖和線性拟合圖(這裡适當做了一些美化),如下所示。
對于殘差圖來說,如果殘差圖中的所有點都落在一條水平帶中間,說明回歸模型是合理的,上述殘差圖基本符合。
對于線性拟合圖來說,藍色點表示原始數據,紅色點表示預測值,可以看出,由回歸方程給出的預測值與原始值的拟合程度也是不錯的。
你平時工作中是否用過線性回歸?用什麼工具進行呢?歡迎留言評論!
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!