y=β1 β2x ε
β1、β2是未知參數,稱為回歸系數,需要從樣本來估計。ε是随機誤差項,又稱為随機幹擾項,它是一個特殊的随機變量,反映未列入方程式的其他各種因素對y的影響。
我們使用最小二乘法來做一元線性回歸方程的拟合。
最小二乘法
最小二乘法的性質
1、運用普通最小二乘法得到的樣本回歸線經過樣本的均值點。
最小二乘法
2、殘差的均值為0;
3、殘差和解釋變量不相關,即
最小二乘法
顯著性校驗
根據公式,我們可以得出一元線性回歸方程,下面需要對拟合的質量做顯著性校驗。我們介紹SST、SSE、SSR的相關概念。
顯著性校驗
SST(總平方和)=SSR(回歸平方和) SSE(殘差平方和)
SST:total sum of square
反映因變量的n個觀察值與其均值的總誤差;
SSR:sum of squares of regression
反映自變量x對因變量y取值變化的影響,或者說,由于x和y之間的線性變化引起的y的取值變化,也成為可解釋的平方和;
SSE:sum of squares of error殘差平方和
反映了除x意外其他因素對y取值的影響,也稱為不可解釋的平方和或剩餘平方和。
決定系數
1、回歸比例占總誤差平方和的比例;
2、反映曲線的拟合程度;
3、取值範圍在[0,1]之間;
R²趨于1,說明回歸方程拟合的越好;R²趨于0,說明回歸方程拟合的越差;
4、決定系數的平方根等于相關系數;
下面我們拿一組數據來進行驗證(編号、廣告投入額x、産品銷售額y):
1 7.49 28.39
2 6.44 26.54
3 9.91 34.89
4 8.65 31.79
5 11.3 38.86
6 8.25 28.64
7 5.23 21.75
8 6.73 26.49
9 10.39 35.25
10 6.62 28.09
11 6.5 27.23
12 9.4 31.95
13 7.35 27.78
14 10.43 34.76
15 7.75 30.22
16 8.22 31.29
17 9.17 33.15
18 8.7 33.08
19 12.25 38.99
20 8.14 30.39
第一步,判斷x與y之間線性相關性;根據我們在帖子"變量之間相關系數"公式求得如下:
lxy |
2872.6084 |
lxx |
1224.6016 |
lyy |
7114.1251 |
r |
0.973236226 |
說明x與y之間高度相關;
第二步、使用最小二乘法公式求得
x均 |
8.446 |
y均 |
30.9765 |
a |
2.345749344 |
b |
11.16430104 |
y=2.3457x 11.1643 |
第三步、顯著性校驗
SST |
355.706255 |
MST |
17.78531275 |
RMST |
4.217263657 |
SSR |
336.9209635 |
MST |
16.84604817 |
RMST |
4.104393764 |
R² |
0.947188751 |
MSE |
0.047359438 |
RMSE |
0.217622236 |
和第一步做對比,R²=0.947188751;r=0.973236226;R=r
決定系數=0.947188751,趨于1,說明一元線性回歸方程拟合效果很好。
我們利用excel做下試驗,結論和我們通過運算完全一樣。
利用excel做一元線性拟合
第四步,驗證殘差的分布。a、殘差的均值為0;b、殘差和解釋變量不相關
根據最後兩列可以得到驗證。
線性回歸中的殘差分布
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!