回歸分為解釋性回歸和預測性回歸
預測型回歸對預測精度要求較高,可以在模型中添加平方項和交互項甚至高次項進行改進模型,不一定隻有線性項
但是加入的自變量如果過多,比如4個變量,再加上他們的平方項,8個變量對于小樣本的話很容易出現過拟合,和NN很像,對這些樣本的表示已經特别完備了,預測能力很好,但是對于樣本外的數據預測效果很差。
因變量如果是0-1變量則為0-1回歸
回歸的思想,任務,使命,分類
回歸就是拟合的後續回歸就是拟合的後續回歸就是拟合的後續
但是多元線性回歸指定了函數形式是多元線性函數,拟合的時候不能随便采用别的多項式函數或其他自定義函數
用最小二乘法計算出公式(函數的形式可以由經驗、先驗知識或對數據的直觀觀察決定,或者直接使用多項式)裡的系數,拟合就完成了,但是回歸的工作還沒有結束,還需要去研究這些系數(這個公式)的可信度,每個系數對因變量的影響,因為回歸分析認為真正的拟合系數應該是一個随機變量而非确值,拟合用最小二乘求出來的這些系數隻是對真正系數的一個點估計,所以有必要繼續去研究區間估計或者假設檢驗。總之,拟合隻是求出一條曲線能反映數據的趨勢就行了,但是回歸的要求是更高的更精确的。
對拟合得到的系數進行進一步估計和檢驗
解釋y的形成機制就是通過建立x,y的數學關系式
感覺相關分析就是回歸分析的前兩步,但是使用的方法不是通過相關
逐步回歸後面講,篩選最有效的幾個變量,剔除不重要的變量,簡化回歸模型
首先必須明确,多元線性回歸中的“線性”是一個假定。是需要去檢驗的!
非線性關系,如對數關系也是可以用線性回歸的,隻要先化成這個形式
數據的預處理主要是注意異常值,異常值,離群點對回歸模型的影響是非常大的
可以在excel中求出變量的對數項,平方項,交互項(x1*x2),然後用spss畫散點圖看看有沒有線性關系
用回歸找出所有指标中最重要的幾個
那麼受到啟發的我們就可以用回歸去找和患某病最相關的基因位點(2016年研究生國賽B題)
不管幹啥,主成分分析啦,回歸啦,要想消除量綱的影響,就要對數據進行标準化處理,這算數據預處理的内容
多元線性回歸模型中的回歸系數
多元線性回歸一定要避免内生性,使得模型具有外生性
所以如果要使用多元線性回歸,是一定要檢驗模型是否具有外生性的,這可以通過檢驗每一元變量和擾動項的相關系數
虛拟變量對于有定性變量的問題是非常重要的,很多現實問題都有定性變量,并且定性變量一般還比定量變量多呢
有的時候讓你研究工資的高低是否和性别有關,貸款申請成功與否是否和申請人所處地域有關,你一般隻能想到做相關性分析,算相關系數啥的,但是其實也可以通過設置虛拟變量進行回歸分析,獲得更準确的公式表達,從另一個角度解決問題
虛拟變量是0-1變量,指示變量
既然主要探究的就是性别和地域分别對于工資和貸款申請成功率的影響,那麼這兩個因素在各自的模型裡就是核心解釋變量,其他變量都是控制變量
虛拟變量的回歸系數表示的是其他因素相同且一定的情況下,由虛拟變量帶來的對y的影響/變化,即虛拟變量兩種取值的差異程度,如女性工資和男性工資的平均差異
虛拟變量的數目是分類數-1
下圖中的定性變量都是要用虛拟變量建模的,在stata中也可以用代碼生成虛拟變量
stata示例
自變量還有這種複雜形式的關系,随着x1的增大,y随x2增大的更多,即y跟x2的關系不是獨立于x1的
通過評估殘差的樣本标準差或者樣本方差,進行方差分析,越小則回歸模型的解釋性越好,精度越高
最小二乘拟合的求解決定了殘差和必須是0,所以殘差的樣本均值也是0
由于有兩個限制條件,所以殘差平方和自由度少了2個,即當有n-2個殘差已知時,另外2個也就确定了。
這裡樣本方差是除以n-2,不是n-1,更不是n,也一樣是為了保證樣本方差是總體方差的無偏估計。
我們用樣本方差度量樣本的變異程度
判定系數
調整後的拟合優度更有參考意義
一般數據都是異方差的,這時候用最小二乘估計的回歸系數是不可靠的,針對他們的假設檢驗也不可靠,我們可以用穩健标準誤解決
數據定量的指标已經在excel中标準化了
在stata中把定性變量設置為虛拟變量,然後直接多元線性回歸
所以可以寫出回歸方程
高 考 總 分 = − 0.0024 ∗ A 1 0.1186 ∗ 平 時 成 績 − 0.1287 ∗ 期 末 成 績 0.0368 ∗ 高 考 數 學 0.9246 高考總分=-0.0024*A1 0.1186*平時成績-0.1287*期末成績 0.0368*高考數學 0.9246高考總分=−0.0024∗A1 0.1186∗平時成績−0.1287∗期末成績 0.0368∗高考數學 0.9246
根據後面的解讀可以知道,這個結果的F值不大,回歸結果并不好,從最後的回歸結果看,期末成績竟然和高考總分負相關了,肯定不對
stata回歸結果解讀(model,SS)是回歸平方和SSR(RESIDUAL,ss)是剩餘平方和SSE(total,ss)是SST,等于SSR SSE
最關鍵的回歸結果,即回歸系數在第一列,後面還給了每個系數的标準差(越小越好),t檢驗值,t檢驗的p值(越小說明這個系數越顯著不為0),以及置信區間
上圖上面的紅框,一個定性變量的n個虛拟變量(n為這個定性變量的取值總類數),有一個會因為多重共線性被stata自動檢測到并忽略,這是因為我們本類就隻需要設置n-1個虛拟變量,上面也講來的
右邊的F值越大,prob越小,則表示所有系數的聯合顯著性越大,即所有變量都為0的概率很低SSE
obs,觀測數目,即樣本總數
回歸結束後一定要見檢驗異方差,也算檢驗回歸結果
用殘差的平方表示随機誤差項的方差
有六兩種圖示檢驗法檢驗異方差
一是用每個解釋變量和被解釋變量的散點圖看
而是解釋變量和殘差平方的圖像
所以畫這個散點圖
原假設是同方差
原假設:擾動項不存在異方差P值大于0.05,說明在95%的置信水平下接受原假設,即我們認為擾動項不存在異方差。
這大概就是為啥上面加了robust得到的回歸結果相同的理由了,因為不存在異方差
懷特檢驗原假設:不存在異方差
結果p大于0.05,接受原假設,不存在異方差
這個例子就是有異方差的咯
畫出回歸的殘差
這裡隻研究截面數據的多元回歸
excel數據導入stata會自動認為是截面數據
先檢驗各個自變量的相關性(更好地做法是,一上來先把所有變量都放在回歸模型中,然後觀察結果,然後再檢驗自變量的相關性,根據相關性剔除一些變量再次回歸查看結果)
所有回歸必須用robust
發現house和car有相關性以後,就剔除了car變量,再次回歸得到的F值變大了
多重共線性檢驗
所有變量一起回歸,隻有部分結果
方差膨脹系數,說明有明顯的多重共線性
向後
向前
可以看到,向前回歸得到了22個變量,向後得到了21個變量,向後逐步回歸的F值最大,向前和向後的方差膨脹系數幾乎相等,所以對多重共線性的解決是不錯的,二者的判定系數也幾乎一樣。
基本上剔除的變量都是地域的分類變量,說明多重共線性也主要是他們引起的
代碼:
注:以上學習材料整理均源于網絡,如有侵權,請聯系删除。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!