多元線性回歸嘗試通過用一個線性方程來适配觀測數據,這個線性方程是在兩個以上(包括兩個)的變量和因變量之間構建的一個關系。多元線性回歸的實現步驟和機器學習中的簡單線性回歸步驟很相似,在評價部分有所不同。你可以用它來找出在預測結果上哪個因素影響力最大,以及不同變量是如何相互關聯的。
第1步: 數據預處理更多說明可以去這篇文章看看:機器學習中的簡單線性回歸步驟
導入相關庫:
導入數據集:
将分類數據數字化:
這裡要數字化的上表的State列。先将分類數據标簽化:
在對标簽進行one-hot編碼:
注意,被被編碼的列數據已剔除,新的編碼數據添加在最前的列中。
避免虛拟變量陷阱:
虛拟變量陷阱指當原特征有m個類别時,如果将其轉換成m個虛拟變量,就會導緻變量間出現完全共線性的情況。
總結來說就是:當原特征有m個類别時,我們需要将其轉換成m-1個虛拟變量。
還有一點需要注意的是,基準類别該如何選擇?如果基準類别選擇不合理,虛拟變量之間仍然會存在共線性的問題。這裡直接給出結論:選擇占比最大的類别作為基準類别。假設有a,b,c三個類别,如果基準類别a占比太少,那麼即使把a去除,b和c之和也會接近于1。
劃分數據集為訓練集和測試集:
第2步:在訓練集上訓練多元線性回歸模型
第3步:在測試集上預測結果
第4步:模型評估
在sklearn中包含四種評價尺度,分别為mean_squared_error(均方差)、mean_absolute_error(平均絕對值誤差)、explained_variance_score(可釋方差得分 )和 r2_score(R2 決定系數(拟合優度))。 這裡我們使用 r2_score:
第5步:可視化結果對比
其實在這一步之前應該還有一步模型評估,然而模型評估最後還是得到一個數值,這裡
總結
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!