tft每日頭條

 > 生活

 > 怎麼用線性回歸機器學習數據分析

怎麼用線性回歸機器學習數據分析

生活 更新时间:2025-01-26 22:03:24

多元線性回歸嘗試通過用一個線性方程來适配觀測數據,這個線性方程是在兩個以上(包括兩個)的變量和因變量之間構建的一個關系。多元線性回歸的實現步驟和機器學習中的簡單線性回歸步驟很相似,在評價部分有所不同。你可以用它來找出在預測結果上哪個因素影響力最大,以及不同變量是如何相互關聯的。

第1步: 數據預處理

更多說明可以去這篇文章看看:機器學習中的簡單線性回歸步驟

導入相關庫:

怎麼用線性回歸機器學習數據分析(機器學習中的多元線性回歸步驟)1

導入數據集:

怎麼用線性回歸機器學習數據分析(機器學習中的多元線性回歸步驟)2

将分類數據數字化:

這裡要數字化的上表的State列。先将分類數據标簽化:

怎麼用線性回歸機器學習數據分析(機器學習中的多元線性回歸步驟)3

在對标簽進行one-hot編碼:

怎麼用線性回歸機器學習數據分析(機器學習中的多元線性回歸步驟)4

注意,被被編碼的列數據已剔除,新的編碼數據添加在最前的列中。

避免虛拟變量陷阱:

虛拟變量陷阱指當原特征有m個類别時,如果将其轉換成m個虛拟變量,就會導緻變量間出現完全共線性的情況。

總結來說就是:當原特征有m個類别時,我們需要将其轉換成m-1個虛拟變量。

還有一點需要注意的是,基準類别該如何選擇?如果基準類别選擇不合理,虛拟變量之間仍然會存在共線性的問題。這裡直接給出結論:選擇占比最大的類别作為基準類别。假設有a,b,c三個類别,如果基準類别a占比太少,那麼即使把a去除,b和c之和也會接近于1。

怎麼用線性回歸機器學習數據分析(機器學習中的多元線性回歸步驟)5

劃分數據集為訓練集和測試集:

怎麼用線性回歸機器學習數據分析(機器學習中的多元線性回歸步驟)6

第2步:在訓練集上訓練多元線性回歸模型

怎麼用線性回歸機器學習數據分析(機器學習中的多元線性回歸步驟)7

第3步:在測試集上預測結果

怎麼用線性回歸機器學習數據分析(機器學習中的多元線性回歸步驟)8

第4步:模型評估

在sklearn中包含四種評價尺度,分别為mean_squared_error(均方差)、mean_absolute_error(平均絕對值誤差)、explained_variance_score(可釋方差得分 )和 r2_score(R2 決定系數(拟合優度))。 這裡我們使用 r2_score:

  • 模型越好:r2→1
  • 模型越差:r2→0

怎麼用線性回歸機器學習數據分析(機器學習中的多元線性回歸步驟)9

第5步:可視化結果對比

其實在這一步之前應該還有一步模型評估,然而模型評估最後還是得到一個數值,這裡

怎麼用線性回歸機器學習數據分析(機器學習中的多元線性回歸步驟)10

總結
  • 1、數據預處理。
  • 2、在訓練集上訓練多元線性回歸模型。
  • 3、在測試集上預測結果。
  • 4、模型評估。
  • 5、結果可視化對比。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved