回歸預測的實例-tft每日頭條

回歸預測的實例

生活更新时间:2025-08-19 01:36:37

在這篇文章中，我們要講到的是如何解決回歸問題，以及如何通過使用特征轉換、特征工程、聚類、提升算法等概念來提高機器學習模型的準确性。小白必入數據分析群，等你加入哦～

回歸預測的實例（如何提高回歸模型的準确性）1

數據科學是一個叠代過程，隻有經過反複實驗，我們才能得到滿足我們需求的最佳模型/解決方案。

回歸預測的實例（如何提高回歸模型的準确性）2

數據科學過程流 — 作者圖片

讓我們通過一個例子來關注上面的每個階段。我有一個健康保險數據集（CSV 文件），其中包含有關保險費用、年齡、性别、BMI 等的客戶信息。根據數據集中的這些參數來預測保險費用。這是一個回歸問題，我們的目标變量—費用/保險成本—是數字的。

讓我們從加載數據集并探索屬性開始（EDA — 探索性數據分析）

回歸預測的實例（如何提高回歸模型的準确性）3

回歸預測的實例（如何提高回歸模型的準确性）4

健康保險數據框

數據集有 1338 條記錄和 6 個特征。吸煙者、性别和地區是分類變量，而年齡、BMI 和兒童是數字變量。

處理空值/缺失值

讓我們檢查數據集中缺失值的比例：

回歸預測的實例（如何提高回歸模型的準确性）5

年齡和 BMI 有一些少量空值。首先将處理這些缺失的數據，然後開始數據分析。Sklearn 的SimpleImputer允許您根據相應列中的均值/中值/最頻繁值替換缺失值。在這個例子中，我使用中值來填充空值。

回歸預測的實例（如何提高回歸模型的準确性）6

現在我們的數據是幹淨的，我們将通過可視化和地圖來分析數據。一個簡單的seaborn pairplot可以給我們很多見解！

回歸預測的實例（如何提高回歸模型的準确性）7

回歸預測的實例（如何提高回歸模型的準确性）8

Seaborn Pairplot

看到了什麼..？

收費和兒童是傾斜的。
年齡與收費呈正相關。
BMI 正态分布！

Seaborn 的箱線圖和計數圖可用于顯示分類變量對費用的影響。

回歸預測的實例（如何提高回歸模型的準确性）9

分類變量的 seaborn 計數圖

回歸預測的實例（如何提高回歸模型的準确性）10

基于上述圖的觀察結果：

男性和女性的人數幾乎相等，男性和女性的平均收費中位數也相同，但男性的收費範圍更大。
吸煙者的保險費用相對較高。
有2-3個孩子的人收費最高
客戶幾乎平均分布在 4 個地區，而且所有地區的費用幾乎相同。
女性吸煙者的百分比低于男性吸煙者的百分比。

我們可以得出，“吸煙者”對保險費用的影響相當大，而性别的影響最小。

創建一個熱圖來了解費用和數字特征（年齡、BMI 和兒童）之間相關性的強度。

回歸預測的實例（如何提高回歸模型的準确性）11

回歸預測的實例（如何提高回歸模型的準确性）12

相關圖

我們看到年齡和 BMI 與費用具有平均 ve 相關性。

我們現在将一一介紹模型準備和模型開發的步驟。

功能編碼

在這一步中，我們将分類變量（吸煙者、性别和地區）轉換為數字格式（0、1、2、3 等），因為大多數算法無法處理非數字數據。這個過程稱為編碼，有很多方法可以做到這一點：

LabelEncoding — 将分類值表示為數字（例如，具有值意大利、印度、美國、英國的區域等特征可以表示為 1、2、3、4）
OrdinalEncoding — 用于将基于等級的分類數據值表示為數字。（例如将高、中、低分别表示為 1、2、3）
One-hot Encoding — 将分類數據表示為二進制值 — 僅 0,1。如果分類特征中沒有很多唯一值，我更喜歡使用一次性編碼而不是标簽編碼。在這裡，我在 Region 上使用了 pandas 的一個熱編碼函數 ( get_dummies ) 并将其分成 4 别 — location_NE、location_SE、location_NW 和 location_SW。也可以對這一列使用标簽編碼，但是，一種熱門編碼給了我更好的結果。

回歸預測的實例（如何提高回歸模型的準确性）13

2. 特征選擇和縮放

接下來，我們将選擇對“費用”影響最大的特征。我選擇了除性别之外的所有功能，因為它對費用的影響非常小（從上面的可視化圖表中得出結論）。這些特征将形成我們的“X”變量，而費用将成為我們的“y”變量。如果特征比較多，建議使用scikit-learn的SelectKBest進行特征選擇，得到top特征。

回歸預測的實例（如何提高回歸模型的準确性）14

一旦我們選擇了特征，我們需要“标準化”數字——年齡、BMI、兒童。标準化過程将數據轉換為 0 到 1 範圍内的較小值，以便所有這些值都位于相同的範圍内，并且不會壓倒另一個。我在這裡使用了StandardScaler。

回歸預測的實例（如何提高回歸模型的準确性）15

現在，我們都準備好創建第一個基本模型。我們将嘗試線性回歸和決策樹來預測保險費用

回歸預測的實例（如何提高回歸模型的準确性）16

回歸預測的實例（如何提高回歸模型的準确性）17

模型分數

平均絕對誤差 ( MAE ) 和均方根誤差 ( RMSE ) 是用于評估回歸模型的指标。我們的基線模型給出了超過 76% 的分數。在兩種方法之間，DecisionTrees 給出了更好的 MAE 為 2780。

讓我們看看如何讓我們的模型更好。

3A。特征工程

我們可以通過操縱數據集中的一些特征來提高我們的模型分數。經過幾次試驗，我發現以下項目可以提高準确性：

使用 KMeans 将類似客戶分組到集群中。
在區域列中将東北和西北地區劃分為“北部”，将東南和西南地區劃分為“南部”。
将 'children' 轉換為名為 'more_than_one_child' 的分類特征，如果孩子的數量 > 1 則為 'Yes'

回歸預測的實例（如何提高回歸模型的準确性）18

回歸預測的實例（如何提高回歸模型的準确性）19

所有功能

3B。特征變換

從我們的 EDA 中，我們知道Y的分布是高度偏斜的，因此我們将應用 scikit-learn 的目标轉換器——QuantileTransformer來規範化這種行為。

回歸預測的實例（如何提高回歸模型的準确性）20

高達 84%……而 MAE 已減少到 2189！

4. Ensemble 和 Boosting 算法的使用

現在我們将在基于集成的 RandomForest、GradientBoosting、LightGBM 和 XGBoost 上使用這些功能。如果您是初學者并且不了解 boosting 和 bagging 方法。

回歸預測的實例（如何提高回歸模型的準确性）21

我們的 RandomForest 模型确實表現良好 — MAE為 2078。現在，我們将嘗試使用一些增強算法，例如 Gradient Boosting、LightGBM 和 XGBoost。

回歸預測的實例（如何提高回歸模型的準确性）22

回歸預測的實例（如何提高回歸模型的準确性）23

模型得分

似乎都表現得很好.

5. 超參數調優

讓我們調整一些算法參數，例如樹深度、估計量、學習率等，并檢查模型的準确性。手動嘗試不同的參數值組合非常耗時。Scikit-learn 的GridSearchCV自動執行此過程并計算這些參數的優化值。我已經将 GridSearch 應用于上述 3 種算法。下面是 XGBoost 的一個：

回歸預測的實例（如何提高回歸模型的準确性）24

回歸預測的實例（如何提高回歸模型的準确性）25

GridSearchCV 中參數的最佳值

一旦我們獲得了參數的最佳值，我們将使用這些值再次運行所有 3 個模型。

回歸預測的實例（如何提高回歸模型的準确性）26

模型得分

我們已經能夠提高我們的準确性——XGBoost 給出了 88.6% 的分數，錯誤相對較少.

回歸預測的實例（如何提高回歸模型的準确性）27

1. 費用預測值與實際值的分布圖；2. 殘差圖 — 作者圖片

分布圖和殘差圖确認預測和實際存在良好的重疊。然而，有一些預測值遠遠超出了 x 軸，這使得我們的RMSE更高。這可以通過增加我們的數據點來減少，即收集更多數據。

我們現在準備将此模型部署到生産中并在未知數據上進行測試.

簡而言之，提高我的模型準确性的點。

☛創建簡單的新功能

☛轉換目标變量

☛聚類公共數據點

☛提升算法的使用

☛Hyperparameter調優

回歸預測的實例（如何提高回歸模型的準确性）28

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活 20寸行李箱可以托運嗎
1、20寸行李箱可以托運的。2、中國國際航空公司随身攜帶行李要求：3、乘坐國内航班頭等艙的旅客，每人... 2023-07-05
生活西餐分為哪六大類
1、法式：特點是選料廣泛（如蝸牛、鵝肝都是法式菜肴中的美味），加工精細、烹調考究，滋味有濃有淡，花色品種多；法式菜講究吃半熟或生食。2、英式：特點是油少、清淡，調味時較少用酒，調味品大都放在餐台上由客人自己選用。烹調講究鮮嫩，口味清淡，選料注重海鮮及各式蔬菜，菜量要求少而精。3、意式：特點是原汁原味，以味濃著稱。烹調注重炸、熏等，以炒、煎、炸、燴等方法見長。意大利人喜愛面食，做法吃法甚多。4、俄式 2023-07-05
生活天花闆發黴怎麼處理
1、若天花闆發黴了該如何處理呢？首先，我們要做的就是檢查房屋天花闆或者是牆角有沒有水滲出來，找到天花... 2023-07-05
生活怎麼鑒别紅酒的檔次
1、将紅酒酒瓶倒過來，傾斜一定角度，迎着陽光或者燈光看瓶底是否有較多的沉澱和殘渣，如果太多說明這款酒... 2023-07-05
生活沖浪是什麼原理
1、沖浪的原理：海風将能量轉移至海浪，緻使海浪湧動，海水的重力作用則試圖讓海面回複風平浪靜的狀态，因... 2023-07-05
生活海河在哪裡
1、海河在中國，流經山西、河北、北京、天津、山東、河南，入海口在天津市大沽口。2、海河，是中國華北地... 2023-07-05
生活 21822是什麼标準的酒
純糧酒。21822是沱牌大曲酒的标準，是純糧釀造的酒。GB/T21822-2008地理标志産品沱牌白酒主要原料：純糧固态發酵工藝，根據“高粱香、玉米甜、大米淨、小麥躁、糯米綿、大麥沖”等特點，選用高粱、大米、糯米、玉米、小麥為主要釀酒原料。鑒别糧食酒方法：用氫氧化鈉，也就是大家平常說的燒堿。把要檢測的白酒以50：1燒堿的比例放入放入試管中，也可以用我們平常家中的可以加熱的杯子，然後放入熱水沸騰幾分 2023-07-05
生活養殖池塘怎麼做
1、位置選擇：選擇水源充足，水質無污染，交通電源方便的地方建池。2、水源和水質：良好的水源便于經常加... 2023-07-05
生活 honor手機隐藏功能
1、智能短信功能設置方法：點擊短信-菜單-設置-智能短信服務-點擊開啟”增強服務“。設置完成後，當我... 2023-07-05
生活西瓜打開後多久不能吃
1、切開的西瓜常溫下一般最多放置4個小時，及時冷藏才安全。2、另外，西瓜最好用幹淨的保鮮膜覆蓋，或者... 2023-07-05
生活三文魚刺身的處理方法
1、刮去魚鱗，切去魚鳍、腹鳍和胸鳍。2、沿鰓蓋進刀，用刀按壓，一口氣切去魚頭。3、剖腹。沿中骨由腹側... 2023-07-05
生活生日快樂禮物女
1、音樂盒你可以選擇音樂盒因為很多女孩子都非常的喜歡音樂盒，當小小的音樂盒滴滴的想起時，就感覺整個世... 2023-07-05
生活衛生間怎麼幹濕分離
1、巧裝半隔斷玻璃：在浴區部分安裝半隔斷玻璃，這樣的衛生間隔斷不僅可以有效防止浴室水花亂濺，而且不占用空間，玻璃的通透性可提升衛生間的視覺面積。2、安裝物美價廉的浴簾：根據自家的裝修風格，選擇自家喜歡且尺寸合理的浴簾，可安裝在淋浴區上面的挂杆上進行衛生間隔斷，不僅美觀，而且在不使用時可折疊收納，空間... 2023-07-05
生活門的密封條安裝方法
1、玻璃墊條及止口膠條：（窗框、窗扇）應在焊接清角後将膠條按正确面順方向用專用輥輪将膠條少許用力往型... 2023-07-05
生活琵琶腿怎麼做
一、紅燒琵琶腿1、準備食材：琵琶腿3隻、老抽1勺、白糖10克、冰糖20克、鹽适量、料酒1勺、姜3片、花椒10粒、大料3瓣、香葉1片、小茴香少許。2、琵琶腿洗淨控水，加白糖、老抽、鹽、料酒用手抓勻入味。3、放入電飯煲内膽，加入姜片、香料、冰糖、鹽、料酒。4、倒入和雞腿齊平的水，煮40分鐘即可。二、脆炸琵琶腿1、準備食材：琵琶腿4個、奧爾良腌料3勺、炸雞裹粉适量、水适量、油适量。2、将琵琶腿用奧爾良腌 2023-07-05
生活飲料有哪些
1，果蔬汁飲料果蔬汁是指未添加任何外來物質，直接以新鮮或冷藏果蔬（也有一些采用廣果）為原料，經過清洗... 2023-07-05
生活碧雲泉淨水器怎麼樣
1、碧雲泉淨水器是由合肥碧雲泉水工業有限責任公司研發生産的新一代淨水設備品牌。碧雲泉水工業是中國淨水行業具影響力的企業之一，公司緻力于碧雲泉品牌的直飲機、純水機、淨水器、軟水機、水工業設備及其他大型水處理設備等産品和解決方案的研制及運營推廣。碧雲泉淨水器産品美觀、占地面積小，并引進和吸收美國、日本水... 2023-07-05
生活小草什麼精神
小草有堅韌不拔、頑強不屈、锲而不舍的精神。小草是禾本科小草屬的植物。其葉集生于基部，葉舌極短，葉片窄線形，常卷折成針狀；穗狀花序單獨頂生，穗軸邊緣具短毛或無毛，穎膜質；外稃膜質透明，先端長漸尖，背部具柔毛，内稃膜質，披針形；稃間具微毛，花果期7~9月。它産于西藏、雲南、浙江、廣東、江蘇等省區，多生于曠野千旱草地或石上，也見于海邊沙地。關于草的詩：《賦得古原草送别》（唐）白居易離離原上草，一歲一枯榮 2023-07-05
生活國内飛機能帶暖寶寶嗎
分情況。貼片型暖寶寶沒有被列入民航總局違禁物品名單，但每個機場執行标準有所不同。每個機場對暖寶寶的要求都不一樣，如鹹陽機場規定暖寶寶和打火機一樣，屬于自發熱物品，嚴禁随身攜帶；首都機場、張家界機場則允許攜帶一定數量的暖寶寶，蘭州機場規定每人隻能攜帶10片；鹹陽機場和西藏機場規定不能攜帶。暖寶寶：暖寶寶又叫暖貼，是一種可供取暖的工具。反應原理為利用原電池加快氧化反應速度，将化學能轉變為熱能。為了使溫 2023-07-05
生活山竹外殼硬的能吃嗎
1、不能。山竹鮮嫩時外殼有彈性，而外殼變硬極可能是出現品質的改變，因此不能食用。2、山竹果肉含豐富的... 2023-07-05
生活鍋燒黑了怎麼辦
1、開火加熱鍋，将白醋倒進鍋中，可以先去除一部分的黑漬。然後再往鍋裡倒點小蘇打。趁着小蘇打起泡，用刷... 2023-07-05
生活海晏縣美食
海晏縣美食有海晏羔羊肉、海晏羊腸面、酸奶、大救駕、耙肉餌絲等。1、海晏羔羊肉：富含人體必需的多種氨基酸，肉色鮮紅、肌肉纖維細嫩等特點。無不表明海晏縣羔羊肉的特色，打響了“海晏羔羊肉”品牌戰略的實施力度。2、海晏羊腸面：海晏羊腸面湯色淡黃，腸段潔淨，肥腸粉白，面條金黃蔥末浮上，蘿蔔丁沉在碗中，腸段細脆餡軟，面條悠長爽口，廣受歡迎。是青海省海北藏族自治州海晏縣的特色小吃。羊腸面 2023-07-05
生活石灰撒蝦塘會死蝦麼
不會。主要是消毒作用。使用時要注意以下幾點：1、生石灰長時間在空氣中累露會吸收二氧化碳變成粉末狀碳酸... 2023-07-05
生活兒童手工陶藝怎麼制作
1、工具/原料：拉坯機、轉盤、雕塑工具。2、找到适合兒童的diy手工陶藝店鋪，挑選好黏土。3、将黏土... 2023-07-05
生活銀耳爛蒂原因是什麼
1、二氧化碳濃度過高：銀耳栽培時對于溫度要求較高，而在低溫季節栽培時，溫度過低無法讓其子實體分化生長，所以有些種植戶就會在室内生火加溫，但是忘記了通風，雖然溫度适宜，但是室内的二氧化碳濃度也是越來也高，當其達到一定界限時，就會造成銀耳爛蒂。2、黃水珠沉積：在銀耳子實體分化階段中，它的耳基會吐出黃水珠... 2023-07-05
生活男直筒褲如何穿搭
1、穿直筒褲時，可以選擇一雙低幫的鞋子來搭配，更容易顯腿長。但要注意的是，要把握好褲腳的長度，如果拖地就顯得邋遢了。可以将褲腳卷起一到兩次，漏出腳踝即可。2、淺色的短袖襯衫和休閑直筒褲是絕配，襯衫下加個打底衫更容易展現青春感。3、T裇和直筒褲也很配，搭配休閑的直筒褲顯得随性，搭配牛仔直筒褲顯得潮流時... 2023-07-05
生活經典網名
1、SweetFairy甜美少女。2、Heartdisease心病。3、Incinerator焚心。... 2023-07-05
生活腌魚多長時間可以曬
1、腌魚三四天就能曬了。腌魚一看魚的大小，二看用鹽量，鹽多，腌的時間就短，鯉魚肉不厚，一般來說，六斤... 2023-07-05
生活宋代五大名窯是哪五大
1、定窯：燒瓷地點在河北省曲陽縣的澗磁村及東西燕山村。曲陽縣宋屬定州，定州唐末、五代以來是義武節度使... 2023-07-05
生活試用期内辭職有違約金嗎
1、《勞動法》第三十七條規定：勞動者提前三十日以書面形式通知用人單位，可以解除勞動合同。勞動者在試用... 2023-07-05

tft每日頭條

> 生活

> 回歸預測的實例

回歸預測的實例

相关生活资讯推荐

热门生活资讯推荐

网友关注