數據分析建模方式有哪些-tft每日頭條

數據分析建模方式有哪些

科技更新时间:2025-08-13 15:04:57

編輯導語：在我們的日常工作中，很多時候都會用到數據分析的方式，其中建模分析的方法也是數據分析的一種類型，對于各種數值能夠清晰明了的呈現；本文作者分享了關于數據分析中的建模分析的基本流程，我們一起來了解一下。

日常的數據分析工作中，除了基本的拆解法、對比法做分析外，也經常需要用到模型的方法來做預測或者分類，這裡會介紹建模分析的基本流程及常見處理方法。
01 描述性分析
在拿到數據後，不能着急立刻開始清洗數據或者模型訓練，而是先了解數據（除建模分析外，其他的數據開發也要做這一步），這樣才能避免後期的踩坑，否則十有八九是要複工的。

那“了解數據”這一環節，具體要了解哪些東西呢？
了解各個特征的業務含義和計算邏輯
各個特征的分布是否符合預期
特征之間的相關性如何，是否符合基本邏輯
特征和目标值的相關性如何，是否符合基本邏輯

在相關性分析這裡，數值型變量之間可通過計算相關系數或者畫圖呈現；數值型變量和分類變量可通過箱線圖呈現關系。
02 缺失值處理
在初步了解數據後，需要做一些數據預處理的行為。

第一步就是對缺失值處理，一般根據樣本量多少以及缺失比例，來判斷是“甯缺毋濫”的删除，還是缺失值填充。

具體處理的思路可以是這樣的：
統計計算樣本量n，各個特征數據缺失率y，各樣本數據特征缺失率x；
特征缺失率x比較高的樣本一般都建議删除；因為多個特征都缺失，填補也比較困難，即使填補信息偏差也會比較大。
如果某特征缺失率y比較大，則删除此特征；如果特征缺失率低且樣本量比較大的話，可删除特征缺失的樣本；如果樣本量少不可删除，則對缺失值做填充。

缺失值填充的方法有：
根據特征的衆數、中位數或者平均值來填充；也可以對樣本做分類，根據所在類的平均值衆數等填充；
通過回歸法來做樣本填充，缺失值作為因變量，其他特征做自變量去預測；
還可通過比較複雜的方法，如多重插補法。
03 異常數據處理
處理完缺失值後，需要做異常數據處理。

之前介紹過一篇異常數據處理的方法，數據分析-異常數據識别；這篇介紹了多種适應不同場景下的異常數據識别方法。
04 數據标準化處理
對于很多模型，如線性回歸、邏輯回歸、Kmeans聚類等，需要計算不同特征的系數，或者計算樣本距離。

這種情況下，如果不同特征的數值量級差的特别大，會嚴重影響系數和距離的計算，甚至這種計算都會失去意義；所以在建模前必須要做的就是要去量綱，做标準化處理。

當然有些模型是不需要做數據标準化處理的，如決策樹、随機森林、樸素貝葉斯等。

當前最常用的數據标準化處理方法有：

1）最小—最大規範化

(x-min)/(max-min)，将其規範到[0,1]之間

2）z值規範化

(x-均值)/标準差，将其規範為均值為0，标準差為1；

如果這種情況，受離群點影響比較大的話，可以用中位數代替均值，用絕對标準差代替标準差。

還需要注意的是，如果樣本分布非常有偏的話，可以先做box-cox變換，将其往正态分布變換後再标準化。
05 特征選擇
在做完基本的數據清洗以及特征變換後，需要做的是特征選擇，一般做特征選擇的原因是：
某些特征存在多重共線性，這種情況對線性回歸和邏輯回歸影響比較大；
特征太多，有些特征增加了模型複雜性卻與模型無關，不能全部入模，需要篩選出價值更高的特征。
1. 多重共線性

是什麼：模型的解釋變量之間由于存在精确相關關系或高度相關關系而使模型估計失真或難以估計準确。

影響：

1）影響模型的穩定性，而且影響模型的解釋。

舉個例子，假設消費支出=0.3*收入，這樣可能的模型輸出的是：

消費支出收入1.3*收入1.6*收入-消費支出

同樣的數值輸出，不同的公式計算，會非常模型解釋和穩定性的。

2）線性回歸模型，會導緻最小二乘估計無法計算系數，即使可計算系數方差也很大，即1）中提到的不穩定。

怎麼識别：
計算特征之間的相關系數，對于相關性特别高的特征，根據業務需要保留有代表性的特征；
方差膨脹因子（VIF）。

計算每個特征被其他特征拟合的情況，如特征j，被其他特征線性拟合的決定系數為R2；通常拟合越好，決定系數就越大且最大可達到1。

所以，當方差膨脹因子過大，說明此特征存在多重共線性。一般大于10會認為有比較強的多重共線性問題。

怎麼解決：
删除共線性強的特征；
線性回歸模型的話，可采用嶺回歸的估算方式解決。
2. 特征太多

不同的模型和應用場景下特征篩選方式不同：
對于二分類問題來說，篩選邏輯是：篩選出對二分類結果區分度比較高的特征；可以通過計算IV（information value）值的大小來篩選，一般IV值越大，此特征對二分類結果更有區分度。
對于回歸預測問題，主要針對多元線性回歸。篩選特征的方法有：特征子集選擇法、正則化法以及降維法。

1）特征子集選擇法

特征子集選擇法有向前逐步選擇法和向後逐步選擇法：

a）向前逐步選擇

具體方法就是從0個特征開始，一個一個逐步從剩餘特征中添加使得模型拟合誤差最小的特征，在添加過程中得到模型拟合最優的特征組合。

b）向後逐步選擇

和向前逐步選擇類似，隻是反過來了，讓所有特征入模，再一步一步剔除效果不好的特征，從而達到最優。

2）正則化壓縮無意義特征的系數

比較好用的方法是lasso。

一般的線形回歸我們隻會希望它的誤差平方和最小，但是lasso的目标函數在原有目标函數後面加了一項系數懲罰項。這樣讓目标函數最小，可以實現無意義特征的系數為0，從而實現特征選擇。

3）PCA降維

這個是将原有有一定線性關系的特征線形組合成新的相互獨立的特征，所以不适合原有特征已經相互獨立的情況。

以上就是數據建模的前期準備流程，做完這些内容就可以開始模型訓練，對模型結果進行預測分析啦，而這部分則是不同模型會有不同的具體處理方法。

總之，模型訓練前的數據分析、數據清洗以及特征選擇非常重要，甚至他們是決定建模是否成功的關鍵因素，所以這部分工作一定要做細做準确。

感謝閱讀，以上就是我要分享的内容~

作者：須臾即永恒；公衆号：須臾即永恒；

本文由 @須臾即永恒原創發布于人人都是産品經理。未經許可，禁止轉載

題圖來自Unsplash，基于CC0協議
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技手機8g運存跟12g運存差距有多大
手機運存真的越大越好嗎，6GB和8GB有什麼區别，别再被商家騙了科技發展到今日，已經超過我們自身的想象，十年前的手機運存，一個G已經頂破天而反觀現在，最少也是4G起步，6G常見，甚至還出現了8G。上周，小編和朋友在手機城裡選購手機，很糾結幾... 2023-03-12
科技現在的手機用貼膜帶殼嗎
2010年智能手機剛火出圈的那會，大家剛從功能機過渡為大屏手機，貼一張鋼化膜幾十至上百元，樂此不疲[捂臉]并不覺得有什麼問題，畢竟花了大手筆買的物件可不得好好保護一下。iPhone手機膜而現如今十來年過去了，科技日新月異，各品牌手機充斥市場... 2022-10-29
科技希捷酷狼硬盤怎麼樣
如今，随着圖片、影音等多媒體文件的精細度越來越高，他們的體積大小也越來越膨脹。從720P的高清時代，到我們正逐漸邁入的8K超高清時代，文件的大小翻了數十乃至上百倍，而NAS這種專為數據備份而生的設備也逐漸在家庭、SOHO和中小型企業中普及開... 2023-03-20
科技 ps人像修圖簡單教學
人像修圖當然不止是液化，但是液化這一部的工作，為人像後期的美感奠定了基礎，畢竟修圖，校形，是人像修圖前期的基礎工作，基礎打得好，後面才有更好的效果。那本篇文章就給各位新手同學簡單介紹一下PS中的液化工具。入口大家應該都知道了：濾鏡-液化進入... 2022-12-18
科技西門子開關介紹
西門子家居電氣表裡如一，質感升級01在智能開關界，能夠廣泛兼容燈光負載、極大突破燈具閃爍問題的西門子SieNeuroEase智能開關，深受消費者和家裝設計師青睐。為了能夠與前沿的智能家居設計風格兼容，SieNeuroEase智能開關還應用了... 2023-01-09
科技常用的五種網站推廣方法
一、搜索引擎優化搜索引擎推廣是網絡營銷最重要的手段之一。由于搜索引擎的收錄量非常大，因此成為很多企業的網絡營銷方法。但是随着競争越來越激烈，單純依靠seo獲得排名的網站也越來越多，而且效果也越來越差。二、軟文推廣軟文就是軟廣告的一種形式，它... 2023-03-16
科技 cad上怎麼将尺寸标注出
cad上怎麼将尺寸标注出?，下面我們就來說一說關于cad上怎麼将尺寸标注出?我們一起去了解并探讨一下這個問題吧!cad上怎麼将尺寸标注出 2023-01-05
科技丹楓園四居室價格
千呼萬喚，奧體新城·丹若園，終于揭開了神秘面紗。就在這兩天，河西中的奧體新城·丹若園，正式公開藝術生活館與建面約265㎡精裝樣闆間。河西中稀缺小高層，還是科技住宅，一經公開便霸占了買房人的朋友圈。重點一覽：①、建面約265㎡五房兩廳三衛樣闆... 2023-03-19
科技熊出沒對孩子們有什麼啟示
摘要：著名的心理學家、美國問題學前兒童啟蒙計劃的創始人布朗芬布倫納提出了生态系統理論，這是一種個體發展模型，強調發展個體嵌套于相互影響的一系列環境系統之中，在這些系統中，系統與個體相互作用并影響着個體發展。本文以從生态系統理論出發，淺析熊出... 2023-02-11
科技 win8怎麼跳過調分辨率
Win8系統電腦屏幕分辨率不能修改怎麼辦？Win8系統電腦屏幕分辨率無法更改該如何解決呢？本文就給各位分享Win8屏幕分辨率改不了的解決方法。方法一、重新安裝顯卡驅動1、找到系統中的“這台電腦”圖标，并點擊鼠标右鍵，選擇“管理”選項；2、在... 2023-01-28
科技 ice服務器的由來
ice服務器被炸迷你玩家們，看到這個不要退，看完這文章。#迷你世界陪你過大年##我的世界#你們迷你玩家過你的迷你世界四周年，我們過我們的十周年不香嗎？非要炸服務器？你知道嗎？這服務器不是一個小小的服務器，而是凝聚了mc老玩家們三年的努力，裡... 2023-03-10
科技固态硬盤格式化後數據能恢複嗎
固态硬盤格式化後數據能恢複嗎?在讀書時最喜歡的一條DOS命令就是格式化磁盤了，有多少人還記得呢？，接下來我們就來聊聊關于固态硬盤格式化後數據能恢複嗎?以下内容大家不妨參考一二希望能幫到您!固态硬盤格式化後數據能恢複嗎在讀書時最喜歡的一條DO... 2023-02-09
科技迷你廚房選什麼最好用
家庭生活日常都離不開柴米油鹽醬醋茶，提到做飯，您平時會進廚房做飯嗎？可能大部分年輕人都選擇定外賣，省事簡單，但是外賣油大，不如自己在家做的健康，利用休息時間，自己買菜烹饪幾道拿手好菜，給家，是一件很溫馨的事。提到做飯大家就會想到廚房工具，除... 2023-02-11
科技華中科技大學考研難嗎
華中科技大學考研難嗎?華中科技大學考研難不難相對不同的人而言，成績優秀的人覺得不難，成績一般的人可能覺得很難難易也是相對不同的招生單位而言，名牌大學的研究生都不會好考華中科技大學考研要求如下：，我來為大家科普一下關于華中科技大學考研難嗎?以... 2022-06-02
科技山奈香料的用法
去異和増香永遠是香料應用的兩個大主題，用于増香的香料衆多，對于剛接觸香料不久的朋友來說，那便是猶如在茫茫大海中航行，讓人有些不知所措，那麼有沒有一個比較好的組合，可以讓新手朋友更好地做好増香這件事情呢？用好這三種常用香料，構築起一組香料増香... 2023-03-21
科技雲騎士一鍵重裝系統測評
随着技術的發展，網絡上出現了許多一鍵重裝系統，如雲騎士一鍵重裝系統。這些一鍵重裝系統軟件在使用中還不錯。今天，我組織了一個小白一鍵重新安裝系統圖形教程，讓您學習如何使用一鍵重新安裝系統進行系統重新安裝。雲騎士一鍵重裝系統1。打開小白一鍵重裝... 2023-02-04
科技 win11安裝軟件後不能進入頁面
相信很多用戶朋友的升級體驗了win11系統，但最近有用戶在使用時發現無法使用軟件的情況，這是怎麼回事？遇到這種情況該如何解決呢？下面就給大家帶來win11系統無法使用軟件的操作方法吧！具體的操作步驟方法如下：1、首先，右鍵點擊無法運行的軟件... 2023-04-04
科技内存測試工具memtest需要多久
概述之所以要寫這篇文章是因為最近生産環境經常發生内存抖動方面的問題，而且内存基本用到90%以上，所以用這個壓力測試工具來測一下，看一下服務器整體性能情況。測試工具memtester安裝1、下載解壓wgethttp://pyropus.ca/... 2023-03-19
科技夢幻西遊服務器時間以什麼單位
大家好，我是于胖子自從2021年7月份以來，門派闖關不再統計參與活動的隊伍數量，就無法直觀的知曉夢幻西遊各服務器的玩家人數情況了。那麼現在我們怎麼才能知道一個服務器的大體玩家人數情況呢？第一個方法就是看服務器選擇界面。根據服務器的顔色判定，... 2022-12-05
科技濟甯橡膠生産自動計量系統
日前，河北瑞威科技有限公司開發的橡膠精煉機智能裝備及成套技術順利通過石家莊市科技局的項目驗收。該項目是針對廢舊橡膠循環利用設計開發的智能裝備，它将溫度、壓力和輥距等傳感器及數據采集應用到了精煉機和開煉機上，通過智能調整設備的輥距和轉速等技術... 2023-04-04
科技有沒有筆記本用的外接顯卡
筆記本内存滿了怎麼辦呢？我們肯定會選擇加一塊内存條。但是筆記本顯卡不夠用了怎麼辦呢，好像不能加一塊顯卡，這可苦了遊戲黨。重新買一台機器的話太貴，或許機器的其他部分都很好呢；換一塊顯卡吧，好像也很貴，畢竟舊顯卡置換出去也不值幾個錢；而且非獨顯... 2022-12-29
科技 pe管材的正确使用範圍
PE管是排水管道工程中常用的一種管材，現在包括房子裝修時也用上了此類管道，在日常生活中是比較常見的一種管材，那你知道管材上面标識的參數是什麼意思嗎？在管材上經常能見到DE、DN、SDR、MPA、φ、en等字符，認識的話可以從中了解到管材的公... 2023-01-22
科技模拟人生手機版新手任務
模拟人生手機版新手任務?1、國際服官網下載下遊戲之後，點擊創建賬号，接下來我們就來聊聊關于模拟人生手機版新手任務?以下内容大家不妨參考一二希望能幫到您!模拟人生手機版新手任務1、國際服官網下載下遊戲之後，點擊創建賬号。2、下載渠道目前使用的... 2023-03-25
科技 6400萬像素SUGAR糖果手機是否...
每年的春節前夕，忙碌了一年的人們，開始了回家的旅途。這一承載着國人情感和執念的人口“大遷徙”被形象的成為春運。而春運的巨大人流也讓高鐵站、機場成為了品牌營銷的最佳位置。（車站、機場、動車上的SUGARS9廣告随處可見）今年的春運旅途中，很多... 2023-01-01
科技簡單網頁設計與制作案例教程
大多數設計師在網站項目創作之外都沒有靈感素材的深度累積經驗，而最常做的一個動作僅僅是看到好的網站或作品就收藏。這對于自己的提升和項目實戰能力的提升幫助不大，不建議看到好的作品隻是收藏，應當吃透它們，把技巧汲取并運用到實戰項目當中，讓你在網站... 2022-12-04
科技長沙藍思科技最新進展
藍思科技：引領顯示功能器件産業鍊實現新突破随着觸屏時代的到來，本土企業藍思科技通過搶抓機遇，引領着行業發展，實現了長沙在顯示功能器件産業鍊的突破。今天系列報道《鍊·長沙——22條産業鍊發展觀察》我們關注顯示功能器件産業鍊。并聯機器人快速拾取... 2022-11-18
科技數據信息知識三者之間的差異
導讀：我們把關于信息處理的理論稱為信息論，它是20世紀40年代從通信實踐中發展并總結出來的一門學科，專門研究有關信息處理和可靠傳輸的一般規律。這一理論對計算機技術的發展具有重要意義。為了更好地闡述這一理論，讓我們先來讨論幾個大家耳熟能詳的詞... 2023-02-04
科技 firefox支持flash
IT之家9月26日消息很多年前，能夠運行Flash曾被作為安卓的賣點，而随着Flash技術本身以至遲暮之年，接連被發現的漏洞讓它看起來不堪一擊，很多網站仍然沒有使用HTML5或者其它的技術來代替Flash，這就使Flash可以再短暫生存一段... 2022-12-12
科技蘋果手機怎麼投屏電視
蘋果手機怎麼投屏電視?方法一：将智能電視和蘋果手機置于同一局域網内，手機點擊AirPlay選項，找到智能電視的ID，打開設備的開關，下面我們就來聊聊關于蘋果手機怎麼投屏電視?接下來我們就一起去了解一下吧!蘋果手機怎麼投屏電視方法一：将智能電... 2022-07-25
科技格林公式及其應用例題
今日導讀:1.有同學留言對暑假作業中《天利38套》7-20T的答案有疑問，簡析之！2.呈現的僅僅是分析過程，主要想強調動能定理應用的注意事項，具體答題格式，請同學們參照高考樣題的評分标準，自行組織。動能定理的表述：合力所做的功等于物體動能的... 2023-02-20

tft每日頭條

> 科技

> 數據分析建模方式有哪些

數據分析建模方式有哪些

1. 多重共線性

2. 特征太多

相关科技资讯推荐

热门科技资讯推荐

网友关注