tft每日頭條

 > 科技

 > 數據分析建模方式有哪些

數據分析建模方式有哪些

科技 更新时间:2024-08-15 19:26:25

編輯導語:在我們的日常工作中,很多時候都會用到數據分析的方式,其中建模分析的方法也是數據分析的一種類型,對于各種數值能夠清晰明了的呈現;本文作者分享了關于數據分析中的建模分析的基本流程,我們一起來了解一下。

數據分析建模方式有哪些(數據分析建模分析基本流程)1

日常的數據分析工作中,除了基本的拆解法、對比法做分析外,也經常需要用到模型的方法來做預測或者分類,這裡會介紹建模分析的基本流程及常見處理方法。

01 描述性分析

在拿到數據後,不能着急立刻開始清洗數據或者模型訓練,而是先了解數據(除建模分析外,其他的數據開發也要做這一步),這樣才能避免後期的踩坑,否則十有八九是要複工的。

那“了解數據”這一環節,具體要了解哪些東西呢?

  • 了解各個特征的業務含義和計算邏輯
  • 各個特征的分布是否符合預期
  • 特征之間的相關性如何,是否符合基本邏輯
  • 特征和目标值的相關性如何,是否符合基本邏輯

在相關性分析這裡,數值型變量之間可通過計算相關系數或者畫圖呈現;數值型變量和分類變量可通過箱線圖呈現關系。

02 缺失值處理

在初步了解數據後,需要做一些數據預處理的行為。

第一步就是對缺失值處理,一般根據樣本量多少以及缺失比例,來判斷是“甯缺毋濫”的删除,還是缺失值填充。

具體處理的思路可以是這樣的:

  1. 統計計算樣本量n,各個特征數據缺失率y,各樣本數據特征缺失率x;
  2. 特征缺失率x比較高的樣本一般都建議删除;因為多個特征都缺失,填補也比較困難,即使填補信息偏差也會比較大。
  3. 如果某特征缺失率y比較大,則删除此特征;如果特征缺失率低且樣本量比較大的話,可删除特征缺失的樣本;如果樣本量少不可删除,則對缺失值做填充。

缺失值填充的方法有:

  1. 根據特征的衆數、中位數或者平均值來填充;也可以對樣本做分類,根據所在類的平均值衆數等填充;
  2. 通過回歸法來做樣本填充,缺失值作為因變量,其他特征做自變量去預測;
  3. 還可通過比較複雜的方法,如多重插補法。
03 異常數據處理

處理完缺失值後,需要做異常數據處理。

之前介紹過一篇異常數據處理的方法,數據分析-異常數據識别;這篇介紹了多種适應不同場景下的異常數據識别方法。

04 數據标準化處理

對于很多模型,如線性回歸、邏輯回歸、Kmeans聚類等,需要計算不同特征的系數,或者計算樣本距離。

這種情況下,如果不同特征的數值量級差的特别大,會嚴重影響系數和距離的計算,甚至這種計算都會失去意義;所以在建模前必須要做的就是要去量綱,做标準化處理。

當然有些模型是不需要做數據标準化處理的,如決策樹、随機森林、樸素貝葉斯等。

當前最常用的數據标準化處理方法有:

1)最小—最大規範化

(x-min)/(max-min),将其規範到[0,1]之間

2)z值規範化

(x-均值)/标準差,将其規範為均值為0,标準差為1;

如果這種情況,受離群點影響比較大的話,可以用中位數代替均值,用絕對标準差代替标準差。

還需要注意的是,如果樣本分布非常有偏的話,可以先做box-cox變換,将其往正态分布變換後再标準化。

05 特征選擇

在做完基本的數據清洗以及特征變換後,需要做的是特征選擇,一般做特征選擇的原因是:

  1. 某些特征存在多重共線性,這種情況對線性回歸和邏輯回歸影響比較大;
  2. 特征太多,有些特征增加了模型複雜性卻與模型無關,不能全部入模,需要篩選出價值更高的特征。

1. 多重共線性

是什麼:模型的解釋變量之間由于存在精确相關關系或高度相關關系而使模型估計失真或難以估計準确。

影響

1)影響模型的穩定性,而且影響模型的解釋。

舉個例子,假設消費支出=0.3*收入,這樣可能的模型輸出的是:

消費支出 收入1.3*收入1.6*收入-消費支出

同樣的數值輸出,不同的公式計算,會非常模型解釋和穩定性的。

2)線性回歸模型,會導緻最小二乘估計無法計算系數,即使可計算系數方差也很大,即1)中提到的不穩定。

怎麼識别:

  1. 計算特征之間的相關系數,對于相關性特别高的特征,根據業務需要保留有代表性的特征;
  2. 方差膨脹因子(VIF)。

計算每個特征被其他特征拟合的情況,如特征j,被其他特征線性拟合的決定系數為R2;通常拟合越好,決定系數就越大且最大可達到1。

所以,當方差膨脹因子過大,說明此特征存在多重共線性。一般大于10會認為有比較強的多重共線性問題。

怎麼解決

  1. 删除共線性強的特征;
  2. 線性回歸模型的話,可采用嶺回歸的估算方式解決。

2. 特征太多

不同的模型和應用場景下特征篩選方式不同:

  1. 對于二分類問題來說,篩選邏輯是:篩選出對二分類結果區分度比較高的特征;可以通過計算IV(information value)值的大小來篩選,一般IV值越大,此特征對二分類結果更有區分度。
  2. 對于回歸預測問題,主要針對多元線性回歸。篩選特征的方法有:特征子集選擇法、正則化法以及降維法。

1)特征子集選擇法

特征子集選擇法有向前逐步選擇法和向後逐步選擇法:

a)向前逐步選擇

具體方法就是從0個特征開始,一個一個逐步從剩餘特征中添加使得模型拟合誤差最小的特征,在添加過程中得到模型拟合最優的特征組合。

b)向後逐步選擇

和向前逐步選擇類似,隻是反過來了,讓所有特征入模,再一步一步剔除效果不好的特征,從而達到最優。

2)正則化壓縮無意義特征的系數

比較好用的方法是lasso。

一般的線形回歸我們隻會希望它的誤差平方和最小,但是lasso的目标函數在原有目标函數後面加了一項系數懲罰項。這樣讓目标函數最小,可以實現無意義特征的系數為0,從而實現特征選擇。

3)PCA降維

這個是将原有有一定線性關系的特征線形組合成新的相互獨立的特征,所以不适合原有特征已經相互獨立的情況。

以上就是數據建模的前期準備流程,做完這些内容就可以開始模型訓練,對模型結果進行預測分析啦,而這部分則是不同模型會有不同的具體處理方法。

總之,模型訓練前的數據分析、數據清洗以及特征選擇非常重要,甚至他們是決定建模是否成功的關鍵因素,所以這部分工作一定要做細做準确。

感謝閱讀,以上就是我要分享的内容~

作者:須臾即永恒;公衆号:須臾即永恒;

本文由 @須臾即永恒 原創發布于人人都是産品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved