數據清洗需要掌握什麼知識-tft每日頭條

數據清洗需要掌握什麼知識

科技更新时间:2025-08-12 19:42:38

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）1

關注小聚,數據分析不迷路

在數據化運營過程中，海量的原始數據中存在着大量不完整、不一緻、有異常的數據，嚴重影響到數據挖掘建模的執行效率，甚至可能導緻挖掘結果的偏差，所以進行數據清洗就顯得尤為重要，數據清洗完成後接着進行或者同時進行數據集成、變換、規約等一系列的處理，該過程就是數據預處理。

數據預處理是其中的重要環節，它直接決定了後續數據工作的質量和價值輸出。‍

人們通常認為，數據預處理是一個非常枯燥的部分。但它就是「做好準備」和「完全沒有準備」之間的差别，也是表現專業和業餘之間的差别。就像為度假做好事先準備一樣，如果你提前将行程細節确定好，就能夠預防旅途變成一場噩夢。

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）2

數據預處理流程

首先我們知道,數據預處理的主要内容包括數據清洗、數據集成、數據變換和數據規約。

可以用這些逐步檢測并優化提升數據質量，不是每次預處理都需要做這些所有步驟，視數據情況挑選若幹即可。

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）3

由于在數據分析過程中主要涉及的是數據清洗,所以本文詳細講解這一部分,那麼數據清洗有哪些鐵則或者經驗呢？小聚這裡整理如下:

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）4

數據清洗

數據清洗主要是删除原始數據集中的無關數據、重複數據，平滑噪聲數據，篩選掉與挖掘主題無關的數據，補足缺失值、去除異常值,糾正錯誤。

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）5

一.去重

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）6

不管是外部回溯數據還是在自己數據庫中拉取的數據，可能由于存儲邏輯等問題，會出現很多重複數據，重複數據屬于冗餘數據，拿到數據所要做的第一步就是檢查是否有重複數據，若有，則需要進行去重處理，在python中可以使用duplicates（）函數。

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）7

二.處理異常值

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）8

異常值的定義是與均值的偏差超過兩倍标準，但是在髒數據中，異常值的情況不止這一種：

1）比如一列數據你打開看全部是數字，當你把它當數值型處理，它會報錯；那就得仔細查找原因，遇到比較多的情況是一列數字中夾雜了幾個奇怪的字符串或者符号等元素，如果幾萬條數據中隻有一兩個這種字符，即使認真從前到後仔細查看也很難發現還浪費大量時間，效率極低。

還有一種情況比較常見，就是看起來是數字，實際上都是字符串的形式，但是以表格查看的時候是看不到字符串的引号；這兩種情況可以通過查看特征類型來提前發現，在python中用type()或者dtypes()函數，兩者使用對象有差别，可自行了解；

2）幾種常用異常值檢測方法：

3σ探測方法

3σ探測方法的思想其實就是來源于切比雪夫不等式。

對于任意ε>0，有：

當時，如果總體為一般總體的時候，統計數據與平均值的離散程度可以由其标準差反映，因此有：

一般所有數據中，至少有3/4（或75%）的數據位于平均2個标準差範圍内。
所有數據中，至少有8/9（或88.9%）的數據位于平均數3個标準差範圍内。
所有數據中，至少有24/25（或96%)的數據位于平均數5個标準差範圍内。

所以如果我們一般是把超過三個離散值的數據稱之為異常值。這個方法在實際應用中很方便的使用，但是他隻有在單個屬性的情況下才适用。

z-score

Z-score是一維或低維特征空中的參數異常檢測方法。該技術假定數據是高斯分，異常值是分布尾部的數據點，因此遠離數據的平均值。距離的遠近取決于使用公式計算的歸一化數點z i的設定阈值Zthr：

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）9

其中xi是一個數據點，μ是所有點xi的平均值，δ是所有點xi的标準偏。然後經過标準化處理後，異常值也進行标準化處理，其絕對值大于Zthr：

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）10

Zthr值一般設置為2.5、3.0和3.5。該技術是使用KNIME工作流中的行過濾器節點實現的。

這種異常值處理需要結合最終需求來決定怎麼處理，常見的是不處理或者按缺失值的方法處理，但是在實際場景中，異常值有時候會有非常突出的表現，比如在現金貸業務中，異常值中的壞賬率遠高于整體壞賬水平或其他區間壞賬水平，這時候異常值就得保留并作為決策阈值的參考值。

IQR

觀察箱型圖，或者通過IQR（InterQuartile Range）計算可以得到數據分布的第一和第四分位數，異常值是位于四分位數範圍之外的數據點。

這個方法真的很簡單，因為隻需要給數據排個序就行了，顯然過于籠統，但在實際場景中，觀察箱型圖仍然是一個很好的探索數據分布的方法。

畢竟，所有複雜的探索，都是從最開始簡單的探索一步步得來的嘛！

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）11

三.缺失值處理

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）12

數據缺失通常有兩種情況：

一種是數據行記錄的缺失，這通常是數據記錄丢失，很難找回；
另一種是數據列值的缺失，可能由于某些原因，導緻的數據不完整。

這裡主要讨論數據列植的缺失情況，通常有如下4種處理思路：

丢棄

這種方法最簡單明了，直接删除整行或者整列帶有缺失值的記錄。但是這種丢棄意味着會減少數據特征，弊端也十分明顯。

如下情況，不宜直接使用丢棄的方法：

數據集總體存在大量數據記錄不完整情況而且比例較大，比如超過10%，此時删除這些缺失值，就意味着會損失過多的有用信息。

帶有缺失值的數據記錄大量存在着明顯的數據分布規律或特征，比如帶有缺失值的數據記錄是我們的目标标簽主要集中在一類或者幾類中，如果此時删除這些數據記錄，将會使得對應類别的數據樣本丢失大量數據，導緻模型過拟合或者分類不準确。

補全

相對于丢棄而言，補全則是一種更加合理的處理方法。通過一定的方法将缺失的數據補上，從而形成完整的數據記錄。

常用的補全方法有：

統計法：對于數值型數據，可以使用均值、加權平均值、中位數等方法補全；而對于分類型數據，一般會是用類别衆數最多的數值補足。

模型法：更多的時候，我們會基于其他字段，将缺失字段作為目标變量進行預測，從而達到最為可能的補全值。

專家補全：對于一些專業性非常強的數據，可以通過自學業界專家，來補全缺失數據，這種方法在很多情況下也是一種非常重要的補全途徑。

其他方法：例如随機法、特殊值法，多重填補法等。

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）13

真值轉換法

在某些情況下，我們可能無法得知缺失值的分布規律，而且也無法應用上面的方法進行補全；或者我們認為當前的缺失記錄也是數據的一種規律，不應該輕易的對缺失數據進行處理，那麼此時就可以使用真值轉換法來處理。

這種方法的觀點是，我們承認缺失值的存在，并且把數據缺失也作為數據分布規律的一部分看待，将變量的實際值和缺失值都作為輸入維度參與後續的數據處理和模型計算中。但是真實值是可以直接參與計算的，缺失值通常無法參與運算，因此需要對缺失值進行真值轉換。

不處理

對于缺失值，不做任何處理，也是一種處理缺失值的思路。這種方式主要取決于後續的模型運算，很多模型對于缺失值有容忍度或靈活的處理方法，因此在數據預處理階段可以不作處理。

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）14

預處理小tips

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）15

非需求數據清洗

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）16

這一點說起來非常簡單：把不要的字段删了。但實際操作起來，有很多問題，例如：

把看上去不需要但實際上對業務很重要的字段删了；某個字段覺得有用，但又沒想好怎麼用，不知道是否該删；一時看走眼，删錯字段了。

前兩種情況我給的建議是：如果數據量沒有大到不删字段就沒辦法處理的程度，那麼能不删的字段盡量不删。第三種情況，請勤備份數據……

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）17

關聯性驗證

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）18

如果你的數據有多個來源，那麼有必要進行關聯性驗證。例如，你有汽車的線下購買信息，也有電話客服問卷信息，兩者通過姓名和手機号關聯，那麼要看一下，同一個人線下登記的車輛信息和線上問卷問出來的車輛信息是不是同一輛，如果不是，那麼需要調整或去除數據。

嚴格意義上來說，這已經脫離數據清洗的範疇了，而且關聯數據變動在數據庫模型中就應該涉及。但我還是希望提醒大家，多個來源的數據整合是非常複雜的工作，一定要注意數據之間的關聯性，盡量在分析過程中不要出現數據之間互相矛盾，而你卻毫無察覺的情況。

END

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）19

聚數學院年末大福利來啦,

小聚整理彙總了官方B站所有視頻相關配套資料

現在免費送!!

數據清洗需要掌握什麼知識（關于數據清洗那些事兒）20

關注同名公衆号,免費送

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技華為智能門鎖價格預估
2022年8月11日朗鴻科技（836395）發布公告計劃将于8月22日啟動打新，發行價格17元每股，發行後總股本為4578萬股，對應市盈率16.31倍。2021年2月，公司剛以5.18元每股的價格定增了100萬股，本次發行價是最近一次定增價... 2023-02-27
科技已經删除的通話記錄怎麼恢複
如今，人們的生活是越來越離不開手機了，科技的發展為人們帶來了許多的便利，想移動支付、手機拍照、聊天社交等等，因此手機中的數據對大家來說是十分重要的，尤其是手機通話記錄、聊天記錄、聯系人等。如果手機通話記錄不慎丢失就會為我們的帶來一定的影響，... 2022-11-10
科技凱迪拉克xt5兩驅越野性能如何
随着國内近年來興起的SUV風潮，購置或換購的消費者看中的更多是其多功能性。不過大多數城市SUV并不能涉水，陷入泥坑時也需要尋求幫助。但行走在外，你永遠不知道前路會遇到什麼！你經曆過陷車嗎？你經曆過在一個沒有路燈、鮮有人煙的地方陷車嗎？我經曆... 2022-12-07
科技 wpsoffice的一般使用方法
首先，向大家報告一個好消息WPS今天宣布品牌升級，有了更明确的品牌定位：專注創新的國民辦公軟件。WPS已有34年的曆史了，自1988年誕生之日起，它在求伯君和雷軍的帶領下，一路披荊斬棘，雖有坎坷，但依然頑強地奠定了WPS的市場地位和品牌形象... 2022-11-23
科技天翼網關無線網可以上網為什麼還要裝路...
天翼網關無線網可以上網為什麼還要裝路由器?從這個設備上用網線連接到路由的WAN口上，如果不懂設置路由，那就買華為或者小米的，插上就可以上網了，路由隻要設置無線連接的WiFi密碼，下面我們就來說一說關于天翼網關無線網可以上網為什麼還要裝路由器... 2022-06-06
科技筆記本顯卡獨顯和核顯的區别
如今筆記本領域的顯卡品牌主要有三，分别為英特爾、AMD和英偉達。其中，英特爾和AMD旗下的移動處理器内部都集成核心顯卡，屬于“買一送一”。英特爾Xe架構獨立顯卡計劃在2020年上市，未來我們還将看到這三個品牌在獨立顯卡領域割據的場面。多核處... 2022-11-26
科技路由器寬帶燈不亮不能上網
路由器寬帶燈不亮不能上網?如果其它的指示燈還亮的話，請檢查一下你的“貓”到路由器之間的網線和水晶頭，排除看接觸不良，現在小編就來說說關于路由器寬帶燈不亮不能上網?下面内容希望能幫助到你，我們來一起看看吧!路由器寬帶燈不亮不能上網如果其它的指... 2022-06-05
科技專訪萬興科技優秀産品經理
專訪萬興科技優秀産品經理?美國時間7月10日至7月13日，萬興科技攜旗下視頻編輯軟件Filmora連續第四年參加在美國洛杉矶舉行的美國網紅節VidCon，下面我們就來說一說關于專訪萬興科技優秀産品經理?我們一起去了解并探讨一下這個問題吧!專... 2022-11-13
科技 steam人類一敗塗地新手入門
從還原度上來談，十分的不錯，不論是場景、還是角色還原的都很到位。遊戲的地圖和端遊同步，共10張。角色的DIY在手遊當中也有一定的體現。玩家可以自行搭配現有提供的組件給自己的小人換裝、換色。但是！作為該遊戲的靈魂元素——可自行繪制角色的功能并... 2022-11-04
科技遊戲手機哪一款合适
遊戲手機哪一款合适?近些年，随着手機市場的趨于飽和，而與此用時手機遊戲開始爆火，例如當下的王者榮耀、和平精英、第五人格等，智能手機市場也分化出來一支專屬于遊戲用戶的電競手機，比較火的品牌或者系列有黑鲨、紅魔、ROG、OPPOAce、iQOO... 2022-10-12
科技奧睿科硬盤解析
作為一句長期戰鬥在電腦維修第一線的藝術家，來幾件很Bigger的裝備是非常必要的！比如這一樣，就非常上檔次：我買的時候259，強哥為了雙12，把價格調成358了？說說奧睿科的産品，個人用過一些，感覺質量還是挺不錯的。下面這款産品做一個簡單的... 2022-11-02
科技蘋果手機哪個壓縮軟件好
蘋果手機哪個壓縮軟件好?今天為大家帶來的這款應用：視頻壓縮器，16G内存手機的福音一鍵輕松幫您壓縮視頻大小，還有多種視頻規格可選原價6元，今日限免，下面我們就來說一說關于蘋果手機哪個壓縮軟件好?我們一起去了解并探讨一下這個問題吧!蘋果手機哪... 2022-10-15
科技 TCL電視的型号怎麼查看？
TCL電視的型号怎麼查看?查看TCL電視機配置信息的方法如下：啟動電視機，用遙控器操作，進入電視主界面後，點擊右側系統設置，現在小編就來說說關于TCL電視的型号怎麼查看?下面内容希望能幫助到你，我們來一起看看吧!TCL電視的型号怎麼查看查看... 2022-06-25
科技台式電腦怎麼添加藍牙
台式電腦怎麼添加藍牙?首先是單擊電腦右下角的顯示隐藏圖标，然後單擊藍牙圖标，會出現菜單，單擊打開設置：，現在小編就來說說關于台式電腦怎麼添加藍牙?下面内容希望能幫助到你，我們來一起看看吧!台式電腦怎麼添加藍牙首先是單擊電腦右下角的顯示隐藏圖... 2022-06-11
科技 ipados14.1怎麼隐藏應用
ipados14.1怎麼隐藏應用?如果您的設備已經升級iPadOS，則您可以使用多任務處理功能來同時打開和使用多個應用，還可以在應用之間拖放文字、圖片等内容，今天小編就來聊一聊關于ipados14.1怎麼隐藏應用?接下來我們就一起去研究一下... 2022-10-08
科技華為手機如何免費擴大内存
華為手機如何免費擴大内存?想增加運行内存或空間，除了安裝擴展卡（SD）還應該在手機設置-應用管理裡停用那些根本不用的應用：關閉一些應用的自啟功能和後台保護，随用随打開，我來為大家科普一下關于華為手機如何免費擴大内存?以下内容希望對你有幫助!... 2022-06-05
科技根号如何在電腦上輸入
根号如何在電腦上輸入?，下面我們就來說一說關于根号如何在電腦上輸入?我們一起去了解并探讨一下這個問題吧!根号如何在電腦上輸入數學符号,根号打法,生活常識,根号怎麼打,根号在電腦上怎麼打,根号是什麼,根号是什麼作用,根号在數學裡代表什麼, 2022-11-02
科技 lg電腦上遇到restart怎麼處理
lg電腦上遇到restart怎麼處理?關機前引起：玩遊戲、看視頻、或操作大程序、或電腦用的時間長了，這時是很卡的，你要有一些耐心等會電腦自己慢慢恢複，點擊一下電腦上的每一個頁面慢慢的恢複，等恢複正常後在關機或在做其它操作，如果還是不可以，就... 2022-06-15
科技 brt快速公交通道源于哪裡
11日，《廣州市交通運輸局廣州市公安局廣州市城市管理和綜合執法局關于印發廣州市中山大道快速公交系統管理辦法的通知》發布，《廣州市中山大道快速公交系統管理辦法》已正式印發。這是于2010年發布實施後的第三次修訂。本次修訂增加了快速公交設備設施... 2023-02-17
科技十代i5和mx250怎麼樣
我叫耿小白，是一個不折不扣的電腦小白。剛上大學的我，表示需要人生中的第一台筆記本電腦。我在網上參考了很多琳琅滿目的筆記本，還是沒能找到最心儀的那一款。直到有一天，我的女神出現，看到她正在使用的這台高顔值筆記本，我心裡便暗自發誓，我也要擁有和... 2023-02-09
科技鴻蒙系統蘋果界面的手機
自從華為在去年6月份正式發布鴻蒙HarmonyOS2.0之後，争議聲就從未停止過：“鴻蒙不就是套殼安卓，換層主題皮膚嘛～”至于鴻蒙是不是套殼安卓，大過年的果子不與大家争讨了。而且果子之前就寫過類似的分析文章，想研究的小夥伴可以移步到這裡：鴻... 2022-12-05
科技蘋果耳機airpodspro為什麼有...
9月23日消息，此前蘋果正式推出iOS13正式版，随後果粉們升級更新之後發現，山寨版的AirPods出現了無法連接的情況，并且也無法查看電量。有網友表示出現這樣的情況原因可能是蘋果在iOS13中更改了耳機代碼，山寨版就此涼涼。蘋果的AirP... 2023-03-23
科技有獨立緩存固态硬盤有什麼區别
在讨論固态硬盤時經常會聽到"無緩存方案"一詞，缺少了DRAM緩存的固态硬盤還能正常工作嗎？會不會因為少了緩存而短命？所有硬盤都有緩存：顧名思義，緩存是用來暫存數據的。不過機械硬盤和固态硬盤的緩存作用略有差異，後者當中的緩存除了緩沖用戶讀寫的... 2022-11-07
科技安卓手機格式化的方法
安卓手機格式化的方法?治标不治本格式化隻是清理了數據和冗餘的存儲，再使用一段時間還是會卡刷機相對來說效果更好，但是還是系統升級和換新機更靠譜，下面我們就來聊聊關于安卓手機格式化的方法?接下來我們就一起去了解一下吧!安卓手機格式化的方法治标不... 2022-10-08
科技蘋果手機拍月亮怎麼拍
蘋果手機拍月亮怎麼拍?首先打開手機相機，将相機對準月亮，将月亮放置與屏幕中合适位置，下面我們就來說一說關于蘋果手機拍月亮怎麼拍?我們一起去了解并探讨一下這個問題吧!蘋果手機拍月亮怎麼拍首先打開手機相機，将相機對準月亮，将月亮放置與屏幕中合适... 2022-06-17
科技便宜又好用的護發精油
Hello,大家好，我是Kelly這一期會為大家測評7款正當紅的“網紅護發精油”。究竟哪些産品值得買呢，請往下看文章吧。施華蔻(全名:SCHWARZKOPFExtraCare6MiraclesOilEssence)質地偏濃稠，氣味很特别，有... 2022-11-14
科技勵志茂名16歲男生用獎狀裝飾兩層毛坯...
勵志茂名16歲男生用獎狀裝飾兩層毛坯房?6月11日至12日廣東公益恤孤助學促進會組織113名志願者，今天小編就來聊一聊關于勵志茂名16歲男生用獎狀裝飾兩層毛坯房?接下來我們就一起去研究一下吧!勵志茂名16歲男生用獎狀裝飾兩層毛坯房6月11日... 2022-10-17
科技電腦響一段時間後進系統
電腦響一段時間後進系統?這個聲音是計算機通過自檢進入加載操作系統的提示如果你要進安全模式就要在這個聲音響時按F8鍵，下面我們就來聊聊關于電腦響一段時間後進系統?接下來我們就一起去了解一下吧!電腦響一段時間後進系統這個聲音是計算機通過自檢進入... 2022-06-18
科技蘋果電腦開不了機是怎麼回事
蘋果電腦開不了機是怎麼回事?可能是軟件沖突安裝的軟件與電腦的系統不相符也可能會造成電腦開機不了的情況，現在小編就來說說關于蘋果電腦開不了機是怎麼回事?下面内容希望能幫助到你，我們來一起看看吧!蘋果電腦開不了機是怎麼回事可能是軟件沖突安裝的軟... 2022-06-19
科技記憶芯片設計
記憶芯片設計?21世紀經濟報道見習記者董靜怡上海報道，現在小編就來說說關于記憶芯片設計?下面内容希望能幫助到你，我們來一起看看吧!記憶芯片設計21世紀經濟報道見習記者董靜怡上海報道圖是事物及其關系的抽象表達。在以圖數據成為生産要素的數字經濟... 2022-11-28

tft每日頭條

> 科技

> 數據清洗需要掌握什麼知識

數據清洗需要掌握什麼知識

相关科技资讯推荐

热门科技资讯推荐

网友关注