python數據清洗删除異常值-tft每日頭條

python數據清洗删除異常值

科技更新时间:2026-08-02 03:15:46

私信我或關注猿來如此呀公衆号，回複：數據學習，免費領取學習資源包

數據分析過程中最頭疼也是工作量最大的部分算是探索和清洗了，探索的目的是了解數據，了解數據背後隐藏的規律，清洗的目的則是為了讓幹淨的數據進入分析或建模的下一個環節。作者将通過三篇文章，詳細講解工作中常規的數據清洗方法， 包括數據類型的轉換，重複數據的處理，缺失值的處理以及異常數據的識别和處理 。這是第一篇文章，主要分享的内容包括，文中涉及到的數據可以至文末查看下載鍊接：

數據類型的轉換

冗餘數據的識别和處理

數據類型的判斷和轉換

如下表所示，為某公司用戶的個人信息和交易數據，涉及的字段為用戶id、性别、年齡、受教育水平、交易金額和交易日期。從表面上看，似乎沒有看出數據背後可能存在的問題，那接下來就将其讀入到Python中，并通過探索的方式發現數據中的問題。

讀取數據，以及查看數據規模、查看數據中各變量的數據類型的代碼如下：

# 導入第三方包 import pandas as pd # 讀入外部數據 data3 = pd.read_excel(io=r'C:UsersAdministratorDesktopdatasdata3.xlsx') # 查看數據的規模 data3.shape out: (3000, 6) # 查看表中各變量的數據類型 # data3.dtypes out:

表中各變量的數據類型如表下表所示：

上述代碼利用shape“方法”返回了數據集的規模，即該數據包含3000行6列；通過dtypes“方法”則返回了數據集中各變量的數據類型——除id變量和age變量為數值型，其餘變量均為字符型。直觀上能夠感受到一點問題，即數據類型不對，例如用戶id應該為字符型，消費金額custom_amt為數值型，訂單日期為日期型。如果發現數據類型不對，如何借助于Python工具實現數據類型的轉換呢？可參照如下代碼的實現。

# 數值型轉字符型 data3['id'] = data3['id'].astype(str) # 字符型轉數值型 data3['custom_amt'] = data3['custom_amt'].str[1:].astype(float) # 字符型轉日期型 data3['order_date'] = pd.to_datetime(data3['order_date'], format = '%Y年%m月%d日') # 重新查看數據集的各變量類型 data3.dtypes out:

這些數據經過處理後，各個字段的數據類型如下表所示：

如上結果所示，三個變量全都轉換成了各自所期望的數據類型。astype“方法”用于數據類型的強制轉換，可選擇的常用轉換類型包括str（表示字符型）、float（表示浮點型）和int（表示整型）。由于消費金額custom_amt變量中的值包含人民币符号“￥”，所以在數據類型轉換之前必須将其删除（通過字符串的切片方法删除，[1:]表示從字符串的第二個元素開始截斷）。對于字符轉日期問題，推薦使用更加靈活的to_datetime函數，因為它在format參數的調節下，可以識别任意格式的字符型日期值。

需要注意的是，Python中的函數有兩種表現形式，一種是常規理解下的函數（語法為func(parameters)，如to_datetime函數），另一種則是“方法”（語法為obj.func(parameters)，如dtypes和astype“方法”）。兩者的區别在于 “方法”是針對特定對象的函數（即該“方法”隻能用在某個固定類型的對象上），而函數并沒有這方面的限制。

基于如上類型的轉換結果，最後浏覽一下數據的展現形式：

# 預覽數據的前5行 data3.head()

冗餘數據的判斷和處理

如上過程是對數據中各變量類型的判斷和轉換，除此還需要監控表中是否存在“髒”數據，如冗餘的重複觀測和缺失值等。可以通過duplicated“方法”進行 “髒”數據的識别和處理。仍然對上邊的data3數據為例進行操作，具體代碼如下所示。

# 判斷數據中是否存在重複觀測 data3.duplicated().any() out: False

如上結果返回的是False，說明該數據集中并不存在重複觀測。假如讀者利用如上的代碼在數據集中發現了重複觀測，可以使用drop_duplicates“方法”将冗餘信息删除。

需要說明的是，在使用duplicated“方法”對數據行作重複性判斷時，會返回一個與原數據行數相同的序列（如果數據行沒有重複，則對應False，否則對應True），為了得到最終的判斷結果，需要再使用any“方法”（即序列中隻要存在一個True，則返回True）。

duplicated“方法”和drop_duplicates“方法”都有一個非常重要的參數，就是subset。默認情況下不設置該參數時，表示對數據的所有列進行重複性判斷；如果需要按指定的變量做數據的重複性判斷時，就可以使用該參數指定具體的變量列表。舉例如下：

# 構造數據 df = pd.DataFrame(dict(name = ['張三','李四','王二','張三','趙五','丁一','王二'], gender = ['男','男','女','男','女','女','男'], age = [29,25,27,29,21,22,27], income = [15600,14000,18500,15600,10500,18000,13000], edu = ['本科','本科','碩士','本科','大專','本科','碩士'])) # 查看數據 df

目測有兩條數據完全一樣，就是用戶張三，如果直接使用drop_duplicates“方法”，而不做任何參數的修改時，将會删除第二次出現的用戶張三。代碼如下：

# 默認情況下，對數據的所有變量進行判斷 df.drop_duplicates()

假設在數據清洗中，用戶的姓名和年齡相同就認為是重複數據，那麼該如何基于這兩個變量進行重複值的删除呢？此時就需要使用subset參數了，代碼如下：

df.drop_duplicates(subset=['name','age'])

需要注意的是，使用drop_duplicates“方法”删除重複數據，并不能直接影響到原始數據，即原始數據中還是存在重複觀測的。如需使drop_duplicates“方法”的删除功能作用在原始數據中，必須将inplace參數設置為True。

來源網絡，侵權删除

私信我或關注猿來如此呀公衆号，回複：數據學習，免費領取學習資源包
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技殺毒軟件常用的技術有哪些
卡巴斯基這款殺毒軟件是俄羅斯出品的，就目前國内免殺的情況來看，卡巴斯基是免殺最主要的針對對象(掃描未知病毒非常厲害)，我們到網上搜索“免殺”，在返回的頁面随處可見形如“某某木馬免殺過卡巴”這樣的教程。從其在免殺教程中出現的頻率就可以看出卡巴... 2022-12-01
科技今年年末什麼手機值得購買
随着假期臨近，很多人都有換機的打算，恰好最近有不少購機活動，筆者從這些産品當中挑選了四款在性能和顔值方面都不錯的産品推薦給大家。OPPOReno8ProOPPOReno8Pro是一款各方面都比較全面的手機，無論是學生用戶更為看重的外觀還是自... 2022-12-15
科技百旺開票用什麼軟件
上海翼伽代理記賬一、航天金稅盤操作1.最新版的開票軟件會自動同步“發票版本”、“離線時長”、“離線金額”等内容，自動同步完成後重啟開票軟件即可正常開票。2.發票票種、小規模納稅人改為一般納稅人等内容發生變更，請進行如下操作：第一步：進入開票... 2023-01-27
科技大紅瓶面霜該怎麼選擇
上次點評完「蘭蔻菁純」和「歐萊雅小蜜罐」，有很多寶寶留言，想看一看「SK-Ⅱ大紅瓶面霜」，也是很經典的面霜之一。那我們就來一個一個地點評，中立測評無廣告，還請收藏、點贊、在看走一波~"成分"SK-Ⅱ大紅瓶面霜成分表「SK-Ⅱ... 2023-01-10
科技 windows系統設置快捷鍵
我們介紹過Mac的鍵盤實用技巧，那Windows的鍵盤又有哪些快捷操作呢？AppSo這篇文章就為你整理了Windows常用的快捷鍵，應屆生用來快捷海投簡曆超級爽！當然，在職人士用上也能大大提高效率。浏覽網頁時，這些快捷鍵十分方便：CtrlT... 2023-02-08
科技三星兩千左右值得入手的5g手機
千元機配置全面升級，标配OLED屏幕、65W快充和骁龍888芯片的手機隻要1500元左右就能買到。不得不說，消費者成為價格戰最大的受益者。最近，三星F52手機也開始降價促銷，優惠後的價格跌破1500元。在很多人看來，三星F系列手機定位中、低... 2022-12-29
科技使用比亞迪DM-i動力系統
[愛卡汽車試駕原創]如今，跨界造車已經不是什麼新鮮事，而創維這個在國内家喻戶曉的知名家電品牌，更是在十幾年前便開始涉足造車領域。雖然前期一直主攻新能源商用車市場，但随着技術的積累，也終于在2021年4月正式向乘用車領域進軍，在推出首款車型創... 2022-10-31
科技王者榮耀更新後高幀卡
玩王者榮耀總有一次兩次因為手機問題氣的想把手機摔了，但是這并不是說你的手機就是渣機，就帶不動，而是騰訊偏心了給好的手機都配上了高幀，而我們的千元機，百元機則沒有。這是百元機的設置畫面可以看出沒有高幀模式隻有高清模式這是開了軟件後的效果，... 2023-02-02
科技為什麼注冊制利空主闆
文章首發同名公衆号：栀的筆記快了！主闆注冊制！随着主闆注冊制的實行！中國資本市場全面注冊制将正式建成，形成以主闆、科創闆、創業闆、北交所上市、新三闆、四闆為上市挂牌矩陣的多層次資本市場體系。主闆注冊制會有哪些調整？我們分析了全網上百萬字信息... 2022-11-08
科技三國志13剛開始玩怎麼玩
前不久，KOEITECMO在《三國志》系列30周年紀念發表會上，正式公布了系列新作《三國志13（RomanceOfThreeKingdom13）》，預計今年12月10日登陸PC、PS4、PS3平台。消息放出，許多玩家激動不已。緊接着，光榮又... 2022-12-13
科技 qq浏覽器推薦内容
最近測評了很多浏覽器,一直在找一款使用方便,廣告少的浏覽器。在綜合比較之後發現,QQ浏覽器可以說是市面上最好用的浏覽器産品之一。尤其是手機QQ浏覽器,沒有廣告界面,簡潔明了便于使用。其實測評浏覽器主要是因為不久前在朋友圈看到了一段視頻,講述... 2022-12-02
科技華為手機的手寫功能在哪裡
用了多年的華為手機，居然發現自己并沒有完全掌握開發者的鍵盤技巧。首先是邊寫邊譯功能打開微信，對話框編寫3句英語短句（以英語為例），讓程序知道你需要翻譯功能，然後長按對話框，這時候就會彈出來功能菜單，找到邊寫邊譯功能，就可以順利使用即時翻譯功... 2023-03-23
科技 diy組裝機誰的好
在這個電子産品飛速跨越式發展的社會，每個家庭都已經應用擁有一台或多台的電腦了。對于還未擁有或準備換新電腦的朋友來說，又一次面臨選擇的時候了。那麼，市場上的電腦種類品牌繁多，我們應當如何選擇适合自己的一台高性價比的電腦呢？家用電腦台式機比例比... 2022-12-10
科技 windows怎麼顯示文件後綴名
當您需要修改文件擴展名，或者需要整理大量文件，通過後綴名來進行分類，卻發現沒有（如下圖所示），這種情況，就是系統給隐藏了，我們隻需要重新勾選即可看到。一起往下看吧。1首先打開此電腦。選擇頁面頂部的查看選項。2再勾選右側的文件擴展名功能即可。... 2023-01-05
科技一次疲勞駕駛四人死亡
一次疲勞駕駛四人死亡?有個成語叫“機不可失”生活中，下面我們就來聊聊關于一次疲勞駕駛四人死亡?接下來我們就一起去了解一下吧!一次疲勞駕駛四人死亡有個成語叫“機不可失”生活中很多人都覺得“手機”不可失近日海甯就有多起因放不下“手機”引發的交通... 2022-10-15
科技筆記本很卡可以升級配置嗎
筆記本很卡可以升級配置嗎?這不是需要升級什麼硬件問題，是電腦用久了，該清理優化了打開機箱除塵，将所有的連接插緊，插牢，下面我們就來說一說關于筆記本很卡可以升級配置嗎?我們一起去了解并探讨一下這個問題吧!筆記本很卡可以升級配置嗎這不是需要升級... 2022-06-19
科技自動删除内存
自動删除内存?首先依次單擊“開始→控制面闆”，打開控制面闆，下面我們就來聊聊關于自動删除内存?接下來我們就一起去了解一下吧!自動删除内存首先依次單擊“開始→控制面闆”，打開控制面闆。然後，依次選擇“管理工具→本地安全策略”，打開“本地安全設... 2022-06-18
科技電子門鈴圖解
你是否有過這樣的經曆？有時一個人在家中，聽到門外有聲音，透過貓眼看門外沒發現異常，過一會又重新出現異常，但因為獨身一人又不敢開門？其實，應對此類情況，其實隻需要安裝一個可視門鈴即可。可視門鈴不僅可洞察門前異常，還可以實時回看視頻畫面，甚至是... 2023-01-05
科技微信不能發大于多少m的文件
經常使用微信聊天，不僅僅是單純的聯絡感情，工作上一些交流也需要使用到微信，其中使用微信發送大文件，尤其是視頻之類的文件，是經常有的事情。但微信發送文件不能大于200M是個難題，很多時候都不知道怎麼辦。這裡就來教大家，大于200M的文件改個後... 2022-11-15
科技加裝固态硬盤重裝系統還是原來的
背景：家裡的一台電腦還是在7.8年前攢（組裝）的，當時配置不是很高，但是也花了大幾千。由于後來買了筆記本，這台電腦就開始進入了吃灰模式，畢竟筆記本相對台式機有一定的便攜性。不過這段時間因為想要搞視頻，這樣對于電腦的各個方面需求開始高起來，衆... 2022-11-18
科技打印機硒鼓怎麼拿出來更換
硒鼓是打印機裡重要的部件，直接影響打印文件的質量。對于安裝，先要抽出硒鼓的密封條再以硒鼓的軸心為軸轉動，使墨粉在硒鼓中分布均勻，這樣可以使打印質量提高。按照打印機上面标示的圖解教程一步步的安裝到位即可。對于硒鼓的保存，要将硒鼓保存在原配的包... 2023-03-20
科技我的世界手機版怎麼才能找到掠奪者隊長
我的世界手機版怎麼才能找到掠奪者隊長?村莊周圍200格内找掠奪者前哨站可以在任何能生成，現在小編就來說說關于我的世界手機版怎麼才能找到掠奪者隊長?下面内容希望能幫助到你，我們來一起看看吧!我的世界手機版怎麼才能找到掠奪者隊長村莊周圍200格... 2022-06-23
科技率先通過技術聯調測試
率先通過技術聯調測試?近日，中信銀行上海分行成功上線中國證券登記結算有限責任公司上海分公司（簡稱“中國結算上海分公司”）新版電子聯行系統，能更好地服務資本市場資金結算業務，提升資金結算效率，适應多層次資本市場發展新需求，接下來我們就來聊聊關... 2023-04-04
科技 65寸電視怎麼安裝第三方軟件
現在的液晶電視機越來越智能化，有很多的軟件都可以在電視上使用，雖然各個品牌的電視機都有自己的應用商店，但是有時候電視機自帶的應用商店裡邊的app軟件，已經無法滿足用戶的需求，想要安裝第三方軟件，但是每個品牌的安裝路徑都不一樣，今天我們就來說... 2022-12-16
科技碳罐産生負壓
碳罐系統工作原理與故障診斷思路碳罐系統起什麼作用呢？壞了有什麼影響呢？1碳罐系統的作用碳罐電磁閥一般裝在汽油箱和發動機之間（圖1）。容易揮發形成燃油蒸汽汽油分子有害物質會污染大氣，從而進行發動機燃燒減少有害物質污染。2碳罐系統壞了對發動機... 2022-12-16
科技 qq幸運字符為啥顯示已經抽了
qq幸運字符為啥顯示已經抽了?最近很多人都在qq聊天，好好友之間獲得了幸福字符而不少人都在問如果與好友不互動的話，字符會掉嗎？一起來看看文中的解答，下面我們就來聊聊關于qq幸運字符為啥顯示已經抽了?接下來我們就一起去了解一下吧!qq幸運字符... 2023-04-01
科技金泫雅金曉鐘公開戀情後首同台
搜狐娛樂訊2月3日，金曉鐘發社交平台發布動态，@泫雅并配字“marryme？”視頻中，兩人無名指上有同款戒指。網友紛紛猜測：“這是要結婚了嗎？”随後，泫雅在社交平台回應：“Yes”，答應了金曉鐘的求婚。據悉，2018年8月2日，金泫雅承認與... 2022-11-20
科技 excel兩列同行數據對比找不同
今天小編跟大家分享一下Excel怎麼忽略位置對比兩列數據是否相同1.打開Excel文件2.點擊下圖選項（Excel工具箱，百度即可了解詳細下載安裝信息，本文這裡就不做詳細解說。）3.依次選擇【随機重複】，【兩區域對比】4.選擇【存在對比】5... 2023-03-22
科技鋁合金窗戶内置百葉窗
MBC《我獨自生活》中,韓國知名高爾夫選手樸世莉公開了自己一個人生活的日常生活。在她展示的的房子中以突出常人住宅的規模,吸引了人們的視線。其中讓人印象深刻的是，樸世莉一睜開眼睛,就打開自動鋁合金百葉窗迎接早晨。當"我獨自生活"... 2023-03-20
科技即時通訊軟件都是什麼協議
随着時代的發展，大多數企業内部都會用到即時通訊軟件進行溝通協作，但許多企業使用的是QQ、微信這類社交即時通訊軟件或者是Saas即時通訊軟件，這些軟件雖然能夠很便捷的進行即時通訊，但由于是雲端部署，時常會發生信息洩露事故，給不少企業帶來損失。... 2022-12-20

tft每日頭條

> 科技

> python數據清洗删除異常值

python數據清洗删除異常值

相关科技资讯推荐

热门科技资讯推荐

网友关注