python簡單實用腳本-tft每日頭條

python簡單實用腳本

科技更新时间:2026-07-21 22:13:26

python簡單實用腳本（用于清理數據的）1

通常情況下，在機器學習中的數據清理往往是一件令人頭疼的事情，本文整理了一份清單，列出了5個常用的Python腳本，用于自動化數據清理。

将 PDF 轉換為 CSV

在機器學習中，我們應該少一些“數據清理”，多一些“數據準備”。當我們需要從白皮書、電子書或其他PDF文檔中抓取數據時，這個腳本為我節省了很多時間。

import tabula #獲取文件 pdf_filename = input ("Enter the full path and filename: ") # 提取PDF的内容 frame = tabula.read_pdf(pdf_filename, encoding = 'utf-8', pages='all') #根據内容創建CSV文件 frame.to_csv('pdf_conversion.csv')

這是一種相對簡單的快速提取數據的方法，可以在将數據導入機器學習數據庫、Tableau或Count等工具。

合并 CSV 文件

許多系統會提供導出到CSV選項，但是沒有辦法在導出數據之前首先合并數據。這可能導緻5個以上的文件導出到一個文件夾，這些文件包含相同的數據類型。該Python腳本通過獲取這些文件)并将它們合并到一個文件中來解決這個問題。

from time import strftime import pandas as pd import glob # 定義包含CSV文件的文件夾的路徑 path = input('Please enter the full folder path: ') #确保後面有一個斜杠 if path[:-1] != "/": path = path "/" #以列表形式獲取CSV文件 csv_files = glob.glob(path '*.csv') #打開每個CSV文件并合并為一個文件 merged_file = pd.concat( [ pd.read_csv(c) for c in csv_files ] ) #創建新文件 merged_file.to_csv(path 'merged_{}.csv'.format(strftime("%m-%d-%yT%H:%M:%S")), index=False) print('merge complete.')

最終輸出将為您提供一個 CSV 文件，其中包含您從源系統導出的 CSV 列表中的所有數據。

從 CSV 文件中删除重複的行

如果您需要從CSV文件中删除重複的數據行，這可以幫助您快速執行清理操作。當機器學習數據集中擁有重複數據時，這會直接影響可視化工具或機器學習項目中的結果。

import pandas as pd # 獲取文件名 filename = input('filename: ') #定義要檢查是否重複的CSV列名 duplicate_header = input('header name: ') #獲取文件的内容 file_contents = pd.read_csv(filename) # 删除重複的行 deduplicated_data = file_contents.drop_duplicates(subset=[duplicate_header], keep="last", inplace=True) #創建新文件 deduplicated_data.to_csv('deduplicated_data.csv')

拆分 CSV 列

當從其他系統導出文件時，它有時會包含一列數據，而我們需要将其作為兩列。

import pandas as pd #獲取文件名并定義列 filename = input('filename: ') col_to_split = input('column name: ') col_name_one = input('first new column: ') col_name_two = input('second new column: ') #将CSV數據添加到dataframe中 df = pd.read_csv(filename) # 拆分列 df[[col_name_one,col_name_two]] = df[col_to_split].str.split(",", expand=True) #創建新csv文件 df.to_csv('split_data.csv')

合并不同的數據集

假設您有一個帳戶列表和與其關聯的訂單，并希望查看訂單曆史以及關聯的帳戶詳細信息。一個很好的方法就是通過合并數據到一個CSV文件。

import pandas as pd #獲取文件名并定義用戶輸入 left_filename = input('LEFT filename: ') right_filename = input('RIGHT filename: ') join_type = input('join type (outer, inner, left, right): ') join_column_name = input('column name(i.e. Account_ID): ') #讀取文件到dataframes df_left = pd.read_csv(left_filename) df_right = pd.read_csv(right_filename) #加入dataframes joined_data = pd.merge(left = df_left, right = df_right, how = join_type, on = join_column_name) #創建新的csv文件 joined_data.to_csv('joined_data.csv')

最後

這些腳本可以有效幫助我們進行自動化清理數據，然後可以将清理後的數據加載到機器學習模型中進行處理。Pandas是操作數據的首選庫，因為它提供了許多的選項。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技筆記本電腦怎麼看内存
筆記本電腦怎麼看内存?使用快捷鍵win+e打開文件夾窗口，快捷鍵；，下面我們就來說一說關于筆記本電腦怎麼看内存?我們一起去了解并探讨一下這個問題吧!筆記本電腦怎麼看内存使用快捷鍵win+e打開文件夾窗口，快捷鍵；使用快捷鍵後的效果；找到右側... 2022-06-16
科技陳天橋捐贈大腦
腦虎科技在2022年世界人工智能大會上展示其猕猴接入腦機接口的場景（圖片來源：钛媒體App編輯拍攝）钛媒體App9月2日消息，正在舉行的2022世界人工智能大會（WAIC）上，天橋腦科學研究院（TCCI）轉化中心聯合中國科學院上海微系統與信... 2023-03-12
科技古詩送元二使安西朗讀
原文：《送元二使安西》（唐、王維）渭城朝雨浥輕塵，客舍青青柳色新。勸君更盡一杯酒，西出陽關無故人。注釋：1.渭城曲：另題作《送元二使安西》，或名《陽關曲》或《陽關三疊》。2.渭城：在今陝西省西安市西北，即秦代鹹陽古城。3.浥（yì）：濕潤。... 2023-01-09
科技四下數學中三角形的特性筆記
人教版四年級數學下冊第5單元《三角形的穩定性》主要是關于三角形的。特點在實際生活當中的運用，在學習三角形的穩定性時可結合四邊形的容易變形的特點進行比較，這樣更容易去區分和記住這一特點。如果想要更深刻地理解和掌握三角形穩定性，可以從貼近實際生... 2022-09-29
科技假如手機丢失第一件事應該做什麼
假如手機丢失第一件事應該做什麼?昨晚吃過飯後在公園閑逛的時候撿到了一部榮耀60SE的5G手機，失主在丢失到發現耗時2小時30分鐘左右，我是晚上8點鐘撿到的，在原地等了兩個小時，除了接到一個快遞電話，再也沒有接到其他電話在電量不到10%的時候... 2022-09-30
科技來自廣西的小
NO.1許華升團隊，又稱不鏽鋼大隊許華升廣西賀州人，一個自導自演的群衆演員。2011年開始和搭檔黃汝富拍搞笑視頻上傳到各大平台，到目前為止各大平台播放量累計超過10億次。快手粉絲1330多W，平常直播人氣5W左右，抖音900多W。許華升也是... 2022-12-07
科技什麼樣的選擇
電腦上安裝系統和軟件的時候，經常會出現32位系統和64系統的選項，這兩種系統有什麼區别？32位系統能不能安裝64位系統？軟件能不能互通兼容，32位系統卡頓了有沒有什麼解決辦法？下載Windows操作系統，會區分X64和X86版本（一般X86... 2023-01-03
科技新主闆大内存開機慢
找了個筆記本拆下來的熱管散熱，安裝上完美解決，開機43℃，最高不到60℃。顯卡風扇也能給南橋散熱。, 2022-10-22
科技藍屏代碼0x000000a解決方法
藍屏代碼0x000000a解決方法?電腦使用時候免不了不恰當的操作導緻電腦出現各種各樣的故障，比如出現電腦藍屏的情況，估計對于很多用戶來說，變得不知所措了，那麼今天小編帶來的是藍屏代碼0x0000000a的分析以及解決方案，我來為大家科普一... 2022-10-18
科技内存256g性價比高千元手機
内存256g性價比高千元手機?如今不管是工作還是生活，手機都是使用率比較高的數碼産品，最近看到不少朋友留言尋找2000元左右的超值機型，今天就來給大家彙總幾款，别錯過，下面我們就來說一說關于内存256g性價比高千元手機?我們一起去了解并探讨... 2022-10-02
科技買電腦能在哪裡買
買電腦能在哪裡買?最近我身邊有很多人問我該怎麼去買電腦？是自己DIY還是在官方旗艦店買整機？，接下來我們就來聊聊關于買電腦能在哪裡買?以下内容大家不妨參考一二希望能幫到您!買電腦能在哪裡買最近我身邊有很多人問我該怎麼去買電腦？是自己DIY還... 2023-02-04
科技天天炫鬥鍛造什麼比較好
天天炫鬥鍛造系統可以幫助我們打造多樣性的裝備，追求更強力的裝備，同時也是大家提升戰鬥力的重要手段，那麼裝備鍛造有什麼技巧，鍛造材料在哪獲取？帶着問題我們來具體分析一下。天天炫鬥【鍛造】可以在屏幕右邊的變強界面中找到，鍛造分為【烈風鍛造】和【... 2023-03-13
科技松下最新藍光影碟機
全新的超高清藍光播放器，支持HDR10和DolbyVisionTM動态元數據技術最新一代4K處理器，可提供出色的HDR畫質UB9000全新開發的減震底盤帶來無與倫比的出色音質日前，松下自豪地宣布即将推出旗下最新的超高清藍光播放器DP-UB9... 2023-01-11
科技電腦屏幕模糊怎麼辦
電腦屏幕模糊怎麼辦?電腦顯示屏顯示不清，相同的屏幕，自己的顯示屏圖标顯示要更大，還帶有毛邊，這通常是因為沒有把系統分辨率調整至适宜大小，現在小編就來說說關于電腦屏幕模糊怎麼辦?下面内容希望能幫助到你，我們來一起看看吧!電腦屏幕模糊怎麼辦電腦... 2022-07-19
科技不同品牌的手機一鍵換機怎麼換
, 2022-11-24
科技夢幻西遊手遊電腦端如何多開
夢幻手遊電腦版多開步驟：1.在QQ搜索群号115657381，添加吊爆夢幻交流2群，在QQ群文件下載文件，文件名稱是夢幻手遊2D版本.exe，安裝《夢幻西遊》手遊桌面版2.安裝好《夢幻西遊》手遊桌面版後，在QQ群文件下載另外一個文件，文件名... 2022-11-27
科技姓氏頭像怎麼自己制作
無限君：想要做出一款個性，彰顯品位，看一眼就會覺得被人記住的微信頭像，幹嘛不去試試做一款“姓氏透明頭像”呢？什麼你不會？趕快來看看怎麼做吧？讓你的頭像成為你微信盆友中最閃耀的存在。透明姓氏頭像制作教程視頻圖文1.首先啟動"picsArt"2... 2023-01-20
科技筆記本電腦啟動不了怎麼辦
筆記本電腦啟動不了怎麼辦?嘗試在開機的時候按下【F8】，進入高級啟動項，選擇【最後一次正确配置】，嘗試能否正常進入系統；，我來為大家科普一下關于筆記本電腦啟動不了怎麼辦?下面希望有你要的答案，我們一起來看看吧!筆記本電腦啟動不了怎麼辦嘗試在... 2022-07-12
科技神舟遊戲本哪個型号好
對于會過日子的人來說，不買貴的隻買對的一貫是他們堅持的信條，有别于那些可以不考慮性價比一擲千金任性買買買的壕們不同，相信普通消費者在選購筆記本電腦的時候都會“貨比三家”，而對比的地方無外乎外觀和配置。現在年關将至，如果你正準配選購一台筆記本... 2023-02-09
科技安裝油煙機的标準高度
安裝油煙機的标準高度?中式的油煙機高度一般距離台面650毫米至750毫米頂吸式（歐式）的油煙機一般安裝在竈台上方，通過排氣扇把油煙吸走，排煙的效果比較直接有效但并不是距離台面越近越好，一般它的高度距離台面700毫米至750毫米是最合适的，我... 2022-06-11
科技溫州辦公軟件培訓班
溫州辦公軟件培訓班?課程介紹：計算機入門基礎課程鍵盤操作,指法練習；拼音漢字輸入法的學習計算機操作系統基礎，下面我們就來聊聊關于溫州辦公軟件培訓班?接下來我們就一起去了解一下吧!溫州辦公軟件培訓班課程介紹：計算機入門基礎課程鍵盤操作,指法練... 2023-03-13
科技手機充電器頭不充電是什麼原因
很多人都會遇到過這種問題，那就是手機充不進電這到底是怎麼回事呢？有時候隻是以為是自己的充電器壞了或者是直接懷疑充電的接入口有問題，那除了這些以外就沒有什麼别的問題嗎？有肯定是有那到底還有什麼問題呢？我們一起來看看。1、【程序】使用手機過程當... 2023-01-01
科技如何最簡單的摳圖用手機就能完成
在作圖中我們一定會遇到摳圖，說到摳圖大家第一時間想到的是不是PS，雖然說PS摳圖是基礎的，但是操作起來還是比較費時的，特别是剛接觸PS的新手，如果用PS扣一兩張簡單的還行，但是如果摳哪些人像頭發絲的、特别細節的是很難完整的摳出來的。今天小編... 2023-01-01
科技巫師三最高畫質什麼顯卡
本期文章的主角是一部拿獎拿到手軟的遊戲，被譽為開放世界角色扮演遊戲的新标準，它就是——魔法和冷兵器共存的RPG遊戲：《巫師3：狂獵》！作為開放世界主題遊戲的狂熱愛好者，本期内容自然不能錯過~下面就帶大家穿越回巫師3的奇幻宇宙中。《巫師3：狂... 2023-04-03
科技 steam大型遊戲主機配置
前言1981年發售的《巫術（Wizardry-ProvingGroundsoftheMadOverlord）》是回合制遊戲最為可信的起源。而随着它的成功，越來越多的玩家領悟到了其中的魅力。自然也就有越來越多的開發商想要複制這種模式，被稱為“... 2023-03-12
科技我的世界紅石科技隐藏箱
歡迎大家收看新一期的每周方塊系列，在《我的世界》中我們可以找到與現實對應的各種材料，然而其中最神奇的一種方塊并不存在于真實世界，不過這種方塊也并不是胡亂地想象，在科幻電影中已經實現了這樣的科技，它就是紅石。紅石來自地底深處，經常分布于地圖1... 2022-12-12
科技如何使用windowspe安裝系統
聲明：原創圖文，轉載請注明出處，抄襲必究！一、雖然小編為客戶施工時慣用ghost系統和工具，但個人裝機還是推薦使用原版鏡像，畢竟純淨無毒，沒有更改主頁、劫持鍊接等煩惱。原版鏡像可以去“MSDN我告訴你”這個網站下載，這個不是微軟的官網，但确... 2022-12-07
科技戴爾xps9570起售價
上個月，戴爾推出了配置升級的新款XPS15筆記本。今天起，消費者可以正式買到它，且可選4KOLED屏英偉達GTX1650獨顯等配置。處理器方面，新款XPS15提供了英特爾九代酷睿i9-9980HK，顯卡也換掉了上一代的GTX1050Ti。最... 2022-12-23
科技泡泡龍各種版本
又有一款經典遊戲要推出VR版本了。據外媒RoadtoVR報道，基于休閑益智遊戲《泡泡龍》(1994年問世)改編創作的《泡泡龍VR：假期遠行》(PuzzleBobbleVR:VacationOdyssey，暫譯)将于5月20日登陸Ouclus... 2023-02-18
科技 u盤能顯示但讀不出來怎麼修複
玩電腦的，特别是電腦骨灰級玩家基本都會有一個屬于自己的U盤吧！其作用是能夠将你電腦的數據存放到你的U盤内或者将U盤内的數據轉移到電腦，就有了妥妥的安全感，避免重要數據丢失。U盤讀不出來怎麼辦？雖說有了U盤就有了安全感，但是萬一真的讀不出來的... 2022-11-23

tft每日頭條

> 科技

> python簡單實用腳本

python簡單實用腳本

相关科技资讯推荐

热门科技资讯推荐

网友关注