tft每日頭條

 > 科技

 > python簡單實用腳本

python簡單實用腳本

科技 更新时间:2025-01-26 05:12:30

python簡單實用腳本(用于清理數據的)1

通常情況下,在機器學習中的數據清理往往是一件令人頭疼的事情,本文整理了一份清單,列出了5個常用的Python腳本,用于自動化數據清理。

将 PDF 轉換為 CSV

在機器學習中,我們應該少一些“數據清理”,多一些“數據準備”。當我們需要從白皮書、電子書或其他PDF文檔中抓取數據時,這個腳本為我節省了很多時間。

import tabula #獲取文件 pdf_filename = input ("Enter the full path and filename: ") # 提取PDF的内容 frame = tabula.read_pdf(pdf_filename, encoding = 'utf-8', pages='all') #根據内容創建CSV文件 frame.to_csv('pdf_conversion.csv')

這是一種相對簡單的快速提取數據的方法,可以在将數據導入機器學習數據庫、Tableau或Count等工具。

合并 CSV 文件

許多系統會提供導出到CSV選項,但是沒有辦法在導出數據之前首先合并數據。這可能導緻5個以上的文件導出到一個文件夾,這些文件包含相同的數據類型。該Python腳本通過獲取這些文件)并将它們合并到一個文件中來解決這個問題。

from time import strftime import pandas as pd import glob # 定義包含CSV文件的文件夾的路徑 path = input('Please enter the full folder path: ') #确保後面有一個斜杠 if path[:-1] != "/": path = path "/" #以列表形式獲取CSV文件 csv_files = glob.glob(path '*.csv') #打開每個CSV文件并合并為一個文件 merged_file = pd.concat( [ pd.read_csv(c) for c in csv_files ] ) #創建新文件 merged_file.to_csv(path 'merged_{}.csv'.format(strftime("%m-%d-%yT%H:%M:%S")), index=False) print('merge complete.')

最終輸出将為您提供一個 CSV 文件,其中包含您從源系統導出的 CSV 列表中的所有數據。

從 CSV 文件中删除重複的行

如果您需要從CSV文件中删除重複的數據行,這可以幫助您快速執行清理操作。當機器學習數據集中擁有重複數據時,這會直接影響可視化工具或機器學習項目中的結果。

import pandas as pd # 獲取文件名 filename = input('filename: ') #定義要檢查是否重複的CSV列名 duplicate_header = input('header name: ') #獲取文件的内容 file_contents = pd.read_csv(filename) # 删除重複的行 deduplicated_data = file_contents.drop_duplicates(subset=[duplicate_header], keep="last", inplace=True) #創建新文件 deduplicated_data.to_csv('deduplicated_data.csv')

拆分 CSV 列

當從其他系統導出文件時,它有時會包含一列數據,而我們需要将其作為兩列。

import pandas as pd #獲取文件名并定義列 filename = input('filename: ') col_to_split = input('column name: ') col_name_one = input('first new column: ') col_name_two = input('second new column: ') #将CSV數據添加到dataframe中 df = pd.read_csv(filename) # 拆分列 df[[col_name_one,col_name_two]] = df[col_to_split].str.split(",", expand=True) #創建新csv文件 df.to_csv('split_data.csv')

合并不同的數據集

假設您有一個帳戶列表和與其關聯的訂單,并希望查看訂單曆史以及關聯的帳戶詳細信息。一個很好的方法就是通過合并數據到一個CSV文件。

import pandas as pd #獲取文件名并定義用戶輸入 left_filename = input('LEFT filename: ') right_filename = input('RIGHT filename: ') join_type = input('join type (outer, inner, left, right): ') join_column_name = input('column name(i.e. Account_ID): ') #讀取文件到dataframes df_left = pd.read_csv(left_filename) df_right = pd.read_csv(right_filename) #加入dataframes joined_data = pd.merge(left = df_left, right = df_right, how = join_type, on = join_column_name) #創建新的csv文件 joined_data.to_csv('joined_data.csv')

最後

這些腳本可以有效幫助我們進行自動化清理數據,然後可以将清理後的數據加載到機器學習模型中進行處理。Pandas是操作數據的首選庫,因為它提供了許多的選項。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved