tft每日頭條

 > 生活

 > pdf中的内容提取

pdf中的内容提取

生活 更新时间:2024-12-05 00:37:47

之前發布過,但重要的圖片沒有顯示出來,所以重新發布一次。

正文來了:

最近幫老同學處理一個差不多200頁的pdf文件提取文字的處理,經過一番處理後發現都存在一些自己不滿意的地方。

老同學有完成時間的要求,所以選擇了一個相對安全的操作:【pdf文件按頁轉換為圖片格式】- 【再利用WX的文字提取功能】-【逐個圖片提取文字後複制粘貼到一個txt或doc文件中】 。因為需要截圖 - 傳圖到手機 - 微信文字提出 - 複制文字 - 發回電腦端 -粘貼到文件,整個操作流程重複、費勁,傷眼、傷腰、傷精力....最終花了半個工作日才搞掂,後續的格式問題交回老同學再二次加工了。

此後産生了一個想法:利用python的技術進行自動處理。思路:PDF文件按頁批量轉換生成圖片格式,每個圖片通過OCR實現文字提取,所有提取的文字寫入一個txt文件裡面。全稱自動化,無需手工切入,想想都覺得好有滿足感。于是網上查閱了資料,也花費了一些閑餘時間,終于大功告成!

先來看看PDF原文件和運行代碼後的文字提取結果,來個直觀對比吧

pdf中的内容提取(PDF文字提取)1

PDF原文件

pdf中的内容提取(PDF文字提取)2

文字提取後輸出到txt文件裡面

下面是python兩個重要過程的代碼截圖,分别是pdf文件按頁切割為png圖片,另一個是OCR識别文字提取

pdf中的内容提取(PDF文字提取)3

PDF按頁轉換生成圖片文件

pdf中的内容提取(PDF文字提取)4

OCR文字提取

本案例四頁PDF的文字提取速度非常快,從代碼捕獲的時間顯示用時全程大概10秒。無論效率和文字提取都比較滿意,但也存在不足,遇到PDF裡面有圖片的識别不出來的。

pdf中的内容提取(PDF文字提取)5

四頁PDF轉換大概用時10秒

本次分享到此結束,希望大家有所收獲吧!

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved