pdf中的内容提取-tft每日頭條

pdf中的内容提取

生活更新时间:2026-07-29 19:34:36

之前發布過，但重要的圖片沒有顯示出來，所以重新發布一次。

正文來了：

最近幫老同學處理一個差不多200頁的pdf文件提取文字的處理，經過一番處理後發現都存在一些自己不滿意的地方。

老同學有完成時間的要求，所以選擇了一個相對安全的操作：【pdf文件按頁轉換為圖片格式】- 【再利用WX的文字提取功能】-【逐個圖片提取文字後複制粘貼到一個txt或doc文件中】。因為需要截圖 - 傳圖到手機 - 微信文字提出 - 複制文字 - 發回電腦端 -粘貼到文件，整個操作流程重複、費勁，傷眼、傷腰、傷精力....最終花了半個工作日才搞掂，後續的格式問題交回老同學再二次加工了。

此後産生了一個想法：利用python的技術進行自動處理。思路：PDF文件按頁批量轉換生成圖片格式，每個圖片通過OCR實現文字提取，所有提取的文字寫入一個txt文件裡面。全稱自動化，無需手工切入，想想都覺得好有滿足感。于是網上查閱了資料，也花費了一些閑餘時間，終于大功告成！

先來看看PDF原文件和運行代碼後的文字提取結果，來個直觀對比吧

pdf中的内容提取（PDF文字提取）1

PDF原文件

pdf中的内容提取（PDF文字提取）2

文字提取後輸出到txt文件裡面

下面是python兩個重要過程的代碼截圖，分别是pdf文件按頁切割為png圖片，另一個是OCR識别文字提取

pdf中的内容提取（PDF文字提取）3

PDF按頁轉換生成圖片文件

pdf中的内容提取（PDF文字提取）4

OCR文字提取

本案例四頁PDF的文字提取速度非常快，從代碼捕獲的時間顯示用時全程大概10秒。無論效率和文字提取都比較滿意，但也存在不足，遇到PDF裡面有圖片的識别不出來的。

pdf中的内容提取（PDF文字提取）5

四頁PDF轉換大概用時10秒

本次分享到此結束，希望大家有所收獲吧！

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活真皮沙發龜裂如何修複
1、首先就需要使用皮革專用清潔劑清洗将其沙發清洗幹淨，然後晾幹或者烘幹。2、再使用陰離子皮革補傷膏修... 2023-07-09
生活防震減災口訣
1、發生地震别亂跑，老師指導快卧倒。2、桌椅下面躲藏好，組織撤離傷亡少。3、滞留教室出不去，不哭不鬧... 2023-07-09
生活海鮮能過火車安檢嗎
1、坐火車可以帶海鮮，但是要包裝好。2、火車禁止攜帶物品：（1）國家禁止或限制運輸的物品；（2）法律... 2023-07-09
生活 4月養蜂技巧
1、蜂箱宜放在陰涼處，巢門朝南。夜晚蜜蜂有趨光性，夜晚應放在黑暗處。2、蜜蜂生活要求流動的空氣，箱内... 2023-07-09
生活人類一敗塗地為什麼一直正在連接服務器
1、人類一敗塗地為什麼一直正在連接服務器？很有可能是網絡的原因。2、内網互通是奇遊獨屬的黑科技加速功... 2023-07-09
生活怎樣挑螃蟹
1、一算：農曆九月宜食雌蟹，蟹黃多；農曆十月宜食雄蟹，膏滿肉肥。2、二掂：重的肥壯，輕的肉少。3、三... 2023-07-09
生活日常生活哪些方法防脫發
1、燙發吹風要慎重吹風機吹出的溫度高會破壞毛發組織，損傷頭皮，因此要避免吹熱風。燙發液對頭發的影響較... 2023-07-09
生活手機微信如何交電費
1、微信搜索“城市服務”并點擊進入小程序；2、進入後，往下拉找到便民服務，并點擊“生活繳費”；3、接... 2023-07-09
生活阿膠怎麼吃補血效果好
1、如果你購買的是阿膠糕，就是熬好的，阿膠糕，那種有核桃，有芝麻的，可以直接食用。阿膠糕有很多種口味... 2023-07-09
生活聖誕節禮物
1、手套，通常在北方聖誕是要很配合的下場雪，那時那刻，對方帶着你贈予的手套，心中卻是充滿愛，暖暖的。... 2023-07-09
生活為什麼空調長時間不用出現了e1
1、空調顯示空調故障代碼e1。說明壓縮機電流過大,壓縮機過熱。2、排氣溫度高、模塊保護，應檢查過載保... 2023-07-09
生活翡翠能用火燒嗎
1、不能用火燒。天然a貨翡翠，不能被火或高溫燙燒，不能被硬砸，不能被磕碰。2、佩帶和收藏翡翠的人士應... 2023-07-09
生活 oppo手機錄音在哪裡
下面以通話錄音為例：1、OPPO手機通話錄音使用方法：在通話頁面，點擊【隐藏】（部分版本為【更多】）... 2023-07-09
生活染發操作技巧
1、盡量不使用吹風機。染發後，盡量不使用吹風機。當你洗完頭後，若是使用吹風機，吹風機的風離子越多，溫... 2023-07-09
生活黃冰糖是什麼原料做的
1、黃冰糖、塊冰糖、多晶體冰糖等，是以制糖中間産物糖漿或成品白砂糖為原料，經加水溶解、除雜、清汁、蒸... 2023-07-09
生活分割制衡什麼意思
1、分割制衡，是指在公共政治權力内部或者外部，存在着與權力主體相抗衡的力量，這些力量表現為一定的社會... 2023-07-09
生活如何給小愛同學改名
1、小愛同學無法修改名字。2、小愛同學的喚醒方式有哪些？可以打開小米手機，在系統工具中找到“小愛同學... 2023-07-09
生活葡萄樹怎樣修剪
1、修剪葡萄樹應在落葉後到立春前進行，具體是每年12月中旬到兩年2月初之間。2、應修剪枯枝，病蟲枝，... 2023-07-09
生活魚鴨混養缺點
1、放鴨過多，鴨糞沉積，水色過濃，會造成魚塘缺氧，甚至造成魚種死亡；若放鴨過少，則水色淡，塘内産生的... 2023-07-09
生活重裝系統後軟件如何恢複原狀
1、打開我的電腦，找到軟件安裝的那個盤，打開它。2、找到系統默認的軟件安裝文件夾，一般都是progr... 2023-07-09
生活有效減臀部脂肪方法
1、靠牆靜蹲背靠牆，雙腿張開至雙肩距離，離牆約2尺，彎曲膝蓋讓背部稍微往下滑，保持10秒，再彎曲膝蓋... 2023-07-09
生活秋冬護膚方法
1、正确洗臉，不少美眉喜歡洗臉和卸妝“合二為一”，其實即使是有卸妝功能的清潔産品，也不能有效清除彩妝... 2023-07-09
生活粉底液的簡單制作方法
1、将乳霜或乳液與珍珠粉按照1：1的比例混合調制。（注意:珍珠粉加入乳液時要按照邊攪拌邊添加的方式緩... 2023-07-09
生活真絲衣服污漬怎麼洗滌和保養方法
1、真絲衣服的洗滌和保養：真絲服裝洗滌時，要用專洗絲、毛織物的洗滌液（各超市均有售）。将穿過的衣物放... 2023-07-09
生活寒假作文範文
1、這是一個令人沮喪的寒假。2、放假的前幾個星期，我就開始做打算，我要去哪裡玩，吃什麼喝什麼，想想就... 2023-07-09
生活迎春花有什麼精神品質
1、迎春花的花語是愛情，迎春花是春天的第一枝花，所以迎春花寓意報春。現在很多地方的綠化帶、公園、住宅... 2023-07-09
生活吸引人的家具廣告語
1、小小的舒适，帶你尋找溫馨的家。2、名·品荟萃，家·倍精彩，居·得其所3、名家居，天下知。4、小小... 2023-07-09
生活毛巾的消毒方法
1、工具：肥皂、微波爐、高壓鍋、清洗消毒劑2、蒸煮消毒法，把毛巾先用開水煮沸10分鐘左右，然後再用肥... 2023-07-09
生活為什麼蜂蜜不能用熱水沖
1、蜂蜜中不僅含有大量葡萄糖、蟻酸、蛋白質、維生素和無機鹽，而且還有酶物質，這些酶是有活性的，在高溫... 2023-07-09
生活理石地面鋪設流程
1、首先按設計排版圖利用紅外線經緯儀在地面上進行放線，使縱橫兩條線相互垂直；2、在地面上做好正負零标... 2023-07-09

tft每日頭條

> 生活

> pdf中的内容提取

pdf中的内容提取

相关生活资讯推荐

热门生活资讯推荐

网友关注