Python 掃描pdf轉換成word-tft每日頭條

Python 掃描pdf轉換成word

科技更新时间:2026-07-06 02:31:49

Python 掃描pdf轉換成word（付費是不可能的）1

pdf（ Portable Document Format ），中文名稱 便攜文檔格式 是我們經常會接觸到的一種文件格式，文獻、文檔...很多都是PDF格式。它以格式穩定的優勢，使得我們在打印、分享、傳輸過程中能夠最優的保持原有色彩和格式。

這是小編準備的Python基礎學習資料,關注，轉發，私信小編“01”即可免費領取！

Python 掃描pdf轉換成word（付費是不可能的）2

PDF是以PostScript語言圖像模型為基礎的一種文檔格式，它在格式的穩定性方面雖然具有很大優勢。但是，在可編輯性方面卻為使用者引入了另外一個困擾。

Python 掃描pdf轉換成word（付費是不可能的）3

例如，在文檔的分割、合并、剪切、轉換、編輯等方面PDF就有些捉襟見肘了。

Adobe Reader、福昕閱讀器、熊貓PDF...經常用到的PDF工具隻能用于文檔閱讀，但是免費版都不可以用于文檔編輯。雖然，網頁版PDF工具，例如SmallPDF、I love PDF可以用于PDF的編輯，但是對于文檔大小也有限制。

曾經，為了替換PDF中的一頁，我幾乎試遍了所有市面上主流的PDF工具，最終還是不得不選擇使用付費工具來解決問題。

事後想了想，既然這些商業化軟件不靠譜，為什麼不考慮自己動手開發一款工具呢？明明幾十行代碼能夠解決的問題，為什麼要費那麼多勁去下載、安裝那些沒有節操的軟件呢？

本文就來介紹一下利用Python輕松開發一款PDF編輯工具，可以用于PDF轉TxT、分割、合并、剪切、轉換。

PyPDF2

PyPDF2是一個第三方的python PDF庫，它能夠對PDF文件進行分割、合并、裁剪和 轉換頁面 。

另外，它還可以對PDF文件添加自定義數據、水印、密碼，也可以從PDF文件中檢索出文本和元數據。

安裝

使用pip直接安裝：

$ pip install PyPDF2

下面就來演示幾項PDF編輯功能，并且會逐行解釋代碼的含義。

删除PDF頁

先給出實現代碼，

from PyPDF2 import PdfFileWriter, PdfFileReader output = PdfFileWriter() // 1 input1 = PdfFileReader(open("example.pdf", "rb")) // 2 def delete_pdf(index): pages = input1.getNumPages() // 3 for i in range(pages): if i 1 in index: continue output.addPage(input1.getPage(i)) // 4 outputStream = open("PyPDF2-output.pdf", "wb") output.write(outputStream) // 5 delete_pdf([2,3,4])

下面來解釋一下代碼中的幾個關鍵點：

聲明一個用于輸出PDF的實例；
讀取本地PDF文件；
獲取PDF文檔的頁數；
讀取PDF的第 i 頁，添加到輸出 output 實例中；
把編輯後的文檔保存到本地；

合并PDF

已經實現了删除PDF頁，接下來就看一下如何把另外一個PDF中的頁面合并到當前PDF中。

方法1：

可以沿着前面删除PDF頁的方式進行拓展一下，對PDF進行合并。

from PyPDF2 import PdfFileWriter, PdfFileReader output = PdfFileWriter() input1 = PdfFileReader(open("example.pdf", "rb")) input2 = PdfFileReader(open("simple2.pdf", "rb")) // 1 def merge_pdf(add_index, origin_index): pages = input1.getNumPages() k = 0 for i in range(pages): if i 1 in add_index: output.addPage(input2.getPage(origin_index[k])) // 2 pages = 1 k = 1 output.addPage(input1.getPage(i)) outputStream = open("PyPDF2-output.pdf", "wb") output.write(outputStream) merge_pdf([2,3,4], [0, 0, 0])

讀取需要合并的源文件；
遍曆到指定頁，合并源PDF的頁面；

方法2：

除了方法1，還有另外一種方法可以合并PDF：

from PyPDF2 import PdfFileMerger // 1 merger = PdfFileMerger() input1 = open("document1.pdf", "rb") // 2 input2 = open("document2.pdf", "rb") input3 = open("document3.pdf", "rb") merger.append(fileobj = input1, pages = (0,3)) // 3 merger.merge(position = 2, fileobj = input2, pages = (0,1)) // 4 merger.append(input3) // 5 output = open("document-output.pdf", "wb") merger.write(output)

導入PyPDF2合并模塊 PdfFileMerger ;
讀取需要處理和合并的PDF文檔；
從第一個PDF文檔中取出需要合并的前3頁；
把第二個PDF文檔的第一頁插入到文檔中；
把第三個PDF文檔附到輸出文檔末尾；

除了上述介紹的2項主要功能，PyPDF2也有一些其他小功能：

旋轉

input1.getPage(1).rotateClockwise(90)

使得頁面1旋轉90度。

添加水印

page = input1.getPage(3) watermark = PdfFileReader(open("watermark.pdf", "rb")) page.mergePage(watermark.getPage(0))

其中，水印存儲在另外一個PDF文檔 watermark.pdf 中。

加密

password = "secret" output.encrypt(password)

首先給一個 secret 密碼，然後使用 encrypt 對輸出文檔進行加密。

pdfminer

前面介紹的PyPDF2主要擅長于PDF頁面級編輯，而對于文本和源數據級别編輯能力較弱。

所以，這裡就來介紹另外一款Python庫來彌補它的不足。

PDFMiner是一個PDF文檔的文本提取工具，它具有如下特性：

能夠準确獲取文本的位置和布局信息；
可以将PDF轉換為HTML/XML等格式；
可以提取目錄；
可以提取标簽内容；
支持各種字體類型（Type1、TrueType、Type3和CID）;
支持中、日、韓語言和 垂直書寫 文本;

安裝

$ pip install pdfminer

PDF轉TxT

pdfminer在GitHub的托管項目中，在目錄 tools 下給出了一些實用的工具集，例如，PDF轉HTML、PDF轉HTML、PDF轉TXT。我們可以直接通過使用下面命令提出PDF文檔中的文本信息。

$ pdf2txt.py samples/simple1.pdf

總結

通過上述2款Python庫，就可以實現從頁面到文本元數據的編輯，本文隻是簡單的介紹了每項的基本用法。關于詳細的用法和函數列表，可以閱讀官方文檔，或者閱讀GitHub上項目源碼進行了解。此外，可以在這些基本的用法基礎上進行發散思維，發掘更多有價值的應用場景，例如，提出文本數據之後調用翻譯API進行 文獻翻譯 。也可以，對軟件進行封裝，開發成一款通用的PDF編輯工具。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技窄框線如何安裝
窄框線如何安裝?留槽均勻，打膠均勻，無溢膠，無漏膠，對角要細緻仔細，嵌槽深度要一緻，根據設計方案不同，有的表層會突出石膏闆層1-3毫米有的則和石膏闆平嵌槽後，因為膠水凝固需要時間，所以嵌曹後，需要用支杆或膠帶等方，暫時固定防止線條脫落，或下... 2022-06-02
科技用手機pdf怎樣轉換成ppt格式
pdf轉化為ppt格式，要怎樣進行操作？pdf文檔可以兼容文字、表格和圖像等多種媒體格式，也經常以圖文内容為主，想要将圖文pdf轉成ppt格式，又該如何操作呢？今天就交給大家一招，幫你完成格式轉換，在手機上進行操作，pdf文件轉化為ppt的... 2023-01-12
科技關于垃圾字的壁紙
一期垃圾分類手機壁紙，最後為電腦壁紙保護環境，人人有責垃圾分類早晚都會全國普及，先存上, 2023-01-20
科技 wps快速建立多個文件夾
平時我們在使用電腦進行學習或者是工作的時候，一般新建文件夾都是需要我們自己去手動來創建的，而如果此時需要的文件夾并不是一個，而是需要大量的，而且文件夾的名字也必須有，那麼此時我們如果還是一個一個的來進行文件夾的創建的話，那麼此時的工作量就變... 2023-01-01
科技 ansible運維工具
【寫在最前】我們在平時的編程學習中，或多或少，或早或晚，都要接觸到Linux服務器;當你工作中接觸的服務器比較多（或者你緻力于成為一名合格的linux集群運維人員），那麼Ansible就是你必須要掌握的維護工具！本文緻力于成為（或許已經是）... 2023-01-19
科技 10款ui設計
導讀：協同辦公時代，國産設計工具狂奔，不少類似Figma的國産設計工具已經可以滿足設計師需求，像即時設計、MasterGo和Pixso等國内UI設計軟件及時響應了Figma封停風波，上線Figma文件導入功能，努力實現Figma功能的無縫替... 2022-12-10
科技家用懶人拖把哪種好用
拖把種類繁多，現在主流的拖把分類如下圖：當材質與拖把頭形式與脫水方式組合起來之後種類就繁多起來了！但拖把的選擇其實沒有那麼麻煩！哪種最好用，大家都是用腳投票，用的多的，就是好用的。如下圖，平闆拖把現在銷量基本占據了拖把行業的半壁江上！為什麼... 2023-01-07
科技 win10電腦啟動後黑屏隻有鼠标
桌面黑屏隻有鼠标這種問題在Win10中算是比較常見的問題了，但很多人都不知道怎麼解決，這個問題其實很簡單，我們并不需要重裝系統這麼麻煩。系統：win10專業版電腦：惠普KG556PA1、首先按下CtrlAltDel快捷鍵，然後點擊任務管理器... 2022-10-28
科技如何應用office主題字體
IT之家4月28日消息外媒報道，自2007年以來，Calibri一直是微軟Office應用程序中的默認字體。現在，微軟已經決定将默認字體換新。IT之家獲悉，現在，微軟已經委托以下五種原創、定制的字體最終取代Calibri作為Office的默... 2023-01-14
科技 lol季前賽英雄出裝表
前言LOL新賽季已經開始一段時間了，想必大家也都看到了最近職業賽場上的一些強勢玩法，比如說現在版本的中單飛機，這個英雄在這幾個版本以來可以說是大放光彩，基本上每一局比賽都會出場！究其原因，就是這個英雄被大家開發出了最适合版本的玩法！【魔切】... 2023-01-07
科技輪胎模具龍頭上市公司
本報告pdf版獲取方式見文末成立于1995年，主營輪胎模具和大型零部件機械産品的鑄造及精加工。其中輪胎模具産品覆蓋乘用胎模具、載重胎模具、工程胎模具、巨型胎模具等，同時也橫向延伸了用于橡膠硫化和切粒的橡膠機械，大型零部件機械産品則以風電、燃... 2023-01-20
科技懸挑卸料平台尺寸怎麼确定
我們大家都知道卸料平台是施工現場常搭設各種臨時性的操作台，而對于剛剛接觸的用戶來說，如何安裝就成為很多用戶關注的話題之一。對此，玖辰建材在這裡為大家分享懸挑卸料平台的安裝方法及使用注意事項，對于如何安裝卸料平台有很大幫助。懸挑卸料平台展示圖... 2023-02-01
科技 os和ui是同一個系統嗎
如果說現在生活中有什麼是生存所必須的，除了空氣和吃飯，恐怕就剩下手機了。智能手機越來越不可或缺，日常衣食住行吃喝玩樂全依靠着這麼一個小小的東西，它承載着太多。現在智能手機市場兩個最大的陣營是IOS和Android，為我們提供各種服務和重要信... 2022-12-08
科技 dnf劍魂左槽附魔推薦
劍魂在DNF中一直是一個非常熱門的職業，因為其擁有帥氣的技能和身形。經曆過強化改版之後，劍魂也有了一定的提升。今天小編這裡就和大家分享一下劍魂的附魔，給新手和回歸玩家一個參考。一、武器/上衣/下裝不論是物理職業還是魔法職業，最頂級的附魔無疑... 2022-11-28
科技小白如何下象棋
閑時和電腦下象棋，卻總是輸。說實話，電腦靠的是程式化，技術并不高，不像人中的高手，能連看好幾步，但對付我等技術平平的人卻綽綽有餘。連下幾盤後，我看出門道來了，是我失誤太多，但電腦卻從不失誤。有時我竟把車放進對方的馬口，電腦馬上一口吃掉。我開... 2023-01-01
科技山東交通技師學院選拔賽
魯網7月25日訊7月23日下午，機電設備安裝與維修專業國家技能人才培養工學一體化課程标準和課程設置方案專家評審活動在線上順利開展。人社部智能制造與智能裝備類技工教育和職業培訓教學指導委員會秘書長、北京市工業技師學院黨委書記包英華，西安技師學... 2022-12-26
科技當遊戲出現反作弊是什麼情況
讓我們一起營造更好的遊戲環境！北京時間2021年7月15日，《BannerlordOnline》制作組宣布了有關多開遊戲的重要通知，同時發布了“荒蠻之地”版本的熱修補丁。翻譯：Winnie@騎砍中文站◆多開遊戲将會被自動封禁由于近期玩家濫用... 2023-01-09
科技電腦輸入法打不出漢字隻能打字母
電腦輸入法打不出漢字隻能打字母?輸入法沒選好，選擇中文拼音或者中文五筆的輸入法，使用鍵盤左下角的【Shift】+【Ctrl】組合鍵進行輸入法的切換；，現在小編就來說說關于電腦輸入法打不出漢字隻能打字母?下面内容希望能幫助到你，我們來一起看看... 2022-06-09
科技拉卡拉智能pos市場覆蓋率
拉卡拉智能pos市場覆蓋率?國内支付行業領軍企業拉卡拉，攜手全球領先數字支付公司Visa，在國内率先推出符合VisaTaptoPhone收款解決方案規範的手機POS試點，面向出租車司機提供手機端Visa卡收款服務，拓展境外Visa卡在中國的... 2022-12-02
科技有創意的科技公司名字
有創意的科技公司名字?三六科技公司：“三六”可以看成666，這是超火的網絡用語，自帶宣傳效果，也比較符合科技這種日新月異的公司使用而且，其更深一層面的寓意代表着吉祥，66大順等意思另外，借用數字進行簡化取名，叫起來是非常方便的，簡單、易記、... 2022-06-06
科技咋樣删除手機裡的自帶的應用
很多人拿到新手機的時候，都會發現手機上面會自帶一些應用。有些自帶的應用可以删除，有些根本沒有删除選項。為什麼新手機會有自帶這些應用呢？我們就來聊聊手機自帶應用這些事。在開聊之前，首先要知道手機系統這個概念。手機系統那些事手機是有系統的，叫做... 2022-11-14
科技蘋果最高直降5699
9月5日晨，為您推送的科技消息01華為Mate50發布會定檔9月6日14:30華為官宣，華為Mate50系列及全場景新品秋季發布會将于9月6日14:30直播舉行。此次發布會将要發布的産品包括華為Mate50系列手機、AITO問界M5EV汽車... 2022-12-16
科技用話費充值哪個軟件好
用話費充值哪個軟件好?手機号碼輸入框測試1、手機号碼框要控制成隻能輸入11位數字的文本框，下面我們就來說一說關于用話費充值哪個軟件好?我們一起去了解并探讨一下這個問題吧!用話費充值哪個軟件好手機号碼輸入框測試1、手機号碼框要控制成隻能輸入1... 2023-01-09
科技 cass斷面法計算土方量的全步驟
在工程作業中往往會遇到場地平整指定标高的土石方的挖方、填方計算。小編結合cass軟件寫給戰鬥中一線的施工測繪兄弟的計算方法，大咖莫噴。1、收集業主提供的控制點對施工區域的地形進行測繪，測量成果為dat格式格式為：點名，描述，Y坐标，X坐标，... 2022-12-16
科技群星stellaris操作怎麼玩
《群星stellaris》有玩家發現有些科技自己研究不了，其實那是有限定條件的科技，小編帶來相關解析，一起看一下吧。（點擊查看大圖）PSionics分支：1）沒有唯物主義，或者2）科學家有psionic特質。開發出後的後續科技不需要這些條件... 2023-01-08
科技 2022最熱的電腦遊戲
1.《極限競速：地平線4》它是由微軟在2018年10月2日推出的一款，真實賽車類，競速遊戲，它是《極限競速：地平線》系列的第四代作品，遊戲裡的各種場景，物理特效，尤其是車輛建模，顯得格外逼真，如果不知道的以為是電影或現實中的場景，遊戲的操作... 2022-11-24
科技電腦怎麼看淘寶直播
電腦怎麼看淘寶直播?首先打開電腦點擊浏覽器，進入浏覽器搜索頁面再搜索框中輸入“淘寶”跳轉到搜索結果，我來為大家科普一下關于電腦怎麼看淘寶直播?以下内容希望對你有幫助!電腦怎麼看淘寶直播首先打開電腦點擊浏覽器，進入浏覽器搜索頁面再搜索框中輸入... 2022-06-02
科技手機上查社保怎麼查
手機上查社保怎麼查?打開手機上的社保掌上通，等待軟件打開，我來為大家科普一下關于手機上查社保怎麼查?以下内容希望對你有幫助!手機上查社保怎麼查打開手機上的社保掌上通，等待軟件打開。點擊右下方的“我的”，再點擊“我的社保卡”。若沒有添加過社保... 2022-06-25
科技玩lol電腦要什麼配置?
玩lol電腦要什麼配置?CPU：Intel（R）Core（TM）[email protected]，Intel（R）Core（TM）[email protected]，今天小編就來說說關于玩lol電腦要什麼配置?下面更多詳細答案一起來看看吧... 2022-06-20
科技 iphone的喇叭怎麼不響了
首次購買iPhone手機的用戶可能會發現這樣一個問題：iPhone手機的喇叭好像隻有一邊有聲音。這次買到次品機了嗎？為什麼新手機就出現喇叭（揚聲器）故障問題？在大家都質疑為什麼iPhone手機的喇叭隻有左邊有聲音，右邊喇叭/揚聲器沒聲音是不... 2023-01-23

tft每日頭條

> 科技

> Python 掃描pdf轉換成word