pdf( Portable Document Format ),中文名稱 便攜文檔格式 是我們經常會接觸到的一種文件格式,文獻、文檔...很多都是PDF格式。它以格式穩定的優勢,使得我們在打印、分享、傳輸過程中能夠最優的保持原有色彩和格式。
這是小編準備的Python基礎學習資料,關注,轉發,私信小編“01”即可免費領取!
PDF是以PostScript語言圖像模型為基礎的一種文檔格式,它在格式的穩定性方面雖然具有很大優勢。但是,在可編輯性方面卻為使用者引入了另外一個困擾。
例如,在文檔的分割、合并、剪切、轉換、編輯等方面PDF就有些捉襟見肘了。
Adobe Reader、福昕閱讀器、熊貓PDF...經常用到的PDF工具隻能用于文檔閱讀,但是免費版都不可以用于文檔編輯。雖然,網頁版PDF工具,例如SmallPDF、I love PDF可以用于PDF的編輯,但是對于文檔大小也有限制。
曾經,為了替換PDF中的一頁,我幾乎試遍了所有市面上主流的PDF工具,最終還是不得不選擇使用付費工具來解決問題。
事後想了想,既然這些商業化軟件不靠譜,為什麼不考慮自己動手開發一款工具呢?明明幾十行代碼能夠解決的問題,為什麼要費那麼多勁去下載、安裝那些沒有節操的軟件呢?
本文就來介紹一下利用Python輕松開發一款PDF編輯工具,可以用于PDF轉TxT、分割、合并、剪切、轉換。
PyPDF2是一個第三方的python PDF庫,它能夠對PDF文件進行 分割 、 合并 、 裁剪 和 轉換頁面 。
另外,它還可以對PDF文件添加自定義數據、水印、密碼,也可以從PDF文件中檢索出文本和元數據。
使用pip直接安裝:
$ pip install PyPDF2
下面就來演示幾項PDF編輯功能,并且會逐行解釋代碼的含義。
先給出實現代碼,
from PyPDF2 import PdfFileWriter, PdfFileReader
output = PdfFileWriter() // 1
input1 = PdfFileReader(open("example.pdf", "rb")) // 2
def delete_pdf(index):
pages = input1.getNumPages() // 3
for i in range(pages):
if i 1 in index:
continue
output.addPage(input1.getPage(i)) // 4
outputStream = open("PyPDF2-output.pdf", "wb")
output.write(outputStream) // 5
delete_pdf([2,3,4])
下面來解釋一下代碼中的幾個關鍵點:
已經實現了删除PDF頁,接下來就看一下如何把另外一個PDF中的頁面合并到當前PDF中。
可以沿着前面删除PDF頁的方式進行拓展一下,對PDF進行合并。
from PyPDF2 import PdfFileWriter, PdfFileReader
output = PdfFileWriter()
input1 = PdfFileReader(open("example.pdf", "rb"))
input2 = PdfFileReader(open("simple2.pdf", "rb")) // 1
def merge_pdf(add_index, origin_index):
pages = input1.getNumPages()
k = 0
for i in range(pages):
if i 1 in add_index:
output.addPage(input2.getPage(origin_index[k])) // 2
pages = 1
k = 1
output.addPage(input1.getPage(i))
outputStream = open("PyPDF2-output.pdf", "wb")
output.write(outputStream)
merge_pdf([2,3,4], [0, 0, 0])
除了方法1,還有另外一種方法可以合并PDF:
from PyPDF2 import PdfFileMerger // 1
merger = PdfFileMerger()
input1 = open("document1.pdf", "rb") // 2
input2 = open("document2.pdf", "rb")
input3 = open("document3.pdf", "rb")
merger.append(fileobj = input1, pages = (0,3)) // 3
merger.merge(position = 2, fileobj = input2, pages = (0,1)) // 4
merger.append(input3) // 5
output = open("document-output.pdf", "wb")
merger.write(output)
除了上述介紹的2項主要功能,PyPDF2也有一些其他小功能:
input1.getPage(1).rotateClockwise(90)
使得頁面1旋轉90度。
page = input1.getPage(3)
watermark = PdfFileReader(open("watermark.pdf", "rb"))
page.mergePage(watermark.getPage(0))
其中,水印存儲在另外一個PDF文檔 watermark.pdf 中。
password = "secret"
output.encrypt(password)
首先給一個 secret 密碼,然後使用 encrypt 對輸出文檔進行加密。
前面介紹的PyPDF2主要擅長于PDF頁面級編輯,而對于文本和源數據級别編輯能力較弱。
所以,這裡就來介紹另外一款Python庫來彌補它的不足。
PDFMiner是一個PDF文檔的文本提取工具,它具有如下特性:
$ pip install pdfminer
pdfminer在GitHub的托管項目中,在目錄 tools 下給出了一些實用的工具集,例如,PDF轉HTML、PDF轉HTML、PDF轉TXT。我們可以直接通過使用下面命令提出PDF文檔中的文本信息。
$ pdf2txt.py samples/simple1.pdf
通過上述2款Python庫,就可以實現從頁面到文本元數據的編輯,本文隻是簡單的介紹了每項的基本用法。關于詳細的用法和函數列表,可以閱讀官方文檔,或者閱讀GitHub上項目源碼進行了解。此外,可以在這些基本的用法基礎上進行發散思維,發掘更多有價值的應用場景,例如,提出文本數據之後調用翻譯API進行 文獻翻譯 。也可以,對軟件進行封裝,開發成一款通用的PDF編輯工具。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!