tft每日頭條

 > 科技

 > python word文檔處理庫

python word文檔處理庫

科技 更新时间:2024-08-09 06:09:21
Python-docx 模塊基礎入門之一 Word文件讀取操作1.打開Word文檔document

讀取存在的文件,要用到docx庫中的Document

document = Document(file_path),file_path表示要打開的Word路徑,沒有參數表示新建文檔。

代碼:

from docx import Document document = Document('test.docx')

python word文檔處理庫(python辦公自動化之Word篇)1

docx打開文件

獲取段落paragraph

一個document文檔包括一個或者多個段落,都在document的paragras屬性中,document.paragraphs返回所有段落對象的列表。

例如paragrahps = document.paragraphs

paragraphs[0] --> 表示第1段對象

paragraphs[1] --> 表示第2段對象

……

len(pargraphs) --> 查看文檔有多少個自然段

代碼:

paragraphs = document.paragraphs # paragraphs表示得到的所有段落列表 type(paragraphs) # 返回列表 p1 = paragraphs[0] # p1表示第一段段落對象 len(paragraphs) # 檢查文檔一共有多少段

python word文檔處理庫(python辦公自動化之Word篇)2

段落對象

獲取段落paragraph文本内容

.text用于獲取文本内容,不僅可以獲取段落對象的,還可以獲取塊對象的文本内容

代碼:以p2第二段對象為例

p2.text

python word文檔處理庫(python辦公自動化之Word篇)3

獲取文字塊run及其文本内容

一個段落有多個文本塊run對象組成,我們可以通過paragraph.runs獲取所有塊對象,然後通過.text獲取其内容,這裡以第4段為例p4 = paragraphs[3]

python word文檔處理庫(python辦公自動化之Word篇)4

代碼:

for run in p4.runs: print(run.text)

python word文檔處理庫(python辦公自動化之Word篇)5

完整遍曆文檔document文本内容

代碼:

for paragraph in document.paragraphs: for run in paragraph.runs: print(run.text)

遍曆文檔document的表格table對象

和openpyxl 操作excel類似,table表格遍曆采取三級循環樣式

A:按照行遍曆

for table in document.tables: for row in table.rows: for cell in row.cells: print(cell.text)

B: 按照列遍曆

for table in document.tables: for column in table.columns: for cell in column.cells: print(cell.text)

概況一下:要獲得文本,都可以使用.text,不管是段落paragraph,還是run,或者是table表格的cell單元格。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved