最近在做PDF文件格式解析相關工作,總結留下記錄。
個人比較崇尚喬新亮老師一句話,分享帶來快樂,交流創造價值。
PDF數據存儲格式首先有個對PDF文件格式整體的一個概念,PDF文件格式如下圖所示:
簡單PDF存儲格式
PDF文件版本号隻會占文件頭的第一行;
PDF數據内部包含内容對象、資源對象等,在PDF文件中一般占比最大;
交叉引用表定義對象序号、對象的絕對文件位置、對象狀态(是否被删除);
文件尾标明交叉引用表的絕對位置、文件一些全局屬性、上個交叉引用表位置、根結點、信息節點等信息;
PDF添加内容後存儲格式既然有上個交叉引用表就說明這個結構并不是一成不變的,如果對這個PDF進行一次添加則會變成下圖所示結構。
多次編輯後PDF存儲格式
後續如果多次修改會有很多個PDF數據塊、交叉引用表、文件尾.
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!