怎樣提取pdf表格的内容-tft每日頭條

怎樣提取pdf表格的内容

科技更新时间:2025-07-15 09:54:25

怎樣提取pdf表格的内容?pdf文件内容格式比較特殊，目前根據實際觀察發現pdf内容隻是把源目标文件，一行一行讀到pdf中，通過定位方式實現同版面展示，所以表格在pdf中表現形式比較特殊，接下來我們就來聊聊關于怎樣提取pdf表格的内容?以下内容大家不妨參考一二希望能幫到您!

怎樣提取pdf表格的内容

pdf文件内容格式比較特殊，目前根據實際觀察發現pdf内容隻是把源目标文件，一行一行讀到pdf中，通過定位方式實現同版面展示，所以表格在pdf中表現形式比較特殊。

實現思路：

通過pdf内容識别，找到表格所屬的頁（隻是提高一些速度，減少其他内容），然後将表格所在的頁面截取到新的pdf文件中,然後将新生成的pdf轉換為html文件，通過算法重新組裝表格，此方法可識别空白列以及一個表格中存在多行數據的情況

用的技術框架：

jsoup，itextpdf，pdfbox

/** * 讀取pdf文件轉為list集合 * @param pdfPath * @return */ public static List<List<String>> getDataFromPdf(String pdfPath){ List<List<String>> datas=new ArrayList<>(); String newPdfPath=pdfPath.replace(".pdf","_01.pdf"); String htmlPath=pdfPath.replace(".pdf","_01.html"); //确認附件表格所在的頁面，返回頁碼 int[] pageNums=readPdf(pdfPath); //讀取存在表格附件的頁面 partitionPdfFile(pdfPath,newPdfPath,pageNums[0],pageNums[1]); byte[] bytes = getBytes(newPdfPath); try (BufferedWriter out = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File(htmlPath)),"UTF-8"));){ //加載PDF文檔 PDDocument document = PDDocument.load(bytes); PDFDomTree pdfDomTree = new PDFDomTree(); pdfDomTree.writeText(document,out); datas=ParseHtml(htmlPath); } catch (Exception e) { e.printStackTrace(); }finally { //删除緩存文件 File pdf_01=new File(newPdfPath); if(pdf_01.exists()){ pdf_01.delete(); } File html_01=new File(htmlPath); if(html_01.exists()){ html_01.delete(); } } return datas; } /*** * 讀取pdf 确定内容所在頁 * @param pdfPath */ private static int[] readPdf(String pdfPath){ int[] pageNums=new int[2]; try { PdfReader reader = new PdfReader(pdfPath); int pageNum = reader.getNumberOfPages(); boolean isGo=false; for(int i=1;i<=pageNum;i ){ String pageContent = PdfTextExtractor.getTextFromPage(reader, i);//讀取第i頁的文檔内容 if((pageContent.trim().length()>0&&pageContent.startsWith("附件"))){ pageNums[0]=i; isGo=true; } if(isGo&&pageContent.trim().length()<50){ pageNums[1]=i-1; //break; } } } catch (Exception e) { e.printStackTrace(); }finally{ } return pageNums; }

/** * pdf 轉換為html * @param html * @return * @throws IOException */ private static List<List<String>> ParseHtml(String html) throws IOException { org.jsoup.nodes.Document document = Jsoup.parse(new File(html), "utf-8"); Elements postItems = document.select("div.page"); //循環處理每頁 List<List<String>> datas=new ArrayList<>(); for (int i=0;i<postItems.size()-1;i ) { //border-bottom Elements table_row= postItems.get(i).select("[style*=border-bottom:]"); if(table_row.size()==0) continue; //輸出表格第一行 String css=table_row.first().attr("style"); String width=(process(css,"width")); //獲取除标題部分内容區域 table_row=postItems.get(i).select(String.format("[style*=border-bottom:][style*=width:%s]",width)); Elements table_col= postItems.get(i).select("[style*=border-right:]"); for (int iw=(i==0?1:0);iw<table_row.size()-1;iw ) { datas.add(getRow(postItems.get(i), table_row, table_col, iw)); } } return datas; } /** * 讀取pdf指定頁内容 * @param pdfFile * @param newFile * @param from * @param end */ private static void partitionPdfFile(String pdfFile,String newFile, int from, int end) { Document document = null; Pdfcopy copy = null; try { PdfReader reader = new PdfReader(pdfFile); int n = reader.getNumberOfPages(); if (end == 0) { end = n; } document = new Document(reader.getPageSize(1)); copy = new PdfCopy(document, new FileOutputStream(newFile)); document.open(); for (int j = from; j <= end; j ) { document.newPage(); PdfImportedPage page = copy.getImportedPage(reader, j); copy.addPage(page); } document.close(); } catch (Exception e) { e.printStackTrace(); } } /* 将文件轉換為byte數組 */ private static byte[] getBytes(String filePath){ byte[] buffer = null; try { File file = new File(filePath); FileInputStream fis = new FileInputStream(file); ByteArrayOutputStream bos = new ByteArrayOutputStream(1000); byte[] b = new byte[1000]; int n; while ((n = fis.read(b)) != -1) { bos.write(b, 0, n); } fis.close(); bos.close(); buffer = bos.toByteArray(); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } return buffer; }

下面是html的解析方式，通過邊框定位，找到每一行每一列所處的位置一級在該位置所屬的元素。

/** * 從第二行開始（去除标題行） * @param postItem * @param table_col * @param index * @return */ private static List<String> getRow(Element postItem,Elements postItems,Elements table_col,int index) { String top = (process(postItems.get(index).attr("style"), "top")); String bottom = (process(postItems.get(index 1).attr("style"), "top")); Elements tables = postItem.select("[style*=top:]"); List<String> data = new ArrayList<>(); double dbottom = Double.parseDouble(bottom); double dtop = Double.parseDouble(top); boolean isGo = false; for (int iiy = 0; iiy < table_col.size() - 1; iiy ) { StringBuilder sbs = new StringBuilder(); for (Element spostItem : tables) { String top2 = (process(spostItem.attr("style"), "top")); double top2s = Double.parseDouble(top2); if (top2s > dtop && top2s < dbottom) { String left2 = (process(spostItem.attr("style"), "left")); double[] cols = getRowCol(table_col, iiy); double left2s = Double.parseDouble(left2); if (left2s > cols[0] && left2s < cols[1]) { sbs.append(spostItem.text()); } } } if(sbs.length()==0) { data.add("-"); }else{ data.add(sbs.toString()); } } return data; } /** * 定位列的位置 * @param table_col * @param index * @return */ private static double[] getRowCol(Elements table_col,int index){ StringBuilder sbd=new StringBuilder(); String left=(process(table_col.get(index).attr("style"),"left")); String right=(process(table_col.get(index 1).attr("style"),"left")); return new double[]{Double.parseDouble(left),Double.parseDouble(right)}; } /** * 讀取html中樣式的指定屬性 * @param style * @param extract * @return */ private static String process(String style,String extract) { if (style.contains(extract)) { style = style.substring(style.indexOf(extract ":")); style = style.substring(0, style.indexOf(";")); String attr = style.substring(style.indexOf(":") 1); return (attr.substring(0,attr.length()-2)); } return null; }

pom配置

<dependency> <groupId>com.itextpdf</groupId> <artifactId>itextpdf</artifactId> <version>5.5.13</version> </dependency> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.12.1</version> </dependency> <dependency> <groupId>commons-io</groupId> <artifactId>commons-io</artifactId> <version>2.5</version> </dependency> <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>fontbox</artifactId> <version>2.0.0</version> </dependency> <dependency> <groupId>com.itextpdf.tool</groupId> <artifactId>xmlworker</artifactId> <version>5.5.11</version> </dependency> <dependency> <groupId>org.apache.poi</groupId> <artifactId>ooxml-schemas</artifactId> <version>1.1</version> </dependency>

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技羊駝養殖技術是什麼
1、選種育種。母羊駝的繁殖能力較一般動物相比，能力較低。母羊駝可以持續生育16年，每一段懷孕期約為11個月，每胎卻僅可生産一隻小羊駝，其在懷孕初期很容易流産。母羊駝的配種期也較早，基本一歲左右就可以進行配種了。一般由人工完成交配，當母羊駝呈現卧姿時，表明它已經在等待交配。但引人關注的是，母羊駝在懷孕... 2023-07-12
科技 cdr對齊工具欄怎麼調出來
演示機型：華為MateBookX系統版本：win10APP版本：CorelDraw20201、打開CDR，鼠标放在菜單欄的空白處，單擊鼠标右鍵；2、在彈出的菜單中，選擇“工具箱”；3、鼠标點擊工具箱，勾選後，工具欄旁會顯示一個綠色的小對勾；4、回到頁面查看，左側的工具欄已經出來了。CorelDRAW是加拿大Corel公司于1989年推出的一款矢量圖型編輯軟件。該軟件包含兩個 2023-07-12
科技長城c30原車電瓶能用幾年
1、長城c30原車電瓶一般能用3到4年時間。2、要是車主在駕駛長城c30的時候可以好好保養的話，那麼長城c30原車電瓶就可以使用5年以上。3、反之，要是車主在駕駛長城c30的時候不保養，那麼長城c30原車電瓶使用壽命可能隻有2到3年時間。 2023-07-12
科技 qqpctray.exe是什麼東西
演示機型：華為MateBookX系統版本：win10APP版本：qq電腦管家13.10qqpctray.exe是騰訊公司推出的qq電腦管理程序軟件。該程具有對用戶的系統進行安全檢測、修複漏洞及木馬查殺等功能。一般運行了該程序會在任務管理器上的進程上發現qqpctray.exe進程文件。qqpctray.exe進程可以結束嗎：對于qqpctray.exe進程，最好不要去關閉它，一般該進程也不會占用電 2023-07-12
科技如何更換汽車輪胎
1、利用千斤頂将汽車需要換台的一面頂起，确保後續的順利工作進行。值得一提的是，在使用千斤頂的時候，大家一定要注意頂到汽車的金屬車架部分，否則會導緻模制塑料破裂。2、松螺母，大家都知道大部分的螺紋都是順時針緊，逆時針松，汽車輪胎上面的螺絲也不例外，因此大家記得用扳手逆時針擰松螺絲，取下損壞的輪胎并保存... 2023-07-12
科技分液過程為什麼要放氣
1、溶解在液體中的空氣在振蕩的過程中會從液體中溢出，使分液漏鬥内部壓強增大，影響液體分層效果，要将其及時排出。2、有機物一般都容易揮發，震蕩時放出大量的蒸汽，如不及時放出，有可能會炸裂分裂漏鬥或者使塞子飛出。 2023-07-12
科技蘋果自帶輸入法怎麼手寫
演示機型：Iphone12系統版本：ios141、在手機設置菜單中點擊“通用”。2、進入鍵盤頁面，點擊“鍵盤”。3、點擊“添加新鍵盤”，選擇“中文（簡體）”，勾選“手寫”後點擊“完成”。4、使用時點擊鍵盤左下方地球圖标。5、點擊“簡體手寫”即可。 2023-07-12
科技新手怎麼看車頭正不正
1、看雨刷來判斷車頭正不正沒有問題，通過雨刷與路面标識作為對比，保持固定距離或角度來行駛，如果偏出，那表明車頭不正。除此之外根據每個人的身高差異，車頭其他部位也可以作為參照物，例如車頂角、加強筋。2、初學者開車容易開偏，這是因為缺乏路感和車感，有些人會特别在意車頭位置，而忽略觀察遠方，導緻車頭即使不... 2023-07-12
科技汽車保險怎麼買劃算
1、選擇大公司很重要，費用貴，但車主放心。第三者責任險比較貴保100萬和50萬相差200左右，所在地區較安全可以保個小的或者不保。2、選擇必保的前提是在選可選的，自燃險，玻璃險，涉水險等。3、3年左右的車可以換保險或保險公司，續保不一定最劃算。 2023-07-12
科技轉彎怎麼看車頭距離
1、現在很多新手害怕左轉彎時刮擦到車頭右前角大燈處（或前保險杠最右角），特别是轉到接近45度角附近的時候，大家都知道一旦轉過了45度這個點就安全了，45度是車頭右前角離障礙物最近的時候，也是最容易發生刮擦的危險期。2、現在很多車坐在駕駛室内都看不到車頭的引擎蓋，一般身邊的女司機，在側方位停車的區域，... 2023-07-12
科技 wifi網速慢怎麼辦
1、首先可以先把路由器關了，等大約5分鐘後，重啟啟動路由器再試試。2、如果自己會設置路由器，也可以将路由器恢複出廠設置，重新設置一次，再試試。有時候，路由器運行太久了，内部垃圾太多或發熱比較嚴重，導緻運行出現異常，可以通過重啟或恢複出廠設置解決。3、如果恢複出廠設置，問題依然無法解決，那就要考慮是不是路由器壞了或者寬帶線路、網線那裡有問題。有條件的朋友，可以換個路由器試試。 2023-07-12
科技 2019款經典軒逸好不好
1、内飾設計以及座椅空間方面給人營造出一種很居家的氛圍，讓人很舒服。2、首先我們一上車，看到中控分層就像我們在家裡坐在沙發上，前面是一個書櫃，書櫃上擺着一個大屏，也就是大電視真的很居家，中控大屏屏幕，色彩很鮮豔也很清晰，在娛樂系統也很健全。3、油耗方面，就是按今天的油價92号汽油算六塊九毛八一升，這... 2023-07-12
科技三角梅掉花苞怎麼辦
1、三角梅喜光照，當家居養護環境與之前環境有差異時，比如溫度、光照時長的不同非常容易造成花蕾掉落現象，此時應該有一個服盆期，即适應環境期，當這個時間段過了後，三角梅自然會重新長出新的花蕾再次開花。2、三角梅花苞掉了後不要着急，補充一點磷酸二氫鉀溶液，半個月左右又會再次開花的。3、擺放在家裡通風散光處，不随意挪動位置。4、不要澆水過于頻繁，保持盆土微潤狀态。 2023-07-12
科技 2010福克斯手動挂檔把怎麼換
1、首先将舊的檔杆蓋啟開，弄到上面去，漏出檔杆頭的連杆。2、露出檔杆頭的連杆後發現下面有個卡子，使用尖嘴鉗把卡子弄松。3、使用尖嘴鉗向下用力可以把卡子弄松。4、之後用力向上提拉檔杆球頭。5、球頭被拆下來後露出檔杆操作杆。6、将新的檔杆球頭安裝到操作杆上，并使用十字改錐固定住。7、把檔杆套按在檔杆處，這樣檔杆就更換完畢了。 2023-07-12
科技陸風汽車X7車燈高度怎麼調節
1、進入車内可以在中控台左側看到燈光調節旋鈕。2、打開車燈之後，調節對應的旋鈕檔位即可控制車燈高度。3、0”檔的車燈高度為最高檔位。4、将旋鈕旋轉到2”檔，燈光相對較低。5、如果需要最低的燈光高度，将旋鈕旋轉到3”檔。 2023-07-12
科技美圖t9手機如何強制關機
1、在确保手機卡死時，長按手機電源鍵5秒以上不松手。2、5S過後，美圖t9手機就會被強制關機。3、需要重啟的話，再次長按電源鍵即可。 2023-07-12
科技美團衆包沒單子怎麼回事
1、可能是用戶所在位置附近沒有衆包商家導緻的。2、可能是搶訂單的人太多了，一旦有了衆包訂單，就直接被搶光了，對于沒有搶到的用戶來說，自然是沒有訂單的。3、可能是用戶的等級比較低，又或者說拒單率比較高導緻的。 2023-07-12
科技哈曼卡頓和柏林之聲哪個好
1、柏林之聲公司創立于1978年，并以極快的速度崛起于德國High-End音響工業。現已成為世界上最受推崇的高品質立體音響系統制造廠家之一，所生産的産品包括前級、功率放大器、合并放大器、CD播放機、CD轉盤、D/A解碼器、D/A轉換器、FM調諧器、揚聲器及其它附件等，其産品涵蓋不同的價位。2、哈曼卡頓簡是哈曼國際工業的一個部門，專門生産制造家用與車用音響，創始于1953年，總部位于美國紐約伍德布裡 2023-07-12
科技如何正确駕駛jh6牽引車
1、學習如何啟動半挂牽引車。先轉動一下車鑰匙，這樣做的目的是複位儀表和預熱電熱塞。你可以在駕校裡學習更多的知識2、熟悉半挂牽引車的擋位。駕駛半挂牽引車比駕駛小汽車更需要經常換擋，不同的卡車有不同的擋位，所以要熟練掌握你所駕駛的那一種類型的車的擋位。3、學習如何轉向和停車。駕駛半挂牽引車這樣的龐然大物... 2023-07-12
科技蘋果11nfc怎麼打開
1、iphone11支持nfc功能。一般情況下，要打開特定App才能啟動nfc功能，而iphone1... 2023-07-12
科技新捷達科目二半坡技巧是什麼
1、車擺正，發動機前蓋中間的黑色膠皮對準白線左側用教練的話說就是皮相當于車的右輪，皮子在線上，右輪就在線上)。2、控制好離合，緩慢的往上開。3、當看不到白線的時候，把視線放在方向盤右側突出的那個台子的右角；當與路邊标志杆呈三點一線的時候，停車，此時車的右輪正好壓在白線上面，車頭停在黃線的範圍之内，滿... 2023-07-12
科技汽車暖風工作原理是什麼
1、空氣混合型：這種類型的暖風系統在暖風的氣道中安裝空氣混合調節風門，這個風門可以控制通過加熱器芯的空氣和不通過加熱器芯的空氣的比例，實現溫度的調節，目前絕大多數汽車均采用這種方式。2、水流調節型：這類暖風系統采用前述的水閥調節流經加熱器芯的熱水量，改變加熱器芯本身的溫度，進而調節溫度。3、燃氣取暖... 2023-07-12
科技無照駕駛怎麼處罰
1、行政處罰：按無證駕駛處罰，處200-2000元罰款，可并處拘留。2、刑事處罰：有駕駛證造成主要責任交通事故，要死亡一人或重傷三人以上才構成交通肇事罪；無證駕駛造成主要責任交通事故，重傷一人以上就構成交通肇事罪。相應的肇事逃逸罪也是一樣。3、賠償責任：無證駕駛并不加重賠償責任，但所駕駛機動車的交強... 2023-07-12
科技汽車座椅真皮和皮革的區别是什麼
1、手感上的區别。用手觸摸皮革的表面，若其表面有滑爽、柔軟、豐滿、彈性的感覺，就是皮革，真皮皮鞋一般摸上去有澀感。人造革會比較光滑，而且還容易褪色。2、味道上的區别。用鼻嗅，真皮有皮的氣味，而皮革則會具有較強的塑料氣味。兩者氣味是完全不同的。3、吸水性上的區别。在兩種材質上分别滴一滴水，過幾分鐘後。真皮上面的水滴已經被吸收不見了，用手摸會有粘手的感覺。皮革上面水滴沒有吸收。4、做工上的區别。真皮表 2023-07-12
科技 0ppoR9手機能否用電信卡
1、是可以用的。2、上市日期：2016年03月手機類型：4G手機，3G手機，智能手機，音樂手機，拍照... 2023-07-12
科技走應急車道怎麼處罰
1、從《道路交通安全法》可知，非法走應急車道屬于不在特殊情況占用應急車道，一經被交警現場抓到就會罰款200元并扣6分處理。這是因為應急車道隻準許警車、消防車、救護車等車輛執行緊急任務時通行。2、在未發生緊急情況時，社會車輛違法占用應急車道，無論是停車還是行駛都是違法行為，如果還有其他違法違章行為的處... 2023-07-12
科技做單元表格怎樣把兩個格子合并成一個
1、選中要合并的相鄰2個或多個單元格——鼠标右鍵——設置單元格格式——在“對齊”标簽下勾選中“合并單... 2023-07-12
科技手動擋科目二起步步驟是什麼
1、系上安全帶，調整座椅和後視鏡，檢查檔位杆是否在空擋上。2、點火，左腳踩下離合，挂一擋，右腳刹車同時踩住。3、打開左轉向燈，鳴喇叭，放手刹，左腳離合開始往上擡，感覺到車輛有抖動時停住，同時右腳慢慢松開腳刹。4、車輛開始往前走，此時右腳刹車已經完全放開，而左腳仍然定在半聯動的位置，起步成功。 2023-07-12
科技開車不壓線技巧有哪些
1、如何判斷左輪的位置：駕駛員合适坐姿平視前方，當車道左側分道線與車頭結合點距離左側A柱大約20CM左右時。左側車輪應該已經或即将壓線。2、如何判斷左輪距線60CM：目前城市中的車道寬度在3米左右，所有行車時左右預留60CM左右就比較合适。駕駛員合适坐姿平視前方，地面分道線與車輛左前角重合。并且延伸... 2023-07-12
科技踏闆摩托車要不要換齒輪油
1、踏闆摩托車要換齒輪油。2、如果長時間不更換車輛的行駛阻力就會增加。所以定期的更換齒輪油非常重要。3、新車購買後一般在2000到3000km時候應該第一次換齒輪油，你也可以将這個更換周期提前。第二次更換的時候應該根據第一次更換的公裡數增加3000km，以後每兩萬公裡更換一次就可以。 2023-07-12

tft每日頭條

> 科技

> 怎樣提取pdf表格的内容

怎樣提取pdf表格的内容

怎樣提取pdf表格的内容

相关科技资讯推荐

热门科技资讯推荐

网友关注