java实现精准的提取到pdf文件里面的表格

Java实现提取PDF文件中的表格可以使用Apache PDFBox和Tabula两个开源库。 1. Apache PDFBox Apache PDFBox是一个开源的Java库，它允许您创建新的PDF文档、修改已有的PDF文件以及从PDF文件中提取文本和图像等内容。下面是使用Apache PDFBox提取PDF文件中的表格的示例代码： ```java import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDPage; import org.apache.pdfbox.text.PDFTextStripperByArea; import org.apache.pdfbox.text.PDFTextStripper; import org.apache.pdfbox.text.TextPosition; import java.awt.Rectangle; import java.io.IOException; import java.util.ArrayList; import java.util.List; public class PDFTableExtractor { public static void main(String[] args) throws IOException { PDDocument document = PDDocument.load(new File("input.pdf")); PDFTextStripperByArea stripper = new PDFTextStripperByArea(); stripper.setSortByPosition(true); PDFTextStripper pdfStripper = new PDFTextStripper() { @Override protected void writeString(String text, List<TextPosition> textPositions) throws IOException { // do nothing } }; List<PDPage> pages = document.getDocumentCatalog().getAllPages(); for (int i = 0; i < pages.size(); i++) { PDPage page = pages.get(i); pdfStripper.setStartPage(i + 1); pdfStripper.setEndPage(i + 1); String text = pdfStripper.getText(document); Rectangle rect = new Rectangle(0, 0, (int) page.getMediaBox().getWidth(), (int) page.getMediaBox().getHeight()); stripper.addRegion(Integer.toString(i), rect); stripper.extractRegions(page); List<List<String>> table = new ArrayList<>(); for (int j = 0; j < stripper.getRegions().size(); j++) { String region = stripper.getRegions().get(j); String[] lines = stripper.getTextForRegion(region).split("\n"); List<String> row = new ArrayList<>(); for (String line : lines) { row.add(line.trim()); } table.add(row); } System.out.println(table); } document.close(); } } ``` 上面的示例代码使用PDFTextStripperByArea类从PDF文件中提取文本，然后使用PDFTextStripper类来过滤掉所有的文本，只提取表格。接下来，我们使用PDFTextStripperByArea类来提取表格，并将其转换为一个二维列表。 2. Tabula Tabula是一个基于Java的开源工具，可以将PDF文件中的表格提取出来，并将其转换为CSV格式或者JSON格式。下面是使用Tabula提取PDF文件中的表格的示例代码： ```java import technology.tabula.*; import java.io.IOException; import java.util.List; public class PDFTableExtractor { public static void main(String[] args) throws IOException { String filePath = "input.pdf"; PDDocument document = PDDocument.load(new File(filePath)); PDFTableExtractor extractor = new PDFTableExtractor(); List<Table> tables = extractor.extract(document); for (Table table : tables) { System.out.println(table.getRows()); } document.close(); } private List<Table> extract(PDDocument document) throws IOException { TableExtractor extractor = new TableExtractor(); List<Table> tables = extractor.extract(document); return tables; } } ``` 上面的示例代码使用TableExtractor类从PDF文件中提取表格，并将其转换为一个Table对象。Table对象包含了表格的行和列信息，我们可以使用Table对象来获取表格的内容。

阅读全文

java实现精准的提取到pdf文件里面的表格

相关推荐

tabula-java:从PDF文件中提取表格

可以提取PDF中表格软件

pdf 表格提取

lucene word ppt excel pdf全文检索

Spire.Pdf_5.1.0.zip

挖掘医疗信息金矿：DCM文件元数据提取与分析指南

Java后台数据统计与分析

【PDF格式化大师】：Apache POI转换过程中PDF优化技巧

在微信小程序企业版中实现不同场景的数据分析与处理(PHP)

【IT优化的生产流程】：从设计到生产中的花键制造革新

【大数据技术应用】：从0到1的全过程策略指导与案例分析

java生成pdf文件包含表格

postgresql-16.6.tar.gz

机械设计传感器真空灌胶机_step非常好的设计图纸100%好用.zip

HRNet的onnx格式转rknn格式的工程

【岗位说明】物资设备部部门职责.doc

山东大学软件学院编译原理学习笔记

各大交易所的行情数据收集服务 .zip

unidac-10.3.0-src.zip

记录本人整理的一些数据集.zip

大家在看

基于python+opencv实现柚子缺陷识别检测源码+详细代码注释.zip

(信息图)eAPP610 快速入门(3GPP)(V100R005C10-01).zip

C语言第四次作业ppt课件.ppt

C4.5算法在列车轨道故障检测上的应用研究

基于机器视觉的工件识别和定位文献综述.docx

最新推荐

java根据富文本生成pdf文件过程解析

Java使用itext5实现PDF表格文档导出

java实现PPT转化为PDF

java使用PDFRenderer实现预览PDF功能

java实现上传文件到oss(阿里云)功能示例

GitHub Classroom 创建的C语言双链表实验项目解析

管理建模和仿真的文件

【三态RS锁存器CD4043的秘密】：从入门到精通的电路设计指南（附实际应用案例）

霍夫曼四元编码matlab

MATLAB在AWS上的自动化部署与运行指南