java 获取pdf关键字坐标

要获取 PDF 关键字的坐标，可以使用 Apache PDFBox 库。以下是获取 PDF 关键字坐标的示例代码： ```java import java.io.File; import java.io.IOException; import java.util.List; import org.apache.pdfbox.cos.COSArray; import org.apache.pdfbox.cos.COSBase; import org.apache.pdfbox.cos.COSDictionary; import org.apache.pdfbox.cos.COSName; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDPage; import org.apache.pdfbox.pdmodel.interactive.annotation.PDAnnotation; import org.apache.pdfbox.pdmodel.interactive.annotation.PDAnnotationTextMarkup; import org.apache.pdfbox.pdmodel.interactive.annotation.PDAnnotationTextMarkup.MarkupTypeEnum; import org.apache.pdfbox.pdmodel.interactive.annotation.PDAnnotationTextMarkup.QuadPoints; public class PDFKeywordCoordinates { public static void main(String[] args) throws IOException { String filePath = "example.pdf"; String keyword = "example"; PDDocument document = PDDocument.load(new File(filePath)); List<PDPage> pages = document.getDocumentCatalog().getAllPages(); for (PDPage page : pages) { List<PDAnnotation> annotations = page.getAnnotations(); for (PDAnnotation annotation : annotations) { if (annotation instanceof PDAnnotationTextMarkup) { PDAnnotationTextMarkup markup = (PDAnnotationTextMarkup) annotation; if (markup.getMarkupType() == MarkupTypeEnum.HIGHLIGHT) { COSDictionary dict = markup.getCOSObject(); COSArray quadPointsArray = (COSArray) dict.getDictionaryObject(COSName.getPDFName("QuadPoints")); for (int i = 0; i < quadPointsArray.size(); i += 8) { float x1 = quadPointsArray.getFloat(i); float y1 = quadPointsArray.getFloat(i + 1); float x2 = quadPointsArray.getFloat(i + 2); float y2 = quadPointsArray.getFloat(i + 3); float x3 = quadPointsArray.getFloat(i + 4); float y3 = quadPointsArray.getFloat(i + 5); float x4 = quadPointsArray.getFloat(i + 6); float y4 = quadPointsArray.getFloat(i + 7); if (containsKeyword(page, keyword, x1, y1, x2, y2, x3, y3, x4, y4)) { System.out.println("Keyword '" + keyword + "' found on page " + (pages.indexOf(page) + 1) + " at (" + x1 + "," + y1 + ") (" + x2 + "," + y2 + ") (" + x3 + "," + y3 + ") (" + x4 + "," + y4 + ")"); } } } } } } document.close(); } private static boolean containsKeyword(PDPage page, String keyword, float x1, float y1, float x2, float y2, float x3, float y3, float x4, float y4) throws IOException { StringBuilder sb = new StringBuilder(); sb.append("q\n"); sb.append(x1).append(' ').append(y1).append(" m\n"); sb.append(x2).append(' ').append(y2).append(" l\n"); sb.append(x3).append(' ').append(y3).append(" l\n"); sb.append(x4).append(' ').append(y4).append(" l\n"); sb.append("h\n"); sb.append("W* n\n"); sb.append("BT\n"); sb.append("/Helv 12 Tf\n"); sb.append("0 g\n"); sb.append("1 0 0 1 ").append(x1).append(' ').append(y1).append(" Tm\n"); sb.append("(").append(keyword).append(") Tj\n"); sb.append("ET\n"); sb.append("Q\n"); return page.getContents().stream().anyMatch(content -> content.getString().contains(sb.toString())); } } ``` 在此示例代码中，我们首先加载 PDF 文件并获取所有页面。然后，我们遍历每个页面的所有注释，并查找类型为“高亮”的注释。对于每个高亮注释，我们获取该注释的四个顶点坐标，并检查关键字是否包含在其中。如果找到匹配项，则打印关键字的坐标。

阅读全文

java 获取pdf关键字坐标

相关推荐

java实现查找PDF关键字所在页码及其坐标

获取pdf文件中指定文字的坐标 附源码

Java查找并高亮PDF文本过程解析

java ofd 关键字 坐标

java获取pdf文字坐标

python pdf获取关键字坐标_iTextSharp获取pdf文件中指定关键字的坐标位置信息

pdfreader查不到关键字坐标

java获取pdf中图片的坐标

java 修改pdf 指定坐标的内容

java 读取PDF内容 获取指定内容坐标

java pdf根据y坐标切割

使用java向pdf指定坐标中写入文本

java代码获取pdf中字符串的坐标

如何使用php获取pdf文件中关键字的坐标或者位置？

java获取图片像素坐标

JAVA获取屏幕坐标

java读PDF文件内容并获取指定文字坐标

JAVA把pdf根据坐标,浏览器预览的坐标如何映射到PDF文件中的坐标

java gdal获取geojson坐标系

java中获得按钮坐标

大家在看

【答题卡识别】 Hough变换答题卡识别【含Matlab源码 250期】.zip

Solar-Wind-Hybrid-Power-plant_matlab_

OZ9350 设计规格书

看nova-scheduler如何选择计算节点-每天5分钟玩转OpenStack

机器视觉选型计算概述-不错的总结

最新推荐

java实现在pdf模板的指定位置插入图片

java使用itext导出PDF文本绝对定位(实现方法)

java实现计算地理坐标之间的距离

java 根据经纬度获取地址实现代码

python点击鼠标获取坐标（Graphics）

WildFly 8.x中Apache Camel结合REST和Swagger的演示

管理建模和仿真的文件

【声子晶体模拟全能指南】：20年经验技术大佬带你从入门到精通

2024-07-27怎么用python转换成农历日期

FDFS客户端Python库1.2.6版本发布

获取pdf文件中指定文字的坐标附源码

java ofd 关键字坐标

java 读取PDF内容获取指定内容坐标