pdfreader查不到关键字坐标
时间: 2023-07-25 11:28:36 浏览: 160
如果您使用的是Python中的pdfreader库,您可以使用pdfminer库中的PDFPageAggregator类和PDFResourceManager类来获取PDF文档中关键字的坐标。您可以按照以下步骤操作:
1. 使用PDFResourceManager类打开PDF文件并获取页面布局信息。
```
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
resource_manager = PDFResourceManager()
layout_params = LAParams()
device = PDFPageAggregator(resource_manager, laparams=layout_params)
interpreter = PDFPageInterpreter(resource_manager, device)
with open('your_pdf_file.pdf', 'rb') as fh:
for page in PDFPage.get_pages(fh):
interpreter.process_page(page)
layout = device.get_result()
```
2. 使用layout对象中的属性,例如x0、y0、x1、y1来查找关键字的坐标。以下是一个示例代码,用于查找PDF文档中的关键字“hello”。
```
for lt_obj in layout:
if isinstance(lt_obj, LTTextBox) and "hello" in lt_obj.get_text():
print("Found hello at: ", lt_obj.x0, lt_obj.y0)
```
请注意,这只是一个简单的示例代码,您需要根据您的PDF文档结构和关键字的位置进行相应的调整。
阅读全文