pdfminer抽取中文文本,python代码。
时间: 2023-02-09 22:41:16 浏览: 64
可以使用 Python 库 pdfminer 来抽取 PDF 文件中的中文文本。下面是一个简单的示例代码:
```
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def extract_text_from_pdf(pdf_path):
resource_manager = PDFResourceManager()
fake_file_handle = StringIO()
converter = TextConverter(resource_manager, fake_file_handle, laparams=LAParams())
page_interpreter = PDFPageInterpreter(resource_manager, converter)
with open(pdf_path, 'rb') as fh:
for page in PDFPage.get_pages(fh, caching=True, check_extractable=True):
page_interpreter.process_page(page)
text = fake_file_handle.getvalue()
# close open handles
converter.close()
fake_file_handle.close()
if text:
return text
if __name__ == '__main__':
pdf_path = 'example.pdf'
print(extract_text_from_pdf(pdf_path))
```
在此代码中,我们首先导入了需要使用的模块,然后定义了一个函数 `extract_text_from_pdf`,用来抽取 PDF 文件中的文本。在函数中,我们使用了 pdfminer 中的 `PDFResourceManager`、`PDFPageInterpreter`、`TextConverter` 和 `LAParams` 类来实现文本抽取。在运行代码时,需要将 PDF 文件的路径传入函数中,最后会返回一个字符串,包含了 PDF 文件中的文本。