写一段识别pdf文字的python代码
时间: 2023-05-29 18:02:04 浏览: 124
从PDF中提取文字,需要使用外部库,例如PyPDF2,pdfminer等。以下是使用pdfminer库的示例代码,它将从PDF文件中提取所有文本,然后将其打印到控制台中:
```python
import io
import pdfminer
from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
def extract_text_from_pdf(pdf_path):
resource_manager = PDFResourceManager()
output_string = io.StringIO()
codec = 'utf-8'
laparams = pdfminer.layout.LAParams()
converter = TextConverter(resource_manager, output_string, laparams=laparams)
interpreter = PDFPageInterpreter(resource_manager, converter)
with open(pdf_path, 'rb') as fh:
for page in PDFPage.get_pages(fh, check_extractable=True):
interpreter.process_page(page)
text = output_string.getvalue()
fh.close()
converter.close()
output_string.close()
return text
text = extract_text_from_pdf('sample.pdf')
print(text)
```
此代码将打印出提取的文本。请注意,由于PDF文件可以具有各种不同的文本布局和编码方式,因此提取的文本可能无法与源文本完全匹配。
阅读全文