pdfminer文本是乱码
时间: 2023-02-09 07:41:17 浏览: 561
PDFPlumber:从PDF文件提取文字和表格的Python库.pdf
PDFMiner是一个用于Python的PDF解析器库,它可以从PDF文件中提取文本和结构化数据。如果使用PDFMiner解析的文本是乱码,可能是因为PDF文件中的文本使用了不常见的字符集或编码方式。
解决方法有:
1. 手动指定字符集,使用 -c 或 --encoding 参数。
2. 使用第三方库 pdftotext 转换 pdf
3. 使用OCR工具(如tesseract)识别文本
如果问题依然存在, 请提供相关的PDF文件或更多细节,我会尽力帮助解决。
阅读全文