我想读取“D:\点宽学院”这个文件下所有PDF的内容,先把所有读取到的内容合并成一个字符串并打印出来,用python实现,不能用pypdf2库和pymupdf库
时间: 2023-06-17 10:06:26 浏览: 137
Python解析并读取PDF文件内容的方法
5星 · 资源好评率100%
你可以使用Python内置的pdfminer库来实现。下面是一个简单的代码示例:
```python
import os
import io
import re
import subprocess
def extract_text_from_pdf(path):
"""
从PDF文件中提取文本
"""
cmd = ['pdftotext', '-layout', path, '-']
proc = subprocess.Popen(cmd, stdout=subprocess.PIPE)
stdout, _ = proc.communicate()
return stdout.decode('utf-8')
def main():
root_dir = r'D:\点宽学院'
pdf_files = [os.path.join(root_dir, f) for f in os.listdir(root_dir) if f.endswith('.pdf')]
all_text = ''
for path in pdf_files:
text = extract_text_from_pdf(path)
all_text += text
print(all_text)
if __name__ == '__main__':
main()
```
该代码会遍历“D:\点宽学院”目录下的所有PDF文件,使用pdftotext命令从每个PDF文件中提取文本,并将提取到的文本合并成一个字符串。最后,该字符串会被打印出来。注意,该代码需要安装pdftotext命令行工具,你可以在这里下载并安装:https://www.xpdfreader.com/download.html。
阅读全文