我想读取“D:\点宽学院”这个文件下所有PDF的内容,先把所有读取到的内容合并成一个字符串并打印出来,用python实现,不能用pypdf2库和pymupdf库
时间: 2023-06-17 08:06:26 浏览: 44
你可以使用Python内置的pdfminer库来实现。下面是一个简单的代码示例:
```python
import os
import io
import re
import subprocess
def extract_text_from_pdf(path):
"""
从PDF文件中提取文本
"""
cmd = ['pdftotext', '-layout', path, '-']
proc = subprocess.Popen(cmd, stdout=subprocess.PIPE)
stdout, _ = proc.communicate()
return stdout.decode('utf-8')
def main():
root_dir = r'D:\点宽学院'
pdf_files = [os.path.join(root_dir, f) for f in os.listdir(root_dir) if f.endswith('.pdf')]
all_text = ''
for path in pdf_files:
text = extract_text_from_pdf(path)
all_text += text
print(all_text)
if __name__ == '__main__':
main()
```
该代码会遍历“D:\点宽学院”目录下的所有PDF文件,使用pdftotext命令从每个PDF文件中提取文本,并将提取到的文本合并成一个字符串。最后,该字符串会被打印出来。注意,该代码需要安装pdftotext命令行工具,你可以在这里下载并安装:https://www.xpdfreader.com/download.html。
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)