我想读取“D:\点宽学院”这个文件下所有PDF的内容,先把所有读取到的内容合并成一个字符串并打印出来,用python实现
时间: 2023-06-17 15:06:30 浏览: 30
你可以使用Python的`os`和`PyPDF2`库来实现这个功能。首先,你需要安装`PyPDF2`库,可以使用以下命令进行安装:
```
pip install PyPDF2
```
然后,你可以使用以下代码来实现读取指定目录下所有PDF文件并将其内容合并成一个字符串:
```python
import os
import PyPDF2
# 设置目标目录
dir_path = r"D:\点宽学院"
# 读取目录下所有PDF文件的内容
pdf_content = []
for filename in os.listdir(dir_path):
if filename.endswith(".pdf"):
filepath = os.path.join(dir_path, filename)
with open(filepath, "rb") as f:
pdf_reader = PyPDF2.PdfFileReader(f)
for page_num in range(pdf_reader.getNumPages()):
page = pdf_reader.getPage(page_num)
pdf_content.append(page.extractText())
# 合并所有PDF内容
merged_content = "\n".join(pdf_content)
# 打印合并后的内容
print(merged_content)
```
上面的代码中,`dir_path`变量设置为目标目录,使用`os.listdir`函数获取目录下所有文件名,然后通过判断文件名是否以`.pdf`结尾来筛选出所有的PDF文件。接着,使用`PyPDF2`库的`PdfFileReader`类打开PDF文件,并使用`extractText`方法提取每一页的文本内容。最后,将所有的文本内容合并成一个字符串并打印出来。