首页我想读取“D:\点宽学院”这个文件下所有PDF的内容，先把所有读取到的内容合并成一个字符串并打印出来，用python实现

我想读取“D:\点宽学院”这个文件下所有PDF的内容，先把所有读取到的内容合并成一个字符串并打印出来，用python实现

时间: 2023-06-17 15:06:30 浏览: 30

你可以使用Python的`os`和`PyPDF2`库来实现这个功能。首先，你需要安装`PyPDF2`库，可以使用以下命令进行安装： ``` pip install PyPDF2 ``` 然后，你可以使用以下代码来实现读取指定目录下所有PDF文件并将其内容合并成一个字符串： ```python import os import PyPDF2 # 设置目标目录 dir_path = r"D:\点宽学院" # 读取目录下所有PDF文件的内容 pdf_content = [] for filename in os.listdir(dir_path): if filename.endswith(".pdf"): filepath = os.path.join(dir_path, filename) with open(filepath, "rb") as f: pdf_reader = PyPDF2.PdfFileReader(f) for page_num in range(pdf_reader.getNumPages()): page = pdf_reader.getPage(page_num) pdf_content.append(page.extractText()) # 合并所有PDF内容 merged_content = "\n".join(pdf_content) # 打印合并后的内容 print(merged_content) ``` 上面的代码中，`dir_path`变量设置为目标目录，使用`os.listdir`函数获取目录下所有文件名，然后通过判断文件名是否以`.pdf`结尾来筛选出所有的PDF文件。接着，使用`PyPDF2`库的`PdfFileReader`类打开PDF文件，并使用`extractText`方法提取每一页的文本内容。最后，将所有的文本内容合并成一个字符串并打印出来。