python如何将多个pdf文件写入txt文档中
时间: 2023-06-17 21:05:13 浏览: 108
可以使用Python中的PyPDF2库来将多个PDF文件写入一个txt文档中。下面是一个简单的示例代码:
```python
import os
import PyPDF2
# 指定PDF文件夹路径和输出txt文件路径
pdf_folder = "/path/to/pdf/folder"
output_file = "/path/to/output/file.txt"
# 获取PDF文件夹中所有PDF文件名
pdf_files = [f for f in os.listdir(pdf_folder) if f.endswith('.pdf')]
# 创建一个空的txt文件
with open(output_file, 'w') as f:
pass
# 逐个读取PDF文件,并将内容写入txt文件
with open(output_file, 'a') as f:
for pdf_file in pdf_files:
pdf_path = os.path.join(pdf_folder, pdf_file)
pdf_reader = PyPDF2.PdfFileReader(open(pdf_path, 'rb'))
for page_num in range(pdf_reader.getNumPages()):
page = pdf_reader.getPage(page_num)
f.write(page.extractText())
```
这个代码将读取指定文件夹中的所有PDF文件,并将它们的内容逐个写入指定的txt文件中。请注意,PDF文件中的文本提取可能会出现一些问题,特别是对于包含图像等非文本元素的PDF文件。
阅读全文