python如何将多个pdf文件写入多个txt文档中
时间: 2023-06-17 21:05:14 浏览: 102
python批量pdf转txt
可以使用Python的PyPDF2库来读取PDF文件,然后使用Python内置的文件操作函数来将PDF文件中的文本写入到TXT文件中。
以下是一个示例代码,可以将多个PDF文件分别写入多个TXT文件中:
```python
import os
import PyPDF2
# PDF文件所在目录
pdf_folder = '/path/to/pdf/folder'
# TXT文件所在目录
txt_folder = '/path/to/txt/folder'
# 遍历PDF文件夹中的所有PDF文件
for filename in os.listdir(pdf_folder):
if filename.endswith('.pdf'):
# 读取PDF文件
pdf_path = os.path.join(pdf_folder, filename)
with open(pdf_path, 'rb') as f:
pdf_reader = PyPDF2.PdfFileReader(f)
# 遍历PDF文件中的所有页面
for page_num in range(pdf_reader.getNumPages()):
# 将页面中的文本提取出来并写入TXT文件
page = pdf_reader.getPage(page_num)
text = page.extractText()
txt_filename = os.path.splitext(filename)[0] + '-page{}.txt'.format(page_num+1)
txt_path = os.path.join(txt_folder, txt_filename)
with open(txt_path, 'w', encoding='utf-8') as txt_file:
txt_file.write(text)
```
这段代码会遍历指定的PDF文件夹中的所有PDF文件,对于每个PDF文件,它会读取其中的所有页面,将页面中的文本提取出来,然后将文本写入到一个以PDF文件名和页面号命名的TXT文件中。例如,如果有一个名为“example.pdf”的PDF文件,它有3个页面,那么将会生成3个TXT文件:example-page1.txt、example-page2.txt 和 example-page3.txt。
阅读全文