python将PDF批量转为文本代码
时间: 2023-06-03 13:03:43 浏览: 162
python批量pdf转txt
可以使用第三方库PyPDF2实现批量转换PDF为文本代码。需要先安装PyPDF2库,使用代码如下:
```python
import os
import PyPDF2
def pdf_to_txt(input_file, output_file):
with open(input_file, 'rb') as f:
pdf_reader = PyPDF2.PdfFileReader(f)
with open(output_file, 'w') as f:
for p in range(pdf_reader.getNumPages()):
page = pdf_reader.getPage(p)
text = page.extractText()
f.write(text)
input_folder = '/path/to/pdf/folder'
output_folder = '/path/to/txt/folder'
for f in os.listdir(input_folder):
if f.endswith('.pdf'):
input_file = os.path.join(input_folder, f)
output_file = os.path.join(output_folder, f.replace('.pdf', '.txt'))
pdf_to_txt(input_file, output_file)
```
其中,`input_folder`为PDF文件所在文件夹路径,`output_folder`为文本文件保存路径。需要注意的是,PyPDF2对一些加密和特殊格式的PDF文件可能无法进行正确处理。
阅读全文