用python将pdf转成txt
时间: 2024-11-22 10:36:43 浏览: 3
基于python的将pdf转为txt然后进行分词,并进行词频统计
在Python中,可以使用第三方库如PyPDF2来读取PDF文件,并使用另一个库如`python-docx`或者`nltk`来进行文本提取。以下是一个简单的示例,展示如何使用PyPDF2将PDF转换为文本:
```python
import PyPDF2
def pdf_to_txt(pdf_file_path):
# 打开PDF文件
with open(pdf_file_path, 'rb') as file:
reader = PyPDF2.PdfFileReader(file)
# 创建一个空字符串来存储文本
text = ''
# 遍历PDF的每一页
for page_num in range(reader.numPages):
text += reader.getPage(page_num).extractText()
return text
# 使用函数并保存结果到.txt文件
input_pdf = "example.pdf"
output_txt = "output.txt"
with open(output_txt, 'w', encoding='utf-8') as f:
f.write(pdf_to_txt(input_pdf))
阅读全文