python提取pdf中的文字保存txt
时间: 2023-05-04 17:04:49 浏览: 205
使用python提取pdf中的文字
5星 · 资源好评率100%
Python可以利用第三方库PyPDF2来读取PDF文件中的文本内容并保存为txt文件。下面是具体步骤:
1. 安装PyPDF2库
在命令行中输入以下命令进行安装:pip install PyPDF2
2. 导入PyPDF2库
将PyPDF2库导入Python代码中,以便使用其中的函数和方法。
3. 打开PDF文件
使用PyPDF2库的PdfFileReader函数打开PDF文件,读取其中的内容。
4. 获取PDF文件中的页数和内容
使用getPage函数和extractText方法,获取PDF文件中的页数和每页的文本内容。
5. 将文本内容保存为txt文件
使用Python内置的open函数,将文本内容保存为txt文件。
下面是示例代码:
```python
import PyPDF2
# 打开PDF文件
pdfFileObj = open('sample.pdf', 'rb')
# 创建PdfFileReader对象
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
# 获取PDF文件中的页数
numPages = pdfReader.numPages
# 对于每一页,提取其中的文本内容保存为txt文件
with open('result.txt', 'w') as f:
for page in range(numPages):
pageObj = pdfReader.getPage(page)
text = pageObj.extractText()
f.write(text)
# 关闭pdf文件
pdfFileObj.close()
```
执行以上代码后,就可以在当前目录下看到一个名为result.txt的文件,其中保存了PDF文件中的所有文本内容。
阅读全文