python3能提取pdf中数据的代码
时间: 2024-11-15 22:30:48 浏览: 10
Python 用三行代码提取PDF表格数据
Python 3中有多种库可以用来提取PDF中的数据,其中最常用的是`PyPDF2`和`tabula-py`。这里是一个简单的示例,展示如何使用`PyPDF2`读取PDF并提取文本:
```python
import PyPDF2
# 打开PDF文件
with open('example.pdf', 'rb') as file:
reader = PyPDF2.PdfFileReader(file)
# 获取总页数
total_pages = reader.getNumPages()
for page_num in range(total_pages):
# 获取每一页的内容
page_text = reader.getPage(page_num).extractText()
# 提取后的文本可能包含换行符,你可以根据需要清洗或处理它
cleaned_text = page_text.replace('\n', '') # 示例仅去除换行
print(f"Page {page_num+1}: {cleaned_text}")
阅读全文