python获取pdf内容文字,只存储名字和身份证号到表格 其他多余文字全部去掉 完整代码
时间: 2024-09-10 22:05:49 浏览: 33
python基于pdfminer库提取pdf文字代码实例
在Python中,可以使用`PyPDF2`库来读取PDF文件的内容,并使用正则表达式来提取特定信息如姓名和身份证号码。下面是一个简单的示例,展示如何实现这个功能:
```python
import PyPDF2
import re
# 假设我们有一个名为"example.pdf"的PDF文件
file_path = "example.pdf"
# 打开PDF文件
with open(file_path, 'rb') as file:
reader = PyPDF2.PdfFileReader(file)
# 初始化结果列表
names_ids = []
# 遍历每一页
for page_num in range(reader.numPages):
page_text = reader.getPage(page_num).extractText()
# 使用正则表达式匹配姓名和身份证号,这里假设它们的格式分别是"姓名:"和"身份证号:"
name_id_pattern = r"(?i)姓名:(.*?)\n.*?身份证号:(.*?)\n"
match = re.search(name_id_pattern, page_text)
if match:
# 提取姓名和身份证号
name = match.group(1)
id_number = match.group(2)
# 只保留名字和身份证号,去除多余文本
extracted_data = [name, id_number]
names_ids.append(extracted_data)
# 现在names_ids变量包含了一个二维列表,每一项是提取到的姓名和身份证号组合
```
注意:这个例子假设了姓名和身份证号按照特定格式存在,并且页面上有明确的分隔符。实际操作中,如果PDF结构复杂,可能需要更精细的解析。
阅读全文