使用python,从excel表格中10000行数据中逐行提取“简要案情”列内杂乱内容中的身份证号码
时间: 2024-06-09 15:10:19 浏览: 180
可以使用Python中的pandas库来读取Excel表格,并使用正则表达式来匹配身份证号码。以下是一个示例代码:
```python
import pandas as pd
import re
# 读取Excel表格
data = pd.read_excel('data.xlsx')
# 遍历每一行数据
for index, row in data.iterrows():
# 从“简要案情”列中提取身份证号码
text = row['简要案情']
pattern = r'\d{17}[\d|X]|\d{15}' # 正则表达式匹配身份证号码
match = re.search(pattern, text)
if match:
# 打印身份证号码
print(match.group())
```
上述代码中,首先使用pandas库读取Excel表格,然后使用iterrows()方法遍历每一行数据。对于每一行数据,使用正则表达式匹配身份证号码,并打印出来。注意,在正则表达式中,`\d{17}[\d|X]|\d{15}`表示匹配18位或15位身份证号码。
阅读全文