使用python 从10000行数据中逐行提取某一列杂乱内容中的身份证号码
时间: 2024-06-09 20:10:19 浏览: 170
可以使用Python中的正则表达式来提取身份证号码。假设身份证号码在数据中的第5列,可以使用以下代码:
```python
import re
with open('data.csv', 'r') as file:
for line in file:
row = line.strip().split(',')
id_number = re.findall(r'\d{17}[\d|x]|\d{15}', row[4])
if id_number:
print(id_number[0])
```
解释:
- `re.findall(r'\d{17}[\d|x]|\d{15}', row[4])`:通过正则表达式查找身份证号码,`\d{17}[\d|x]` 匹配18位身份证号码(最后一位可能是数字或字母x),`\d{15}` 匹配15位身份证号码。
- `if id_number:`:判断是否找到身份证号码,避免输出空结果。
- `print(id_number[0])`:输出身份证号码。
需要将代码中的 `data.csv` 替换为实际数据文件的文件名或路径。
阅读全文