引入pandas模块,对一列数据用正则表达式提取符合邮箱格式的文本内容,没有符合条件的文本内容则返回原值
时间: 2024-04-18 15:23:28 浏览: 67
可以使用`pandas`模块和正则表达式提取符合邮箱格式的文本。假设你有一个名为`data`的`DataFrame`对象,其中包含一列名为`email`的数据。下面是示例代码:
```python
import pandas as pd
import re
# 假设你的数据存储在一个DataFrame对象中,列名为'email'
data = pd.DataFrame({'email': ['abc@example.com', '123', 'def@example.com', '456']})
# 定义邮箱格式的正则表达式
pattern = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
# 使用正则表达式提取符合邮箱格式的文本内容
data['email_extracted'] = data['email'].apply(lambda x: re.findall(pattern, x)[0] if re.findall(pattern, x) else x)
print(data)
```
在上述示例中,我们首先导入了`pandas`和`re`模块。然后,定义了一个邮箱格式的正则表达式`pattern`,该正则表达式用于匹配符合邮箱格式的文本内容。
接下来,使用`apply`方法和`lambda`函数将正则表达式应用于每个文本值。如果找到符合条件的文本,则将其提取出来并存储在新的一列`email_extracted`中;如果没有找到符合条件的文本,则返回原值。
最后,我们打印输出整个`DataFrame`对象,以查看提取后的结果。请记得根据实际情况替换代码中的数据和列名。
阅读全文