python使用re正则表达式提取dataframe数据类型中以-分隔的第一个数字
时间: 2024-03-17 13:40:43 浏览: 224
python的re正则表达式实例代码
可以使用pandas中的`str.extract()`方法结合正则表达式来提取。
假设需要提取的列名为`col_name`,可以使用以下代码:
```python
import pandas as pd
# 构造样例数据
df = pd.DataFrame({'col_name': ['123-456', '789-012', '345-678']})
# 提取第一个数字
df['new_col'] = df['col_name'].str.extract(r'^(\d+)-')
# 查看结果
print(df)
```
输出:
```
col_name new_col
0 123-456 123
1 789-012 789
2 345-678 345
```
上述代码中,正则表达式`r'^(\d+)-'`表示:
- `^`:匹配字符串的开头
- `(\d+)`:匹配一个或多个数字,并且使用括号将其分组,方便后续提取
- `-`:匹配一个横杠
因此,提取的结果就是以横杠分隔的第一个数字。
阅读全文