pandas使用正则表达式从后面提取一串中文字符串
时间: 2024-01-01 09:04:18 浏览: 154
Python_ASCII.zip_ascii python
你好!关于您的问题,可以使用pandas的str.extract()函数结合正则表达式来提取中文字符串。具体操作可以参考以下代码:
import pandas as pd
import re
# 假设您有一列名为"content"的文本列需要提取中文字符串
df = pd.DataFrame({'content': ['这是一段中文文本,我要提取中文字符串', '这是一段包含英文和数字的文本,不需要提取']})
# 使用正则表达式提取中文字符串(包括标点符号)
pattern = re.compile('[\u4e00-\u9fa5]+')
df['chinese'] = df['content'].str.extract(pattern)
# 输出结果
print(df)
希望能够帮到您!如果您有其它问题,可以继续问我哦~
阅读全文