首页pandas 如何表示如果某列的第一个字符串是字母就提取出该单词，但若是中文就提取该词语

pandas 如何表示如果某列的第一个字符串是字母就提取出该单词，但若是中文就提取该词语

时间: 2024-03-27 11:40:18 浏览: 136

可以使用 pandas 中的 str 属性中的 `str.extract()` 方法，该方法可以用于提取符合正则表达式的字符串，结合正则表达式的分组功能，可以实现对英文和中文的分别处理，例如： ```python import pandas as pd df = pd.DataFrame({'col1': ['apple', '香蕉banana', 'cherry', '橘子orange']}) first_char = df['col1'].str.extract(r'([a-zA-Z]+|[\u4e00-\u9fa5]+)', expand=False) print(first_char) ``` 输出结果为： ``` 0 apple 1 香蕉 2 cherry 3 橘子 Name: col1, dtype: object ``` 其中 `first_char` 为一个 pandas Series 对象，包含了原始数据中每个字符串中的第一个英文单词或中文词语。这里使用了正则表达式 `r'([a-zA-Z]+|[\u4e00-\u9fa5]+)'` 来匹配英文单词和中文词语，其中 `([a-zA-Z]+|[\u4e00-\u9fa5]+)` 表示分组，分别匹配连续的英文字母和连续的中文字符。如果某列的第一个字符既不是英文字母也不是中文字符，则提取结果为 NaN。

阅读全文