怎么找出pd.DataFrame中文字符 教程
时间: 2023-01-29 07:34:34 浏览: 198
你可以使用正则表达式或者 Unicode 编码来找出 pd.DataFrame 中的中文字符。
使用正则表达式:
```python
import re
def find_chinese_characters(text):
pattern = '[\u4e00-\u9fa5]+'
return re.findall(pattern, text)
# 找出一个字符串中的中文字符
text = '这是一个字符串,里面有中文字符'
print(find_chinese_characters(text))
# 找出 DataFrame 中的中文字符
import pandas as pd
df = pd.DataFrame({'col1': ['这是中文', '这也是中文'], 'col2': ['这不是中文', '这也不是中文']})
for col in df.columns:
df[col] = df[col].apply(find_chinese_characters)
print(df)
```
使用 Unicode 编码:
```python
import pandas as pd
df = pd.DataFrame({'col1': ['这是中文', '这也是中文'], 'col2': ['这不是中文', '这也不是中文']})
for col in df.columns:
df[col] = df[col].apply(lambda x: [c for c in x if '\u4e00' <= c <= '\u9fa5'])
print(df)
```
阅读全文