python数据清洗,去除空白字符,标点符号,非中文字符等。
时间: 2024-12-23 11:16:15 浏览: 1
Python 清洗字符串和列表 Python源码
在Python中,数据清洗是一个重要的预处理步骤,它通常涉及到清理、转换和标准化数据以便于分析。要去除文本数据中的空白字符、标点符号和非中文字符,可以使用一些内置函数和库,如`pandas`和`re`。
以下是一个简单的示例:
```python
import pandas as pd
import re
# 假设df是一个包含文本数据的DataFrame
df['text_column'] = df['text_column'].str.replace(r'\s+', '', regex=True) # 移除空白字符(包括空格,制表符,换行符)
df['text_column'] = df['text_column'].str.replace('[^\u4e00-\u9fa5]', '', flags=re.UNICODE) # 去除非中文字符(正则表达式匹配汉字范围)
# 去除标点符号
df['text_column'] = df['text_column'].str.translate(str.maketrans('', '', string.punctuation))
# 这样就得到了处理后的文本列
```
阅读全文