用Python清洗数据的代码
时间: 2024-04-20 11:07:20 浏览: 16
以下是使用Python清洗数据的一些常见代码片段:
1. 去除重复行
```python
df.drop_duplicates()
```
2. 处理缺失值
```python
# 判断缺失值
df.isnull()
# 删除包含缺失值的行
df.dropna()
# 将缺失值替换为其他值
df.fillna(value)
```
3. 数据类型转换
```python
# 转换为字符串类型
df.astype(str)
# 转换为整数类型
df.astype(int)
# 转换为浮点数类型
df.astype(float)
```
4. 去除空格
```python
# 去除左右两侧空格
df['column_name'].str.strip()
# 去除所有空格
df['column_name'].str.replace(' ', '')
```
5. 文本转换
```python
# 将文本转换为小写
df['column_name'].str.lower()
# 将文本转换为大写
df['column_name'].str.upper()
# 将文本首字母大写
df['column_name'].str.capitalize()
```
6. 分割列
```python
# 以某个分隔符分割列
df['column_name'].str.split(',')
# 指定列名,将分割结果拆分到多个列中
df['column_name'].str.split(',', expand=True)
```
7. 合并列
```python
# 将两列合并为一列
df['new_column'] = df['column1'] + df['column2']
```