python对数据清洗的代码
时间: 2023-08-28 10:04:36 浏览: 230
数据清洗之 数据筛选
以下是使用Python进行数据清洗的一些基本代码:
1. 导入所需的库
```python
import pandas as pd
import numpy as np
```
2. 读取数据
```python
data = pd.read_csv('data.csv')
```
3. 查看数据
```python
print(data.head()) # 查看前5行数据
print(data.tail()) # 查看后5行数据
print(data.shape) # 查看数据的行数和列数
print(data.columns) # 查看数据的列名
print(data.dtypes) # 查看数据的数据类型
```
4. 处理缺失值
```python
# 判断缺失值
print(data.isnull().sum())
# 删除缺失值
data.dropna(inplace=True)
# 填充缺失值
data.fillna(value, inplace=True)
```
5. 处理重复值
```python
# 判断重复值
print(data.duplicated().sum())
# 删除重复值
data.drop_duplicates(inplace=True)
```
6. 处理异常值
```python
# 找出异常值
data[(data['column_name'] > upper_bound) | (data['column_name'] < lower_bound)]
# 处理异常值
data.loc[data['column_name'] > upper_bound, 'column_name'] = upper_bound
data.loc[data['column_name'] < lower_bound, 'column_name'] = lower_bound
```
7. 处理数据类型
```python
# 转换数据类型
data['column_name'] = data['column_name'].astype('new_data_type')
```
8. 处理文本数据
```python
# 提取文本数据
data['new_column_name'] = data['column_name'].str.extract('regex_pattern')
# 替换文本数据
data['column_name'] = data['column_name'].str.replace('old_value', 'new_value')
```
9. 处理日期数据
```python
# 转换日期数据
data['new_column_name'] = pd.to_datetime(data['column_name'], format='date_format')
# 提取日期数据
data['year'] = data['column_name'].dt.year
data['month'] = data['column_name'].dt.month
data['day'] = data['column_name'].dt.day
```
10. 处理数值数据
```python
# 计算统计量
print(data['column_name'].mean())
print(data['column_name'].median())
print(data['column_name'].mode())
print(data['column_name'].std())
print(data['column_name'].var())
# 离散化
data['new_column_name'] = pd.cut(data['column_name'], bins=[bin1, bin2, bin3, bin4])
```
以上是一些基本的数据清洗代码,实际上数据清洗的具体操作需要根据数据的具体情况而定,需要根据实际情况进行调整和修改。
阅读全文