kaggle中糖尿病预测数据集数据清洗代码
时间: 2023-10-02 18:13:59 浏览: 99
好的,下面是一个简单的数据清洗代码,可以用于kaggle中Pima Indians Diabetes数据集:
```python
import pandas as pd
import numpy as np
# 读取数据集文件
data = pd.read_csv('diabetes.csv')
# 将缺失值替换为 NaN
data = data.replace({'Glucose': {0: np.nan},
'BloodPressure': {0: np.nan},
'SkinThickness': {0: np.nan},
'Insulin': {0: np.nan},
'BMI': {0: np.nan}})
# 填充缺失值
data.fillna(data.mean(), inplace=True)
# 将 Outcome 列中的 0 和 1 替换为 'No' 和 'Yes'
data['Outcome'] = data['Outcome'].replace({0: 'No', 1: 'Yes'})
# 将数据集分为特征和标签
X = data.iloc[:, :-1]
y = data.iloc[:, -1]
# 对特征进行标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X = scaler.fit_transform(X)
# 将标签转换为数值
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
y = encoder.fit_transform(y)
```
该代码主要完成以下几个任务:
1. 将数据集文件读取到 pandas 数据框中。
2. 将缺失值替换为 NaN。
3. 用平均值填充缺失值。
4. 将 Outcome 列中的 0 和 1 替换为 'No' 和 'Yes'。
5. 将数据集分为特征和标签。
6. 对特征进行标准化。
7. 将标签转换为数值。
需要注意的是,此代码仅包含基本的数据清洗操作,实际上你可能需要根据具体情况进行更多的数据预处理。同时,该代码也只是提供了一种常见的数据清洗流程,你可以根据需要进行修改和优化。
阅读全文