首页kaggle中糖尿病预测数据集数据清洗代码

kaggle中糖尿病预测数据集数据清洗代码

时间: 2023-10-02 18:13:59 浏览: 99

好的，下面是一个简单的数据清洗代码，可以用于kaggle中Pima Indians Diabetes数据集： ```python import pandas as pd import numpy as np # 读取数据集文件 data = pd.read_csv('diabetes.csv') # 将缺失值替换为 NaN data = data.replace({'Glucose': {0: np.nan}, 'BloodPressure': {0: np.nan}, 'SkinThickness': {0: np.nan}, 'Insulin': {0: np.nan}, 'BMI': {0: np.nan}}) # 填充缺失值 data.fillna(data.mean(), inplace=True) # 将 Outcome 列中的 0 和 1 替换为 'No' 和 'Yes' data['Outcome'] = data['Outcome'].replace({0: 'No', 1: 'Yes'}) # 将数据集分为特征和标签 X = data.iloc[:, :-1] y = data.iloc[:, -1] # 对特征进行标准化 from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X = scaler.fit_transform(X) # 将标签转换为数值 from sklearn.preprocessing import LabelEncoder encoder = LabelEncoder() y = encoder.fit_transform(y) ``` 该代码主要完成以下几个任务： 1. 将数据集文件读取到 pandas 数据框中。 2. 将缺失值替换为 NaN。 3. 用平均值填充缺失值。 4. 将 Outcome 列中的 0 和 1 替换为 'No' 和 'Yes'。 5. 将数据集分为特征和标签。 6. 对特征进行标准化。 7. 将标签转换为数值。需要注意的是，此代码仅包含基本的数据清洗操作，实际上你可能需要根据具体情况进行更多的数据预处理。同时，该代码也只是提供了一种常见的数据清洗流程，你可以根据需要进行修改和优化。

阅读全文