import pandas as pd from sklearn import preprocessing data=pd.read_csv('wine .csv',encoding='gbk') data data.isna().sum() 变量均值对缺失值进行填充 data['灰的碱度'] = data['灰的碱度'].fillna(data['灰的碱度'].mean()) data['苹果酸'] = data['苹果酸'].fillna(data['苹果酸'].mean()) data['镁'] = data['镁'].fillna(data['镁'].mean()) data['黄酮类化合物'] = data['黄酮类化合物'].fillna(data['黄酮类化合物'].mean()) data['色彩强度'] = data['色彩强度'].fillna(data['色彩强度'].mean()) data['色调'] = data['色调'].fillna(data['色调'].mean()) dt=(data.iloc[:,1:]-(data.iloc[:,1:].min()))/((data.iloc[:,1:].max())-(data.iloc[:,1:].min())) data.iloc[:,1:]=dt data代码解释
时间: 2023-10-17 22:05:17 浏览: 87
pandas.read_csv参数详解(小结)
这段代码是对读取的名为'wine.csv'的数据进行缺失值处理和数据归一化的操作。
首先,使用pandas库中的read_csv函数读取名为'wine.csv'的数据文件,并指定编码方式为'gbk'。其次,使用isna()函数检查数据中是否存在缺失值,sum()函数统计每列中缺失值的数量。
接下来,对数据中的缺失值进行填充。使用fillna()函数将每个变量的缺失值填充为该变量的均值,例如:data['灰的碱度'] = data['灰的碱度'].fillna(data['灰的碱度'].mean())。
最后,使用sklearn库中的preprocessing模块对数据进行归一化处理。使用iloc函数选取所有行和从第二列到最后一列的所有列,并使用min()和max()函数分别计算每列数据的最小值和最大值。将数据进行归一化处理后,使用iloc函数将处理后的数据替换原来的数据。
阅读全文