python实现数据缺失处理实现数据缺失处理
数据缺失处理数据缺失处理python函数函数
数据缺失判断函数isnull()
data.isnull()
((1)数据过滤()数据过滤(dropna))
数据过滤是将数据直接过滤掉
dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
parameters 详解
axis default 0指行,1为列
how {‘any’, ‘all’}, default ‘any’指带缺失值的所有行;’all’指清除全是缺失值的行
thresh int,保留含有int个非空值的行
subset 对特定的列进行缺失值删除处理
inplace 这个很常见,True表示就地更改
df.dropna() #删除所有带缺失数据的行
((2)数据填充()数据填充(fillna))
当数据有缺失值时,用其他值替代
fillna(value,method,axis)
parameters 详解
axis default 0指行,1为列
value 填充值
method 采用填充数值的方法,默认none
df.fillna(0) #用0替换所有的缺失值
((3)拉格朗日插值法)拉格朗日插值法
lagrange(y.index, list(y))(n)
((4)检测和过滤异常数据)检测和过滤异常数据
通过过滤变换发现异常值,然后删除或者替换异常值
((5)移除重复数据)移除重复数据
#重复判断
data5.duplicated()
#去重
data5.drop_duplicates()
((6)数据规范化)数据规范化
主要实现数据归一化
#最大最小规范化
min=(data6-data6.min())/(data6.max()-data6.min())
print(min)
#零均值规范化
zero=(data6-data6.mean())/data6.std()
print(zero)
#小数定标规范化
float=data6/10**np.ceil(np.log(data6.abs().max()))
print(float)
((7)汇总和描述等统计量的计算)汇总和描述等统计量的计算
#对数据的基本统计量进行描述,得到每列数据的行数、平均值、协方差、最小值、 四分之一分位数、中位数、四分之三分位数、最大值
print(df.describe())
#统计每列数据的和,axis=1每行数据的和
print(df.sum())