没有合适的资源?快使用搜索试试~ 我知道了~
首页python数据预处理(1)———缺失值处理
在进行数据分析项目、比赛中,一手数据往往是脏数据。提高数据质量即数据预处理成为首要步骤,也会影响后期模型的表现。在此对利用Python进行预处理数据做一个总结归纳。 首先是缺失值处理。 #读取数据 import pandas as pd filepath= 'F:/...'#本地文件目录 df= pd.read_csv(train,sep=',')#df数据格式为DataFrame 查看缺失值 查看每一特征是否缺失及缺失值数量可能影响着处理缺失值的方法 df.isnull().sum() #查看每一列缺失值的数量 df.info() #查看每一列数据量和数据类型 删除缺失值 如果有些特征数
资源详情
资源评论
资源推荐
python数据预处理(数据预处理(1))———缺失值处理缺失值处理
在进行数据分析项目、比赛中,一手数据往往是脏数据。提高数据质量即数据预处理成为首要步骤,也会影响后期模型的表
现。在此对利用Python进行预处理数据做一个总结归纳。
首先是缺失值缺失值处理。
#读取数据
import pandas as pd
filepath= 'F:/...'#本地文件目录
df= pd.read_csv(train,sep=',')#df数据格式为DataFrame
查看缺失值查看缺失值
查看每一特征是否缺失及缺失值数量可能影响着处理缺失值的方法
df.isnull().sum() #查看每一列缺失值的数量
df.info() #查看每一列数据量和数据类型
删除缺失值删除缺失值
如果有些特征数据量很少,缺失值很多,则此类特征难以作为刻画样本形象的特征,考虑直接将该特征删除即删除该列。
对于极少量数据缺失例如10000个样本有1个缺失值,则不管删除与否影响并不大,可考虑删除。
df.dropna(axis=0,how='any',inplace = True)
# axis = 0,删除带有空值的行
# axis = 1,删除带有空值的列
# how = 'any',有空值即删
# how = 'all',全空才删
# inplace = True,在原有df上删除空值,return None
# inplace = False,返回删除空值后的df, return df
填补缺失值填补缺失值
个人认为在多数情况下,对于缺失值的处理则是能不删则不删能不删则不删,尤其是在比赛中,最好不要为了省事将含有缺失值的样本直接
删除,这必然造成数据的浪费,影响模型精度。
(1)固定值填充
df['列名1'].fillna(value = 30,inplace=True)
# value = 30,用30填补空值
# value = df['列名1'].mean() 均值填充
# value = df['列名1'].median() 中位数填充
# value = df.Mer_min_distance.mode()[0] 众数填充
一方面,个人认为均值填充和中位数填充都很省事,差别不大,常常采用均值填充。众数填充也很少用到。
另一方面,单纯使用固定值填充往往不是很好,可以考虑采用按照类别均值填充。
(2)前(后)值填充
df['列名1'].fillna(method = 'pad',inplace=True)
method参数取值:{‘pad’, ‘ffill’,‘backfill’, ‘bfill’, None},使用过程中因为对ipad很熟悉,故常常用 ‘pad’填充
‘pad’ or ‘ffill’ : 用前前一个非缺失值填充
‘backfill’ or ‘bfill’:用后后一个非缺失值填充
‘None’ or default : 默认采用固定值填充
(3)用字典填充
dict = {'列名1': 0, '列名2': 1, '列名3': 2}
df.fillna(value = dict,inplace = True)
不同特征填补不同缺失值,用字典填充能很好解决。
(4)随机森林填充
利用随机森林回归预测填充缺失值,代码做了稍微总结,仅供参考
(借鉴:https://blog.csdn.net/Q2605894893/article/details/81327027)
from sklearn.ensemble import RandomForestRegressor
def fill_na_regression(df): # 利用随机森林回归填充
df_blank= df[['column1','column2', 'column3']]
weixin_38576811
- 粉丝: 6
- 资源: 890
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论5