Python数据清洗必会：7种实用方法处理重复与缺失值

27 浏览量更新于2024-08-31 收藏 254KB PDF 举报

在进行数据分析时，数据清洗是至关重要的一步，包括处理重复值和缺失值。本文将详细介绍Python中的pandas库如何有效地进行这两方面的数据清洗工作。 **01. 处理重复值** 重复数据在数据录入和整合过程中常见，pandas库提供了两个关键方法来处理这个问题。`duplicated()`函数用于检查数据集中是否存在重复项，返回一个布尔值的Series，表明哪些行是重复的。例如： ```python df.duplicated() # 查看重复项 ``` 如果需要删除重复项，可以使用`drop_duplicates()`方法，它可以按指定列进行去重，如删除id列的重复记录： ```python df.drop_duplicates(subset='id', keep='first') # 删除id列重复的第一条记录 ``` **02. 处理缺失值** 缺失值处理需要根据数据特点和业务背景进行。pandas的`fillna()`方法可用于填充缺失值，可以采用均值、中位数或众数等统计量进行填补。例如，用列均值填充`score`列的缺失值： ```python df['score'].fillna(df['score'].mean(), inplace=True) # 用平均值填充缺失值 ``` 对于分类变量，可以选择不填补，仅作为一类处理，或者使用众数填补。在缺失值较多时（超过80%），可能需要创建一个缺失值指示变量，利用pandas的`isnull()`方法生成： ```python df['score_missing'] = df['score'].isnull().astype(int) # 创建缺失值指示变量 ``` 此外，还可以通过`fillna`方法设置特定值进行填充，如用分位数填充： ```python df['score'].fillna(df['score'].quantile(0.5), inplace=True) # 用中位数填充 ``` Python的pandas库提供了丰富的工具来处理数据清洗，无论是重复值的检测和去除，还是缺失值的合理填充，都能帮助我们确保数据的质量，从而提高后续数据分析的准确性。在实际操作中，需要灵活运用这些方法，并结合业务逻辑，进行精细化的数据清洗。

干货：用干货：用Python进行数据清洗，这进行数据清洗，这7种方法你一定要掌握种方法你一定要掌握

导读：数据清洗是数据分析的必备环节，在进行分析过程中，会有很多不符合分析要求的数据，例如重复、错误、缺失、异常

类数据。

01 重复值处理

数据录入过程、数据整合过程都可能会产生重复数据，直接删除是重复数据处理的主要方法。pandas提供查看、处理重复数

据的方法duplicated和drop_duplicates。以如下数据为例:

发现重复数据通过duplicated方法完成，如下所示，可以通过该方法查看重复的数据。

需要去重时，可drop_duplicates方法完成：

drop_duplicates方法还可以按照某列去重，例如去除id列重复的所有记录：

02 缺失值处理

缺失值是数据清洗中比较常见的问题，缺失值一般由NA表示，在处理缺失值时要遵循一定的原则。

首先，需要根据业务理解处理缺失值，弄清楚缺失值产生的原因是故意缺失还是随机缺失，再通过一些业务经验进行填补。一

般来说当缺失值少于20%时，连续变量可以使用均值或中位数填补；分类变量不需要填补，单算一类即可，或者也可以用众数

填补分类变量。

当缺失值处于20%-80%之间时，填补方法同上。另外每个有缺失值的变量可以生成一个指示哑变量，参与后续的建模。当缺

失值多于80%时，每个有缺失值的变量生成一个指示哑变量，参与后续的建模，不使用原始变量。

在下图中展示了中位数填补缺失值和缺失值指示变量的生成过程。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38692969

粉丝: 4
资源: 953

Python数据清洗必会：7种实用方法处理重复与缺失值

Python教程全程干货无废话

python数据分析-数据下的奥运百年-Kaggle数据研究

干货 十分钟带你从入门到进阶python爬虫.docx

精品版干货课件 数据挖掘技术及其应用 浙江大学研究生自动化相关课程 含示例：加热炉生产质量数据挖掘 共8个章节177页.rar

精品 干货 数据挖掘数据分析配套纯英文版教程课件 共10个章节 含配套数据源和源代码.rar.rar

超全面干货课件 数据挖掘技术及应用(最全面的理论+最佳案例组合) 共五个部分 584页.rar

计算机学习与就业干货知识

Python金融分析与量化交易实战视频教程.rar

数据竞赛Top5选手的机器学习与大数据经验分享

学生博主分享Pandas实战笔记，提升数据分析技能

最新资源

干货十分钟带你从入门到进阶python爬虫.docx

精品版干货课件数据挖掘技术及其应用浙江大学研究生自动化相关课程含示例：加热炉生产质量数据挖掘共8个章节177页.rar

精品干货数据挖掘数据分析配套纯英文版教程课件共10个章节含配套数据源和源代码.rar.rar

超全面干货课件数据挖掘技术及应用(最全面的理论+最佳案例组合) 共五个部分 584页.rar