Python Pandas与NumPy数据清洗六大实战技巧

PDF格式 | 362KB | 更新于2024-08-31 | 145 浏览量 | 举报

在数据分析和机器学习项目中，数据清洗是一个至关重要的步骤，通常占据了工作流程的大部分时间。本教程着重介绍如何使用Python编程语言中的Pandas和NumPy库来有效地进行数据清洗，以提升数据质量和分析效率。以下是六个关键的清理策略： 1. **删除不必要列**：在处理数据时，可能有些列并不适用于你的特定分析需求。例如，如果你正在分析学生的学习成绩，可能会发现他们的地址和父母姓名对于分析来说并非核心变量。Pandas的`drop()`函数允许你根据列名或索引删除DataFrame中不必要的列。通过实例演示，我们可以学习如何使用`drop()`来移除这些冗余信息，以节省存储空间和提高计算速度。 2. **改变DataFrame的索引**：在某些情况下，数据集可能原始索引不便于分析。Pandas提供了`set_index()`函数，用于将DataFrame的索引转换为所需的格式，如时间序列、唯一标识符或其他有意义的特征。这有助于组织和检索数据。 3. **使用`.str()`方法清洗列**：对于字符串列，`.str()`方法提供了丰富的文本操作，比如去除空格、替换特殊字符或提取特定模式。这对于清理文本数据（如书名、地址）尤其有用。 4. **利用`applymap()`函数按元素清洗**：`applymap()`函数可以应用于DataFrame的每个元素，执行自定义的清洗或转换操作。这对于一致性检查、单位转换或数据规范化很有帮助。例如，可以使用它来处理日期格式、数值异常值或统一数据类型。 5. **重命名列**：为了使数据更容易理解，可以使用`rename()`函数为列重新命名，提供一组更具描述性的标签。这有助于减少误解，提高数据可读性。 6. **过滤CSV文件中的行**：针对特定条件筛选CSV文件中的行是数据清洗过程的一部分。通过`pandas.read_csv()`读取数据后，可以使用布尔索引来选择满足条件的行，然后只保留这些行进行后续分析。在实际操作中，你需要先安装Pandas和NumPy库，然后导入它们并加载所需的数据集，如BL-Flickr-Images-Book.csv、university_towns.txt和olympics.csv。使用Jupyter Notebook作为交互式环境，能够更直观地理解和执行上述清洗步骤。在开始前，确保你对Pandas的Series和DataFrame对象有基本了解，以及NumPy的NaN值处理技巧。通过学习这些方法，你将能更高效地处理和准备数据，从而为后续的分析挖掘和模型构建奠定坚实的基础。记住，数据清洗不仅是技术层面的任务，也是理解业务需求和数据特性的关键环节。

使用使用Pandas&NumPy进行数据清洗的进行数据清洗的6大常用方法大常用方法

数据科学家花了大量的时间清洗数据集，并将这些数据转换为他们可以处理的格式。事实上，很多数据科学家声称开始获取和

清洗数据的工作量要占整个工作的80%。

因此，如果你正巧也在这个领域中，或者计划进入这个领域，那么处理这些杂乱不规则数据是非常重要的，这些杂乱数据包括

一些缺失值，不连续格式，错误记录，或者是没有意义的异常值。

在这个教程中，我们将利用Python的Pandas和Numpy包来进行数据清洗。

主要内容如下：

删除 DataFrame 中的不必要 columns

改变 DataFrame 的 index

使用 .str() 方法来清洗 columns

使用 DataFrame.applymap() 函数按元素的清洗整个数据集

重命名 columns 为一组更易识别的标签

滤除 CSV文件中不必要的 rows

下面是要用到的数据集：

BL-Flickr-Images-Book.csv - 一份来自英国图书馆包含关于书籍信息的CSV文档

university_towns.txt - 一份包含美国各大洲大学城名称的text文档

olympics.csv - 一份总结了各国家参加夏季与冬季奥林匹克运动会情况的CSV文档

你可以从Real Python 的 GitHub repository 下载数据集来进行下面的例子。

注意：建议使用Jupter Notebooks来学习下面的知识。

学习之前假设你已经有了对Pandas和Numpy库的基本认识，包括Pandas的工作基础Series和DataFrame对象，应用到这些对

象上的常用方法，以及熟悉了NumPy的NaN值。

让我们导入这些模块开始我们的学习。

删除DataFrame的列

经常的，你会发现数据集中不是所有的字段类型都是有用的。例如，你可能有一个关于学生信息的数据集，包含姓名，分数，

标准，父母姓名，住址等具体信息，但是你只想分析学生的分数。

这个情况下，住址或者父母姓名信息对你来说就不是很重要。这些没有用的信息会占用不必要的空间，并会使运行时间减慢。

Pandas提供了一个非常便捷的方法drop()函数来移除一个DataFrame中不想要的行或列。让我们看一个简单的例子如何从

DataFrame中移除列。

首先，我们引入BL-Flickr-Images-Book.csv文件，并创建一个此文件的DataFrame。在下面这个例子中，我们设置了一个

pd.read_csv的相对路径，意味着所有的数据集都在Datasets文件夹下的当前工作目录中：

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38537777

粉丝: 4

Python Pandas与NumPy数据清洗六大实战技巧

Python数据清洗之Pandas与Numpy常用方法

爬虫爬取北京天气数据，pandas和numpy处理数据，matplot可视化展示数据，.zip

Python Pandas&NumPy数据清洗实战：6大技巧

DataWrangling_Tutorial：使用pandas，numpy和matplotlib进行Python数据整理的演练。 示例数据来自收集的汽车数据集

爬虫数据清洗与预处理：利用Pandas和NumPy库进行数据转换

【Python数据分析实战】：利用Pandas和NumPy进行数据探索，轻松成为数据分析专家！

数据挖掘与爬虫数据分析：基于Pandas和NumPy的数据处理

数据清洗与预处理：Pandas与Numpy应用

处理海量数据：Linux下Python3.8与Pandas、NumPy的数据分析秘籍

pandas和numpy数据处理基础知识

最新资源

DataWrangling_Tutorial：使用pandas，numpy和matplotlib进行Python数据整理的演练。示例数据来自收集的汽车数据集