Python 中过滤 Pandas 数据框的多种方法总结

需积分: 5 141 浏览量更新于2024-08-03 收藏 22KB DOCX 举报

PYTHON：过滤 PANDAS DATAFRAME 的 10 种方法在 Python 中，过滤 pandas 数据框是非常常见的数据操作之一。它类似于 SQL 中的 WHERE 子句，或者您必须在 MSExcel 中使用过滤器来根据某些条件选择特定的行。在速度方面，Python 有一种高效的方式来执行过滤和聚合。它有一个名为 pandas 的优秀包，用于数据整理任务。Pandas 建立在用 C 语言编写的 NumPy 包之上，这是一种低级语言。因此，使用包进行数据操作是处理大型数据集的快速而智能的方法。数据过滤是预测建模或任何报告项目的数据准备的最初始步骤之一。它也被称为“子集数据”。在下面，我们将介绍在 Python 中过滤 pandas 数据框的 10 种方法。方法一：使用 DataFrame 方式选择 JetBlue Airways 的航班详情，该航班有 2 个字母的承运人代码 B6，来自 JFK 机场。 `newdf = df[(df.origin=="JFK")&(df.carrier=="B6")]` 方法二：使用布尔索引选择所有从 JFK 机场出发的航班，并且承运人代码为 B6。 `newdf = df[(df.origin=="JFK")&(df.carrier=="B6")]` 方法三：使用 query 方法选择所有从 JFK 机场出发的航班，并且承运人代码为 B6。 `newdf = df.query('origin=="JFK" and carrier=="B6"')` 方法四：使用 loc 方法选择所有从 JFK 机场出发的航班，并且承运人代码为 B6。 `newdf = df.loc[(df.origin=="JFK")&(df.carrier=="B6")]` 方法五：使用 iloc 方法选择所有从 JFK 机场出发的航班，并且承运人代码为 B6。 `newdf = df.iloc[(df.origin=="JFK")&(df.carrier=="B6")]` 方法六：使用 apply 方法选择所有从 JFK 机场出发的航班，并且承运人代码为 B6。 `newdf = df.apply(lambda x: x[(x.origin=="JFK")&(x.carrier=="B6")], axis=1)` 方法七：使用 groupby 方法选择所有从 JFK 机场出发的航班，并且承运人代码为 B6。 `newdf = df.groupby(['origin', 'carrier']).get_group(('JFK', 'B6'))` 方法八：使用 pivot_table 方法选择所有从 JFK 机场出发的航班，并且承运人代码为 B6。 `newdf = df.pivot_table(index='origin', columns='carrier', values='flight')` 方法九：使用 melt 方法选择所有从 JFK 机场出发的航班，并且承运人代码为 B6。 `newdf = pd.melt(df, id_vars=['origin', 'carrier'], value_vars=['flight'])` 方法十：使用 merge 方法选择所有从 JFK 机场出发的航班，并且承运人代码为 B6。 `newdf = pd.merge(df, df[['origin', 'carrier']], on=['origin', 'carrier'])` 在上述方法中，我们可以看到，pandas 提供了多种方式来过滤数据框，从而满足不同的需求和场景。

在本文中，我们将介绍在 Python 中过滤 pandas 数据框的各种方法。数据过

滤是最常见的数据操作之一。它类似于 SQL 中的 WHERE 子句，或者您必须在

MS Excel 中使用过滤器来根据某些条件选择特定的行。在速度方面，python

有一种高效的方式来执行过滤和聚合。它有一个名为 pandas 的优秀包，用于

数据整理任务。Pandas 建立在用 C 语言编写的 numpy 包之上，这是一种低级

语言。因此，使用包进行数据操作是处理大型数据集的快速而智能的方法。

数据过滤示例

它是预测建模或任何报告项目的数据准备的最初始步骤之一。它也被称为“子

集数据”。请参阅下面的一些数据过滤示例。

导入数据

在提交以下代码之前，请确保已安装pandas 包，您可以通过在 Ipython 控

制台中运行!pip show pandas 语句来检查它。如果没有安装，可以使用命令安

装!pip install pandas。

我们将使用包含 2013 年从纽约起飞的航班详细信息的数据集。该数据集有

336776 行和 16 列。请参阅下面的列名称。要导入数据集，我们使用

read_csv( )pandas 包中的函数。

['year', 'month', 'day', 'dep_time', 'dep_delay', 'arr_time',

'arr_delay', 'carrier', 'tailnum', 'flight', 'origin', 'dest',

'air_time', 'distance', 'hour', 'minute']

import pandas as pd

df =

pd.read_csv("https://raw.githubusercontent.com/JackyP/testing/master/

datasets/nycflights.csv", usecols=range(1,17))

按列值过滤熊猫数据框

选择 JetBlue Airways 的航班详情，该航班有 2 个字母的承运人代码 B6，来

自 JFK 机场

方法一：DataFrame 方式

newdf = df[(df.origin == "JFK") & (df.carrier == "B6")]

newdf.head()

Out[23]:

year month day dep_time ... air_time distance hour minute

3 2013 1 1 544.0 ... 183.0 1576 5.0 44.0

8 2013 1 1 557.0 ... 140.0 944 5.0 57.0

下载后可阅读完整内容，剩余6页未读，立即下载

geeks老师

粉丝: 1865
资源: 51

Python 中过滤 Pandas 数据框的多种方法总结

如何重命名 PANDAS DATAFRAME 中的列.docx

python的pandas存储信息的方法.docx

数据挖掘技术与应用：DataFrame数据基本查看方式.docx

Python数据分析与应用教案Pandas统计分析基础教案.docx

pandas大数据分析笔记.docx

Pandas学习笔记常用功能.docx

Python 数据分析包：pandas 基础.docx

python-pandas-例子.docx

Python pandas数据转化.docx

Python pandas怎么使用.docx

最新资源