df.rank与pivot_table详解：数据排序与透视表操作

174 浏览量更新于2024-08-29 收藏 670KB PDF 举报

在处理数据分析和数据整理时，Python的数据分析库pandas提供了强大的工具，包括`df.rank`、`pd.pivot_table`和Excel文件读取功能。本文将详细介绍这些功能以及如何运用它们。首先，我们来看`df.rank()`函数。该函数用于对DataFrame或Series中的某一列数据进行排序，并返回一个新的序列，表示原始数据的排名。其关键参数包括： 1. `ascending`：布尔值，决定排序的顺序。默认为True，即从小到大排列；设置为False则按从大到小排序。 2. `method`：控制当数据相等时的排名规则。常见的方法有： - `'average'`：平均排名，例如张三和李四并列第四时，他们的排名取平均值。 - `'max'`：选择较大的排名，如两人仍为第5名，下一位为第6名。 - `'min'`：选择较小的排名，如两人仍是第4名，下一位为第6名。 - `'dense'`：连续排名，两人并列时不会跳过，如第4和第5名之间没有第5.5名。 - `'first'`：先出现的排前，如张三第4，李四第5，下一位第6名。例如，下面的代码创建了一个Series并展示了不同方法下的排名结果： ```python a = pd.Series([1,2,3,4,4,6],index=['小明','小红','小张','张三','李四','王五']) a.rank(ascending=True, method='first') # 按升序且采用'first'规则 ``` 接下来，`pd.pivot_table()`函数是数据透视的核心，它允许将数据按照特定列（index）和值（values）进行汇总和计算。此函数常用参数包括： - `values`：指定要汇总的列或多个列。 - `index`：指定分组的列，作为行标签。 - `columns`：指定另一个列或多个列，作为列标签，用于交叉分组。 - `aggfunc`：聚合函数，默认为求平均值，其他可能包括sum、count、min、max等。 - 其他参数如`fill_value`、`margins`、`dropna`等，分别用于填充缺失值、是否显示汇总行和列等。在实际操作中，`pd.read_excel()`函数用于读取Excel文件中的数据到DataFrame，方便后续分析。例如，读取一个名为"data.xlsx"的Excel文件： ```python data = pd.read_excel('data.xlsx', sheet_name='Sheet1') ``` 最后，DataFrame的操作还涉及到添加新行（行向量插入、追加或替换）、调整行和列的顺序（通过`reindex()`函数）。`reindex()`可以重新索引DataFrame，根据新的行索引值或列索引值，更新DataFrame的行或列，从而实现数据的调整。总结来说，`df.rank()`和`pd.pivot_table()`是数据预处理和数据分析中常用的两个函数，掌握它们能帮助我们有效地对数据进行排序、分组和汇总。同时，结合`pd.read_excel()`，我们可以从外部数据源加载数据进行更深入的分析。通过熟练应用这些工具，可以大大提高数据处理的效率和准确性。

df.rank & pd.pivot_table & pd.read_excel & df添加行添加行 &调整调整df行列顺序行列顺序(reindex再理再理

解）解）

1. df.rank

df.rank针对指定的序列进行排序（从大到小或从小到大），并返回排名的序列（从第一名到最后一名）

rank有两个重要参数：ascending、method。

ascending：为True时，表示按从小到大排列，即最小的为第一名，最大的为倒数第一名；ascending为False，则相反

method：主要控制当两个数值相等时，如何排名。如考试得分，小明和小红都考了100分，两人都是第一名还是一个第一名，一个第二名。此时下一个得99分的是第三名，还是第二

名呢？

average：如下例，张三和李四并列第四名（同时占据第四、第五两个坑），那么两人的排名是4和5的平均值，下一个人是第6名

max：如下例，张三和李四占据第4、第5两个坑，那么两人都是第5名（4/5较大排名那个），下一个人是第6名

min：如下例，张三和李四占据第4、第5两个坑，那么两人都是第4名（4/5较小排名那个），下一个人是第6名

dense：张三和李四并列第四名，但是下一个人是第5名

first：张三和李四，谁先出现谁是第4名，另一个是第5名，下一个人是第6名

a = pd.Series([1, 2, 3, 4, 4, 6], index=['小明', '小红', '小张', '张三', '李四', '王五'])

a.rank(ascending=True, method='first')

小明 1.0

小红 2.0

小张 3.0

张三 4.0

李四 5.0

王五 6.0

dtype: float64

2. pd.pivot_table

pivot_table对应excel中的数据透视表。本章中所用df数据如下：

df.pivot_table有如下参数：

values=None,

index=None,

columns=None,

aggfunc=‘mean’,

fill_value=None,

margins=False,

dropna=True,

margins_name=‘All’,

observed=False,

有些参数不常用就不赘述了，本章主要讲述几个很重要的参数

2.1 index

index即索引，其实透视图就是分组后聚合，index就是按照指定的列分组并作为index，其余列进行聚合操作(其余列应该为剩下的所有列，为什么没有月份一列呢，aggfunc时会讲)。

代码、结果如下：

index也可以选择两列，设置多层索引，如下所示

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38605801

粉丝: 10

df.rank与pivot_table详解：数据排序与透视表操作

Gauss_pivot.zip_gausspivot_matlab pivot_pivot_pivot of gauss_高斯p

EXCEL_PIVOT_TABLE

[博客空间]pivot v1.40.3 多国语言版_pivot_1403_full.zip

train_df=pd.pivot_table(train_df,index=['user_id','behavior_type'],aggfunc={'behavior_type':'count'}) train_df.columns=['user_id','behavior_type','number']

df_vin1_out = df_vin1.pivot_table(index = features, columns = 'MOB', values = ['VINTAGE1','剩余本金']) df_vin1_out = df_vin1_out.rename_axis(None, axis=1).reset_index() df_vin1_out Must pass list-like as `names`.

最新资源