Pandas分组与聚合操作详解及示例

201 浏览量更新于2024-09-01 收藏 45KB PDF 举报

定义聚合函数进行计算在Pandas中，除了内置的聚合函数外，我们还可以自定义聚合函数来满足特定的计算需求。这通常通过`apply()`函数实现。例如，我们可以定义一个函数计算数据的标准差： ```python def custom_std(x): return x.std() # 应用自定义函数进行聚合运算 df_grouped = df.groupby('key1').apply(custom_std) print(df_grouped) ``` 2. 分组运算分组运算允许我们将数据按照一个或多个列的值进行分割，然后对每个分组分别进行操作。Pandas中的`groupby()`函数是进行分组操作的关键。 (1)分组后筛选我们可以结合`groupby()`与条件筛选来进一步处理数据。例如，筛选出`data1`列大于平均值的分组： ```python # 筛选data1大于平均值的分组 mean_data1 = df['data1'].mean() filtered_df = df[df['data1'] > mean_data1] grouped_filtered = filtered_df.groupby('key1') print(grouped_filtered.sum()) ``` (2)分组后排序在分组运算后，我们还可以对结果进行排序。可以按分组内值的大小或分组本身的名称进行排序： ```python # 按照分组后的data1总和降序排序 sorted_df = df.groupby('key1').sum().sort_values('data1', ascending=False) print(sorted_df) ``` (3)多列分组如果需要同时按照多列进行分组，只需将列名以列表形式传入`groupby()`即可： ```python # 按照key1和key2两列分组 multi_grouped = df.groupby(['key1', 'key2']).sum() print(multi_grouped) ``` (4)分组级别的操作在多层分组中，我们可以对不同级别的分组进行操作，例如，计算每个`key1`下`key2`的最大值： ```python level_max = multi_grouped.max(level=0) print(level_max) ``` 总结 Pandas的聚合运算和分组运算为数据处理提供了强大的功能，能够帮助我们快速汇总、分析数据。通过内置的聚合函数和自定义函数，我们可以进行多种统计计算。而分组运算则让我们可以按需对数据进行分割、筛选和排序，极大地提升了数据分析的效率和精度。在实际工作中，熟练掌握这些操作对于数据科学家和分析师来说至关重要。

Pandas聚合运算和分组运算的实现示例聚合运算和分组运算的实现示例

主要介绍了Pandas聚合运算和分组运算的实现示例，文中通过示例代码介绍的非常详细，对大家的学习或者工

作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

1.聚合运算聚合运算

(1)使用内置的聚合运算函数进行计算

1>内置的聚合运算函数

sum(),mean(),max(),min(),size(),describe()...等等

2>应用聚合运算函数进行计算

import numpy as np

import pandas as pd

#创建df对象

dict_data = {

'key1':['a','b','c','d','a','b','c','d'],

'key2':['one','two','three','one','two','three','one','two'],

'data1':np.random.randint(1,10,8),

'data2':np.random.randint(1,10,8)

}

df = pd.DataFrame(dict_data)

print(df)

'''

data1 data2 key1 key2

0 3 4 a one

1 7 9 b two

2 5 7 c three

3 3 4 d one

4 8 7 a two

5 4 7 b three

6 8 9 c one

7 4 4 d two

'''

#根据key1分组,进行sum()运算

df = df.groupby('key1').sum()

print(df)

'''

key1

a 12 10

b 8 5

c 8 11

d 16 13

'''

#内置的聚合函数

print(df.groupby('key1').sum())

print('*'*50)

print(df.groupby('key1').max())

print('*'*50)

print(df.groupby('key1').min())

print('*'*50)

print(df.groupby('key1').mean())

print('*'*50)

print(df.groupby('key1').size())

print('*'*50)

#分组中非Nan数据的数量

print(df.groupby('key1').count())

print('*'*50)

print(df.groupby('key1').describe())

(2)自定义聚合函数进行计算

在使用自定义聚合函数的时候,需要用到一个agg()函数

#自定义聚合函数

#最大值-最小值

def peak_range(df):

#返回数据范围差值

return df.max()**2 - df.min()**2

#agg() 可以将聚合计算的结果祖闯成一个dataframe对象返回

print(df.groupby('key1').agg(peak_range))

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38638596

粉丝: 3
资源: 984

Pandas分组与聚合操作详解及示例

pandas数据分组和聚合操作方法

python3数据聚合与分组运算.docx

Python Pandas：聚合与分组运算详解及示例

pandas数据聚合与分组操作全解析

Python pandas对excel的操作实现示例

Python数据处理单元四 使用pandas进行数据分组与聚合.docx

DataWrangling_Tutorial：使用pandas，numpy和matplotlib进行Python数据整理的演练。 示例数据来自收集的汽车数据集

numpy和pandas实现相关数据预处理操作.zip

Pandas中的数据分组与聚合

Pandas数据分组分析实战教程：从分组运算到聚合函数，全面掌握分组技巧

最新资源

Python数据处理单元四使用pandas进行数据分组与聚合.docx

DataWrangling_Tutorial：使用pandas，numpy和matplotlib进行Python数据整理的演练。示例数据来自收集的汽车数据集