Python3 Pandas：数据累计与分组详解

97 浏览量更新于2024-08-31 收藏 267KB PDF 举报

在本文档中，我们将深入探讨Python编程语言中的Pandas库在数据分析中的关键功能——累计与分组。Pandas是用于数据处理和分析的强大工具，特别适用于大数据集的操作。本篇内容分为两个部分： **一、Pandas的简单累计功能** 首先，我们介绍了如何使用Pandas进行简单的累计操作。通过`Series`和`DataFrame`对象，我们可以计算一系列数值的总和（sum()）、平均值（mean()）、中位数（median()）、最小值（min()）和最大值（max()）。例如，我们创建了一个随机数序列`ser`，用`rng`生成一组浮点数，然后分别计算其各统计指标。对于`DataFrame`对象`df`，不仅有行级别的平均值，还可以按列计算平均值，以及通过`axis`参数指定计算方向。 **二、GroupBy：分割、应用和组合** 接下来，文档重点讲解了Pandas的GroupBy功能，它允许我们将数据集按照特定的列（key）进行分割，并在每个子组上执行聚合操作。GroupBy提供了强大的灵活性，可以执行多种操作，包括： 1. **分割、应用和组合**：将数据集分割成多个子集，对每个子集执行不同的函数，最后合并结果。 2. **GroupBy对象**：这是Pandas提供的核心工具，可以应用于DataFrame或Series，用于根据指定的键进行分组。 3. **累计、过滤、转换和应用**：除了基础的聚合，还可以进行累计（cumulative）操作，如计算每个子组内值的累加，或者在满足特定条件时进行过滤。 4. **设置分割的键**：确定如何划分数据，可以选择单列或多列作为分组依据。以行星数据集`planets.csv`为例，我们展示了如何使用Pandas读取数据并进行预处理，包括计算缺失值后的描述性统计，以及利用GroupBy功能对行星数据进行更复杂的分析。通过这篇文章，读者将掌握Pandas库在数据累计和分组处理中的核心操作技巧，这对于数据分析、数据清洗和报告生成等工作至关重要。理解并熟练运用这些功能，能够大大提高数据处理的效率和质量。

[Python3] Pandas —— (五五) 累计与分组累计与分组

文章目录文章目录八、累计与分组（一）Pandas的简单累计功能Pandas的累计方法（二）GroupBy：分割、应用和组合1. 分割、应用

和组合2. GroupBy 对象3. 累计、过滤、转换和应用4. 设置分割的键

八、累计与分组八、累计与分组

在对较大的数据进行分析时，一项基本的工作就是有效的数据累计（summarization）：计算累计（aggregation）指标，

如sum(), mean(), median(), min(), max() ，其中每一个指标都呈现了大数据集的特征。

（一）（一）Pandas的简单累计功能的简单累计功能

import numpy as np

import pandas as pd

rng = np.random.RandomState(42)

ser = pd.Series(rng.rand(5))

# 0 0.374540

# 1 0.950714

# 2 0.731994

# 3 0.598658

# 4 0.156019

# dtype: float64

ser.sum() # 2.811925491708157

ser.mean() # 0.5623850983416314

df = pd.DataFrame({'A': rng.rand(5), 'B': rng.rand(5)})

# A B

# 0 0.155995 0.020584

# 1 0.058084 0.969910

# 2 0.866176 0.832443

# 3 0.601115 0.212339

# 4 0.708073 0.181825

df.mean()

# A 0.477888

# B 0.443420

# dtype: float64

df.mean(axis='columns')

# 0 0.088290

# 1 0.513997

# 2 0.849309

# 3 0.406727

# 4 0.444949

# dtype: float64

# 行星数据集

planets = pd.read_csv('./seaborn-data-master/planets.csv')

planets.shape # (1035, 6)

planets.head()

planets.dropna().describe()

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38719719

粉丝: 11

Python3 Pandas：数据累计与分组详解

掌握Python数据分析利器——pandas库的功能与优势

掌握Python与Pandas：数据处理与分析实战指南

Python与Pandas数据分析速成教程

[Python3] Pandas —— (三) 层级索引

covid-19_US：基于Johns Hopkins利用Python以及Pandas和Matplotlib发布的数据，在美国显示Covid-19案例

python疫情数据可视化_Python疫情_python_疫情数据_数据可视化_疫情_

Python之Numpy的超实用基础详细教程

Python3数据分析：CSV读取与基础统计操作详解

Python数据科学：网络数据加载与Matplotlib教程

数据科学遇见金融：Fama French五因子模型的Python案例分析与应用

最新资源