pd.DataFrame常用统计函数

时间: 2023-11-03 16:57:16 浏览: 208

pandas教程

5星 · 资源好评率100%

### pandas教程知识点详解 #### 一、DataFrame入门与创建 - **DataFrame概念**: DataFrame是pandas库中的核心数据结构之一，可视为一个二维表格型数据结构，类似于Excel电子表格或SQL表格。它由一系列Series（一维数组）组成，每个Series代表一列。 - **导入pandas与numpy**: 在Python环境中，通常会首先导入pandas和numpy库以便后续使用。常用别名`pd`和`np`。 ```python import pandas as pd import numpy as np ``` - **创建DataFrame**: - **使用numpy创建随机数据**: 可以利用numpy的`randn`函数生成随机数据，并结合自定义的时间索引创建DataFrame。 ```python dates = pd.date_range('20230101', periods=6) df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD')) ``` - **使用字典创建DataFrame**: 如果已有结构化的数据，可以使用字典的方式创建DataFrame。字典中的键表示列名，值为对应的列数据。 ```python data = {'A': [1, 2, 3, 4], 'B': [5, 6, None, 8]} df = pd.DataFrame(data) ``` - **处理不同长度的列**: 当字典中列的数据长度不同时，DataFrame会以最长的列为基准填充其他较短的列。 ```python data = {'A': [1, 2, 3, 4], 'B': [5, 6, 7]} df = pd.DataFrame(data) # 输出: B列的最后一个元素会被填充为NaN ``` - **查看DataFrame的基本信息**: - **数据类型**: 使用`.dtypes`查看各列的数据类型。 - **所有数据**: 直接打印DataFrame即可查看全部数据。 - **前几行数据**: 使用`.head()`查看前几行数据，默认为前5行；可以通过传递参数指定行数。 - **后几行数据**: 使用`.tail()`查看后几行数据，默认为后5行；同样可通过参数指定。 - **索引**: 使用`.index`查看索引信息。 - **列名**: 使用`.columns`查看列名信息。 - **数据值**: 使用`.values`获取数据值数组。 - **描述性统计**: 使用`.describe()`获得描述性统计信息，包括计数、平均值、标准差等。 #### 二、DataFrame选择数据 - **选择特定列**: 可以通过指定列名的方式选择特定列。 ```python df['A'] # 选择A列 ``` - **切片操作**: DataFrame支持类似列表的切片操作，但需要注意，这种方式选择的是行而不是列。 ```python df[1:3] # 选择索引为1和2的行 ``` - **使用标签选择数据**: `loc`方法可以按标签选择数据，既可以单独选择行或列，也可以选择子集。 ```python df.loc['20230102'] # 选择索引为'20230102'的行 df.loc[:, ['A', 'B']] # 选择所有行的A和B列 df.loc['20230102', 'A'] # 选择'20230102'行的'A'列 ``` - **使用at和iat选择单个元素**: `at`和`iat`方法可以用来选择单个元素，其中`iat`更高效。 ```python df.at['20230102', 'A'] # 选择'20230102'行的'A'列 df.iat[1, 1] # 选择索引为1的行和索引为1的列 ``` #### 三、DataFrame切片操作 - **使用iloc方法**: 类似于numpy的数组切片，`iloc`方法提供基于位置的索引。 ```python df.iloc[3] # 选择第4行 df.iloc[3:5, 0:2] # 选择第4和5行以及第1和2列 df.iloc[[1, 3], [0, 2]] # 选择索引为1和3的行以及索引为0和2的列 df.iloc[:, 1] # 选择所有行的第2列 df.iloc[1, :] # 选择第2行的所有列 df.iloc[1, 1] # 选择第2行第2列的元素 ``` - **使用iat方法**: `iat`方法提供了一种更高效的单个元素访问方式。 ```python df.iat[1, 1] # 选择第2行第2列的元素 ``` #### 四、Dataframe筛选数据 - **基本筛选**: 可以使用条件表达式进行数据筛选。 ```python df[df['D'] > 0] # 筛选D列大于0的行 ``` - **多条件筛选**: 使用逻辑运算符`&`和`|`进行多条件筛选。 ```python df[(df['A'] > 0) & (df['B'] < 0)] # A列大于0且B列小于0的行 ``` - **使用isin方法**: `isin`方法可以用来筛选特定值的行。 ```python alist = [1, 2] df[df['D'].isin(alist)] # D列包含1或2的行 ``` #### 五、读取csv数据 - **读取csv文件**: pandas提供了`read_csv`函数来方便地读取CSV文件。 ```python df = pd.read_csv('file.csv') ``` 这个函数支持多种参数设置，如指定分隔符、编码等，以适应不同的CSV文件格式。以上是pandas教程中关于DataFrame的基础知识点介绍，涵盖了DataFrame的创建、选择、切片以及数据筛选等核心功能。pandas库的强大之处在于它不仅提供了丰富的数据处理功能，还使得这些操作变得异常简单直观。随着对pandas的深入学习，你将能够更加熟练地处理各种数据场景。

Pandas 的 DataFrame 类提供了许多常用的统计函数，用于计算和分析数据。以下是一些常用的统计函数示例： - `df.mean()`: 计算每列的平均值。 - `df.median()`: 计算每列的中位数。 - `df.min()`: 计算每列的最小值。 - `df.max()`: 计算每列的最大值。 - `df.std()`: 计算每列的标准差。 - `df.var()`: 计算每列的方差。 - `df.sum()`: 计算每列的总和。 - `df.count()`: 计算每列的非空值数量。 - `df.describe()`: 提供有关每列的基本统计摘要，包括计数、均值、标准差、最小值、25%、50%、75% 分位数和最大值。这些函数可以应用于整个 DataFrame，或者通过指定轴参数应用于特定的行或列。你还可以通过在这些函数后面添加 `axis` 参数来指定计算的轴方向，默认为按列计算。除了上述示例之外，Pandas 还提供了许多其他统计函数，如协方差、相关性、百分位数等。你可以根据具体的需求选择适当的函数来分析和处理数据。

阅读全文

pd.DataFrame常用统计函数

相关推荐

Pandas入门教程：创建Series与DataFrame详解

pandas入门教程：序列与DataFrame操作解析

pd.dataframe用法

pd.DataFrame.describe()

pd.dataframe的用法

df: pd.DataFrame

pd.dataframe.groupby.mean()

python中pd.dataframe的用法

解决pandas.DataFrame.fillna 填充Nan失败的问题

Python pandas.DataFrame 找出有空值的行

DataFrame中apply函数的强大应用

dataframe数据统计

pd.value_count

pd.read_excel的返回值

data=pd.read_csv

DataFrame函数

data = pd.read_csv(path)

df=pd.read_csv('33.csv')

最新推荐

Pandas读取MySQL数据到DataFrame的方法

若依管理存在任何文件读取漏洞检测系统，渗透测试.zip

Python中快速友好的MessagePack序列化库msgspec

管理建模和仿真的文件

STM32 HAL库函数手册精读：最佳实践与案例分析

如何利用FineReport提供的预览模式来优化报表设计，并确保最终用户获得最佳的交互体验？

大学生社团管理系统设计与实现

"互动学习：行动中的多样性与论文攻读经历"

STM32 HAL库深度解析：新手到高手的进阶之路

如何使用pyCUDA库在GPU上进行快速傅里叶变换（FFT）以加速线性代数运算？请提供具体的代码实现。