df.describe()详解
时间: 2023-12-16 10:03:37 浏览: 235
Pandas数据结构详解.pdf
`df.describe()` 是 Pandas DataFrame 的一个函数,用于计算给定数据集的统计信息。它返回一个包含数据集的基本统计信息的 DataFrame,包括计数、均值、标准差、最小值、25% 分位数、50% 分位数(中位数)、75% 分位数和最大值。
具体来说,`df.describe()` 函数计算以下统计信息:
- count:每个列中的非空值数量。
- mean:每个列中的平均值。
- std:每个列中的标准差。
- min:每个列中的最小值。
- 25%:每个列中的 25% 分位数,也就是数据集中的 25% 分位数。
- 50%:每个列中的 50% 分位数,也就是数据集中的中位数。
- 75%:每个列中的 75% 分位数,也就是数据集中的 75% 分位数。
- max:每个列中的最大值。
`df.describe()` 可以对数值型数据和非数值型数据都起作用,但它只计算数值型数据的统计信息。如果数据集中有缺失值,则将不会计算缺失值所在列的统计信息。
需要注意的是,`df.describe()` 函数返回的统计信息 DataFrame 中的列名是原始数据集中的列名,而不是统计信息的列名。如果需要自定义列名,可以使用 `df.describe().rename()` 函数进行重命名。
阅读全文