如何使用Python的Pandas库计算统计信息?
时间: 2024-11-12 20:32:32 浏览: 16
在Python中,你可以使用pandas库非常方便地计算数据框(DataFrame)或系列(Series)的统计信息。下面是一个基本的例子:
```python
import pandas as pd
# 假设你有一个名为df的数据框
data = {
'A': [1, 2, 3, 4, 5],
'B': ['a', 'b', 'c', 'd', 'e'],
'C': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)
# 要获取每列的统计信息,可以使用describe()函数
summary_stats = df.describe()
# 对于整个数据框,可以使用整体描述
overall_summary = df.describe(include='all')
# 如果只想针对数值列计算,可以指定include='number'
numeric_summary = df.select_dtypes(include=['int64', 'float64']).describe()
```
上述代码会返回包含计数、平均值、标准差、最小值、25%分位数、中位数、75%分位数和最大值的DataFrame。`describe()`函数默认只适用于数值列,而如果你想包括分类特征,可以添加`include='all'`或筛选出数值列。
阅读全文