python显示数据集的统计量,具体包括:样本数、属性数、各属性的 平均值、标准差、中位数。
时间: 2024-09-11 07:11:50 浏览: 70
在Python中,我们可以使用pandas库来处理数据集,并使用其内置的统计函数来显示数据集的统计量。以下是使用pandas进行统计量展示的步骤和代码示例:
1. 首先,需要导入pandas库。如果还没有安装pandas,可以使用pip安装:`pip install pandas`。
2. 接着,创建或加载一个数据集(DataFrame)。
3. 使用`.describe()`方法,可以获取数据集的描述性统计信息,包括样本数、属性数、各属性的平均值、标准差、分位数等。如果需要中位数,可以通过访问`.describe()`返回的数据框的中位数列来获取。
4. 如果需要更详细的统计数据,比如标准差,可以直接使用`.std()`方法。对于中位数,可以使用`.median()`方法。
下面是一个简单的代码示例:
```python
import pandas as pd
# 假设df是已经加载或创建的DataFrame
# 显示数据集的描述性统计信息
stats = df.describe()
# 打印统计信息
print(stats)
# 获取样本数和属性数
sample_size = df.shape[0] # 样本数
attribute_count = df.shape[1] # 属性数
# 打印样本数和属性数
print(f"样本数:{sample_size}")
print(f"属性数:{attribute_count}")
# 获取各属性的标准差
std_dev = df.std()
# 打印各属性的标准差
print("各属性的标准差:")
print(std_dev)
# 获取各属性的中位数
median_values = df.median()
# 打印各属性的中位数
print("各属性的中位数:")
print(median_values)
```
这段代码首先计算了数据集的描述性统计信息,然后分别获取并打印了样本数、属性数、标准差和中位数。
阅读全文