Pandas数据统计实验结果和分析
时间: 2023-06-26 16:05:06 浏览: 146
Pandas 测试用数据集
在 Pandas 中进行数据统计和分析可以帮助我们更加深入地了解数据的特征和规律。以下是一个简单的实验,展示如何使用 Pandas 进行数据统计和分析。
假设我们有一份包含学生成绩的数据集,包含以下字段:
- 学生姓名
- 学号
- 成绩
首先,我们需要导入 Pandas 并读取数据集:
```python
import pandas as pd
df = pd.read_csv('student_scores.csv')
```
接着,我们可以使用 `describe()` 方法来查看数据的基本统计信息:
```python
print(df.describe())
```
输出结果可能类似于:
```
成绩
count 100.000000
mean 75.000000
std 13.638181
min 50.000000
25% 63.750000
50% 75.000000
75% 86.250000
max 100.000000
```
从这些统计信息中,我们可以了解到以下几个方面的信息:
- 数据集中共有 100 条记录。
- 学生成绩的平均值为 75 分。
- 学生成绩的标准差为 13.64 分,表示成绩的分布比较分散。
- 最低分为 50 分,最高分为 100 分。
- 中位数为 75 分,表示一半的学生成绩在 75 分及以下,一半的学生成绩在 75 分及以上。
- 25% 的学生成绩在 63.75 分及以下,75% 的学生成绩在 86.25 分及以下。
接下来,我们可以使用 `groupby()` 方法对数据进行分组,统计每个学生的平均分数:
```python
grouped = df.groupby('学生姓名')
result = grouped.mean()
print(result)
```
输出结果可能类似于:
```
成绩
学生姓名
张三 76.666667
李四 73.333333
王五 78.333333
```
从这个结果中,我们可以了解到每个学生的平均分数,以及不同学生之间成绩的差异。
最后,我们可以使用 `plot()` 方法来绘制成绩分布的直方图:
```python
df['成绩'].plot(kind='hist', bins=10)
```
这会生成一个直方图,用于展示成绩分布的情况。
通过这些简单的数据统计和分析,我们可以更好地了解数据的特征和规律,从而为后续的决策和分析提供参考。
阅读全文