和鲸社区-Numpy+Pandas数据处理闯关-关卡5
时间: 2024-01-18 19:02:24 浏览: 134
闯关任务:使用 Pandas 对数据进行分组和聚合操作
闯关步骤:
1. 导入 Pandas 和数据集
```
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Meow-star/Data-Analysis/main/Data/StudentsPerformance.csv')
```
2. 查看数据集
```
df.head()
```
3. 将数据按 race/ethnicity 列进行分组,并计算每组的数学成绩平均值
```
df.groupby('race/ethnicity')['math score'].mean()
```
4. 将数据按 parental level of education 列进行分组,并计算每组的阅读成绩的中位数和语文成绩的平均值
```
df.groupby('parental level of education').agg({'reading score': 'median', 'writing score': 'mean'})
```
5. 将数据按 lunch 列和 test preparation course 列进行分组,并计算每组的数学成绩的最小值和最大值
```
df.groupby(['lunch', 'test preparation course'])['math score'].agg(['min', 'max'])
```
6. 将数据按 race/ethnicity 列和 parental level of education 列进行分组,并计算每组的阅读成绩的最小值和语文成绩的最大值
```
df.groupby(['race/ethnicity', 'parental level of education']).agg({'reading score': 'min', 'writing score': 'max'})
```
7. 将数据按 gender 列进行分组,并计算每组学生的数量、数学成绩的平均值和语文成绩的标准差
```
df.groupby('gender').agg({'math score': 'mean', 'reading score': 'std', 'writing score': 'count'})
```
阅读全文