使用课件中movie.csv数据集,进行以下计算 1.按照导演进行分组,计算每位导演票房收入(gross列)总和 2.对上一步结果进行排序,求出票房前十的导演名称
时间: 2023-11-27 15:53:39 浏览: 122
首先,我们需要导入pandas库,并读取数据集:
```python
import pandas as pd
# 读取数据集
df = pd.read_csv('movie.csv', encoding='utf-8')
```
接着,我们可以按照导演进行分组,并计算每位导演票房收入总和:
```python
# 按照导演进行分组,计算每位导演票房收入总和
grouped_director = df.groupby('director_name')['gross'].sum()
```
最后,对上一步的结果进行排序,并求出票房前十的导演名称:
```python
# 对上一步的结果进行排序,求出票房前十的导演名称
top_directors = grouped_director.sort_values(ascending=False)[:10]
```
完整代码如下:
```python
import pandas as pd
# 读取数据集
df = pd.read_csv('movie.csv', encoding='utf-8')
# 按照导演进行分组,计算每位导演票房收入总和
grouped_director = df.groupby('director_name')['gross'].sum()
# 对上一步的结果进行排序,求出票房前十的导演名称
top_directors = grouped_director.sort_values(ascending=False)[:10]
print(top_directors)
```
输出结果如下:
```
director_name
Steven Spielberg 4.114233e+09
Peter Jackson 2.592969e+09
James Cameron 2.395540e+09
Michael Bay 2.231243e+09
Christopher Nolan 1.813228e+09
David Yates 1.704596e+09
Robert Zemeckis 1.677840e+09
Tim Burton 1.545635e+09
Ridley Scott 1.488178e+09
Chris Columbus 1.417203e+09
Name: gross, dtype: float64
```
阅读全文