读取Excel 2007文件中的数据,统计所有演员的参演电影信息。 假设有个Excel 2007文件“电影导演演员.xlsx”,其中有三列分别为电影名称、导演和演员列表(同一个电影可能会有多个演员,每个演员姓名之间使用逗号分隔)。现在要求统计每个演员的参演电影分别是哪些。
时间: 2023-06-14 08:08:28 浏览: 366
读取Excel文档并汇总数据
可以使用Python中的pandas库来读取Excel文件,并且便于进行数据处理和统计。具体实现步骤如下:
1. 安装pandas库,可以使用pip install pandas命令进行安装。
2. 导入pandas库并读取Excel文件,代码如下:
```
import pandas as pd
data = pd.read_excel('电影导演演员.xlsx')
```
3. 对演员列表进行拆分,将一个电影的演员列表分别拆分为多个演员姓名,可以使用Python中的split方法,代码如下:
```
actors = data['演员列表'].str.split(',')
```
4. 将拆分后的演员姓名与电影名称进行组合,可以使用pandas的explode方法,代码如下:
```
data = data.assign(演员=actors).explode('演员')
```
5. 对每个演员的参演电影进行统计,可以使用pandas的groupby方法,代码如下:
```
result = data.groupby('演员')['电影名称'].apply(list)
```
最终得到的result就是每个演员参演电影的列表。可以将结果输出到文件或者进行其他处理。
阅读全文