电影演员数据分析Python代码
时间: 2024-06-14 13:01:58 浏览: 170
在Python中分析电影演员的数据通常涉及到数据收集、清洗、处理和可视化几个步骤。以下是一个简化的示例,展示如何使用pandas库处理CSV文件中的演员信息,并计算一些基本的统计量:
```python
# 导入所需的库
import pandas as pd
import matplotlib.pyplot as plt
# 假设你有一个名为"actors_data.csv"的CSV文件,其中包含演员姓名(name)、出生地(birthplace)、出演作品数(films)等字段
data = pd.read_csv('actors_data.csv')
# 1. 加载数据
df = pd.DataFrame(data)
# 2. 数据清洗
# 检查并处理缺失值
df = df.dropna() # 删除有缺失值的行,或用其他方法填充缺失值
# 3. 数据预处理
# 将名字转换为小写或统一格式
df['name'] = df['name'].str.lower()
# 4. 数据分析
# 计算每个演员的平均作品数
average_films = df.groupby('name')['films'].mean()
# 按作品数降序排序
top_actors = average_films.sort_values(ascending=False)
# 5. 可视化结果
# 绘制条形图展示Top N演员的平均作品数
plt.figure(figsize=(10, 6))
top_actors.head(10).plot(kind='bar', title='Top Actors by Average Filmography')
plt.xlabel('Actor')
plt.ylabel('Average Films')
plt.show()
#
阅读全文