jupyter notebook数据与分析豆瓣top250
时间: 2024-01-04 22:20:29 浏览: 190
以下是使用Jupyter Notebook进行数据分析和可视化的步骤:
1. 导入所需的库:
```python
import pandas as pd
import matplotlib.pyplot as plt
```
2. 读取数据文件:
```python
data = pd.read_csv('豆瓣电影Top250.csv')
```
3. 数据预处理:
```python
# 查看数据前几行
data.head()
# 查看数据信息
data.info()
# 处理缺失值
data.dropna(inplace=True)
# 处理重复值
data.drop_duplicates(inplace=True)
```
4. 数据分析与可视化:
```python
# 分析上映年份分布
year_counts = data['上映年份'].value_counts().sort_index()
plt.bar(year_counts.index, year_counts.values)
plt.xlabel('上映年份')
plt.ylabel('电影数量')
plt.title('豆瓣电影Top250上映年份分布')
plt.show()
# 分析评分分布情况
plt.hist(data['评分'], bins=10, range=(0, 10))
plt.xlabel('评分')
plt.ylabel('电影数量')
plt.title('豆瓣电影Top250评分分布情况')
plt.show()
# 分析评论人数TOP10
top10_comments = data.nlargest(10, '评论人数')
plt.bar(top10_comments['电影名称'], top10_comments['评论人数'])
plt.xlabel('电影名称')
plt.ylabel('评论人数')
plt.title('豆瓣电影Top250评论人数TOP10')
plt.xticks(rotation=90)
plt.show()
# 分析导演排名
director_counts = data['导演'].value_counts().nlargest(10)
plt.bar(director_counts.index, director_counts.values)
plt.xlabel('导演')
plt.ylabel('电影数量')
plt.title('豆瓣电影Top250导演排名')
plt.xticks(rotation=90)
plt.show()
# 分析电影类型图
genres = data['电影类型'].str.split('/').apply(pd.Series).stack().value_counts()
plt.pie(genres.values, labels=genres.index, autopct='%1.1f%%')
plt.title('豆瓣电影Top250电影类型图')
plt.axis('equal')
plt.show()
```
阅读全文