首页jupyter notebook数据与分析豆瓣top250

jupyter notebook数据与分析豆瓣top250

时间: 2024-01-04 09:20:29 浏览: 223

以下是使用Jupyter Notebook进行数据分析和可视化的步骤： 1. 导入所需的库： ```python import pandas as pd import matplotlib.pyplot as plt ``` 2. 读取数据文件： ```python data = pd.read_csv('豆瓣电影Top250.csv') ``` 3. 数据预处理： ```python # 查看数据前几行 data.head() # 查看数据信息 data.info() # 处理缺失值 data.dropna(inplace=True) # 处理重复值 data.drop_duplicates(inplace=True) ``` 4. 数据分析与可视化： ```python # 分析上映年份分布 year_counts = data['上映年份'].value_counts().sort_index() plt.bar(year_counts.index, year_counts.values) plt.xlabel('上映年份') plt.ylabel('电影数量') plt.title('豆瓣电影Top250上映年份分布') plt.show() # 分析评分分布情况 plt.hist(data['评分'], bins=10, range=(0, 10)) plt.xlabel('评分') plt.ylabel('电影数量') plt.title('豆瓣电影Top250评分分布情况') plt.show() # 分析评论人数TOP10 top10_comments = data.nlargest(10, '评论人数') plt.bar(top10_comments['电影名称'], top10_comments['评论人数']) plt.xlabel('电影名称') plt.ylabel('评论人数') plt.title('豆瓣电影Top250评论人数TOP10') plt.xticks(rotation=90) plt.show() # 分析导演排名 director_counts = data['导演'].value_counts().nlargest(10) plt.bar(director_counts.index, director_counts.values) plt.xlabel('导演') plt.ylabel('电影数量') plt.title('豆瓣电影Top250导演排名') plt.xticks(rotation=90) plt.show() # 分析电影类型图 genres = data['电影类型'].str.split('/').apply(pd.Series).stack().value_counts() plt.pie(genres.values, labels=genres.index, autopct='%1.1f%%') plt.title('豆瓣电影Top250电影类型图') plt.axis('equal') plt.show() ```

阅读全文