python爬取豆瓣top250电影数据并分析电影类型的代码

好的，以下是相应的Python代码： ```python import requests from bs4 import BeautifulSoup import pandas as pd url = 'https://movie.douban.com/top250' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} def get_movie_type(movie_url: str) -> str: """获取电影类型""" r = requests.get(movie_url, headers=headers) soup = BeautifulSoup(r.text, 'lxml') annotations = soup.select('div#info > span[property="v:genre"]') return [a.string for a in annotations] def parse_movie_page(movie_url: str) -> dict: """解析电影页面信息""" r = requests.get(movie_url, headers=headers) soup = BeautifulSoup(r.text, 'lxml') name = soup.select('span[property="v:itemreviewed"]')[0].string rating_num = soup.select('strong[property="v:average"]')[0].string director = soup.select('a[rel="v:directedBy"]')[0].string actors = [a.string for a in soup.select('a[rel="v:starring"]')] genres = get_movie_type(movie_url) return {'电影名称': name, '评分': rating_num, '导演': director, '主演': actors, '类型': genres} def get_movies(pages=10): """获取多个页面的电影信息""" movie_list = [] for i in range(pages): url_index = f'{url}?start={i * 25}&filter=' r = requests.get(url_index, headers=headers) soup = BeautifulSoup(r.text, 'lxml') movies = soup.select('.grid_view li div.item > a') for movie in movies: movie_url = movie.get('href') movie_info = parse_movie_page(movie_url) movie_list.append(movie_info) return movie_list def analyze_movie_type(movie_list: list): """分析所以电影类型""" result = {} for movie in movie_list: types = movie.get('类型') for t in types: if t in result: result[t] += 1 else: result[t] = 1 return result if __name__ == '__main__': # 获取豆瓣前10页的电影信息 movies = get_movies(10) # 分析电影类型 types = analyze_movie_type(movies) # 转化为DataFrame types_df = pd.DataFrame({'类型': list(types.keys()), '数量': list(types.values())}) # 按照数量从大到小排序 types_df = types_df.sort_values(by='数量', ascending=False) print(types_df) ``` 这段代码会爬取豆瓣电影TOP250中前10页的所有电影，然后分析电影的类型，并按照数量从大到小排序，最后输出结果。

阅读全文

python爬取豆瓣top250电影数据 并分析电影类型的代码

相关推荐

python爬取豆瓣电影top250

python爬取豆瓣电影Top250

python爬取豆瓣top250电影

python爬取豆瓣top250电影数据 并分析电影类型

Python爬取豆瓣top250电影数据，并导入MySQL，写入excel

python爬取豆瓣top250电影数据的代码

python爬取豆瓣电影top250_python3爬取豆瓣top250电影

python爬取豆瓣top250电影信息并保存 在做一个电影类型分析并保存 的代码

python爬取豆瓣top250数据可视化分析

python爬取豆瓣top250数据代码

用python爬取豆瓣top250 的电影数据的代码

python爬取豆瓣Top250电影保存到mysql数据库代码

python爬取豆瓣top250,数据清洗

python爬虫豆瓣电影TOP250,以及数据化分析

python-crawler-douban:豆瓣综合爬虫，使用 Python-3.7 + Scrapy-1.5 构建，含豆瓣电影、豆瓣读书、豆瓣音乐三类Top250内容爬取及短评爬取

Python爬虫程序源代码爬取豆瓣TOP250排行榜数据电影名称评分导演演员等信息

python爬虫 豆瓣电影Top250数据分析与可视化（应用Flask框架、Echarts、WordCloud等技术）

python爬虫豆瓣电影Top250数据分析与可视化（应用Flask框架、Echarts、WordCloud等技术）.zip

豆瓣电影top250python代码（可生成excel文件，也可将结果导入数据库）

燃料电池汽车Cruise整车仿真模型（燃料电池电电混动整车仿真模型） 1.基于Cruise与MATLAB Simulink联合仿真完成整个模型搭建，策略为多点恒功率（多点功率跟随）式控制策略，策略模

大家在看

alertmanager-0.19.0.linux-amd64.tar.gz

5G分组核心网专题.pptx

LTE Signaling & Protocol Analysis Focus: E-UTRAN and UE

r3epthook-master.zip

LITE-ON FW spec PS-2801-9L rev A01_20161118.pdf

最新推荐

豆瓣电影TOP250分析报告文本挖掘.docx

燃料电池汽车Cruise整车仿真模型（燃料电池电电混动整车仿真模型） 1.基于Cruise与MATLAB Simulink联合仿真完成整个模型搭建，策略为多点恒功率（多点功率跟随）式控制策略，策略模

并列关系-关系图表-鲜艳红色 -3.pptx

实际项目中三菱fx5u编写的中型程序，用了st fbd ld 混合编程，程序内容完整，控制十来个轴 ，结构清晰 ，用到了结构体，全局变量 ，适合进阶学习

并列关系-关系图表-简约折纸-3.pptx

租赁合同编写指南及下载资源

【项目管理精英必备】：信息系统项目管理师教程习题深度解析（第四版官方教材全面攻略）

最具代表性的改进过的UNet有哪些？

惠普P1020Plus驱动下载：办公打印新选择

数字电路实验技巧：10大策略，让你的实验效率倍增！

python爬取豆瓣top250电影数据并分析电影类型的代码

python爬取豆瓣top250电影数据并分析电影类型

python爬取豆瓣top250电影信息并保存在做一个电影类型分析并保存的代码

python爬虫豆瓣电影Top250数据分析与可视化（应用Flask框架、Echarts、WordCloud等技术）

实际项目中三菱fx5u编写的中型程序，用了st fbd ld 混合编程，程序内容完整，控制十来个轴，结构清晰，用到了结构体，全局变量，适合进阶学习