python用简单的selenium爬虫爬去豆瓣电影豆瓣电影排行榜前250部电影的电影名称 导演 主演 年份 国别 类别 评分 评价人数

时间: 2024-04-21 18:16:22 浏览: 11
好的,以下是代码实现: ```python from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.keys import Keys # 设置 ChromeDriver 路径 driver_path = 'chromedriver.exe' # 初始化 ChromeDriver driver = webdriver.Chrome(executable_path=driver_path) # 打开豆瓣电影排行榜页面 driver.get('https://movie.douban.com/chart') # 获取所有电影条目 movie_items = WebDriverWait(driver, 10).until( EC.presence_of_all_elements_located((By.XPATH, '//div[@class="pl2"]')) ) # 遍历电影条目,获取电影信息 for i, item in enumerate(movie_items[:250]): print(f'#{i+1}') # 获取电影名称 movie_name = item.find_element_by_tag_name('a').text print(f'电影名称:{movie_name}') # 进入电影详情页 item.find_element_by_tag_name('a').click() # 获取电影信息 try: # 获取导演、主演、年份、国别、类别、评分、评价人数 director = driver.find_element_by_xpath('//span[contains(text(),"导演")]/following-sibling::span[1]').text actors = driver.find_element_by_xpath('//span[contains(text(),"主演")]/following-sibling::span[1]').text year = driver.find_element_by_xpath('//span[contains(text(),"年份")]/following-sibling::span[1]').text country = driver.find_element_by_xpath('//span[contains(text(),"制片国家")]/following-sibling::span[1]').text genre = driver.find_element_by_xpath('//span[contains(text(),"类型")]/following-sibling::span[1]').text rating = driver.find_element_by_xpath('//strong[contains(@class,"rating_num")][1]')\ .get_attribute('textContent') rating_num = driver.find_element_by_xpath('//span[contains(@class,"rating_num")][1]')\ .get_attribute('textContent') # 打印电影信息 print(f'导演:{director}') print(f'主演:{actors}') print(f'年份:{year}') print(f'国别:{country}') print(f'类别:{genre}') print(f'评分:{rating}') print(f'评价人数:{rating_num}') except: print('获取电影信息失败') # 返回电影排行榜页面 driver.back() # 刷新电影条目列表 movie_items = WebDriverWait(driver, 10).until( EC.presence_of_all_elements_located((By.XPATH, '//div[@class="pl2"]')) ) # 关闭浏览器 driver.quit() ``` 需要注意的是,在获取导演、主演、年份、国别、类别、评分和评价人数时,需要使用 `get_attribute('textContent')` 来获取元素的文本内容。此外,由于豆瓣电影详情页获取电影信息的方式比较特殊,需要通过点击电影条目进入详情页,再返回电影排行榜页面,刷新电影条目列表的方式来实现遍历所有电影信息的目的。

相关推荐

最新推荐

recommend-type

【Python】豆瓣电影TOP250数据规律分析(Pearson相关系数、折线图、条形图、直方图)

1、数据集预览 原创文章 113获赞 137访问量 7万+ 关注 私信 展开阅读全文 作者:Vivid-victory
recommend-type

Python爬虫爬取电影票房数据及图表展示操作示例

爬虫电影历史票房排行榜 http://www.cbooo.cn/BoxOffice/getInland?pIndex=1&t=0 Python爬取历史电影票房纪录 解析Json数据 横向条形图展示 面向对象思想 导入相关库 import requests import re from ...
recommend-type

python+selenium+chromedriver实现爬虫示例代码

主要介绍了python+selenium+chromedriver实现爬虫示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
recommend-type

python 爬取豆瓣电影评论,并进行词云展示

# -*-coding:utf-8-*- import urllib.request from bs4 import BeautifulSoup def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, ...
recommend-type

结合scrapy和selenium爬推特的爬虫总结

适合需要一定selenium,想学习结合scrapy爬虫的以及想了解推特一些反爬虫机制的朋友
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

深入了解MATLAB开根号的最新研究和应用:获取开根号领域的最新动态

![matlab开根号](https://www.mathworks.com/discovery/image-segmentation/_jcr_content/mainParsys3/discoverysubsection_1185333930/mainParsys3/image_copy.adapt.full.medium.jpg/1712813808277.jpg) # 1. MATLAB开根号的理论基础 开根号运算在数学和科学计算中无处不在。在MATLAB中,开根号可以通过多种函数实现,包括`sqrt()`和`nthroot()`。`sqrt()`函数用于计算正实数的平方根,而`nt
recommend-type

react的函数组件的使用

React 的函数组件是一种简单的组件类型,用于定义无状态或者只读组件。 它们通常接受一个 props 对象作为参数并返回一个 React 元素。 函数组件的优点是代码简洁、易于测试和重用,并且它们使 React 应用程序的性能更加出色。 您可以使用函数组件来呈现简单的 UI 组件,例如按钮、菜单、标签或其他部件。 您还可以将它们与 React 中的其他组件类型(如类组件或 Hooks)结合使用,以实现更复杂的 UI 交互和功能。
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。