python用selenium爬取豆瓣电影top250
时间: 2023-07-12 07:57:43 浏览: 135
好的,这是一个很常见的爬虫案例。下面是一个简单的 Python 代码示例,用于使用 Selenium 爬取豆瓣电影 Top250:
```python
import time
from selenium import webdriver
# 创建 Chrome 浏览器驱动
driver = webdriver.Chrome()
# 访问豆瓣电影 Top250 页面
driver.get('https://movie.douban.com/top250')
# 循环爬取所有页面
while True:
# 获取当前页面的所有电影信息
movies = driver.find_elements_by_xpath('//div[@class="info"]')
# 循环打印每个电影的名称、导演和主演信息
for movie in movies:
name = movie.find_element_by_xpath('.//a/span[@class="title"]').text
director_and_actors = movie.find_element_by_xpath('.//div[@class="bd"]/p[1]').text
print(name, director_and_actors)
# 查找下一页的链接
next_link = driver.find_element_by_xpath('//span[@class="next"]/a')
# 如果下一页链接不可点击,则说明已经到了最后一页,退出循环
if 'disabled' in next_link.get_attribute('class'):
break
# 点击下一页链接
next_link.click()
# 等待一段时间,让页面加载完成
time.sleep(2)
# 关闭浏览器驱动
driver.quit()
```
这个代码片段使用 Chrome 浏览器驱动访问豆瓣电影 Top250 页面,并循环爬取每个页面上的电影信息。在每个页面上,它使用 XPath 查找电影名称、导演和主演信息,并打印到控制台中。然后,它查找下一页链接,并单击它以导航到下一页。如果下一页链接不可点击,则说明已经到了最后一页,退出循环。最后,它关闭浏览器驱动。
阅读全文