使用selenium爬取豆瓣top250 的代码
时间: 2024-01-08 21:03:32 浏览: 91
BeautifulSoup和Selenium对比.docx
以下是使用Selenium爬取豆瓣Top250电影的代码:
```python
from selenium import webdriver
# 创建浏览器对象
browser = webdriver.Chrome()
# 访问豆瓣Top250页面
browser.get('https://movie.douban.com/top250')
# 定位到电影列表的父节点
movie_list = browser.find_element_by_xpath('//*[@id="content"]/div/div[1]/ol')
# 循环获取每个电影的信息
for movie in movie_list.find_elements_by_xpath('.//li'):
# 获取电影名称
name = movie.find_element_by_xpath('.//span[@class="title"][1]')
print(name.text)
# 获取电影评分
rating = movie.find_element_by_xpath('.//span[@class="rating_num"]')
print(rating.text)
# 获取电影评价人数
num_rating = movie.find_element_by_xpath('.//div[@class="star"]/span[last()]')
print(num_rating.text)
# 获取电影链接
link = movie.find_element_by_xpath('.//a')
print(link.get_attribute('href'))
# 关闭浏览器
browser.quit()
```
需要注意的是,这段代码需要配合Chrome浏览器和对应版本的ChromeDriver使用,且需要提前安装Selenium库。同时,豆瓣网站有反爬机制,爬取速度过快可能会被封IP,因此建议设置合适的爬虫间隔时间。
阅读全文