使用selenium自动爬取网页数据
时间: 2023-11-24 15:43:22 浏览: 72
步骤:
1. 安装selenium和浏览器驱动:selenium可以通过pip安装,而浏览器驱动需要根据自己使用的浏览器来安装,比如Chrome需要下载ChromeDriver。
2. 导入selenium模块:`from selenium import webdriver`
3. 创建浏览器对象:`browser = webdriver.Chrome()`,这里以Chrome浏览器为例。
4. 打开要爬取的网页:`browser.get(url)`,url为要爬取的网页地址。
5. 定位元素:selenium提供了多种方法来定位元素,比如通过id、class、标签名等,具体使用方法可以查看selenium文档。
6. 提取数据:通过定位到的元素对象,可以使用`element.text`来获取元素的文本内容,也可以使用`element.get_attribute()`获取元素的属性值。
7. 关闭浏览器:`browser.quit()`。
示例代码:
```
from selenium import webdriver
# 创建Chrome浏览器对象
browser = webdriver.Chrome()
# 打开要爬取的网页
url = "https://www.baidu.com"
browser.get(url)
# 定位百度搜索框
search_input = browser.find_element_by_id("kw")
# 输入搜索关键词
search_input.send_keys("Python")
# 提交搜索
search_input.submit()
# 定位搜索结果中的第一个标题
result_title = browser.find_element_by_xpath('//*[@id="content_left"]/div/h3/a')
# 获取标题文本
title_text = result_title.text
print(title_text)
# 关闭浏览器
browser.quit()
```
阅读全文