使用selenium爬取子网页数据
时间: 2023-10-07 08:04:24 浏览: 123
selenium webdriver爬取动态网页
以下是一个使用selenium爬取子网页数据的示例代码:
```python
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument("--headless") # 无头模式
chrome_options.add_argument("--disable-gpu") # 禁用GPU加速
driver = webdriver.Chrome(chrome_options=chrome_options)
url = "https://www.example.com"
driver.get(url)
# 获取子链接
sub_links = driver.find_elements_by_css_selector("a[href^='https://www.example.com/']")
# 遍历子链接并获取数据
for link in sub_links:
sub_url = link.get_attribute("href")
driver.get(sub_url)
# 获取需要的数据
data = driver.find_element_by_css_selector("div.data").text
print(data)
driver.quit()
```
该示例代码使用了selenium中的webdriver来打开网页,并使用了无头模式和禁用GPU加速来提高爬取速度。然后通过查找子链接的方式获取所有子链接,并遍历每个子链接来获取需要的数据。最后,使用driver.quit()方法关闭浏览器。
阅读全文