<a href="#">下一页</a>如何使用selenium翻页爬虫代码
时间: 2024-10-21 22:07:33 浏览: 20
使用Selenium进行网页翻页爬虫时,通常需要模拟用户操作浏览器的行为,包括点击"下一页"链接。以下是一个基本的Python示例,使用Selenium库配合ChromeDriver:
```python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
# 初始化浏览器实例
driver = webdriver.Chrome()
# 打开初始页面
url = "http://example.com" # 替换为你想要抓取的网页地址
driver.get(url)
# 定义下一页链接元素
next_page_button = (By.XPATH, '//*[@id="next-page-link"]') # XPath或CSS选择器,根据实际网站结构修改
while True:
# 等待元素加载完成
try:
wait = WebDriverWait(driver, 10) # 设置超时时间
wait.until(EC.presence_of_element_located(next_page_button))
# 点击下一页
driver.find_element(*next_page_button).click()
# 刷新当前页面,获取新内容
driver.refresh()
# 检查是否还有更多下一页,比如检查某个class或属性变化
if not driver.find_elements(*next_page_button): # 如果找不到,则跳出循环
break
except Exception as e:
print(f"Failed to click next page: {e}")
break # 或者这里可以处理异常并继续尝试
# 关闭浏览器
driver.quit()
```
在这个例子中,你需要根据目标网站的实际HTML结构来调整XPath或CSS选择器。记得安装Selenium和对应浏览器的驱动,并将`url`替换为你要抓取的网页。
阅读全文