首页＜a href="#">下一页</a>如何使用selenium翻页爬虫代码

＜a href="#">下一页</a>如何使用selenium翻页爬虫代码

时间: 2024-10-21 22:07:33 浏览: 20

使用Selenium进行网页翻页爬虫时，通常需要模拟用户操作浏览器的行为，包括点击"下一页"链接。以下是一个基本的Python示例，使用Selenium库配合ChromeDriver： ```python from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 初始化浏览器实例 driver = webdriver.Chrome() # 打开初始页面 url = "http://example.com" # 替换为你想要抓取的网页地址 driver.get(url) # 定义下一页链接元素 next_page_button = (By.XPATH, '//*[@id="next-page-link"]') # XPath或CSS选择器，根据实际网站结构修改 while True: # 等待元素加载完成 try: wait = WebDriverWait(driver, 10) # 设置超时时间 wait.until(EC.presence_of_element_located(next_page_button)) # 点击下一页 driver.find_element(*next_page_button).click() # 刷新当前页面，获取新内容 driver.refresh() # 检查是否还有更多下一页，比如检查某个class或属性变化 if not driver.find_elements(*next_page_button): # 如果找不到，则跳出循环 break except Exception as e: print(f"Failed to click next page: {e}") break # 或者这里可以处理异常并继续尝试 # 关闭浏览器 driver.quit() ``` 在这个例子中，你需要根据目标网站的实际HTML结构来调整XPath或CSS选择器。记得安装Selenium和对应浏览器的驱动，并将`url`替换为你要抓取的网页。

阅读全文