python selenium 爬取动态页面
时间: 2023-12-17 19:28:57 浏览: 139
使用Python的Selenium库可以爬取动态页面,具体步骤如下:
1.安装Selenium库和浏览器驱动,例如ChromeDriver。
2.导入Selenium库和WebDriver。
3.创建一个WebDriver对象,例如ChromeDriver。
4.使用get()方法打开需要爬取的网页。
5.使用WebDriverWait()方法等待页面加载完成。
6.使用find_element_by_xpath()或find_element_by_css_selector()方法找到需要爬取的元素。
7.使用get_attribute()方法获取元素的属性值。
8.关闭WebDriver对象。
下面是一个简单的例子,演示如何使用Python的Selenium库爬取动态页面:
```python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
# 创建一个ChromeDriver对象
driver = webdriver.Chrome()
# 打开需要爬取的网页
driver.get("https://www.example.com")
# 等待页面加载完成
wait = WebDriverWait(driver, 10)
element = wait.until(EC.presence_of_element_located((By.XPATH, "//div[@class='example']")))
# 找到需要爬取的元素
element = driver.find_element_by_xpath("//div[@class='example']")
# 获取元素的属性值
value = element.get_attribute("innerHTML")
# 关闭ChromeDriver对象
driver.quit()
# 输出获取到的值
print(value)
```
阅读全文