python使用selenium爬取网页内容代码
时间: 2023-09-04 20:14:50 浏览: 186
以下是使用Python的Selenium库爬取网页内容的代码示例:
```python
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait as wait
# 设置Chrome浏览器选项
chrome_options = Options()
chrome_options.add_argument("--headless") # 无头模式,可选
chrome_options.add_argument("--disable-gpu") # 禁用GPU加速,可选
# 创建Chrome浏览器
相关问题
python使用selenium爬取网页数据前先清除浏览器缓存,给出代码
在Python中使用Selenium爬虫之前,清除浏览器缓存可以帮助避免因之前的会话数据导致的数据偏差。以下是清除Chrome浏览器缓存的一个示例代码,适用于Selenium WebDriver与Chrome:
```python
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
# 定义清除缓存的函数
def clear_cache():
# 创建Chrome浏览器服务
chrome_options = webdriver.ChromeOptions()
# 配置选项以禁用缓存
chrome_options.add_argument('--disk-cache-dir=/dev/null')
chrome_options.add_argument('--disable-blink-cache')
# 如果需要,设置无头模式
# chrome_options.headless = True
# 初始化Chrome驱动服务
service = Service('path_to_your_chromedriver') # 替换为你的chromedriver路径
# 使用DesiredCapabilities创建一个新的会话
capabilities = DesiredCapabilities.CHROME.copy()
capabilities['cache'] = 'false'
# 打开浏览器并清除缓存
with webdriver.Chrome(service=service, options=chrome_options, desired_capabilities=capabilities) as driver:
driver.get('http://example.com') # 这里替换为你想要访问的网址
# 网页加载完成后,关闭浏览器
driver.quit()
clear_cache()
```
在这个例子中,`path_to_your_chromedriver`需要替换为你实际的Chrome驱动程序路径。运行此代码后,每次都会新开一个无缓存的Chrome会话。
python使用selenium爬取
使用Selenium库可以实现Python爬取网页的功能。下面是一个简单的示例,演示了如何使用Selenium来爬取网页数据:
```python
from selenium import webdriver
# 创建一个浏览器对象
driver = webdriver.Chrome()
# 打开网页
driver.get("https://www.taobao.com")
# 查找搜索框元素并输入关键字
search_box = driver.find_element_by_id("q")
search_box.send_keys("手机")
# 点击搜索按钮
search_button = driver.find_element_by_class_name("btn-search")
search_button.click()
# 等待页面加载完成
driver.implicitly_wait(10)
# 获取搜索结果
results = driver.find_elements_by_class_name("JIIxO")
for result in results:
print(result.text)
# 关闭浏览器
driver.quit()
```
这个示例演示了如何使用Selenium打开淘宝网页,输入关键字并点击搜索按钮,然后获取搜索结果并打印出来。你可以根据自己的需求修改代码来爬取其他网页的数据。
阅读全文