selenium获取网页源代码的所有方法
时间: 2024-10-24 09:05:51 浏览: 78
Selenium是一个用于自动化Web浏览器的工具,它本身并不直接提供获取网页源代码的功能,因为它的主要目的是模拟用户操作,而非抓取数据。但是,你可以通过Selenium与其他库配合来实现这个需求。以下是几种常见的方法:
1. **直接使用Python内置库**:如果你只是想简单地获取源代码,可以使用Python的`requests`库,而不需要Selenium。例如:
```python
import requests
response = requests.get('http://example.com')
print(response.text)
```
2. **Selenium + BeautifulSoup**:结合Selenium的WebDriver和BeautifulSoup库,可以先打开页面,然后获取源代码:
```python
from selenium import webdriver
from bs4 import BeautifulSoup
driver = webdriver.Firefox() # 或者Chrome等
driver.get('http://example.com')
page_source = driver.page_source
soup = BeautifulSoup(page_source, 'html.parser')
```
3. **使用Selenium的execute_script方法**:在页面加载完成后,可以通过JavaScript执行`document.documentElement.outerHTML`来获取源代码:
```python
script = "return document.documentElement.outerHTML;"
html = driver.execute_script(script)
```
注意:上述所有方法都需要浏览器已经打开并加载了目标网页。
阅读全文