Selenium 的WebDriver的page_source和requests的get()text
时间: 2024-05-19 17:15:26 浏览: 83
有什么区别?
Selenium 的WebDriver的page_source获取的是浏览器渲染后的页面源代码,包含了浏览器渲染的所有内容,包括 JavaScript 动态生成的内容,因此是比较完整的页面源代码。而requests的get()方法获取的是服务器返回的 HTML 页面源代码,不包含 JavaScript 动态生成的内容。因此,如果网页中有 JavaScript 动态生成的内容,使用requests获取的页面源代码可能会不完整。
相关问题
python selenium爬虫豆瓣_使用selenium+requests爬取豆瓣小组讨论列表
好的,可以的。你需要先安装selenium和requests库,然后下载对应的浏览器驱动,比如Chrome驱动。
以下是一个简单的例子,使用selenium打开豆瓣小组讨论列表页面并获取数据:
```python
import time
import requests
from selenium import webdriver
# 设置浏览器驱动路径
driver_path = '/path/to/chromedriver'
# 设置浏览器参数
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
options.add_argument('--no-sandbox')
# 启动浏览器
driver = webdriver.Chrome(executable_path=driver_path, options=options)
# 打开网页
url = 'https://www.douban.com/group/explore'
driver.get(url)
# 等待页面加载
time.sleep(2)
# 获取页面源码
html = driver.page_source
# 关闭浏览器
driver.quit()
# 使用requests库处理数据
# TODO: 解析html并获取需要的信息
```
在这个例子中,我们使用了Chrome浏览器,并且设置了一些参数,比如无头模式等。然后打开豆瓣小组讨论列表页面,等待页面加载完毕后,获取页面源码并关闭浏览器。最后可以使用requests库来处理页面数据,比如解析HTML并获取需要的信息。
注意:使用selenium爬虫需要注意反爬机制,避免被封IP。建议设置合理的访问时间间隔,并使用代理IP等反反爬措施。
from seleniumwire import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC def login_bp(url, username, password): # 创建一个浏览器实例 options = webdriver.EdgeOptions() options.add_experimental_option('detach', True) # 打开登录页面 browser = webdriver.Edge() browser.get(url) # 找到用户名输入框并输入密码 username_input = WebDriverWait(browser, 10).until(EC.visibility_of_element_located((By.ID, 'username'))) username_input.send_keys(username) # 找到密码输入框并输入密码 password_input = WebDriverWait(browser, 10).until(EC.visibility_of_element_located((By.ID, 'password'))) password_input.send_keys(password) # 模拟回车键,提交表单 login_btn = browser.find_element(by=By.ID, value='denglub') login_btn.send_keys(Keys.ENTER) # 获取cookie信息 cookies = browser.get_cookies() print("Cookies:", cookies) # 获取响应体和载荷信息 page_source = browser.page_source current_url = browser.current_url print("Page Source:", page_source) print("Current URL:", current_url) #获取XHR值 request = browser.requests return 0 if __name__ == '__main__': # 定义目标信息 atr_url = { 'url': 'http://pfs.ikhtech.com/FAPI/login.jsp', 'username': 'zhangwei', 'password': 'zhangwei' } login_bp(atr_url['url'], atr_url['username'], atr_url['password']) 如何获取页面返回的XHR、载荷、cookie等的值
在使用`seleniumwire`库时,可以通过`seleniumwire`提供的功能来获取页面返回的XHR、载荷和cookie等值。
以下是一个示例代码,展示了如何使用`seleniumwire`来获取页面返回的XHR、载荷和cookie等值:
```python
from seleniumwire import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
def login_bp(url, username, password):
# 创建一个带有seleniumwire的浏览器实例
options = webdriver.EdgeOptions()
options.add_experimental_option('detach', True)
browser = webdriver.Edge(seleniumwire_options=options)
# 打开登录页面
browser.get(url)
# 找到用户名输入框并输入密码
username_input = WebDriverWait(browser, 10).until(EC.visibility_of_element_located((By.ID, 'username')))
username_input.send_keys(username)
# 找到密码输入框并输入密码
password_input = WebDriverWait(browser, 10).until(EC.visibility_of_element_located((By.ID, 'password')))
password_input.send_keys(password)
# 模拟回车键,提交表单
login_btn = browser.find_element(by=By.ID, value='denglub')
login_btn.send_keys(Keys.ENTER)
# 获取cookie信息
cookies = browser.get_cookies()
print("Cookies:", cookies)
# 获取响应体和载荷信息
page_source = browser.page_source
print("Page Source:", page_source)
# 获取XHR请求信息
for request in browser.requests:
if request.response:
print("XHR URL:", request.url)
print("XHR Response:", request.response.body)
# 关闭浏览器
browser.quit()
if __name__ == '__main__':
# 定义目标信息
atr_url = {
'url': 'http://pfs.ikhtech.com/FAPI/login.jsp',
'username': 'zhangwei',
'password': 'zhangwei'
}
login_bp(atr_url['url'], atr_url['username'], atr_url['password'])
```
在上面的代码中,首先使用`seleniumwire.Webdriver`创建了一个带有`seleniumwire`的浏览器实例。然后打开登录页面,并输入用户名和密码。
接下来,使用`browser.get_cookies()`方法获取cookie信息,并打印出来。使用`browser.page_source`获取页面的载荷信息,并打印出来。
最后,通过遍历`seleniumwire`提供的`browser.requests`列表,可以获取到所有的XHR请求信息。通过判断`request.response`是否存在,可以筛选出已经收到响应的XHR请求。然后可以打印出XHR的URL和响应内容。
希望这个示例代码对你有帮助!如果需要获取其他特定的值,请根据你的需求进行相应的修改。