python爬取json动态网页
时间: 2023-11-13 18:53:46 浏览: 151
要爬取动态网页中的json数据,可以使用Selenium模拟浏览器操作,然后通过BeautifulSoup解析网页源代码中的json数据。具体步骤如下:
1. 安装Selenium和BeautifulSoup库。
2. 使用Selenium打开目标网页,并等待页面加载完成。
3. 获取网页源代码,并使用BeautifulSoup解析出json数据。
4. 关闭浏览器。
以下是示例代码:
```python
from selenium import webdriver
from bs4 import BeautifulSoup
import time
import json
# 设置Chrome浏览器无界面模式
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
# 创建Chrome浏览器对象
browser = webdriver.Chrome(options=options)
# 打开目标网页
url = 'https://example.com'
browser.get(url)
# 等待页面加载完成
time.sleep(5)
# 获取网页源代码
html = browser.page_source
# 使用BeautifulSoup解析出json数据
soup = BeautifulSoup(html, 'html.parser')
json_str = soup.find('script', {'type': 'application/json'}).string
data = json.loads(json_str)
# 关闭浏览器
browser.quit()
# 输出json数据
print(data)
```
阅读全文