BeautifulSoup爬取JS数据
时间: 2023-12-15 08:04:42 浏览: 78
使用BeautifulSoup爬取JS数据,需要先获取网页的HTML源代码,然后通过BeautifulSoup解析HTML代码。接着,分析JS代码,找到所需数据的来源,再通过BeautifulSoup或其他库来提取数据。
以下是一个示例代码,演示如何使用BeautifulSoup来爬取JS数据:
```python
import requests
from bs4 import BeautifulSoup
# 获取HTML源代码
url = "https://example.com"
response = requests.get(url)
html = response.text
# 解析HTML代码
soup = BeautifulSoup(html, "html.parser")
# 找到JS代码
script = soup.find("script", {"type": "text/javascript", "src": None}).string
# 提取数据
data = re.findall(r"var data = (\[.*?\]);", script)[0]
```
在这个示例代码中,我们使用requests库来获取HTML源代码,并使用BeautifulSoup解析HTML代码。然后,我们通过find方法找到了一个包含JS代码的script标签。接着,我们使用正则表达式来提取所需的数据。在这个例子中,我们假设JS代码中有一个名为"data"的变量,其值是一个数组。所以,我们使用正则表达式来匹配"data"变量,并提取其值。最后,我们将提取出来的数据保存在data变量中。
阅读全文