python爬取的网页转换成json后存到表格
时间: 2023-09-07 19:01:50 浏览: 195
python爬取ajax网页,用json形式获取数据,并存入excel中
在Python中,我们可以使用第三方库(如requests、BeautifulSoup、pandas)来爬取并解析网页数据,然后将其转换为JSON格式并存储到表格中。
首先,我们需要使用requests库发送网络请求,获取网页的HTML内容。然后,使用BeautifulSoup库解析HTML,并提取我们需要的数据。
接下来,我们可以使用字典或列表等数据结构来存储提取的数据,并使用json库将其转换为JSON格式。
最后,我们可以使用pandas库将JSON数据保存到表格中,可以选择保存为CSV文件、Excel文件等格式。
示例代码如下:
```python
import requests
from bs4 import BeautifulSoup
import json
import pandas as pd
# 发送网络请求,获取网页内容
url = "http://example.com"
response = requests.get(url)
html_content = response.text
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html_content, "html.parser")
# 提取数据并存储到字典或列表中
data = []
items = soup.find_all("div", class_="item")
for item in items:
title = item.find("h2").text
description = item.find("p").text
data.append({"title": title, "description": description})
# 转换为JSON格式
json_data = json.dumps(data, ensure_ascii=False)
# 保存为表格
df = pd.read_json(json_data)
df.to_csv("data.csv", index=False)
```
以上是简单示例,实际情况中根据具体网页结构和需求进行相应的提取和处理操作。
阅读全文