利用python设计一段代码,①使用lxml.etree提取一个网页div标签里的li标签的文字内容②使用lxml.etree提取一个网页div标签里的b标签的文字内容③将li标签的内容作为key,b标签的内容为value,储存到一个json文件中
时间: 2024-12-17 19:43:32 浏览: 7
为了实现这个需求,首先你需要安装`lxml`库(如果你还没有安装),可以通过运行以下命令进行安装:
```bash
pip install lxml
```
接下来,我会为你编写一个Python脚本,使用`lxml.etree`模块解析HTML,提取所需内容并将其存储到JSON文件中。
```python
from lxml import etree
import json
# 定义要抓取的URL
url = "https://your-url.com" # 替换为你要抓取的实际网页URL
# 使用requests获取网页内容
import requests
response = requests.get(url)
html_content = response.text
# 解析HTML内容
tree = etree.HTML(html_content)
# 提取div标签中的li和b标签
div_xpath = '//*[@id="your_div_id"]' # 根据实际网页结构修改XPATH
div_element = tree.xpath(div_xpath)[0]
lis = div_element.findall('.//li')
bs = div_element.findall('.//b')
data = {}
for li, b in zip(lis, bs):
key = li.text.strip() # 提取li标签文字内容
value = b.text.strip() # 提取b标签文字内容
data[key] = value # 存储到字典中
# 将数据写入JSON文件
output_file = "output.json"
with open(output_file, "w") as f:
json.dump(data, f, indent=2) # 保持格式清晰
print(f"数据已成功保存到{output_file}.")
阅读全文