可以直接给我一段完整的代码吗
时间: 2024-10-21 16:17:38 浏览: 28
当然可以,这是一个简单的Python爬虫示例,它使用了`requests`, `BeautifulSoup`和`json`库来抓取静态页面并以JSON格式保存数据。假设内退信息在网页的某个class名为`policy-content`的`<div>`元素下:
```python
import requests
from bs4 import BeautifulSoup
import json
# 定义URL
url = 'http://www.mju.edu.cn' # 替换为实际的学校官网地址
target_class = 'policy-content'
# 发送GET请求
response = requests.get(url)
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 找到包含内退信息的部分
content_blocks = soup.find_all('div', class_=target_class)
# 创建一个空列表来保存结果
data_list = []
# 遍历每个内容块
for block in content_blocks:
# 提取标题和内容
title = block.h2.text if block.h2 else ""
content = block.p.text if block.p else ""
# 创建字典结构
data_dict = {
"instruction": title,
"input": "",
"output": content
}
# 添加到结果列表
data_list.append(data_dict)
# 将结果保存为JSON文件
with open('school_policies.json', 'w', encoding='utf-8') as f:
json.dump(data_list, f, ensure_ascii=False, indent=2)
print("数据已成功保存至school_policies.json")
# 相关问题--
1. 如果遇到动态内容,应该如何修改这个代码?
2. 如何在代码中添加错误处理来增强稳定性?
3. 如何定期更新爬取的结果,以便持续跟踪新政策变化?
阅读全文