用python写出一段代码,要求爬取世卫组织官方网站上所有关于新冠病毒的信息并输出为json格式文件
时间: 2024-04-09 13:27:23 浏览: 179
以下是一个示例代码,使用 Python 的 requests 和 BeautifulSoup 库来爬取世卫组织官方网站上关于新冠病毒的信息,并将其输出为 JSON 格式的文件:
```python
import requests
import json
from bs4 import BeautifulSoup
# 发送HTTP GET请求获取网页内容
url = "https://www.who.int/emergencies/diseases/novel-coronavirus-2019"
response = requests.get(url)
html_content = response.text
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(html_content, "html.parser")
# 查找相关信息的 HTML 元素
articles = soup.find_all("div", class_="sf-content-block")
# 初始化一个空的列表,用于存储爬取的信息
data = []
# 遍历每篇文章,提取标题和链接
for article in articles:
title = article.find("h2").text.strip()
link = article.find("a")["href"]
# 将标题和链接添加到数据列表中
data.append({"title": title, "link": link})
# 将数据保存为 JSON 文件
with open("who_covid19_info.json", "w", encoding="utf-8") as file:
json.dump(data, file, ensure_ascii=False, indent=4)
print("爬取完成并保存为 who_covid19_info.json 文件。")
```
请注意,爬取网站的内容需要遵守该网站的使用条款和规定。在使用上述代码之前,请确保你已经阅读并理解了世卫组织官方网站的相关规定,并遵守爬虫的道德和法律准则。
阅读全文