用python语言帮我写一个爬虫,爬取江苏的历史疫情
时间: 2024-03-11 07:44:49 浏览: 79
好的,以下是一个简单的Python程序,可以帮助您爬取江苏省的历史疫情数据:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://voice.baidu.com/act/newpneumonia/newpneumonia/?from=osari_pc_1'
html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')
# 找到江苏省的数据所在的标签
js_data = soup.find('div', {'class': 'common-wraper'}).find_all('div', {'class': 'chartlist-wrap'})[1]
# 解析数据
data_list = []
for item in js_data.find_all('div', {'class': 'list-item'}):
city = item.find('span', {'class': 'list-item-name'}).text.strip()
confirm = item.find('span', {'class': 'list-item-number'}).text.strip()
data_list.append({'city': city, 'confirm': confirm})
# 输出结果
for data in data_list:
print(data)
```
这个程序使用 requests 库获取网页的 HTML 内容,再使用 BeautifulSoup 库解析网页内容。程序会从网页中找到江苏省的数据,然后将数据解析成一个字典列表,最终输出每个城市的确诊病例数。需要注意的是,该程序只能爬取网页上公开可见的数据,如果网站有反爬机制,可能会无法成功爬取数据。另外,爬取数据可能会对网站服务器造成一定的负担,请合理使用爬虫。
阅读全文