新冠疫情数据可视化：丁香园爬虫与图表展示

5星 · 超过95%的资源 43 浏览量更新于2024-08-29 2 收藏 343KB PDF 举报

"这篇学习记录主要探讨了如何利用Python进行新冠疫情数据的爬取与可视化，包括从丁香园网站抓取数据，然后展示全国疫情地图、湖北疫情分布以及疫情增长趋势。通过requests模块发送HTTP请求，re模块进行数据解析，最后进行数据的保存和可视化处理。" 在这篇学习记录中，作者旨在掌握两项核心技能：从丁香园网站爬取疫情数据和对数据进行可视化。首先，爬取数据是整个过程的基础，这涉及到网络编程的知识。在Python中，requests模块是一个常用的库，用于发送HTTP请求。它能够模拟浏览器行为，向目标网站发送GET请求，获取服务器的响应数据。当发送请求时，可以使用requests.get()函数，指定要爬取的URL，如'https://ncov.dxy.cn/ncovh5/view/pneumonia'。响应的数据通常以字节形式返回，需要使用decode()方法将其转化为字符串。在获取到网页源码后，数据通常被嵌入在HTML或JavaScript中。为了提取有用的信息，需要解析这些文本。这里使用了Python的re模块，它提供了正则表达式功能，可以匹配和提取特定模式的字符串。在示例中，使用re.search()函数找到包含疫情数据的部分，并将其提取出来。提取数据后，通常会将数据保存到本地，以便后续分析和可视化。可以使用json模块将数据结构化并保存为JSON文件，便于读取和处理。在本案例中，作者可能使用了datetime模块获取当前日期，并将数据按日期命名存储。接下来是数据的可视化部分，主要包括三个方面： 1. **全国疫情地图**：可能使用地图可视化库，如folium或geopandas，结合中国地理信息数据，展示各省份的疫情状况。 2. **湖北疫情分布图**：可能更具体地展示了湖北省内的疫情数据，可以使用条形图或热力图来表示各个城市的病例数。 3. **疫情增长趋势图**：可能使用折线图展示每日新增病例的变化，帮助观察疫情的发展趋势。整个过程涉及到了网络爬虫、数据解析、数据存储以及数据可视化等多个环节，是Python在数据分析领域应用的一个综合实例。对于学习者来说，这是一次全面了解和实践数据获取与分析的好机会。

学习记录之新冠疫情可视化学习记录之新冠疫情可视化

学习目的

1.爬丁香园数据爬丁香园数据

2.可视化可视化

*** 2.1.展示全国疫情地图展示全国疫情地图

***2.2.展示湖北疫情分布图展示湖北疫情分布图

***2.3.展示疫情增长趋势图展示疫情增长趋势图

一一

数据准备（根据爬丁香园网得到两个数据）数据准备（根据爬丁香园网得到两个数据）

这里是爬虫丁香园的数据

爬虫的程序：模拟浏览器–>往目标站点发送请求–>接收响应数据–>提取有用的数据–>保存到本地。

爬虫的过程：

1.发送请求：这里用到requests模块，其作用是python实现的简单易用的http库，官网地址是：

http://cn.python-requests.org/zh_CN/latest/）

2.获取响应数据（服务器返回的数据）

3.解析并提取数据（re正则）。re模块：其作用是python用于匹配字符串的模块，该模块中提供的很多功能是基于正则表达式实现的。

4.保存数据

—–爬虫代码,得到两个数据，以此进行可视化

import json #爬丁香园实时统计数据，存为json文件

import re #步骤第三步提到的解析并提取数据（re正则）

import requests #发送爬虫请求

import datetime #读取当前时间

today = datetime.date.today().strftime('%Y%m%d') #取得当前时间，如20200416

##爬取丁香园实时统计数据，保存到data目录下，以当前日期作为文件名，存JSON文件

def crawl_dxy_data():

response = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia') #request.get()用于请求目标网站

print(response.status_code) # 打印https网站的状态码

try:

url_text = response.content.decode() #使用response.content.deocde()的方式获取响应的html页面，也就是丁香园源码页面

#print(url_text) #输出数据的文件名为url_text

url_content = re.search(r'window.getAreaStat = (.*?)}]}catch', #re是python中用来字符串查找、正则匹配的。用re.search()这个方法，从刚返

回的htlm中（即url_text），根据正则匹配，找到所需字符串

url_text, re.S) #'window.getAreaStat = (.*?)}]}catch'表示在html中所需字符出现的位置

#使用re.S参数，正则表达式会将这个字符串作为一个整体，在整体中进行匹配。

texts = url_content.group() #根据group完成匹配的字符串，获取匹配正则表达式的整体结果，存储到texts中

content = texts.replace('window.getAreaStat = ', '').replace('}catch', '') #去除多余的字符，如头window.getAreaStat = 和尾catch

json_data = json.loads(content) #转换成python对象

with open('data/' + today + '.json', 'w', encoding='UTF-8') as f:#打开以当前时间命名的.json文件

json.dump(json_data, f, ensure_ascii=False) #json.dump是对json_data进行序列化，写入到打开的文件中，ensure_ascii=False表示写入格

式是中文。

#以上做完就完成了第一个数据的爬虫，可以在目录中查找以当前时间命名的数据，可以做全国实时确诊数据。

except:

print('' % response.status_code)

"""

为了做新增病例的增加，需要对以上数据进行进一步处理。根据上面的数据下载打开后，有一行http的网址即statisticData之后的网址，访问

后得到一个下载的json文件。

def crawl_statistics_data():

"""

with open('data/'+ today + '.json', 'r', encoding='UTF-8') as file:

json_array = json.loads(file.read())

statistics_data = {}#读入原始数据

for province in json_array:#每一个省进行遍历

response = requests.get(province['statisticsData']) #如找到第一个省，发送一个http请求，得到一个响应。

try:

statistics_data[province['provinceShortName']] = json.loads(response.content.decode())['data']#把返回的数据转变成python的对象，获取里

面data的字段

except:

print(' for url: [%s]' % (response.status_code, province['statisticsData']))

with open("data/statistics_data.json", "w", encoding='UTF-8') as f:

json.dump(statistics_data, f, ensure_ascii=False) #对数据进行序列化之后存入statistics_data.json文件

if __name__ == '__main__':

crawl_dxy_data()

crawl_statistics_data()

接下来就用爬到的两个数据进行可视化，依据pyecharts库，首先安装pycharts库

#!pip install pyecharts#安装第三方库pyecharts。参考https://pyecharts.org/#/zh-cn/chart_api

!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyecharts#如果下载时出现断线和速度过慢的问题导致下载失败，可以尝试使用清华镜像

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38631329

粉丝: 2

新冠疫情数据可视化：丁香园爬虫与图表展示

疫情数据可视化（动态变化）

数据可视化大作业

疫情数据分析大作业，包含数据爬虫，数据分析，图表处理，以及模型建立

课程设计基于Python+Flask框架实现的新冠疫情可视化项目源码+疫情数据

新冠疫情数据可视化分析展示

PythonFlask构建新冠疫情数据可视化平台

2019新冠疫情大数据可视化分析大屏设计方案项目源码.zip

Python+Flask实现新冠肺炎疫情数据可视化分析

新冠疫情数据分析项目实战 附完整项目代码 实验报告

基于SpringBoot+SpringSecurity+Thymeleaf实现的新冠疫情管理系统+源代码+文档说明+数据库

最新资源

新冠疫情数据分析项目实战附完整项目代码实验报告