大数据爬虫实现全国空气质量指数实时可视化

91 浏览量更新于2023-03-03 6 收藏 169KB PDF 举报

本篇文章主要介绍了如何使用Python爬虫技术结合大数据处理和数据可视化工具，实现全国空气质量指数（AQI）的实时数据抓取与可视化。作者首先导入了必要的库，如`lxml`、`urllib`、`urllib.request`、`xlwt`、`pandas`、`pyecharts`、`matplotlib.pyplot`和`matplotlib`，这些库在数据抓取、解析、处理以及可视化过程中起到关键作用。文章的核心函数包括： 1. `getpage(url)`：这是一个网络请求函数，通过`urllib.request`发送HTTP请求，向指定的空气质量指数排名网站（如"http://tianqi.2345.com/air-rank.htm"）获取网页源代码，并设置User-Agent以模拟浏览器访问，防止被服务器识别为爬虫。 2. `getdata(data)`：此函数用于解析网页内容，利用`lxml`库的`etree`模块对HTML进行解析，通过XPath表达式找到包含AQI信息的列表元素。然后，遍历数据，将城市名、省份名、AQI值以及空气质量等级（quality）存储到`AQI`列表中。 3. `writeExcel(AQI)`：这部分功能将抓取到的AQI数据写入Excel文件，使用`xlwt`库创建工作簿，并将数据按照顺序、城市、省份、AQI值和质量等级填充到工作表中。 4. `if __name__ == "__main__":` 主程序部分，调用上述函数，从指定URL获取数据，处理后写入Excel文件。通过这段代码，作者实现了从特定网站抓取全国各地区的实时空气质量指数数据，并将其以易于理解的形式（如地图或图表）展示出来，这有助于用户快速了解各地的空气质量状况。此外，使用Python爬虫技术，该方法可以定期自动更新数据，实现动态监控和分析空气质量的变化趋势。整个过程体现了大数据处理和可视化在环保领域的实际应用。

基于大数据爬虫的全国空气质量指数实时数据可视化基于大数据爬虫的全国空气质量指数实时数据可视化

from lxml import etree

import urllib

import urllib.request

import xlwt

import pandas as pd

from pyecharts import Geo

import matplotlib.pyplot as plt

import matplotlib as mpl

def getpage(url):

req=urllib.request.Request(url)

req.add_header('User-Agent') #添加自己的用户代理

data=urllib.request.urlopen(req).read().decode("gbk")

return data

def getdata(data):

AQI=[] start=0

html=etree.HTML(data)

infor=html.xpath('//li[@id!="tr-fixed"]//text()') #利用xpath解析路径

while True:

if start<len(infor):

AQI.append(infor[start:start+5])

start=start+5

else:

break

return AQI

#写入excel表格

def writeExcel(AQI):

f=xlwt.Workbook()

sheet1=f.add_sheet('The AQI',cell_overwrite_ok=True)

rowTitle=['order','city','province','AQI','quality'] for i in range(len(rowTitle)):

sheet1.write(0,i,rowTitle[i])

for j in range(len(AQI)):

for k in range(len(AQI[j])):

sheet1.write(j+1,k,AQI[j][k])

f.save("E:\python\aqi.xls")

if __name__=="__main__":

url="http://tianqi.2345.com/air-rank.htm"

data=getpage(url)

AQI=getdata(data)

writeExcel(AQI)

city=[];value=[] fbook=pd.DataFrame(pd.read_excel("E:\python\aqi.xls",0))

for each in fbook['city']:

city.append(str(each))

for each in fbook['AQI']:

value.append(each)

for order,quality in zip(fbook['order'],fbook['quality']):

if quality=="中度污染":

index=order-1

break

geo = Geo("全国空气质量指数", "Data from AQI", title_color="#fff", width=1000, height=600, \

background_color='#404a59')

geo.add("空气质量指数", city,value, visual_range=[1,60], maptype='china', type='effectScatter', \

visual_text_color="#fff",effect_scale=5,symbol_size=15, is_visualmap=True,is_random=True,is_roam=False)

geo.render(path="全国空气质量指数.html")

fig=plt.figure()

ax=fig.add_subplot(111)

rects = ax.bar(range(len(city)-index),value[index:],tick_label=city[index:],color='r')

plt.grid()

plt.xlabel('城市')

plt.ylabel('空气质量指数')

plt.title("中度污染、重度污染、严重污染城市")

mpl.rcParams["font.sans-serif"] = ["KaiTi"] mpl.rcParams["axes.unicode_minus"] = False

plt.show()

下载后可阅读完整内容，剩余2页未读，立即下载

weixin_38645198

粉丝: 5
资源: 956

大数据爬虫实现全国空气质量指数实时可视化

Python-精准的百度指数抓取综合已有百度指数爬虫优点做到精准易用

空气质量爬虫以及可视化_空气质量爬虫_全国空气质量爬虫以及可视化_

python获取空气质量指数

基于大数据python爬虫的房产数据可视化分析系统 论文.docx

大数据+网络爬虫+数据可视化

大数据爬虫大数据爬虫服务平台.pdf

大数据爬虫大数据爬虫服务平台.docx

高校舆情监测新体系：大数据爬虫驱动的实时与可视化分析

Python爬虫实现空气质量指数(AQI)数据采集与可视化

大数据爬虫

最新资源

基于大数据python爬虫的房产数据可视化分析系统论文.docx