【免费】搜狗疫情数据爬取（R语言） - CSDN文库

需积分: 0 91 浏览量更新于2023-05-03 评论 3 收藏 611KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

搜狗疫情数据爬取（搜狗疫情数据爬取（R语言）语言）

想必大家最近都很关心新冠状肺炎，疫情导致春节被延长，高速被封，大家伙基本都是远程办公。

趁着周末，来写个爬虫，获取搜狗疫情提供的数据，爬取各个省份以及各个市区的确诊、治愈和死亡数据。

1581827981508.png

网页分析网页分析

网页地址为：http://sa.sogou.com/new-weball/page/sgs/epidemic?type_page=WEB，在分析网页时，如果在这里使用浏览器的检查检查功能，根据标签来写xpath，是无法爬取到数据的。如下图，湖北的数

据在div.total标签里面，但在源代码中无法搜索到。而且，read_html是获取网页源码，因此如果根据该标签获取数据，结果肯定为空。

1581829059936.png

如果仔细研究一下源码，会发现所有数据都在，所以xpath=/html/body/script[1]/text()。

library(rvest)

library(rjson)

url<-"http://sa.sogou.com/new-weball/page/sgs/epidemic?type_page=WEB"

page<-read_html(url)

html_dt%html_nodes(xpath="//html/body/script[1]/text()")%>%html_text(trim = TRUE)

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

评论0

weixin_38669793

粉丝: 6
资源: 938

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈