大数据期末考试 R语言数据处理与新冠疫情可视化
131 浏览量
更新于2024-10-05
收藏 3.65MB ZIP 举报
资源摘要信息:"本文档是关于DV-Final-大数据专业期末R语言考试的全部内容,包含了数据观察和预处理,地理数据可视化等方面的知识点。"
一、数据观察和预处理
1. 数据读取:在R语言中,数据读取是进行数据分析的第一步。常见的数据读取函数有read.csv()和read_csv()。其中,read.csv()是R语言自带的函数,用于读取以逗号分隔的文本文件;read_csv()是readr包中的函数,用于读取以逗号分隔的文件,相比于read.csv(),read_csv()在读取大数据集时速度更快,内存使用更少。
2. 数据预处理:数据预处理是数据分析的重要步骤,主要包括数据清洗、数据转换、数据规约等操作。在R语言中,常用的预处理函数有as.Date(),用于时间类型的转换。例如,可以将字符串格式的日期转换为日期类型。此外,还可以进行长宽数据的转换,例如使用gather()和spread()函数将数据集从宽格式转换为长格式,或者从长格式转换为宽格式。数据预处理还包括日期中年月日的提取等操作。
3. 分组汇总计算:在R语言中,可以使用dplyr包中的函数进行分组汇总计算。例如,可以使用group_by()函数对数据进行分组,然后使用summarise()函数进行汇总计算。例如,可以根据累计确诊人数计算2020年1月3日至2022年12月7日的国内各省每日新增确诊人数,按年月分组汇总确诊人数等。
二、地理数据可视化
1. 气泡地图:气泡地图是一种常见的地理数据可视化方式,可以展示数据的空间分布情况。在R语言中,可以使用ggplot2包中的geom_point()函数创建气泡图,其中x轴和y轴分别表示地理坐标,气泡的大小表示数值大小。例如,可以创建一个气泡图展示2022年12月7日全球新冠疫情累计病例分布情况,气泡的大小表示累计病例的数量。
2. 世界地图:在R语言中,还可以使用ggplot2包结合maps包创建世界地图,展示全球范围内的数据分布情况。例如,可以创建一个地图展示全球各国新冠疫情累计病例的分布情况。
以上就是本文档中关于DV-Final-大数据专业期末R语言考试的全部内容的知识点,希望对您有所帮助。
2021-09-11 上传
2021-10-01 上传
2022-09-22 上传
2022-09-24 上传
2022-07-15 上传
2022-07-13 上传
2022-07-14 上传
2022-09-20 上传
Mrrunsen
- 粉丝: 9613
- 资源: 514