Coursera 数据清洗课程:从下载到分析的完整指南
需积分: 5 82 浏览量
更新于2024-12-04
收藏 63.09MB ZIP 举报
资源摘要信息:"Coursera-Getting-and-Cleaning-Data课程是关于数据分析的一个重要组成部分,该课程主要教授如何获取和清理数据。在这个课程中,你将会学习到如何处理原始数据集,如何使用R语言进行数据的读取、处理和清理。该课程材料包括一个名为Coursera-Getting-and-Cleaning-Data-master的压缩包文件,解压缩后会得到一个名为“UCI HAR Dataset”的文件夹,这是课程的主要数据源。
在课程中,你需要运行一个名为“run_analysis.R”的R脚本文件。这个脚本的主要工作流程如下:
1. 使用read.table()命令读取所有原始数据文件。read.table()是R语言中用于读取文本文件的函数,它可以读取各种格式的表格数据,包括csv文件,这在数据处理中是非常重要的工具。
2. 使用rbind()命令连接测试和训练数据集。rbind()是R语言中用于合并数据框的函数,它可以将两个数据框按行合并,这对于数据处理来说是一个非常有用的技巧。
3. 仅从原始数据中提取平均值和标准偏差测量值。这一步是数据清洗的重要步骤,它可以帮助我们去除不必要的数据,只保留我们需要的数据。
4. 活动名称重新格式化得更干净。这一步是数据清洗的另一个步骤,它可以帮助我们清理数据,使其更容易理解和使用。
5. 使用gsub()命令清除变量名称。gsub()是R语言中用于替换字符串的函数,它可以将变量名中的特殊字符或不需要的字符替换掉,使变量名更加清晰。
6. 将生成的tidy数据集写入.txt文件,然后仅从第一个tidy数据集中选择每个变量的平均值,生成“tidy_data_means.txt”。这一步是数据处理的最后一步,它可以帮助我们将处理后的数据保存下来,以便以后使用或分享。
总的来说,Coursera-Getting-and-Cleaning-Data课程是学习如何获取和清理数据的一个很好的开始。通过这个课程,你将学会如何使用R语言处理数据,如何清理和格式化数据,以及如何将处理后的数据保存下来。这对于数据分析来说是非常重要的技能。"
2021-06-28 上传
151 浏览量
2021-06-23 上传
2021-06-23 上传
2021-07-20 上传
2021-06-23 上传
2021-07-20 上传
2021-06-23 上传
2021-06-28 上传
楼小雨
- 粉丝: 24
- 资源: 4694
最新资源
- 安德罗塞克
- 电气设计笔记.zip
- 自适应蚁群算法在序列比对中的应用.zip
- tiramisu:项目将对从通过caffe处理的图像中提取的特征进行后处理
- Exam24h Helper - Tạo Khóa Học Online-crx插件
- 营运课退换货作业规范
- Algorithm
- 单机版五子棋源码.zip
- Ogre:Ogre 是一个用于使用 OPI 和 OPIOctopus900 的小型视野测量演示应用程序
- 百货常用促销手段
- Formation facile-crx插件
- stepik_lessons
- FFDoku:FFDoku,一个用于Firefox OS的数独!
- 初级java笔试题-brawl:开源大规模斗殴模拟器
- 拉扎鲁斯
- 精美蝴蝶图标下载