Coursera项目:R语言实现数据获取与清洗

需积分: 9 0 下载量 157 浏览量 更新于2024-11-10 收藏 105KB ZIP 举报
资源摘要信息:"该资源是一个存储库,名为gcdata,它专门用于处理Coursera上“获取和清理数据”这一课程的作业。存储库包含一个名为run_analysis.R的脚本文件,该脚本用于执行数据获取、合并、清洗、选择、分组和平均值计算等一系列操作。具体来说,这个作业要求分析一个特定的人体运动数据集,这个数据集被拆分为训练数据集和测试数据集。数据集分别包含传感器收集的活动记录、活动标签和受试者标识信息。脚本文件通过读取X_test.txt、X_train.txt、Y_test.txt、Y_train.txt、activity_labels.txt、features.txt、subject_test.txt、subject_train.txt这些文件的内容,并将它们进行相应的合并与处理。此外,该脚本还对合并后的数据集进行处理,只保留包含“mean”或“std”的列,然后添加对应的活动和受试者信息,接着按活动和受试者进行分组,并计算分组后的平均值。在最后阶段,脚本还对变量名进行了轻微的修正,但保持了使用大写XYZ命名的约定。此作业的结果可参考README.txt和features_info.txt两个文档,其中详细解释了变量的含义及其背后的统计信息。代码注释充分,便于理解和复现过程。此外,存储库的结构允许用户使用符号链接,这意味着用户可以创建到原始文件位置的引用,而不需要将实际数据复制到本地目录中,节省了磁盘空间。该资源的作者在2015年4月26日创建了该存储库,并采用了html_document格式来输出最终结果。最后,资源的标签指明了使用的主要编程语言是R。" 关键词包括:数据获取、数据清理、R语言、Coursera、作业、传感器数据、活动记录、数据集合并、数据选择、数据分组、平均值计算、变量命名、符号链接、自述文件、特征信息、输出格式。