Coursera数据获取与清洗项目细节解析

需积分: 5 117 浏览量更新于2024-11-26 收藏 58.25MB ZIP 举报

资源摘要信息:"GetCleanDataProject是一个专门用于评估Coursera关于获取和清理数据课程的项目。该项目的目标是从一个具体的数据集出发，进行数据整合、处理，最终创建出一个整洁的数据集。这个过程需要运行一个名为run_analysis.R的R脚本，该脚本能够对给定的原始数据集进行操作，合并训练集和测试集，并从中创建出一个简洁且格式统一的数据集。项目描述中提到的数据集来自于热那亚大学的智能手机数据人类活动识别项目，该数据集包含多个文件和文件夹。数据集被解压后，会创建一个名为“UCI HAR Dataset”的主目录，这个目录中包含了所有相关的数据文件和文件夹结构。在创建整洁数据集的过程中，脚本将会合并训练集和测试集的数据，并且排除了“Inertial Signals/”文件夹中的数据，因为这部分数据并未被用于创建整洁数据集。在运行run_analysis.R脚本后，项目会保留所有包含'std()'或'mean()'的列，但并非所有包含'mean'或'std'的列都会被保留。这样，就确保了输出数据集的每个字段都是有意义的，并且数据集的字段数量被精简为66个（包含主题字段和活动字段）。对于这个项目而言，熟悉R语言是必要的，因为R是一种在统计分析、图形表示和报告方面非常强大的工具。它广泛应用于数据挖掘、机器学习等领域，而且在这个项目中，R语言能够通过读取、处理、转换和合并数据来生成整洁的数据集。要成功运行run_analysis.R脚本并理解其输出结果，需要对R的基础语法和数据处理函数有扎实的理解，比如如何读取数据、如何选择和过滤数据列、如何合并数据集以及如何输出数据到文本文件中。项目的关键步骤可能包括： 1. 加载必要的R包和库。 2. 读取数据集中的训练数据和测试数据。 3. 选择和合并包含'mean()'和'std()'的列。 4. 标记数据集中的活动名称和主题标识。 5. 创建整洁的数据集，并去除重复的数据行。 6. 计算每个变量的平均值和标准差。 7. 将最终的整洁数据集保存为文本文件，用于进一步分析。此外，由于数据集是从特定的项目中获取的，因此还需要了解数据的原始来源和背景，比如热那亚大学的智能手机数据人类活动识别项目的具体内容和数据的格式。这有助于更好地理解数据，并在此基础上进行有效的数据处理和分析。"

收起资源包目录

GetCleanDataProject:持有用于评估 Coursera 获取和清理数据的项目的数据（32个子文件）

body_gyro_x_test.txt 5.76MB

run_analysis.R 3KB

total_acc_y_test.txt 5.76MB

subject_test.txt 8KB

body_acc_x_train.txt 14.37MB

body_acc_z_test.txt 5.76MB

subject_train.txt 20KB

features.txt 15KB

README.txt 4KB

activity_labels.txt 80B

features_info.txt 3KB

total_acc_y_train.txt 14.37MB

y_train.txt 14KB

body_acc_y_test.txt 5.76MB

body_gyro_x_train.txt 14.37MB

CodeBook.md 3KB

X_test.txt 25.23MB

body_acc_z_train.txt 14.37MB

total_acc_x_test.txt 5.76MB

body_acc_y_train.txt 14.37MB

body_gyro_y_test.txt 5.76MB

README.md 3KB

body_gyro_y_train.txt 14.37MB

total_acc_z_test.txt 5.76MB

X_train.txt 62.95MB

total_acc_x_train.txt 14.37MB

body_gyro_z_test.txt 5.76MB

body_acc_x_test.txt 5.76MB

body_gyro_z_train.txt 14.37MB

total_acc_z_train.txt 14.37MB

y_test.txt 6KB

tidy_dataset.txt 219KB

共 32 条

一起快走吧

粉丝: 35
资源: 4658

Coursera数据获取与清洗项目细节解析

GettingCleaningData_Project:JHU提供的Coursera获取和清理数据课程项目

JHU-GCD-CourseProject:约翰霍普金斯大学 Coursera 获取和清理数据课程项目存储库

GetCleanDataProject:获取和清理数据 Coursera 项目

获取和清理数据分配：这是从Coursera获取和清理数据的分配

GetCleanDataProject:Coursera 的获取和清理数据课程项目

GettingCleaningData:用于存储 Coursera 获取和清理数据课程项目的文件的存储库

Getting-and-Cleaning-Data-Course-Project:这是从 Coursera 获取和清理数据的最终项目的代码

gcdata_project:用于在Coursera上获取和清理数据项目的R脚本

Get_Clean_Data_Project:数据科学 Coursera 获取和清理数据项目

GetAndCleanCourseProject:此 repo 用于 Coursera“获取和清理数据”课程的课程项目

最新资源