tidy_data: R语言进行数据整理与平均值提取指南

需积分: 5 110 浏览量更新于2024-11-09 收藏 61.28MB ZIP 举报

资源摘要信息:"Tidy Data Repo 是一个数据科学项目，该项目致力于获取、合并、清理和重新组织数据，以便进行科学分析。项目由 R. Bridgwater 创建，并且是一个名为 'getdata-010' 的课程项目的一部分。项目的目标是通过几个步骤来整理和分析数据： 1. 合并训练集和测试集以创建一个数据集。这通常意味着将来自两个不同来源的数据文件合并成一个单一的数据集，以便进行统一分析。在数据处理中，这是一个常见的步骤，因为通常数据会被拆分成多个部分来便于管理和存储。 2. 从合并后的数据集中提取每个测量值的平均值和标准偏差。这意味着项目会计算所有记录的平均值和标准偏差，这有助于理解数据集的统计特性。 3. 使用描述性活动名称来命名数据集中的活动。这涉及到数据标记的优化，使得数据的可读性和解释性更强。良好的数据命名和标注对于后续的数据分析和共享至关重要。 4. 使用描述性变量名称适当地标记数据集。类似于第三步，这一步骤确保数据集中的每个变量都具有清晰和描述性的名称，这有助于其他研究人员或分析者更容易理解数据集的结构和内容。 5. 基于第四步的数据集，创建第二个独立的 tidy 数据集，其中包含每个活动和每个主题的每个变量的平均值。'tidy' 数据集的概念来自于 Hadley Wickham 的工作，它强调数据应具有整洁、一致的格式，即每行代表一个观测值，每列代表一个变量，每个数据单元格包含一个值。该 Repo 包括三个关键文件：'README.md'、'run_analysis.R' 和 'CodeBook.md'。'README.md' 文件通常用于向用户介绍项目，说明如何使用其中的脚本。'run_analysis.R' 是一个R语言编写的脚本，它执行上述的数据处理步骤。'CodeBook.md' 则是一个代码书，它详细描述了数据集中的变量，包括数据的格式、数据集中的每一列以及这些列的含义。在运行 'run_analysis.R' 脚本之前，用户需要下载三星数据并解压到工作目录中。'tidy_data-master' 文件夹包含了本项目的所有文件，用户可以在此文件夹中找到需要的所有代码和说明文档。'tidy_data-master' 是压缩包子文件的文件名称列表中的一个元素，表明该项目被托管在像GitHub这样的代码托管平台上。使用 R 语言进行数据处理的读者应该注意，R 语言是数据科学中广泛使用的编程语言，特别是在统计分析、数据挖掘、图形表示和报告生成方面。R 提供了一系列工具包和函数，用于轻松处理大型数据集，是许多数据科学家和研究人员的首选工具。此外，项目的描述中提到了 'UCI HAR 数据集'，这是一个公开的健康监测数据集，被广泛用于行为识别相关的研究。'UCI HAR 数据集' 包含人体活动中通过传感器收集的信号数据。在本项目中，用户需要将该数据集解压缩到工作目录中，以便 'run_analysis.R' 脚本可以加载和处理它。该数据集的详细信息可以在加州大学欧文分校的人工智能存档中找到，它为那些对可穿戴计算设备和活动识别感兴趣的研究人员提供了一个宝贵的资源。"

资源目录

收起资源包目录

tidy_data: R语言进行数据整理与平均值提取指南（37个子文件）

body_gyro_z_train.txt 14.37MB

body_acc_y_test.txt 5.76MB

total_acc_x_train.txt 14.37MB

activity_labels.txt 80B

y_test.txt 6KB

student_1.R 7KB

total_acc_y_test.txt 5.76MB

run_analysis.R 4KB

CodeBook.md 14KB

total_acc_z_test.txt 5.76MB

student_2.R 5KB

body_acc_x_test.txt 5.76MB

tidy_data.txt 7.86MB

total_acc_y_train.txt 14.37MB

CodeBook.html 439KB

body_gyro_x_train.txt 14.37MB

features_info.txt 3KB

body_acc_y_train.txt 14.37MB

subject_train.txt 20KB

body_gyro_x_test.txt 5.76MB

total_acc_x_test.txt 5.76MB

subject_3.R 2KB

features.txt 15KB

body_gyro_y_train.txt 14.37MB

body_acc_z_test.txt 5.76MB

README.md 1KB

subject_4.R 6KB

body_acc_z_train.txt 14.37MB

X_test.txt 25.23MB

y_train.txt 14KB

body_gyro_y_test.txt 5.76MB

README.txt 4KB

body_gyro_z_test.txt 5.76MB

total_acc_z_train.txt 14.37MB

body_acc_x_train.txt 14.37MB

subject_test.txt 8KB

X_train.txt 62.95MB

共 37 条

李韩资

粉丝: 25
资源: 4516

tidy_data: R语言进行数据整理与平均值提取指南

TidyData_Repo-源码.rar

UCI-Human-Activity-Recognition-Tidy-Data:获取和清理 UCI 人类活动识别数据集

Getting_and_Cleaning_data:课程项目

getting_and_cleaning_data_course_project:获取和清理数据课程项目

getdata_courseproject:Coursera 的数据科学专业化回购 - 获取和清理数据课程项目

TidyData_Repo

TidyData:创建用于清理数据项目的 Git 存储库

coursera_DSS_03_GettingData_etl:在 Coursera 上获取和清理数据的课程项目

tidydata:Coursera 上的数据科学课程项目

tidy-data:一个整洁的数据集，一个来自可穿戴计算研究的更大数据集的缩短的平均数据集

最新资源