Coursera数据科学课程实践：分析与整理数据

需积分: 5 93 浏览量更新于2024-11-02 收藏 9.17MB ZIP 举报

课程中包含一个名为runanalysis.R的R脚本，该脚本执行了对数据集的一系列处理操作。以下详细说明了runanalysis.R脚本中的知识点和操作过程： 1. 数据读取：脚本开始于从本地文本文件中读取数据。具体来说，它使用R语言中的read.table()或read.csv()函数读取x_test.txt和x_train.txt文件中的数据。这两个文件可能包含用于测试和训练的数据集。 2. 数据合并：将读取的测试和训练数据集合并到一个单独的数据框架(data frame)中。这一步骤可能涉及到使用rbind()函数来垂直堆叠数据帧，如果数据具有相同的列结构。 3. 列选择：脚本接着创建一个向量，指定需要保留的列数。这可能通过列索引或列名来实现，以便从合并后的数据集中选取需要的数据列。 4. 数据清洗：只在数据框中留下需要的列。这可能涉及剔除无用的列，保留那些对分析有用的列。 5. 列命名：利用features.txt文件中的数据对合并后的数据框架的列进行命名。这一步骤涉及读取特征名称，并将这些名称赋给数据框架的列。 6. 活动标签：使用y_train.txt和y_test.txt中的数据为数据框架添加一个新列，该列包含相应的活动标识符。这可能是一个分类或因子变量，用于表示不同类型的活动。 7. 主题编号：同样地，使用subject_train.txt和subject_test.txt文件中的数据添加另一个新列，该列包含与数据相关的主题编号。每个主题可能代表一个不同的参与者或实验对象。 8. 数据拆分与平均值计算：脚本接着按主题和活动对数据框架进行拆分，并计算拆分列表中每个元素的每个变量的平均值。这是通过分组操作来完成的，可能使用了dplyr包中的group_by()和summarize()函数。 9. 矩阵组合：将计算好的平均值数据组合成矩阵形式，其中行代表不同的主题和活动组合，列表示不同的变量的平均值。 10. 数据输出：最后，脚本将处理好的矩阵写入到tidy_matrix.txt文件中。这一步骤使用了write.table()或write.csv()函数将最终的矩阵数据写入本地文本文件。整个过程涉及数据处理、数据清洗、数据转换和数据可视化等数据科学的关键步骤。这些步骤和方法在R语言中是很常见的，并广泛应用于数据分析和统计计算。通过实际操作这样的脚本，学习者可以加深对数据操作流程的理解，并能够使用R语言对实际数据集进行处理和分析。在学习的过程中，学习者需要熟悉R语言的语法、函数、包以及数据操作的各种技巧。此外，学习者还需要理解如何通过Coursera这样的在线教育平台来获得相关课程的指导和资源。通过Coursera的数据科学课程，学习者可以掌握到如何使用R语言进行数据科学项目的所有重要环节，从而为将来在数据分析领域的工作打下坚实的基础。"

资源目录

收起资源包目录

Coursera数据科学课程实践：分析与整理数据（73个子文件）

README.md 8KB

training.csv 11.64MB

testing.csv 15KB

run_analysis.R 2KB

RM_CP.pdf 182KB

sample_panelplot.png 68KB

activity.csv 343KB

tidy_matrix.txt 219KB

unnamed-chunk-3_bd3ac21b33b534f94b6b2136d21cc12f.rdx 150B

interval_means.png 9KB

ui.R 208B

features.txt 15KB

cool_storms.pdf 279KB

cp.Rmd 2KB

m.html 4KB

r2.html 2KB

unnamed-chunk-1_a39df5bb20fcb9616573a227324b565a.rdx 150B

plot_daily_steps.png 4KB

plot4.R 1KB

PA1_template.md 3KB

cp.R 80B

ML.html 429KB

.gitmodules 117B

helpers.R 1KB

server.R 406B

.Rhistory 16KB

test-rpubs.html 86KB

counties.rds 59KB

plot1.png 19KB

unnamed-chunk-2_709de886279338c21b56f7cdb5892b56.RData 195B

activity.zip 52KB

m1.html 66KB

plot3.R 833B

ui.R 647B

ML.Rmd 1KB

RM_CP.Rmd 2KB

plot4.png 59KB

unnamed-chunk-3-1.png 7KB

codebook.txt 2KB

toothgrowth.Rmd 1KB

unnamed-chunk-3_bd3ac21b33b534f94b6b2136d21cc12f.RData 166B

plot3.png 25KB

unnamed-chunk-2_709de886279338c21b56f7cdb5892b56.rdb 1.65MB

m.html~ 3KB

cp.html 428KB

unnamed-chunk-1_a39df5bb20fcb9616573a227324b565a.rdb 1.96MB

new_hist.png 4KB

census-app.dcf 89B

__packages 5B

server.R 683B

unnamed-chunk-2-1.png 7KB

unnamed-chunk-3_bd3ac21b33b534f94b6b2136d21cc12f.rdb 1.55MB

test.Rpres 520B

PA1_template.Rmd 3KB

n1.html 4KB

plot1.R 663B

plot2.png 31KB

README.md 4KB

unnamed-chunk-2_709de886279338c21b56f7cdb5892b56.rdx 148B

storms.Rmd 5KB

cachematrix.R 1KB

r1.html 8KB

instructions.pdf 184KB

toothgrowth.pdf 166KB

test.md 808B

cp.pdf 203KB

plot2.R 635B

weekday_plots.png 12KB

x1.html 2KB

PA1_template.html 469KB

README.md 886B

unnamed-chunk-1_a39df5bb20fcb9616573a227324b565a.RData 262B

共 73 条

侯戈

粉丝: 27

Coursera数据科学课程实践：分析与整理数据

datasciencecoursera:我的 Coursera 数据科学专业课程材料的存储库

datasciencecoursera:对于Coursera考试回购

datasciencecoursera:数据科学课程资料库

Coursera的优缺点

能给我一些学习算法的超棒的网站吗

coursera上python课程推荐

coursera法学证书攻略

python数据挖掘课程

coursera的课程评论数据集

coursera机器学习课程

最新资源