国科大数据挖掘作业示例:数据处理与可视化分析

需积分: 10 7 下载量 107 浏览量 更新于2024-09-05 收藏 729KB DOCX 举报
本次作业涉及的是国科大数据挖掘课程中的第一个任务,主要关注数据处理和分析方法。作业包含两个部分,以下是详细解读: **Part I: 数据分析与可视化** 1. **数据汇总与索引**: - (a) 使用rollup操作对游戏和观众数据进行汇总,以及基于地点(芝加哥)和日期(1999年)进行切片。Rollup是一种数据聚合操作,它可以快速汇总列值,对于计算计数等统计量非常高效。然而,由于列基数较高(基数是指列中唯一值的数量),在这种情况下,位图索引(Bitmap Index)可能不是最佳选择,因为位图索引更适用于低基数列的查询。 2. **描述性统计与可视化**: - (b) 提供了年龄和%脂肪的描述性统计信息,包括均值、中位数、标准差等。计算了第一四分位数(Q1)和第三四分位数(Q3),并计算了四分位距(IOR)。箱形图展示了年龄(蓝色)和%脂肪(橙色)的数据分布,可以看出两者之间的差异。 - (c) 绘制了散点图,可能是年龄与%脂肪之间的关系图,用于观察两者之间的相关性。 - (d) 进行了最小-最大标准化(Min-Max Normalization),这是一种将数值缩放到特定范围内的方法,例如0到1之间,以便于比较和可视化。 - (e) 计算了相关系数(ra),0.879大于0,表明两个变量之间存在正相关。 3. **中心趋势与离群值**: - (f) 提供了三个重复的值序列,可能是对某指标的重复测量,每个序列代表一个样本或个体的值。 - (g) 分别列出了一些数据点,可能是经过某种操作后的结果,比如不同分组或处理后的数值。 **Part II: 推断与模型评估** 这部分可能需要学生根据上述分析,进一步构建假设、检验假设或者应用统计模型,例如线性回归模型来评估两个变量的关系强度,并可能涉及到假设检验,确定正相关性的显著性。 这个作业涵盖了数据预处理(如索引选择、标准化)、描述性统计分析、可视化呈现(箱形图和散点图)以及初步的数据探索和关系分析。学生需要运用所学的大数据挖掘技术来深入理解这些数据,进行有效的数据挖掘和解释。