数据统计与可视化实验：课程成绩分析与相关性探索

需积分: 0 55 浏览量更新于2024-08-04 收藏 134KB DOCX 举报

"本次实验是关于机器学习与数据挖掘的实践操作，主要涉及数据的统计、可视化以及相关性分析。实验使用的是一个100x11的数据矩阵，包含了100名学生的11门课程成绩。实验要求使用C/C++/Java/Python/Matlab等语言完成以下任务： 1. 散点图：以课程1的成绩为x轴，体能成绩为y轴绘制散点图，用于直观展示两者之间的关系。散点图可以帮助我们理解这两项成绩是否存在某种线性或非线性的关联。 2. 直方图：以5分为间隔，绘制课程1的成绩直方图，可以了解成绩分布的集中趋势和离散程度。直方图有助于我们分析成绩的分布情况，如是否有偏态、峰度等。 3. z-score归一化：对每门课程的成绩进行z-score标准化处理，使得数据具有零均值和单位标准差，这样不同课程间的成绩可以进行比较。归一化公式为 (x - μ) / σ，其中x是原始值，μ是平均值，σ是标准差。 4. 相关矩阵：计算100x100的相关矩阵，表示学生之间各门课程成绩的相关性。相关矩阵的元素是皮尔逊相关系数，用于衡量两个变量间的线性相关程度。可视化混淆矩阵可以更直观地展示各个课程成绩之间的相互影响。 5. 最近邻查找：基于相关矩阵，找出每个学生与其成绩最相似的三个其他学生，形成100x3的矩阵，存储这三个样本的ID。这一步骤涉及到了数据的聚类和相似性计算。实验过程中，对于相关系数的理解可能存在困惑，但画图部分相对简单，通过查阅资料和实践可以掌握。实验结果需包括散点图、直方图、归一化后的数据矩阵验证、相关矩阵的可视化以及100x3的最近邻矩阵的输出。通过这次实验，学生不仅可以深化对数据统计和可视化的理解，还能提高在实际问题中应用这些技术的能力，尤其是在没有现成库函数的情况下进行计算的实践能力。同时，这也是对相关性分析和数据预处理的重要训练，为后续的机器学习和数据挖掘任务打下基础。"

实验二《数据统计和可视化》

题目

基于实验一中清洗后的数据练习统计和视化操作，100 个同学（样本），每个同学有 11 门

课程的成绩（11 维的向量）；那么构成了一个 100x11 的数据矩阵。以你擅长的语言

C/C++/Java/Python/Matlab，编程计算：

1. 请以课程 1 成绩为 x 轴，体能成绩为 y 轴，画出散点图。

2. 以 5 分为间隔，画出课程 1 的成绩直方图。

3. 对每门成绩进行 z-score 归一化，得到归一化的数据矩阵。

4. 计算出 100x100 的相关矩阵，并可视化出混淆矩阵。（为避免歧义，这里“协相关矩阵”

进一步细化更正为 100x100 的相关矩阵，100 为学生样本数目，视实际情况而定）

5. 根据相关矩阵，找到距离每个样本最近的三个样本，得到 100x3 的矩阵（每一行为对应

三个样本的 ID）输出到 txt 文件中，以 , 间隔。

提示：

计算部分不能调用库函数；画图/可视化显示可可视化工具或 API 实现。

实验结果截图：

问题 1 散点图

下载后可阅读完整内容，剩余3页未读，立即下载

我只匆匆而过

粉丝: 20
资源: 316

数据统计与可视化实验：课程成绩分析与相关性探索

UCI机器学习库：数据挖掘与机器学习的理想数据集

机器学习与数据挖掘：人工智能探索

Caltech CS155课程：机器学习与数据挖掘

机器学习与数据挖掘实验11

机器学习与数据挖掘实验.zip

机器学习与数据挖掘实验报告.zip

机器学习与数据挖掘学习实验.zip

山东大学机器学习与数据挖掘实验室.pdf

matlab导入excel代码-Project1:机器学习与数据挖掘实验

MATLAB实现机器学习与数据挖掘

最新资源