基于实验一数据的统计与可视化分析:课程1成绩与体能散点图与直方图

需积分: 0 0 下载量 140 浏览量 更新于2024-08-04 收藏 23KB DOCX 举报
本次实验是针对广州大学计算机科学与网络工程学院软件实验室的学生进行的,由李子轩独自完成。实验主题围绕数据分析和可视化,使用Python语言进行操作,主要涉及以下几个知识点: 1. 数据分析与可视化: - 实验二以实验一的数据集objectFile.csv为基础,该数据集包含100名学生11门课程的成绩,构成100x11的数据矩阵。 - 实验要求制作课程1成绩与体能成绩的散点图,这有助于观察两者之间的关系,通常用于探索变量间的相关性。 - 利用matplotlib和seaborn库,按照5分的间隔绘制课程1成绩的直方图,展示成绩分布情况。 2. 数据预处理: - 对每门成绩进行z-score归一化,这是一种常见的数据标准化方法,通过将每个数据点转换为均值为0,标准差为1的标准正态分布,使得不同尺度的变量可以比较。这一步得到的是一个归一化的数据矩阵,存储在zscoreFile.csv中。 3. 相关系数分析: - 计算了100x100的相关矩阵,这是衡量两列变量间线性关系强度的一种统计指标。使用这种方法,可以发现各课程成绩之间的关联程度,有助于理解课程之间的相互影响。 - “混淆矩阵”被纠正为“相关矩阵”,因为混淆矩阵通常用于分类问题中的性能评估,而此处关注的是变量间的相关性。 4. 距离最近邻搜索: - 基于相关矩阵,找出每个样本(学生)与其最接近的其他三个样本,这可以通过计算样本间的欧氏距离或余弦相似度来实现。结果被组织成一个100x3的矩阵,并以文本格式保存在Matrix.txt文件中。 整个实验强调了从数据处理到可视化,再到统计分析的完整流程,同时利用Python的优势简化了数据操作,降低了代码的重复性。通过这些步骤,学生不仅掌握了数据分析的基本技能,还能够理解和应用相关算法来洞察数据中的模式和趋势。