基于实验一数据的统计与可视化分析：课程1成绩与体能散点图与直方图

需积分: 0 140 浏览量更新于2024-08-04 收藏 23KB DOCX 举报

本次实验是针对广州大学计算机科学与网络工程学院软件实验室的学生进行的，由李子轩独自完成。实验主题围绕数据分析和可视化，使用Python语言进行操作，主要涉及以下几个知识点： 1. 数据分析与可视化： - 实验二以实验一的数据集objectFile.csv为基础，该数据集包含100名学生11门课程的成绩，构成100x11的数据矩阵。 - 实验要求制作课程1成绩与体能成绩的散点图，这有助于观察两者之间的关系，通常用于探索变量间的相关性。 - 利用matplotlib和seaborn库，按照5分的间隔绘制课程1成绩的直方图，展示成绩分布情况。 2. 数据预处理： - 对每门成绩进行z-score归一化，这是一种常见的数据标准化方法，通过将每个数据点转换为均值为0，标准差为1的标准正态分布，使得不同尺度的变量可以比较。这一步得到的是一个归一化的数据矩阵，存储在zscoreFile.csv中。 3. 相关系数分析： - 计算了100x100的相关矩阵，这是衡量两列变量间线性关系强度的一种统计指标。使用这种方法，可以发现各课程成绩之间的关联程度，有助于理解课程之间的相互影响。 - “混淆矩阵”被纠正为“相关矩阵”，因为混淆矩阵通常用于分类问题中的性能评估，而此处关注的是变量间的相关性。 4. 距离最近邻搜索： - 基于相关矩阵，找出每个样本（学生）与其最接近的其他三个样本，这可以通过计算样本间的欧氏距离或余弦相似度来实现。结果被组织成一个100x3的矩阵，并以文本格式保存在Matrix.txt文件中。整个实验强调了从数据处理到可视化，再到统计分析的完整流程，同时利用Python的优势简化了数据操作，降低了代码的重复性。通过这些步骤，学生不仅掌握了数据分析的基本技能，还能够理解和应用相关算法来洞察数据中的模式和趋势。

广州大学学生实验报告

开课学院及实验室：计算机科学与网络工程学院软件实验室 2020 年 12 月 10

日

学院

计算机科学

与网络工程

学院

年级/专

业/班

18 级

软件

工程

3 班

姓名

李子轩

学号

1806300106

实验课

程名称

机器学习与数据挖掘实验

成绩

实验项

目名称

数据统计和可视化

指导老

师

彭伟龙

实验二

一、组员信息

李子轩（小组共 1 人）

二、作业环境（文件说明，函数说明，调用的函数库以及涉及哪些技术）

文件说明：

数据源：objectFile.csv（为实验一中完成数据集成和清洗后导出的文件）

进行 z-score 归一化后得到的矩阵：zscoreFile.csv

91x91 的相关矩阵：correlationMatrixFile.csv

实验题目 5 中最后输出的距离每个样本最近的三个样本，得到一个 91x3 的矩阵

下载后可阅读完整内容，剩余4页未读，立即下载

东郊椰林放猪散仙

粉丝: 24
资源: 300

基于实验一数据的统计与可视化分析：课程1成绩与体能散点图与直方图

软件183-李子轩-实验一1

软件183-李子轩-实验三1

广州大学软件工程3实验一：数据融合与清洗

广州大学实验报告：Python实现K-means聚类算法

数据分析高级培训：客户体验分析-课件

【微电网潮流】分布式电源微电网潮流【Matlab仿真 7357期】.zip

Unity3d-lesson_EVAC-CITY.zip

2023-04-06-项目笔记 - 第三百一十三阶段 - 4.4.2.311全局变量的作用域-311 -2025.11.10

【电机控制】基于matlab PID控制器BLDC电机控制【Matlab仿真 7412期】.zip

【误码率仿真】基于matlab阿拉姆提空间时间块编码STBC（含误码率）【Matlab仿真 7425期】.zip

最新资源