杨树的研究生课程论文:机器学习数据可视化与样本分布分析

需积分: 0 0 下载量 84 浏览量 更新于2024-08-04 收藏 1.02MB DOCX 举报
该篇研究生课程论文是由深圳大学的一名研一学生杨树在2019年1月1日提交的,课程名称为“机器学习”(Machine Learning),课程代码为2703004。任课教师是王熙照。论文主要探讨了训练数据和测试数据在机器学习项目中的分析。 首先,论文关注的是名为“Training-set.csv”的训练数据集。这个数据集包含5个属性:“id”、“a”、“b”、“c”和“t”。其中,“id”是无意义的标识符,而“t”是目标变量,分为0和1两类,分别对应3476和3524个样本,总计7000个数据点。通过分析,发现标签为0的样本的三个属性值集中在[-12,12]的区间,且数值集中在0附近,而标签为1的样本分布在更大的区间[-22,22],并且三个属性值相对均匀分布。 为了可视化这些数据,论文将三个属性转换为三维空间中的坐标,用蓝色表示标签为0的样本,绿色表示标签为1的样本。结果显示,标签为0的样本聚集在一个半径为12、球心在原点的球体内,而标签为1的样本则形成一个中间挖空的立方体结构。通过计算样本到坐标原点的欧几里得距离,发现在大约半径为11的球面范围内,可以较好地区分两个类别的数据分布。 接着,论文还讨论了测试集,包含1000个样本,同样展示了其在三维空间中的分布情况。测试集数据的统计特性与训练集相似,但没有详细提供具体的数值,只提到了三维空间中的坐标配置,以及一个沿属性“c”轴的横截面视图。 这篇论文通过深入的统计分析和可视化方法,旨在理解数据集的特征,为后续的模型构建和评估提供基础,是机器学习入门阶段的重要实践步骤。通过对数据的探索,学生可以更好地了解如何利用特征选择、数据预处理和模型训练来应对实际问题。