杨树的研究生课程论文：机器学习数据可视化与样本分布分析

需积分: 0 84 浏览量更新于2024-08-04 收藏 1.02MB DOCX 举报

该篇研究生课程论文是由深圳大学的一名研一学生杨树在2019年1月1日提交的，课程名称为“机器学习”（Machine Learning），课程代码为2703004。任课教师是王熙照。论文主要探讨了训练数据和测试数据在机器学习项目中的分析。首先，论文关注的是名为“Training-set.csv”的训练数据集。这个数据集包含5个属性：“id”、“a”、“b”、“c”和“t”。其中，“id”是无意义的标识符，而“t”是目标变量，分为0和1两类，分别对应3476和3524个样本，总计7000个数据点。通过分析，发现标签为0的样本的三个属性值集中在[-12,12]的区间，且数值集中在0附近，而标签为1的样本分布在更大的区间[-22,22]，并且三个属性值相对均匀分布。为了可视化这些数据，论文将三个属性转换为三维空间中的坐标，用蓝色表示标签为0的样本，绿色表示标签为1的样本。结果显示，标签为0的样本聚集在一个半径为12、球心在原点的球体内，而标签为1的样本则形成一个中间挖空的立方体结构。通过计算样本到坐标原点的欧几里得距离，发现在大约半径为11的球面范围内，可以较好地区分两个类别的数据分布。接着，论文还讨论了测试集，包含1000个样本，同样展示了其在三维空间中的分布情况。测试集数据的统计特性与训练集相似，但没有详细提供具体的数值，只提到了三维空间中的坐标配置，以及一个沿属性“c”轴的横截面视图。这篇论文通过深入的统计分析和可视化方法，旨在理解数据集的特征，为后续的模型构建和评估提供基础，是机器学习入门阶段的重要实践步骤。通过对数据的探索，学生可以更好地了解如何利用特征选择、数据预处理和模型训练来应对实际问题。

深圳大学研究生课程论文

题目 Semester-end test paper 成绩

专业计算机科学与技术课程名称、代码 MachineLearning 2703004

年级研一姓名杨树

学号 1800271003 时间 2019 年 1 月 1 日星期二

任课教师王熙照

下载后可阅读完整内容，剩余4页未读，立即下载

狼You

粉丝: 27
资源: 324

杨树的研究生课程论文：机器学习数据可视化与样本分布分析

杨树病虫害防治论文.doc

杨树在水保防护林应用存在问题研究论文.doc

1杨树之歌——学生学习课件

quantitative_genetics:研究期刊描述了杨树抗性的遗传控制

内蒙古自治区呼伦贝尔市鄂伦春旗大杨树三中高中物理1.3运动快慢的描述_速度教案新人教版必修1

内蒙古呼伦贝尔市大杨树二中2015_2016学年高一生物上学期期末模拟试卷含解析

内蒙古自治区呼伦贝尔市鄂伦春旗大杨树三中高中物理1.5速度变化快慢的描述_加速度教案新人教版必修1

内蒙古自治区呼伦贝尔市鄂伦春旗大杨树三中高中物理1.3运动快慢的描述_速度导学案新人教版必修1

内蒙古自治区呼伦贝尔市鄂伦春旗大杨树高中物理1.3运动快慢的描述_速度导学案新人教版必修1.doc

Documentation:杨树文档

最新资源