杨树的研究生课程论文:机器学习数据可视化与样本分布分析
需积分: 0 84 浏览量
更新于2024-08-04
收藏 1.02MB DOCX 举报
该篇研究生课程论文是由深圳大学的一名研一学生杨树在2019年1月1日提交的,课程名称为“机器学习”(Machine Learning),课程代码为2703004。任课教师是王熙照。论文主要探讨了训练数据和测试数据在机器学习项目中的分析。
首先,论文关注的是名为“Training-set.csv”的训练数据集。这个数据集包含5个属性:“id”、“a”、“b”、“c”和“t”。其中,“id”是无意义的标识符,而“t”是目标变量,分为0和1两类,分别对应3476和3524个样本,总计7000个数据点。通过分析,发现标签为0的样本的三个属性值集中在[-12,12]的区间,且数值集中在0附近,而标签为1的样本分布在更大的区间[-22,22],并且三个属性值相对均匀分布。
为了可视化这些数据,论文将三个属性转换为三维空间中的坐标,用蓝色表示标签为0的样本,绿色表示标签为1的样本。结果显示,标签为0的样本聚集在一个半径为12、球心在原点的球体内,而标签为1的样本则形成一个中间挖空的立方体结构。通过计算样本到坐标原点的欧几里得距离,发现在大约半径为11的球面范围内,可以较好地区分两个类别的数据分布。
接着,论文还讨论了测试集,包含1000个样本,同样展示了其在三维空间中的分布情况。测试集数据的统计特性与训练集相似,但没有详细提供具体的数值,只提到了三维空间中的坐标配置,以及一个沿属性“c”轴的横截面视图。
这篇论文通过深入的统计分析和可视化方法,旨在理解数据集的特征,为后续的模型构建和评估提供基础,是机器学习入门阶段的重要实践步骤。通过对数据的探索,学生可以更好地了解如何利用特征选择、数据预处理和模型训练来应对实际问题。
2021-09-21 上传
2021-09-21 上传
2021-03-29 上传
2021-08-06 上传
2021-09-08 上传
2021-08-06 上传
2021-08-06 上传
2021-11-30 上传
狼You
- 粉丝: 27
- 资源: 324
最新资源
- FLASH四宝贝之-使用ActionScript.3.0组件.pdf
- Linux Appliance Design
- 研究论文 英文版 嵌入式系统方向 Embedded Systems Building Blocks.pdf
- 新东方英语词根词缀记忆大全(整理打印版)最有效的背单词方法.pdf
- PIC 单片机的C 语言编程
- 电脑超级技巧3000招
- 如何成为一位杰出的工程师.
- 嵌入式处理器中嵌入式ICE的设计
- C语言学习100例实例程序.pdf
- Linux系统指令大全
- 编程精粹Microsoft编写优质无错C程序秘诀
- C++语言课程设计任务书
- Shaderx3-Advanced-Rendering-With-Directx-and-Opengl-Shaderx
- ENC28J60中文手册
- RCNA锐捷命令大全
- c#教程 简单实用,入门级的指导书