机器学习导论：作业三-决策树分析与线性模型

需积分: 0 30 浏览量更新于2024-08-05 收藏 1.14MB PDF 举报

"171840708 张逸凯 zykhelloha@gmail.com" 这篇内容涉及的是机器学习课程中的一个作业，主要关注决策树的学习和学术诚信问题。作业由171840708号学生张逸凯完成，并在2020年4月25日提交。作业强调了学术诚信的重要性，严禁任何形式的剽窃和抄袭，鼓励学生们独立完成作业。作业的提交格式有明确要求，包括文件命名、内容组成以及截止时间。作业的具体内容包括： 1. 分析使用“最小训练误差”作为决策树划分选择的缺点。在构建决策树时，最小化训练误差可能导致过拟合，因为模型过于复杂，过分拟合训练数据，从而在未知数据上的泛化能力下降。 2. 将决策树与线性模型关联起来。给定的回归决策树示例中，X1和X2是特征，t1到t4是分割点。作业要求学生根据这些条件绘制决策树对特征空间的划分，并用线性模型表示这个决策树。线性模型可以用来近似决策树的各个区域的输出，每个区域Ri对应一个常数值ci。 3. 讨论了用于评估回归树性能的平方误差。尽管最小化平方误差是理想的，但找到这样的最优回归树通常计算上很困难。因此，实践中通常采用贪心算法，通过每次局部最优的特征划分来逐步构建决策树，虽然这可能无法达到全局最优，但能有效地降低计算复杂度。此外，作业提交时，需要将个人的学号、姓名和邮箱填写在模板中，提交的文件包括：佰佤佦（可能是作业答案文档）、源码文件（可以直接运行的代码）、预测结果文件，这三个文件压缩成一个名为学号的压缩包。文件命名和格式不合规会扣分，且作业提交的截止时间为4月23日23:55:00，逾期提交将不被接受，记为零分。这个作业涵盖了决策树的基本理论、模型评估和实际操作，旨在帮助学生深入理解决策树的学习过程和评估标准，同时强化了学术诚信的意识。

伲估伲估年春季机器学习导论作业三

图伲伺绘制决策树对于特征空间的划分

线性模型表达伺 f伨x伩伽

i=1

I伨x ∈ R

伩, 其中 I伨x ∈ R

伩伽







伱, 伨x ∈ R

伩

估, 伨x /∈ R

伩

(3)

不妨令数据点x ∈ R

伬 d个属性构成了d维的特征空间伬 x对应了d维特征空间一个数据点伬

佃佁佒佔回归树的目标是将特征空间在每一维度划分成若干个子空间伬在树上叶节点 ∈ 某个子空

间伮

就像上题一样伬如果x ∈ R

伬那么就输出R

内对应的数值伮

题中所给优化问题伺

佭佩佮

j,s





佭佩佮

∈R

(j,s)

伨y

− c

伩

伫佭佩佮

∈R

(j,s)

伨y

− c

伩





下面我们来解释这个优化问题的含义伺

优化问题中R

伨j, s伩伽 {x|x

≤ s}, R

伨j, s伩伽 {x|x

> s}伬也就是在第j个特征空间关于s的

一个划分伬 R

, R

是互补的两个区域伬我们可以发现上述优化问题就是遍历所有的划分属性j伬

然后递归地找到最优的划分点s伬不断把当前特征空间划分成子空间直到满足终止条件伮

下面给出变量j, s的求解思路:

• 求解内层佭佩佮

, t ∈ {伱, 伲}伨佴只有两个值表示不断把当前迭代步的特征空间按照划分点分

成两个伩伺

伳

剩余12页未读，继续阅读

爱吃番茄great

粉丝: 27
资源: 296

机器学习导论：作业三-决策树分析与线性模型

使用广义方向宽度优先搜索的吃豆人游戏实现

机器学习导论：学术诚信与BayesianNetwork作业指导

机器学习导论：作业一 - 核函数分析

高程课设三_171840708_张逸凯1

171840708_张逸凯3

171840708_张逸凯2

171840708_张逸凯4

171840708_张逸凯5

171840708_张逸凯6

171840708_张逸凯_第六章作业1

最新资源