华中科技大学机器学习讲义：监督学习与k近邻算法详解

需积分: 0 21 浏览量更新于2024-07-01 收藏 2.9MB PDF 举报

本讲义是华中科技大学计算机科学与技术学院机器学习与数据挖掘实验室编撰的机器学习内部讲义，由何琨老师编纂，适用于本科生教学。讲义内容覆盖了机器学习的基础概念和关键算法，分为五章： 1. 引言部分介绍了机器学习的基本概念，包括其定义、历史以及主要的学习算法类型，如监督学习、无监督学习和强化学习。 2. 监督学习章节详细讨论了监督学习方法，包括标签空间和特征向量的概念，以及如何通过损失函数来衡量模型预测的准确性。举例说明了损失函数的作用，并强调了泛化能力在模型选择中的重要性。此外，还讲解了训练集和测试集的划分，以及数据划分的方法。 3. 第三章重点讲解了k近邻算法，涉及基本假设、分类规则、距离函数的选择，以及k值的影响。同时，讨论了维数灾难问题，即在高维空间中寻找最佳决策边界时的挑战。k-平均聚类算法也作为补充提及。 4. 感知机是第四章的核心内容，介绍了感知机分类模型的工作原理、感知机算法和其收敛性的探讨。 5. 贝叶斯方法与概率估计是后续章节的主题，涉及到联合概率分布、最大似然估计（MLE）和边际最大后验估计（MAP），这些都是构建基于概率模型的重要工具。这门讲义不仅提供理论知识，还结合实例帮助理解，旨在为学生深入理解机器学习的核心思想和技术打下坚实基础。何琨老师鼓励读者对讲义提出改进意见，持续更新和完善内容。

何琨 @ 华中科技大学

 R

是 d 维特征空间

 x

是第 i 个样本的特征向量

 y

是第 i 个样本的标签

 c 是标签空间

数据点 (x

, y

)来源于一些分布 P(X, Y)，我们想要学习函数 h，对于新的点 (x, y) ∼ P，

有较高的概率使得 h(x) = y 或者 h(x) ≈ y。监督学习的整体模型如下：

图 2–1 监督学习

Figure 2–1 supervised learning

其中函数 h 属于假想集 H，假想集包括多种函数，如线性分类函数、决策树、人工

神经网络、SVM 等等。一个成功的机器学习实例都是基于某个假设。

下面，对于 X 和 Y 举一些例子。

2.2.1 标签空间实例

对于标签空间 c 有以下几种情形：

二分类 c =

{

0, 1

}

orc =

{

−1, +1

}

如垃圾邮件过滤，一封邮件是垃圾邮件 (+1) 或者不是 (-1)

多分类 c =

{

0, 1, . . . , K

}(

K ≥ 2

)

如脸分类器，一个人可以是 K 身份中的一个 (例如，“1”表示奥巴马，“2”表示布什)

回归 c = R 如预测未来的温度和人的身高

2.2.2 特征向量实例

我们称 x

为特征向量，d 维中的每一维表示第 i 个样本的一个特征，以下为几个例

子。

机器学习内部讲义

病人数据 x

{

, x

, . . . , x

}

，其中 x

=0 or 1，可能代表第 i 个病人的性别，x

可

能代表第 i 个病人的身高，x

可能代表第 i 个病人的年龄，等等。在这种情况下，

d ≤ 100 并且特征向量是密集的，即，i

中的非零坐标的数量相对于 d 是大的。

文本文档 x

{

, x

, . . . , x

}

，其中 x

是第 i 篇文档中第 α 个单词出现的次数。在

这种情况下，d ∼ 10000 −10M 并且特征向量是稀疏的，即，x

主要由零组成。避免

使用字典的一种常用方法是使用特征散列来直接将任何字符串散列到维度索引。

图片这里特征代表像素值。x

{

, x

, . . . , x

}

, 其中 x

3j−2

，x

3j−1

，x

表示在图片

中第 j 个像素的红、绿、蓝的值。在这种情况下，d ∼ 10000 −10M 并且特征向量

是密集的。

2.3 损失函数

通常有两个步骤去学习一个假设函数 h()。首先, 我们选择适合这个特殊的学习问题

类型的机器学习算法。这定义了假设类 H，即我们可能学习的函数集。第二步是找到这

个类中的最佳函数，h ∈ H。第二步实际上是学习的过程，一般来说会涉及到优化问题。

本质上，我们试图在假设类中找到一个函数 h，它在我们的训练数据中出错最少。(如果

没有一个函数，我们通常会通过一些简单性的概念来选择“最简单”的函数——但是我

们将在后面的类中更详细地讨论这个问题。) 我们如何找到最好的函数? 为此，我们需

要某种方法来评估一个函数优于另一个函数。这就是损失函数 (又称风险函数) 的作用。

对于我们的训练集，一个损失函数对假设函数，h ∈ H 进行评估，并告诉我们情况有多

糟糕。损失越大，情况就越糟——损失为零意味着它可以做出完美的预测。通常的做法

是用训练样本的总数 n 对损失进行标准化，这样输出就可以解释为每个样本的平均损失

(与 n 无关)。

2.3.1 例子

0-1 损失函数：最简单的损失函数是 0-1 损失函数。它从逐个计算假设函数 h 在训

练集上犯了多少错误。待对于每一个例子，如果预测错误，则损失为 1，否则损失

为 0。归一化后的 0-1 损失函数返回分类错误的集合占训练集的比例，也常称为训

练误差。0-1 损失函数常用于多分类或二分类环境下的分类器评估。但很少用于优

化过程，因为 0-1 损失函数是不可微的、非连续的。形式上，零一损失可以表述为:

0/1

(h) =

∑

i=1

h(x)

, whereδ

h(x)









1 i f h(x)

, y

0 o.w.

何琨 @ 华中科技大学

这个损失函数返回了数据集 D 的错误率。对于分类器分类错误的每一个例子，会

造成 1 的损失，而分类正确的样本不会造成任何损失。

平方损失函数：平方损失函数通常用于回归问题中。它遍历所有的样本，并且以

(h(x)

− y

)

为损失。平方操作有两个效果；1. 损失是非负的，2. 损失以绝对错误

预测量的平方增长。后一种性质不鼓励预测值距离实际值太远（否则后果将非常

严重，会产生截然不同的假设函数）。另一方面，如果一个预测非常接近于正确，

那么这个平方就会很小，为了获得零误差，人们很少关注这个例子。例如，如果

|(h(x)

−y

|=0.001 那么平方损失函数会更小，0.000001，并且很可能永远都无法纠

正。如果给定一个输入 x, 标签 y 是根据分布 P(x|y) 的概率。那么将平方损失最小

化的最优预测函数是其期望值，即 h(x) = E

P(x|y)

[y] 形式上平方损失为:

(h) =

∑

i=1

(h(x)

− y

)

绝对损失函数：与平方损失类似，绝对损失函数也通常用于回归问题。它受到

|h(x)

− y

| 的处罚。由于损失与错误预测呈线性增长，因此更适合于噪声数据

(当一些错误预测不可避免且不应主导损失时)。如果给定一个输入 x, 标签 y 是根

据分布 P(x|y) 的概率。那么为了使绝对损失最小化，最优预测函数是预测其中值，

即 h(x) = MEDIAN

P(x|y)

[y] 形式上，绝对损失可表示为:

abs

(h) =

∑

i=1

|h(x)

− y

2.4 泛化

给定一个损失函数，我们可以尝试找到使损失最小化的函数 h:

h = argmin

h∈H

L(h)

机器学习的很大一部分目光集中在这个问题上，如何有效地做到最小化。如果你发

现在你的数据集 D 上有一个使得损失函数较低的函数 h(·)，你怎么知道他是否可以在

其他数据集上有同样的效果。

错误的例子“存储器”h(·)

h(x) =









, i f ∃(x

, y

) ∈ D, s.t., x = x

o.w.

对于这个 h(·)，我们在训练集 D 上可以达到 0% 的错误率，但如果样本不在训练集

D 上，那么情况就糟糕透了。即这个函数存在过拟合问题。

剩余117页未读，继续阅读

张盛锋

粉丝: 31
资源: 297

华中科技大学机器学习讲义：监督学习与k近邻算法详解

「机器学习」1

机器学习讲义（英文）

机器学习讲义.rar

斯坦福大学公开课讲义机器学习1

复古怀旧教室桌椅素材同学聚会毕业纪念册模板.pptx

数据结构与算法中的回文串：马拉车算法与中心扩展法的Python实现及其应用

前端分析-2023071100789

国货彩妆品牌Q1社媒营销投放分析报告.pdf

内螺旋覆盖算法（ISC）matlab代码

21电平MMC整流站、MMC逆变站、两端柔性互联的MATLAB仿真模型，4端柔性互联、MMC桥臂平均值模型、MMC聚合模型（四端21电平一分钟即能完成2s的工况仿真） 1-全部能正常运行，图四和图五为

最新资源