斯坦福ML公开课71：SVM详解：核方法与SMO求解

需积分: 0 113 浏览量更新于2024-08-05 收藏 279KB PDF 举报

本篇笔记主要围绕斯坦福大学机器学习（ML）公开课的第七讲内容，深入解析支持向量机（SVM）的相关概念和技术。课程首先介绍了最优间隔分类器（OptimalMargin Classifier），它是SVM的核心思想，强调的是找到能够最大化数据点到决策边界的几何间隔，以实现更好的分类性能。原始问题（Primal Problem）与对偶问题（Dual Problem）是SVM理论的重要组成部分，通过拉格朗日乘子法，原始问题的复杂度得以转换，使得对偶问题的求解更为简洁，特别是当目标函数中涉及内积形式时，引入了核技巧（Kernel Trick）。核技巧是SVM的一个关键创新，它允许处理非线性可分数据，通过将数据映射到高维特征空间，在该空间中找到线性可分的决策边界。核函数的选择（如线性核、多项式核、高斯核等）决定了解决问题的复杂性和效率。在这一阶段，序列最小化算法（Sequential Minimal Optimization, SMO）被引入，这是一种高效的局部搜索算法，用于在对偶问题中求解最优参数，确保模型的高效训练。公开课以这样的逻辑顺序讲解SVM：从函数间隔与几何间隔的对比开始，到最优间隔分类器的定义，再到原始问题和对偶问题的转换，以及核技巧的运用，最后是SMO算法的应用。理解这些核心概念和方法后，读者能够系统地掌握SVM的原理，并能有效地解决实际问题。在整个过程中，作者假定了数据集是线性可分的，但在实际应用中，SVM也适用于处理非线性问题，显示了其强大的适应性。通过这系列笔记，读者将深入了解SVM的工作原理，包括如何通过对偶形式优化求解，以及如何通过核技巧处理非线性问题，这对于理解和应用SVM技术来说至关重要。

http://weibo.com/yanxiangzhang http://blog.csdn.net/stdcoutzyx

斯坦福 ML 公开课 7

本篇笔记针对 ML 公开课的第七个视频，主要内容包括最优间隔分类器（Optimal Margin

Classifier）、原始/对偶问题（Primal/Dual Problem）、svm 的对偶问题，都是 svm（support vector

machine，支持向量机）的内容。

在上篇笔记中，我们提到了函数间隔与几何间隔，这两个定义是 svm 的基本定义，因

为 svm 是比较复杂的模型，公开课横跨了三个视频才将其介绍完。这里先简要说明一下理

解 svm 的必要的几个部分，使读者有个宏观的概念。首先是函数间隔与几何间隔，由它们

引出最优间隔分类器；为了多快好的解决最优间隔分类器问题，使用了拉格朗日对偶性性质，

于是，先要理解原始优化问题与对偶问题及它们在什么条件（KKT 条件）下最优解等价，

然后写出最优间隔分类器的对偶形式；通过对最有间隔分类器对偶问题求解，发现求解时目

标函数中存在内积形式的计算，据此引入了核技法；引入核技法后就得到了完完全全的 svm

求解问题，使用序列最小化算法（SMO）进行求解，这就是公开课对 svm 介绍的全部内容，

读者按照先后顺序一一理解即可快速理解 svm。

最优间隔分类器

在开始之前，仍然要强调一下本篇所讲的内容仍然是假设数据集是线性可分的。

首先，回顾一下讲述函数间隔时对目标函数的表示方法所做的变化：

类别 y 可取值由{0,1}变为{-1,1}，假设函数变为：



󰇛



󰇜

󰇥





(1)





󰇛



󰇜

󰇛



  󰇜 (2)

由公式 2，我们得知，w,b 可以唯一的确定一个超平面。

回顾一下上篇笔记中介绍的函数间隔的缺点，只要成倍的增大 w,b，就可以使函数间隔

变大。而几何间隔不会遇到这个问题，究其原因，是成倍增大 w,b 后，决策面的位置不会发

生改变。本节会利用这个性质，对 w,b 进行缩放，从而简化问题。

最优间隔分类器（optimal margin classifier），是指在对数据分类时，得到的决策面的一

个性质，即决策面距离数据点的几何间隔最大。可以使用置信度对它来进行解释，对于线性

可分数据，我们可以得到无数个决策面，直观上看，数据点距离决策面越远，决策面对数据

点的预测可信度就越高。最优间隔分类器即是寻找一个决策面，使之对数据点的预测的置信

度达到最高。

使用数学语言对最优间隔分类器进行表示，即 #1：









󰇛



󰇜







󰇛



󰇜

 











其中，||w||=1保证了目标值是几何间隔。#1的含义是通过改变 w,b，寻找一个最大的值，

使得对于训练集中所有的点，点到决策面的几何距离都大于。

该问题不易解决，因为约束是非凸性约束，最优解容易达到局部最优。于是，我们对该

问题进行转换，得到 #2：

















󰇛



󰇜

󰇧













󰇛



󰇜











󰇨













󰇛



󰇜







󰇛



󰇜

 

#2 与#1 描述的是同一个问题，即寻找一个最大的值，使得训练集中所有的点到决策面

下载后可阅读完整内容，剩余4页未读，立即下载

林书尼

粉丝: 25
资源: 315

斯坦福ML公开课71：SVM详解：核方法与SMO求解

斯坦福ML公开课笔记_中文版

斯坦福公开课《编程范式》

斯坦福大学傅里叶变换及应用笔记.pdf

stanford oussama khatib大神的《机器人学》公开课及对应的讲义

机器人学 斯坦福 pdf

吴恩达机器学习笔记 pdf

斯坦福cs229-机器学习讲义

斯坦福math51资源

斯坦福 stanford doggo 图纸

斯坦福龙三维点云pcd

最新资源

机器人学斯坦福 pdf