没有合适的资源?快使用搜索试试~ 我知道了~
首页理解SVM的三层境界:从入门到应用详解
理解SVM的三层境界:从入门到应用详解
需积分: 24 8 下载量 172 浏览量
更新于2024-07-09
收藏 1.45MB PDF 举报
本文是一篇关于支持向量机(SVM)的通俗导论,分为三个层次帮助读者理解和掌握这一复杂的机器学习模型。首先,从"第一层:了解SVM"开始,作者通过讲述分类标准的起源——逻辑回归,引导读者进入SVM的世界。接着,通过线性分类实例,解释函数间隔(Functionalmargin)和几何间隔(Geometricalmargin),以及最大间隔分类器的概念,帮助读者理解基本的分类原理。 第二层深化内容,讨论从线性可分到线性不可分的情况,包括问题的对偶求解、KKT条件,以及如何通过核函数(Kernel)处理非线性数据。核函数部分介绍了特征空间的隐式映射、几种常见的核函数如高斯核(RBF)、多项式核等,并探讨了核函数的本质。此外,文中提到松弛变量处理异常值(outliers)的方法,以增强模型的稳健性。 第三部分是对SVM理论的证明,包括线性学习器如感知器算法,以及非线性学习器的Mercer定理。损失函数、最小二乘法及其解法也是关键环节,特别是SMO(Sequential Minimal Optimization)算法的推导、步骤和实现,这些是理解SVM优化过程的核心。文章最后介绍SVM的应用,如在文本分类中的应用,强调了SVM在实际问题中的实用价值。 本文不仅提供了直观的解释,还结合了数学证明,力求使读者在理解SVM的工作原理和解决非线性问题的能力上有显著提升。作者七月感谢了pluskid、白石和JerryLead等人的贡献,同时指出虽然网络上已有优秀资源,但这篇文章仍希望能提供一个更全面、易于理解的入门指南。
资源详情
资源推荐
1 第一层:了解 SVM 9
为了得到 γ 的绝对值,令 γ 乘上对应的类别 y,即可得出几何间隔(用 ˜γ 表示)
的定义:
˜γ = yγ =
ˆγ
∥w∥
(1.9)
从上述函数间隔和几何间隔的定义可以看出:几何间隔就是函数间隔除以 ∥w∥,而且函
数间隔 y(w
T
x + b) = yf (x) 实际上就是 |f(x)|,只是人为定义的一个间隔度量,而几何
间隔 |f(x)|/∥w∥ 才是直观上的点到超平面的距离。
1.4 最大间隔分类器 Maximum Margin Classifier 的定义
对一个数 据点 进行分类, 当超平面离 数据 点的“间隔”越大, 分类的确信度
(confidence)也越大。所以,为了使得分类的确信度尽量高,需要让所选择的超平面
能够最大化这个“间隔”值。这个间隔如图5中的 Gap / 2 所示。
图 5: 超平面间隔示意
通过由前面的分析可知:函数间隔不适合用来最大化间隔值,因为在超平面固定以
后,可以等比例地缩放 w 的长度和 b 的值,这样可以使得 f (x) = w
T
x + b 的值任意大,
亦即函数间隔 ˆγ 可以在超平面保持不变的情况下被取得任意大。但几何间隔因为除上
了 ∥w∥,使得在缩放 w 和 b 的时候几何间隔 ˜γ 的值是不会改变的,它只随着超平面的
变动而变动,因此,这是更加合适的一个间隔。所以,这里要找的最大间隔分类超平面
中的“间隔”指的是几何间隔。
于是最大间隔分类器(maximum margin classifier)的目标函数可以定义为:
max ˜γ (1.10)
同时需满足一些条件,根据间隔的定义,有:
y
i
(w
T
x
i
+ b) = ˆγ
i
≥ ˆγ, i = 1, ..., n (1.11)
1 第一层:了解 SVM 10
回顾一下几何间隔的定义 ˜γ = yγ =
ˆγ
∥w∥
可知,如果令函数间隔 ˆγ 等于 1,则有
˜γ = 1/∥w∥ 且 y
i
(w
T
x
i
+ b) ≥ 1, i = 1, ..., n,从而上述目标函数转化成了:
max
1
∥w∥
, s.t. y
i
(w
T
x
i
+ b) ≥ 1, i = 1, ..., n (1.12)
这个目标函数便是在相应的约束条件 y
i
(w
T
x
i
+ b) ≥ 1, i = 1, ..., n 下,最大化这
个 1/∥w∥ 值,而 1/∥w∥ 便是几何间隔 ˜γ。
注 3 之所以令 ˆγ 等于 1,是为了方便推导和优化,且这样做对于目标函数的优化:
1. 对于一个线性可分问题,任意给定一个分类正确的超平面,都有一个最小函数间
隔,为了方便书写,记做 ˆγ,这个 ˆγ,是方向向量 w 和截距 b 的函数,因为分类
的点是给定的;
2. 也就是说 ˜γ = ˆγ(w, b),而求最大几何间隔的问题就是要求出一组 w,b 使得
ˆγ/∥w∥,最大。此时约束的条件是任意给定的一个点的函数间隔大于等于 ˆγ,也就
是 y
i
(w
T
x
i
+ b) ≥ ˆγ;
3. 下面做一个变量替换,用 w
′
= w/ˆγ, 和 b
′
= b/ˆγ 代替上面的 w 和 b, 这样的新变
量仍旧是 w 和 b 的函数,所以最大化仍然可以进行。于是,把这两个新的变量代
入到原来的约束最大化问题中,就变成了,在 y
i
(w
′T
x
i
+ b
′
) ≥ 1 的条件下,求使
得 1/∥w
′
∥ 最大化的 w,b;
4. 这样一来,通过一个变量替换,关于 w 和 b 的问题等价地换成了 w
′
,b
′
的问题,
这就是支持向量机所采用的形式。
图 6: 超平面间隔示意
如图6所示,中间的实线便是寻找到的最优超平面(Optimal Hyper Plane),其到
两条虚线的距离相等,这个距离便是几何间隔 ˜γ,两条虚线之间的距离等于 2˜γ,而虚线
1 第一层:了解 SVM 11
上的点则是支持向量。由于这些支持向量刚好在边界上,所以它们满足 y(w
T
x + b) = 1
(还记得我们把 functional margin 定为 1 了吗?上节中:处于方便推导和优化的目的,
我们可以令 ˆγ=1),而对于所有不是支持向量的点,则显然有 y(w
T
x + b) > 1。
OK,到此为止,算是了解到了 SVM 的第一层,对于那些只关心怎么用 SVM 的朋
友便已足够,不必再更进一层深究其更深的原理。
剩余51页未读,继续阅读
jay&chuxu
- 粉丝: 133
- 资源: 13
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- JDK 17 Linux版本压缩包解压与安装指南
- C++/Qt飞行模拟器教员控制台系统源码发布
- TensorFlow深度学习实践:CNN在MNIST数据集上的应用
- 鸿蒙驱动HCIA资料整理-培训教材与开发者指南
- 凯撒Java版SaaS OA协同办公软件v2.0特性解析
- AutoCAD二次开发中文指南下载 - C#编程深入解析
- C语言冒泡排序算法实现详解
- Pointofix截屏:轻松实现高效截图体验
- Matlab实现SVM数据分类与预测教程
- 基于JSP+SQL的网站流量统计管理系统设计与实现
- C语言实现删除字符中重复项的方法与技巧
- e-sqlcipher.dll动态链接库的作用与应用
- 浙江工业大学自考网站开发与继续教育官网模板设计
- STM32 103C8T6 OLED 显示程序实现指南
- 高效压缩技术:删除重复字符压缩包
- JSP+SQL智能交通管理系统:违章处理与交通效率提升
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功