SVM入门指南：理解原理与应用

需积分: 10 27 浏览量更新于2024-09-15 收藏 504KB PDF 举报

SVM扫盲文档，由 Jasper 在他的博客 Jasper'sJavaJacal 上发布，是一系列关于支持向量机(SVM)入门的教程。SVM是由 Cortes 和 Vapnik 在 1995 年提出，作为一种强大的机器学习方法，特别适用于处理小样本、非线性和高维模式识别问题。SVM 的核心理念基于统计学习理论中的 VC 维理论和结构风险最小化原理。 Vapnik 是统计机器学习领域的权威，他的《Statistical Learning Theory》对统计机器学习的独特性进行了深入阐述，强调了其相较于传统机器学习的优势，如提供精确的学习效果估计和样本需求分析。与传统方法相比，统计机器学习具有更强的理论基础和普适性，避免了因人为技巧差异导致的结果不稳定。 VC 维是一个衡量函数类复杂性的指标，它表示模型能够区分不同类别的最大能力。SVM 关注的正是这个问题的复杂性，它能够在样本维度很高的情况下（如文本分类中的高维特征空间）依然保持高效，这得益于引入了核函数，使得算法能够在非线性问题中找到有效的解决方案。结构风险最小化，尽管名称显得专业，实际上是寻找在模型复杂度与泛化能力之间的一个平衡。简单来说，就是在有限的训练数据下，找到最能抵抗过拟合（过度适应训练数据）且具有良好预测性能的模型。这种方法确保了模型在未知数据上的表现，也就是所谓的推广能力。 SVM扫盲文档通过 Jasper 的通俗讲解，帮助读者理解了SVM的基本概念、理论背景以及其在处理复杂问题时的关键策略，包括如何处理高维数据和如何实现有效的模型选择。这对于想要入门或深入学习SVM的人来说，是一个很好的起点。

12-10-14 SVM入门（一）至（三）Refresh - Jasper's Java Jacal - BlogJava

1/12www.blogjava.net/zhenandaci/archive/2012/09/27/254519.html#388714

Jasper's Java Jacal

嘉士伯的Java小屋

BlogJava | 首页 | 发新随笔 | 发新文章 | 联系 | 聚合 | 管理

随笔：51 文章：2 评论：477

引用：0

SVM入门（一）至（三）Refresh

按:之前的文章重新汇编一下,修改了一些错误和不当的说法，一起复习,然后继续SVM

之旅.

（一）SVM的八股简介

支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在

解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合

等其他机器学习问题中[10]。

支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有

限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（

即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力[14]（或称

泛化能力）。

以上是经常被有关SVM 的学术文献引用的介绍，有点八股，我来逐一分解并解释一下。

Vapnik是统计机器学习的大牛，这想必都不用说，他出版的《Statistical Learning The

ory》是一本完整阐述统计机器学习思想的名著。在该书中详细的论证了统计机器学习之所

以区别于传统机器学习的本质，就在于统计机器学习能够精确的给出学习效果，能够解答需

要的样本数等等一系列问题。与统计机器学习的精密思维相比，传统的机器学习基本上属于

摸着石头过河，用传统的机器学习方法构造分类系统完全成了一种技巧，一个人做的结果可

能很好，另一个人差不多的方法做出来却很差，缺乏指导和原则。

所谓VC维是对函数类的一种度量，可以简单的理解为问题的复杂程度，VC维越高，一个问

题就越复杂。正是因为SVM关注的是VC维，后面我们可以看到，SVM解决问题的时候，和

样本的维数是无关的（甚至样本是上万维的都可以，这使得SVM很适合用来解决文本分类的

问题，当然，有这样的能力也因为引入了核函数）。

结构风险最小听上去文绉绉，其实说的也无非是下面这回事。

机器学习本质上就是一种对问题真实模型的逼近（我们选择一个我们认为比较好的近似模型

，这个近似模型就叫做一个假设），但毫无疑问，真实模型一定是不知道的（如果知道了，

我们干吗还要机器学习？直接用真实模型解决问题不就可以了？对吧，哈哈）既然真实模型

不知道，那么我们选择的假设与问题真实解之间究竟有多大差距，我们就没法得知。比如说

我们认为宇宙诞生于150亿年前的一场大爆炸，这个假设能够描述很多我们观察到的现象，

但它与真实的宇宙模型之间还相差多少？谁也说不清，因为我们压根就不知道真实的宇宙模

型到底是什么。

这个与问题真实解之间的误差，就叫做风险（更严格的说，误差的累积叫做风险）。我们选

择了一个假设之后（更直观点说，我们得到了一个分类器以后），真实误差无从得知，但我

们可以用某些可以掌握的量来逼近它。最直观的想法就是使用分类器在样本数据上的分类的

结果与真实结果（因为样本是已经标注过的数据，是准确的数据）之间的差值来表示。这个

差值叫做经验风险R

emp

(w)。以前的机器学习方法都把经验风险最小化作为努力的目标，

但后来发现很多分类函数能够在样本集上轻易达到100%的正确率，在真实分类时却一塌糊

涂（即所谓的推广能力差，或泛化能力差）。此时的情况便是选择了一个足够复杂的分类函

数（它的VC维很高），能够精确的记住每一个样本，但对样本之外的数据一律分类错误。

回头看看经验风险最小化原则我们就会发现，此原则适用的大前提是经验风险要确实能够逼

< 2012年9月 >

日一二三四五六

26 27 28 29 30 31 1

2 3 4 5 6 7 8

9 10 11 12 13 14 15

16 17 18 19 20 21 22

23 24 25 26 27 28 29

30 1 2 3 4 5 6

公告

邮箱：zhenandaci@msn.co

常用链接

我的随笔

我的文章

我的评论

我的参与

SVM入门指南：理解原理与应用

SVM扫盲文档之四

svm扫盲文档之五

svm扫盲文档之七

stata17.0安装svm

matlab svm工具箱

辛辛那提数据和cnn_svm代码rar_cnn故障分类-互联网文档类资源-csdn下载

svm.SVM()是什么

OC-SVM与SVM区别

module 'sklearn.svm' has no attribute 'SVM'

分别解释线性SVM、多项式SVM和径向基函数SVM

最新资源