svm算法基本原理详解_svm算法原理

5星 · 超过95%的资源需积分: 50 158 浏览量更新于2023-06-13 评论 10 收藏 543KB DOC 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

（一）SVM 的八股简介

支持向量机是  和  于  年首先提

出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推

广应用到函数拟合等其他机器学习问题中。

支持向量机方法是建立在统计学习理论的 VC 维理论和结构风险最小原理基础上

的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，

）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期

获得最好的推广能力（或称泛化能力）。

以上是经常被有关 的学术文献引用的介绍，有点八股，我来逐一分解并解释

一下。  是统计机器学习的大牛，这想必都不用说，他出版的《

 !》是一本完整阐述统计机器学习思想的名著。在该书中详细的论证

了统计机器学习之所以区别于传统机器学习的本质，就在于统计机器学习能够精确的

给出学习效果，能够解答需要的样本数等等一系列问题。与统计机器学习的精密思维

相比，传统的机器学习基本上属于摸着石头过河，用传统的机器学习方法构造分类系

统完全成了一种技巧，一个人做的结果可能很好，另一个人差不多的方法做出来却很

差，缺乏指导和原则。

所谓 VC 维是对函数类的一种度量，可以简单的理解为问题的复杂程度， 维越

高，一个问题就越复杂。正是因为  关注的是  维，后面我们可以看到， 解

决问题的时候，和样本的维数是无关的（甚至样本是上万维的都可以，这使得  很

适合用来解决文本分类的问题，当然，有这样的能力也因为引入了核函数）。

结构风险最小听上去文绉绉，其实说的也无非是下面这回事。

机器学习本质上就是一种对问题真实模型的逼近（我们选择一个我们认为比较好

的近似模型，这个近似模型就叫做一个假设），但毫无疑问，真实模型一定是不知道

的（如果知道了，我们干吗还要机器学习？直接用真实模型解决问题不就可以了？对

吧，哈哈）既然真实模型不知道，那么我们选择的假设与问题真实解之间究竟有多大

差距，我们就没法得知。比如说我们认为宇宙诞生于  亿年前的一场大爆炸，这个

假设能够描述很多我们观察到的现象，但它与真实的宇宙模型之间还相差多少？谁也

说不清，因为我们压根就不知道真实的宇宙模型到底是什么。

这个与问题真实解之间的误差，就叫做风险（更严格的说，误差的累积叫做风

险）。我们选择了一个假设之后（更直观点说，我们得到了一个分类器以后），真实

误差无从得知，但我们可以用某些可以掌握的量来逼近它。最直观的想法就是使用分

类器在样本数据上的分类的结果与真实结果（因为样本是已经标注过的数据，是准确

的数据）之间的差值来表示。这个差值叫做经验风险 R

emp

(w)。以前的机器学习方法

都把经验风险最小化作为努力的目标，但后来发现很多分类函数能够在样本集上轻易

达到 "的正确率，在真实分类时却一塌糊涂（即所谓的推广能力差，或泛化能力

差）。此时的情况便是选择了一个足够复杂的分类函数（它的  维很高），能够精确

的记住每一个样本，但对样本之外的数据一律分类错误。回头看看经验风险最小化原

则我们就会发现，此原则适用的大前提是经验风险要确实能够逼近真实风险才行（行

话叫一致），但实际上能逼近么？答案是不能，因为样本数相对于现实世界要分类的

文本数来说简直九牛一毛，经验风险最小化原则只在这占很小比例的样本上做到没有

误差，当然不能保证在更大比例的真实文本上也没有误差。

统计学习因此而引入了泛化误差界的概念，就是指真实风险应该由两部分内容刻

画，一是经验风险，代表了分类器在给定样本上的误差；二是置信风险，代表了我们

在多大程度上可以信任分类器在未知文本上分类的结果。很显然，第二部分是没有办

法精确计算的，因此只能给出一个估计的区间，也使得整个误差只能计算上界，而无

法计算准确的值（所以叫做泛化误差界，而不叫泛化误差）。

置信风险与两个量有关，一是样本数量，显然给定的样本数量越大，我们的学习

结果越有可能正确，此时置信风险越小；二是分类函数的  维，显然  维越大，推

广能力越差，置信风险会变大。

泛化误差界的公式为：

#$%#

&

$'()

公式中 #$就是真实风险，#

&

$就是经验风险，()就是置信风险。统计

学习的目标从经验风险最小化变为了寻求经验风险与置信风险的和最小，即结构风险

最小。

二-这个形式并不局限于二维的情况，在 n 维空间中仍然可以使用这个表达式，只

是式中的 w 成为了 n 维向量（在二维的这个例子中，w 是二维向量，为了表示起来方

便简洁，以下均不区别列向量和它的转置，聪明的读者一看便知）；

三-g(x)不是中间那条直线的表达式，中间那条直线的表达式是 g(x)=0，即

wx+b=0，我们也把这个函数叫做分类面。

实际上很容易看出来，中间那条分界线并不是唯一的，我们把它稍微旋转一下，

只要不把两类数据分错，仍然可以达到上面说的效果，稍微平移一下，也可以。此时

就牵涉到一个问题，对同一个问题存在多个分类函数的时候，哪一个函数更好呢？显

然必须要先找一个指标来量化“好”的程度，通常使用的都是叫做“分类间隔”的指标。下

一节我们就仔细说说分类间隔，也补一补相关的数学知识。

SVM 入门（三）线性分类器

上回说到对于文本分类这样的不适定问题（有一个以上解的问题称为不适定问

题），需要有一个指标来衡量解决方案（即我们通过训练建立的分类模型）的好坏，

而分类间隔是一个比较好的指标。

在进行文本分类的时候，我们可以让计算机这样来看待我们提供给它的训练样本，

每一个样本由一个向量（就是那些文本特征所组成的向量）和一个标记（标示出这个

样本属于哪个类别）组成。如下：



0/



,







就是文本向量（维数很高），



就是分类标记。

在二元的线性分类中，这个表示分类的标记只有两个值， 和5（用来表示属于

还是不属于这个类）。有了这种表示法，我们就可以定义一个样本点到某个超平面的

间隔：



0



$/



'1

这个公式乍一看没什么神秘的，也说不出什么道理，只是个定义而已，但我们做

做变换，就能看出一些有意思的东西。

首先注意到如果某个样本属于该类别的话，那么 wx

+b>0（记得么？这是因为

我们所选的 g(x)=wx+b 就通过大于 0 还是小于 0 来判断分类），而 y

也大于 0；

剩余56页未读，继续阅读

xiaosagelingai

2014-04-11

算法内容讲解的挺详细的，学着容易！

huoshandong

粉丝: 2
资源: 7

会员权益专享

svm算法基本原理详解

评论2

会员权益专享

最新资源

svm算法基本原理详解

评论2

svm原理，最最详细的介绍

机器学习 SVM算法原理

SVM支持向量机算法的详细推导(详细到每个步骤_值得推荐).pdf

svm算法的基本原理

SVM算法的原理及步骤

svm算法原理和基本流程

SVM算法与PLSR算法的思路与原理

SVM算法的基本原理

smote算法原理 svm算法原理

gwo优化svm算法python

有关svm算法机器学习复试问题

SVM算法，并在数据集上验证SVM算法的性能

对比SVM算法（不采用sklearn库）、SVM算法（采用sklearn库）对MNIST数据集手写识别，分析识别准确率，形成试验数据表格，不必给出代码

公司证信预测用svm算法

使用Python描述一段SVM算法的实现过程

CICDDos2019使用svm算法

python pso svm 算法

svm算法的实现的实验结论

svm算法可以怎么改进

svm时序预测算法原理

会员权益专享

最新资源