SVM初学者指南：简单易懂的支持向量机解析

需积分: 9 161 浏览量更新于2024-07-28 收藏 43KB DOCX 举报

"svm的为初学者准备的傻瓜式讲解" 支持向量机（Support Vector Machine，简称SVM）是一种强大的监督学习算法，由Vladimir Vapnik和Corinna Cortes在1995年提出。SVM的核心理念在于最大化模型的泛化能力，也就是模型对未见过数据的预测准确率。它基于统计学习理论中的VC维理论和结构风险最小化原则，这两个概念对于理解SVM的工作机制至关重要。 VC维是衡量一个函数类复杂性的指标，它决定了该函数类能够正确分类数据集的最大容量。高VC维意味着模型可能过于复杂，容易过拟合，而低VC维则可能导致模型过于简单，无法捕获数据的复杂性。SVM的独特之处在于，它寻找一个具有最小结构风险的决策边界，即使在高维空间中也能有效地处理大量特征，这得益于其对样本维度的独立性。结构风险最小化是SVM优化目标的关键组成部分。在学习过程中，我们面临一个两难的选择：提高模型对训练数据的拟合度（即学习精度）可能会导致对未知数据的泛化能力下降；反之，过于关注泛化能力可能会牺牲训练精度。结构风险最小化策略是在这两个目标之间找到平衡，它考虑了模型的复杂性和潜在的过拟合风险，从而选择最优化的模型。 SVM通过引入核函数来处理非线性问题。核函数能够将原始数据映射到一个高维空间，在这个空间中原本难以分隔的非线性数据可能变得线性可分。例如，著名的高斯核（RBF）可以将数据映射到无限维空间，使得几乎任何两个数据点都可以通过一个超平面分隔开。这种方法使得SVM在处理如文本分类等高维问题时表现出色。在实际应用中，SVM通常用于分类和回归任务。在分类问题中，SVM寻找一个间隔最大的超平面，这个超平面能够最大化两类样本点之间的距离，从而提高对新样本的分类准确性。而在回归问题中，SVM试图找到一个函数，使训练数据的预测值尽可能接近真实值。 SVM的一个关键优势是其鲁棒性，它对异常值的容忍度较高。此外，SVM的计算复杂度相对较低，尤其在数据集不是特别大的情况下。然而，当面对大规模数据集时，由于需要计算所有样本的内积，训练时间可能会显著增加。 SVM是一种强大的机器学习工具，尤其适用于小样本、非线性及高维问题。理解和掌握SVM的基本原理和实践应用，对于初学者来说，是进入机器学习领域的重要一步。通过深入学习和支持向量机的相关概念，初学者能够更好地理解如何利用这种技术来解决实际问题。

==========SVM 入门（三）线性分类器 Part

2===================

上回说到对于文本分类这样的不适定问题（有一个以上解的问题称为不适定问题），需要

有一个指标来衡量解决方案（即我们通过训练建立的分类模型）的好坏，而分类间隔是一

个比较好的指标。

　　在进行文本分类的时候，我们可以让计算机这样来看待我们提供给它的训练样本，每

一个样本由一个向量（就是那些文本特征所组成的向量）和一个标记（标示出这个样本属

于哪个类别）组成。如下：

Di=(xi,yi)

xi 就是文本向量（维数很高），yi 就是分类标记。

　　在二元的线性分类中，这个表示分类的标记只有两个值，1 和-1（用来表示属于还是

不属于这个类）。有了这种表示法，我们就可以定义一个样本点到某个超平面的间隔：

δi=yi(wxi+b)

　　这个公式乍一看没什么神秘的，也说不出什么道理，只是个定义而已，但我们做做变

换，就能看出一些有意思的东西。

　　首先注意到如果某个样本属于该类别的话，那么 wxi+b>0（记得么？这是因为我们

所选的 g(x)=wx+b 就通过大于 0 还是小于 0 来判断分类），而 yi 也大于 0；若不属于该

类别的话，那么 wxi+b<0，而 yi 也小于 0，这意味着 yi(wxi+b)总是大于 0 的，而且它

的值就等于|wxi+b|！（也就是|g(xi)|）

　　现在把 w 和 b 进行一下归一化，即用 w/||w||和 b/||w||分别代替原来的 w 和 b，那么

间隔就可以写成

这个公式是不是看上去有点眼熟？没错，这不就是解析几何中点 xi 到直线 g(x)=0 的距离

公式嘛！（推广一下，是到超平面 g(x)=0 的距离， g(x)=0 就是上节中提到的分类超平

面）

小 Tips：||w||是什么符号？||w||叫做向量 w 的范数，范数是对向量长度的一种度量。我

们常说的向量长度其实指的是它的 2-范数，范数最一般的表示形式为 p-范数，可以写成如

下表达式

剩余19页未读，继续阅读

guojianyi_gjy

粉丝: 0
资源: 1

SVM初学者指南：简单易懂的支持向量机解析

SVM分类器初学者课件包

SVM资料(个人整理，对初学者很有用)

SVM初学者入门介绍

SVM初学者必看课件

关于SVM算法，初学者用

从零学起libsvm svm初学者资料

SVM入门级别教程，适合初学者

SVM入门讲解

SVM原理讲解

SVM入门知识讲解

最新资源