理解SVM：从入门到精通

需积分: 9 84 浏览量更新于2024-07-17 收藏 1.45MB PDF 举报

"支持向量机通俗导论 -- 理解SVM的三层境界" 本文将引导读者逐步理解支持向量机（SVM）的核心概念，分为三个层次：了解SVM、深入SVM和证明SVM。SVM是一种二分类模型，其目标是找到具有最大间隔的线性决策边界，即最大化特征空间中的间隔。间隔最大化能够使模型对新样本的分类更加鲁棒。 **第一层：了解SVM** 1.1 **分类标准的起源：Logistic回归** SVM的诞生部分源于Logistic回归，后者是通过概率模型进行分类，但SVM更注重找到最优的分类边界，而非预测概率。 1.2 **线性分类的一个例子** SVM用于线性可分数据集，通过绘制超平面来分割两类样本，这个超平面是最大化两类别间隔的边界。 1.3 **函数间隔与几何间隔** 函数间隔考虑了模型参数的大小，而几何间隔是实际样本点到超平面的距离，不受模型参数影响。SVM优化的是几何间隔。 1.4 **最大间隔分类器的定义** SVM的目标是构建一个最大间隔的分类器，以减少误分类的可能性，并提高泛化能力。 **第二层：深入SVM** 2.1 **从线性可分到线性不可分** 2.1.1 **从原始问题到对偶问题的求解** 面对线性不可分情况，SVM引入软间隔和拉格朗日乘子，将原问题转化为对偶问题求解。 2.1.2 **KKT条件** Karush-Kuhn-Tucker (KKT) 条件是优化问题中的一组必要条件，用于解决带约束的最优化问题，这里用于求解SVM的对偶问题。 2.1.3 **对偶问题求解的3个步骤** 包括构造拉格朗日函数、应用KKT条件和求解最优解。 2.1.4 **线性不可分的情况** 通过引入松弛变量，SVM可以处理线性不可分数据，允许一部分样本不满足间隔最大化，但尽量少。 2.2 **核函数：Kernel** 2.2.1 **特征空间的隐式映射** 核函数是SVM处理非线性问题的关键，它在原始特征空间内进行非线性变换，映射到高维特征空间，使得原本线性不可分的问题变得可分。 2.2.2 **如何处理非线性数据** 通过核函数，SVM可以在原始空间中实现非线性决策边界，无需直接计算高维空间的向量运算。 2.2.3 **几个核函数** 常见的核函数有线性核、多项式核、高斯核（RBF）和sigmoid核，每种核函数对应不同的非线性变换特性。 2.2.4 **核函数的本质** 核函数的本质是将低维非线性问题转换为高维线性问题，但不直接操作高维数据，从而简化计算。 2.3 **使用松弛变量处理outliers** 松弛变量允许样本偏离最大间隔，使得模型对异常值更具容错性。 **第三层：证明SVM** 3.1 **线性学习器** 3.1.1 **感知器算法** 感知器算法是最早的在线学习算法之一，用于线性可分数据，但无法保证最大间隔。 3.2 **非线性学习器** 3.2.1 **Mercer定理** Mercer定理确保了核函数在特定条件下可以形成有效的内积空间，为SVM的非线性学习提供理论基础。 3.3 **损失函数** SVM采用 hinge 损失函数，对误分类样本给予惩罚，以优化间隔最大化。 3.4 **最小二乘法** 3.4.1 **什么是最小二乘法？** 最小二乘法是求解线性回归问题的一种方法，试图找到最佳拟合直线，使得所有样本点到直线的垂直距离平方和最小。 3.4.2 **最小二乘法的解法** 通过梯度下降或正规方程，可以求解最小二乘问题的闭式解。 3.5 **SMO算法** 3.5.1 **SMO算法的推导** SMO算法是一种求解SVM对偶问题的有效方法，通过交替优化一对拉格朗日乘子。 3.5.2 **SMO算法的步骤** SMO算法包括选择一对乘子、优化这组乘子并更新其他乘子。 3.5.3 **SMO算法的实现** SMO算法被广泛应用于SVM的实现中，如libsvm库。 3.6 **SVM的应用** 3.6.1 **文本分类** SVM在文本分类中表现出色，通过特征提取和核函数选择，可以有效处理高维文本数据。 SVM通过间隔最大化和核函数等技术，提供了一种强大的分类工具，尤其适用于小样本、高维和非线性问题。理解和掌握SVM的三层境界，有助于深入领会其工作原理并在实际应用中发挥其优势。

1 第一层：了解 SVM 9

为了得到 γ 的绝对值，令 γ 乘上对应的类别 y，即可得出几何间隔（用 ˜γ 表示）

的定义：

˜γ = yγ =

ˆγ

∥w∥

(1.9)

从上述函数间隔和几何间隔的定义可以看出：几何间隔就是函数间隔除以 ∥w∥，而且函

数间隔 y(w

x + b) = yf (x) 实际上就是 |f(x)|，只是人为定义的一个间隔度量，而几何

间隔 |f(x)|/∥w∥ 才是直观上的点到超平面的距离。

1.4 最大间隔分类器 Maximum Margin Classiﬁer 的定义

对一个数据点进行分类，当超平面离数据点的“间隔”越大，分类的确信度

（conﬁdence）也越大。所以，为了使得分类的确信度尽量高，需要让所选择的超平面

能够最大化这个“间隔”值。这个间隔如图5中的 Gap / 2 所示。

图 5: 超平面间隔示意

通过由前面的分析可知：函数间隔不适合用来最大化间隔值，因为在超平面固定以

后，可以等比例地缩放 w 的长度和 b 的值，这样可以使得 f (x) = w

x + b 的值任意大，

亦即函数间隔 ˆγ 可以在超平面保持不变的情况下被取得任意大。但几何间隔因为除上

了 ∥w∥，使得在缩放 w 和 b 的时候几何间隔 ˜γ 的值是不会改变的，它只随着超平面的

变动而变动，因此，这是更加合适的一个间隔。所以，这里要找的最大间隔分类超平面

中的“间隔”指的是几何间隔。

于是最大间隔分类器（maximum margin classiﬁer）的目标函数可以定义为：

max ˜γ (1.10)

同时需满足一些条件，根据间隔的定义，有：

+ b) = ˆγ

≥ ˆγ, i = 1, ..., n (1.11)

剩余51页未读，继续阅读

fdtsaid

粉丝: 160
资源: 86

理解SVM：从入门到精通

支持向量机通俗导论（理解SVM的三层境界）PDF

支持向量机通俗导论 理解SVM的三层境界

支持向量机通俗导论（理解SVM的三层境界）-附件资源

支持向量机通俗导论（理解SVM的三层境界）Latex版

支持向量机通俗导论（理解SVM的三层境界）Latex版PDF

支持向量机通俗导论（理解SVM的三层境界）Latex版.zip_SVM_python_支持向量机

支持向量机通俗导论（理解SVM的三层境界）Latex版.zip_machine learning_svm精髓_支持向量机

支持向量机通俗导论(SVM三层境界)-2018最新LaTex版

支持向量机通俗导论(理解SVM的三层境界)

支持向量机通俗导论（理解svm的三层境界）

最新资源

支持向量机通俗导论理解SVM的三层境界