支持向量机(SVM)的优化推导与对偶问题解析

需积分: 50 3 下载量 135 浏览量 更新于2024-07-19 1 收藏 724KB PDF 举报
"本文主要介绍了支持向量机(SVM)的推导过程,包括线性可分、近似线性可分以及非线性情况下的应用。SVM的目标是找到一个具有最大间隔的超平面进行分类,通过最大化间隔来提高分类的正确性和确信度。文中详细阐述了函数间隔和几何间隔的概念,并介绍了如何从原始问题转换为对偶问题,以解决非线性分类问题并引入核函数。" 支持向量机(Support Vector Machine, SVM)是一种广泛应用于分类和回归分析的监督学习模型。其核心思想是找到一个能够最大程度地分离两类样本的超平面。这个超平面的确定基于间隔(Margin)的概念,间隔越大,分类的鲁棒性越强。 1. 函数间隔(Functional Margin):对于一个样本点 (x_i, y_i),其函数间隔定义为 y_i(wx_i + b)。所有样本点的函数间隔是指它们与超平面的正向距离的最小值。如果一个样本点刚好位于超平面上,其函数间隔为0。 2. 几何间隔(Geometric Margin):考虑了超平面法向量w的模长,几何间隔是函数间隔除以 ||w||,即 y_i((wx_i + b) / ||w||)。在几何间隔中,即使||w||变为无穷大,只要超平面保持不变,样本点的几何间隔依然不变,因此我们通常考虑最大化几何间隔。 对于线性可分的情况,SVM的目标是找到一个最大化几何间隔的超平面。原始优化问题可以表示为最小化 ||w||^2 并确保所有样本点都在正确的一侧,即 wx_i + b ≥ 1 对所有 i 成立。通过拉格朗日乘数法,可以将原问题转换为对偶问题,引入拉格朗日乘子α_i,对偶问题的目标是最大化 α_i 对所有 i 的线性组合,并满足 KKT 条件。 对偶问题的形式为: max ∑ α_i - 1/2 ∑∑ α_iα_j y_iy_jK(x_i, x_j), 其中 K(x, x') 是核函数,它允许我们将数据映射到高维空间,使得原本线性不可分的数据在新空间中变得可分。常用的核函数有线性核、多项式核和高斯核(RBF)。 求解对偶问题,我们需要找到满足约束条件的 α_i,即 0 ≤ α_i ≤ C(C 为惩罚参数),以及 α_i(y_i(wx_i + b) - 1) = 0 的α_i,这些α_i对应的样本点称为支持向量,因为它们决定了超平面的位置。 通过对偶问题求解,我们可以得到最终的决策函数: f(x) = sign(∑ α_i y_i K(x_i, x) + b)。 总结起来,SVM的推导过程主要涉及最大化间隔、从原始问题到对偶问题的转化以及核函数的引入,这使得SVM不仅适用于线性可分数据,还能处理非线性分类问题。通过优化对偶问题,SVM可以找到最优的超平面和支持向量,从而实现高效且准确的分类。