叙述硬边界支持向量机的二分类原理
时间: 2023-08-15 09:47:00 浏览: 45
硬边界支持向量机是一种二分类方法,其原理如下:
给定一个训练数据集$D={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$,其中$x_i\in R^n$,$y_i\in\{-1,+1\}$,$i=1,2,...,N$。
我们的目标是找到一个超平面 $w^Tx+b=0$ 来将数据集分成两类,其中 $w$ 是一个权重向量,$b$ 是偏置项。
为了找到这个超平面,我们需要最大化分类边界的间隔,也就是支持向量机中的核心思想。分类边界的间隔指的是,正负样本距离超平面的最小距离,也就是图中的 $d$。
因此,硬边界支持向量机的优化目标是:
$$
\begin{aligned}
\min_{w,b}&\frac{1}{2}||w||^2\\
s.t.&\quad y_i(w^Tx_i+b)\geq 1,\quad i=1,2,...,N
\end{aligned}
$$
其中,第一个约束条件表示所有的数据点都被正确地分类,第二个约束条件表示正负样本距离超平面的最小距离不小于 $1$。
求解以上优化问题,可以使用拉格朗日乘子法将其转化为对偶问题:
$$
\begin{aligned}
\max_{\alpha}&\quad\sum_{i=1}^{N}\alpha_i-\frac{1}{2}\sum_{i,j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j\\
s.t.&\quad\sum_{i=1}^{N}\alpha_iy_i=0\\
&\quad\alpha_i\geq 0,\quad i=1,2,...,N
\end{aligned}
$$
其中,$\alpha_i$ 是拉格朗日乘子,为每个数据点引入一个乘子,将原问题转化成为一个只涉及内积 $x^Tx$ 的对偶问题。求解对偶问题得到的 $\alpha$ 向量,可以通过以下公式计算得到权重向量 $w$ 和偏置项 $b$:
$$
\begin{aligned}
w&=\sum_{i=1}^{N}\alpha_iy_ix_i\\
b&=y_i-w^Tx_i
\end{aligned}
$$
其中,$\alpha_i>0$ 的数据点被称为支持向量,它们是决定分类边界的关键点。最终的分类边界是由距离超平面最近的支持向量决定的。