支持向量机原理
"支持向量机原理" 支持向量机(SVM)是一种通用学习机器,基于统计学习理论,是一种实现结构风险最小化思想的方法。它通过将输入向量映射到高维的特征空间,并在该特征空间中构造最优分类面,避免了多层前向网络中的缺点,并且理论证明了:当选用合适的映射函数时,大多数输入空间线性不可分的问题在特征空间可以转化为线性可分问题来解决。 支持向量机具有坚实的数学理论基础,是专门针对小样本学习问题提出的。从理论上来说,由于采用了二次规划寻优,因而可以得到全局最优解,解决了在神经网络中无法避免的局部极小问题。由于采用了核函数,巧妙解决了维数问题,使得算法复杂度与样本维数无关,非常适合于处理非线性问题。 支持向量机应用了结构风险最小化原则,因而支持向量机具有非常好的推广能力。在实际应用中,支持向量机广泛用于大量数据的处理,方便简洁。在二类支持向量机算法中,假定大小为L的训练样本集 {(Xi,Yi),i=1,2…,L},由二类别组成,如果Xi∈R(N)属于第一类,则标记为正(Yi=1),如果属于第2类,则标记为负(Yi=-1)。学习的目标是构造一个决策函数,将测试数据尽可能正确地分类。 二类支持向量机算法可以分为线性情况和非线性情况两种情况。在线性情况下,如果存在分类超平面ωx+b=0使得ω·xi+b≥l,yi=1ω·xi+b≤-l,yi=-1,则称训练集是线性可分的。对应的决策函数f(x)=sign(ω·x+b),其推广能力最优。 在非线性情况下,需要引入非负松驰变量ξi,i=1,2,…,l,分类超平面的最优化问题为minω,b,ξi 1/2 ωTω+C∑i=1lξi。采用拉格朗日乘子法求解这个具有线性约束的二次规划问题,得到对偶最优化问题,从而获得支持向量(Support Vector,SV)和边界支持向量(Boundary Support Vector,BSV)。 支持向量机的应用非常广泛,例如文本分类、图像识别、生物信息学等领域。其优点是可以处理高维数据,具有良好的泛化能力,能够避免过拟合问题。但是,支持向量机的计算复杂度较高,对于大规模数据集,计算时间可能较长。 支持向量机是一种基于统计学习理论的机器学习方法,具有坚实的数学理论基础,广泛应用于大量数据的处理,方便简洁。