收稿日期:20191225;修回日期:20200223 基金项目:国家自然科学基金资助项目(16K10439)
作者简介:徐龙飞(1992),男,江苏南通人,硕士研究生,主要研究方向为信号处理和机器学习(18851310017@163.com);郁进明,男,副教授,
硕导,主要研究方向为通信和信号处理.
基于 MLloss的 SVM 分类算法
徐龙飞,郁进明
(东华大学 信息科学与技术学院,上海 201620)
摘 要:SVM的损失函数可以保证分类结果的高置信度,但同时是一个无界的凸函数,导致受噪声的影响较大。
为了提高 SVM在噪声环境下的分类效果,提出使用结合了 pinball和 LS损失函数的 MLloss来降低对噪声的敏
感性,将其应用到 SVM中得到 MLSVM模型。根据 LS损失函数具有结构风险最小化的特性和等式约束来简化
求解过程,然后使用 pinball损失函数根据分类样本之间的最大分位数距离来确定分类超平面,再使用拉格朗日
函数等方法求解 MLSVM的目标函数和分类超平面。在数据集上的实验表明,相比于 hingeSVM等模型,MLSVM
可以降低对数据中噪声的敏感性,提升对含噪数据的分类性能。
关键词:支持向量机(SVM);损失函数;噪声;pinball;LS;MLloss;MLSVM
中图分类号:TP301.6 文献标志码:A 文章编号:10013695(2021)02020043505
doi
:10.19734/j.issn.10013695.2019.12.0666
SVM classificationalgorithmbasedonMLloss
XuLongfei,YuJinming
(CollegeofInformationScience&Technology,DonghuaUniversity,Shanghai201620,China)
Abstract:ThelossfunctionofSVM isabletoguaranteethehighconfidenceofclassificationresults,butitisalsoanun
boundedconvexfunctionwhichisgreatlyaffectedbynoise.InordertoimprovetheclassificationeffectofSVMinnoisyenvi
ronment
,thispaperproposedMLlosscombinedwithpinballandLSlossfunctionstoreducethesensitivitytonoise,whichwas
appliedtoSVMtoobtainMLSVM model.ThealgorithmsimplifiedthesolutionprocessaccordingtothecharacteristicsofLS
lossfunctionwithstructuralriskminimizationandequalityconstraints,thenusedpinballlossfunctiontodeterminetheclassifi
cationhyperplanesaccordingtothemaxquantiledistancebetweenclassificationsamplesandusedLagrangefunctionandother
methodstoworkouttheobjectivefunctionandclassificationhyperplanesofMLSVM.Experimentsondatasetsshowthatcom
paredwithhingeSVM andothermodels,MLSVM iscapableofreducingthesensitivitytonoiseindataandimprovingthere
cognitionperformanceofnoisecontainingdata.
Keywords:SVM(supportvectormachine);lossfunction;noise;pinball;LS;MLloss;MLSVM
0 引言
支持向量机(supportvectormachine,SVM)由于具有优秀
的泛化性能和处理高维数据的能力而被广泛应用于机器学习
中的分类和识别等问题,如文本分类、手写字符识别、图像分类
等。SVM的损失函数 hingeloss具有基于结构风险最小化的特
点,使用分类样本之间的函数距离来确定支持向量和计算分类
超平面,保证了分类的准确性和泛化性能,但
hingeloss是一个
无界的凸函数,会对分类错误和正确的样本同样施加惩罚,虽
然可以保证分类结果的高置信度,但是会导致
SVM在分类时
受噪声影响较大,在处理含噪数据时模型最终的分类超平面不
经过正确的支持向量而偏离最优超平面,影响模型的性能。在
实际的机器学习分类任务中噪声是普遍存在的,因此有必要在
该方面展开研究以提高 SVM的抗噪声性能。
最小二乘支持向量机(leastsquareSVM,LSSVM)
[1]
对分
类边界处的向量会给予相同的惩罚,但没有根据不同的向量到
超平面距离的不同施加不同的惩罚。Ding等人
[2]
提出在 SVM
中使用 RGD方法来移除 SVM中的噪声和离群点;Wu等人
[3]
提出使用有界的 ramploss来减少 SVM模型对噪声的检测并
改善分类结果的稀疏性;Xu等人
[4]
使用半二次优化方法,提出
将 rescaledhingeloss作为 SVM的损失函数构造出 RSVM,该函
数具有非凸和有界的性质,并证明
hingeloss是 rescaledhinge
loss的一种特例,实验结果表明 RSVM具有更好的噪声检测性
能和更好的稀疏性;
Wu等人
[5]
结合训练样本与分类中心的距
离提出 WSVM,给不同的样本赋予不同的权重来处理含噪数据
集;Ma等人
[6]
引入非对称线性指数损失 LINEX到 SVM中,根
据每个样本到中心平面距离的远近施加不同的惩罚;Huang等
人
[7]
提出将 pinball作为 SVM的损失函数、将样本间的分位数
距离作为目标函数,降低了
SVM对噪声的敏感性并提高了模
型的鲁棒性;
Ren等人
[8]
根据 pinball和 LS损失函数的特性提
出了两者结合的损失函数 MLloss,用于极限学习机 ELM上得
到 MLELM模型,并将 MLloss与 pinball和 rescaledhingeloss
比较,证明该方法可以降低 ELM模型的噪声敏感性,提高分类
性能。
本文根据以上文献的研究方法,同时结合 SVM算法的理
论知识提出将融合了
pinball和 LS损失函数的 MLloss应用到
SVM中得到 MLSVM模型,并通过拉格朗日函数等方法求解
MLSVM的目标函数和分类超平面。在随机数上加入噪声,分
别比较了不同核函数下的 MLSVM和其他形式的 SVM,结果表
明 MLSVM可以降低数据中噪声的影响,精确计算分类超平
面,并在含噪的 MNIST和 CIFAR10等数据集上进行分类实验,
实验 证 明了 MLSVM 可以 降低 SVM 对噪声 的 敏感 性,改善
第 38卷第 2期
2021年 2月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.38No.2
Feb.2021