收稿日期:20190321;修回日期:20190509 基金项目:国家自然科学基金资助项目(U1304602,61673353)
作者简介:万红(1964),女,辽宁沈阳人,教授,博导,博士,主要研究方向为信号处理;李蒙蒙(1990),男,河南商丘人,博士研究生,主要研究
方向为特征选择、信号处理与模式识别;王昊锋(1995),男,河南驻马店人,硕士,主要研究方向为特征选择;岳彩通(1990),男,河南濮阳人,博
士,主要研究方向为多目标优化;王力(1994),男,山西阳泉人,硕士,主要研究方向为优化算法与建模;尚志刚(1975),男(通信作者),甘肃兰州
人,教授,博导,博士,主要研究方向为数据挖掘与信号处理(zhigang_shang@zzu.edu.cn).
多目标优化在特征选择子集评价中的应用
万 红
1a,1b,2
,李蒙蒙
1a,1b,2
,王昊锋
1a,1b,2
,岳彩通
1a,1b
,王 力
1a,1b,2
,尚志刚
1a,1b,2
(1.郑州大学 a.电气工程学院;b.产业技术研究院,郑州 450001;2.河南省脑科学与脑机接口技术重点实验
室,郑州 450001)
摘 要:特征选择是处理高维大数据常用的降维手段,但其中牵涉到的多个彼此冲突的特征子集评价目标难以
平衡。为综合考虑特征选择中多种子集评价方式间的折中,优化子集性能,提出一种基于子集评价多目标优化
的特征选择框架,并重点对多目标粒子群优化(MOPSO)在特征子集评价中的应用进行了研究。该框架分别根
据子集的稀疏度、分类能力和信息损失度设计多目标优化函数,继而基于多目标优化算法进行特征权值向量寻
优,并通过权值向量 Pareto解集膝点选取确定最优向量,最终实现基于权值向量排序的特征选择。设计实验对
比了基于多目标粒子群优化算法的特征选择(FS_MOPSO)与四种经典方法的性能,多个数据集上的结果表明,
FS_MOPSO在低维空间表现出更高的分类精度,并保证了更少的信息损失。
关键词:特征选择;多目标优化;粒子群优化;稀疏;分类;信息损失
中图分类号:TP391 文献标志码:A 文章编号:10013695(2020)08016232004
doi
:10.19734/j.issn.10013695.2019.03.0043
Applicationofmultiobjectiveoptimizationinfeatureselectionsubsetevaluation
WanHong
1a,1b,2
,LiMengmeng
1a,1b,2
,WangHaofeng
1a,1b,2
,YueCaitong
1a,1b
,WangLi
1a,1b,2
,ShangZhigang
1a,1b,2
(1.a.SchoolofElectricalEngineering, b.IndustrialTechnologyResearchInstitute, ZhengzhouUniversity,Zhengzhou450001, China;
2.HenanKeyLaboratoryofBrainScience&BrainComputerInterfaceTechnology,Zhengzhou450001,China)
Abstract:Featureselectionisacommondimensionreductionapproachforprocessinghighdimensionalbigdata,butitoften
involvesmultipleconflictingfeaturesubsetsevaluationobjectiveswhicharedifficulttobalance.Toreachacompromiseamong
variousfeaturesubsetevaluationsinfeatureselectionandoptimizetheperformanceofsubset,thispaperproposedasubseteva
luationmultiobjectiveoptimizationbasedfeatureselectionframeworkandfocusedontheapplicationofmultiobjectiveparticle
swarmoptimization
(MOPSO)infeaturesubsetevaluation.Theframeworkusedsparsity,classificationabilityandinformation
losstodesignmultiobjectiveoptimizationfunctions.Thenitoptimizedtheweightvectorsofthefeaturesbasedonmultiobjec
tiveoptimizationalgorithm,andselectedthe“knee”ofParetosolutionsetasoptimalvector.Finally,theframeworkrealized
featureselectionbasedonweightvectorranking.ThispaperdesignedexperimentstocomparetheperformanceofMOPSObased
featureselection(FS_MOPSO)withfourclassicalmethods.Theresultsonseveralstandarddatasetsshowthat,FS_MOPSO
showshigherclassificationaccuracyinlowdimensionalspacewhileensuringlessinformationloss.
Keywords:featureselection(FS);multiobjectiveoptimization;particleswarmoptimization(PSO);sparsity;classifica
tion;informationloss
0 引言
样本数量多、特征维度高是海量大数据的典型特征,这造
成了数据处理的困难。相对于解决大样本集问题的难度,高维
样本集的处理更加棘手,数据降维是解决这一问题的关键方
法。在有效降低特征空间维度的前提下,保留原始数据空间中
的隐含 规 律 或 拓 扑 结 构 是 高 效 合 理 降 维 方 法 应 遵 循 的 思
路
[1]
。筛除冗余或无关特征,可以达到对可靠有效信息的提
取并减少计算机的运算负担,同时也可以提高学习模型的稳定
性与可解释性。特征选择(FS)是降维的常用手段,通过确定
特征子集评价方式,它在原有特征中筛选得到最优或次优特征
子集,保留原始数据集中的重要信息,有效降低了数据处理的
复杂度,有利于提高学习模型的准确性和泛化能力
[2]
。
与实践中大多数工程和科学问题一样,特征选择中牵涉到
的子集评价问题也可以被描述为不同的目标函数,并且各个目
标之间常彼此冲突,因此它也可以被看做是多目标优化问题。
多目标优化问题的本质在于,多数情况下某目标的改善可能引
起其他目标性能的降低,而同时使多个目标均达到最优又是不
可能的,因此只能在各目标之间进行协调权衡和折中处理,使
所有目标函数尽可能达到最优。在这些问题中,问题的最优解
集往往由数量众多甚至无穷大的 Pareto最优解组成
[3]
。
多目 标 优 化 算 法 (multiobjectiveoptimizationalgorithms,
MOA)可以对互相冲突的目标函数进行协调寻优
[4]
。在特征
选择问题中引入多目标优化能否更好地实现对特征子集的多
角度评价呢?针对这一问题,近年来出现了许多基于多目标优
化算法的特征选择研究。Hamdani等人
[5]
在特征选择中采用
多目标优化方法最小化特征数目和分类错误率两个目标,但没
有考虑其他目标,如特征间的冗余;Venkatadri等人
[6]
在考虑
不同评价准则的情况下,应用多目标优化方法寻找近似最优子
集,但目标函数设计中未考虑特征数目;
Saroj
[7]
构造了三个目标
第 37卷第 8期
2020年 8月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol37No8
Aug.2020