基于多目标粒子群优化的高维数据多视图集成学习分类

178 浏览量更新于2024-01-27 收藏 2.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于多目标粒子群优化的多视图集成学习高维数据分类Vipin Kumara，Chang，Prem Shankar Singh Aydavb，Sonajharia Minzca印度比哈尔邦圣雄甘地中央大学计算机科学和信息技术系b信息技术部，Km。Mayawati Government Girls Polytechnic，Gautam Buddh Nagar，Uttar Pradesh，印度c印度新德里贾瓦哈拉尔·尼赫鲁大学计算机与系统科学学院阿提奇莱因福奥文章历史记录：2021年2月22日收到2021年8月25日修订2021年8月30日接受2021年9月10日网上发售保留字：多视图集成学习（MEL）分类特征集划分高维多目标粒子群优化算法A B S T R A C T在现有技术中，已经证明多视图集成学习比经典的机器学习算法性能更好，通常具有优化的视图设置（特征子集）。在多视图集成学习（MEL）中，为给定数据集获取适当数量的视图是一个复杂的问题。可能视图的总数的发现是NP-hard问题，即，相当于贝尔数。此外，多视图学习的复杂性随着数据集的视图数量的增加而增加因此，高度要求考虑具有更高精度的更少数量的视图以获得MEL的最佳性能。在这项工作中，MEL使用多目标粒子群优化（MEL-MOPSO）方法已被提出。这两个目标（数据的视图数和MEL的分类精度）考虑了在多目标优化过程中使用粒子群优化算法（PSO）搜索最优解时，目标之间的权衡。在16个高维数据集上，使用4种最先进的视图构造方法进行了实验。数据集的各个视图已被用于通过支持向量机算法进行学习。定量和非参数统计分析表明，所提出的方法是有效的和有效的。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍对于现实世界中的给定任务，可以从单个或多个源收集数据由于独特的特征集，各种数据源可以被认为是数据集的自然视图但是单一来源的数据可能有也可能没有自然视图。例如，图像数据可以被认为是具有颜色和纹理特征的数据类似地，网站数据也可以具有图像、文本和超链接等视图通过单一来源的数据进行学习被称为单视图学习。多视图学习方法利用数据集的各个视图来执行比具有优化设置的单视图学习更好的性能（Wang等人，2011年）。多视图学习方法从标记数据学习，其中单个分类器可以应用于*通讯作者。沙特国王大学负责同行审查所有视图或不同的分类器可用于数据集的每个视图（Christoudias等人， 2012年）。在单源数据（单视图数据）中，很难识别合适的视图，以使多视图学习比经典学习表现得更好。多视图集成学习方法已经成功地应用于汽车工业中产品的缺陷识别（Liu et al.， 2018年）。在另一项研究中，多视图集成学习的互补信息用于识别当前反病毒中具有单视图三个特征的新恶意软件（Bai和Wang，2016）。近年来，多视角学习在脑计算接口（BCI）领域取得了令人满意的效果它利用了脑电图（EEG）数据库，并在多视图学习（Gupta etal.，2020年）。使用两个中文基准文本数据集来获得新的文本表示，并使用多视图集成学习来补充它们的方法（Ye等人，2021年）。多视图学习能力也在深度学习中进行了分析，称为多视图卷积神经网络（MvCNN）（Alam et al.，2021年）。已经实现了基于图着色的视图构造方法，以使用图分区方法来找到数据集的自动视图（Kumar等人， 2021年）。https://doi.org/10.1016/j.jksuci.2021.08.0291319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com诉Kumar，Prem Shankar Singh Aydav和S.明茨沙特国王大学学报8524半]多视图学习已经被分为多核学习、协同训练和子空间学习（Xu等人，2013年）。这些核自然对应于各种核学习中的视图，以提高MEL的性能，其中视图被线性或非线性地组合。协同训练风格的算法在训练模型时在不同的视图内执行相互一致性最大化。子空间学习使用潜在子空间来获得多视图学习的视图。将MEL应用于单源模式是困难的（Wang等人，2011年）。在这种情况下，数据集的特征子集被认为是多个信息源。数据集的视图由许多视图构造方法构造，这些视图构造方法可以被认为是基于随机的视图构造（Tao等人，2006;Bryll等人，2003），基于Reduct-based view construction（Wu et al.，2005; Hu等人，2007; Tsymbal等人，2005）基于性能的视图构建（Günter和Bunke，2004; Tsymbal等人， 2005）、基于特征集划分的视图构造（ Hu 等人，2007; Rokach ， 2010;Rokach，2008）和其他视图构造方法（Sun等人，2011; Di等人，2010年; Chen等人，2011年）（详见第2节）。两个主要因素影响MEL的分类性能;第一，视图的构造方式，第二是来自单视图数据的视图数量。数据集的自然分区可以根据数据集的特征（如分类，数值，文本特征等）的特性可以获得特征的非空可能分区的总数等于贝尔数（Bn）（Pitman，1997），其中给定数据集的独立特征总数为n。Dobinski（1877）证明了（Bn）对于n的递增值具有多项式行为。因此，特征集的多个搜索视图（子集的数目）是MEL的最佳经典性能的NP-难问题因此，需要找到一个有效的分割功能集的最佳MEL性能。0;n将是特征集的分区的块的范围。在解空间内，为了MEL的最佳性能，所获得的分区的块的数量有可能接近n从图 1，据观察，计算时间复杂度随着观看次数的增加而线性增加。因此，在搜索视图数量以获得有效MEL时，获得更少数量的分区块也是一个基本目标。在搜索最佳和有效MEL的特征集分区时，必须考虑以下两个目标：1. 给定数据集的特征集的分区，MEL对其进行最佳执行。2. 所获得的分区应该具有较少数量的分区块（视图）。MEL性能的优化与两个目标断言利用多目标优化问题（MOOP）的方法。特征集（视图）划分的搜索是NP难的.因此，可以考虑使用进化算法（启发式算法）粒子群优化（ PSO ）（ Kennedy 和Eberhart，1995）是一种基于进化论的技术，其模仿鸟和鱼集群的群集行为，具有优于其他类似进化算法的许多优点（DelValle等人，2008; Engelbrecht，2006; Bai，2010）。在这项研究中，最优 MEL 使用多目标粒子群优化（ MEL-MOPSO ）的方法已被提出来实现最优和有效的 MEL 。 MEL-MOPSO同时优化多个相互冲突的目标函数。将这两个目标函数同时用于极小化问题，得到了非支配解集（定义-02），称为Pareto最优解。从分类性能MEL和视图数两个方面分析了MEL-MOPSO方法的可行性和有效性它是比较单目标优化使用粒子群算法（SOPSO）的16个高维数据集。根据解集的总体目标、非劣解、Pareto前沿与真Pareto前沿的距离、解集的多样性等对解集进行了分析。分析表明，MEL-MOPSO方法的性能优于SOPSO方法。本文的其余部分组织如下：第一部分介绍了拟开展的研究工作。第二节是相关的工作和基本概念，包括MEL和MOPSO。所需的符号和问题公式在第3节中给出。在第4节中，实验研究描述了数据集、实验设置和结果。结果分析见第5节。第六部分是结论和未来的工作。2. 相关著作和基本概念2.1. 多视图包围学习（MEL）MEL方法从单个或多个信息源中提取模式。单视图学习和MEL正在学习Fig. 1. MEL的计算时间复杂度取决于数据集的视图数。诉Kumar，Prem Shankar Singh Aydav和S.明茨沙特国王大学学报8525分别从单视图和多视图模式（Wang等人，2011年）。MEL对冗余视图的有效利用与单视图学习有很大不同。这些冗余视图为学习任务提供了有用的信息。多视图学习利用视图的互补信息来增强学习性能（Xu等人，2013年）。互补和共识原则考虑确保多视图学习的更好性能（Xu et al.，2013年）。互补原则允许在视图之间共享其他视图没有的信息。而最大化多个学习者之间的共识是由consensus原则考虑的因此，考虑这两个原则可以准确和全面地描述数据。Dasgupta等人（2002）验证了多个观点的一致性与错误率之间的联系。SVM-2K监督学习算法提出了结合典型相关分析与支持向量机（Farquhar，2005）.它将特征投影到1维空间，然后是阈值。如果两个分类器的多样性大于误差，则协同训练风格的算法在没有冗余视图的情况下表现良好MEL主要有三个任务，即视图构建、视图评估和视图集成，具体描述如下：2.1.1. 景观建设如果MEL没有任何自然的方式来获取数据视图，则MEL无法有效数据集的每个属性子集称为数据集的视图这些视图可能相互独立，也可能不独立，这意味着已经提出了许多方法来划分属性集（视图构造）。视图构造通常分为许多类别，即，基于随机的视图构造、基于特征集划分的视图构造、基于约简的视图构造、基于性能的视图构造以及其他视图构造方法。这些的描述如下：基于随机的视图构造：此方法创建随机选择特征的特征子集。此方法是创建数据集视图的最简单方法。由于特征对子集的选择是随机的，不能保证令人满意的性能，主要取决于学习算法和数据集的域。在文献中提出了许多方法Ho（1998）提出了随机子空间方法（RSM），该方法通过聚合和自举来利用特征子空间。为了避免训练规模和特征向量之间的差异，Tao et al. （2006）采用了一种随机子空间方法，该方法解决了一小组特征的过拟合问题。 Bryll等人提出了属性装袋。（2003），其将原始特征集分成不同的特征子集。该方法采用随机搜索的方法该方法通过随机搜索的方法找到合适大小的特征子集，从而选择特征子集。基于约简的视图构造：基于约简的视图构造的目标是获得具有至少与完整特征集相同的预测能力的特征集的最小尺寸。在文献中已经进行了许多尝试Hu et al.（2005）提出了许多构建决策森林的方法，这些方法通过投票机制合并，其中每棵树都是一个唯一的约简。Wu et al.（2005）提出的最差属性丢弃优先方法用于找到约简和朴素贝叶斯组合它们。性能基视图构造：该方法获得在验证集上具有等效性能的特征子集。Günter和Bunke（2004）考虑了观点的多样性以及特征子集的集合的性能。Tsymbal等人（2005）引入多样性作为适应度函数，并比较了多种特征选择方法的最佳特征子集。基于特征集划分的视图构造：通过划分获得视图有两种自然的方法：水平划分和垂直划分。获得样本的子集被称为水平分区，其中每个视图的维度将与数据集的原始维度相同。垂直分区包括数据集特征的子集，其实例数量与每个视图的数据集中的原始垂直分区称为特征集分区。划分方法产生了用于构建分类器的特征子集的成对不相交集合。在现有技术中，已经提出了许多涉及特征集划分的算法。特征集划分是根据诸如数字、标称等特征来完成的 Hu等人（2007）提出了一种基于粗糙集的集成粗糙子空间（EROS）算法。所提出的算法是一个前向搜索策略，是准确性指导。Rokach（2008）成功地采用了基于遗传算法的特征集划分。其他视图构建方法：Di等人（2010年）研究了高光谱图像数据的视图生成，包括视图的兼容性、准确性和多样性。一种新的多矩阵表示的数据集提出了王等。（2011）将数据集重新整形为两个不同的矩阵。Chen等人（2011）提出了一种伪多视图协同训练（PMC）来自动分解互斥子集（两个子集）。遗传算法也用于获得自动特征子集（Sun等人， 2011年）。2.1.2. 查看评估视图评价是确保MEL性能使用视图验证任务可以避免违反视图假设和视图中的在文献中提出了许多方法来验证视图。Muslea等人提出的第一个视图验证技术。（2002），其具有足够的查看能力以获得更好的性能。噪声是影响MEL学习的因素之一。 Christoudias等人（2012）提出的视图不一致，其中由于噪声而不是相同类别的结果，指示样本可能属于附加背景类别。 Christoudias等人（2009）也扩展了异方差情况下的贝叶斯共同训练。视图内和视图内置信度测量用于描述视图依赖性和充分性（Liu和Yuen，2011）。可以使用任何数据挖掘算法来评估视图的预测能力。2.1.3. 查看包围集成学习方法是将通过每个视图获得的多个学习器组合在一起的标准方法。在文献中提出了许多方法来结合各种视图，以提高学习性能相比，单视图学习算法。在联合训练中，每个视图都使用分类器进行训练，该分类器使用相同的视图特征集。它最大限度地减少分类器在未标记和标记数据集上的预测分歧，通过相互学习来达到最佳解决方案。Yu等人（2011）提出了贝叶斯协同训练，它定义了协同训练的无向图模型。在多核学习的情况下，该算法可以选择合适的核和核集成。在文献中提出了两类用于核组合的方法，即线性组合方法和非线性核组合方法（Xu等人，2013年）。●●●●●诉Kumar，Prem Shankar Singh Aydav和S.明茨沙特国王大学学报8526P=0.0000000;中国共产党;¼;。 . .iii1P我我1/4f 2 j¼ð Þ ð Þð Þ¼ j ð Þj ð Þ¼-你好我我2.2. 多目标粒子群优化算法理解一些基本概念是正确解决问题定义所必需的，如粒子群优化（PSO）、多目标优化问题（MOOP）和帕累托最优性。2.2.1. 粒子群优化算法（PSO）：Eberhart等人（1996）引入了基于种群的元启发式策略的优化概念，称为PSO。它利用自己以前的经验弹簧信息，并利用移动到一个有希望的区域，以找到全球最佳位置。设F：S p！ R是目标函数，其中d-维搜索空间被定义为Sp。设S p1; p2; p3;. ; pn和一个群X i 1/4pi;1;pi;2;pi;3;. ;pi;n2S，因此个人最佳成绩的每个对应颗粒可以被表示作为pbest i;1;pbest i;2;pbesti;3; .. . 其中n是粒子的数目。第t次迭代的粒子运动可以写为速度Vi1;v i;2;v i;3;. . ;v i;di;asin Eq. 1和等式二、Xit1XitVit11Vit1Vitc1×ri;1tfpbestit-Xit gc2×ri;2tgbestt-Xitg cð2Þ其中粒子位置（Xi）和速度（Vi）是第i个粒子，第t次迭代，其中i^l; 2; 3.. . ;n.粒子自身找到最佳位置，即，整个群被表示为pbest_i_t_n和gbest_i_t_n。正的常加速度系数为c1和c2。两个随机分布的常数（ri;1和ri;2）都在1/20;1]的范围内。2.2.2. 多目标粒子群优化算法多目标优化问题（MOOP）1. 最大化解集中Pareto最优解的数量。2. 最小化真实帕累托前沿和帕累托前沿之间的距离。3. 最大化解集中所求得解的多样性。粒子群算法通过粒子的pbest（个人最佳）和gbest（全局最佳）来更新速度。对于中的每个粒子粒子群算法中，所有的目标函数被同时估计，其中Pareto最优概念被认为是产生非支配解。在这种方法中，通常选择一个粒子作为领导者，因为在邻域中可能存在多个非支配解。它存储到目前为止找到的非支配解。如果一个新的解决方案在外部存档中占主导地位，那么新的解决方案必须替换现有的解决方案。多目标粒子群算法设计的一个关键问题是从非支配解中选择一个领导者set（外部存档）。每一个新的非支配解选择作为领导者是一个简单的方法。通常，基于密度的领导者选择可以通过最近邻密度估计器来完成（Parsopoulos和Vrahatis，2002）。解的最大多样性是决定性因素之一更新具有有限大小的外部存档以降低复杂度。加权目标函数聚合方法：加权目标函数聚合方法是聚合目标函数的最常见方法，即，Parsopoulos和Vrahatis（2002）首次提出。采用加权归一化目标函数fi_（？）x（？）多目标问题转换为单目标问题的F_（？）lem如F xkwfxg x0 i1 2 3m 与I¼约束h kx 0; k 1; 2; 3;. l; hL6 h i6 xU; i ¼ 1; 2; 3;. r，其中第一，第二，第三，K和w i是非负权重目标之间可能的谈判，以获得解决方案，最小化或最大化目标函数（Coello，1999）（见（千美元）1/1w/1）。k是目标函数的个数，定义-1）。MOOP的目标可以是线性/非线性的约束h<$L<$6hi6x<$U<$将每个变量xi限制在较低的和连续/离散。MOOP确实有一组受控的hL我和上hU我被称为决策空间（Deb，2011）。非劣解提出了几种方法来寻找非支配集，如连续更新方法，朴素慢方法，Kung等人。s有效方法等。如果一组解Pω∈Sp，且不受Sp的剩余解成员的任何成员支配，则解这个集合称为帕累托最优集合（见定义2）。Pareto前沿PFω是所有满足f<$p <$jp2Pω的解的集合。定义1（多目标优化问题（MOOP） Coello等人，2007年）。“”多目标优化问题被最小化/最大化Fpf1p;f2p;f3p;. fNp，gip 6 0; i ¼ 1; 2; 3;. m和h ppp = 0; k = 1; 2; 3;. q; p 2 S p. 一MOOP解决方案最小化/最大化向量F的分量，其中p 1/4 =p1; p2; p3;.p nn是来自某个论域S p的n维决策变量。表示g ip60和h pp 60表示在最小化/最大化F p和S p时必须满足的约束，S p包含可用于满足Fp"的评估的所有可能的p。定义2（Pareto最优集）。‘‘The Pareto-optimal Set适当的修改是所需找到帕累托由于粒子群算法通常求解单目标优化问题，因此，粒子群算法的最优前沿对应于多目标优化问题。Zitzler等人（2000年）认识到解决方案归档的三个一般目标，例如：在目标函数的约束中，存在不等式约束gix和等式约束hkx在优化过程中，对目标函数的权值采用固定权值或动态权值，优化过程中相应目标函数的权值可以是固定的，也可以是动态的。固定权重用于常规加权聚合（CWA）。动态加权聚合（DWA）方法和Bang-Bang加权聚合（BWA）（Parsopoulos和Vrahatis，2002）用于避免CWA方法的繁重计算双目标权重可以写成为的BWA方法asw1tsignsin 2pt=fw andw2t1-w1t1，其中t是迭代索引。DWA方法权重缓慢变化，以保持向PFω 移动，其中权重为w1tsin 2pt=fwW2T1w1t.许多在现有技术中已经提出了产生非支配解集的过程，例如连续更新方法、朴素和缓慢方法等。如果问题的真Pareto前沿已经被定义，则可以得到真Pareto前沿与Pareto前沿之间的距离。否则，理想目标向量由各个最优目标值构成，其表示为zω1;fω2;fω3;. . fωi是第i个目标函数的最优值，i 1; 2;3;. m（Deb，2011年）。它对应于一个不存在的解决方案。理想目标向量的利用是在真实帕累托前沿不可用的情况下进行的。理想目标向量与真实Pareto前沿的接近程度表明解集的质量诉Kumar，Prem Shankar Singh Aydav和S.明茨沙特国王大学学报8527L（0;fDyt¼[¼KXLK123npL¼1X3.2.查看评估3. 符号和问题表述设A a;a;a;. a是数据集D的特征集，并且域的有限基数被定义为domaivi;1;vi;2;vi;3;. . ;vi;jdomaij，其中jdomaij是数据集中的样本数数据集D可以是所有功能的Carnival产品，¼ ð Þ× ð Þ× ð Þ× × ð Þ我的天啊！ y p5其中，y p 是第t个对象的第i个分类器的预测标记。第i个分类器的训练误差f_error可以通过使用如等式中的零-一损失函数来获得。第六章：jDLjfDi L fDi;y6不LDdom a1dom a2dom a3.大教堂;则标记的数据可以如等式中所示第三章：误差LjDLjt¼1DL¼A × doml 3其中，Lfff f：f是损失函数，y是第t对象的原始标签OT。其定义如Eq. 第七章：其中，dom=l1l2;l3;. ;ljdoma i jare labels.3.1. 景观建设LfftDi;关于我们IL1;否则ð7Þ令，特征集合A被垂直地划分为k个因此，用于分区p的fi分类器的学习准确度可以写为等式1。第八章：块（特征子集），使用M分区方法，其中Ai=Ai i是特征集A的第i个块，并且满足Ak1/1我是。定义-加速度计1-f误差计8数据集的垂直分区在定义-4中定义定义3（垂直分割）。''令数据集D具有特征集A1/4A1;a2;a3;. 一个; 使用M划分方法的特征集合A的划分p=Ai，是特征的非空子集（块）的非空集合，使得其中特征块满足Ai\Aiji2Ig，或Ai\Aj-i，任何特征集的块都被称为数据集的视图，可以表示为A i¼ fa i;1;a i;2;ai;3;.。ai;qg，其中q6n. 图 3具有数据的垂直分区的图形表示，并且伪代码已经在算法1中示出。数据集可以表示为一组视图D A1;A2;A3;. ;A k.具有决策属性的第i个视图可以表示为等式（1）。第四章：第i个视图Ai的优度可以通过分类器精度来评估。3.3.视图包围第i个分类器的性能权重ai十八日：ai1-ei1-ej第1页其中，基于性能，验证集上的第i个分类器的归一化因子是Ei。设t= t;y =p= t是D i的第t个测试样本。每个分类器的权重可以基于它们的性能来分配。因此，得分最高的班级是算法1：所提出的方法的伪代码MEL-MOPSOA我 <$dom a i;1 × doma i;2 × doma i;3 ×.. .×doma i;q × dom l4设第i个视图Ai已通过划分诱导器fpA，表示为Eq. 第五章：如在Eq.第十章：Cotargmax y2domyXai×gfiDi;y101/1其中，g是指标函数，如等式2中所定义。十一日：诉Kumar，Prem Shankar Singh Aydav和S.明茨沙特国王大学学报8528我KðÞK我X1个;我-- Þð Þ我. .n你Bn¼e则A的最优分割我溶液内KKKKKKnKLpk k-1knP0j¼0Kf f D i;y。1; yp¼ yð11Þ分区具有所有的的单例形式fajg2A，表示为我0;否则hA¼n. 要素集的划分必须满足以下条件其中，fiiD i ii n uy。MEL的测试误差可以通过等式（1）获得。十二：1XdA6k6hA.集合，它具有所有可能的特征集划分，一是表示作为设置零件AFPKJDA6K6hA;i 1; 2; 3;. Sn;kg.的指数生成函数f误差ΔDLΔTt1/2lfCot;y12贝尔数在等式中示出20.X. B组块的数量jpAj ^k。ACcpADL1-fDl133.4. 问题公式化Dobinski（1877）推导出一个方程。21、Eq。20，使用两次指数函数的麦克劳林级数。1倍。kn！kP0国王！MEL受视图的构造方法或视图的表示方式的影响将特征集划分为恰好k个非空特征子集的可能方式的总数是斯特林数（Fischler，1958），表示为Sn;k或. n. 它可以像在Eq中那样计算十四岁可以观察到，特征集划分是一个NP难问题，因为等式15、Eq。18个是多项式。图2表示贝尔数的多项式性质，其中x轴和y轴表示特征集的特征和分区的总数。求出了有限元的最优剖分pk2SetPartAtures设置将采取多项式时间因此，我们认为，最优MEL的分类精度可以使用进化算法获得KS N K国王！ 1/4-1. n我 ×k-ið14ÞRithms根据图2，当块的数量增加时，计算时间复杂度增加。因此，有两个目标，第一个是获得要执行MEL设k1子集可由前n1个特征得到.然后，下面的关系可以写成Eq。二十四：.n.n-1，n-1个;nP1个15个阶乘幂是通过在生成函数中代替x的普通幂来使用的。对于固定的n个特征，生成数量可以表示为Eq. 16，对于nP1：X. nKK最优和更低的计算时间复杂度。因此，已经提出了MEL-MOPSO方法，即，在下一节中描述3.5.使用多目标粒子群优化（MEL-MOPSO）的多视图包围学习：设，分割集ps 1/4pkj 1 6 k6hA;i 1; 2; 3;. Sn;k被认为是一个解空间，其中pA<$SetPart<$A<$。经典的-我我我Fn xx16表示了分类器f对于分区pk2ps的分类误差作为f pkf误差D L; pk，其可以从等式（1）计算。六、如果P... n-1个。n-1β-内酰胺酶其中，Fn=1，如果n=0。FnxKþK K-1MEL的性能使用分区pk2pA是最佳的，第一项，取代k<$k<$1，<$ P。k×。n-1次空间ps。使MEL高效和优化的目标如下请遵循：xk1P. . n-1×xkFnxP.100万。n-1×xkP.k×。n-1×xk¼P。. n-1×xkKKKK● MEL计算时间复杂度的最小化Fn×Fn-1×Fn17× F n因此，Eq。17可以像在Eq中那样求解18、感应Fxx nX。 n× k;n> 0×18 μ m的EQ。18表示Fn x是特征集的k-块的多项式来自特征集n的视图（非空）的可能数量等于Bell数（Pitman，1997），即Stirling集数量的总和递归关系可以写成Eq. 十九日：Xn-1。n-1α哪里的初始贝尔数字是B0¼1;B1¼ 1;B2¼ 2;B3¼5;B4¼ 15等令pk表示为具有k个特征块的分区的第i个（pk 1/4 k），其中i1/4 1; 2; 3;. Sn; k. 具有特征集A本身的划分被表示为dA1/ 4，不n因此，对于分区PA，可以获得分类性能MEL classificationper-numerals，如等式（1）中所13、哪里电子邮件xn20ð21Þ在● MEL分类误差的最小化j¼0Bn¼BJ2019年诉Kumar，Prem Shankar Singh Aydav和S.明茨沙特国王大学学报8529图二. 对数的图解表示法[贝尔数列]。诉Kumar，Prem Shankar Singh Aydav和S.明茨沙特国王大学学报85301/4f g我J我我我ð Þ ð ÞK我Þ¼1我误差我J我JJ我其中KmaxmaxK.因此，用于最小化的MOOP可以写成等式：二十四：k k k最小Fpiw1f1piw2f2pi24受pk2ps的约束其中宽1米宽2米宽1米宽25米其中，w1和w2是严格遵循等式的函数的非负权重。27以聚集归一化的目标函数。可以利用目标函数的权重聚合、CWA、BWA和DWA方法。算法2被示出为伪代码的OMEL-MOPSO。让X i¼fpkjdA6k6hA;j¼ 1; 2; 3;.. . Sn;kg是第i个群的粒子，pkSetPartAand jX ij¼ d.图三. 数据集的垂直分区第一目标的目标函数如下：fpkfDL;p22在算法2中，步骤-1从1开始到maxrun，其中maxrun由用户定义。粒子的位置Xi t和速度Vi t在步骤2中初始化。步骤3重复步骤4、步骤7和步骤8，其中步骤3具有适应度函数Fpk的评估，pbest;步骤-7找到gbest，步骤-8更新速度Vit和位置Xit进行第t次迭代。最优解集P在每次运行中更新，直到最大运行。朴素慢速法是从解集中寻找非支配解这种方法，如果Pareto解集的集合表示为每个P，则解pl2P是com-1。对每个pmpP都是 p ，其中l-m或i-j。如果pl优于pm第二目标的目标函数如下：对于每个pm2P，则pl 被添加到非支配集合Pω，f2双稳态K.pk。ð23Þ是帕累托最优集。在算法2中给出了朴素和缓慢方法的伪代码。iKmax算法2：MEL-MOPSO伪代码提出的视图集求解方法诉Kumar，Prem Shankar Singh Aydav和S.明茨沙特国王大学学报8531我日M我.Σj j j我我.Σ¼我ð Þ我K0maxMJ JMOPSO的第一个目标是实现最大数量的非支配解。许多问题并没有真正的● 随机特征集划分（RFSP）：RFSP方法严格遵循以下条件：Ai¼A;和最优前沿来衡量MOPSO算法的性能那么理想的A1/1目标向量可以用作最小化问题的参考解。还有一个目标是最大化帕累托最优解的传播。密度估计测度是估计帕累托最优解分布的测度之一拥挤距离算法是一种密度估计测度算法。在Algo中示出了伪代码Rithm 4（Deb，2011）.在该算法中，Dist Pω是iPareto最优解Pω 的距离。条件DistPωi ¼D tPωPω1/4包括边界点，分别为最小值V min和最大值Vmax。该算法的复杂性取决于k（目标函数）的排序算法，因此，的多目标功能可以被获得O k PωlogPω，其中Pω是Pareto最优解的总数。4. 实验研究4.1. 数据集描述这16 个数据集是从NIPS 2003 Fea- ture Selection Challenge（特征选择挑战）中手动选择的。会议，xxxx）; UCI数据集存储库（ U 。 Repository， xxxx ）和 Kent Ridge Bio-medical Data- set（K.R.B.医学数据集，xxxx）。所有数据集本质上都是高维的，并且是二进制标记的，如表1所示，具有相应数量的样本和特征。4.2. 实验装置数据集的分区和分类精度：分区的子集ps1/4pkj 1 6k6 100;i1/4 1;2; 3;.. Sn;k 被认为是 MEL-MOPSO 方法的解空间。视图获取采用RFSP、Ba、AB、VC-GA方法，其参数设置如下：i\A j/; i- j. 考虑相等基数jAij jAjj对于数据集的每个视图。Bagging（Ba）：该方法的主要目标是通过随机划分k次采样并替换来构建属性装袋（AB）：这种方法分为两个阶段。第一阶段通过检查各种大小的特征子集的分类精度来获得合适的子集大小（m）。第二阶段通过以相同大小划分特征集来构造k视图。并将各个分类器的预测结果进行集成，得到最终的预测结果.使用遗传算法（VC-GA）的视图构建：每个特征都表示为染色体的一个位，其中fea-如果第i个比特值是1，则选择True，否则不选择第i个特征因此，每个染色体代表数据集的视图。每个比特的随机翻转产生初始种群。使用跨代方法来选择个体，其中50个群体和100个后代的大小被用于下一个群体。使用的变异和交叉概率值为0.66，0.03在过程中，分别。SVM分类器（K.R.B. 医学数据集，xxxx）已经使用线性核函数从视图Pk学习。对于数据集的每个视图，执行10次10倍交叉验证。然后，使用性能加权集成方法集成学习的分类器，其中使用等式（1）计算每个分类器的归一化因子（a9 .第九条。同样的实验设置进行1000次，以获得MEL的平均分类错误的p-k分区的数据集。图2显示了使用朴素和慢速方法的MEL-MOPSO方法的流程图。MOPSO设置：所有上述实验设置都是针对目标函数f1Kif误差DL;Ki来准备的，其评估平均分类。给定K的阳离子误差。 f 2KKi 是标准化时间com-表1带有二进制标签的高维数据集列表S.N.数据集名称样本数量数量的特征对于给定的 Ki. 对于 MOPSO ，解空间被定义为 Kstart;K0max1/4f1;100g，这满足的条件K 开始6K0最大6K最大，而优化过程中，所有的数据集有超过100个功能。因此，条件K0max6KmaxD1所有_AML _白血病（U.存储库，xxxx）38 7130也满足，其中Kmax n是给定数据集的维数因此，MOOP可以写成：D2Arcene（.I.P.S. 会议，xxxx）1009920D3乳腺癌（美国）仓库，xxxx）867130最小FKiw1f1Kiw2f2Ki26D4中枢神经系统（K.R.B.）医学数据集，xxxx）60 7130受制于：D5结肠癌（U. 储存库，xxxx）622000D6彩色肿瘤（K.R.B.医学数据集，xxxx）D7DLBCL肿瘤（K.R.B. 医学数据集，xxxx）D8DLBCL_NIH（K.R.B.医学数据集，xxxx）D9DLBCL Stanford（K.R.B. 医学数据集，xxxx）D10Luekemia（K.R.B.医学数据集，xxxx）D11哈佛大学肺癌2（K.R.B.医学数据集，xxxx）D12密歇根肺癌（K.R.B.医学数据集，xxxx）D13安大略省肺癌（K.R.B.医学数据集，xxxx）62 200077 7130160 740047 402772 707132 1253493 713039 288116Ki6 100 27其中，w1=w21/4。在单次试运行时，使用w 1和w 2的常数值，以最小化聚合目标函数FK i。w1 1/41和w2 1/40表示优化是单目标优化。优化F Ki函数使用MEL-MOPSO算法，它利用CWA方法。gbest在每次运行中用作领导者，并存储在解决方案集中P.在算法运行100次之后获得解集，其中在每次运行中随机选择w1和w2。朴素慢速方法（算法3）的输入是从MEL-MOPSO算法获得的一组解P。天真迟钝的医学数据集，xxxx）D16Secom（U. 存储库，xxxx）200468算法4）用于求Pareto最优集Pω的多样性。●●●D14Madelon（U.存储库，xxxx）500500方法最优集在分类之间具有最佳协商性D15前列腺肿瘤与正常（K.R.B.10212601错误和时间复杂度。拥挤距离算法（如诉Kumar，Prem Shankar Singh Aydav和S.明茨沙特国王大学学报8532算法3：寻找视图的非支配解集（Pareto最优集）的方法使用特征集划分方法RFSP，Ba，AB和VC-GA。x轴表示数据集，y轴表示通过MEL-MOPSO方法和每种视图构造方法的特征集划分方法获得的非支配解的差异。在多目标优化问题中，寻找非支配解集的高基数是至关重要的。具有较高基数的优化方法被认为优于具有较低基数的方法。因此，非支配解集的基数已经注意到所提出的方法MEL-MOPSO和SOPSO方法。已经获得了MEL-MOPSO和SOPSO基数的减去值（带符号），它们的图形表示如图8所示，涉及RFSP，Ba，AB和VC-GA方法。基数的符号产生y轴上正负的条形图。MEL-MOPO方法的性能更好，可以通过正的条形图观察到，而具有负y轴侧的条形图将显示SOPSO方法的更好因此，我们认为，算法4：使用拥挤距离算法4.3. 实验结果与分析图1给出了MEL对单个目标和MOPSO的分类精度的箱形图。 4和图五、 X 轴表示数据集，如 Arcene_SO （ Arcene 单目标）、Arcene_MO（Arcene多目标），y轴表示使用MEL-MOPSO方法的MEL的最佳分类精度。在图6和图7中，通过单目标粒子群优化和MEL-MOPSO方法获得了x轴表示数据集，如Arcene_SO（Arcene单目标），Arcene_

下载后可阅读完整内容，剩余1页未读，立即下载