基于萤火虫算法的分类器研究

130 浏览量更新于2024-01-14 收藏 910KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一种基于萤火虫算法的分类器Emad Mohamed Mashhoura，Mr.，Enas M.F.El Houbyb，Khaled Tawfik Wassifc，Akram Ibrahim Salahc埃及现代计算机科学学院计算机科学系b埃及开罗国家研究中心系统信息部-工程研究处c埃及开罗大学计算机与信息学院计算机科学系阿提奇莱因福奥文章历史记录：2018年5月17日收到2018年9月27日修订2018年11月13日接受在线发售2018年保留字：萤火虫算法模型构建模型预测群体智能分类A B S T R A C T在过去的十年中，分配对象到几个预定义的类之一，具有更高的准确性，受到了研究人员的相当大的关注。因此，许多算法，如统计算法已被开发来解决分类问题。最近，大量的文献已经成长起来围绕群体智能算法。萤火虫算法是一种模仿自然界中萤火虫行为在这项研究中，一种新的分类器方法的基础上萤火虫算法被引入作为监督学习算法。基于萤火虫算法的分类是通过模拟萤火虫的行为，吸引其他队友的基础上的强度和距离。所提出的算法的完整特征选择阶段，负责减少特征并挑选最具信息性的特征，模型构建阶段负责挑选萤火虫类表示器，模型使用/预测阶段负责使用类表示器在其相关类中分配测试或未见过的样本。七个不同的数据集已被用来测试分类器的性能。将部分数据集的结果与蚂蚁挖掘算法进行了比较。实验结果证明萤火虫分类器算法是一种很有前途和竞争力的分类器。©2018作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍机器学习技术指的是机器基于预定义数据来识别看不见的数据或对看不见的数据做出决定的能力（Ponmani等人，2017年）。机器学习技术分为监督学习技术和无监督学习技术。监督学习技术负责基于输入和输出数据开发或创建预测模型。该模型基于其先验知识或训练数据来预测未知数据。另一方面，无监督学习技术负责研究输入数据的结构和分布，而不知道输出数据的分类（Sathya和Abraham，2013）。分类是一种有监督的学习技术，它体现了基于未知样本的识别和分类的意义。*通讯作者。电子邮件地址：e_mashhour@hotmail.com（E.M.Mashhour），kwassif@fci-cu.edu.eg（K.T. Wassif）。沙特国王大学负责同行审查一个前知识学习模型。分类是大多数问题中最常用的过程之一，需要将对象分类到预定义的类或类别中。分类性能的评估是基于正确和错误预测样本的数量。许多研究人员在构建分类器时使用了统计技术，但很少有研究将群智能算法作为分类技术。群体智能是一种似乎可以说明自然界中多个智能体如何相互交互和交换信息的方法（Yang和He，2015）。一个群包含了大量的代理人，相互合作，以执行指定的任务。这些智能体以不同的方式相互作用，如蚂蚁之间的信息素，蜜蜂之间的摇摆舞，萤火虫之间的闪烁和押韵的光等。计算机科学家将一系列自然行为映射到算法和例程中。他们在80年代后期通过人工智能领域引入了这种方法（Das等人，2008年）。群体智能方法在特征选择等寻求最优解的优化问题中证明了其有效性在过去的十年中，统计技术，如支持向量机（SVM），k-最近邻（KNN），和其他技术被用于分类，而t-检验，释放，和其他技术被用于特征选择。研究人员还https://doi.org/10.1016/j.jksuci.2018.11.0091319-1578/©2018作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comxi;k-xj;k我我0J我上午1174时Mashhour等人 /沙特国王大学学报-计算机与信息科学32（2020）1173- 1181有动机使用群体智能算法，如蜂群，粒子群，和其他不同的算法在特征选择\排名问题，但很少这些技术被用作分类器。在这项研究中，提出了一种新的监督学习技术的分类萤火虫算法（杨，2010年）。所提出的算法包括三个不同的阶段。这三个阶段已被整合在一起，以实现分类过程。它的工作原理如下，第一阶段负责降低尺寸，同时保留最丰富的信息特征。另外两个阶段分别为模型构造阶段和模型预测阶段，这两个阶段都将利用特征选择阶段产生的信息特征子集。萤火虫分类算法的模拟是将每个样本看作一只萤火虫，用一组用于优化问题的适应度函数来模拟每只萤火虫的强度。本研究中使用的适应度函数是Rosenbrock，Sphere和Ackley（Merkuryeva，2005）。本文的其余部分组织如下。第2节为文献综述。第三节介绍了人工萤火虫算法。第四节介绍了基于萤火虫的分类算法。第5节说明了实验和结果。第6节给出了讨论和结果分析。第七部分总结了今后的工作.2. 文献综述由于群智能算法的迅速普及和提高，研究者们试图改进萤火虫算法，使其能够适应不同的应用。例如，在（Su等人，2017; Karnan，2014;Vishwakarma 和 Yerpude ， 2014; Rajinikanth 和 Couceiro ，2015; Chen等人，2016）萤火虫算法用于解决图像处理问题，其中在（Khadwilard，2012; Marichelvam等人，2014; Karthikeyan等人，2014）萤火虫算法被使用在作业调度中，在（Devarajan和PaulRobert，2015 a，b; Tuba例如，2017年萤火虫算法被用作移动网络解决方案。在（Koodalsamy和Bairavan Veerayan，2016）中，改进了萤火虫算法以解决电力系统的机组组合问题，其中在（Shrivastav和Dhawan，2018）中，萤火虫算法与支持向量机分类器一起使用，以增强云计算领域的入侵检测过程。萤火虫算法也被应用于机器人领域，在（Abdul Hassan和Fadhil，2018）中，萤火虫被应用于3D动态球体的移动机器人路径规划在（Raja等人， 2017）萤火虫用于平面机器人的运动学分析。在目标跟踪领域，萤火虫算法证明了它的跟踪能力蚂蚁挖掘算法分为规则构造、规则修剪和信息素更新三个阶段，每个阶段的信息素数量与路径或该算法以空规则为初始值，对所有路径（解）赋予相同的信息素。然后，根据问题函数和与该术语相关联的信息素量来搜索要添加到空规则中的术语。该算法搜索属性的最佳组合以形成规则。3. 人工萤火虫算法萤火虫算法的灵感来自于真实萤火虫的行为。它们相互作用，并通过从它们的身体发出的押韵闪光互相发送信息。所发射的光用于吸引其他人（Ali等人，2014年）。这种发射的光或强度根据萤火虫之间的距离而变化。将萤火虫行为映射到算法中必须涵盖三个规则：1）萤火虫是中性的，因此所有萤火虫都会相互吸引，而不管其性别如何。2)吸引力与亮度成正比，因此对于两个萤火虫之间的任何闪光灯，亮度较低的一个将移动到较亮的一个。吸引力随着两个萤火虫之间距离的增加而减小。在没有更亮的萤火虫的情况下，萤火虫将随机移动。3)萤火虫的亮度受景观的适应度函数的影响或决定。萤火虫算法中的两个重要变量决定了算法处理的复杂性，即光强度和萤火虫之间的吸引力（BinWang等人，2016年）。根据萤火虫的亮度，每个光源的光强变化，这是表示和计算的一种适应度函数。每只萤火虫的吸引力使用Eq. （1）（BinWang等人，2016年）。brb0e-cr21其中，b0表示距离（r）= 0处的吸引力，并且有时数学计算被认为是1，并且c表示空气中的光吸收值。r是萤火虫i位置和萤火虫j位置之间的距离。萤火虫之间的距离是衡量两只萤火虫如何被吸引的彼此之间萤火虫总是处于从一个位置到另一个位置的移动状态。根据萤火虫之间的吸引力与它们之间的距离有关的事实，任意两个萤火虫i和j之间的距离由Euclidean距离计算，使用等式：（二）、vutXd2k¼1系统（Gao等人， 2013年）。（Amsaveni和Arunkumar，2015）萤火虫被用于空间域的数据隐藏。在网络领域，Reza Sedaghati等人，2016）在分布式系统的网络重新配置中使用了萤火虫算法。萤火虫算法证明了它在解决不同领域的各种问题的能力。本文将萤火虫算法应用于分类问题的求解。由于分类问题在分类中的重要性，分类问题一直是众多研究中的一个重要问题区分不同的物体我们发现缺乏应用其中d表示问题的维数，xi，k是萤火虫i位置的第k个分量在计算了两个萤火虫之间的距离之后，假设萤火虫i的亮度小于萤火虫j，因此当将萤火虫i移动到萤火虫j时，它们之间的吸引力发生。（3）（BinWang等人，2016）控制这种运动，其表示如下：x11¼xtbecrij2ω。xt-xtaωrand-1=23群智能算法作为分类器。据我们所知，基于群智能的唯一分类器是蚂蚁挖掘器（Parpinelli等人， 2002年）。2002年出现它依赖于蚁群算法，用IF-THEN规则表示在蚁群算法（Colorni等人，1991）蚂蚁使用信息素相互交流。它们被设计为搜索到达目标（食物）的最短路径最短路径是其中t表示迭代次数，系数α表示发送控制随机游走的大小的随机数，并且rand表示落在（Ponmani等人，2017年）。考虑三项后，亮度低的萤火虫向亮度高的方向移动（宾王例如，2016年）。第一项是低亮度萤火虫的当前位置。第二项是向萤火虫移动，rijð2ÞE.M. Mashhour等人 /沙特国王大学学报-计算机与信息科学32（2020）1173-11811175通过吸引系数b提高亮度。最后，最后一项是由随机生成器乘以a计算的一种随机游走。4. 基于萤火虫的分类算法提出的萤火虫分类算法背后的想法是利用萤火虫的行为来开发分类器以及特征选择工具（Mashhour等人，2018年）。所提出的分类算法包括如下三个不同的阶段第一阶段：特征选择。第二阶段：模型构建。第三阶段：模型使用\预测。在特征选择阶段，数据集被减少并从噪声，不相关和冗余特征中过滤。模型构建阶段负责将数据集划分为一组现有的类，其中每个类使用萤火虫算法单独处理。在该阶段中，产生一组萤火虫类表示器来表示现有类，其中萤火虫类表示器是其类中信息量最大的萤火虫。随后，在模型使用/预测阶段，测试或看不见的数据与从模型构建阶段产生的不同类表示器进行比较，以选择最接近和最拟合的类。将数据集分为两个子集：训练子集和测试子集.如上所述，所提出的算法被表示为监督学习技术。因此，学习模型将建立在训练\测试样本和训练\测试类标签的基础上。图1示出了包含分类过程的不同阶段的所提出的算法的框图。它从特征选择阶段开始，产生信息特征的子集，然后将这些选择的特征子集传递到模型构建阶段。在模型构建阶段，使用精简的特征子集提取萤火虫类表示器，而模型使用/预测阶段则使用类表示器将每个测试萤火虫分配到其相关的类。萤火虫类表示器与测试萤火虫并行传递到模型使用\预测阶段，以便对每个测试进行分类-将样本分类到其类别，如果分类精度是可接受的，则该模型被认为是对任何未来未知数据进行分类的成功模型。否则，通过选择其他信息特征子集，然后创建类表示器等重复该过程。在接下来的部分中，详细讨论了所提出的算法的三个阶段。4.1. 基于萤火虫算法的特征选择阶段众所周知，大多数数据集遭受不相关和噪声特征，这可能导致分类过程产生不期望的结果，因此在此阶段使用特征选择过程以减少数据集的维数并消除不期望的特征。使用萤火虫算法（Mashhour et al.，2018），通过考虑每个fea- ture作为一个萤火虫。萤火虫被过滤并选择用于分类。这个阶段的输出是一个子集，其中包含了信息量最大的特征\萤火虫。4.2. 萤火虫模型构建阶段在该阶段中，每个类C = {c 1，c 2，c 3.. . c j}将被认为是一种萤火虫，其中c i是萤火虫的类别或种类，i = {1，2，3.. . j}，j是存在的类的数量。类别c i的所有萤火虫\样本已被设置在单独的组中并被单独处理，其中每个类别或群具有数量n i的萤火虫或样本，其中c i = {s1，s 2，s 3，. . ，sni}，ni被分成75%的训练n个tri样本和25%的测试n个tei样本。假设我们有j个类别/种类的萤火虫，每个类别包含n个训练样本，如图1所示。二、该阶段必须通过应用萤火虫算法从训练样本ntri中选择信息量最大的萤火虫样本来提取每个类ci的萤火虫类表示器，其中每个类的萤火虫类表示器必须表示该类。值得注意的是，选择类表示符的算法已经应用于选定的特征子集。萤火虫算法应用于每个类ci单独使用一组适应度函数模拟强度。从每个类中提取类表示者来表示这个类，其中每个类表示者都是类中信息量最大的萤火虫所以一个Fig. 1.基于萤火虫算法的分类器的不同阶段。原始数据集没分类精度是否是未来未知样本分类测试样品模型使用/预测阶段萤火虫类主持人通过测试萤火虫测试样本基于选定萤火虫的信息量最大的萤火虫使用Firefly算法进行特征选择.上午1176时Mashhour等人 /沙特国王大学学报-计算机与信息科学32（2020）1173- 1181训练数据集c1每个类别中的样本数量（n= 3）数量c2萤火虫的种类ci..CJ数量的样本图二. 模型构造阶段负责分离类并单独处理每个类。许多类或群是分开的，每个群单独飞行。这些群包含根据其类别的信息值（强度）排名的样本，如图所示。3.第三章。此阶段的主要任务是搜索或发现包含类信息的样本（类表示器）该阶段包含一组步骤，处理如下：（1）输入训练样本并将每个类分成一组，（2）为萤火虫位置赋值，（3）使用不同的适应度函数计算萤火虫强度在应用步骤多次迭代之后，最具信息性的样本或萤火虫被选为不同类的类表示器。以下小节将讨论模型构建阶段的步骤顺序。4.2.1. 输入训练样本和单独的类\萤火虫在此步骤中，模型构建阶段将接收第4.1节中所述的特征选择阶段的输出，作为来自原始数据集的缩减和细化（特征）数据集类将被分离，其中每个类是一个单独的萤火虫群。4.2.2. 萤火虫\样品位置萤火虫位置是决定萤火虫在空间中位置的参数之一在本研究中，通过将样本中的每个特征值视为萤火虫位置来表示每个萤火虫的位置每个样本中的特征值表示推荐此示例作为候选类表示者的功能的效果每个萤火虫的位置（三）4.2.3. 萤火虫\样品强度计算在该步骤中，每个萤火虫\样本（fi）被分配由适应度函数计算的光强度值（Li）。在应用一组不同的函数后，发现Rosenbrock，Ackley和Sphere（Merkuryeva，2005）是代表萤火虫强度的最佳适应度函数。利用多个适应度函数的目的是搜索可以模拟强度的最佳适应度函数，以帮助最小化分类错误。强度是用来比较不同的萤火虫在同一类。具有较低强度的萤火虫通过一组迭代在每次移动（到新位置）之后更新其强度。步骤2-3的过程该步骤的目的是通过单独比较同一类别中所有样本的强度，确保为不同类别挑选最可呈现的样本（类别呈现者）。这一步的输出将是每个类中最好的萤火虫\样本。**建议的伪代码1描述了模型构建阶段。头等舱（swarm1）c1排序样本第二类（swarm2）c2萤火虫类演示者f1为第一类c1类（swarmj）cj萤火虫类介绍人f2为二等c2萤火虫类演示者fj为类cj图三. 根据样本的质量对每个类别中的萤火虫或样本进行排名。E.M. Mashhour等人 /沙特国王大学学报-计算机与信息科学32（2020）1173-11811177将看不见的萤火虫分配到班级的措施。计算了测试样品的位置t k之间的距离d k，其中k ={1，2，.. . ，nte}随机飞行，以及通过前一阶段从不同类别中提取的萤火虫类别呈现者的位置fbestci如第3所述，萤火虫的吸引力是根据距离和强度来估计的，距离越近，吸引力越大在计算出距离D之后，dom firefliestk 和萤火虫类的主持人f贝斯特奇针对不同伪代码1：模型构建阶段负责挑选类演示者。4.3. 萤火虫模型使用/预测阶段模型预测阶段将侧重于测试数据集。测试样本nt e的数目被认为是未知的萤火虫，在空间中随机飞行，没有任何相关的群体或类。考虑随机空间A包含许多随机萤火虫/测试样本A = {t1，t2，t3，t4. . tnte}飞行，其中nte是随机或看不见的萤火虫的数量。这一阶段的目的是发现每个测试样本tk的相关类c。对隐萤火虫或测试样本，采用基于火-飞距离的分类、基于强度的分类和基于类内平均强度的分类三种方法进行分类。4.3.1. 基于距离的萤火虫分类（FF_Dist）萤火虫距离是萤火虫算法的控制参数之一。它测量萤火虫之间的吸引力如何执行。距离测度的作用是为每个测试萤火虫检测最近的类。为了测量测试萤火虫和萤火虫群（类别呈现者）之间的相关性，需要分类的萤火虫（测试萤火虫）和类别呈现者之间的距离将被认为是相似性类，将产生D个距离，其中D ={d 1，d 2，d 3，.. . ，dj}，j是计算的距离的数量，距离的数量必须等于类的数量距离将被比较，tk和fbestci之间的最小dmin距离意味着被吸引到包含当前fbestci的类ci的概率越大。图图4示出了将每个测试样本t k分配给其最近的类的机制。该机制依赖于在随机空间中计算测试样本之间的距离和每个类的fbestci 如图4、考虑测试样本tk在空间中随机飞行，3个萤火虫类代表者带着它们的群C ={c1，c2，c3}飞行，对于测试样本tk，将有3个距离计算D={dk 1，dk2，dk 3}。表1显示了测试样本t k的计算距离值。将在计算的三个距离之间进行比较，以检测看不见的样本与三个类呈现者之间的最小距离。假设我们有最小距离dk，2，这意味着它检测到看不见的萤火虫tk和由fbest2表示的类c2之间的关系。这一过程将继续为所有看不见的萤火虫tk，直到每个萤火虫达到其正确的萤火虫群。4.3.2. 基于强度的萤火虫分类（FF_Inte）萤火虫强度是空间萤火虫的另一个重要参数，它可以根据待分类的测试萤火虫的强度与各类别萤火虫类别呈现者强度之间的差异，来确定待分类的测试萤火虫与群（类别呈现者）之间的相关性假设测试样本tk随机飞行，三个不同的萤火虫群在空间A中飞行。计算测试萤火虫的强度tk，然后计算每个类别中萤火虫类别呈现者强度与测试萤火虫强度之间的强度差。将测试萤火虫tk归类为其强度与测试萤火虫强度之差最小（DI = fbestintensity-tkintensity）的萤火虫类表示者。图 5说明了萤火虫分类器背后的想法，强度，如图所示，每个看不见的萤火虫的强度的差异（D）的数量等于已经比较的类别的数量。如表2所示，获得了三个值，用于表示测试萤火虫强度和萤火虫类别萤火虫一班主持人f1dk1未知样品萤火虫第三班主持人f3dk3dk2萤火虫类介绍者f22C2级C3级C1级图四、计算看不见的萤火虫和萤火虫类演示者之间的随机空间距离输入：矩阵S（n，h），其中S是特征选择后的数据集。n是样本数，h是所选特征数。输出：创建的表示j个类的j个萤火虫类表示器的集合。模型构建阶段第一步：将每个类单独分开;将每个类ci视为一种成群飞行的萤火虫。步骤2：读取包含选定特征的训练集及其每个类的类标签。步骤3：将训练集转换为包含萤火虫f1，f2，f3，. . 其中，（ntri）是类ci中的训练样本的数量。步骤4：将样本向量中的每个值视为萤火虫的位置第五步：对每个类分别应用萤火虫算法，用不同的适应度函数来表示不同样本的强度步骤6：为每个类选择萤火虫类表示器（最佳样本）fbestci，其将使用萤火虫算法表示类ci，其中I = {1，2，. j}。上午1178时Mashhour等人 /沙特国王大学学报-计算机与信息科学32（2020）1173- 1181表1计算未见过样本/萤火虫的相似性距离度量的示例。计算距离萤火虫1班主持人fbest1dk，1萤火虫2级主持人fbest2dk，2萤火虫第三班主持人fbest3dk，3表2用于计算用于检测看不见的萤火虫/样品的相关类别的D计算强度萤火虫一班主持人f1d1萤火虫2班主持人f2d2萤火虫3级主持人f3d3在每一个班级的强度。最小差值D值表示未见过样本的类别。假设D2是计算的差异的最小值，意味着tk属于类别2。这个过程将继续为所有看不见的萤火虫tk，直到每个萤火虫到达正确的萤火虫群4.3.3. 基于平均强度的萤火虫分类（FF_AInte）如上所示，所提出的算法将每个群视为具有其自己的强度和距离值的单个类。每个类别中的萤火虫根据它们的强度排序，因此平均强度从每个类别中低于类别表示器的最佳萤火虫的指定数量计算，以基于平均强度而不是强度充当新的类别表示器。对每个类重复该过程，以重新计算不同类的类表示者。Δ1未知样本tkΔ2平均平均Δ3c类1c类2平均空间AC3级见图6。根据每个类别的平均强度分配看不见的萤火虫/样本。表3计算看不见的萤火虫强度和平均强度之间的最小差异的示例。假设测试样本tk随机飞行，三个不同的-当萤火虫在空间A中飞行时，目标是将每个看不见的样本tk分配到其类别ci。图6示出了将每个不可见样本分配到其适当类别的机制。如图6所示，分别计算每个类别的平均强度（AvgI），计算看不见的萤火虫的强度。然后计算tk的强度与AvgIi之间的差，其中i=（1，2，.. j）时，将测试萤火虫tk分类为其平均强度与测试萤火虫强度相差最小的萤火虫类。如表3所示，在计算了类别的平均强度和看不见的萤火虫的强度之间的差异之后。确定了不同类别萤火虫测试强度与平均强度的最小差值，确定了该测试样本的类别。例如，如表3所示，将测试萤火虫强度tIk与AvgI1、AvgI2和AvgI3进行比较，假设最小差值为（D3），则意味着看不见的萤火虫tk属于类别3。伪代码2表示模型使用\预测阶段。在此阶段，将看不见的萤火虫\测试样本进行分类。伪码2表示基于距离的分类方法（FF_Dist）的模型预测阶段，该方法是上述三种不同方法中最有前途的方法，如将在“实验和结果”部分中看到的。在对不同的测试萤火虫进行分类之后，计算分类准确度，如果分类准确度不可接受，则将使用其他选定的特征组合重复该过程，否则模型准备好用于预测看不见的数据。平均班级演讲者强度平均值之间的差异强度和tIk强度1级平均强度AvgI1D1= tIk2级平均强度AvgI2D2= tIk3级平均强度AvgI3D3= tIk输入：● j萤火虫类演示者代表j类● 测试样本（由选定特征表示）输出：测试样品/萤火虫t nte分配给其相对类c i.，计算分类精度模型使用/预测阶段第一步：将每个测试样本视为一只看不见的萤火虫t1，t2，t3，.. . 在太空中飞行步骤2：将未见过的样本向量中的每个值视为萤火虫的位置步骤3：使用每个测试萤火虫和j个类呈现者之间的欧几里得距离计算距离，其中计算j个不同的距离第四步：找出测试样本和不同课堂演示者之间的最小空间距离步骤5：将测试样本的类设置为距离最小的类空间A未知样本tkΔI3ΔI2C3级ΔI1萤火虫3级介绍者f3（高强度）C1级萤火虫一级主持人f1（强度更高）C2级萤火虫2级介绍者f2（高强度）图五、计算看不见的萤火虫的强度和萤火虫类演示者的强度之间的D强度E.M. Mashhour等人 /沙特国王大学学报-计算机与信息科学32（2020）1173-11811179表4实验中使用的不同数据集伪代码2：模型使用/预测阶段，负责根据距离对测试样本进行分类。5. 实验及结果本节显示了所提出的算法的实证结果。Matlab® 2015 a软件，基于英特尔酷睿TMi5-2400 CPU @采用3.10 GHZ和4 GB RAM计算机实现。所提出的算法已经使用不同的数据集进行了测试。这些数据集的描述见表4。肺、肝炎和皮肤病数据集已从加州大学欧文分校（UCI）机器学习库获得（Bache和Lichman ， 2002 ）。前列腺微阵列数据集已从 ncbi 网站（www.ncbi.nlm.nih.gov/geo）获得。白血病1、DLBCL和SRBCT微阵列癌症数据集已从GEMS 网站（www.gems-system.org ）获得。原始使用的数据集被随机分为75%用于训练，25%用于测试。在不同的数据集上进行了广泛的实验研究，以便用适当的值调整参数，以取得最佳结果。表5说明了所用的最佳参数分别采用了基于距离的分类、基于强度的分类和基于平均强度的分类三种不同的预测使用方法。表6显示了对所使用的七个数据集应用的三种不同方法之间的比较。如表6所示，三种不同方法的结果均可接受。然而，应用最有前途的方法是基于距离的分类，其中它实现了更高的分类精度的所有数据集。因此，将在重点研究了基于距离的分类方法，实验结果证明了该方法对不同类别数的数据集的分类效果。表7说明了分类结果以及用于模拟强度的适应度函数。通过应用不同的适应度函数，发现Rosenbrock，Ackley和Sphere是模拟萤火虫强度的最佳适应度函数。其中rosenbrock函数是模拟强度的最佳函数。如表7所示，使用萤火虫距离应用分类，实验结果表明萤火虫算法是一种有前途的机器学习分类器，可用于对不同数据集进行分类。皮肤病学数据集使用10个选定的特征实现了90%的分类准确率，强度由rosenbrock适应度函数模拟，而对于肺数据集，使用rosenbrock和sphere函数的5个特征实现了80%的分类准确率。使用rosenbrock和sphere的3个特征，肝炎数据集的准确率达到82%。对于微阵列数据集，用Rosenbrock函数和Ackley函数模拟强度的5个特征，SRBCT的分类率达到90%而前列腺使用2个特征通过rosenbrock函数实现了90%的分类准确度，对于DLBCL，使用2个特征使用Ackley函数实现了90%的分类准确度，最后白血病1使用2个特征使用rosenbrock函数实现了83%的分类准确度。在机器学习问题中，提取或选择最佳特征在改进分类方面具有重要作用。为了研究特征选择对分类的重要性，不同的表7使用看不见的萤火虫和萤火虫类表示器之间的距离对不同数据集进行分类的准确性。更多的细节和额外的实验将应用于该方法。所选要素的数据集编号使用（FF_Dist）的健身功能（强度）表5分类器算法中使用的参数值。皮肤科10 90%罗森布罗克肺5 80%罗森布罗克/参数最佳价值（推荐）肝炎3百分之八十二球体罗森布罗克/萤火虫强度函数罗森布罗克，球体，阿克利球体萤火虫位置每个样本SRBCT5百分之九十罗森布罗克/C一、二艾克利B一、二前列2百分之九十Rosenbrock一0.1，0.5DLBCL2百分之九十艾克利迭代次数一百五十，二百五十，三百白血病12百分之八十三Rosenbrock表6不同数据集使用不同方法的分类精度数据集特征数量使用（FF_Dist）的分类精度特征数量使用（FF_Inte）的分类精度特征数量使用（FF_AInte）的分类精度皮肤科10百分之九十9百分之八十二9百分之七十七肺5百分之八十5百分之八十5百分之五十肝炎3百分之八十二4百分之七十九3百分之八十二SRBCT5百分之九十2百分之八十5百分之七十前列2百分之九十2百分之八十2百分之八十DLBCL2百分之九十2百分之七十五2百分之七十五白血病12百分之八十三2百分之七十二2百分之七十二数据集数据集类型课程数#功能样品肺医疗数据集35632肝炎医疗数据集二进制类19155皮肤科医疗数据集635366前列微阵列2781540白血病1微阵列3532772DLBCL微阵列2546977小圆蓝细胞瘤（SRBCT）微阵列4230883上午11时80分Mashhour等人 /沙特国王大学学报-计算机与信息科学32（2020）1173- 1181在没有特征选择的情况下对数据集进行分类。表8示出了在特征选择之前\之后应用基于距离的分类准确度（FF_Dist）的结果。结果表明，特征选择是一个重要的表10ANT-MINER和FF_DIST数据集蚂蚁挖掘与修剪无修剪蚂蚁挖掘机萤火虫分级机分类阶段，其中数据集受到噪声和不相关数据的影响因此，由于维数和噪声数据，没有特征选择的结果很差，而在另一方面，特征选择，准确性得到了提高。为了分析所提出的基于距离的分类器的性能。分别为每个数据集构建混淆矩阵。它分析了分类器在许多数据集上的准确性，其中真实值是已知的。通过混淆矩阵来澄清分类模型所产生的错误。显示模型做出的预测，其中行表示已知的数据类别，列表示模型做出的预测。矩阵的对角线元素是每个类别的正确分类数，对角线的下方和上方显示错误分类（Joshi，2002）。Sensitivity¼TP= ΔTPΔFNΔ4Ω专属性质量标准TN= ≤TN≤FP≤5μ阳性预测值=PPV/TP=PPV/FP=6准确度=准确度表9显示了所提出的分类器在不同医学和微阵列数据集上的性能。它是计算每个数据集的混淆矩阵的结果混淆矩阵是基于所提出的分类器为每个数据集检测到的正确预测而构建的。等式（4）PPV展示了分类器如何成功地预测与所有阳性样本相关的不同类别的所有真实样本如表9所示，在肺、肝炎、SRBCT、前列腺和DLBCL中的阳性检出率非常高。其中，分类器的灵敏度显示了相对于应与该类别相关的所有样本检测到阳性样本的百分比最后，特异性度量显示分类器如何能够将阴性样本或与类别不相关的样本分类为真正的非相关样本。表8特征选择之前\之后的分类。数据集特征选择前的分类精度特征选择后的分类精度皮肤科百分之七十五百分之九十肺百分之五十百分之八十肝炎百分之二十五百分之八十二SRBCT百分之七十百分之九十前列百分之七十百分之九十DLBCL百分之六十百分之九十白血病1百分之七十五百分之八十三皮肤科94% 83% 90%肝炎90% 92% 82%如第2节所述，蚂蚁挖掘算法被认为是基于群智能算法的第一个分类器。在蚂蚁采矿机中（Parpinelli等人，2002年），研究人员使用6个数据集评估了他们的工作，这些数据集具有不同数量的样本，类别和特征。在（Parpinelli等人，（2002年）我们的研究是皮肤病学和肝炎。在他们的工作中，结果显示在两种方法上，没有修剪不需要的规则，和修剪。表10中所示的比较显示了我们的分类器和蚂蚁矿工分类器在这些数据集的分类准确性方面的性能。如表10所示，蚂蚁挖掘机采用修剪的方法优于萤火虫。然而，建议萤火虫分类优于蚂蚁矿工没有修剪方法在皮肤科。关于我们的实验，我们在包含大量样本的较大数据集上运行所提出的分类器。它被称为Statlog“澳大利亚信贷批准”数据集。该数据集来自加州大学欧文分校（UCI）机器学习库（Bache和Lichman，2002）。此数据集涉及客户数量的信用卡申请。它包含690个样本，14个特征，它包含两个类。我们的基于距离的快速分类器对未知样本的分类准确率达到85%。6. 讨论和结果分析在这项研究中，萤火虫分类器提出了分类不同类型的数据集。所提出的分类器的目标是发现每个看不见的萤火虫或测试样本的相关类。新的分类器通过从训练数据集中提取类表示样本，为分类引入了一个新的方向。类表示器被认为是萤火虫/样本，其具有向分类器提供其类的特性/特征的优点。这些类演示者可以用来衡量类和测试萤火虫之间的关系。萤火虫通过强度和距离相互作用。这两个参数被认为是相互作用的重要因素。如前所述的强度是通过一组健身功能来模拟的，这些功能都是用七个公共数据集进行测试的。最好的测试适应度函数是Rosenbrock，Ackley和Sphere。这些适应度函数证明了它们在模拟强度方面的性能，并有助于收敛到最优解。通过比较萤火虫分类器和蚂蚁挖掘器，萤火虫分类器的性能优于蚂蚁挖掘器的版本没有修剪皮肤病学数据集。如果蚂蚁矿工修剪，萤火虫表9在不同的数据集上评估所提出的分类器的性能数据集PPV灵敏度专属性（质量标准）总体准确度（Acc）皮肤科0.780.80.97百分之九十肺0.80.80.91百分之八十肝炎0.90.560.56百分之八十二SRBCT0.90.90.94百分之九十前列0.910.910.9百分之九十DLBCL0.8750.9250.928百分之九十白血病10.760.70.876百分之八十三E.M. Mashhour等人 /沙特国王大学学报-计算机与信息科学32（2020）1173-11811181分类器的分类准确率比蚂蚁挖掘器低一小部分。在蚂蚁挖掘器中，规则修剪因数据集的不同而不同，如表10所示，分类率在肝炎等数据集中可能会降低，而在皮肤病学中可能会超过。由于规则剪枝算法能够对覆盖较少案例的所有规则进行剪枝，因此具有规则剪枝功能的蚂蚁挖掘算法被认为是蚂蚁挖掘算法的最佳版本。这个问题将通过蚂蚁挖掘算法来解决，因为任何数据集都需要在有和没有修剪的情况下进行测试，这会导致更多的计算时间处理。蚂蚁挖掘依赖于使用熵函数来度量规则或数据的质量。蚂蚁矿工必须扫描所有特征，以形成可能覆盖大量样本的规则。萤火虫分类器使用包含信息值的样本（类表示者）来表示类，算法复杂度为O（N2）。7. 结论和今后的工作基于萤火虫算法的分类方法成功地将测试样本分配到相应的类中。基于萤火虫距离、萤火虫强度和平均强度实现分类过程。基于距离的分类是获得较高分类精度的最佳方法。然而，我们认为数据集的结构和值会影响分类，因此在其他数据集中，其他方法可能会成功。所获得的结果是令人鼓舞的考虑sider萤火虫算法作为一个有前途的分类工具，不同的数据集。它是一个与著名的分类器ant-miner竞争的分类器，因为它需要较短的处理时间，因为它使用了来自大型数据集的解决方案的小子集。选择和调整参数是获得和细化分类结果的重要步骤，利用不同的适应度函数来模拟萤火虫强度是我们分类过程的主要关键。测试用于模拟萤火虫强度的不同适应度函数提供了在搜索最优解时监视每个适应度函数的性能的机会。Rosenbrock、Sphere和Ackley是模拟强度的最佳适应度函数，它们都收敛到全局最优解。有趣的是，所提出的分类器在不同类型的数据集上证明了其成功，例如SRBCT，DLBCL，白血病1和前列腺作为微阵列数据集，这些类型的数据集遭受可能影响分类过程的高噪声。此外，该分类器在其他医学数据集（如肝炎、肺和皮肤病）上也取得了成功。建议未来的工作，所提出的算法可用于分类医学图像数据集，选择具有较高强度的图像，可能包含有关疾病的信息，并利用此图像作为这种类型的疾病的演示者。另一个研究领域是分析以秒为单位的闪烁强度的韵律。不同的押韵表达不同的萤火虫，考虑萤火虫押韵闪光作为萤火虫算法的新参数，包括位置、强度和吸引力。引用阿卜杜勒·哈桑，A.，Fadhil，D.，2018年基于萤火虫算法的三维球体动态&部分已知环境下移动机器人路径规划方法。JUBPAS26（7），309-320。Ali ， Nadhirah ， Othman ， Mohd Azlishah ， Husain ， Mohd Nor ， Misran ，MohamadHarris ， 2014. firefly 算法综述。 ARPN J. Eng. Appl. Sci. 9 （ 10 ） .ISSN1819-6608。Amsaveni，A.，Arunkumar，C.，2015.一种基于萤火虫算法的空间域数据隐藏方案。第二届电子与通信系统国际会议（ICECS）美国电气与电子工程师协会。Bache，K.，Lichman，M.，2002. UCI机器学习库。加州大学欧文分校信息与计算机科学学院。王斌，李东旭，江建平，廖义欢，2016。一种改进的基于光强差的萤火虫算法。J. Comb.Optim. 31（3），1045- 1060.Chen，K.例如，2016.基于改进萤火虫算法的多

下载后可阅读完整内容，剩余1页未读，立即下载