基于标准差的人工蜂群算法在特征选择中的应用

183 浏览量更新于2024-01-27 收藏 1.01MB PDF 举报

人工蜂群算法

特征选择

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一种新的基于标准差的人工蜂群算法及其在特征选择卡泽姆·汉巴伊Inonu大学软件工程系，Malatya，土耳其阿提奇莱因福奥文章历史记录：2021年2月10日收到2021年4月23日修订2021年4月25日接受2021年5月4日网上发售保留字：人工蜂群优化香农熵特征选择A B S T R A C T特征选择是模式识别和分类的一项基本任务它通过去除冗余特征来提高分类算法的性能由于消除了不相关的功能，计算时间减少。因此，已经进行了密集的工作，在这个领域。针对特征选择问题，提出了一种新的基于标准误差的人工蜂群算法（SEABC），该算法将基于标准误差的新解搜索机制引入到原有的人工蜂群算法中特征选择采用SEABC算法采用Shannon熵函数作为SEABC算法的目标函数。13个数据集来自UCI机器学习数据集。根据Shannon条件熵值选择特征，然后实施阈值处理以找到它们的最佳相关子集。支持向量机（SVM）和k-最近邻（KNN）被用作最佳分类器。将SEABC算法与遗传算法（GA）、粒子群优化算法（PSO）、ABC、改进ABC（I-ABC）、Gbest-guided ABC（GABC）和PS-ABC算法进行了比较在一般情况下，它是观察到的SEABC算法实现更好的分类结果比其他知名的算法。©2021作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍近年来，由于大量的数据，已经构建了大型数据库具有大量特征（属性）的传统数据集可能降低分类器模型的学习速度以及降低分类器的准确性这些问题的一个强有力的解决方案是通过在任何进一步的处理之前去除那些不相关的特征来减少数据集的特征选择能够在大型数据集中找到相关特征和模式，并且已经广泛用于若干应用中，诸如医疗数据处理（Cong等人，2016年; Yan等人，2012）、文本识别（ Shima 等人， 2004;Tutkan 等人， 2016 ）和计算机辅助诊断（CAD）（Cheng等人，2003年）。在特征选择过程之后，数据集具有较低的计算复杂度，同时保留其包容性沙特国王大学负责同行审查特色此外，特征选择还有许多显著的优点：避免模型的过拟合，减少存储需求，促进数据理解，减少分类器训练时间。由于这些优点，已经开发了各种特征选择方法。这些方法通常被分类为过滤器（独立于分类器），包装器（依赖于分类器）和混合（依赖于分类器）方法（Zare和Niazi，2016）。如果使用分类算法来测试所选特征，则开发的特征选择方法被称为包装方法（Zorarpac和Özel，2016）。另一方面，过滤方法不使用任何分类算法。混合方法使用统计准则和分类算法来测试所选择的特征子集，结合过滤器方法和包装器方法的优点。在特征选择应用中，过滤器方法执行统计测量以找到最优特征集而不使用任何分类器模型。合适的性能标准用于对特征进行排序。最后，应用阈值处理来寻找最佳特征子集。一般来说，过滤器的速度很快。因此，滤波器方法可以用于减少高维特征空间。一些著名的过滤方法是特征选择https://doi.org/10.1016/j.jksuci.2021.04.0101319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com卡泽姆·汉巴伊沙特国王大学学报4555基于互信息（Lewis，1992; Wei等人， 2014）、最小冗余和最大相关性（Peng et al.， 2005），相互作用帽（Jakulin，2005）和相关特征（Relief）（Kira和Rendell，1992）。另一种过滤器方法，FOCUS（Almuallim和Dietterich，1994）在最佳时间获得相关特征的最小子集。首先，FOCUS只从单个特征开始，而不是评估所有特征。然后，将其他特征分别添加到特征子集当获得相关特征向量时，该过程结束滤波方法可以分为单变量滤波方法和多变量滤波方法。在第一组中，根据适当的性能标准独立测量每个特征。在文献中已经开发了许多单变量方法，包括增益比（Mitchell，1997）、基尼指数（Raileanu和Stocolate，2004）、项方差（TV）（He等人，2005）、拉普拉斯评分（L-Score）（He等人，2005）、Fisher评分（F-Score）（Gu等人，2011）和对称不确定性（Biesiada和Duch，2007）。单变量方法具有计算复杂度低和特征选择速度快的特点，适用于高维数据库分析。在多变量方法中，通过考虑特征的依赖性来评估特征的相关性。在许多现有的多变量方法中，相关冗余特征选择（ Ferreira 和 Figueiredo ，2012）、GNCC（ Moradi和Rostami，2015）、随机子空间方法（RSM）（Lai等人，2006）、核偏最小二乘（Sun等人，2014）和相互关联（Haindl等人，2006）是流行的多变量特征选择方法。在包装器方法中，相关特征选择算法被用作归纳算法的包装器（Kohavi和John，1997）。该算法使用归纳算法和学习机对相关特征子集进行搜索。归纳算法使用各种学习算法和嵌套假设来评估所选择的特征。根据搜索过程的执行方式，基于包装器的方法分为顺序搜索方法和随机搜索方法。在序贯搜索方法中，已有许多研究。在这些方法中，通过鲁棒分类器模型执行搜索过程（ Kohavi 和 John ， 1997;MonirulKabir 等人，2010; Xiong等人， 2001 年）。 Bermejo 等人（Bermejo例如，2012）开发了一种新的基于包装器的方法，这取决于过滤器排名和包装器搜索的复杂性。主要目标是减少包装程序的数量，同时实现高分类率。另一种混合包装器方法将差分进化（DE）算法和k最近邻（kNN）分类器两者结合用于特征选择（Martinov等人，2014年）。所提出的方法实现了59%和98%之间变化的分类准确率。虽然包装方法比过滤方法获得更好的性能，但它们具有更高的计算复杂度。包装器方法需要穷举搜索，特别是当特征数量太大时。近年来，基于局部搜索的算法得到了成功的应用具有许多特征选择问题（Al-Betar等人，2020年）。随机性作为一种有效的搜索策略，在全局搜索中发挥了重要作用.通过这种方式，预计将探索大部分特征空间。由于这种元启发式搜索策略，与更相似的特征相比，可以以更高的概率选择不相似的特征（Moradi和Gholampour，2016）。最近，元启发式方法已经开发出来。这些方法包括粒子群优化（PSO）（Karaboga，2005; Kennedy和Eberhart，1997; Moradi和Gholampour ， 2016 ），遗传算法（ GA ）（ Chu 等人，2012;Pedergnana等人，2013; Rostami和Moradi，2014）、蚁群优化（ACO ）（Aghdam 等人， 2009; Tabakhi等人， 2014;Tabakhi 和Moradi，2015）、人工蜂群算法（ABC）（Hancer等人，2015;Moayedikia等人， 2015年：穆罕默迪和Abadeh，2014 ）、动态salp 群算法（Tubishat 等人， 2021 ）和Dragonfly算法（Hammouri等人，2020年）。比较计算复杂度时，Meta-启发式方法优于顺序搜索方法.由于随机搜索原理，粒子群优化算法、GA、ABC和ACO在特征选择问题中的应用已经取得了期望的结果（Nguyen等人，2020年）。此外，动态salp群和搜索算法可以达到最好的分类精度的特征选择问题，由于由于一些优点，如简单和灵活性。最近，一种称为JAYA的有效元启发式算法已用于特征选择应用（Awadallah等人，2020年b）。JAYA算法使用正弦传递函数和自适应突变率参数来控制搜索过程中的分集。因此，它执行有效的探索过程，以找到数据集上的最佳特征。混合方法是包装器和过滤器方法的组合。它们受益于包装器和过滤器方法的优势。在混合方法中，利用至少两种方法来提高每种方法的性能。最近，已经开发了基于GA，ABC和ACO的各种混合方法用于特征选择：例如，Zorarpaci和Ozel开发了一种有效的特征选择方法，该方法将差分进化（DE）算法与ABC优化技术相结合（Zorarpaci和Ozel，2016）。（Chu等人，2012）和Pedergnana（Pedergnana等人，2013）提出了一种基于支持向量机（SVM）和遗传算法的算法。Lei（Lei，2012）提出了基于遗传算法的信息增益作为文本分类的特征选择方法。Chin（Tang Weng Chin，2007）开发了一种使用GA和禁忌搜索算法的特征选择方法。另一种新的混合方法结合了ACO和GA算法以获得最佳特征（Basiri和Nemati，2009）。Brahim和Limam（Ben Brahim和Limam，2016）实现了一个基于协作子集搜索和实例学习的鲁棒模型。他们使用合作的子集搜索和分类器算法来构建包装器的评估系统。Oh等人（Oh等人，2004）提出了一种包括随机搜索过程和遗传算法的混合方法。Wan等人（Wan等人，2016）通过使用改进的二进制编码的蚁群优化算法（MBACO）和GA开发了一种有效的特征选择方法。他们使用了新的信息素和可见度密度模型。在该方法中，SVM被用作最佳分类器。作为提到以上，进化计算（欧共体）这些方法已经被广泛地用作传统顺序搜索的有力选择。特别地，当与现有技术的EC方法相比时，由于以下优点，ABC算法可以用于解决不相关的特征问题（Hancer等人， 2015）：（1）ABC算法比粒子群优化算法更有效，（2）它更快地收敛到最优目标点，（3）它通常比其他EC方法具有更低的计算复杂度，（4）在某些情况下，与其他EC方法相比，它具有更强的开发能力。此外，在ABC算法的初始阶段，启发式搜索信息是非常重要的，这影响了它对期望最优目标的效率。虽然ABC变体已经被证明是用于获得相关特征子集的有效算法现有的基于ABC的特征选择方法通常使用随机性作为新的解搜索策略（Rostami等人，2021;Wang等人，2020; Zhang等人，2019年）的报告。随机搜索策略是探索解决方案空间的大部分。通过使用较少的随机信息，可以增强ABC算法的启发式搜索策略对基于ABC的综合研究的需求尚未结束（Hancer等人， 2015年）。因此，应开展进一步的研究，卡泽姆·汉巴伊沙特国王大学学报4556×.Σ¼···ð ¼Þ···吉吉强大的ABC算法，用于主要特征选择。为了实现这一目标，我们提出了一种改进的人工蜂群优化算法的统计措施的基础上，更重要的是，特征选择偏差的问题进行了研究和测试与ABC算法。提出了一种新的ABC算法来解决数值函数优化和特征选择问题。这种新算法与以前的工作有关（Hanbay，2017）。在以前的工作中，标准的基于错误的ABC（SEABC）算法作为一个抽象的会议论文。此外，SEABC算法仅在数值函数优化上进行评估。根据会议研究的建议和意见，对算法的新的解搜索机制和参数分析进行了改进本文详细介绍了SEABC算法的主要步骤为了评估所提出的SEABC算法，广泛的特征选择实验进行流行的数据集。减少随机步长的人工蜂群算法通过改进ABC算法的邻近食物源发现机制，提出了SEABC算法。 SEABC算法采用标准误差公式来生成候选解，而不是纯随机的候选解搜索。因此，提出了一个标准的基于误差的搜索方程，以在所使用的蜜蜂阶段和蜜蜂阶段产生解决方案（Hanbay，2017）。标准误差提供了一个置信区间，可以迭代更新的变化，并找到最优的候选解决方案，在算法的执行。基于标准误差的搜索机制可以提高收敛速度，因为标准误差在每次迭代中最小化解搜索空间的间隔。第二个是一维香农条件熵的使用（Ma等人，2011年;香农，1948年）。采用一维Shannon条件熵函数作为SEABC算法的目标函数。特征根据它们的目标函数值进行排名，并且实现阈值过程以找到它们的最佳相关子集。第三个目标是在特征子集大小和分类性能方面对一些著名的特征选择算法进行高维特征空间导致大量无用的计算和较低的分类性能。特征选择过程提供了对大数据集群的更好理解。此外，这个过程是一个有效的数据挖掘过程，它是能够找到有意义的信息。高维特征向量可能导致学习模型的过拟合这种情况降低了学习模型的泛化能力考虑到今天处理和存储的数据量，将理解特征选择方法的基本动机从这些点上，所提出的SEABC算法的开发和比较不同的方法，包括遗传算法（荷兰，2012年），二进制PSO（肯尼迪和Eberhart，1997年），原始ABC（D。Karaboga，2005）、GABC（Zhu和Kwong，2010）、I-ABC（Li等人，2012）和PS-ABC（Li等人，2012）算法。本文件的结构安排如下。第2节描述了原始的ABC算法。第三介绍了提出的新ABC算法（SEABC），并解释了如何使用SEABC算法和香农熵进行特征选择。第4节是实验结果和讨论。最后，结论见第5。2. ABC算法菌落环境和搜索空间中的每个点与潜在的食物源相匹配。每种食物来源含有不同数量的花蜜，这些花蜜代表了食物来源的适合度值。ABC算法与三种蜜蜂一起工作，这三种蜜蜂是旁观者、受雇者和侦察者蜜蜂（Karaboga，2005;Yan等人，2012年）。在该算法中，食物源仅为被雇用的蜜蜂设计。被雇佣的蜜蜂计算花蜜的数量。该群体具有相同数量的已雇用的和可繁殖的人工蜂。受雇蜜蜂负责收集所需的质量信息，并将其传递给分包蜜蜂。因此，蜜蜂将被引导到花蜜量丰富的食物来源。这些程序继续进行，直到达到极限值。在文献中，许多ABC算法已被开发用于各种应用（Brajevic和Stanimirovic，201 8）。为了解决全局优化问题，已经开发了许多改进的ABC变体（Chu等人，2020年）。例如，已经开发了两种新的多标准和组合ABC算法来生成测试用例（Sahin等人，2021年）。这些算法最大限度地提高覆盖标准，它们提高了蜜蜂种群的密集度和多样性。为了解决单目标优化问题，已经开发了一种基于萤火虫算法和多策略ABC算法的混合算法（Brajevic等人，2020年）。萤火虫算法采用随机吸引模型，具有全局搜索能力。因此，ABC算法具有局部和全局优化的能力.为了解决收敛速度慢的问题，已经提出了一种具有局部和全局信息交互的高效ABC算法（Lin例如，2018年）。在该算法中，蜜蜂是合作的和有方向的。有一个本地信息交互模型，该模型允许共享一些好的解决方案的有用信息。Awadallah等人基于岛模型概念开发了一种新的ABC算法（Awadallah等人，2020年a）。他们使用结构化种群概念来提高ABC算法的多样化能力。为了规划机器人路径，开发了全局最佳领先人工蜂群算法（GLABC）（Xu等人，2020年）。为了更好地精确搜索蜜蜂的能力，增强了ABC的新解搜索方程（Awadallah等人，2019年）的报告。这些新的ABC变体提高了原始ABC算法的性能。ABC算法由五个主要阶段组成：步骤1. ：生成初始食物源SN其中SN是食物来源的大小。群体大小NP为2SN（SN只被雇用的蜜蜂+SN只蜜蜂）。食物来源是在变量的上限和下限范围内产生的。在初始化阶段中，食物源位置由方程产生。（1）：xij¼xmin;j=0; 1xmax;j-xmin;j= 1xmin其中，j^l; 2;···;D;xmax;j和xmin;j是维度j的上限和下限。受雇或工作的蜜蜂数量由SN定义。每一个解xi i1; 2; ;SN是D维向量，其中D表示优化参数的数目.在初始化阶段之后，食物源的种群经受被雇佣的蜜蜂、觅食蜂和侦察蜂的解搜索过程的重复循环C1; 2;MCNMCN是最大迭代次数。步骤2. 食物来源的适合度值（即花蜜量）评估：通过使用等式（1）计算每种食物来源的食物来源质量。（二）：ABC算法是一种群智能算法，它的灵感来自于蜜蜂群体的行为，适合度11f;如果fi≥01absfi;则为ð2Þ各种问题的最佳解决方案（D. Karaboga，2005）。ABC算法的搜索空间被表示为蜜蜂其中fiti是第i个食物源的适合度，fiti是特定目标函数值。（卡泽姆·汉巴伊沙特国王大学学报4557.Σ半-]我SN拟合k¼1步骤3. 被雇佣的蜜蜂过程：在初始化和适应度计算之后，被雇佣的蜜蜂被送到食物源，以获得具有更丰富花蜜的新食物源。所有被雇用的蜜蜂更新它们有关食物来源的新的食物来源位置v ij的生成如下：国际新闻报 1/4xij/ij xij-xkj3其中k2 f1; 2;：;SNg和j2 f1; 2;：;Dg是随机确定的指数值。这里，Iij是在1/2-1;1]范围内的均匀随机数。Xij和Xkj分别是参考食物源和随机确定的食物源在维度j中的位置活泼地在确定v ij之后，通过使用当量（二）、当新的食物源的适合度高于旧的食物源时，新的食物源位置被受雇的蜜蜂储存。步骤4. 旁观者蜜蜂过程：在从步骤3计算所有食物源的适应度值之后，每个旁观者蜜蜂根据适应度值选择食物源。在这种选择机制中，适合度高的食物源比其他食物源具有更高的概率（D.Karaboga，2005）。概率计算如下：采用端口向量机（SVM）对所选特征向量进行3.2. 一种新的人工蜂群算法大多数的元启发式算法（包括原始的ABC）依赖于随机性来搜索解空间。虽然随机性可能为算法提供搜索解空间的自由度，但这种情况可能会降低搜索的利用和探索特别是在原始ABC算法中，新的食物源在搜索方向上随机获得，因为Iij是范围1; 1中的均匀随机数。从等式（3）中，我们看到使用随机和无向搜索过程来找到新的候选解。这种随机策略导致未被发现的空间部分。换句话说，原始ABC算法具有良好的探索能力水平，同时对于某些问题具有较弱的开发能力（Kang et al.，2011年）。此外，这种随机性增加了收敛到最优的计算时间。提出了一种新的改进ABC算法，以提高ABC算法的开发能力开发过程是通过在p¼P拟合iKð4Þ通过标准误差提供的安全统计区域。的一种新的算法被称为标准的基于误差的ABC（SEABC）算法。其中fiti是第i个食物源的适合度值计算后对于概率值Pi，为每个食物源产生一个在0和1之间的随机数。如果蜜蜂找到食物源的概率高于这个随机数，当前食物源被分配给蜜蜂用于搜索-利用过程。然后蜜蜂发现了指定的食物来源。新的解决方案在被雇用的蜜蜂阶段被评估。步骤5. 侦察蜂过程：在ABC算法中，侦察蜂的出现取决于试验计数器和食物来源的限制（即，解决方案）。如果食物源的试验计数器的值超过最大限制，则食物源被其雇用的蜜蜂放弃。然后，被雇佣的蜜蜂变成了侦察蜂。侦察蜂进行搜索以寻找新的食物来源。3. 所提出的方法在本节中，SEABC算法是对原始ABC算法的增强然后，SEABC用于特征选择问题。为了给出一个更容易理解的解释，本节由两个小节组成。第3.1节包括特征选择过程的理论解释和示意图表示。第3.2介绍了所提出的基于人工蜂群算法的统计特征的基本特征。3.1. 拟议办法图1示出了使用所提出的ABC算法并从所有特征数据库中找到相关特征的示意性过程。如图1所示，特征选择问题包括两个主要步骤：使用SEABC算法计算香农熵值和基于均值选择（MS）策略的相关特征选择策略。为此目的，利用来自UCI机器学习存储库（Bache和Lichman，2013）的13个不同数据集来评估SEABC算法。在完成数据集选择步骤之后，使用所提出的SEABC算法来选择最重要的特征。采用Shannon熵函数作为目标函数，将标准误差方法应用于ABC算法的思想是一个新颖的主题，即，没有关于标准的基于误差的ABC算法的研究。SEABC算法在寻找蜜蜂新的食物源位置时考虑了新的观点。新的食物源位置的形成使算法适用于特征选择和数值函数优化问题。通过改进原始ABC算法（Hanbay，2017）的邻近食物源发现机制，提出了基于统计度量的SEABC算法。从统计学的角度来看，由于随机初始化阶段，初始食物来源之间没有很强的相关性。被雇佣的蜜蜂更难找到更好的食物来源。被雇佣的蜜蜂的表现也对蜜蜂有负面影响，因为被雇佣的蜜蜂给蜜蜂提供了自食源位置。由于随机食物搜索机制，旧解决方案可能优于新候选解决方案。相关性差增加了这种可能性。许多优化算法试图在食物源之间构建一个和谐。当食物来源之间的相关性增加时，算法的行为也变得更加稳定。通过引入统计食物源搜索方程，增加了食物源之间的相关性，使食物源的协调性更适合于工蜂和工蜂。上面讨论的信息表明，考虑开发一种新的基于转换的食物源位置的解搜索过程的想法。因此，提出了一种新的食物源搜索程序，以增加初始食物源之间的相关性。所提出的程序适用于就业阶段和蜜蜂阶段。SEABC算法与其他ABC算法的根本区别在于如何进行候选解的求解过程。大多数ABC算法包含随机项。为了减少算法中的随机性，代替使用一个随机项，可以使用标准误差信息来产生新的可行解在搜索空间中的位置。SEABC的解搜索过程由以下等式执行：rx k选择特征向量。产生最高熵值的特征向量被用作最佳相关特征向量。什么...vij¼pDð5Þ卡泽姆·汉巴伊沙特国王大学学报45582fgD-1Fig. 1. SEABC算法的框架。其中vij 是新的食物来源。 i;k2f1;2;：;S Ng和j 1; 2;：;D 是随机确定的索引值。 SN是食物来源的大小。D显示优化参数的数量。k表示邻近食物源指数（xk）。它的结论是，Eq。（5）计算相邻食物源的标准误差。它也对应于平均值的抽样分布的标准差。因此，Eq. （5）包括一个统计项rx k。该项计算从相邻食物源（x k）到食物源末端（x k-末端）的标准偏差。之后，通过将标准差除以优化参数数D的平方根来计算标准误差（McHugh，2008）。当量（6）建立了标准偏差的数学模型。vuPD2nn平均其中xn是相邻食物源，并且xnmean是初始相邻食物源位置和跟随相同位置的食物源之间的食物源的平均值。所提出的搜索方程的目标是从整个食物源中确定一个可行的食物源呈现位置。在同时使用全球和本地食物来源时，我们需要尽可能减少搜索等式中的随机项的数量。Eq.中的标准偏差（6）虽然效果不明显，但对SEABC算法的搜索能力有重要影响。在实验过程中，观察到每个解决方案的标准误差项产生较少的随机性在新的解决方案搜索过程的第一次迭代中。方程的优化项D。（6）也有助于更好地收敛到最优解。所提出的SEABC算法使用类似的方法，算法的初始化阶段。它随机产生亲-rxkutn<$kð6Þ减少食物来源的位置。在初始化过程之后，源经受所使用的重复搜索循环，卡泽姆·汉巴伊沙特国王大学学报4559¼···¼ðÞ ¼.Σ2fg2fg8>9>>> >>使用Eq. （六）、当量（6）包括统计术语。这一项对应于所选食物来源的标准误差。在ABC算法中，初始食物源可以被认为是样本分布。在这一点上，标准误差是从相同群体中选择的相同样本的平均值的扩散的度量（即，食物来源）。标准误差是一种推理统计量，它允许搜索过程构建关于所产生的食物来源统计量的置信区间。为提高ABC算法的新食物位置搜索能力，采用基于标准差的置信区间对ABC算法的探索和利用机制进行改进在所提出的SEABC算法中，一个标准的基于错误的探索和开发过程确定的搜索策略由标准误差提供的安全搜索空间在种群和开发过程中获得了置信度和多样性。SEABC的主要应用步骤如下。首先，从解搜索方程中去除随机项/ij。其次，而不是使用两个邻居的解决方案，一个邻居的解决方案是用来减少随机性。以这种方式，从所选择的食物源位置到同一食物源的末端的所有位置都被用于提高被雇用的蜜蜂和蜜蜂的探索和利用能力。如果由Eq. （5）比旧的好，食物来源更新。当食物源的均匀性结果表明，SEABC算法能更快地收敛到最优函数值。所提出的SEABC算法的详细伪代码可以在算法1中看到。算法1.所提出的SEABC算法的伪代码。开始初始化食品来源xij通过当量（1），i=1; 2;···;SN;J1; 2;;D;评价食物来源的适宜性，找出全球最佳食物来源;forcycle← 1← toMCN do foreachemployed beei doSelecti：当前迭代i对应的食物来源xi;在邻域xi中随机选取食物源vi和相邻食物源xk制定和评估新的解决方案v i 使用Eq. （5）Eq. （2）;如果fitnessvi>fitnessxi，则xi<$v i;，fitnessxifitnessv i，triali0;elsetrialcoholtrialcohol1;端端通过等式计算食物来源的概率值pi。（4）;我做了什么？根据概率pi值选择食物源xi;随机选择食物来源vi 和邻域xi中的邻域食物源xk制定和评估新的解决方案v i 使用Eq. （5）和当量（2）;如果fitnessv i>fitnessxi，则xivi;，fitnessxifitnessvi，triali0;elsetrialcoholtrialcohol1;端端最好的食物来源到目前为止如果存在废弃解，则侦察蜂确定新的食物源;端最好的食物来源到目前为止端3.3. 生产新解决方案为了更好地解释在SEABC中产生新解的过程，该算法的主要步骤总结如下。在所提出的SEABC算法中，这些步骤是以相同的方式实现的受雇蜜蜂和觅食蜜蜂。● 步骤1：选择i：从所有食物源xi;xi1;xi2;xi3 ;···;xij;···;xiD中对应于当前迭代i的食物源xi。为了生成新的候选食物源，通过修改j参数xi。（i1; 2;：：;SN和j1; 2;：：;D是随机确定的索引值。SN是食物来源的大小D表示优化参数的数量）;● 步骤2：随机选择一个邻居（即食物来源），xk来自所有当前食物来源xi，（k2 f1; 2;：;SNg）;步骤3：根据选定的xk计算标准差位置Eq. （6）;步骤4：根据选定的xk计算标准误位置Eq. （5）;● 步骤5：评估新的解并在旧的v i j和新计算的v ij之间选择更好的解;第6步：执行侦察蜂程序，这与原始ABC算法相似。一个例子：为了解释如何生成一个新的解决方案v i j，可以检查下面的例子。选择球函数作为待优化的数值函数算法的初始过程不包括在内。● 步骤1：对于D1/410，初始食物来源由等式（1）生成（1）：2019-09- 25 00：00：00 00：00 00：00 00：00九十七比六十六50： 10- 30： 71时间：2019 -05 -1500：00：00-九十六点三十六分时间：2019-03- 16 00：00： 00xij ¼<>>：：：：：：：2019 - 05 - 2500： 00假设i=1。对应的所有食物来源：2019- 09-19 00： 00●●●=卡泽姆·汉巴伊沙特国王大学学报4560¼10n乌塔河- -一种ð Þ ð Þ克什蒂尔克×0 62Þ2× ××对于j/3，选择食物位置vij的候选物。在这个阶段，v ij¼-82：49。当获得新的更丰富的食物来源时，该食物位置将被更新。● 第二步：选择邻近食物源作为起点，计算标准差。假设K2。因此，在本发明中，3.5. 基于Shannon熵的特征选择策略香农熵可以用来衡量分布中的信息量。如果分布具有高熵值，则它包含更高的信息。同样，在文本挖掘（Dziwin'skiet例如，2012）和特征选择算法（Moayedikia等人， 2015），熵准则可以确定xk¼f-55：16六十八点三十一分28点 02分六十比十一五十四点四十五分-96：36-91：63五十三点三十六分16： 70 77：30克其中k2 f1; 2;：;SNg是随机确定的索引值。步骤3：通过使用等式（1）计算所选择的相邻食物源的标准偏差。（六）、首先，通过下式获得所选相邻食物源的平均值：特征向量分布的最优程度。假定Fm×n是一个离散的有限特征空间，其中m和n分别为样本数和特征数.让X被一随机特征向量从Fm×n，这里是X ^fx1; x2; x3;···; x ng. 每个特征X可能以概率出现xn平均值：100 - 55：16 2016- 02-28： 02-20： 112016- 54：452016- 96：362016 - 91：632016-16： 702016-02-20：30为了避免术语混淆，xk取为xn。然后，用方程（1）计算相邻食物源的标准偏差xk. （六）：vuP10Xnp × i，香农熵HX特征X的定义如下：HX-Xpxilog2pxi71/1rx k：n1101968年：19当量（7）计算所有特征的相关熵值。每个特征的Shannon熵值代表了● 步骤4：所选邻近食物源的标准误差Xk是校准的。所选特征的万斯度一个大的HX意味着特征向量具有更多的相关信息。因此，HX可以culated.计算出的值被指定为候选食物源的新值v i j。标准误差通过使用Eq.（五）：用于评估整个特征空间的质量它也可以用来提供实际的决策特征空间。因此，Eq. （7）被选为SEABC算法的目标函数。SEABC算法是对熵函数的vij¼ RxpD六十八分十九秒粤ICP备16018888号-1二十一点五十六分在这个时候。在SEABC算法中，算法参数被设置为确保达到最佳熵值的适当值。需要一个阈值来选择一个特征子集和设计一个● 步骤5：在计算出新的源位置v ij之后，由雇员和蜜蜂来评估如果v ij的适应度值优于x ij的适应度值，则v ij将在食物源群体中取代x ij。● 步骤6：如果存在被放弃的解，则通过使用等式（1），用新的随机生成的解xij替换它。（一）.3.4. SEABC算法我们的SEABC算法的时间复杂度是基于算法1中给出的伪代码计算的。由于它是不同的，从一个问题到另一个，用于计算目标函数的计算复杂性已被忽略。如原始ABC算法（Akay和Karaboga，2012）所述，蜜蜂的数量等于SN。在每个循环中，由受雇蜜蜂和觅食蜜蜂执行2次SN搜索。该算法的搜索复杂度为2MCN SN d. 值得指出的是，算法1中计算复杂度较大的主要步骤是步骤4。在这些步骤中，计算食物来源的标准误差。分类器使用所选择的相关特征。基于类似的文学作品（Jaganathan和Kuppuchamy，2013; Xue等人，2013），平均选择（MS）策略用于确定是否选择特征。MS策略确定香农熵值大于或等于其平均值的相关特征。由于SEABC算法通过标准误差计算选择最佳食物源的策略，可以优化特征选择过程的目标函数。在实验研究中，新算法提供了多样性来选择最佳食物来源（即，解决方案）。SEABC和基于香农熵的特征选择方法的主要步骤可以表示如下：步骤1.开始初始化SEABC算法;步骤2.当量（7）被设置为用作SEABC算法的目标函数;步骤3.每个特征向量Xn步骤4.计算所有特征的Shannon熵HX（即，Xn）根据等式（7）采用SEABC优化算法;步骤5.端前步骤6.末端SEABC算法●卡泽姆·汉巴伊沙特国王大学学报45612jFjð Þ图二. 特征选择的框架。步骤7.应用均值选择策略来确定信息量最大的特征向量。一个特征X如果F满足以下条件，则确定F：表1实验中使用的数据集的属性H<$X<$≥XH<$X<$X2Fð8Þ其中X和HX分别是特征如果相关特征的香农熵值大于或等于所有特征的相关值的平均值，则确定相关特征否则，特征X未被选中。相反，简而言之，所提出的模型依赖于计算每个向量的香农熵并使用基于MS策略的阈值。为了更好地理解算法的步骤，可以检查图24. 实验结果在本节中，使用几个数据集来研究我们的SEABC算法的有效性。首先，数据集描述的特征，样本数和类的数量。然后进行了一些分类实验来研究SEABC的有效性。所有算法的参数设置在单独的部分中给出。如前所述，在本文中，我们主要解决特征选择问题。为了观察SEABC算法的性能，我们将其与GA（Holland，2012），PSO（Kennedy和Eberhart，1997），ABC（D. Karaboga，2005）、GABC（Zhu和Kwong，2010）、I-ABC（Li等人，2012）和PS-ABC（Li等人，2012）算法在选自UCI机器学习库（Bache和Lichman，2013）的13个基准数据集上进行。4.1. 数据集在特征选择实验中，使用了几个数据集。表1列出了每个数据集的类数、特征数和样本数。这些数据集已被广泛用于特征选择文献，特别是两类或多类分类研究。搜索过程-所有的算法都是独立于任何分类器的。因此，可以在任何分类器上获得可接受的分类结果在我们的论文中，支持向量机（ SVM ）（Guyon等人，2002）用于评估特征选择算法。为了减少特征选择偏差的影响，使用了复杂的结构。这个结构由两个循环组成（一个内部循环和一个外部循环）（Kohavi和John，1997）。在实验中，使用10倍交叉验证的外循环来获得没有特征选择偏差的分类结果（Kohavi和John，1997）。训练集用于训练SVM算法，测试集用于获得分类精度。应该强调的是，测试集独立于特征选择过程。在第一步中，仅使用训练集来确定重要特征。在第二步中，通过仅使用确定的特征来变换测试集和训练集（Tran等人， 2016年）。读者可参考（Kohavi和John，1997; Xue等人，2014）以详细讨论10倍交叉验证。SVM算法在转换后的训练集上进行训练最后，分类性能测试集上得到注意，如果不防止特征选择偏差，则所有算法都可以获得更高的测试精度，因为它们在特征选择过程中使用数据集班数数量的特征数量的样本生物降解2411055产电描记术3212126信用214690皮肤科634366森林418523手写9641797图像7192100Spambase2572300钢2331941酒313178马德隆25002600伊索莱266171559塞梅翁102561593卡泽姆·汉巴伊沙特国王大学学报4562¼×4.2. 参数设置所有的算法都包含多个参数。为了计算最相关的特征，Eq. （7）作为所有ABC算法的目标函数。所有特征向量的香农熵值根据等式（1）计算。（七）、所提出的方法的主要步骤可以在3.5节中看到。对于遗传算法和粒子群算法，参数的选择是根据原始文献。具体地，使用以下参数：遗传算法的变异率和交叉率被确定为0.2，0.8如在（Sivanandam和Deepa，2008）中; PSO算法的参数如在（Kennedy和Eberhart，1997）中确定。ABC、GABC、I-ABC、PS-ABC和SEABC的主要参数设置如下：菌落数设为30个，食物源数设为菌落数的一半，并且将极限值设置为5。在GABC中，将非负常数参数C设置为2。所有算法都是随机初始化的30次独立运行。最后，将迭代次数设置为400。然而，所有算法具有相同数量的适应度评估。在本文中，使用以下公式来计算适应度评估的最大数量（Mernik等人，FEMCN NP，其中FE是适应度评估的最大数量，MCN是迭代（或循环）的最大数量，NP是种群的大小。4.3. 结果和讨论在特征选择实验中，分类精度和分类精度的标准差被用作性能度量。分类精度的标准偏差值越低，表明优化能力越好。为了提供可靠的比较，每个算法都运行了30次。原始的SVM分类器与所有的功能是用来分类选定的功能。特征的数量由到特征向量的香农熵值的MS阈值。MS阈值根据等式（1）计算。（八）、所有的算法都已经过测试，

下载后可阅读完整内容，剩余1页未读，立即下载