黑洞优化算法改进在数据聚类中的有效性评估

189 浏览量更新于2024-01-27 收藏 954KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一种改进的数据聚类Hasan Deeba，Archana Sarangia，Debahuti Mishraa，Shubhendu Kumar Sarangiba印度奥里萨邦布巴内斯瓦尔Siksha 'O' Anusandhan大学计算机科学工程系b印度奥里萨邦布巴内斯瓦尔Siksha 'O' Anusandhan大学电子仪器工程系阿提奇莱因福奥文章历史记录：收到2020年2020年12月16日修订2020年12月23日接受2020年12月31日在线提供关键词：元启发式黑洞聚类优化A B S T R A C T受自然启发的算法在过去几年变得越来越流行。他们在解决优化问题方面表现出了很强的能力。这种能力是通过它们单独应用或与其他算法或技术合并的能力获得的。黑洞优化算法是一种受自然启发的算法，属于元启发式类别。黑洞算法（BH）模拟了由大质量恒星形成的黑洞现象，这种恒星具有很高的引力。该算法从特定大小的可能解的种群开始，然后通过选择最佳解作为黑洞来进行评估在建议的修改中，我们引入了一个新的想法来产生被黑洞吸收的恒星。恒星向黑洞的运动也被修改，以增加探测能力。将改进后的算法用于数据聚类，证明了其有效性，而无需任何先验知识的性质提供的数据。已经使用了几个基准数据集和统计技术来评估所建议的修改的性能。实验结果表明，改进后的算法能够有效地克服目前流行的优化算法.版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍在过去的几年中，出现了许多生物启发的算法，并用于解决不同种类的优化问题（Brezo cBennik等人， 2018）。优化问题可以定义为一个计算问题，其目标是最小化或最大化预定义的目标函数。特征选择、模式提取、图像识别、计算机视觉和数据挖掘也是可以应用这种生物启发算法的领域的示例。自然启发的算法由于其解决复杂问题的能力而引起了研究人员的极大兴趣。合理的时间和计算复杂度。科学家和研究人员将注意力集中在它们身上，并对自然界在这种情况下的行为方式产生了更多的兴趣，以避免catastrophic效应。启发式算法是一组算法，*通讯作者。电子邮件地址：archanasarangi24@gmail.com（A. Sarangi）。沙特国王大学负责同行审查在不探索整个搜索空间的情况下，在合理的执行时间内找到特定问题的最佳解决方案启发式方法的目的是提供一个特定的问题比经典的局部搜索方法更快的好结果这些方法的主要缺点是陷入局部最优。在这一点上，新的群体的方法，虽然灵感来自自然现象出现，以解决局部最优问题，这是所谓的元启发式算法。这些算法将随机性与局部搜索相结合，以具有探索整个搜索空间的元启发式算法有两个主要特点：探索和利用，其中第一个试图随机产生潜在的解决方案，以探索整个搜索空间。第二个算法在当前解附近进行局部搜索，以找到最佳局部解。元启发式算法在寻找解的过程中试图在探索和利用之间找到一个平衡。进化算法的灵感来自于自然界中的进化概念。这些算法从随机生成的个体的种群开始，试图在一系列世代中优化种群，直到获得最优解该算法有不同的实现方式，例如遗传算法（GA）（Haupt andHaupt，2004），它是最流行的一种，进化编程https://doi.org/10.1016/j.jksuci.2020.12.0131319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comH.迪布，A. Sarangi，D. Mishra等人沙特国王大学学报5021(EP)，进化策略（ES）（Bäck等人， 1991年），以及生物地理战略（BBO）。遗传算法是由John Holland和他的学生在20世纪70年代发展起来的，它受到达尔文自然进化论的启发。使用适应度函数创建和评估的随机生成的解决方案的群体。该算法通过反复对初始种群进行选择和交叉来进化，直到获得更好的解。群体智能算法试图模仿鸟群或事物的社会行为。在算法的每个阶段，导航过程是基于最佳局部和全局解来实现的。Kennedy和Eberhart（Kiranyaz，2014）发表的粒子群优化（ PSO ），蚁群优化（ ACO ）（ Mirjalili ， 2019 ），蝙蝠算法（Yang，2010）属于这一类。基于物理的算法试图模仿一些流行的物理规则，以便为某些优化问题找到更好的解决方案。一些最流行的基于物理学的算法是引力搜索算法（GSA）（Haupt和Haupt，2004）、磁优化算法（MOA）（Tayarani和Akbarzadeh，2008）、大爆炸大紧缩（BBBC）（Erol和Eksin，2006）。黑洞算法（ BH ）是由 Abdolreza Hatamlou 在 2013 年提出的（Hatamlou，2013）。该算法受到黑洞现象的启发，并试图模仿其吸引太空中其他恒星的特性。该算法从初始解的种群开始。在任何时候，最佳解决方案都被视为黑洞，所有其他解决方案都必须向其移动。该算法及其变体用于解决许多工程、医学、生物和优化问题，例如火电系统的短期调度（Azizipanah-Abarghooee等人，2014）、医学数据的分类（Pashaei等人，2015），解决不同的优化问题（索托等人， 2018），生物数据的特征选择和分类（Pashaei和Aydin，2017），反堡垒挡土墙的可持续设计（Yepes等人，2020）、图像分割（Dhanachandra等人，2020），优化极限学习机器软传感器模型（Xie et al.，2020）、图像灰度级增强（Yaghoobi等人， 2015年）。标准黑洞算法具有结构简单、易于实现、不需要超参数等优点。但BH也有许多缺点，使其无法解决复杂的高维问题. BH的主要问题是它无法在开发和勘探之间找到一个很好的平衡。它更多地关注所选黑洞周围的区域，这使得它很容易陷入局部最优。此外，恒星在向最佳解移动时总是遵循单一轨道，这限制了它们探索整个搜索空间的能力。为了克服这些缺点，我们提出了一种改进的黑洞算法，并在后面进行讨论。在本文中，一个实质性的修改适用于黑洞算法，以提高其聚类数据的能力。改进的黑洞算法（IBH）中的恒星以一个随机的角度向最佳恒星移动，这使得它们能够更有效地探索当前黑洞周围的搜索空间另一个改进是通过控制恒星被黑洞吸收后的再生过程来实现的。建议的战略思路是在一定阶段提高勘探能力，在一定阶段重视开发。IBH通过采用遗传算法（Srinivas和Patnaik，1994）启发的交叉算子来提高恒星的多样性这些修改使得IBH能够利用更少的迭代次数收敛到更好的解决方案本文的其余部分组织如下：第2节提出了一些用于数据聚类的算法。第3节包括黑洞算法的简要描述。有关改进的详细信息见第4节。最后对实验结果和结论进行了讨论分别为5和6。2. 相关工作数据聚类是测试各种优化算法的效率的动态方式之一（Rodriguez等人，2019年）的报告。这一事实是由于这些问题的简单性和用于比较结果的各种工具的可用性。根据聚类的定义，属于同一个簇的所有对象彼此相似。这种相似性可以通过需要最小化的簇内距离来定义。另一个需要考虑度量是簇间距离。该度量表示属于不同簇的任何两个对象之间的距离传统的聚类算法存在时间要求高、易陷入局部最优等缺点。元启发式算法通过利用其随机行为在解决这些缺点方面表现出优越的性能（Darwish，2018）。共生有机体搜索算法（SOS）（Zhou等人，2019年），受到共生相互作用的启发，其中存在配对的有机体关系。将其用于数据聚类，取得了较好的效果.量子混沌布谷鸟搜索（QCCS）（Ishak Boushaki等人， 2018）通过使用受量子理论启发的非齐次更新来扩展Cuckoo Search算法，以增强其全局搜索能力。该算法在数据聚类中也取得了较好的效果Bouyer和Hatamlou（2018）提出的另一种算法是一种有效的改进的布谷鸟优化算法和改进的粒子群优化算法混合在一起。改进的磷虾群算法（IKH）（Jensi和Jiji，2016）增加了一个全局搜索算子，以增强其在定义的搜索区域周围进行探索的能力。ICAKHM是一种高效的混合聚类方法，基于K-调和平均算法以及帝国主义竞争算法（Bouyer和Hatamlou，2018）。一种增强的基于生物地理学的优化算法（BBOKM）（Komp和Saraswat，2018）使用K均值来初始化基于生物地理学的优化算法的种群。最近，模糊逻辑在提高元启发式算法的性能方面发挥了重要作用。它被广泛用于在算法的过程中调整其参数，使这些算法更适合于现实生活中的问题。模糊自调整粒子群算法（Nintendo等人，2018）利用模糊逻辑自适应控制PSO的超参数。Bernal等人（2020）介绍了模糊逻辑与元启发式的另一个成功实现，其中银河群优化的参数由嵌入式模糊逻辑推理系统控制。所有前面提到的算法都显示出很高的解决数据聚类问题的兴趣度。这就是鼓励我们继续这项工作并建议我们改进黑洞算法的原因。在过去的几年里，各种修改建议，以改善BH算法。增加了白洞概念（Mohammed和Ibrahim，2016），以排除搜索空间的某些区域。增加了模糊霍金辐射的概念，以提高BH的效率（Nemati和Momeni，2014）。将Lévy飞行引入黑洞算法以增强其性能（Abdulwahab等人，2019年）的报告。遗传操作者成功应用于BH（Yaghoobi和Mojallali，2016）。3. 黑洞算法黑洞的概念是由Michel博士和Pierre de Laplace（Montgomery etal.，2009年）。当一颗巨大的恒星坍缩时，黑洞就形成了，这颗恒星具有巨大的引力，可以吞噬任何靠近它的东西，甚至是光。黑洞周围存在一个类似球体的形状H.迪布，A. Sarangi，D. Mishra等人沙特国王大学学报5022××PK×ð Þ×C2bhn F称为事件视界，其半径称为史瓦西半径，可以使用等式2计算。（一）.R¼2GM1000G代表引力常数，如果任何运动物体与黑洞之间的距离小于或等于R，它将被黑洞吞噬。黑洞算法是一种基于群体的算法，其以称为星的随机生成的解决方案的群体开始。在每次迭代中，选择具有最佳成本的恒星作为黑洞。被选中的黑洞施加一种引力，以吸引所有其他恒星。当任何恒星变得足够接近黑洞时，它会消失得无影无踪，而一颗新的恒星会在探索空间中再生。这一过程一直持续到实现收敛。使用目标函数对种群进行评估，具有最佳成本的恒星是下一次当前黑洞的史瓦西半径可以使用方程计算。（二）、fR1/2k¼1fbh表示最佳星的成本或适应值，n是种群中的星的总数，fk是星的成本（k）。如果恒星与黑洞的距离小于或等于R，它将被移除，并将任意生成一颗新恒星并添加到人口中。恒星的运动通过更新它们的位置到一个新的位置更接近黑洞通过应用方程。（三）Xit1Xitr×XBHt-Xit3这里，Xit表示星（i）在迭代t时的位置向量，XBH t代表黑洞在迭代t，r是在[0，1]之间随机生成的数。在每一次迭代中，所有的星星都需要更新它们在搜索空间中的位置，这受到当前最佳解的引力的影响。这一阶段被称为吸收阶段。当恒星运动时，一些恒星可能到达比当前最佳位置更好的位置。在这种情况下，黑洞算法将最适合的一个作为新的黑洞，史瓦西半径根据它更新，其他恒星开始向新的黑洞移动。在恒星运动过程中，任何一颗恒星都有可能越过事件视界边界，这表明它与黑洞的距离小于或等于R。在这种情况下，该恒星将从当前种群中删除。一个新的恒星将被随机生成并重新插入到人口列表中。BH算法通过在初始阶段和每次吸收后随机产生星来实现Meta启发式算法的探索特性。利用特征也是通过将搜索空间中的所有恒星吸引到当前黑洞来实现的。4. 改进的黑洞算法该算法的改进版本，即，改进的黑洞（IBH）算法增加了探测空间中恒星运动的灵活性。图1中的流程图展示了如何使用两种策略之一来生成新的星;第一种是使用均匀分布随机数生成器来生成星。第二种方法是随机选择两颗星并应用交叉方法。Yaghoobi和Mojallali（2016）之前引入了遗传算子来提高BH算法的性能。在这篇论文中，作者建议-gest执行交叉和变异的整个人口，如果有没有改善的算法结果后，10%的总迭代。无论如何，这与我们的工作不同，在我们的工作中，我们只在恒星吸收后进行自适应改变概率的两颗恒星之间的交叉。我们利用交叉算子，以产生更多样化的解决方案的基础上，而不是任意的星生成。4.1. 星形编码和初始种群生成黑洞算法中的每一颗星都代表了所研究问题的一个潜在解决方案。每个星都有一个大小为N D的矩阵，其中D表示属性的数量，N表示聚类的数量该矩阵中的每一行表示一个聚类矩阵在选择星编码方法之后，在搜索空间中随机生成具有选定数目的星的群体。恒星被评估，最好的一个被选为当前的黑洞。4.2. 星星运动在传统的BH算法中，恒星使用Eq.（三）、根据等式（3）整个恒星的属性值向黑洞方向以相同的随机量变化。换句话说，更新后的位置位于连接恒星和黑洞的直线上为了使算法对不同类型的问题具有更强的适应性，将单个随机量替换为一个随机量向量这个想法是由Yaghoobi和Mojallali（2016）提出的，作者建议随机向量应该生成为0到2之间的均匀分布随机数这一过程将有助于恒星探索当前黑洞周围的区域实际上，通过使用这种方法，该算法允许编码在星中的每个属性都有自己的更新量。然而，我们的论文重点是使每个属性在所有簇上具有相同的随机更新量此外，这些随机量将在范围[0，1.5]内生成，以防止更新的属性当量（3）将改为Eq。（四）Xit1XitC×XBHt-Xit 4其中C是大小为1 D的随机矩阵，D是属性的总数。4.3. 恒星吸收在算法的过程中，恒星变得越来越接近黑洞恒星，如果任何恒星通过事件视界，恒星就会被黑洞吞噬，导致其从当前种群中移除。使用适当的方法在搜索空间中重新生成一颗新星，最后将其再次添加到当前种群中。每当黑洞吞噬一颗恒星时，一颗新的恒星就会使用以下策略之一产生：1. 以0.75的概率随机生成一颗新星（使用均匀分布）.2. 从群体中随机选择两颗星生成一颗新星，并使用特定的重组方法重组它们的属性。重组后的最佳恒星该方法最初以0.25的概率应用。H.迪布，A. Sarangi，D. Mishra等人沙特国王大学学报5023Fig. 1. IBH算法的流程图。H.迪布，A. Sarangi，D. Mishra等人沙特国王大学学报5024×再生概率[0.75，0.25]在算法进行期间交替。例如，该算法开始于使用第一种策略产生恒星的概率为0.75。当迭代次数与总迭代次数之比达到0.2时，IBH将使用第二策略生成恒星的概率当比率达到0.4时，概率将再次交替。概率的交替将在迭代的每20%进展中继续，直到满足停止条件。通过使用上述策略，我们可以在算法进化过程中交替关注探索和利用，并在两者之间达到最佳平衡，从而找到最优解。4.4. 重组策略正如我们之前提到的，当黑洞吞噬任何恒星时，有一个初始概率为0.75，以实现重组策略来产生新的恒星。首先，根据适应度值对当前种群进行排序，然后将其分为两个子种群。第一子群体是男性群体，即，p男性，第二个是女性人口，即，p女随机地，从p个男性中选择一个星，从p个女性中选择另一个星，之后，对所选择的星应用两点交叉。交叉是通过随机选择两个分裂点和星星的属性矩阵，并在它们之间交换这些属性的值来实现的。最后，对两个结果星进行评估，并选择最好的一个添加到群体中。文中还介绍了改进IBH算法的伪代码。4.5. IBH算法输入：数据集或测试函数，population_size，max_iterationnumber输出：具有最高适应值的解决方案程序：随机初始化第一代计算初始种群中所有恒星的适应度值。选择最好的恒星作为黑洞。对于迭代= 1：max_iteration number对于当前种群中的每颗恒星：将恒星移向黑洞重新评估恒星适应度值如果恒星比当前的黑洞更好，则将其设置为黑洞端计算新选定黑洞的视界半径如果round（iteration/max_iteration，1）* 10% 2 == 0Evolution_rate = 0.75否则Evolution_rate = 0.25结束，如果对于当前人口中的每一颗恒星如果恒星和黑洞之间的距离小于事件视界半径如果random（）= Evolution_rate，则将当前人口平均分为两组（男性和女性）随机选择两颗星，每组一颗。执行两个分裂点之间的交叉选定的明星。选择两个生成的星星中较好的一个作为新的星星。其他随机生成新的星如果将生成的星添加到人口中。End if把恒星设为黑洞End for结束返回当前的黑洞。5. 实验结果及分析IBH算法在一组基准数据集上进行了测试，并与其他算法的结果进行了比较。统计分析也进行了，和IBH算法的结果是有希望的。为了检查改进算法的效率，已经在具有不同复杂度的五个数据集（Frank和Asuncion，2010）上对其进行了评估。这些数据集是葡萄酒，虹膜，玻璃，癌症和避孕方法选择（CMC）。将结果与传统的黑洞算法（Hatamlou，2013）和一系列其他算法进行比较，包括K均值（Vora和Oza，2013），PSO（Kiranyaz，2014），引力搜索算法（GSA）（Rashedi等人，2009）、大爆炸-大紧缩算法（BBBC）（Erol和Eksin，2006）、量子混沌布谷鸟搜索（QCCS）（Ishak Boushaki等人， 2018）、灰狼优化器（GWO）（Mirjalili等人，2014）、改进的磷虾群算法（IKH）（Jensi和Jiji，2016）、共生器官搜索（SOS）（Zhou等人，2019年），BBOKM算法（Kazakhstan和Saraswat，2018年），模糊自调整PSO（Neclude等人，2018）和ICAKHM算法（Bouyer和Hatamlou，2018）。表1给出了我们实验中使用的数据集的简要描述5.1. 实验设置。该实验通过运行该算法50次来进行，种群大小为50，迭代次数等于1000。最好的，平均的，和最差的结果被选择，并与前面提到的算法的相同的结果进行比较。实验在具有Win-IOS的计算机上进行，该计算机具有Core i7处理器和8 GB存储器。表2详述了实验的参数设置。本文中使用的开发编程语言是Python版本3.7.4。5.2. 标准数据集的IBH性能分析我们的实验旨在找到最佳的聚类中心，使这些数据集中的整个数据对象的类内距离最小化。还使用的另一个度量是错误率，它表示错误分类的数据对象占数据对象总数的百分比。最好的，平均值，最坏的，和标准偏差的解决方案在每个独立的模拟计算，并与其他算法进行比较。采用的编码策略是将每颗星表示为一个矩阵N D，其中N表示聚类数，D是聚类中心的属性数。对于M个数据对象和N个聚类的给定数据集，我们的目标是将每个样本分配到其中心与该样本具有最小欧几里得距离的聚类中。本研究H.迪布，A. Sarangi，D. Mishra等人沙特国王大学学报5025M我J表1数据集功能。数据集虹膜酒玻璃癌CMC类别号33623特征数413999数据对象数1501782146831473数据对象大小50,50,5059,71,4870,17,76,13,9,29444,178629,334,510表2参数设置。算法参数值表4最佳解决方案与WINE数据集的数据对象之间的聚类内距离之和。一般人口规模50算法最好平均最糟糕STD迭代次数1000k均值16,555.6794216,963.0449923,755.049491180.6942PSO内常数（w）0.5PSO16,304.4857616,316.2745016,342.7810912.602750认知常数（c1）1GSA16,313.8762016,374.3091216,428.8649434.671220社会常数（c2）1BB-BC16,298.6735616,303.4120716,310.113542.6619800GSAG常数（G0）100QCCS16,292.2600016,293.2600016,294.340000.7153400阿尔法20GWO16,307.1000016，318.4 0000N/AN/AQCCS控制参数（d）1.6IKH16,292.2100016,294.3000016,292.840000.7067420更坏巢的概率（pa）0.25伊卡赫姆16,293.9000016,295.6000016,296.940001.0023720IKHVf0.02SOS16292.184616293.052516294.17050.8185DMax0.005BBOKM16293.4862516295.17674N/A1.1369224Nmax0.01FST-PSO16292.5632716293.1057516294.003230.4811631伊卡赫姆阿尔法1BH16,293.4199516,294.3176316,300.226131.6512700Beta2IBH16,292.1846416,292.4355816,292.667220.2410800Zeta0.1P转0.05亩0.5BBOKM Elite2号突变率0.01是找到最好的一组聚类换句话说，目标是最小化每个样本与其所属的聚类中心之间的欧氏距离之和。集群内总和的计算方法如下：Ds;l¼X Xds;l5i¼1si2Cj表5最佳解决方案与GLASS数据集的数据对象之间的聚类内距离之和。其中，dfsi;lj是样本si和聚类中心lj之间的欧几里德距离。M是样本数，Cj是分配给si的聚类。IBH算法已与前面提到的所有算法进行了比较，我们50次运行的测试结果列于表3IBH表现出优于所有其他算法，除了ICAKHM，在玻璃和癌症数据集上的性能比IBH好得多。表3总结了最佳解决方案与IRIS数据集的数据对象摘要表3最佳解决方案与IRIS数据集的数据对象之间的聚类内距离之和。算法最好平均最糟糕STDk均值97.325920105.72902128.4042012.38759PSO96.87935098.14236099.7695200.842070GSA96.68794096.73105096.8246300.027610BB-BC96.67648096.76537097.4286500.204560QCCS96.65548696.65623096.6677100.002660GWO96.65826099.125740N/AN/AIKH96.65550096.65550096.6555000.0000098伊卡赫姆96.63620096.66640096.6919000.0105500SOS96.65550096.65550096.6555002.8234E-14BBOKM96.65572396.656446N/A0.00070613FST-PSO96.65572996.65577696.6558082.5957e-05BH96.65589096.65681096.6630600.0017300IBH96.62548396.62548396.6254850.0000063显示了IBH如何在所有竞争算法中获得最佳结果。小的标准偏差表明，50次运行的结果非常接近，这反映了IBH算法的稳定行为。从表中可以很容易地得出结论，新修改的IBH算法所获得的结果优于所有其他涉及的算法，以及原始BH算法。类似地，表4包含最佳获得的解决方案与WINE数据集的数据对象之间的聚类内距离的总和的汇总。IBH算法的最优解明显优于其他算法。SOS算法也获得了与IBH最优解相同的最优值。无论如何，IBH获得的最差和平均簇内和也是最棒的较小的标准偏差值反映了所提出的IBH算法的稳定性以及收敛到良好解的高能力。表5总结了我们在GLASS数据集上测试IBH时产生的结果。IBH算法得到的簇内和优于大多数其他算法。然而，ICAKHM算法优于我们的算法，该数据集和IBH排名第二的最佳获得的解决方案。越小算法最好平均最糟糕STDk均值215.67753227.97785260.8384914.1388PSO223.90546230.49328246.089154.79320GSA224.98410233.54329248.367216.13946BB-BC223.89410231.23058243.208834.65013QCCSN/AN/AN/AN/AGWO265.81420302.04150N/AN/AIKH210.25200215.93550222.80082.737919伊卡赫姆199.86000202.41000209.770000.260000SOSN/AN/AN/AN/ABBOKM215.12524220.403114N/A2.2643452FST-PSO223.452208241.792430250.960759.6905542BH210.51549211.49860213.956891.1823000IBH210.247841212.224638214.811221.1234316H.迪布，A. Sarangi，D. Mishra等人沙特国王大学学报5026¼ ×ð Þ-¼表6最佳解决方案与CANCER数据集的数据对象之间的聚类内距离之和。表8将每个数据对象分配到其更接近的群集的平均错误数据集Iris Wine Glass Cancer CMC算法最好平均最糟糕STDk均值13.4231.1438.444.3954.48k均值2986.961343032.247815216.08949315.1456PSO10.0628.7941.203.7954.50PSO2974.480922981.786533053.4913210.43651GSA10.0429.1541.393.7455.67GSA2965.763942972.663122993.244588.918600BB-BC10.0528.5241.373.7054.52BB-BC2964.387532964.387982964.389020.000480QCCS9.4328.70N/A3.5157.11QCCS2964.389512964.414632964.499450.027610GWO10.7429.5640.903.65N/AGWO2964.390002964.39500N/AN/AIKH9.7828.9033.903.6955.90IKH2964.387002964.389002964.393000.001258伊卡赫姆11.2328.7332.614.2754.47伊卡赫姆2962.420003022.810003150.150000.396000SOSN/AN/AN/AN/AN/ASOSN/AN/AN/AN/ABBOKMN/AN/AN/AN/AN/ABBOKM2964.598212965.93140N/A0.037421FST-PSO10.028.0847.663.5161.50FST-PSO2964.390282964.391922964.393610.001199BH10.0228.4736.513.7054.39BH2964.388782964.395392964.450740.009210IBH10.0028.0835.323.5153.97IBH2964.386972964.386972964.386980.000002表7最佳解决方案与CMC数据集的数据对象之间的群集内距离之和。在大约200次迭代中使用增量的群体大小，结果如图2所示。通过分析结果，我们注意到错误率在几次迭代后开始下降，这意味着更多的数据对象被正确地分配给正确的类。蓝色曲线示出了改进的算法如何能够在更少的迭代中更好地收敛。对于Wine数据集，由于其错误率很大，因此从总错误率中减去一个常数值以获得更好的可视化效果。标准偏差反映了IBH算法的稳定性以及获得近似最优解的收敛能力。癌症数据集实验结果列于表6中。虽然最好的解决方案已被记录为ICAKHM算法，IBH表现出更好的性能方面的平均和最坏的解决方案。一个稳定的行为是通过我们的修改后的算法的标准偏差较小的值表7总结了CMC数据集的结果IBH再次克服了所有其他算法，并产生了较小的标准偏差，反映了每次运行中实验结果彼此之间的接近程度。为了评估IBH的性能，我们使用了错误率测量，它表示错误分类的数据对象占总数据对象的百分比。儿错误分类的数据对象数量100 6的对象表8详细说明了IBH算法与其他算法相比的错误率。可以看出，IBH算法表现出非常好的性能，几乎优于所有其他算法。对于IRIS数据集，IBH在IKH和QCCS之后排名第三，对于Wine、Cancer和CMC数据集，IBH克服了所有其他算法，并记录了最小的错误率。无论如何，对于GLASS数据集，IKH和ICAKHM的错误率是最好的，这是基于表5中详细描述的聚类内总和的预期。5.4. 时间复杂度IBH算法的基本结构与传统的黑洞算法相同，这表明IBH算法的时间复杂度改进算法的性能与原算法相似，只是在星再生阶段增加了一些额外的开销。在传统的黑洞中，恒星是随机再生的，吸收后的搜索空间。 IBH在搜索空间中选择两种散布星的方式之一，即传统的随机生成，它没有额外的开销，或者在两个先前选择的星之间进行两点交叉，这可能会增加一些额外的但并不重要的复杂度。5.5. 统计分析统计测试进行比较IBH与其他算法的性能。Friedman检验是一种非参数检验，当被测因变量为序数时，用于检验组间差异。我们的零假设H0表示为：所有算法之间没有显著差异。备择假设H1表示：使用不同算法对数据进行聚类存在显著差异如果Q的值大于或等于临界值，则可以拒绝H0在我们的例子中选择的显著性水平是alpha =0.05。自由度为df =（算法1的数量）= 6。现在，为了计算我们的决策规则，每个算法都需要根据其得分值进行排名，得分值由簇内和表示。最小的分数被分配给具有最小等级的算法，反之亦然。平均等级是计算-使用Eq.（7）并在表9中描述平均秩算法在每个数据集上的秩和数据集5.3. IBH性能分析为了衡量性能的改善，我们比较了IBH算法与传统的BH算法ð7Þ为了计算Friedman检验的统计值，等式其中R是指每个算法在所有数据集上的秩的总和，N是数据集的数量，K是聚类算法的数量。算法最好平均最糟糕STDk均值5542.182145543.423445545.333381.523840PSO5539.174525547.893205561.654927.356170GSA5542.276315581.945025658.7629341.13648BB-BC5534.094835574.751745644.7026439.43494QCCS5532.224765532.719925535.290500.134GWON/AN/AN/AN/AIKH5693.72005693.735005693.779 00.007975伊卡赫姆5699.218305705.148505721.177901.268275SOS5693.72405693.72535693.72842.076E-03BBOKM5693.909255694.317892N/A0.3340028FST-PSO5532.196095532.198295532.202650.002354BH5532.883235533.631225534.777380.599400IBH5532.184755532.184805532.184880.000030H.迪布，A. Sarangi，D. Mishra等人沙特国王大学学报5027N×K×K1-IJJ图二、BH和IBH算法前200次迭代的簇内求和表9聚类算法的平均等级。算法BB-BC IKH伊卡赫姆BBOKMBHFST-PSOIBH排名5.8 3.23.45.44.44.41.4Q¼12XR2-3×N×K× 1×8× 10在IBH的性能从其他算法，我们一直在寻找拒绝这一假设。Holm的程序使用z分数和p值将IBH算法的性能与其他算法进行比较。p值是当研究的零假设为真时获得观察结果的概率。为了拒绝零假设，IBH和每种算法之间的计算p值Z-使用等式获得的分数（九）、所得Q为12.128，相应p值为0.033。由于p值小于0.05且Q大于10.57（alpha = 0.05且df = 6时的临界值），因此我们可以拒绝零假设H0以及聚类算法之间的差异z-分数¼平均排名pKK1=6Nð9Þ对我们来说意义重大由于零假设已被拒绝，因此进行了另一项称为事后检验的检验。本检验的零假设表述为：无差异其中k是聚类算法的数量，N是测试数据集的数量，并且（AvgRanki，AvgRankj）是表9中描绘的平均等级。最后一步是比较结果p-H.迪布，A. Sarangi，D. Mishra等人沙特国王大学学报5028表10Holm程序的结果。秩算法z分数p值霍尔姆瓦尔假设6BB-BC3.2204702410.0012798050.05拒绝1IKH1.3174650980.1876827730.008333333没有拒绝2伊卡赫姆1.4638501090.1432349080.01没有拒绝5BBOKM2.9277002190.0034147910.025拒绝3.5BH2.1957751640.028108040.014285714没有拒绝3.5FST-PSO2.1957751640.028108040.014285714没有拒绝表11第二次Holm手术结果。秩算法z分数p值霍尔姆瓦尔假设2IKH1.60.1095985830.016666667没有拒绝1伊卡赫姆1.40.1615133180.0125没有拒绝4BH2.60.0093223760.05拒绝3FST-PSO2.40.0163950720.025拒绝值与根据公式应用Holm方法得到的值目标alpha值rithms，以便更有效地解决复杂的问题，如聚类大量的生物和商业数据集。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用Abdulwahab，H.A.，Noraziah，A.，Alsewari，A.A.，Salih，S.Q.，2019.一种基于Levy Flight的黑洞算法的增强版本，用于优化和数据聚类问题。IEEE Access 7，142085-142096。https://doi.org/10.1109/ACCESS.2019.2937021.Azizipanah-Abarghooee河，Niknam，T.，Bavafa，F.，Zare，M.，2014.基于混合梯度改进教学黑洞算法的火电系统短期调度。电力系统研究 108 ， 16-34 。https://doi.org/10.1016/j.epsr.2013.10.012网站。贝克，T.，施韦费尔，H.P.，Hoffmeister，F.，一九九一年进化策略的调查输入：程序第四国际Conf. Genet Algorithms，p.9.第九条。Bernal，E.，卡斯蒂略岛Soria，J.，Valdez，F.，2020.基于模糊逻辑的参数动态调整模糊星系群算法。SN计算Sci. 1（1）。https://doi.org/10.1007/s4297

下载后可阅读完整内容，剩余1页未读，立即下载