沙特国王大学学报：解决不平衡分类问题的神经网络随机和元启发式算法.

57 浏览量更新于2024-01-17 收藏 988KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报不平衡分类问题Israa Al-Badarneh，Maria Habib，Ibrahim Aljarah，Hossam Faris约旦大学，约旦阿提奇莱因福奥文章历史记录：收到2020年2020年10月3日修订2020年11月7日接受2020年11月14日网上发售关键词：元分析神经网络不平衡分类A B S T R A C T训练人工神经网络（ANN）算法并不简单，这需要优化一组权重和偏置，这些权重和偏置随着神经网络容量的增加而急剧增加，从而导致这种困难的优化问题。从本质上讲，近几十年来，随机搜索算法已经显示出解决困难优化问题的显着能力另一方面，实际上，大量的现实世界问题受到不平衡问题的影响，其中数据的分布在类之间变化很大，导致更多的训练偏差和方差，这降低了学习算法的性能。本文介绍了三种训练多层感知器（MLP）神经网络的随机和元启发式算法，以解决分类不平衡问题。使用的算法是灰狼优化（GWO），粒子群优化（PSO），和Salp群算法（SSA）。所提出的GWO-MLP、PSO-MLP和SSA-MLP基于不同的目标函数进行训练;准确度、f1分数和g均值。然而，它是基于10个基准不平衡数据集进行评估的。结果表明，当数据集不平衡时，f1-score和g-mean适应度函数优于准确度©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍人工神经网络算法是在包括分类、对象检测和函数逼近在内的各种领域中广受好评的算法。首先，人工神经网络算法是受生物神经网络架构启发的数学模型。神经网络由称为神经元的处理单元组成，其中它们按层排序和连接;输入层，隐藏层和输出层。神经元之间的连接被表示为权重，而每个神经元组合求和和激活函数。从本质上讲，人工神经网络在处理复杂和非线性问题以及捕获隐藏的信息模式方面表现出了卓越的性能（Mendada，1992; Arridge和Hauptmann，2019; Gao等人，2019年）。训练神经网络算法需要找到一组权重，使给定分类问题的分类误差最小化。ANN可以*通讯作者。电子邮件地址：asr9170348@ju.edu.jo（I.Al-Badarneh），mar8160671@fgs.ju.edu.jo（M. Habib），i. ju.edu.jo（I. Aljarah），hossam. ju.edu.jo（H. 法里斯）。沙特国王大学负责同行审查通过不同的方法学习;监督或无监督学习，以及元启发式学习。监督/非监督方法主要依赖于数学函数。用于训练前馈神经网络的常见监督学习方法是反向传播（BP）算法。BP算法虽然收敛速度快，但对初始解高度敏感，容易陷入局部解。相比之下，Meta启发式学习或（元启发式训练器）是训练人工神经网络的突出替代方案.元启发式算法是一种随机搜索算法，可以全局和局部搜索，这阻碍了它们在局部最优解上的停滞（Yang，2010）。进化算法是元进化的主要示例，诸如遗传算法（GA）（Holland，1992）和PSO算法（Eberhart等人， 1995年）。不平衡分类问题是一类数据样本在类间分布不均匀的分类问题。然而，不平衡的水平可以根据与主要类相比的次要类中的示例的数量而变化。因此，数据分布的偏差使得算法的学习过程更具挑战性，因为每个类的示例数量不相等，这导致关于小类的性能不足（Tang等人，2008;Wang等人，2016年）。由于许多现实世界的应用以不平衡分布问题为特征，例如肿瘤检测（Piciarelli等人，2019; Bria等人，2020）、电子邮件垃圾邮件检测（Faris等人，2019年; Zhao等人，2020年），或欺诈检测https://doi.org/10.1016/j.jksuci.2020.11.0051319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comI. Al-Badarneh，M.哈比卜岛Aljarah等人沙特国王大学学报2788（Makki等人，2019; Somasundaram和Reddy，2019）。因此，需要更有效的技术来增强算法的学习。主要地，已经开发了不同的策略来克服不平衡问题;大体上，它们被分类为算法级或数据级策略。前者促进和推进学习策略，以最大限度地减少对大多数类的偏见，而后者则关注通过过采样或欠采样对数据进行采样，以生成平衡的数据示例（Krawczyk，2016）。本文对具有不同适应度函数的进化神经网络的性能进行了分析研究，以提高存在不平衡问题的神经网络的性能。训练神经网络是一个优化问题，其基于数据的大小及其性质（即，视频、文本、图像（D ′souza等人，2020年）。由于没有通用的优化器适用于解决所有类型的问题或任何类型的数据集，这是由没有免费午餐定理（Wolpert和Macready，1997），因此，值得研究新的优化器来解决复杂的问题。本文部署了两个最近受到广泛关注的优化器（GWO和SSA）和备受关注的PSO用于训练MLP神经网络来解决不平衡分类问题。因此，三个研究的进化模型是GWO-MLP，PSO-MLP和SSA-MLP，这是建立使用三个不同的目标函数。目标函数为准确度、f1-score和g-mean，通过使用10 个不平衡数据集进行评估。这些数据集从 Keel 存储库获得（Alcalá-Fdez等人，2011年）的报告。我们的目标是显示的重要性，选择适当的适应度函数时，所调查的数据集具有不平衡的类标签的分布。本文的其余部分组织如下。第二部分介绍了ANN和GWO算法、PSO算法和SSA算法的相关研究工作和背景。第3节讨论了所提出的方法，包括描述的解决方案表示和健身评估。第4节表示所进行的实验，包括实验设置、数据集描述和评价指标。第5节提供并描述了获得的结果。最后，第六部分是对研究结果的总结2. 材料和方法在文献中，已经进行了大量的研究来检查不平衡问题。例如，（Tang等人，2008年）设计了一种支持向量机（SVM）的不同方法的混合，涉及成本敏感学习，过采样和欠采样。在Krawczyk等人（2014）中，提出了一种基于成本敏感学习的决策树（DT）集成，以解决类不平衡的问题然而，（Sáez等人，2015）介绍了一种新颖的方法，其使用具有过滤准则的重新采样技术来忽略噪声和边界示例。此外，（Xiao et al.，2017）开发了一种基于内核极端学习机的类成本正则化策略，用于二进制和多类不平衡分类。 González等人， 2019）实现了一种新的采样技术，以适应单调数据集情况下基于单调链的不平衡问题。此外，在Lin et al. （2020），提出了一种深度Q学习网络来解决不平衡分类问题，与传统技术相比，该网络显示出有效的结果。此外，在Lopez-Garcia等人（2019）中，针对类不平衡问题提出了一种具有元分析和特征空间划分的使用40个数据集评估了拟议的工作。实验结果表明，当数据集不平衡时，该算法优于其他算法。另一方面，进化算法是人工神经网络的流行训练器。使用GA算法训练ANN的早期实现之一是在Montana和Davis（1989）中，在那里它用于图像分类。然而，GA算法是ANN的流行训练器。（2017）使用GA优化了极端学习机（ELM）的超参数，以预测岩爆的强度。此外，Alharbi和Alghahtani（2019）使用GA优化了ELM此外，Revathi等人（2020）实施了一种基于GA优化前馈神经网络的预测方法，用于左心室肥大的预后。然而，在Mendes等人（2002）中，作者采用PSO算法来训练和构建ANN算法。其中所获得的结果证明了它在处理具有多个局部极小值的搜索空间方面的显著能力。此外，（Xu和Shu，2006;Han等人，2013）研究了优化使用PSO的ELM最近，Armaghani etal. （2020）使用PSO优化了ELM，用于预测地面振动。此外，Abdulkarim和Engelbrecht（2020）使用PSO训练了一个前馈神经网络，用于预测非平稳时间序列。在Slowik等人（2008）中，用于训练ANN的差分进化算法优于BP和Levenberg-Marquardt（LM）算法。在另一项工作中，Baioletti等人（2020）基于增强型差分进化算法优化了神经网络的架构。此外，Ozturk等人（2011）的作者使用人工蜂群（ ABC ）和 LM 的混合来训练 ANN 算法，而 Bairathi 和 Gopalani（2019）研究了SSA算法来训练前馈神经网络。值得注意的是，Krawczyketal.（2016年）利用一个EUSBoost方法处理乳腺癌恶性分类的不平衡，这是一个推进策略与进化欠采样技术。实验结果表明，有效的能力，在大数据集。作者在Aljarah et al.（2018）使用鲸鱼优化算法（WOA）来优化和训练MLP。该方法优于BP算法和其他六种进化算法。然而，在Aljarah等人（2018）中，作者实现了一种基于生物地理学的优化器来训练神经网络，其性能优于10种进化算法，包括GA，PSO，ABC和其他元算法。此外，Nabei等人（2019）提出了一种用于不平衡二进制疾病数据集的混合框架，其中将多目标但可扩展算法与SVM算法相结合。其中，对18个数据集的评估获得了非常有希望的性能。尽管如此，Fernandes等人（2019）提出了一种基于多目标遗传采样的分类器集成策略，用于解决分类的不平衡问题。同样，Roshan和Asadi（2020）使用多目标进化算法实现了装袋分类器的集成，用于不平衡分类。进化神经网络在广泛的应用中显示出了良好的效果。然而，很少有人注意到成本函数（适应度函数）对它们的性能的影响时，数据集具有不均衡分布的类标签。2.1. 人工神经网络人工神经网络是一种数学模型，用于对象识别、模式分类和决策。人工神经网络由若干处理神经元组成，这些处理神经元通过加权连接并按层排序。通常，这些层是输入层、输出层和多个隐藏层。一个简单的人工神经网络结构的插图如图所示。1.一、I. Al-Badarneh，M.哈比卜岛Aljarah等人沙特国王大学学报2789. P¼Σð Þ ¼Lð Þ--X1J1JJ2J3¼ð Þ图1.一、人工神经网络架构。在数学上，神经元可以表示为粒子群优化（PSO）：是一种基于种群的随机搜索算法，它的灵感来自于鸟类的集体行为。总体主要是粒子的集合，其中每个粒子代表一个潜在的解决方案。每个粒子都有一个位置和速度，在搜索过程中迭代更新。位置和速度是根据方程（1）和（2）建立的（5和6）。其中，w是惯性权重，r1和r2是随机数2½0;1];c1和c2为加速度系数，pidt ttt为粒子的个人最佳值i在时间t具有d个维度，而gdt是全局最佳粒子。xi dt是位置，v i dt是速度（Eberhart等人， 199 5）。xidt1xidtvidt15vidt1w·vidtr1c1·½pidt-xidt]r2c2·½gdt-xidt]ð6ÞSalp Swarm算法（SSA）：是Mirjalili等人（2017）提出的一种基于群的元启发式算法。SSA模仿海鞘在寻找食物来源时的行为。SSA从随机种群的初始化开始。在那里，人口被分为一个领导者salp，和追随者salp，这是链中剩余的salp。领导者salp通过更新其关于食物源位置的位置来引导跟随者朝向最佳区域，如在Eq. 7 .第一次会议。F表示源食物，c2和c3是两个随机数，ub和lb分别是上界和下界C1是一个重要的缺点，zfni¼0wi xi<$b，假设x是输入，f是激活是输入之间的连接权重拖钓参数当追随者使用等式8，（Mirjalili等人， 2017年）。功能其中w层和隐藏层，b是偏置权重，n是数量对于输入特征，m是隐藏神经元中的隐藏神经元的数量（Fc..ub-lbclbC P0： 5巢穴层j/4F j-c1.. Ubj-lbjc2lbjc3<0： 5z¼f.Xn我爱你！ð1Þxi¼ 1 .一、xixi-1ð8Þ1/4j2j jMLP神经网络是具有一个输入层、一个隐藏层和一个输出层的ANN。其中每个神经元具有非线性激活函数。一个流行的非线性激活函数是Sig-在优化过程中，两个阶段由（c1）参数指导，阶段是：c1系数是平衡勘探和开采之间的关键参数，由下式给出：在Eq中给出的模型。二、rz11个表达式-zð2Þ4l2c12e- ，其中l是当前迭代，L是最大值迭代训练ANN需要指定损失函数，其可以是平方误差或交叉熵损失函数。2.2. 元启发式算法灰狼优化（GWO）：受到灰狼狩猎行为的启发。由于他们是成群结队地聚集在一起，他们的小组分为四个层次。首先，是领导者的群体代表性-由A.而其他三个级别由b、d和x，其中每个级别的狼有不同的责任。的狼成群捕食，主要是包围猎物，这两个狩猎行为的数学模型方程。（3和4）。当量 3表示距离猎物和狼，在哪里！XPt是猎物的位置，还有！R2是随机载体（Mirjalili等人， 2014年）。3. 该方法本节介绍了使用GWO、PSO和SSA算法训练MLP进行不平衡分类的建议方法。所提出的架构如图所示。二、每一只狼，每一个粒子，或salp表示由向量编码的神经网络模型。该向量包含三组权重;（w11wnm），（w11w）和（b1bk），其中n表示输入特征的数量，m是hid的数量den神经元，w是输入层和隐藏层以及隐藏层和输出层之间的权重。解的向量（ls）的长度由等式（1）9 .第九条。lsnωm2ωm 19迭代地，从进化算法产生的解决方案用于初始化MLP模型，并使用！Dj！C·！XP-！在哪里！C22！R2ð3Þ训练数据集。而测试集则用于对生成的模型进行评估。当量图4展示了狼在靠近猎物！D是每只狼和猎物之间的距离，！a是线性减小的随机变量。3.1. 解表示！X轴þ1Þ¼ ！XP- ！一·！D; Where！一1/42！一7ÞI. Al-Badarneh，M.哈比卜岛Aljarah等人沙特国王大学学报2790·！r1-！一ð4Þ由于目标是优化MLP神经网络算法的连接权重和偏差。因此，这些参数的特征应该以一种定制I. Al-Badarneh，M.哈比卜岛Aljarah等人沙特国王大学学报2791¼ð¼图二. 提出了神经网络参数优化的系统结构。进化算法进化算法表示参数，这些参数需要在称为个体或粒子的矢量表示中进行个体的维度混淆矩阵，其中（TP）是真阳性，（TN）是真阴性，（FP）是假阳性，（FN）是假阴性（Han等人， 2011年）的报告。ual由值的下限和上限范围限定。随后，神经网络模型的个体包含输入层和隐藏层之间的权重系数，权重精度TPTNTP FP FNTN10Þ隐藏层和输出层之间，以及输入和隐藏的神经元。溶液（个体/颗粒）的表示如图11所示。3 .第三章。3.2. 适应度函数而f1-score是灵敏度和精确度的调和平均值定义为Eq。11，其中bP0，灵敏度是真阳性率，特异性是真阴性率，由方程描述。（12和13）。.b21·灵敏度·精密度使用不平衡数据集进行二进制分类时的问题是，训练模型往往会忽略样本F1分数¼sensitivityb·precision11TP从少数人阶级，偏向多数人阶级。实验重复三次，使用三个适应度函数，sensitivity¼FNTP12单独地，每个解决方案在实验期间根据所有适应度函数进行评估。使用的适应度函数是基于包装器的功能，它们是准确性，f1分数，特异性TNFP-100ð13Þ和g-均值，其旨在最大化MLP模型的分类结果。g-均值是灵敏度和特异性的几何平均值（等式10）。14）。准确度是分类器所做正确决策的比率，由等式（1）给出。10个。健身计算是基于G-平均值¼psensitivityxspecificityð14Þ图三.个人的解决方案I. Al-Badarneh，M.哈比卜岛Aljarah等人沙特国王大学学报2792ð Þ4. 初步设置本节提供了实验设置、使用的数据集和评价标准。实验研究了GWO、PSO和SSA在非平衡分类问题中训练神经网络和优化其参数的效率。采用三个目标函数作为优化器的代价函数表2每个数据集的隐藏神经元数量和解决方案的维度大小数据集Number of hidden neuronsDimensionsIris0 9 55玻璃1 19 210车辆分段0 39 820酵母菌3 17 171大肠杆菌3 15 1364.1. 实验装置实验是在个人笔记本电脑上进行的，具有6 GB RAM，和4个核心2.40 GHz。python（3.7）被用于使用Evolopy-NN实现GWO-MLP、PSO-MLP和SSA-MLP（Faris等人，2016年）。Evolopy-NN是一个使用进化算法训练神经网络的开源库。所有数据集被分为75%用于训练和 25% 用于测试（ Campos例如， 2018; Nowak 等人， 2018;Mohammadi 和 Aghashariatmadari ， 2020; Yong 等人， 2020 年 ;Zuínar等人，2020年）。分层抽样用于保持产生的集合中两个类之间的比率。所有实验均进行了(30)不同的独立运行，（50）次迭代，并且总体的大小是（20）。4.2. 不平衡数据集描述使用十个不平衡的数据集进行实验。数据集是从Keel检索的公共数据集（Alcalá-Fdez et al.，2009年），但都是二进制分类数据集。本文既不研究特征提取问题，也不研究特征选择问题。表1描述了数据集，其中包括F#（特征数量）、IR（不平衡比率）、class（0）和class（(1)在训练集和测试集上呈现每个类的实例数量。根据（IR）将10个数据集分为三组;前三个数据集的IR小于2.88，接下来的四个数据集的IR在6.1和8.79之间，最后一组在9.14到13.00之间变化此外，数据集的特征和实例的数量不同，这使得实验在不同的复杂程度上进行。值得一提的是，隐藏神经元的数量和解决方案的维度大小与数据集中的特征数量有关每个数据集的这些参数值见表2。4.3. 评估指标基于准确度、f1评分、g均值以及标准，对GWO-MLP、PSO-MLP和SSA-MLP的结果进行比较元音0 27 406大肠杆菌-0146 13 105偏差结果。有人声称，不平衡数据集的评估不能使用准确度度量进行;因为准确度值受到大多数类的高度影响（Yang等人，2009年）。或者，建议使用其他性能指标评估不平衡数据集;例如f1评分、g均值和曲线下面积（AUC）。对于每个适应度函数，实验报告了四个不同的评估指标; f1-score（Eq. 11）和g-mean（等式11）。14），这是由文献引用，用于测量不平衡数据集问题的分类结果。另一方面，准确度测量（Eq. 10）显示了在不平衡数据集的情况下，与其他指标相比，它是如何被错误使用的。此外，通过计算标准差来检验算法的稳定性.5. 结果本节讨论的结果，分为三个部分的基础上应用的成本函数。5.1. 以精度为代价函数为了显示在不平衡数据集的情况下准确度作为评估度量的缺点;表3显示了将准确度作为适应度函数时的结果。值得注意的是，在所有数据集和三个优化器中，结果都非常高，这表明分类器过拟合多数类而欠拟合少数类。在所有优化器中，10个数据集的F1分数和g均值结果都有所降低。实验结果表明，在不平衡数据集上，准确率是一个容易引起误解的分类性能评价指标。表1不平衡基准数据集的描述。数据集F（#）IR培训测试分类（0）分类（1）分类（0）分类（1）Iris042.0474372612玻璃杯192.09102573519车辆2182.8847016315755Segment0196.01148324749582酵母菌388.199012233041大肠杆菌378.622526759页面块0108.7936844191228140酵母菌-02579-s6889.146767622823元音0139.986736722522大肠杆菌-0146s613.0019415655使用四种不同的评估指标来评估功能。页面块021253酵母菌-02579-s6817171I. Al-Badarneh，M.哈比卜岛Aljarah等人沙特国王大学学报表32793以精度作为成本函数的评估结果数据集算法精度G均值F1得分Avg.最好STD.Avg.最好STD.Avg.最好STD.Iris0PSO-MLP0.9901.0000.0150.9901.0000.0160.9901.0000.021GWO-MLP1.0001.0000.0081.0001.0000.0090.9901.0000.017SSA-MLP0.9901.0000.0220.9901.0000.0160.9901.0000.018玻璃杯1PSO-MLP0.6600.7590.0550.4400.6260.1770.3800.6880.179GWO-MLP0.6900.7960.0570.4800.7280.1520.4200.6490.185SSA-MLP0.6600.7960.0530.4400.7160.1690.3200.6470.208车辆2PSO-MLP0.8000.8580.0320.5300.7550.1280.4100.6460.149GWO-MLP0.8100.8580.0340.5100.8100.1720.4400.8080.184SSA-MLP0.7800.8400.0210.5000.7670.1530.4000.6410.174Segment0PSO-MLP0.8700.8890.0100.2900.6930.1940.2200.5250.140GWO-MLP0.9100.9950.0510.4700.9880.3870.5000.9880.350SSA-MLP0.8700.9340.0180.2100.6080.1810.1200.6230.148酵母菌3PSO-MLP0.9200.9540.0210.5000.8290.3320.5300.7500.254GWO-MLP0.9000.9570.0230.1800.8150.3040.3300.7470.324SSA-MLP0.9000.9430.0210.4400.8400.3680.3100.7730.323页面块0PSO-MLP0.9500.9580.0050.7800.8480.0510.6900.7560.036GWO-MLP0.9500.9590.0040.8000.8440.0190.7300.8000.025SSA-MLP0.9500.9570.0070.7800.8450.0410.7100.7730.030大肠杆菌3PSO-MLP0.9000.9400.0150.6800.8980.1770.4800.7270.165GWO-MLP0.8900.9290.0160.4300.8580.3530.3300.6670.263SSA-MLP0.8900.9290.0160.3700.8460.3660.3900.7370.241元音0PSO-MLP0.9500.9880.0150.6900.9470.1460.6300.8260.141GWO-MLP0.9700.9880.0140.8300.9510.1030.8400.9270.071SSA-MLP0.9500.9800.0180.6500.9250.2100.5700.8110.184大肠杆菌-0146sPSO-MLP0.9601.0000.0310.5201.0000.4210.6001.0000.347GWO-MLP0.9401.0000.0280.3801.0000.4120.4701.0000.402SSA-MLP0.9401.0000.0280.4701.0000.4370.3401.0000.398酵母菌-02579-s68PSO-MLP0.9500.9720.0070.8100.8710.0400.7300.7800.033GWO-MLP0.9500.9640.0160.7200.8540.2240.6500.7910.202SSA-MLP0.9500.9640.0140.7800.8540.1140.6300.8000.205表4基于F1分数作为成本函数的评估结果数据集算法精度G均值F1得分Avg.最好STD.Avg.最好STD.Avg.最好STD.Iris0PSO-MLP0.9911.0000.0200.9931.0000.0150.9841.0000.166GWO-MLP1.0001.0000.0000.9951.0000.0120.9961.0000.013SSA-MLP0.9931.0000.0140.9921.0000.0150.9881.0000.029玻璃杯1PSO-MLP0.5720.7590.0910.5530.7160.1050.5490.6670.040GWO-MLP0.5850.7960.1180.5670.6960.0840.5700.7060.051SSA-MLP0.5600.7590.0780.5570.7040.0900.5700.6450.039车辆2PSO-MLP0.7470.8350.0560.7060.8250.0540.5980.6860.054GWO-MLP0.7670.8870.0830.7340.8430.0680.6070.6960.068SSA-MLP0.7200.8490.0970.7360.8310.0440.5730.7300.065Segment0PSO-MLP0.8080.9030.0860.7420.8660.0700.4940.7300.104GWO-MLP0.9650.9980.0440.9590.9970.0610.8680.9820.116SSA-MLP0.7930.9380.1360.7620.9490.0790.4770.6760.106酵母菌3PSO-MLP0.9420.9600.0100.8200.8810.0370.7120.7860.065GWO-MLP0.9440.9540.0090.8200.8790.0250.7280.7850.032SSA-MLP0.9200.9540.0230.7970.8840.0490.6420.7470.081页面块0PSO-MLP0.9420.9560.0070.8350.8830.0260.7060.7840.082GWO-MLP0.9480.9660.0100.8500.9250.0340.7470.8110.032SSA-MLP0.9410.9580.0090.8290.0490.0390.7090.7710.040大肠杆菌3PSO-MLP0.9080.9520.0200.8240.9110.0570.6380.7620.062GWO-MLP0.9040.9400.0160.8200.8980.0480.6280.7270.042SSA-MLP0.9030.9290.0160.7930.8980.0750.6160.7270.065元音0PSO-MLP0.9560.9840.0190.8250.9680.0880.7170.8720.094GWO-MLP0.9790.9920.0070.8880.9510.0620.8600.9770.078SSA-MLP0.9490.9720.0140.7960.9340.0730.7170.8640.102大肠杆菌-0146sPSO-MLP0.9491.0000.0280.9511.0000.0580.7681.0000.149GWO-MLP0.9751.0000.0220.9431.0000.0660.8001.0000.120SSA-MLP0.9281.0000.0580.9261.0000.0830.7590.9090.114酵母菌-02579-s68PSO-MLP0.9500.9680.0110.8240.8540.0230.7200.7730.053GWO-MLP0.9530.9640.0060.8200.8750.0270.7300.8100.131SSA-MLP0.9520.9680.0090.8050.8520.0450.7300.7890.118I. Al-Badarneh，M.哈比卜岛Aljarah等人沙特国王大学学报2794表5基于g-mean作为成本函数的评价结果数据集算法精度G均值F1得分Avg.最好STD.Avg.最好STD.Avg.最好STD.Iris0PSO-MLP0.9971.0000.0080.9961.0000.0090.9931.0000.018GWO-MLP0.9961.0000.0120.9991.0000.0050.9971.0000.014SSA-MLP0.9891.0000.0230.9951.0000.0100.9911.0000.020玻璃杯1PSO-MLP0.5890.7590.0830.5730.7040.1620.5270.6250.107GWO-MLP0.6440.8330.0960.6200.7360.0530.5490.6860.050SSA-MLP0.6260.7780.0920.6030.7390.0590.5500.6450.046车辆2PSO-MLP0.7230.8110.0520.7180.8320.0560.5660.6950.098GWO-MLP0.7470.9100.0590.7540.8620.0440.5890.7140.071SSA-MLP0.7370.7920.0370.7300.8090.0410.5940.8140.057Segment0PSO-MLP0.7310.8580.0700.7450.8620.0520.4830.8420.121GWO-MLP0.9300.9980.0620.9400.9990.0520.8200.9820.111SSA-MLP0.7170.8800.0800.7790.9000.0600.4640.7080.111酵母菌3PSO-MLP0.8890.9510.0290.8770.9250.0320.6340.7220.049GWO-MLP0.8880.9140.0160.8830.9090.0170.6330.7130.043SSA-MLP0.8660.9300.0320.8590.9190.0340.5990.7060.048页面块0PSO-MLP0.8910.9200.0210.8910.9230.0150.6320.6970.031GWO-MLP0.9040.9220.0090.8980.9300.0150.6640.7190.028SSA-MLP0.8980.9230.0130.8790.9130.0240.6430.6940.035大肠杆菌3PSO-MLP0.8830.9400.0350.8430.9110.0390.5970.7000.059GWO-MLP0.8730.9170.0340.8460.9170.0400.5850.7270.069SSA-MLP0.8640.9520.0450.8480.9380.0440.5660.8000.086元音0PSO-MLP0.8980.9510.0340.9000.9660.0370.6420.8400.089GWO-MLP0.9620.9880.0220.9530.9890.0330.8300.9550.076SSA-MLP0.9000.9720.0680.8880.9710.0610.6370.9330.105大肠杆菌-0146sPSO-MLP0.9070.9860.0400.9441.0000.0340.6491.0000.110GWO-MLP0.9130.9860.0320.9390.9920.0390.6371.0000.116SSA-MLP0.8970.9570.0410.9310.9840.0440.6140.8330.101酵母菌-02579-s68PSO-MLP0.9430.9560.0070.8520.8890.0190.6930.7500.035GWO-MLP0.9410.9600.0100.8500.8930.0200.7010.7560.025SSA-MLP0.9270.9480.0210.8430.8850.0240.6800.7440.040见图4。比较PSO-MLP在三个适应度函数和三个评估指标上的性能。I. Al-Badarneh，M.哈比卜岛Aljarah等人沙特国王大学学报2795图五.比较GWO-MLP在三个适应度函数和三个评估指标上的不平衡率性能。5.2. 以f1-score为代价函数，将f1评分视为目标函数;表4列出了所有拟议方法的三种评价指标的结果。当使用f1-score作为拟合函数时，f1-score的结果增加SSA-MLP在四个数据集上优于PSO-MLP：Iris 0，Glass 1，Page-blocks 0和Yeast-0259-s68 。 SSA-MLP 和 GWO-MLP 的性能相同，但 SSA-MLP在两个数据集上的性能可以看出，SSA-MLP在两个数据集：虹膜0和元音0中的表现与PSO-MLP相同在g均值结果方面，SSA-MLP在三个数据集中的表现优于PSO-MLP;玻璃1、溶剂2和片段0。此外，在三个数据集中，SSA-MLP的标准差结果最低。就准确性而言，结果是最高的。然而，对于不平衡的数据来说，它是不可靠的，因为在计算精度时没有考虑矿工类别5.3. 以g-mean为代价函数的结果将g均值作为目标函数;表5列出了平均准确度、f1评分和g均值的结果GWO-MLP在60%的数据集的准确性方面优于其他数据集，在70%的数据集的g均值方面优于其他数据集。而PSO-MLP在40%的数据集上的准确性更好。即便如此，就f1分数而言，GWO-MLP确实在50%的数据集中，PSO-MLP在30%的数据集中表现更好，而SSA-MLP在20%的数据集中表现更好。可以看出，当我们还使用g-均值作为评估度量时，使用g-均值作为成本函数提供了最佳结果。SSA-MLP在四个数据集中的表现优于PSO-MLP; Glass 1，Vehicle 2，Segment 0和Ecoli 3。此外，SSA-MLP在最后列出的数据集中优于GWO-MLP。溶剂2中SSA-MLP的标准差最低。另一方面，使用SSA-MLP的Iris 0中g均值的标准差与GWO-MLP相似。尽管如此，注意到准确度结果通常高于f1分数和g均值。总的来说，很明显，当使用所有评估指标和不同的适应度函数时，三个优化器的结果非常有竞争力。GWO-MLP似乎在三个实验中产生最好的结果。然而，GWO-MLP在其过程中执行更多的计算，因为它考虑了第一个获得的三个最佳解，并试图改善这些结果。而SSA-MLP算法由于其自适应机制和跟随跳的渐进运动避免了局部最优解的停滞，因此简单易行，能产生有竞争力的结果。图4 -6证明了这些发现，其中很明显，当准确度是适应度时;那么准确度作为评估度量是最高的，并且分类器过拟合数据集中的主要类。然而，当适应度为f1-score时，则f1-score是评价度量中最好的，g-mean适应度也是如此。尽管如此，从数字中可以明显看出，I. Al-Badarneh，M.哈比卜岛Aljarah等人沙特国王大学学报2796见图6。基于不平衡比的三种适应度函数和三种评价指标的SSA-MLP性能比

下载后可阅读完整内容，剩余1页未读，立即下载