超启发式算法结合训练前馈神经网络的研究

12 浏览量更新于2024-01-07 收藏 852KB PDF 举报

前向神经网络

人工神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程科学与技术，国际期刊35（2022）101261一种基于超启发式的前向神经网络Fehmi Burcin Ozsoydana，a，I_ lker GölcükbaDokuz Eylül大学工程学院工业工程系Izmir35397，土耳其b土耳其伊兹密尔35665伊兹密尔巴克赛大学工业工程系阿提奇莱因福奥文章历史记录：接收日期：2022年2022年6月21日修订2022年9月7日接受2022年9月19日网上发售保留字：人工神经网络机器学习超现实主义粒子群优化花授粉算法差分进化算法A B S T R A C T人工神经网络（ANN）在许多研究领域提供了独特的机会。由于其卓越的泛化能力，它们在解决分类、函数逼近、模式识别和图像处理等具有挑战性的问题时引起了人们的注意关于ANN最重要的问题之一是训练过程。这个阶段的目标是找到ANN参数的最佳值，例如权重和偏差，这些参数确实嵌入了网络的全部信息。传统的基于梯度下降的训练方法包括各种算法，其中反向传播是最著名的算法之一。这些方法已经被证明表现出出色的结果，然而，它们已知有两个主要的理论和计算限制，这是缓慢的收敛速度和可能的局部极小值问题。为此，许多随机搜索算法和启发式方法已被单独用于训练ANN。然而，在相关文献中，将不同优化器的不同特征结合在一起的方法仍然缺乏在这方面，本文的目的是开发一种基于超启发式（HH）框架的训练算法，它确实类似于基于强化学习的机器学习算法。所提出的方法用于训练前馈神经网络，这是人工神经网络的具体形式。该算法采用粒子群优化（PSO）、差分进化（DE）算法和花形算法（FPA）等元启发式算法作为底层算法。基于反馈机制，建议HH学习整个时代，并鼓励或劝阻相关的元启发式。因此，由于其随机性质，HH试图避免局部最小值，同时通过增加在训练期间调用相对更有希望的搜索的概率来更方便地利用搜索空间中的有希望区域。所提出的方法在函数逼近和分类问题中进行了测试，这些问题已从UCI机器学习库和现有文献中获得。通过大量的实验研究和统计验证，表明本文提出的基于HH的训练算法具有明显的改进，其性能明显优于某些比较优化算法。©2022 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍人工神经网络（ANN）[1]具有显著的特点和显著的进步，为复杂和非线性问题的建模开辟了新的机会。由于受到人类大脑处理系统的数学和生物学启发[2]，ANN被称为能够执行与人工智能相关的各种任务*通讯作者。电子邮件地址：burcin. deu.edu.tr（F.B. Ozsoydan）。由Karabuk大学负责进行同行审查。gence研究领域由于人工神经网络在回归分析、图像处理、分类、模式识别、预测、机器人和信号处理等广泛的研究领域中表现出出色的性能[3]，因此它们引起了机器学习和人工智能领域研究人员的注意。与ANN相关的最重要的问题之一是训练阶段。在对问题数据进行正确预处理的前提下，人工神经网络的泛化能力主要取决于训练阶段的成功。因此，在这个阶段采用的算法变得至关重要。一般来说，可以在训练阶段使用的算法可以分为两个主要的https://doi.org/10.1016/j.jestch.2022.1012612215-0986/©2022 Karabuk University.出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：www.elsevier.com/locate/jestchF.B. Ozsoydan和I_. 格尔丘克工程科学与技术，国际期刊35（2022）1012612类别，如确定性和基于启发式的算法。前一类主要包括基于梯度下降的训练方法，其中反向传播[4]是最著名的方法之一。这些方法已经显示出显着的效果，然而，它们已知有两个主要的理论和计算限制，这是缓慢的收敛速度和可能的局部极小值问题。此外，它们与搜索空间的初始坐标有很作为后一类算法，元启发式算法由于其内在的随机搜索机制而被认为能够避免局部最优此外，如在基于梯度下降的方法中，不使用激活函数和误差函数的导数信息，因此所选择的激活函数和误差函数不一定必须是可微的。然而，元启发式算法需要更多的CPU使用，并且它们比确定性优化算法慢[5]。尽管如此，正如下一节所讨论的，由于这些显着的优点，它们已被广泛用于训练ANN元认知在各个研究领域都表现出了突出的性能，并且可以通过一些强化机制来进一步在这种情况下，超强化（HH）[6]作为高级强化机制出现，它使用一组低级强化。它们可以通过基于整个搜索过程中收集的反馈的学习机制来增强。此外，他们可以部署各种元分析算法，以利用他们的个人和独特的功能。从相关文献中可以看出，但是仍然缺少这些优化器的特征由于这些问题的动机，本文旨在开发一种基于HH框架的训练策略来训练前馈神经网络（FNN），这实际上是人工神经网络的具体所提出的HH采用粒子群优化（PSO）[7-它通过强化学习机制来增强，该机制根据相关算法的性能来鼓励或阻止相关算法。因此，HH试图通过偶尔调用朴素算法来避免局部最小值，同时通过增加在训练期间调用更有希望的算法所提出的训练策略在函数逼近和分类问题中进行了测试，这些问题已从UCI机器学习知识库和现有文献中采用。实验结果表明，该方法可以显著提高系统的性能。本文的其余部分组织如下：第二部分回顾了相关文献。所有使用的算法和相应的细节在第3节中详细解释。实验研究和结论分别在第4节和第5节中报告。2. 相关工作Sexton和Gupta[11]比较了遗传算法（GAs）和反向传播方法在训练ANN中的性能。一年后，Kuo等人[12]介绍了一种基于GA的模糊神经网络作为智能股票交易决策支持系统。Lu等人[13]报告了一个PSO训练的多层感知器（MLP）来预测香港市区的污染物水平。根据本研究的结果，所提出的方法取得了可喜的成果。同年，Gudise和Venayagamoorthy[14]比较了反向传播和PSO的性能Pendharkar和Rodger[15]使用采用各种重组技术的遗传算法来训练MLP。JUANG[16]使用一个遗传算法和粒子群算法混合求解递归神经网络的最优设计参数。Liu等人报道了另一种用于多光谱图像分类的进化FNN的GA。[17]。一年后，Da和Xiurun[18]提出了一种改进的PSO，该PSO也可以选择关于概率选择机制的非改进粒子。Yu等人。[19]提出了一种改进的PSO，它在搜索过程中调整自己的参数，以评估分类问题的MLP参数。根据报告的结果，PSO显示出巨大的潜力，用于训练MLP。同年，Zhang等人。[20]使用反向传播方法和PSO的混合来解决分类和函数逼近问题。在所提出的方法中，如果粒子群算法停滞在同一个坐标上一段时间，反向传播调用，使一个详细的搜索周围找到的有希望的区域。Yu等人。[21]提出了两种PSO变体来确定FNN的结构和权重，用于分类任务。在这方面，作者提出了一种专门的编码技术，可以同时处理这两个不同的问题。Kiranyaz等人。[22]提出了一种基于PSO的进化神经网络，以找到FNN的最佳超参数Khan和Sahai[23]使用包括PSO和GA在内的几种元启发式算法来训练FNN。作者将发现的结果与基于梯度下降的训练算法发现的结果进行了比较。正如作者报告的那样，Meta启发式算法的结果被认为是优越的。同年，Kawam和Mansour[24]报告了几种生物启发算法，训练FNN完成分类任务。同年，Rakitian- skaia和Engelbrecht[5]提出了一种动态PSO，能够处理动态分类问题的动态决策边界，由ANN建模。Mirjalili等人。[25]采用Meta启发式算法来训练FNN用于分类和近似问题。一年后，Askarzadeh和Reza- zadeh[26]采用生物启发的元启发式算法来训练FNN。在他们的研究中，Piotrowski等人[27]比较了几种Meta分析方法来训练用于预测河流温度的MLP。Mirjalili[28]采用生物启发算法来训练MLP。根据报告的结果，该算法表现出良好的性能函数逼近和分类任务。Kowalski和Kowakasik[29]采用另一种生物启发式元启发法来训练FNN进行分类任务。同年，Faris等人。[30]测试了最近的生物启发算法在训练MLP中的性能。根据报告的结果，该算法被发现是有前途的。Göçken等人。[31]使用GA来选择可以表示所需输出的属性的最佳子集。作者还使用基于梯度下降的方法来找到FNN的权重。Ghasemiyeh等人。[32]使用元启发式算法来训练FNN来预测股票价格。为了训练用于分类问题的FNN，Aljarah等人采用了其他几种元启发式算法。Khatir等人。[34]采用PSO来训练MLP，该MLP在复合材料层合板中进行损伤评估。同年，Tran-Ngoc等人[35]报告了另一项研究，该研究引入了用于桥梁和梁状结构损伤检测的ANN。作者使用生物启发式元启发式算法来训练拟议的ANN。一年后，Rojas-Delgado等人[36]提出了一种连续方法来降低MLP的计算复杂度。作者报告说，所提出的方法可以将完成训练所需的时间减少约5- 30%，而不会在统计上显著损失准确性。Turkoglu和Kaya[3]通过使用各种分类数据集，比较了几种基于种群的元启发式算法在训练FNN时的性能。Ansari等人。[37]应用混合Meta启发式算法来训练另一个用于破产预测的FNN。Tran-Ngoc等人。[38]采用基于混合进化的元启发式算法来训练MLP。根据报道的结果，该方法被认为是有前途的。F.B. Ozsoydan和I_. 格尔丘克工程科学与技术，国际期刊35（2022）1012613BJK.Pn11IWBJKK.PIJ××i¼1iIJBMeng等人。[39]使用相同算法的改进版本来训练MLP用于函数近似和分类任务。Al Thobiani等人。[40]提出了一项研究，报告了用于定义ANN参数的生物启发算法。Ouladbrahim等人[41]介绍的一项最新研究采用另一种生物启发的元启发式方法来训练ANN，以根据不同的输入值预测裂纹长度。同年，Oulad- brahim等人[42]报告了一种人工神经网络，用于预测Gurson-Tvergaard-Needleman损伤模型的参数，结合硬化定律，根据化学成分预测API X70钢管的牵引和冲击性能。Khatir等人[43]提出了一种使用柔度指数的增强损伤指标，作者将其应用于不同的复杂结构，以预测损伤的确切位置。贝奈萨等人[44]提出了一种新的元启发式算法，该算法具有由几个简单形式主义指导的搜索空间缩减能力。Kha- tir等人[45]介绍了两阶段方法，用于分析功能梯度材料板结构中的损伤检测、定位和量化。最后，最近提出了一个详细的调查，关于使用元分析在训练人工神经网络Chong et al. [46].从相关文献中可以看出，研究人员已经使用了各种然而，通过利用强化学习方法将这些优化器的不同特征结合在一起的方法仍然缺乏。这构成了本研究的主要动机。3. 使用的解决方法3.1. 人工神经网络图1.一、具有单个隐藏层的FNN的图示隐藏层中的第j个神经元到输出层中的第k个神经元由W2表示。最后，i，b1和b2表示输入值、隐藏层的偏置值和输出层的偏置值。因此，对于使用逻辑（S形）激活函数的FNN，可以评估输出值基于Eqs。其中out H j和out O k分别表示隐藏层最后，均方误差（MSE），这是一个误差函数，p最小化，由Eq. （3），其中S，outOk，outOkp表示输出层中样本的数量、第p个实例的第k个神经元的预测值以及第p个实例的第k个神经元的实际输出值。这里的目标是通过找到最佳的权重和偏差值，以提高神经网络的泛化能力，以最输出Hj<$18j10-×þ受人类大脑的启发，人工神经网络实际上是数学模型，其能够执行诸如回归、图像处理、分类、模式识别、预测外O^1k2机器人和信号处理人工神经网络是一种网络，由一组按层排列的处理单元（神经元）组成，权重（突触）将这些神经元相互连接起来。早期千分之四第一条-H第1页输出Hj×w2b28MSE¼1XS Xm .outObp-outOp23人工神经网络的研究表明，它们只能对线性空间建模。然而，正如后来的研究[5，47，48]理论上所证明的那样，具有足够多的隐藏层的ANNSp¼1k½ 1k k多个神经元具有在非线性和复杂空间中在输入和目标特征我们可以很容易地生成一个人工神经网络，如果层数，每层中的神经元数量和权重值给出了这里的优点是找到这些参数的最佳值。假设层的数量和每层中的神经元的数量被定义，其中权重被优化的剩余过程被称为训练阶段。训练是人工神经网络中最重要的阶段之一，因为它直接影响人工神经网络的泛化能力。一个成功训练的人工神经网络能够近似输出以前从未见过的数据模式。因此，ANN的信息实际上嵌入到其权重中。具有正向流的ANN被称为FNN。在FNN中，信号仅在前向方向上传播。此外，具有至少单个隐藏层的ANN被称为MLP，并且由于它们的能力，它们是最常用的ANN之一。具有单个隐藏层的FNN的图示由图2描绘。1.一、图中的三层。 1依次表示输入层、隐藏层和输出层。输入层中的神经元的数目由n表示，隐藏层和输出层中的神经元的数目分别由h和m表示。虽然将输入层中的第i个神经元连接到隐藏层中的第j个神经元的权重由w1表示，但是将输入层中的第i个神经元连接到隐藏层中的第j个神经元的权重由w 1表示。3.2. 神经网络编码解向量由两个主要部分组成。第一部分用于对偏置值进行编码，而下一部分用于保持层之间所有现有权重的值。population由popSize解向量组成，每个解向量具有长度nDim，其等于也可以通过nh+h m+h+m计算的总偏置和权重的数量，其中n、h和m分别表示输入层、隐藏层和输出层中的神经元的数量。种群中的解向量对应于不同的FNN。换句话说，种群可以对popSize不同的FNN进行编码，并且这些FNN中的每一个都是通过在整个迭代过程中共享信息和一些继承机制来进化的。3.3. 粒子群优化PSO[7-它利用方程组搜索问题空间4（pbest）和全局最佳解（X best）影响粒子的移动速度（解向量）。这些方程中的参数v ij、w、c1和c2表示第i个粒子在第j个粒子处的速度。尺寸，惯性系数和加速系数。虽然它可以作为一个固定参数，通过-1个月e我F.B. Ozsoydan和I_. 格尔丘克工程科学与技术，国际期刊35（2022）1012614（。Σ.Σ.Σ.- 是的 Σ我2½]我我我我JK我我我31F.X← f. U2F.X ← f. X轴.Σ.Σ搜索，如Mirjalili et al. [25]第t次迭代的惯性系数wt通过使用方程计算（6）以减小惯性对搜索结束的影响。在此等式中，wmax、wmin和maxIter表示3个用户提供的参数uijt1¼如果randj≤CR xij t，则mij t ≥ 1，否则ð9Þ表示w的最大值和最小值，最大迭代次数。算法1给出了规范PSO的伪代码。vij¼wvijc1×rand×pbestij-xijc2×rand×。x最佳;j-xij最佳4次xij¼xijvij5最大值（t）wmax-wmin=maxIter6算法1. PSO的伪代码1：初始化PSO2：创建初始粒子，评估适应度值3：while（不符合终止标准）算法2. DE的伪代码。1：初始化DE2：创建初始种群，评估适应度值3：while（不符合）4：for（i= 1to popSize）5：创建突变载体M1tB16：应用xover以创建试验向量Uitt i7：评估Uit 18：如果f U it1优于f Xit9：Xt1←Ut110：t1t 1我我11：其他12：Xt1←Xt4：for（i= 1to popSize）5：for（j= 1to dim）6：评估vij 经由等式（四）7：通过等式更新x ij 5-68：结束9：评估新粒子的适应性10：必要时更新Xbest11：结束12：结束时13：打印X最佳14：//popSize：种群大小15：//dim：粒子的维数3.4. 差分进化算法DE[9]是本研究中使用的另一种优化器。它根据个体之间的估计距离经过几代人进化。DE采用了进化算法中的交叉、变异、选择等遗传算子。虽然存在DE的各种修改，但这里使用的是DE/rand/1/bin，这是最常用的扩展之DE从一个随机人口开始，由Eq.其中xijt表示迭代t时第i个解向量的第j维的值。在这个等式中，randj2<$0;1 <$是第j维的随机数，ubj和lbj是相应维的上界和下界。接下来，对于每个目标，载体Xit，突变载体Mit 1是基于Eq.13：t1t我我14：如果结束15：结束16：必要时最好更新X第17章：结束18：打印X最佳19：//popSize：种群大小3.5. 花型极化算法FPA[10]作为全球和本地授粉，有两个主要过程.在全局授粉过程中，新的解决方案产生的基础上的全局最佳位置，已经表示为X最好的。该程序采用Lévy飞行来模仿昆虫，苍蝇等的运动。其中xt，Xbest和L表示在第t次迭代时的第i个解向量，由该算法找到的全局最优解和由等式（10）给出的Lévy分布。（十一）、在该等式中，C（k）表示对于大步长有效的标准伽马函数。正如Yang [10]所提出的，在所有实验中，k也固定为1.5。第二程序，这是被称为本地授粉（非生物授粉），是由方程。其中，e是随机向量2≠ 0;1 ≠ 0，xt和xt是在第t个处的两个随机选择的解向量。，分别。FPA关于由p0; 1表示的用户提供的参数在运动过程之间切换。算法3给出了典型FPA的伪代码其中r1、r2、r3是随机整数，表示索引，并且F是用于调整差异向量的效果随后，x t1¼x tL.xt-X最佳100万突变体载体，其由Eq.与靶载体杂交，以产生试验载体Uiti i，其中randj2<$0;1<$是一个随机数，CR2½0;1]是交叉数。L~kCksinpk=2ss0>0001111xt1¼xts。xt-xtk过高的利率。最后，评估第i个试验向量Uit 1的适应度如果i i j k它优于目标向量Xit，Uit 1的适应度，Xit= 1，否则将Xit结转到下一代。算法2给出了正则DE的伪码xi j1½randj×u bj-l bjl bji2½1;popSiz e]，j2½1;di m]（7）.M it1¼X rtF×X rt-X rtr1;r2; r32½1;popSize];r13.6. 基于超启发式的强化学习超启发式是一种基于强化学习的高级启发式，它采用一组低级启发式[6]。虽然它们通常通过基于反馈的学习机制得到加强，但它们在选择低水平技能时也会表现出随机行为。虽然那些低级的机器人可以执行一些ps100kF.B. Ozsoydan和I_. 格尔丘克工程科学与技术，国际期刊35（2022）1012615←←≤←←←≤þ←þ≤DK-d0xd16¼ðÞK.fgbest.的情况。p3dt简单的基于语法的移动，如交换、删除、插入等，它们也可以被选择为已经是独立的随机搜索算法的一些元搜索算法算法3.标准FPA的伪代码1：初始化FPA2：创建初始解决方案，评估适应度值3：while（不满足）4：for（i= 1到popSize）5：如果randp<6：从Lévy分布生成向量L（等式6）。（11））7：应用全局（生物）授粉（等式（11））（10））8：其他9：生成随机向量s10：应用本地（非生物）授粉（等式11）。（12）11：结束，如果12：评估新解决方案的适用性13：必要时更新新解决方案14：结束十五：必要时更新全局最佳解Xbest十六日：end while十七：打印X最佳十八日：//popSize：人口规模在本研究中使用的HH框架中，PSO，DE和FPA被用作底层算法。反馈机制[49，50，51]在以前的出版物中被证明能够实现有希望的结果，在这里被采用作为学习机制，它促进了更成功的算法，同时隐含地阻止了其余的算法。在该方法中，其由Eqs.图13低级启发式和dk是计算xk的变量，其表示发送第k个低级算法的归一化选择概率。具有相同的xk值。将所有机制结合在一起，由算法4给出了所提出的HH机制的伪代码算法4.所提出的HH的伪代码。1：初始化PSO2：初始化DE3：初始化FPA4：创建初始解决方案，评估适应度值5：while（不符合）6：生成rand20;107：ifrandx1//调用PSO8：k19：newPop PSO（pop）10：如果结束11：如果rand>x1且randx1x2//调用DE13：k214：newPop DE（pop）15：如果结束16：如果rand>x1x2且rand1： 00//调用FPA17：k318：newPop FPA（pop）19：如果结束20：评估gk dk28：针对第k个算法更新xk29：必要时更新全局最佳30：结束，而31：打印X最佳32：// pop：当前人口33：// newPop：新的人口4. 实验结果4.1. 算法参数g¼. fnew-fgbest. 8k¼1; 2;3 13dk¼xkDHH×gk8k¼1; 2; 314xk¼8k¼1 23 15t1/2在所提出的方法中，所有的算法工作在相同的population。例如，虽然PSO在第t次迭代时进化种群，但是可以选择任何其他算法来在迭代t+1时进化种群选择概率是基于Eq.（15），其归一化了由等式（15）计算的相对改进（十三）、每当要调用算法时，都会生成一个随机数rand20; 1，在xk 值，进行轮盘程序，定义获胜者，它有机会进化种群。很明显，更大的相对改进产生更大的xk值，这增加了相关算法的选择机会。从这个过程可以看出，具有较低xk值的朴素算法也有机会被选择。这实际上避免了从局部最优和过早收敛问题进行搜索，这些问题与学习速度密切相关，因为过度鼓励或过度劝阻所使用的算法可能会产生糟糕的结果。学习的速度可以通过使用不同的DHH值来调整。虽然太小的DHH值可能导致收敛太慢，但更大的值也可能导致局部最优问题。最后，应该注意到所有算法都是初始的-以及优化器参数的校准。在本研究中使用的FNN假设有一个单一的隐藏层。因此，在隐藏层中的神经元的数目的适当值尝试被单独地校准为不同的数据集为了找到合适的参数，通过尝试各种值进行了全面的初步工作相应地，表1给出了找到的有希望的值，表1将所有优化器相关参数放在一起。这些值在所有实验中使用，这些实验在具有i7-4700 HQ CPU和16 GB RAM的PC上进行。初始种群包括所有算法的所有权重和偏差粒子群算法的速度值也是随机初始化的当使用独热编码技术来处理分类问题中的类别特征时，实值特征被归一化为相对于Eq.其中xd、xmin、xmax和x0d表示第d个数据相关特征的最小值和最大值第d个数据的特征和归一化值。x x最小D 1/4xmax-xmin8mm4.2. 函数逼近在本研究中，函数y sin 2 xe-x[25]用作近似函数，如图所示。二、因为它本研究中的参数标定可以分为两类，F.B. Ozsoydan和I_. 格尔丘克工程科学与技术，国际期刊35（2022）101261表66优化器参数。参数popSizemaxIterC1C2w最大w最小值FCRpKDHHPSO10010001.801.800.100.01NaNaNaNaNaDE1001000NaNaNaNa0.50.1NaNaNaFPA1001000NaNaNaNaNaNa0.81.5NaHH10010001.801.800.100.010.500.100.81.50.1具有单输入和单输出，训练的FNN具有1-h-1的拓扑，其中h是隐藏层中的神经元的数量。正如Mirjalili等人提出的那样。[25]，测试了h= 3，4，5，6和7区间[0，p]中的数据集，增量为0.015使用。生成的数据分别被划分为80%和20%用于训练和测试。因此，虽然数据的总数是210，但是训练数据和测试数据的数量分别是168和42。训练和测试数据都是从整个数据集中随机选取的。该基准的所有获得的结果由表2呈现。虽然该表中最左边的列表示隐藏层中的神经元数量，但其余列显示训练和测试数据集的均方误差（MSE）的平均值、中位数、标准差和最佳结果。CPU列表示相关优化器所需的平均CPU时间。所有报告的结果均通过10次独立重复进行评价。从表2中可以看出，随着隐藏层中神经元数量的增加，算法在某种程度上倾向于获得更好的结果使用大于5的h值对于某些算法在最佳MSE值方面没有明显的贡献在这方面，虽然hhFNN在h等于3、5和6的训练和测试数据集的最佳MSE方面实现了最佳结果，但pso FNN在h等于4和7的其余数据集中获得了相同的训练和测试结果在平均MSE值方面，虽然hhFNN在h= 5时表现最好，但psoFNN，deFNN和fpaFNN在h= 4时对训练数据集实现了最佳结果对于中值MSE性能度量也可以报告类似的结果，除了deFNN和fpaFNN，其再次对于训练数据集在h= 3时表现最佳。考虑到MSE值的标准偏差，可以提出psoFNN和deFNN在实现最小标准偏差值方面优于hhFNN和fpa正如表2的最后一列所报告的，每个相关的优化器都需要类似的CPU时间对于psoFNN、fpaFNN和deFNN，hhFNN的最终增强概率分别为0.5160、0.2049和0.2791。这也验证了hhFNN的成功主要来自于使用psoFNN和deFNN的组合，这是与前一个相似的发现。作为一个整体的评估，hhFNN和psoFNN似乎表现出更有前途的性能相比，deFNN和fpaFNN。在以下小节中，进行进一步的统计分析以证明是否存在显著差异。h= 5时所有优化器的平均收敛图如图3所示。因此，训练数据集的收敛、测试数据集的收敛、hhFNN在训练和测试数据集上的收敛以及hhFNN的增强概率的收敛分别由图3a、图3b、图3c和图3d呈现。从图3a和图3b可以看出，hhFNN表现出训练和测试数据集的最有希望的收敛，而fpaFNN不能被认为是有希望的其他优化器。图3.d也验证了这种情况，其中每个数据点代表xk（等式3.d）。（15）对于相关的国际条约机构--图二.一个插图... y<$sin 2xe-x调用fpaFNN的机会应该最小，而psoFNN和deFNN应该被提升。最后，图4说明了hhFNN执行的泛化，其中蓝色方块表示测试数据，其余数据点表示训练数据。4.3. 分类问题如前所述，分类数据集包括分类数据和数值数据。当使用独热编码技术来处理分类特征时，实值特征相对于Eq被归一化。（十六）、具有单个隐藏层的FNN也用于这些问题。隐藏层中的神经元数量固定为小于相关数据集的特征数量的两倍所有使用的数据集均从UCI机器学习储存库1获得，并且所有获得的结果由表3呈现。在此表中，根据Iris数据集的结果，所有使用的算法在训练和测试中均达到相同的最佳MSE值。然而，psoFNN和deFNN在平均MSE、中值MSE和标准差方面似乎更有前途。dev.此数据集中的MSE。在电离层数据集中，虽然hhFNN在最佳MSE方面实现了训练和测试的最佳结果，但令人惊讶的是，fpaFNN实现了与hhFNN相同的最佳MSE。然而，与deFNN和fpaFNN相比，pso FNN和hhFNN似乎在找到更好的平均MSE，中值MSE和标准差方面再次表现出更好的dev.此数据集中的MSE。根据Breast数据集，虽然hhFNN在训练阶段获得了最佳结果，但deFNN具有更好的泛化能力，准确率为100%。因此，虽然fpaFNN和hhFNN在找到最佳平均MSE和中值MSE方面更有前途，但deFNN和psoFNN对于相同的性能指标具有更好的泛化能力。最后，对于澳大利亚数据集，hhFNN和psoFNN分别在训练和测试阶段成功地找到了最有希望的最佳MSE值，而deFNN和fpaFNN在训练阶段找到最佳平均MSE值方面表现更好。分类数据集的所有优化器的平均收敛图如图5所示。从图5c可以看出，虽然hhFNN在训练时表现出最有希望的收敛性，行动。显然，每个数据点的总和应等于团结根据图 3d，hh FNN在整个迭代过程中学习，1https://archive.ics.uci.edu/ml/index.php。F.B. Ozsoydan和I_. 格尔丘克工程科学与技术，国际期刊35（2022）101261表77所用算法在函数逼近问题上的性能H算法平均MSE中位MSESTD. dev. MSE最佳MSECPU火车测试火车测试火车测试火车测试（秒）3粒子群模糊神经网络0.00210.00180.00210.00150.00080.00070.00110.001032.72deFNN0.00160.00140.00110.00100.00060.00060.00110.000933.03fpa模糊神经网络0.00400.00420.00280.00220.00360.00540.00220.001631.49hhFNN0.00190.00210.00210.00240.00040.00050.00100.000834.524粒子群模糊神经网络0.00100.00150.00090.00150.00050.00060.00030.000432.15deFNN0.00180.00180.00210.00220.00050.00070.00090.000731.84fpa模糊神经网络0.00360.00490.00340.00470.00120.00160.00210.003135.07hhFNN0.00240.00210.00190.00160.00150.00130.00090.000835.035粒子群模糊神经网络0.00170.00170.00160.00170.00060.00060.00090.000836.82deFNN0.00150.00460.00150.00180.00070.00690.00070.000734.73fpa模糊神经网络0.00410.01120.00300.00740.00250.00880.00200.001933.04hhFNN0.00070.00060.00080.00070.00030.00030.00010.000136.426粒子群模糊神经网络0.00150.00140.00120.00090.00090.00120.00080.000637.19deFNN0.00160.00500.00200.00260.00060.00640.00050.000736.05fpa模糊神经网络0.00350.01120.00340.01120.00110.00890.00210.001936.92hhFNN0.00320.00230.00130.00160.00540.00270.00030.000337.147粒子群模糊神经网络0.00130.00140.00110.00120.00070.00080.00020.000238.62deFNN0.00170.00220.00220.00270.00050.00080.00080.000935.22fpa模糊神经网络0.00360.00330.00360.00290.00120.00090.00220.002636.16hhFNN0.00170.00210.00110.00140.00170.00180.00030.000637.19图三. a）训练数据集的平均MSE值b）测试数据集的MSE的平均值c）hhFNN的训练和测试数据集的MSE的平均值d）hhFNN在迭代中的增强概率见图4。用于训练和测试数据的y<$sin<$2x<$e-x的近似的图示电离层数据集的阶段，图。 5a和图 5 d验证了de FNN分别在Iris和澳大利亚数据集上具有最佳收敛性。最后，hhFNN和fpaFNN在Breast数据集的训练阶段似乎具有竞争性的收敛能力。最后，图6描绘了hhFNN的增强概率。这也验证了hhFNN的成功主要来自于在分类问题中更频繁地调用psoFNN和fpaFNN，除了澳大利亚数据集，因为fpaFNN在这里被调用的机会最少。这些发现验证了结果然而，表3报告了;需要详细的统计验证来定义有希望的优化器。下一小节致力于这样的分析。4.4. 统计分析根据Derrac等人的报告[52]，参数检验的安全使用依赖于一些特殊的条件，如正态性、独立性和齐次方差，这些条件在本研究中是不满足的因此，这里采用非参数检验。在这方面，弗里德曼测试函数逼近和分类问题分别适用。分别针对关于训练和测试性能的问题获得的Friedman秩和p值（针对关系进行调整）由表4-5呈现。在这些表中，较低的等级指出性能更好的算法。此外，应注意的是，由于Iris数据集仅包括根据最佳MSE值的关系，因此将其排除在本分析之外。最后，获得的p值表明拒绝基于显著性水平a= 0.10的中位数相等的零假设。根据表4的结果，psoFNN和hhFNN是被认为是函数逼近问题训练阶段最有前途的算法。虽然deFNN遵循这两种算法，但fpaFNN遵循deFNN。然而，这些优化器训练的FNN的泛化能力在训练阶段不同。从表4的测试列可以看出，psoFNN具有最佳性能，其次是hhFNN。在同一列中，虽然deFNN跟在hhFNN之后，但它跟在fpaFNN的类似地，根据表5的结果，发现hhFNN是分类问题的训练阶段最有前途的分类器。令人惊讶的是，fpaFNN被认为是第二个最有前途的算法，其次是psoFNN。最后，在这种比较中，deFNN被发现是幼稚的算法。psoFNN的泛化能力被认为是最有前途的，其次是hhFNN，也被发现优于deFNN。最后，fpaFNN似乎在分类问题中表现出幼稚的泛化能力。Friedman检验的初步发现和p值（表4-5）指出，至少有一对算法彼此显著不同。为了找到那些显著不同的配对，需要进行N×N多重比较，其中N代表F.B. Ozsoydan和I_. 格尔丘克工程科学与技术，国际期刊35（2022）101261表88所用算法在分类问题上的MSE性能。数据集算法平均MSE中位MSESTD. dev. MSE最佳MSECPU火车测试火车测试火车测试火车测试（秒）虹膜粒子群模糊神经网络0.00880.01330.00830.02220.00380.01140.00550.0000425.89deFNN0.00720.02660.00550.02220.00260.02290.00550.0000438.63fpa模糊神经网络0.01050.01550.01110.01110.00400.01820.00550.0000432.09hhFNN0.01830.04660.01380.04440.01610.02850.00550.0000438.71电离层粒子群模糊神经网络0.05960.10000.06070.09850.01090.01930.03920.0563543.82deFNN0.13030.16760.13920.16900.03210.04620.07500.0985542.56fpa模糊神经网络0.08820.11690.08390.11260.02770.05180.04280.0423557.29hhFNN0.03670.10000.03570.09850.01030.02850.02500.0423551.14乳腺粒子群模糊神经网络0.02220.02260.02150.02480.00190.01040.01970.0070432.28deFNN0.02830.01410.02860.01410.00200.00880.02500.0000

下载后可阅读完整内容，剩余1页未读，立即下载