差分进化搜索下的LSTM激活函数优化：组合双曲正弦

163 浏览量更新于2024-01-17 收藏 2.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报长短期模型网络激活函数搜索的差分进化方法K. Vijayaprabakaran1， P.萨提亚穆尔蒂2印度Puducherry本地治里工程学院计算机科学与工程系阿提奇莱因福奥文章历史记录：收到2020年2020年4月16日修订2020年4月23日接受2020年5月13日网上发售保留字：激活函数LSTM深度神经网络差分进化最优激活函数搜索A B S T R A C T在深度神经网络（DNN）中，已经提出了几种用于各种复杂任务的架构，例如机器翻译，自然语言处理和时间序列预测。长短期模型（LSTM），一种深度神经网络，成为解决序列和时间序列问题的流行架构，并取得了显著的成果。在构建LSTM模型时，需要预先设置许多超参数，如激活函数、损失函数和优化器。这些超参数在DNN的性能中起着重要作用。这项工作集中在寻找一种新的激活函数，可以取代LSTM中现有的激活函数，如sigmoid和tanh。在我们的工作中，提出了基于差分进化算法（DEA）的搜索方法，我们提出的方法找到了一个最佳的-mal激活函数，优于传统的激活函数，如sigmoid（r），hyper，bolic tangent（tanh）和Rectified Linear Unit（ReLU）。在这项工作中，新探索的激活函数的DEA方法的基础上sinhxsinh-1x命名为组合双曲正弦（梳H-正弦）函数。在MNIST、IMDB和UCI HAR数据集上，本文提出的comb-H-sine激活函数的准确率分别为98.83%、93.49%和78.38%©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍深度神经网络（DNN）在过去十年的发展在人工智能（AI）的各个领域都得到了极大的关注。大多数现代研究已经提出并开发了几种DNN用于各种复杂任务。在开发DNN时，许多网络超参数（如内核初始化器，优化器，归一化器，隐藏层数量，学习率，动量等）必须提前选择（Basirat和Roth，2018）。在现有的神经网络超参数中，许多研究都集中在隐层数目上*通讯作者。电子邮件地址：vijay.p. gmail.com（五）K.），sathiyamurthyk@pec.edu（美国）K.）。1名博士生在系印度Puducherry Puducherry工程学院CSE副教授2名印度Puducherry本地治里工程学院CSE沙特国王大学负责同行审查den层，内核初始化器和规范化技术来调整DNN。但是，激活函数是神经网络的重要超参数之一，经常被忽略（Basiratet al.， 2019年）。激活函数对于人工神经网络学习和理解输入和响应变量之间的复杂和非线性复杂函数映射非常重要（Ding等人，2018年）。激活函数为我们的DNN引入了非线性特性它们的主要目的是将DNN中节点的输入信号转换为输出信号，并且该输出信号现在用作堆栈中下一层的输入新技术、架构和激活函数的发展在更深网络的训练期间将收敛提高到更高的准确性，克服了消失/爆炸梯度问题的障碍（Bengio等人，1994; Glorot和Bengio，2010）。在早期的研究工作中，在各种深度学习网络中使用了众所周知的激活函数，例如sigmoid和tanh函数（Saha等人，2019年）。在对DNN中的激活函数进行了几次实验和深入研究之后，S形函数受到饱和问题的影响（Goodfellow等人，2016年）。这个问题降低了DNN模型的有效性，并阻碍了其在前馈机制中的实现。为说明先前激活功能存在的问题https://doi.org/10.1016/j.jksuci.2020.04.0151319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com.Σ小行星2638K.，S. K. /沙特国王大学学报-计算机与信息科学34（2022）2637- 2650为了以最低的训练成本提高结果的准确性，一些研究人员专注于这一研究领域，并提出了各种新的激活函数。在这项研究工作中，一个新的激活函数，介绍了使用差分进化算法的LSTM网络。带有LSTM的递归神经网络已经成为与序列数据相关的几个学习问题的有效和可扩展模型LSTM在长期时间依赖性方面是有效的，并已被用于推进许多困难问题的最新技术。一些具有挑战性的问题是手写识别（Graves等人，2008; Pan和Srikumar，2016;Doetsch等人， 2014）和生成（Graves，2013），语言建模（Zaremba等人，2014）和翻译（Luong等人，2014）、语音的声学建模（Sak等人，2014）、语音合成（Fan等人，2014）、蛋白质二级结构预测（Sønderby 和Winther ，2014 ）、音频分析（Marchi 等人，2014）和视频数据（Donahue等人，2015年）等。LSTM被提出来解决RNN中存在的长期依赖性和消失的爆炸梯度问题LSTM架构背后的中心思想是一个可以随时间保持其状态的存储单元，以及调节进出单元的信息流的非线性门控单元LSTM单元的示意图如图所示。1.一、它具有三个门（输入，忘记输出），块输入，单个单元，输入激活功能和输出激活功能。该块的输出是经常性的，连接回输入块和所有的门。设Xt为输入，ht为t时刻的输出在时间t，LSTM单元的门、存储器单元、输入和输出的方程如下[][][][]ft<$rWf<$xt]Rf<$ht-1]bf2ot<$rWo<$xt]Ro<$ht-1]bo3gt<$tanhWx½xt]Rx½ht-1]bx4c t¼ft ωct-1itωgt5htot ω tanhct6其中，it、ft、ot分别表示输入门、遗忘门和输出门，ct定义存储器单元以存储过去的状态。gt和ht分别表示LSTM单元的输入和输出，ht-1表示前一个LSTM单元的输出。Sigmoid和tanh是映射非线性的激活函数在标准LSTM网络中，sigmoid用作门函数，tanh用作输出激活函数。为了取代这两个函数，本文引入了一个新的激活函数这项研究的主要贡献是：1）建立识别激活函数的有效方法; 2）提出新的激活函数。我们的第一个贡献，差分进化算法（DEA）为基础的方法，提出了探索大的搜索空间，并找到一个最佳的激活功能。在第二个贡献中，我们引入了基于所提出的方法的新获得的激活函数comb-H-sine，它成功地取代了LSTM网络中的sigmoid和tanh。新提出的激活函数comb-H-sine实现了改进的国家标准与技术研究所（MNIST）手写数字数据集（LeCun和Cortes，2016）、互联网电影数据库（IMDb）数据集（Maas等人，2011）和UCI人类活动识别（HAR）数据集，与传统的基准激活函数（如tanh，sig-moid和ReLU）进行比较。本研究工作将在以下章节中进行说明。第2节描述了DNN中使用的各种激活函数，我们研究了常用激活函数的优缺点第三节详细阐述了所提出的方法来寻找最佳的激活函数和新的激活函数的特性进行了探讨。第4节讨论了实验设置和评价指标在第5节中解释了具有不同超参数的结果的详细分析最后，第6节总结了研究工作，并提出了今后工作的改进方向2. 相关作品在DNN中，激活函数对DNN的性能和复杂性有更大的影响。因此，选择合适的激活函数是DNN模型设计中最具在过去的几十年里，各种学者和研究人员已经做了许多积极的研究工作，为DNN设计了一个最佳的激活函数，他们提供了几个激活函数，以便更快地训练DNN，更准确。Glorot和Bengio（2010）的作者首先提出了一个简单而简单的激活函数，称为sigmoid激活，Fig. 1. LSTM Cellð Þ ¼ðÞ.ðÞ¼ð Þ¼ð ÞþðÞ-诉K.，S. K. /沙特国王大学学报-计算机与信息科学34（2022）2637-26502639神经网络它是光滑的，S形曲线范围从0到1。这是DNN中最常用的激活函数，它满足了反向传播中可微的需要。虽然sigmoid在几个DNN中用于不同数据集上的各种复杂任务，但它具有饱和问题的缺点当网络层数较多时，由于反向传播中的导数值较小，这种饱和问题导致梯度消失的严重问题。ReLU被引入作为激活，它变得非常受欢迎，因为它具有降低梯度消失可能性的优势（Pan和Srikumar，2016）。ReLU函数在视觉上类似于0-1的斜率，其梯度是恒定的，这导致了更快的但是在sigmoid中，梯度随着x值的增加而增加得非常小。在ReLU中，正输入的导数为1，而负值映射为0。因此，DNN中没有负值的信息流。这个问题被称为死亡细胞。尽管ReLU被用于各种神经网络中，但它具有死亡细胞的缺点，这限制了网络的容量（Trottier等人，2017年）。为了克服死亡细胞的这个问题，已经提出了几种变体，如泄漏ReLU（LReLU）（Trottier等人，2017），其解决了ReLU网络的上述问题。Leaky ReLU的目标是通过使用Eq.（七）、并且比S形收敛得更快。Godin的作者等人（2018）提出了双整流线性单元和双Exponential单元来代替准递归神经网络中的双曲正切激活。与tanh相比，这些DReLU和DELU不需要密集连接来改进梯度反向传播。作者Ramachandran等人（2018）提出了swish激活函数，定义为f xx：bx，其中b是可训练参数。它是一个非单调函数，与之前讨论的其他激活功能不同。它类似于S形加权线性单元（Elfwing等人， 2018年）。swish在挑战数据集上的实验结果表明，该方法比其他常用的激活函数具有更好的Manessi和Rozza在Manessi和Rozza（2018）中提出了学习各种可用激活函数的组合以获得更快收敛并在深度神经网络中实现更好性能的想法。Bircanoglu和Arica在Bircanoglu和Ar ca（2018）中比较了ReLU与其他激活函数的性能; Efe（2008）的作者在具有各种激活的不同数据集上进行了几次实验。在早期的工作中提出了许多激活函数，但只有少数激活通常用于深度神经网络。另一些则由于前后不一，影响不大，未能流行起来。与标准激活函数相比，DNN的挑战任务。fxmaxx; 0for x 均p0aminx;0x 0<ð7Þ在为深度神经网络寻找新的激活函数方面，存在的工作很少一种流行的方法，其中a是避免ReLU的零梯度的固定值。a具有在0和1之间的非常小的值但是这个LReLU没有显著的改进（Vrehana和Vuppala，2017），结果表明它的影响比ReLU小得多，这是可以协商的。参数化ReLU（PReLU）（He例如，2015）已经被引入以缓解零梯度的挑战，这为ReLU的负部分生成了一个斜率，确保斜率的梯度很小。PReLU中a的值是可学习的参数，而它在LReLU中是前缀（a=0.001）。因此，PReLU比LReLU有更好的改进，它被定义为f xmax？x;0一分钟？X;0.虽然LReLU和PReLU都减轻了零梯度，它们容易出现由于没有负饱和点而引起的方差增加的问题。Clevert等人（2015）提出了另一种名为指数ReLU（ELU）的ReLU变体，以克服零梯度问题和偏移问题。在先前的激活函数LReLU和PReLU中，负斜率是线性的并且具有大的饱和值，而在ELU中，激活具有低的饱和值并且斜率不是线性的。这种低饱和度值有助于来解决方差增大的问题。ELU激活函数定义为搜索激活函数是神经进化技术。神经进化，即，在DNN的优化中应用进化算法（Whitley，2001）是一个重要的研究领域。一般来说，优化DNN有两个主要方向。首先，优化训练参数，如超参数或权重（Igel，2003; Montana and Davis，1989）。第二，发展最佳DNN拓扑，然而，这并不简单。因此，现有的方法遵循两种策略：2010）和破坏性（汉考克，1992）。最近，拓扑和权重的协同进化被证明是更有效和高效的。另一个最成功的相关方法是NEAT（Stanley和Miikkulainen，2002年）。它遵循建设性的策略，通过添加节点和节点之间的连接，逐渐演化出一个简单的DNN拓扑。在看到它的成功，几个扩展已作出。Miikkulainen等人（2019）中两个值得注意的成功扩展是 CoDeepNEAT 和 DeepNEAT 。在DeepNEAT 中，一个节点用一个与之相关的超参数表表示。CoDeepNEAT由两个群体（模块和蓝图）组成，它们并行进化，并结合起来构建DNN拓扑。Hyper-NEAT（Stanley等人， 2009）和HA-NEAT（Hagg等人， 2017 ）更接近于进化激活函数的想法。Hyper-NEAT是对NEAT的扩展，fxx，x>0a= x-1，对于x 60;ð8ÞHA-NEAT扩展了NEAT，使神经元的激活函数、拓扑结构和权重得到演化，从而形成异构网络。参数指数线性单元（PELU）是在Gupta和Duggal（2017），在训练过程中它通过提供更灵活的网络解决了消失梯度它引入了新的饱和度参数b和斜率a是在训练过程中可学习的PELU在使用HMM-DNN模型的语音识别任务中获得了更多的关注（He et al.， 2015年）。另一种流行的激活函数称为正切双曲函数，用于几个DNN中，并在LSTM中作为默认输出激活函数tanh函数类似于sigmoid函数，但是tanh的范围从1到1变化（Tan等人， 2014年）。tanh的梯度计算很简单在这项工作中，拓扑结构是固定的，并发展了激活函数-层的层次。在Banerjee et al.（2020）中，作者提出了一种gamma-levy混合元启发式方法，用于调整Deep Q Network的超参数。另一方面，Diaz等人（2017）将无导数优化应用于神经网络的超参数调整。这种无导数优化采用径向基函数模型来加速超参数的发现，从而实现高精度。Woo-Young Lee和Seung-Min Park在Lee等人（2018）中提出了一种无需参数设置的和声搜索（PSF-HS）算法，用于在特征提取步骤中调整CNN的超参数。PSF-HS算法是一元启发优化方法，在此，.2640V. K.，S. K. /沙特国王大学学报-计算机与信息科学34（2022）2637- 2650将待调整的超参数设置为和声，生成和声后生成和声记忆。差分进化算法（Differential Evolution Algorithm）是一种流行的优化算法，通过进化神经元数量和深度神经网络中的超参数优化，为特定任务构建神经网络架构。作者Ochoa等人（2020）在模糊控制器的设计中使用了具有模糊逻辑的增强型差分进化算法进行参数自适应。这种增强的 DEA用于优化模糊控制器的成员函数（Castillo 等人，2019;Castillo等人，2019; Castillo 等人，2019 年）。Peng的作者等人（2018）将DEA用于LSTM的超参数优化，用于电价预测。其他工作（Dahou等人，2019）使用DEA通过调整超参数来改进网络模型。在Hamdi等人（2018）中，DEA与支持向量回归一起应用于血糖的准确预测，在Liu（2017）中，自适应DEA用于参数优化。从这项研究中，DEA的优势促使作者采用DEA来寻找LSTM网络的激活函数。2.1. 动机尽管目前已有多种激活函数，但寻找新的适用于各种网络的激活函数，以提高网络模型的精度，降低网络模型的训练成本，是一个活跃的研究领域。通过对相关工作的调查，确定了以下局限性。现有的网格搜索和随机搜索等方法在搜索空间较大时，计算量大且复杂度高。与遗传算法和粒子群优化算法相比，DEA算法收敛速度更快。其他超参数优化方法在给定的搜索空间集合中找到最佳值，其中DEA从搜索空间中演化出新的最优函数。3. 方法我们为LSTM提出了一个新的激活函数LSTM中的激活函数在预测DNN中的目标方面起着至关重要的作用因此，选择合适的激活函数是提高LSTM性能的一本文提出了一种基于差分进化算法的搜索技术来设计一种新的激活函数。利用标量函数和其他激活函数的不同组合，设计了一种新的激活函数组合双曲正弦（Comb-H-sine）。与现有的传统激活函数（例如，sigmoid、tanh和ReLU）。为了确定激活函数的最优组合，我们应该设计一种改进的搜索技术。设计激活函数搜索技术的主要挑战在于寻找标量函数与其它激活函数的最佳组合这个识别的激活函数不应该干扰网络结构，也不会使网络变得更复杂。通过考虑这两个约束条件，应用遗传进化算法来寻找最优的质量。激活函数的组合3.1. 差分进化差分进化算法（DEA）是一种随机的、基于种群的全局优化技术。特别是在从一个大的候选集（人口）中找到全局最优解的情况下，进化人口的思想给出了更好的溶液DEA涉及到保持一个种群的候选人进行变异，交叉，评估和选择的迭代。进化开始于通过随机选择候选者来初始化突变过程采用三个候选者，并有助于增加种群的多样性交叉方法涉及基于两个随机选择的群体成员之间的加权差添加到第三个群体成员来创建新的候选成分。相对于更广泛的群体的扩散，这扰乱了群体成员。与选择相结合，扰动效应自组织问题空间的采样，将其绑定到已知的感兴趣区域选择过程用适应度函数验证新的候选者差分进化的操作流程如图所示。二、3.2. 激活函数的微分方程算子在我们的例子中，为了进化激活函数，给定的种群由许多个体组成，每个个体代表一个激活函数。以下运算符用于找到最佳激活函数。图二. 差分进化算法流程图。●●●2b2xV. K.，S. K. /沙特国王大学学报变异：它是由变异操作进行的。它从群体中随机选择三个不同的候选者xa、xb和xc，然后通过计算两个候选者之间的差来生成突变的候选者，并且还与等式（1）中所示的第三候选者（九）、这里的索引候选人a，b和c是不一样的。vi¼xaxb-xc9交叉：在交叉操作中，已经从群体中选择了一个候选者，并且DEA的交叉算子将所选择的候选者的元素替换为突变候选者的元素，如等式中所示。（十）、函数，sinh-1bx是具有可调参数b的反正弦双曲函数。图3a绘制了梳状H正弦函数的曲线图。该图显示，梳状H正弦像ReLU一样平滑和单调单调性的性质有助于像其他标准激活函数一样，基于x值来已经发现，梯度计算在实践中成本较低。梳状H正弦的导数为：fxbx-1bx11f0xdsinhbxd sinhbx12不 1/4。vi 代表d¼d rand或rand= 0; 1 6 CRð10ÞDX DXixi for x60;f0xcoshbxb-bð13Þ如果试验向量vi与其目标向量xi具有相等或更低的目标函数值fxbxb2qb2x212x2x1 x 2x3ð14Þ更一代。一旦产生新的群体，重复突变、重组和选择的过程，直到获得最佳激活，或者满足预定义的终止标准3.3. 梳形H正弦我们提出的激活函数comb-H-sine是基于算法1中描述的过程设计的。它被定义为fxbxsinh-1？其中sinh<$bx <$b是正弦双曲型图3a描绘了梳状H正弦曲线，可调参数b有三个不同的值（b= 0.1，0.3，0.5）。图3b和图3c分别表示了一阶和二阶曲线定义的梳形H正弦函数的导数在的Eqs。（13）和（14）。b值一阶导数0.5显示了更快的收敛。像ReLU一样，它在两边都是无限的。图3c中的二阶导数曲线是平滑且单调的（即，对于每个x值，y值都增加）。小行星2642K.，S. K. /沙特国王大学学报-计算机与信息科学34（2022）2637- 2650图三. 给出了不同控制参数b下梳形H正弦及其导数的曲线图。4. 实验结果为了评估所提出的基于DE的激活搜索方法和评估所提出的梳状H正弦激活的性能，建立了LSTM网络。该comb-H- sine LSTM模型应用于各种数据集，例如用于数字字符识别的MINIST数据集，用于情感分类的IMDb数据集和用于识别人类活动的UCI HAR数据集。建议的激活的结果进行了比较与基准激活功能。4.1. 实验设置和实施细节在激活函数的进化过程中，将基于遗传进化算法的学习策略部署到IMDB数据集的LSTM模型上。然后将新进化的激活函数用于训练深度LSTM网络，并对结果进行分析。在评估所提出的新型激活函数comb-H-sine的过程中，我们使用LSTM构建了不同的DNN，用于字符识别，分类和预测任务。每个LSTM--BBBX.^ð Þ ¼公司简介Þ.ðÞ¼V. K.，S. K. /沙特国王大学学报网络中的单元用梳状H正弦进行训练和测试。所有的实现都是在Ubuntu 16.4和Python 3.5上完成的。Tensorflow 1.4用作后端，以支持Keras 1.1 API和Keras自定义API来构建LSTM网络。用于激活搜索的差分进化的实现是建立在DeepEvolve上的，DeepEvolve是一个神经进化框架，用于探索特定任务的最佳DNN架构我们使用DNN拓扑作为LSTM，并基于激活函数定义搜索空间在所有实验中，保持40的固定种群规模在我们的实验中，所考虑的初始群体的候选者如下所示：标量函数：exp（x），sin（x），cos（x），log（1 + exp（x），sin-1（x），（ln（1 + x）/（1-x））/2，（ex-e-x）/2，（ex + e-x）/2，max（x，0），min（x，0）。激活函数：ReLU，tanh，sigmoid，swish，softplus，ELU。4.2. Datsets在我们的实验中，MNIST数据集用于激活函数的演化，然后采用IMDB数据集和UCI HAR数据集来评估我们识别的激活函数（comb-H-sine）。我们将所有三个数据集分为60个在LSTM网络中分别使用20 20个比率进行训练、验证和测试。4.3. 考虑与梳状H正弦在本节中，针对基准激活函数和近年来越来越流行的其他激活函数，对所提出的梳状正弦激活进行了评估。在各种可用的流行激活函数中，我们选择了以下激活函数作为基准来评估梳状H正弦。Sigmoid（Cybenko，1989）：它是光滑的S形弯曲。它的范围在0和1之间。这是容易理解和应用的，其在等式中表示。（十五）数据集中的值下面的公式用于计算使用Keras的模型的精度。准确度¼平均值等于s。Y;Y19其中Y是数据集的实际目标值，Y是目标变量的预测值。为了分析所提出的激活函数在LSTM模型上的性能，使用UCI HAR数据集来识别人类活动。损失公式：均方误差（MSE）是常用的损失函数，用于计算预测值和实际目标值之间的平方差的平均值它评估-评估预测模型的质量。如果Y是由预测模型从数据集的n个数据点生成的n个预测的向量，并且Y是被预测的目标的观测值的向量，则预测模型的MSE可以计算为1NMSE¼nYi-Yi20i-15. 结果在我们的实验中，最初使用LSTM中基于DEA的方法进化了一组候选激活函数，并使用MNIST上的深度LSTM网络使用进化的激活函数。表1总结了MNIST数据集在分类准确性方面表现最好的激活。MNIST数据的实验结果列于表1中，以详细观察LSTM上新探索的激活函数与其他基线激活函数的性能。从表1中的推断表明，在其他结果中，使用sigmoid的LSTM的预测精度较低。基线激活函数之间的准确度变化非常小（仅1-2%）。但是，与所有其他方法相比，使用LSTM的梳状H正弦所实现的精度更高激活功能。实验用100个f x11exp-xð15Þepoch和1000 epoch来分析LSTM上各种激活函数在传统的活动中，双曲正切函数-Tanh（Jarrett等人，2009年：它显示在Eq。（十六）f x21 161吨-2吨Rectified Linear Unit（ReLU）（Nair and Hinton，2010）：用公式表示。（十七）在100个历元上，tanh的最大准确度为80.12%。但与tanh相比，comb-H-sine激活在100和1000 epoch上分别为84.46%和98.83%。此外，我们还用双向LSTM做了同样的实验，结果总结在表2中。最好的结果使用激活函数max（ReLU，Sin-1）和comb-H-sine获得f x0for x 0<第1页对于xP0ð17Þ接下来，在IMDb数据集上进行了相同的实验首先，激活函数使用IMDb上的LSTM进行进化，用于感测。Softplus：它是等式中给出的平滑函数。（18）且可以对x的所有点导数。但它是严格的阳性和单主音。它看起来像是一个平滑版本的ReLU（Ramachandranet al.， 2018年）。fxlog1expx18我们用预测精度和损失函数等指标来评估激活函数。具有不同激活的LSTM模型的精度和损失函数可以使用等式中给出的公式（19）（20）.4.4. 评估指标准确度公式：准确度是一种统计度量，用于衡量模型预测目标值与实际目标的正确程度时间分类然后，将演化的激活函数应用于双向LSTM，并将结果列在表3和表4分别。在表3中，梳状H正弦优于其他激活函数。表1前三名的性能探索了MNIST-LSTM的激活。激活函数100个时期的Acc.（百分比）1000个历元的Acc.（百分比）梳形H正弦84.4698.83Swish + log（x）83.6997.56min（sin，exp（x））81.6995.49tanh80.1291.12乙状75.2689.26ReLU78.8390.23小行星2644K.，S. K. /沙特国王大学学报-计算机与信息科学34（2022）2637- 2650表2MNIST Bi-Directional LSTM上前三个explore函数的性能。激活函数100 epochs的Acc.（百分比）（百分比）最大值（ReLU，Sinh-1）93.12 98.93梳状H正弦92.43 98.86Sin +LReLU 91.69 92.69丹乙状结肠89.26 94.26ReLU 92.13表3前三名的性能探索了IMDB Bullet-LSTM的激活。激活函数100 epochs的Acc.（百分比）（百分比）梳状H正弦91.32 93.49陈新80.19 82.56Swish 75.69丹S型71.26 72.29ReLU 75.83 80.23表4前三名的性能探索了IMDB队列-双向LSTM的激活。激活函数100 epochs的Acc.（百分比）（百分比）梳状H正弦84.94 89.57陈新83.69 87.36Swish 79.34丹乙状结肠75.76 79.56ReLU 78.81最后，在UCI HAR数据集上进行了同样的实验，用于人体活动识别。用 LSTM 网络演化激活函数，并将获得的激活函数应用于ConvLSTM。LSTM和ConvLSTM的结果分别列于表5和表6中。表5前三名的性能探索了UCI HAR Aesthet-LSTM的激活。激活函数100个时期的Acc.（百分比）1000个历元的Acc.（百分比）梳形H正弦74.4678.83丹心70.1271.56Swish69.6970.69tanh70.1271.12乙状65.2669.26ReLU68.8370.23表6前三名的性能探索激活UCI HAR AQUET-ConvLSTM。激活函数100 epochs的Acc.（百分比）（百分比）梳状H正弦84.27 98.62陈新83.95 97.18Swish新台币80.87 90.92乙状结肠75.62 89.66ReLU 78.44 92.23表1- 6中给出的结果事实上，从所获得的结果梳H正弦激活执行更好地在所有三个不同的问题，考虑评估。为了进一步研究comb-H-sine函数，使用LSTM对UCI HAR数据集进行了几次实验。5.1. 数量的时段在训练过程中，模型历元是取得较好效果的重要参数。一个时期被称为数据集的整个训练集已经通过网络模型的前向和反向传播。在我们的实验中，UCI HAR数据集的训练集被分成50个样本的批量大小，然后在训练集的这8000个样本序列上用100和1000个epoch训练LSTM模型。图4a-e中所示的曲线图类似地，图4从这些图中，我们推断梳状H正弦可以帮助模型以较少的训练次数达到最大的准确度。5.1.1. 100个历元当将基准激活结果与100个epoch的comb-H-sine激活函数进行比较时，所提出的comb-H-sine显示出比其他激活函数更好的视觉效果图4 b-4 e的曲线图显示，当与图4a中的曲线的梯度相比时，曲线的梯度波动更大。凌晨4由于ReLU被广泛用于几个模型中，但在这个实验中，ReLU未能更准确地预测图中的试验精度梯度。 4 E有更多的上升和下降。根据图表（Fig. 由具有相同数量的神经元、相同的优化器和相同大小的数据集的模型生成的comb-H-sine具有更高的精度。5.1.2. 1000 epochs用相同的模型及其配置进行的1000个历元的实验结果如图所示。图5a -5e描绘了激活的准确性。从这些图中，我们推断Comb-H-sin和tanh + sin的测试精度在1000个训练周期后提供了几乎相同的图5e显示了测试精度的梯度比其他激活波动更大。5.2. 梳状H-正弦的b学习参数的影响梳状H正弦中的b值是一个可调参数，为了获得良好的性能，必须引起重视并正确设置。经过几次不同的梳状H正弦的b的模型的执行，最佳值= 0.03已被发现。图4a的曲线图显示曲线的梯度随着=0.03而增加，图5a显示测试曲线的梯度在400个历元后减小，并在800个历元后变得稳定。5.3. 优化器考虑到LSTM的超参数，优化器在学习中起着重要的作用。在各种可用的优化器中，Adagrad优化器在这项工作中被应用于构建LSTM模型。它使用不同的学习率为每个参数在一个时间步长的基础上，过去的梯度计算的参数。当比较Adagrad与诉K.，S. K. /沙特国王大学学报-计算机与信息科学34（2022）2637-26502645图四、在UCI HAR数据集上具有不同激活的LSTM模型的准确性，具有100个epoch。与其他优化器相比，它具有更好的性能和更快的收敛速度，最优学习率g= 0.03，衰减率g = 0.003。5.4. 误差计算图中的图表。6a-e和图图7a-e示出了用于IMDB顺序数据的情感分类的LSTM模型的训练和测试损失，其中损失函数MSE在等式（20）和Ada-grad优化器。在图6a中，注意到损失的梯度在较少的时期中减小，并且显示出比swish、tanh和ReLU激活函数更快的收敛。从这些从图中，我们推断，新的comb-H-sine和ReLU与Adagrad优化器的损失更快地减少到100个epoch。在梳状H正弦激活模型中，模型的学习速度也更快，错误率更低。在大时期，tanh导致比其他激活（0： 14）更多的损失（0.16）。<5.5. 结果的统计分析统计分析的结果有助于确定所提出的方法的性能在这项工作中，威尔科克森签署了秩小行星2646K.，S. K. /沙特国王大学学报-计算机与信息科学34（2022）2637- 2650图五、在UCI HAR数据集上具有不同激活的LSTM模型的准确性，具有1000个epochs。检验和事后Friedman-Nemenyi检验来评估所提出的函数的性能。5.5.1. Wilcoxon符号秩检验Wilcoxon符号秩检验用于分析梳状H正弦激活与LSTM网络中其他激活函数的性能。Wilcoxon符号秩检验是一种成对统计检验，旨在检测两个样本之间的显著差异。算法或方法。让Di成为性能之间的差异两种算法在N个数据集中的第i个上的平均得分，根据它们的绝对值对差异进行排名，在平局的情况下分配平均排名。设R为第一种算法优于第二种算法的数据集的秩和，R为相反的秩和。di = 0的秩在和之间平均分配;如果有奇数个秩，则忽略一个秩：2di¼0诉K.，S. K. /沙特国王大学学报-计算机与信息科学34（2022）2637-26502647见图6。 LSTM模型在100次训练的不同激活情况下丢失。RXrankdi1Xrankdi21t检验没有任何假设;这允许我们将其应用于di>02di¼0不同激活的LSTM网络获得的结果不同的数据集。比较了两种活化方法的结果R-1/4Xrankdi1Xrankdi22di0用wilcoxon符号秩检验来确定两者的结果，并规定哪一个是最好的。以下设K是两个和中的较小者，K = min（R;R-）。如果K小于或等于N的Wilcoxon分布的值，数据集自由度拒绝均值相等的零假设。这个wilcoxon检验比配对检验更有效表R;使用wilcoxon符号秩检验的成对比较的R表7示出了通过所提出的激活函数获得的结果，其中a=0.05并且p值小于.nω k“X. 克兰斯克. Σ小行星2648K.，S. K. /沙特国王大学学报-计算机与信息科学34（2022）2637- 2650见图7。 LSTM模型在100次训练的不同激活情况下丢失。显著值a（p0.05）。这拒绝了零假设，即所有结果都是相同的，也就是说，所提出的函数没有显著性。现在，Wilcoxon检验证明了用梳形H正弦函数得到的结果比其它活化函数显著。具有n行和k列的矩阵xij，计算每行内的秩，并用新秩替换矩阵xij的数据矩阵xijnωk，其中rij是xij在块i内的秩。弗里德曼统计量用方程计算。（二十三）.5.5.2. 弗-内二氏试验Friedman检验是比较多种算法以找到最佳算法的非参数检验。针对给定数据12KQnkk 1i1Ri#- 3nk1 23¼诉K.，S. K. /沙特国王大学学报-计算机与信息科学34（2022）2637-26502649表7在所有可能的比较中应用Wilcoxon检验。Comb-H-sine和Swish 75-3的RR-p值Comb-H-sin和tanh-sin 76 0 0.0022Comb-H-正弦和双曲正切74-2 0.0022梳状H-正弦和S形75 0 0.0033Comb-H =正弦和ReLU 76-2 0.0022Swish和sigmoid 72-4tanh和sigmoid 66-9ReLU和sigmoid 68-5 0.0059表8激活函数准确性的弗里德曼检验表 8 中的 Friedman 检验结果表明， p 值小于显著性值 0.05 ，Friedman卡方检验结果为50.289，小于卡方分布值（11.070），自由度为5，显著性值为0.05。从这个结果中，否定了所有激活函数的性能相同的零假设。现在，应用Nemenyi事后检验来在考虑用于评估的激活中找到最佳激活函数。表10的结果显示了激活函数的多重比较（表9）。根据多个激活函数的Nemenyi事后检验，基于准确度的拟定comb-H-sine与tan（x）-sin（x）、tanh、sigmoid和ReLU差异非常显著（p 0.05），而swish不显著（p> 0.05）。图中给出的临界差。 8证明了梳状H正弦和其他的激活是不一样的。结果值弗里德曼卡方50.298自由度（DF）5p值1.204e- 09表9Nemenyi测试。结果值关键差异2.2417自由度（DF）66激活次数（k）6其中k是激活函数的数量，n是数据的数量集合，Ri是第i个激活函数的秩的和。下表显示了弗里德曼检验的结果。6. 结论这项工作的重点是为LSTM网络找到一个最佳的激活函数。采用合适的激活函数是DNN设计中具有挑战性的任务。本文提出了一种基于进化的搜索技术来探索新的激活函数并找到最佳激活在LSTM上

下载后可阅读完整内容，剩余1页未读，立即下载