没有合适的资源?快使用搜索试试~ 我知道了~
EgyptianInformatics Journal(2011)12,197开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com原创文章香农熵和均方误差加速多层神经网络的收敛:比较方法侯赛因·阿里·卡迈勒·拉迪El Shorouk学院,计算机科学系,El ShoroukBox 3,El Shorouk,埃及接收日期:2011年5月18日;修订日期:2011年9月22日;接受日期:2011年2011年11月9日在线发布摘要提高多层反向传播神经网络算法的效率和收敛速度是一个活跃的研究领域。在过去的几年里,人们越来越关注自适应系统中基于熵的准则。提出了几项原则,最大化或最小化的熵成本函数。一种熵准则学习系统的目标是最小化两个变量之间的误差熵:通常一个是学习系统的输出,另一个是目标。提出了一种提高多层BP神经网络效率和收敛速度的方法。通常的均方误差(MSE)最小化原则被多层感知输出与期望目标之间的差异的单熵(SE)最小化所取代。这两个成本函数进行了研究,分析和测试两个不同的激活函数,即柯西和双曲正切激活函数。比较结果表明,采用Shannon熵代价函数的收敛度高于采用MSE代价函数的收敛度,且MSE比Shannon熵的收敛速度快©2011计算机和信息学院,开罗大学。由爱思唯尔公司制作和主持All rights reserved.电子邮件地址:dr_Hussein_Rady@yahoo.com1110-8665© 2011计算机和信息学院,开罗大学。制作和主办Elsevier B.V.保留所有权利。开罗大学计算机和信息系负责同行审查。doi:10.1016/j.eij.2011.09.0021. 介绍人工神经网络(ANN)是近年来认知科学、计算智能和智能信息处理领域的一个热门话题[1它们已经成为分类的重要工具最近在神经分类方面的大量研究活动已经证明,神经网络是各种传统分类方法的一种有前途的替代方法[8,9]。另一方面,神经网络是众所周知的解决优化问题的强大计算工具之一由于计算单元神经元的庞大性和神经网络制作和主办:Elsevier关键词香农熵;均方误差;激活函数;学习率;反向传播神经网络198H.A.K. Rady-这种方法可以有效地解决大规模问题,并获得最优解[10]。神经网络的优势在于以下理论方面。首先,神经网络是数据驱动的自适应方法,因为它们可以根据数据进行自我调整,而无需对底层模型的函数或分布形式进行任何显式指定。其次,它们是通用的函数逼近器,因为神经网络可以以任意精度逼近任何函数。第三,神经网络是非线性模型,这使得它们在建模现实世界的复杂关系时具有灵活性最后,神经网络能够估计后验概率,这为建立分类规则和进行统计分析提供了基础。前馈神经网络[11许多神经网络架构都是前馈神经网络的变体[16]。反向传播(BP)是前馈神经网络最广泛使用的学习方法[17,11,18,14]。实现反向传播算法的方法有两种:批量更新方法和在线更新方法。对应于标准梯度方法,批量更新方法在实际执行更新之前累积所有训练样本上的权重correc- tion。另一方面,在线更新方法在每个训练样本被馈送后立即更新网络权重[1,19]。信息论通常用于编码和通信应用,最近,它也被用于分类。在信息论分类中,学习者被看作是从外部来源收集信息的代理人。信息理论量已被广泛用于未来的提取和选择[20]。根据信息论的定义,熵是随机过程中特定结果的不确定性的度量[1,21]。随机变量的熵是随机变量的不确定性的度量;它是描述随机变量所需的平均信息量的度量。熵是一个非线性函数,它代表了我们从未知数据中学习到的信息.在学习过程中,我们从训练数据的熵中通常,神经网络学习的误差反向传播使用MSE作为成本函数[22]。在学习过程中,人工神经网络经历了误差减少非常缓慢的阶段这些停滞期可能会影响学习时间。为了解决这个问题,用熵误差函数代替MSE[23,8,24]。仿真结果表明,该误差函数具有较好的网络性能和较短的停滞期。因此,我们的目的是使用误差熵的最小化而不是MSE作为分类目的的成本函数。令误差e(j)=T(j)Y(j)表示在给定时间t处第j个输出神经元的目标T与其输出Y之间的差。变量e(j)的MSE可以用它的EEM对应物代替。MSE一直是训练所有自适应系统(包括人工神经网络)的流行标准。 这一选择背后的高斯概率密度函数(pdf)仅由其一阶和二阶统计,以及线性系统对低阶统计的影响是众所周知的。在这些线性和高斯性假设下,并得到中心极限定理的进一步支持,仅约束二阶统计量的MSE将能够从其统计量仅由其均值和方差定义的信号中提取所有可能的信息[25]。 另一方面,如果动态系统是线性的,噪声是高斯分布的,则MSE可以提取数据中的所有信息然而,当系统成为非线性和噪声分布是非高斯的,MSE无法捕捉所有的信息中的错误序列。在这种情况下,需要一个替代标准,以实现最优。熵是MSE之外的自然扩展,因为熵是概率密度函数(pdf)的函数,它考虑了所有高阶统计量[26]。提出了各种优化技术来提高误差最小化过程的效率,或者换句话说,提高训练效率[27,28]。本文的其余部分组织如下。第2节概述了相关工作。第3节介绍了多层反向传播神经网络。第4节介绍均方误差。第五节讨论和分析了香农熵。第6节讨论了香农熵的模拟结果,第7节讨论了均方误差的模拟结果。第8节比较了Shannon熵和MSE。最终结论见第9节。2. 相关工作熵是香农提出的一个标量,它提供了对给定概率分布函数中所包含的平均信息的度量。根据定义,信息是pdf的函数;因此,熵作为一种优化标准扩展了MSE。当熵被最小化时,误差pdf的所有矩(不仅仅是二阶矩)都被约束。熵准则通常可以用作监督自适应中MSE的替代方案,但它在动态建模中特别有吸引力[25]。当动态系统为线性系统,噪声为高斯分布时,均方误差能提取数据中的全部信息。然而,当系统变为非线性且噪声分布为非高斯分布时,均方误差不能捕捉到误差序列中的全部信息。熵是MSE的自然扩展,因为熵是概率密度函数(pdf)的函数,它考虑了所有高阶统计量[26]。许多研究人员介绍了使用误差熵最小化作为人工神经网络成本函数的理论概念。在[26]中,Xu et al.讨论了信息理论学习,并指出熵,它测量具有特定概率分布的随机变量中的平均信息含量,先前被提出作为监督自适应滤波器训练的标准,并且与MSE相比,它被证明可以提供更好的神经网络泛化。在[22]中,Alexandre和Sa引入了误差熵最小化方法,用误差熵代替MSE作为学习系统的成本函数。讨论了Renyi二次熵的理论基础。在他们的实验结果中,他们使用了三个学习率值,分别为0.1、0.2和0.3,其中MSE和EEM用于不同的平滑参数,香农熵和均方误差加速多层神经网络的收敛199-2pð Þ ð Þ ¼ ð Þð Þ ¼Σ Σð Þ计算收敛速度。他们的实验结果的方法与我们的方法不同。我们使用不同的激活函数以及不同的学习率。他们用的是递归神经网络,但我用的是反向探测神经网络。Silva等人在[29]中介绍了使用香农熵的神经网络分类的概念,他们使用的EEM算法与香农熵,表现非常好,当比较MSE和交叉熵。他们的结果表明了熵标准的有效性,特别是香农熵,作为分类任务的成本函数。在[21] 中,Erdogmus等人讨论了二次熵估计。在[30]中,Erdogmus等人还提出了一种试图最小化MSE的成本函数,同时注意保持 连 续 误 差 之 间 的 变 化 较 小 。 在 [31] 中 , William 和Hoffman研究了无损图像的误差熵和MSE最小化。在[25]中,Erdogmus和Principe说,我们提出将误差熵最小化作为动态建模的一个更稳健的标准,并在使用非线性系统(如使用神经网络的非线性系统识别)的在[32] 中,Bromiley等人研究并比较了Shannon熵,Renyi3. 多层反向传播神经网络人工神经网络被称为最新的(近)最优网络架构设计是由人类专家完成的,需要繁琐的试错过程[16,34,35,7]。另一方面,它们是生物神经网络在结构和功能方面的简化数学近似。一般来说,ANN的功能有两个方面:(1)从突触前神经元到突触后神经元的信息流机制,以及(2)学习机制,该机制规定调整突触强度的测量,以最小化选定的成本或误差函数(ANN输出和期望输出之间的差异的测量)。这些领域的研究已经产生了各种强大的ANN,这些ANN基于输入空间、神经元、突触连接的类型和数量、ANN中信息流的方向、成本或误差函数、学习机制、输出空间以及这些的各种组合的新公式[16,36]。最常用的监督人工神经网络(ANN)模型之一是使用反向传播学习算法的反向传播网络[37反向传播算法是神经网络中的一种著名算法它是最常见的监督训练方法之一[40]。训练通常通过基于最小化均方误差的权重的迭代更新来进行。在输出层中,误差信号是期望值和输出值之间的差。然后将误差信号通过最速下降算法反馈到较低层,以更新网络的权值。该算法调整网络的权值,使误差沿下降方向减小传统上,两个参数,称为学习率和动量因子,用于控制沿下降方向的重量调节和用于阻尼振荡。 然而,BP算法的收敛速度相对较慢,特别是对于具有多个隐藏层的网络。 其原因是用于隐藏层和输出层的激活函数的饱和行为。由于单元的输出存在于饱和区域中,因此即使输出误差很大,相应的下降梯度也取很小的值,导致权重调整的进展很小。反向传播算法可以用以下三个步骤来描述,这些步骤必须在迭代中应用多次。1. 训练样本输入信号的前向计算和神经网络响应的确定2. 计算期望响应和神经网络响应之间的误差3. 误差的后向计算和对突触权重和偏置的校正的计算[36,30]。3.1. 激活函数激活函数可以同时调整步长、位置和映射范围,因此具有更强的非线性映射能力[41,33]。反向传播网络中的激活函数定义了在给定来自源突触的集体输入的情况下获得神经元输出的方式。反向传播算法要求激活函数是连续的和可微的。提出了以下两个激活函数,并在我们的模拟结果中使用[36]。3.1.1. 双曲正切函数F v tanh vexpv-exp-v1expvexp-v该函数的极限值为1和+1。F()对v的导数为F0vsech2v½1-tanh2v]1/21-Fv]1/21-Fv] 1/21Fv]2对于位于输出层的神经元j,dj1-Oj 1OjTj-Oj 3对于位于隐藏层中的神经元j,dj1-Oj 1OjXdkwjk4K其中dk是单元k处的误差梯度,连接从隐藏单元j指向该误差梯度。3.1.2. 柯西分布函数柯西分布的累积分布函数的公式为:Fv 0:51tan-1v5F0v1 16p1钽2F钽200H.A.K. Rady(X)2(X)2(X)22dj¼p2X但是,由于y21的函数,我们(X)XX2对于位于输出层中的神经元j,代入p(x,c i)= p(c i|x)p(x)在等式(10)给出:dj¼1第1页第2页第3页Tj-OjD ¼ZMj1M1/1(1/ 2 yix-di]pcijx)pxdx对于位于隐藏层中的神经元j,1X2011年1月1日KM M¼E½yiðxÞ-di]pðcjjxÞj11/1ð11Þ其中dk是连接到的单元k处的误差梯度,M M1/2 E/2y2xpcjx -2yxdipcjxd2pcjx]隐藏单元j的点。3.2. 学习率j1我我1/1我ð12Þ学习率是决定神经网络学习速度和训练效果的参数之一。学习率(g)是传统的BP学习规则,获得MD ¼E¼我M1 /2yx-2yxMdipcjjx¼j1d2pcjjx])权重调整幅度的影响因素在每次迭代时进行,因此影响收敛速度。我I1(XM我j1我J1(二)然而,g的最佳选择取决于问题,在找到一个好的选择之前,可能需要一些尝试和错误如果所选择的g值对于误差曲面太大,则搜索路径将围绕理想路径振荡并且比直接下降更慢地收敛,另一方面,如果¼E(XM1/1 1/2yix -2yixfdijxgfdijxg](二)ð13Þ如果选择的g值太小,下降将以非常小的速度进行。小步长显著增加了总收敛时间[42]。4. 均方误差¼E1/1M¼E1/11/2yix-Efdijxg](1/2 yix-Efdijxg])ME1/1(g)ð14Þð15Þ其中varfdijxgEfd2jxg-E2fdijxg是以下的条件方差:在统计学中,估计量的均方误差(MSE)是量化估计量与被估计量的真实值之间差异的许多方法之一。MSE测量“误差”平方的平均值。误差是估计量与待估计量之间的差异。差异的出现是因为随机性或因为估计量没有考虑可能产生更准确估计的在神经网络中,最小均方LMS代价函数比任何其他代价函数使用得更频繁。它产生良好的性能与现实世界中的大数据库。LMS误差代价函数是最常用的误差函数,尽管因其缺乏收敛速度和在网络训练过程中陷入局部极小值的可能性较高而受到批评[8]。对于多层神经网络中的一般多类,让我们考虑分配输入向量x={xi:i = 1,. ,D}到M个类{c i:i = 1,2,. ,M}。 设ci表示x的相应类,{y i(x):i= 1,2,. ,M}表示网络的输出,并且{di:i = 1,2,.. . ,M}的目标输出。以最小的均方成本函数,选择网络参数以最小化以下内容:我D是通过选择网络参数来实现的,Eq的第一项它简单地是网络输出yi(x)和目标输出的条件期望之间的均方误差。因此,当选择网络参数以最小化LMS成本函数时,输出估计目标输出的条件期望,以便最小化均方误差[8]。5. 香农香农在1948年介绍了一个一般的不确定性措施随机变量,其中考虑到不同的国家之间的概率。对于离散随机变量x,香农H x-Xf xlog2fx 16Xf是x的概率分布。对于连续随机变量x,香农熵定义为[43]:Hx-Z1fxlogfxdx17-1其中f是x的概率密度函数。为了计算误差项的香农熵,MD ¼E1/1(1/ 2 yix-di])ð9Þ必须为Parzen窗口方法中的平滑参数选择最适合特定数据集的值[30,44,27]。平滑参数的值始终为其中E{\displaystyleE}是期望运算符。表示关节由p(x,ci)的输入和第i类的概率,我们得到实验选择pdf估计使用Parzen窗口方法,除了选择MD¼j1M1/1[1/2yix-di])px;cidx10核是平滑参数h的选择。Parzen窗口估计器不假设未知pdf的任何函数形式,因为它允许完全确定其形状X(X)(X)(X)(X)ZXdjwjk))X22香农熵和均方误差加速多层神经网络的收敛201ffiffiffiffiffiX1XH-二-X1fenNhK2019-02-22而不必选择中心的位置。通过放置一个定义良好的核函数来估计pdf其中h是标准高斯核K的平滑参数(带宽),由下式给出:在每个数据点上,然后确定被称为平滑参数的公共宽度在Parzen窗口中,pdf近似于偶数对称核的总和,其中心被平移到样本点。合适的而常用的核函数是高斯。 的Kx1exp.-1x2英寸(18)我们发现,ð20Þ高斯函数是优选的,因为它是连续可微的,因此高斯函数的和是NH^E-Nn11N日志Nhl¼1K.埃森-埃什勒ð21Þ在实向量空间上连续可微任何维度[31,45]。从(20)和(21)中我们发现:1XN1XN.1en-el25.1.多层感知器考虑一个多层感知器(MLP),其中一个隐藏H^E-Nn1日志 Nhp2pl¼1e-2轰炸机H Þð22Þ具有输出y和目标变量(数据集中每个示例的类成员资格)的层,t。 对于每个例子,我们使用e(n)= t(n)y(n),n=1,2,. 其中N是示例的总数。我们只考虑两类问题;因此我们设置t{ 1,1}。所提出的反向传播算法不直接使用表达式(17)作为成本函数,而是使用具有由下式给出的均方一致性的香农6. Shannon熵在本节中,香农熵被用作成本函数。使用两种不同的激活函数和不同的学习率来比较结果如下。图1a显示了使用图中所示的不同学习率的实际输出,作为使用香农熵和柯西激活函数进行最后10次迭代的递增序列。在这些迭代的开始,我们发现,NH^E-Nn1logf^en 18学习率(LR)=0.1时的收敛程度大于LR=0.2时的收敛程度,LR =0.2时的收敛程度大于LR= 0.3时的收敛程度,LR =0.3时的收敛程度大于使用其中E是误差(差异)随机变量。对于esti-f(x)的非参数核估计^1XN.埃森-埃什勒n1HLR=0.4。在最后一次迭代中,我们发现这四个点几乎重合。图1b示出了对于最后10次迭代,在不同的学习速率下使用柯西激活函数的香农误差熵(SEE)。它们代表了一种不断减少的序列朝向停止标准=0.01。在图1最后10次迭代使用不同学习率和Cauchy激活函数的实际输出和香农误差熵。平滑参数h=0.01。ð19Þ202H.A.K. Rady表1使用Tanh和Cauchy激活函数比较不同学习率的收敛程度,迭代次数和Shannon错误熵。用Shannon误差熵学习率收敛度%迭代次数香农误差熵TanhCauchyTanhCauchyTanhCauchy0.198.02618698.023134327820.008916430.0099190.298.026668998.0273813350.0087576020.0085490.398.046874898.029561900.0021461340.0079770.498.131049998.027862161-0.0246641480.00838在最后10次迭代开始时,我们发现在第一次迭代时,SEE在学习率= 0.1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功