基于区间的S型前向神经网络权值初始化方法

34 浏览量更新于2023-12-04 收藏 492KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

© 2013由Elsevier B.V.发布。由美国应用科学研究所负责选择和/或同行评审可在www.sciencedirect.com在线获取ScienceDirectAASRI Procedia 6（2014）19 - 252013第二届AASRI计算智能与生物信息学基于区间的S型前向神经网络权值Sartaj Singh Sodhia *，Pravin ChandraaaUniversity School of ICT，GGS Indraprastha University，Sector 16C，Dwarka，Delhi-110078，INDIA摘要初始权值的选择是S形前向人工神经网络训练机制的一个重要方面。通常，权重被初始化为相同区间内的小随机值。本文提出了一种初始化权重的建议，使得输入层到隐藏层的权重以不同隐藏节点的权重属于不同区间的方式初始化为随机值。本文使用的训练算法是弹性反向传播算法。所提出的权重初始化方法的效率和功效被证明在6个函数逼近任务上。结果表明，与通常的随机权值初始化方法相比，该方法能使网络在训练过程中达到更深层次的误差泛函极小值，具有更好的泛化能力（对未用于训练的数据具有更小的误差）和更快的收敛速度.© 2014作者。出版社：Elsevier B. V.这是CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/3.0/）。美国应用科学研究所关键词：权值分解; S型前馈神经网络;人工神经网络。1. 介绍权值和阈值（统称为权值）初始化是S形前馈人工神经网络（SFFANN）训练的一个重要方面。权重通常初始化为小均匀* 通讯作者。联系电话：+919873348666;电子邮件地址：bsartaj@ipu.ac.in，www.example.com;cpchandra@ipu.ac.in，chandra. gmail.com sartajsodhi@yahoo.com2212-6716 © 2014作者出版社：Elsevier B.诉这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/3.0/）。美国应用科学研究所科学委员会负责的同行评审doi：10.1016/j.aasri.2014.05.00420Sartaj Singh Sodhi和Pravin Chandra / AASRI Procedia 6（2014）19区间[-，]中的随机值（通常为（0，1]）。SFFANN的训练已被证明对初始权重选择敏感[1]。Rumelhart等人在1987年[2]提出了权重的随机初始化他们观察到，如果权重被初始化为相等的值，则它们在训练期间串联/分组移动此外，在文献中已经建议隐藏节点充当特征检测器[3]。因此，期望每个隐藏层节点充当单独/不同特征的检测器因此，以对于不同的隐藏节点，权重和阈值属于初始化间隔的不同区域的方式初始化引入隐藏节点的权重（包括节点的阈值）变得有意义。这将导致不同节点的净输入因设计而不同，并且在训练期间允许节点适应成为不同特征的检测器。这一假设体现在所提出的权重初始化方法中。所提出的方法进行比较，对四个随机权重初始化方法（具体来说，λ= 0.25，0.50，0.75和1.00），一组6个函数逼近任务。本文组织如下：第2节介绍了实验的设计，包括所使用的网络的架构，函数逼近任务，随机权重初始化方法的描述和建议的权重初始化方法。第3节介绍了结果和讨论，第4节介绍了结论。Fig. 1. SFFANN的示意图2. 实验设计SFFANN的普遍逼近结果表明，存在具有足够数量S形输出函数的网络，隐节点可以任意好地逼近任何连续函数[4-6]。因此，本研究中使用的网络使用了一个S形节点的隐藏层。在本文的上下文中，S形函数是具有以下性质的函数：定义1：一个连续的、单调递增的、可微的函数∑（x），其中x是一个实数，是sigmodial当且仅当它满足以下条件：（x）1;lim（x）1（一）一个函数（在满足（1）和（2）的许多函数中）是双曲正切函数（另一个函数是反正切函数的缩放版本）。在本研究中用作隐藏节点的输出函数/激活函数/挤压函数的S形函数是双曲正切函数：Sartaj Singh Sodhi和Pravin Chandra / AASRI Procedia 6（2014）19214 1 2 1 122我H（x）ex 埃克斯ex 埃克斯（二）双曲正切函数是一种反对称函数，并且在文献中显示，与非对称激活函数相比，反对称函数更受欢迎[7]。本研究中使用的网络示意图如图1所示。网络的输入数用I表示，隐藏层中的节点数（这样的节点称为隐藏节点）用H表示，网络的输出数取为1。第j个输入用xj表示，网络的输出用y表示。第i个隐节点和第j个输入之间的连接强度用ij表示，第i个隐节点的阈值用i表示，那么第i个隐节点的净输入由下式给出：niijxi第一章（3）因此，来自第i个隐藏节点的输出可以表示为hi= n（ni）。第i个隐藏节点与输出节点之间的连接强度为1/2i，而输出节点的阈值为1/2。输出节点的输出函数是一个纯线性函数，也就是说，输出节点的净输入被转移为网络的输出：y ihi第1章（4）2.1. 函数近似任务以下6个函数的近似值被用作实验中的学习任务：f1（x）1（x）20.011（x）0.4;n= 0，1，（五）f（x，x）3（1x） 2e（x12（x1）2）0（x/5xx5）ex3xe（x11）2x3/3;x，x[2 1 2 1121 1 22十二（六）f3（x1，x2（1） x1sin（x2）;x1，x2[（七）f（x，x）$1.3356（1.5（1）e2x1 $1sin（3（x$0. 6）2）e3（ x0. 5）sin（4$（x$0. 9）2）;x1，x2<$[0，1]（八）f5（x1，x2）1. 9（1.35磅 x1辛（1 3（x2）ex2sin（7x）;x1，x2[0，1]（九）122Sartaj Singh Sodhi和Pravin Chandra / AASRI Procedia 6（2014）19f（x，x）1 sin（2×13×2）;x，x[6 123.5倍于100倍2）（十）函数f1是Matlab [8]中的humps.m样本函数，函数f2是Matlab中的peaks.m[8]而eq.（7）-（10）已经被Cherkassky等人作为基准问题，1996年[9]。隐藏节点的数量是基于进行的探索性实验来决定的，其中隐藏节点的数量在2到30之间以1的步长变化，用于100个训练时期。在训练过程中给出令人满意的误差的最小尺寸的第一个网络被用作实验的适当尺寸。表1总结了用于6个函数近似的网络架构。表1.函数近似任务的网络架构摘要。功能输入数量隐藏节点数（H）产出数目f1181F22151F32101f42101F52121F622512.2. 随机权矩阵方法建议的权重初始化方法进行比较，对4个随机权重初始化例程。随机权重初始化被标记为WTRi，其中i在{1，2，3，4}中，i对应于{0.25，0.50，0.75，1.00}中的权重区间参数k2.3. 建议的权重计算方法随机权重初始化例程将所有权重和阈值分布在区间[-k，k]上。所提出的用于权重初始化的方法以使得没有两个不同的节点具有属于用于权重初始化的区间的不同区域的权重的方式来分配引入隐藏节点的权重（包括隐藏节点阈值）。所提出的方法被称为基于区间的权重加权方法（IWI）。方法IWI在区间[（2 i-1）/（H-1），（2 i+1）/（H-1）]中分配通向第i个隐藏节点的权重（作为给定区间中的均匀随机数）。而第i个隐藏节点的阈值被初始化为2i/（H-1）。隐藏节点到输出节点的权重被初始化为[-C，C]之间的确定性值，其中C = H-1/2;也就是说，对于第i个隐藏节点和输出节点之间的连接权重，权重为-C + 2i C /（H-1）。在[7]中提出了一种类似的机制，但以随机方式，用于基于扇入节点的权重初始化12Sartaj Singh Sodhi和Pravin Chandra / AASRI Procedia 6（2014）19232.4. 实验过程弹性反向传播算法用于训练网络。为了训练200个输入数据集，通过对函数的输入域进行均匀随机采样来生成输入数据集，并且从函数计算相应的输出以创建训练数据集。为了测试训练网络的泛化能力，生成具有1000个数据值的类似集合，并将其称为测试集。对于每个任务和每个权重初始化方法，30个网络被训练1000个epoch。训练集和测试集的均方误差（MMSE）的30个网络的平均值与均方误差的标准偏差一起报告，分别作为训练的良好性（MMSE的值越低越好）和泛化能力的度量。执行另一组实验以测量训练期间的收敛速度，其中将等于在先前实验中实现的最差MMSE的两倍的目标保持为训练目标，并且测量所需的时期的数量。由于训练的最大历元保持在1000，如果网络在训练期间不收敛，则其历元值保持在1001（任意）。这在平均历元值中产生了一个小偏差，但是对于函数近似任务和权重初始化方法的每个实例，也会计算和报告非收敛网络的数量。3. 结果和讨论训练实验和泛化实验的结果总结在表2中。从表2中可以看出，在随机权重初始化方法（WT）中，没有一种方法在函数逼近任务中给出最佳结果。还可以看出，所提出的权重初始化方法（IWI）总是导致比任何随机权重初始化方法都小的训练和泛化误差。我们可以推断，所提出的权重初始化方法在平均训练后导致较低的误差值，并且通过所提出的方法（IWI）可以在训练时实现误差函数的最小值的2倍，因为特定函数近似任务的WTR的最佳结果与所提出的方法的最佳结果的比率的变化在区间[1.12，2.86]中。此外，从泛化实验中，我们可以推断，通过该方法初始化后训练的网络，具有更好的泛化行为。也就是说，对于由IWI初始化的网络，未用于训练的数据的错误较低。对于泛化实验，随机权重初始化方法（WTR）的最佳结果与所提出的方法（IWI）的结果之比在函数逼近任务中介于[1.08，2.71]之间。因此，对于泛化实验，所提出的方法在问题上的平均误差比使用IWI方法训练的网络低约2倍。表2.训练和泛化数据总结。对于训练和泛化实验，显示了平均均方误差，括号中的数字是标准偏差。所有数字均为× 10- 3。函数训练泛化WTR1WTR2WTR3WTR4IWIWTR1WTR2WTR3WTR4IWIf12.440.890.900.400.142.650.980.980.460.17（4.02）（1.55）（3.04）（0.37）（0.08）（4.28）（1.67）（3.19）（0.42）（0.09）F213.4313.0814.4614.747.8431.1727.8428.7726.2524.27（3.91）（3.77）（三时）（4.35）（2.58）（7.44）（6.89）（4.71）（5.81）（8.69）F32.702.882.732.681.283.914.183.943.852.1324Sartaj Singh Sodhi和Pravin Chandra / AASRI Procedia 6（2014）19（0.82）（0.66）（0.78）（0.80）（0.35）（1.18）（0.94）（1.04）（1.12）（0.59）f43.963.843.643.762.685.685.845.315.614.36（1.45）（1.26）（1.69）（1.52）（1.58）（1.96）（1.97）（2.36）（2.35）（2.62）F57.898.806.665.983.9713.4313.9812.1411.889.10（5.06）（5.77）（4.14）（3.36）（3.24）（六点七二）（7.13）（5.97）（5.02）（4.72）F623.509.2217.718.253.9148.6726.2441.4525.9813.88（46.55）（3.44）（34.13）（二、一八）（1.69）（77.39）（6.69）（60.52）（3.78）（3.88）为测量收敛速度而进行的实验的总结示于表3中。从数据中，我们可以推断，所提出的方法导致更快的收敛在所有情况下。4种WTRU中没有一种随机权重初始化方法在收敛速度上是优选的，对于不同的函数逼近任务，不同的随机权重初始化例程可以给出更好的结果。4种随机权重初始化方法（WTR）所需的最小平均历元与所提出的方法（IWI）所需的平均历元之比收敛到指定的目标位于区间[1.00，3.19]。因此，我们可以推断，在通过所提出的方法（IWI）初始化之后训练的网络具有比随机权重初始化的网络平均快约2倍的收敛速度。表3.收敛速度实验总结。该目标代表收敛速度实验的目标。对于收敛速度实验，收敛的平均历元显示在“统计”列中。非收敛网络的数量也表示为NCN。目标值和统计值均为× 10- 3。WTR1WTR2WTR3WTR4IWI功能目标统计NCN统计NCNNCN统计统计NCN统计NCNf12.44400.305 272.50美元1185.80 1158.800 49.800f214.7492.830 111.030131.00 0223.200 80.230f32.88299.330 301.970293.87 0248.530 129.070f43.96275.500 249.230274.73 0248.200 247.570f58.80522.832 522.33美元2394.40 1334.000 196.730f623.50502.133 426.60美元0442.93 2311.930 173.1704. 结论在目前的工作中，SFFANN输入的隐藏权重和隐藏权重的阈值的分布的建议，使得这些权重与不同的隐藏节点位于不相交的间隔。在一组6个函数的逼近任务上，证明了所提出的方法的效率和有效性。也就是说，与随机权重初始化方法相比，通过所提出的方法初始化的网络可以被训练以实现更深的最小值;它们在训练中更好地泛化并且更快。引用[1] 科伦J.F.，波拉克J. B.，“Back propagation is sensitive to initial conditions,” in 美国加利福尼亚州旧金山：摩根考夫曼出版公司，1990，pp. 860-867Sartaj Singh Sodhi和Pravin Chandra / AASRI Procedia 6（2014）1925[2] 鲁梅尔哈特湾E、欣顿湾E、威廉斯河J.，“Learning internal representations by error propagation,” in E.Rumelhart，J. L. McClelland和PDP研究小组，编辑。剑桥：麻省理工学院出版社，1987年，第100页。318-362[3] Haykin S.，神经网络：全面的基础。Englewood Cliffs，NJ：[4] Cybenko G.，“Approximation by superpositions of a sigmoidal function,” 303[5] 船桥K.，“On the approximate realization of continuous mapping by neural networks,” 183[6] Hornik K.，Stinchcombe M.，白HNeural Networks，vol. 2，pp. 359[7] LeCun Y.，博图湖，奥尔湾B、穆勒K.- R.，“Efficient backprop,” in B. Orr和K.- R. Muller，Eds.Berlin：Springer，1998，pp. 九比五十[8] The MathWorks Inc.，“Matlab version R2013a,”[9] Cherkassky V.，格林·D Mulier F.，“Comparison of adaptive methods for function estimation fromsamples,” 969

下载后可阅读完整内容，剩余1页未读，立即下载