没有合适的资源?快使用搜索试试~ 我知道了~
15372Noisy Softmax:通过推迟早期Softmax饱和来提高DCNN的泛化能力陈炳辉1,邓俊1,杜俊平21北京邮电大学信息与通信工程学院,2北京邮电大学计算机学院,中国北京。网址:chenbinghui@bupt.edu.cn,whdeng@bupt.edu.cn,网址:www.example.com,junpingd@bupt.edu.cn摘要在过去的几年里,softmax和SGD已经分别成为CNN框架中常用的组件和默认的训练然而,当使用SGD优化CNN时,softmax背后的饱和行为总是给我们一种训练良好的错觉,然后被忽略。在本文中,我们首先强调softmax的早期饱和行为会阻碍SGD的探索,这有时是模型在坏的局部最小值处收敛的一个原因,然后提出Noisy Soft- max通过在每次迭代期间在softmax中注入退火噪声这种基于噪声注入的操作旨在推迟早期饱和并进一步带来连续梯度传播,从而显著鼓励SGD求解器更具探索性并有助于找到更好的局部极小值。本文实证验证了早期softmax去饱和的优越性,我们的方法确实通过正则化提高了CNN模型的泛化能力。我们通过实验发现,这种早期去饱和有助于许多任务的优化,在几个流行的基准数据集上产生最先进或1. 介绍最近,深度卷积神经网络(DCNN)已经席卷计算机视觉领域,显着提高了许多视觉任务的最先进性能,例如人脸识别[43,44,33,36],大规模图像分类[23,39,46,11,13],以及细粒度对象分类[31,18,21,48]。同时,softmax层和SGD的训练策略以及反向传播(BP)成为默认组件,并且通常应用于上述大多数工作中。人们广泛观察到,当使用SGD和BP进行优化时,平滑和自由的梯度传播对于改善DCNN的训练至关重要。例如,替换图1.DCNN中典型softmax层的分解它可以重写为三个部分:全连接组件,softmax激活和交叉熵损失。sigmoid激活函数与分段线性激活函数(如ReLU和PReLU[12])处理了由sigmoid饱和引起的梯度消失问题,并允许训练更深的网络。然而,有趣的是,softmax激活函数(图1中示出)由于其类似的公式(在第二节中示出)而隐式地像sigmoid函数3),当输入较大时,也具有饱和特性。然而,许多人认为softmax激活是理所当然的,并且由于基于DCNN的性能改进的错觉,其饱和行为背后的问题被忽略了在标准SGD中,当softmax的输出非常接近地面真实值时,softmax的饱和行为就会出现,这当然是我们模型训练的目标然而,在某些方面,它是提高CNN泛化能力的障碍,特别是当它出现得早(不合时宜)时。具体地,对于一个实例输入,当其softmax输出预先饱和时,它将提前停止向BP贡献梯度, 和 在这种情况下,由于较差的梯度传播和参数更新,使用SGD和BP的学习过程几乎不能探索更多我们将这种饱和行为定义为个体饱和,将相应的个体定义为饱和个体。随着训练的进行,非饱和贡献训练样本的数量逐渐减少,网络的鲁棒学习将受到阻碍。这有时是算法陷入局部极小值1和难以逃脱的原因。此外,过度-1为了简单起见,我们使用局部或15373配件出现了。为此,我们需要给SGD机会来探索参数空间的更多部分,并且早期的个体饱和是不希望的。在本文中,我们提出了Noisy Softmax,一种早期Softmax去饱和的新技术,以解决上述问题。这主要是通过在每次迭代期间将噪声直接注入softmax激活来换句话说,Noisy Softmax允许SGD从糟糕的局部最小值中逃脱,并通过推迟早期的个体饱和来探索更多此外,它通过减少过度拟合来提高系统的泛化能力,这是更多探索的直接结果本工作的主要贡献总结如下:• 我们提供了softmax饱和度的见解,解释为个体饱和度,即早期个体饱和度产生短暂的梯度传播这对于SGD的鲁棒探索是差的,并且进一步导致无意中的过拟合。• 我们提出了Noisy Softmax,旨在通过注入一个-将噪音转化为softmax激活。它允许SGD求解器的“全局”收敛,并通过减少过度拟合来帮助泛化。据我们所知,这是首次尝试通过添加噪声来解决softmax的早期饱和问题。• 噪音Softamx可以很容易地执行作为一个下降-替代标准softmax并使用标准SGD进行优化。它也可以应用于其他性能改进技术,例如神经激活功能和网络架构。• 已经在几个数据集上进行了广泛的实验,包括MNIST [26] , CIFAR 10/100 [22] , LFW [17] ,FGLFW [54]和YTF [49]。那个...实验结果证明了该算法的有效性。2. 相关工作已经开发了许多有前途的技术,例如新颖的网络结构[30,13,41],非线性活化,任务函数[12,7,6,38],池化策略[11,8,53]和目标损失函数[43,36]等。分段激活函数[23]。 这是神经元去饱和。不同层之间的跳过连接以指数方式扩展传播路径[41,11,13,16,15]。这些属于层去饱和,因为前向和后向信息可以直接从一个层传播到任何其他层,而梯度不会消失。相反,只有早期饱和行为是有害的,而不是所有的,我们专注于softmax的早期去饱和,这还没有被研究,我们通过将噪声显式地注入softmax激活来实现这一还有一些其他的工作与噪声注入有关。向ReLU添加噪声是为了鼓励组件在玻尔兹曼机器和前馈网络中探索更多[4,1]。向sigmoid添加噪声提供了使用比以前更广泛的激活函数族进行训练的可能性[10]。添加权重噪声[42],自适应权重噪声[9,3]和梯度噪声[32]也可以改善学习。添加退火噪波可以帮助求解器摆脱糟糕的局部最小值并找到更好的局部最小值。我们遵循这些鼓舞人心的想法,广告-dressing个人饱和度,并鼓励SGD探索更多。主要区别在于我们在CNN上应用了噪声注入,并将噪声施加在损失层而不是先前的层上。但与在DisturbLabel [51]中的损失层上添加噪声不同,这种方法似乎很奇怪,但确实提高了模型的性能,我们的工作有一个明确的目标,即通过显式地将噪声注入softmax活动来延迟早期softmax饱和。另一种噪声注入方式是随机变换输入数据,这通常被称为数据增强,例如随机裁剪、翻转[23,50]、旋转[25,24]和抖动输入数据[34,35]。我们的工作也可以被解释为一种数据增强的方式,这将在下面的讨论部分进行讨论。3. 早期个体饱和在本节中,我们将给出一个玩具示例来描述softmax的早期个体饱和,它总是被忽略,并分析其对泛化的影响。 用相应的标签yi定义第i个输入数据xi,yi∈[1···C]. 然后用stan-通过DCNN,我们可以得到交叉熵损失和平均熵。导数如下:1月1日efyi这些方法大多使用SGD进行优化,L=−NlogP(yi|xi)=−N我对数ΣIjefj(1)反向传播 在标准SGD中,我们使用链式规则efj来计算和传播梯度。 所以,任何一个土星,神经元单元或层组件2的动作行为是不期望的,fj=P(yi=j|xi)−1{yi=j}=K efk−1{yi=j}(二)以平滑和自由地流动梯度信息。早期的解决方案是用非线性代替sigmoid函数2层饱和度是指反向传播过程中梯度在某一层消失。其中,fj表示softmax输入的第j个元素向量f,j∈[1···C],N是训练图像的个数如果满足条件 , 则 1{condition}=1 , 如 果 不 满 足 , 则1{condition}=0为了简化我们的分析,我们考虑双-35374yiyiyi1+e−(f1−f2)yi我我yiyiyie−(f−f)我nary classification3,其中yi∈[1,2].在二进制sce下-f噪声=fy-n(3)nario,我们在图中绘制类1的softmax激活ure 2. 直觉上,softmax激活完全像sig-其中n=µ+σ,N(0,1),µ和σ用于产生更广泛的噪声族。直觉上,我们moid函数标准softmax鼓励f1>f2我希望f噪声小于fy(因为f噪声>为了正确分类类1,当其输出P(yi=1)时,|x(i)=1isvery将加速饱和)。因此,我们只需要噪声n总是正的,我们有如下形式:接近1。在这种情况下,数据xi的softmax输出是饱和的。我们将其定义为个体饱和度。当然,我想,f噪声=fy-σ|ξ|(四)使其softmax输出接近1是我们CNN训练的最终目标。然而,我们希望在SGD探索的最后阶段实现它,而不是在开始或中期阶段。因为,当使用基于梯度的方法(如SGD)优化CNN时,由于可忽略的梯度,过早饱和的个体早期停止对反向传播贡献梯度,即 P(y =1|x)1001,100L1000fyi(see当量2)的情况。随着饱和个体数的增加,贡献数据量减少,SGD移动的机会减少,更容易收敛其中噪声n具有均值0和标准方差σ。此外,我们希望通过控制参数σ来使我们的噪声退火。考虑到我们最初的想法,我们打算推迟xi的早期饱和,而不是不允许其饱和,这意味着需要初始较大的噪声来提高勘探能力并且随后需要相对较小的噪声用于模型收敛。在标准Softmax层(图1)中,fyi也是全连接组件的输出,可以写为因此,在局部最小值处,容易过度拟合,FYI=WT Xi+by 其中Wyi是W的第yi列,Xi它需要额外的数据来恢复。简而言之,早期饱和的引入了短暂的梯度传播,这不足以帮助系统收敛于“全局最小值”(即,一个更好的本地最小值),所以早期的个人satura-是来自训练数据xi和byi的该层的输入特征是基础。 由于byi是一个常数,而fyi主要取决于W TXi,因此我们通过使σ与W TX i相关来构建退火噪声。政府考虑到这是不希望的。WTXi=<$Wy <$$>Xi<$cosθy,其中θy角度是-伊伊伊10.80.60.40.20−10 −8 −6 −4 −2 0 2 4 6 8 10f1−f2图2. Softmax激活功能:1. X轴重复-1+12不喜欢f1和f2之间的差别。4. 噪音Softmax在向量Wyi和Xi之间,σ应该是θyi和θyi分别保存振幅和角度信息。 参数W yi后跟损失函数可以被视为类yi的线性分类器。这个线性分类器使用余弦相似度来进行-gal决策边界结果表明,随着系统的收敛,Wyi与Xi之间的夹角θyi将逐渐减小。因此,我们的退火噪声相关softmax输入公式为:f噪声=fy -αX i(1− cos θ y)|ξ|(五)基于第3节中分析的事实,早期个体饱和引起的短暂梯度传播不会指导鲁棒学习。 因此,直观的解决办法是在其饱和过程中设置“屏障”,以推迟早期饱和行为,产生丰富而连续的梯度传播。特别地,对于训练数据点(x i,y i),实现这一点的简单方法是人为地减少其softmax输入f yi(注意,它是伊伊伊其中αXi(1−cosθyi)=σ,h型r参数α用于调整噪声的尺度。在我们的退火噪声中,我们利用W yi X i使噪声和fyi的幅度相当,并使用(1−cosθyi)自适应地退火噪声。值得注意的是,我们早期的去饱和-操作工作意味着使softmax稍后饱和而不是不饱和。我们试验了各种功能理论上与enlar gefj,jujj相同是的,但它是如此com-这是一个令人惊讶的发现,这是一个令人惊讶的事实。丛操作)。此外,许多研究工作指出,添加噪声使系统有机会找到“全局最小值”,例如将噪声注入sigmoid[10]。 我们遵循PLE制剂表现更好。 将方程5成原创softmax,Noisy Softmax损耗定义为:1efyi−αXi(1−cosθyi)|ξ|这个鼓舞人心的想法,以解决问题的早期个人-L=−对数Σffy−αXi(1−cosθy)|ξ|性饱和因此,我们减缓早期饱和的技术是在softmax中注入适当的噪声Nij/=yej+e我我我(六)输入fyi,并且所得到的与噪声相关的一个如下:3多分类使我们的分析复杂化,但与二进制场景具有相同的后验概率我我我我35375优化.我们使用Eq。6在我们的实验中,并优化我们的模型与常用的SGD。因此我们需要计算前向和后向传播, 需要替换为45376jfWXyi10.90.810.80.70.60.50.4x1030.60.40.2X1000 2 4 6 8 10 12 14 16迭代0 20 40 60 80 100 120 140 160迭代图3. 饱和状态与迭代不同的配方图4. CIFAR100测试误差与迭代具有不同的噪声形成。Normal和Neg表示正常噪声和噪声的负模拟。Normal和Neg表示正常噪声,噪音分别。在我们的实验中,α2WTXi伊岛对于向前和向后传播,Wyi噪声Softmax损耗与标准损耗之间的唯一差异softmax损失存在于fyi中。例如,在前向传播中,与原始softmax相同地计算而用f噪声代替fy。在反向传播中,我分别为负噪音。在我们的实验中,α2在表3、4和5中列出。可以观察到,具有相对适当的α(例如,α2=0)的Noisy Soft- max。1)在所有数据集上获得比普通softmax更好的识别准确率。为了直观起见,我们在图6中总结了CIFAR100的结果。当α2=0.1、我们的方法LXiΣ∂L∂fjjfjXiyi所以,L=∂WyiL fj,只有当jyi性能优于原始的softmax。 这表明我们的Noisy Softmax确实提高了泛化能力,j=yi的计算我 和k,f,j是不一样的∂Wyi通过鼓励SGD求解器更具探索性并收敛于“全局最小值”来当α作为原始softmax,列出如下:上升到1,大噪声导致网络收敛无噪声XW速度更慢,性能比基线更差,yi=Wy-α|ξ|(iyi −Wy)(7)X i i无噪声ǁXiǁiWX好. 由于大的噪声淹没了有用的信号,求解器只看到噪声。yi= X i− α|ξ|(yii− X i)(8)∂WyiǁWyiǁ对于简单的y,我们给出了φL和φfj,φfj(φj/=y)5.2.饱和度研究为了阐明早期softmax desatu的意义fjXi∂Wyi基于非负噪声注入,我们研究了因为它们对于Noisy Softmax和原始softmax. 简而言之,除了当j=yi时,Noisy Softmax的总体计算与原始softmax相似5. 讨论5.1. 噪声等级α的影响在Noisy Softmax中,退火噪声的规模很大程度上门控不同噪声公式的影响,例如正常噪声n=σ和负噪声n=−σ|ξ|(σ与Eq中的相同。(5)个体饱和度。 从噪声的公式中,我们可以想象,当用负噪声训练时,会有更多的饱和实例(这是一个反例)。为了直观地分析饱和状态,我们计算平均可能性预测在整个训练集上,如下所示:由超参数α决定。这里我们可以想象,当α=0时,噪声限值为0,1摄氏度P=NNjP(yi|(九)与普通softmax相同然后是个人的satu-定量将出现,SGD求解器很有可能收敛到局部最小值。如果没有额外的数据进行训练,模型很容易过度拟合。然而,当α足够大时,由于通过f噪声进行反向传播会产生较大的导数,因此可以获得较大的梯度。因此,该算法只看到噪声,而不是真正的信号,并在任何地方盲目移动。因此,需要一个相对较小的α来帮助模型的推广。我们在几个数据集上评估了具有不同α的NoisySoftmax的性能。请注意,α的值没有仔细调整,我们将α=0(即soft-max)作为我们的基线。这些比较结果是j=1i=1其中C是类别的数量,并且Nj是第j个类别内的图像的数量。图3和图4分别显示了CIFAR100在不同噪声和测试错误率下的饱和状态从图3中的结果可以观察到,当使用原始softmax或负噪声进行训练时,平均预测快速上升到相对较高的水平,几乎为0。9,这意味着早期个体饱和度是严重的,最后上升到接近1。此外,负噪声的平均预测值高于softmax,这意味着由于许多实例被人为映射到Softmax噪声Softmax正常negSoftmax噪声Softmax正常Neg平均预测识别错误率=Σ45377softmaxNoisy Softmax(噪声最大值= 0.05)NoisySoftmax(噪声最大值=0.1)Noisy Softmax(噪声最大值= 0.5)NoisySoftmax(噪声最大值=1)识别错误率1 10.80.60.40.80.60.20.40× 1000.2X1000 20 40 60 80 100 120 140 160迭代图5. CIFAR100培训错误与迭代不同的α。饱和的。从图4的结果可以看出,负噪声的测试误差下降缓慢,最终达到了一个较高的水平,接近37%,证实了早期个体饱和严重阻碍了SGD的勘探。在正常噪声情况下,测试误差和平均预测上升趋势与原始softmax相似,分别如图4和图3所示,因为期望值E(n)接近于零。相比之下,当使用Noisy Softmax进行训练时,平均年龄预测上升缓慢,在早期训练阶段远低于原始softmax,如图所示。 结果3,验证了显著避免了早期的个体饱和突变。从图4中的结果可以看出,NoisySoftmax优于基线,并将性能显著提高到28.48%的测试错误率。请注意,经过3,000次迭代后,我们的方法实现了更好的测试误差结果,但平均预测较低,这表明softmax的早期去饱和使SGD求解器有机会遍历更多的参数空间以获得最佳解。随着噪声水平的降低,它将倾向于更好的局部最小值,其中信号对SGD给出强响应然后,求解器将花费更多的时间来探索该区域并在有限的步骤中收敛,这可以被视为总之,注入非负噪声n=σ|ξ|在softmax中确实可以防止早期的个人饱和和毛皮-另外,通过标准SGD优化,提高了CNN的泛化能力。5.3. 退火噪声研究在解决早期个体饱和时,关键思想是添加退火噪声。为了突出我们的退火噪声的优越性,在第二节中描述。4,我们将其与自由噪声n = α进行比较|ξ|和振幅噪声α2噪音Softmax免费振幅031.7731.7731.770.0529.9931.4330.960.128.4831.0429.970.530.2230.88失败135.2331.20失败表1.测试错误率(%)与CIFAR100上的不同噪音0 20 40 60 80 100 120 140 160迭代图6. CIFAR100测试误差与迭代不同的α。n=α<$Wyi<$$>Xi<$|ξ|. 我们在CIF AR100上对它们进行了评价,结果列于表1中。 从结果中可以看出,我们的Noisy Softmax优于其他两种噪声公式。在自由噪声情况下,其中σ(在第4)设置为固定值α,噪声完全独立,尽管添加此噪声是一种去饱和操作,但基线上的精度增益为小,因为它不根据softmax输入的幅度使softmax更差地去饱和,换句话说,它不能适合这种情况的补救在幅度噪声情况下,其中σ被设置为αXi,减法噪声是谨慎的由于考虑到softmax输入的水平,因此产量-比自由噪声有更好的精度增益。虽然它仍然比NoisySoftmax更糟糕。因为,在Noisy Softmax和幅度噪声情况下,随着探索的进行,SGD已经看到了参数空间的“全局更好”区域,现在是时候耐心探索这个区域了,换句话说,需要更小的噪声。 Noisy Softmax通过对噪声进行退火来保持这个想法,但是在幅度噪声的情况下,此时电平不变的噪声似乎有点大,并且进一步导致详细学习的困难。回顾我们的退火噪声的公式,可以观察到我们的退火噪声是通过将时间标识符θ yi组合到mplitude噪声中来构造的。与时间函数1−cosθy被注入,噪声将被自适应降低5.4. 正则化能力我们通过实验发现,Noisy Softmax可以通过防止过度拟合来正则化CNN模型。图5和图6显示了CIFAR100数据集在不同α下的识别精度结果。可以观察到,在没有噪声注入的情况下(即,α=0)时,训练识别错误率迅速下降到相当低的水平,几乎为0%,而测试识别错误率则在相对较高的水平上停止下降,接近31. 百分之七十七相反,当α2设置为适当的值(如0.1)时,训练误差下降较慢,并且远高于基线。 但测试误差达到了一个较低的水平,近28。48%,且仍有下降趋势。即使α2=0。5、训练误差较高,但测试误差也较低,接近30。百分之二十二这表明,鼓励SGD收敛于更好的局部最小值确实可以防止过拟合和噪声softmaxNoisy Softmax(噪声最大值= 0.05)NoisySoftmax(噪声最大值=0.1)Noisy Softmax(噪声最大值= 0.5)NoisySoftmax(噪声最大值=1)识别错误率45378jΣyi′yi′′其中,k0和kj,j∈[1,2,···]分别是通用参数和任务特定参数优化与标准-在标准SGD中,通用参数0更新为0=0-γ(Lj),γ是学习率。在Noisy Softmax中,0从整体训练的角度来看,我们的损失函数也可以被视为许多噪声依赖的组合变化损失L噪声k=−logefyif噪声+c/=yi efc+eyi图7.数据扩充的几何解释。Σα|ξ|kXi(1−cosθyi),k∈[1,m],即L=Softmax具有很强的正则化能力。Mk=1 噪声k其中m是一个不确定的数,如上所述,我们的Noisy Softmax可以被视为与噪声尺度和迭代次数有关。 故,过。所有对系统的贡献都可以看作是:作为一种正则化技术,Σmγ(k=1噪声∂ϑk)。因此,我们的方法可以被视为一种让SGD更具探索性。这里我们将从另一个数据增强的角度来分析这种正则化能力,它具有深刻的物理解释。 在原始情况下,来自数据点(xi,yi)的softmax输入为fyi =WyiXicosθyi(为了简单起见,我们省略常数byi)。现在我们认为一个新的输入(xi,yi),其中=,角度θyi′向 量 Wyi 和 Xi 之 间 的 关 系 为 arccos ( ( 1+α|ξ| )cosθyi−多任务学习的特殊情况,其中任务特定的参数在任务之间共享。然而,在多任务学习系统中,人为地设计任务特定的损失是昂贵的,任务的数量是有限的和小的。而在Noisy Softmax训练过程中,模型受到许多随机生成的任务(由L 噪 声 k量化)的约束。因此,可以将使用Noisy Softmax训练模型′α|ξ|)的情况。因此,我们有f=10W′′X=WT X−我爱我爱我我我因为训练需要大量的任务,这些任务非常昂贵,αX i(1 − cosθ y)|ξ|=f噪声,这意味着这在原有的多任务学习系统中是不可行的。我我我f噪声可以被视为来自新的数据点噪声注入: 一些研究工作将噪声注入“神经网络的前几层,如神经元激活,(xi,yi)。值得注意的是,由于θyi >θyi,这些生成的数据我有很多边界的例子,区分特征学习,如图7所示。总之,生成噪声输入f噪声相当于生成新的训练数据,这是一种有效的数据增强方式。为了验证我们上面的讨论,我们在MNIST数据集的两个子集上评估了Noisy Soft- max,这两个子集分别只有600(1%)和6000(10%)个训练实例。我们的CNN配置如表2所示。使用第6.1节中的相同训练策略,我们实现了3。82%,1。在原始测试集上分别有30%的测试错误率。同时,在这两种情况下,训练错误率迅速下降到接近0%,这表明过度拟合出现了。然而,当使用Noisy Soft- max(α2=0. 5),我们得到2。46%,0。93%的测试错误率。这表明Noisy Softmax通过隐式数据增强提高了CNN的泛化能力。从这两个子集和CIFAR100(每类有500个实例)的精度改进来看,它是一种有效的算法,特别是在训练数据量有限的情况下。5.5. 与其他方法的关系多任务学习:将多个任务组合到一个系统中确实可以提高泛化能力[37]。考虑一个具有输入数据xi的多任务学习系统,总体目标损失函数是若干子目标损失函数的组合,记为L=jLj(n0,nj,xi),[2019 - 04 - 19][2019 - 04 - 19][2019 - 04][2019 - 04 -19][2019 - 04][2019 - 04 - 19][2019 - 04][2019 - 04 -19][2019 - 04][2019 - 04 - 19] 我们强调Noisy Softmax在单个损失层上而不是在多个损失层上添加噪声,这对于实现和模型训练更方便和有效,并应用于DCNN。与DisturbLabel[51]不同的是,其中噪声是由干扰标签产生的,并且也对损失层产生影响,Noisy Softmax从早期softmax去饱和的清晰对象开始,并且噪声以显式方式自适应退火和注入。去饱和:许多其他去饱和工作,例如用ReLU[6]替换 sigmoid和在层之间建立跳过连接[41,11,13,15],解决了底层发生的梯度消失问题。虽然我们的Noisy Softmax 解 决 了 早 期 梯 度 在 顶 层 消 失 的 问 题(即,损失层),这是由早期个体饱和引起的。由于顶层是梯度传播的源头,因此总之,通过推迟早期个体饱和度,我们可以获得从顶层开始的连续梯度传播,并进一步鼓励SGD更具探索性。6. 实验和结果我们在几个基准数据集上评估了我们提出的NoisySoftmax算法,包括MNIST [26],CI-FAR 10/100 [22],LFW [17],FGLFW [54]和YTF [49]。请注意,在我们所有的实验中,我们只使用一个45379层MNIST(用于SEC)5.4)MNISTCIFAR10/10+CIFAR100LFW/FGLFW/YTFBlock1[3x3,40] × 2[3x3,64]x3[3x3,64]x4[3x3,96]x4[3x3,64]x1Pool1最大[2x2],步幅2Block2[3x3,60]x1[3x3,64]x3[3x3,128]x4[3x3,192]x4[3x3,128]x1游泳池2最大[2x2],步幅2Block3[3x3,60]x1[3x3,64]x3[3x3,256]x4[3x3,384]x4[3x3,256]x2池3最大[2x2],步幅2第四区块----[3x3,512]x3,填充0完全连接1002565125123000表2.不同基准数据集的CNN架构Blockx表示几个卷积组件的容器,具有相同的配置. 例如[3x3,64]x5表示5个级联卷积层,具有64个大小为3x3的滤波器用于评估Noisy Softmax的模型,并且我们实验中的soft- max和Noisy Softmax都使用表2中所示的相同CNN架构。6.1. 体系结构设置和实施随着VGG[39]成为常用的CNN架构,具有小尺寸滤波器的级联层逐渐取代具有大尺寸滤波器的单层。由于这些级联层与单层相比具有参数少、计算复杂度低例如,单个5x5卷积层被替换为2个级联的3x3卷积层。受此启发,我们设计了如表2所示的架构。在卷积层中,如果没有指定,步幅和填充都设置为1。在池化层中,我们使用步长为2的2x2最大池化过滤器。我们采用分段线性函数PReLU[12]作为我们的神经元激活函数。然后我们在我们的网络中使用权重初始化[12]和批量归一化[19]。我们所有的实验都是通过Caffe库[47]实现的,并进行了我们自己的修改。我们使用标准SGD来优化我们的CNN,对象实验和人脸实验的批量大小分别为256和200。对于数据预处理,我们只执行均值减法。训练在物体识别任务中,初始学习率为0.1,在12k处除以10。总迭代数为16k。请注意,尽管我们使用粗略调整的学习率训练CNN,但所有实验的结果都令人印象深刻且一致,验证了我们方法的有效性。对于人脸识别任务,我们从0.01的学习率开始试验.我们使用原始的softmax对对象数据集中的测试数据进行分类。在人脸数据集中,我们评估后的PCA约简人脸识别的余弦距离规则。6.2. MNIST数据集评价MNIST包含60,000个训练样本和10,000个测试样本。这些样本均匀分布在10个类上。所有样本均为28x28灰度图像。我们的CNN网络架构见表2我们使用0.001的重量衰减。表3中列出了最新方法和我们提出的具有不同α的Noisy Softmax的结果。根据结果,我们的Noisy Softmax(α2=0. 1)不仅在相同的ar上优于原始softmax架构,而且还实现了与最先进的方法相比具有竞争力的性能。还可以观察到,Noisy Softmax在粗调α2(如0.05、0.1和0.5)的情况下产生一致的准确度增益,而我们的方法在Distur- bLabel[51]的情况下实现了相同的准确度,该方法向多个层添加了丢弃,证明了我们技术的有效性。6.3. CIFAR数据集评价CIFAR[22]有两个分别超过10和100类的评估协议。CIFAR 10/100具有50,000个训练样本和10,000个测试样本,所有样本都是32 x32 RGB图像。这些图像均匀 地 分 布 在 10 或 100 个 类 上 。 我 们 在 CIFAR10 和CIFAR100实验中使用不同的CNN架构,这些网络配置如表2所示。我们在CIFAR10和CIFAR100上评估我们的方法,这些结果如表4所示。对于数据增强,我们执行一个简单的方法:随机截取30*30的图像。从我们的实验结果中,可以观察到Noisy Softmax(α2=0. (1)优于其他所有这两个数据集的方法。 它提高了近1%,在CIFAR10和CIFAR100上分别获得了超过基线3%的准确率6.4. 人脸数据集评价LFW[17]包含来自5749位名人的13,233张照片。在不受限制的条件下,它为验证协议提供了6,000个人脸对,并为[2]中采用的识别协议提供了闭集和开集。FGLFW[54]是LFW的衍生物,这意味着图像都来自LFW,但人脸对很难分类它们是否来自同一个人。由于简单的验证协议但具有挑战性的人脸对,它YTF[49]提供了5000个视频对用于人脸验证。我们随机使用100的平均表示45380方法MNIST美国有线电视新闻网[20]0.53NiN[30]0.47Maxout[7]0.45[第28话]0.39R-CNN[29]0.31GenPool[27]0.31[第51话]0.33Softmax0.43噪声Softmax(α2= 1)0.42噪声Softmax(α2= 0. 第五章)0.33噪声Softmax(α2= 0. 第一章0.33方法CIFAR10CIFAR10+CIFAR100NiN[30]10.478.8135.68Maxout[7]11.689.3838.57[第28话]9.697.9734.57[40]第四十话9.087.2533.71R-CNN[29]8.697.0931.75ResNet[13]N/A6.43N/A[第51话]9.456.9832.99Softmax8.116.9831.77噪声Softmax(α2= 1)9.098.7735.23噪声Softmax(α2= 0. 第五章)7.847.1330.22噪声Softmax(α2= 0. 第一章7.396.3628.48表3.MNIST上的识别错误率(%)表4.CIFAR数据集上的识别错误率(%)+表示数据扩充。方法图像模型LFW Rank-1FAR=1%FGLFWYTFFaceNet[36]200M*199.65---95.18[44]第四十四话30万 *198.7---91.90[44]第四十四话30万 *2595.0080.70-93.20稀疏[45]30万 *1九十九点半---92.70VGG[33]2.6M197.27 74.1052.0188.1392.80WebFace[52]WebFace197.73---90.60[5]第五届全国人大代表WebFace198.43----CNN[50]WebFace198.13 89.2169.4691.2291.60Softmax网站地图198.83 91.6869.5192.9594.22噪声Softmax(α2= 0. 第一章网站地图199.18 92.6878.4394.5094.88噪声Softmax(α2= 0.05)网站地图199.02 92.2475.6794.0294.51表5. LFW、FGLFW和YTF数据集上的识别准确率(%)。* 表示图像不公开,+表示数据扩展。在LFW中,闭集和开集精度分别由Rank-1和Rank @FAR=1来评估。从每个视频中选择样本进行评估。对于数据预处理,我们根据眼睛和嘴巴中心对齐和裁剪图像,生成104×96RGB图像。 我们的CNN配置如表2所示,在这里,我们在3,000维全连接层之后添加了逐元素的maxout层[50],产生了1500维全连接层。维 度 输 出 , 并 且 对 比 度 损 失 应 用 于 该 输 出 , 如DeepID2中[43]。然后,我们使用来自公开可用的CASIA-WebFace数据集[52]的外部数据和我们自己收集的数据(来自14 k个身份的约400 k)训练单个CNN模型。提取每个图像及其水平翻转图像的特征,然后计算平均特征向量作为表示。从表5所示的结果中,可以观察到,Noisy Soft- max(α2=0. 1)在基线上提高了性能,并且结果也可与具有私有数据甚至模型增强的当前最先进的方法相媲美。此外,我们进一步改进我们的结果,九十九。31%,94。43%,82. 50%,94. 88%,95。37%(列入与表中相同的方案顺序(5)两个模型,semble7. 结论在 本 文 中 , 我 们 提 出 了 Noisy Softmax , 通 过 向softmax输入注入退火噪声来解决早期个体饱和问题这是一种通过推迟早期个体饱和来实现早期softmax去饱和的方法。我们表明,我们的方法可以很容易地作为标准softmax的插入式替代品执行,并且更容易优化。由于早期去饱和操作确实对反向传播过程中的参数更新产生了很大影响,因此它显著提高了CNN模型的性能,实例研究验证了softmax去饱和的优越性。同时,它在多个数据集上实现了最先进或具有竞争力的结果。8. 致谢这项工作部分得到了国家自然科学基金项目6157306861471048、61375031、61532006Nova计划,批准号:Z161100004916088,中央高校基础研究经费,批准号:2014 ZD 03 -01,新世纪优秀人才计划(NCET-13-0683)。45381引用[1] Y.本吉奥。通过随机神经元估计或传播梯度。计算机科学,2013。[2] L. Best-Rowden,H.汉角,澳-地奥托湾F. Kandi,和A.K.贾恩。无约束人脸识别:从媒体集合中识别感兴趣的人 。 IEEE Transactions on Information Forensics andSecurity,9(12):2144[3] C. Blundell,J.科尔内比斯河Kavukcuoglu和D.维尔斯特拉神经网络中的权重不确定性。计算机科学,2015年。[4] 由V Nair和G. E.辛顿校正线性单元改善受限玻尔兹曼机。Proc Icml,第807-814页[5] C. Ding和D.涛. 基于多模式深度人脸表示的多媒体应用的鲁棒人脸识别IEEE Transactions on Multimedia,17(11):2049[6] X. Glorot,A. Bordes和Y.本吉奥。深度稀疏整流神经网络。Journal of Machine Learning Research,15,2010。[7] I. J. Goodfellow , D. Warde-Farley , M. Mirza , A.Courville和Y.本吉奥。Maxout网络。计算机科学,第1319[8] B.格雷姆分数最大池化。电子版Arxiv,2014年。[9] A. Graves.神经网络的实用变分推理。神经信息处理系统进展,2348-2356页[10] C. Gulcehre,M.Moczulski,M.Denil和Y.本吉奥。噪声激活功能。2016年。[11] K.他,X
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功