没有合适的资源?快使用搜索试试~ 我知道了~
全局特征引导的局部池化方法在深度卷积神经网络中的有效性
3365全局特征引导的局部池化小林拓美日本筑波市梅园1-1-1产业技术综合研究所takumi. aist.go.jp摘要在深度卷积神经网络(CNN)中,局部池化操作是有效缩小特征图以降低计算成本以及增加对输入变化的鲁棒性的关键构建块。有几种类型的池化操作,例如平均/最大池化,必须手动选择其中一种来构建CNN。最佳池化类型将取决于CNN和分类任务中特征的特征,因此很难提前找到合适的池化模块。在本文中,我们提出了一种灵活的池化方法,自适应地调整池化功能的基础上输入功能,而无需手动修复,ING事先。该方法首先从概率的角度推导出参数化的池化形式,以灵活地表示各种类型的池化,然后在输入特征图中通过全局统计估计参数。因此,所提出的由全局特征引导的局部池化在以端到端方式训练的CNN中有效地工作图像分类任务的实验结果证明了所提出的池化方法在各种深度CNN中的有效性。1. 介绍深度卷积神经网络(CNN)是高性能图像识别的可靠模型[18,32,12]。虽然一些技术,如批量归一化[16]和DropOut [33]是正确训练深度模型的基础,但从架构的角度来看,CNN主要包括卷积,激活和空间池化的三个基本操作。激活函数,特别是校正线性单元(ReLU)[26]及其变体[24,11],用于非线性变换神经元响应。卷积是通过学习的滤波器从输入图像中提取有效特征的关键操作[44,4,41]。局部卷积被扩展为全局执行的全连接(FC)卷积[18]。与卷积类似,有两种类型在感受野方面的空间汇集,局部或全局。全局池化通过将空间通道张量的(最后一个)特征图空间压缩为通道维度的特征向量(最终馈送到分类层),有效地替代了某些CNN中的FC [22,12,34实际上,平均池主要应用于全局聚合特征,尽管[17]中也研究了一些池形式。与全局池化相比,局部池化操作是大多数CNN中常用的关键构建块,用于有效降低空间分辨率,同时增加对输入图像变化(如平移)的鲁棒性。局部汇集也源于生物学见解[15]。根据生物启发模型[31],各种类型的深度CNN [18,32,34]采用局部最大池化来缩小特征图,而平均池化也适用于CNN [20]。另一方面,一些模型[12,41]通过步幅卷积实现了相同的缩小效果,步幅卷积也被视为1-步幅卷积之后的池化[46]。因此,与卷积运算相比,存在诸如avg/max等多种方式来实现池化运算,并且难以手动选择最佳池化类型;它是基于在试验和错误方法中需要大量努力的实验性能来确定的。因此,它激励我们在端到端训练中优化池函数的类型,就像卷积滤波器或泄漏ReLU参数一样[11]。对于可训练池化操作,有必要解决关于(1)如何制定各种类型的局部池化函数和(2)使用什么类型的数据来确定池化类型的两个问题。多样的池化功能必须由简单且统一的形式表示,并且即使在测试阶段,也应该基于输入特征自适应地调整形式中的池化操作,因为最佳池化类型与输入特征的特性有关[1,38]。因此,可训练的池化需要这样一个动态和灵活的公式。此外,最佳池化功能将基于输入要素的全局特征(而非局部特征)3366pppp感受野[1,38]。如上所述,局部池化和全局池化已经被单独讨论,并且它们之间没有融合;到目前为止,局部池函数仅处理感受野中的局部特征[30,21]。在这项工作中,我们提出了一种新的可训练的本地池功能的指导下的全球功能超出本地的。我们首先基于最大熵原理[25]制定池函数,以灵活地表示具有可训练参数的各种类型的池函数。池功能的类型由参数有效地控制。然后,我们利用全局特征统计来估计灵活池函数的参数。在所提出的池化方法中,参数不是以静态形式直接训练的,而是通过全局特征动态确定的,与其他参数(可训练)池化方法相反[30,21]。我们的主要贡献有三个方面:(1)从理论上推导出了参数化的池函数,它灵活地描述了各种类型的池,(2)通过自适应地估计池参数,将全局特征融入池操作中,(3)在大规模数据集上进行了深入的实验,从多方面分析了该方法,给出了有效的池形式,同时与其它方法相比显示出良好的性能。2. 相关作品空间汇集起源于关于哺乳动物视觉皮层中复杂细胞的生物学工作[15]。然后,在一些神经科学著作中,通过分析/模拟初级视觉皮层区域V1 [28,29,31]讨论了最大池的重要性池化也用于相当实用的目的,以通过平均池化在本地聚合特征以构建本地图像描述器,例如SIFT [23]和HOG [5]。在词袋[3]的框架中,空间池被全局应用以聚合如签名到局部描述符的词代码,从而实现有效的图像表示。虽然平均池被广泛应用于计数单词,但最大池也可以与稀疏编码技术结合使用[1,42]。在神经网络的文献中,池化技术被应用于总结多层感知器(MLP)中跨通道的神经元激活,或者被应用于向下的神经元激活。计算效率和鲁棒性。虽然在一些CNN [20]中采用了平均池化,但根据HMAX [31]的生物启发模型,最大池化成为深度CNN [18,32,34]尽管如此,在构建CNN时,有必要确定池化的类型,平均值或最大值,并且最佳池化类型将取决于识别任务和/或输入特征的特征[1]。有作品[43,21,30]通过弥合这两个池操作之间的差距来解决这个问题,其动机与我们类似。 平均和最大池函数可以简单地集成在具有一个加权参数的凸组合中,该加权参数在[43]中随机选择或基于[21]的局部特征进行训练。为了减轻由缩小尺寸引起的伪影,图像处理技术也应用于池化[40,30]。 小波池化[40]采用小波来准确地压缩特征图,同时减少伪影。详细保留池(DPP)[30]也是基于图像缩小技术[39]提出的,以将参数池函数公式化为平均值和最大值之间的中间操作。所提出的方法接近这些方法[21,30],但在以下两点上明显不同:参数池化函数是基于最大熵原理[ 25 ]以理论方式导出的,以灵活地表示各种类型的池化,包括平均/最大池化(Sec. 3),参数是动态估计的全局功能超出了本地的池(节。4).从概率的角度来看,随机方法被应用于局部空间池函数[45,46,43],用于将随机性引入到CNN中,如DropOut [33]。与上面提到的确定性汇集相反,随机方法在整个端到端训练中随机地拾取感受野中的神经元激活。我们还讨论了所提出的方法和随机池在SEC之间的连接三点三3. 参数化池函数局部空间池化通常被公式化为如下。给定输入特征图X∈RH×W×C,通过将空间池化应用于第c个通道特征图来计算像素p处的第c个通道输出Yc,如下所示Σ卷积神经网络中空间分辨率大小Yc=Wc(q,X)Xc,(1)(CNN).在信道合并中,从信号恢复的观点讨论了Lp-范数[2],并将其推广到可训练的一个通过学习参数p[9]从平均值(p=1)平滑过渡到最大值(p=∞)op。p p qq∈RpΣS.T. Wc(q,X)≥ 0,<$q ∈Rp,q∈RpWc(q,X)=1,np,c,气 可训练的Lp池化也与MAX相关。OUT [7]执行通道间最大池化。局部空间池被广泛应用于深度CNN其中Rp是感受野中的一组像素位置是像素p的(邻域),并且Wc是加权函数。表示池的类型例如,平均-逐渐缩小特征图,池化[20]通过Wc(q,X)=1在失望中,p| R p|3367pc=1q−ppppp位置q和特征X两者的gard,以及max-池化[32]表示为Wc(qf,X)=1,Wc(qf =1),参数化池函数,Σp p拉克什茨Xcexp(λc Xc+ρc )q,X)=0,其中q= arg maxq∈RpXq,而skip-Yc=<$q∈Rpqqq−p、(7)ping[12]简单地由Wc(q=p,X)=1给出,Wc(q=p,X)= 1,pexp(λcXc+ρc)p pq∈Rpq q−pp,X)=0。 因此,设计池化操作会导致如何用公式表示加权函数Wc。我们让参数与位置P,并且仅依赖于信道C。也就是说,3.1. 最大熵原理函数包含λ={λc}C的参数∈RC在这项工作中,基于(1)中的约束,我们认为所以ρ={ρcCc=1,q∈Rp∈RC| Rp|其中,“q−p”表示将加权函数Wc作为概率密度函数,并从概率的角度,将Wc的以下优化问题公式化:在感受野Rp中与p的相对位置。因此,在本发明中,在该层的任何位置p上共享参数3.2. 衍生物MaxΣ−W(q)log[W(q)]+λ<$W(q)Xq −ηW(q)logΣ ΣW(q),池化函数(7)的导数由下式给出:WρqYcexp(λ c X c+ ρ c)。Σq∈Rpp=Σqq−p1+λ(Xc−Yc),(二)Xcexp(λcXc+ρc)q pS.T. W(q)≥0,ΣW(q)=1,(3)qq′∈RpΣq′q′−p(八)q∈RpYc(Xc−Yc)2exp(λXc+ρc)P=q∈Rpqpqq−p、(9)λexp(λcXc+ρc)其中,我们在W中省略了p,c和X的符号,q′∈Rpq′q′−p引入正则化参数λ∈R和η>0<$Yc(Xc−Yc)exp(λXc+ρc)p =qpqq−p、(10)以及位置先验分布{ρ$>q}q∈Rp. 第一个ρexp(λcXc+ρc)(2)项是由最大熵原理导出的qq′∈Rpq′q′−pple [25]这是一个自然的假设,以确定一个问题,其中我们考虑的衍生物w.r.t.输入要素通过一个优化问题的可重构模型。 在第二以及两个参数λc和ρc,所有这些q q−p第三项是关于输出的两个正则化Yc(1)和位置是从池化功能的角度引入的。第二项旨在使输出Y =W(q)Xq通过最大化(λ>0)或极小化(λ<0)。而且,重量W通过最小化第三项中的Kullback-Leibler散度,应该接近预定义的位置先验{ρρq}可以通过端到端的反向传播进行训练方式参数λc基于特征的方差通过(9另一方面,导数(8)在感受野q∈ Rp上被求和为1,就像标准池化(例如avg/max-pooling)的情况一样。该更新根据对照,分布在感受野上。exp(λcXc+ρc) 的方式(2)可以通过引入拉格朗日乘子来解决。计量单位qq−p ,抑制′exp(λcXc+ρc)雌激素受体α对于非负性和单位和,q∈Rpq′q′−pQ约束以提供导数w.r.t. W(q)作为−(1+η)(1+log[W(q)])+λ<$Xq+ηlog[ρ<$q]+αq+β=0,(4)这导致W的以下形式,显著小于平均值的特征Y c,如侧抑制[8],让网络提取不同的特征。3.3. 讨论W(q)=exp、11+η、(λ<$Xq+ηlog[ρ<$q ]+αq+β)−1(五)灵活性. 由 λ 参 数 化 的池化函数(7)和ρ灵活地描述了各种类型的池化函数;平均池化和最大池化由{λ=}33681+η=λexp(λXq+ρq)、(6)0,ρq−p=0}和{λ→ ∞,ρq−p=0},而q′∈Rp exp(λXq′+ρq′){λ=0,ρ q−p=δ q−p}导致跳过。 另外我们也可以通过{λ→ −∞,ρq−p=0}实现最小池化。的其中,由于(5)和KKT的正性,αq=0条件,β被定义为满足单位和位置先验,它赋予池与本地位置,灵敏度,也可以与小波滤波器在约束我们还重新参数化λ=λ˜1+η ∈R且小波池化[40]。 这种参数化ρq=ηlog [ρ$>q]+η,其中ρ q为常数,使得ρq∈R而不失一般性. 加权函数W分解为W(q)exp(λX q)exp(ρq),它包括关于特征X和空间位置的两种权重。如在双边滤波器中的情况[35]。 最后,我们得到池化(7)是用于自适应地控制通过全局特征的池化类型(Sec. 4).Softmax 如果没有职位优先权,ρ=0时,池(7)对应于α-softmax [19],这在神经科学文献[29,27]和3369不QQXpCsλppp布吕普词袋的框架[1]。 并且,参数λ与L2归一化的soft-max[37]中的比例因子和其他文献[13,10]中softmax的温度有关;λ是温度的倒数,λ=1。在这些方法中,手动调节温度以适当地转移[13]中的网络结构,并基于标记数据有区别地学习温度,以微调[10]中分类器的置信度或改善l2归一化软最大值[37]中的分类性能相反,我们基于最大熵原理从优化问题(2)自然地导出参数λ。通过控制(2)中的输出的熵和重要性这两项,参数λ在将池化功能从平均值平滑切换到极值(最小/最大)中起作用。此外,所提出的方法的独特之处在于,(7)中的池化参数λ和ρ借助于如在第2节中所描述的全局特征来自适应地确定4.第一章可能的观点。如第3.1中,池化(7)根据(6)中的概率密度函数W输出局部特征的概率平均值另一方面,随机池化[45]根据与非负特征值p q<$X c成比例的概率从感受野{ X c } q ∈R中提取特征,这与(6)有关。 对于小λ c当ρ=0时,我们可以近似exp(λc Xc)<$1+λc Xc,典型设置:全球平均池化:sigmoid函数#param参数等式7,无位置先验,#param合并(等式图1. Global Feature Guided Pooling(GFGP)t为全局平均函数(k=1),s为sigmoid函数,如[14]所示。类似的MLP通过g(X;U,Vρ)应用于ρ,g(X;U,V ρ)与f共享U,尽管激活s可能不同。因此,在被称为全局特征引导池化(GFGP)的所提出的池化中,MLP权重U∈RD×kC、Vλ∈RC×D和Vρ∈R| Rp|C×D是端到端训练中要优化的目标。在所提出的方法中,关键点是将池化参数处理为要通过(11)从全局特征映射的变量。因此,从这一点来看,它与其他方法有如下区别。qq常数。 具有预先固定的常数λ的池化产生并且由此汇集权重(6)的形式为:1+λcXcW(q)<$$>q对应于有偏的例如avg-pooling(λ=0)、max-pooling(λ=∞)和他们之间的中间人[1](0< λ<∞)。在…|+λc|+λcq′∈Rpq′相对于那些预先固定的池,所提出的方法确定-概率[45]。我们可以说,形式(6)是更灵活,因为它适用于任何特征,而随机池[45]只接受由ReLU产生的非负特征。4. 全球功能指南我们利用全局特征来估计λ和ρ的参数,这些参数控制池函数的类型,(7)局部作用于感受野{Xc}q∈R。为根据数据自适应地挖掘池的类型,而无需手动调整它,如参数化池[30,21]。参数. 在[30]中,池化参数以端到端的方式直接训练。因此,与上述恒定池化不同,经训练的池化类型可以在通道和层之间自适应地变化。然而,池类型,即,池化参数在训练后被固定用于测试阶段。 另一方面,在一项研究中,所提出的池化动态地依赖于输入为此,将池化参数λ和ρ视为作为变量而不是静态参数在训练中进行优化我们让变量依赖于输入特征X∈RH×W×C,从而由映射描述λ=f(X)和ρ=g(X)。按照挤压和激励(SE)[14],映射函数f和g是通过应用于全局特征统计的多层感知器(MLP )设计的(图14)。1);λ=f(X;U,Vλ)( 11)=. VReLU ( U[t ( {X1}) , ··· , t({XC})]),(12)其中,我们考虑使用ReLU的D神经元的一个隐藏层,并且函数t计算k种类型的统计数据,特征X通过映射(11);也就是说,相同的池化层根据输入特征不同地工作,这与先前的参数化池化相比表现出独特性[30]。地点。虽然门控池化[21]还通过特征局部地估计门控参数,但所提出的池化的功能性是基于输入特征的全局特征确定的,并且在局部感受野中工作。因此,我们可以说,所提出的方法将局部和全局信息合并到池中。池化通常被应用于缩小输入特征图的空间分辨率,这不可避免地丢失(空间)信息,并且全局信息在输入{Xc}(H,W)S是一个元素,拟议的集中将补偿它的改善,pp=(1, 1)明智的非线性激活函数;例如,我们可以设置性能。3370c=1p2p21+exp(−x)5. 实验结果我们通过将其嵌入到在大规模图像分类数据集上训练的深度CNN中来评估所提出方法的性能[6,48]。分类表1.全局特性指导的性能分析(a) 合并类型w.r.t.(7)中的λ在ρ=0时的原始值λ固定参数变量(GFGP)max-pool Top-1 29.8229.56 28.57 30.02前五名10.40 10.26 9.65 10.27性能通过数据集的验证集上的单一裁剪前1和前5错误率(%)来测量5.1. 消融研究我们在ImageNet分类[6]上分析了所提出的池化方法(7,11)它被应用于深度CNN,(b) 感受野(11)t全局平均值本地平均值Top-1 28.57 29.02前五名9.65 9.92(c) 位置先验变量λ λ,{ρq}qTop-1 28.57 28.62 Top-5 9.659.57VGG-13 [32]通过引入批量归一化[16]并将FC层中的通道数量从4096减少到2048,对原始模型[32CNN包含五个局部最大池化层池大小为2×2和(2,2)-大步将特征图分辨率缩小2倍。 我们把所有的通过所提出的方法创建局部池化层,并通过遵循Mat-ConvNet [36]中提供的学习协议来训练CNN。除非另有说明,所提出的池化方法是通过默认设置实现的(图1)。1)应用sigmoid s和全局平均池化t({Xc})=1<$(H,W)Xc到D=C的MLP,其中-简单的方法,ρ=0。 对当地的敏感性-通过先验ρ的位置可能会阻止池化,增强了对翻译的鲁棒性为了弥补这一点,位置先验ρ也可以如表1b中那样局部估计,而λ是全局估计的。它 的性能略 有 提 高 , 分 别 为 28.53% ( top-1 ) 和9.73%(top-5),但显著增加了局部估计的计算成本{ρq−p}p,q.因此,在这项工作中,我们应用了(7)中没有先验ρ的简单GFGP,它只包含由(11)估计的C维变量λ5.1.2GFGP中的MLP模型pHW p=(1, 1)p2出位置先验ρ=0;这些在第二节中讨论第5.1.2条。接下来,我们分析MLP模型(12)以映射全局将特征合并到池化参数{λ c}C中。5.1.1全局特征引导模型我们澄清如何提出的全球功能指导计划(第二节)。(4)有助于提高效率。如SEC中所述4,我们可以考虑(7)中关于λ的三种类型的池函数;我们应用常数λ=1作为最简单的方式,直接训练参数λ,如在可训练池中[30],并通过提出的GFGP(11)从全局特征估计变量λ如表1a所示,学习λ作为参数和变量的方法很好地工作以提高性能,并且特别地,通过(11)利用全局信息来变量λ的GFGP比其他方法表现得更好。然后通过与现有方法的比较,验证了全局信息在GFGP中(11) 也就是说,在(11)中,t被设置为2×2感受野上的局部平均池,以产生每个输出Y c的变量λ c。注意,该局部方法也采用与GFGP(11)中相同大小的参数U和Vλ表1b中的性能比较表明,全局方法(GFGP)优于局部方法,验证了有效性。全球统计T。对于统计量t,存在全局平均值(avg)、标准偏差(std)和最大值的三个标准模型,在表2a中进行了比 较;注意,与 其他统计量( k=1)相比,avg+std的统计量产生了双倍的特征维度(图1中k=2简单的全局平均值表现出良好的性能,而最大值不太适合这些密集的特征图[1],并且容易受到较浅层的较少区分特征中的离群值的影响。MLP架构。表2b比较了不同数量的隐藏节点D的MLP以及s(Ut(X))的单层感知器(SLP)。在总参数数C2相同的情况下,由于MLP映射的非线性,MLP-1虽然MLP-1将隐藏节点的数量D加倍稍微改善了性能,基于性能和计算成本之间的权衡,MLP-1激活函数s。 λ的范围通过激活函数s来限制,对于激活函数s,我们可以考虑四种类型的函数; sigmoid1∈[0,1],softplus log(1+exp(x))∈[0,+∞],双曲正切(tanh)池化方法中全局信息的完整性。exp(x)−exp(−x)exp(x)+exp(−x)[1,1],且恒等式x∈[−∞,+∞]。虽然在上述分析中关闭了位置先验(ρ=0),但我们在这里应用完整的GFGP来估计λ和位置先验ρ的两个变量;在2×2池大小的情况下,位置先验由四个描述-每个通道的维数变量导致ρ∈R4C。表1c显示,完整方法与请注意,后两个函数可能会通过λ0将池化推向最小池化。<λ的尺度由tanh和sigmoid函数限定,使得(7)中的尺度因子依赖于将以端到端方式适当训练的特征X;如果特征被归一化,则比例因子应嵌入到λ中,如[ 37 ]所示。我们337142422c=1表2. MLP模型中各种设置的性能比较(12)。(a) 全球统计数据表3.在相同数量的附加参数下的性能比较,每个池化层C2[14]第二十二话:我的世界统计avg平均值+标准MaxTop-130.6129.1229.2428.57Top-128.5728.5628.93Top-510.8010.0410.039.65Top-59.659.7010.01(b) 映射架构结构SLP MLP-1MLP-1MLP-1尺寸UC×CC×CC×C表4.关于深度的性能分析,其中提议的池化替代了原始的最大池化。‘4V-C×C尺寸2C×CC×C原始的最大池。最高-1 28.72 28.80 28.57 28.36前五名9.71 9.83 9.65 9.51(c) 激活函数sS乙状软加tanh身份λ范围[0, 1][0,+∞][-1,1][−∞,+∞]Top-128.5728.6328.9628.70Top-59.659.759.759.80从表2c中可以看出,sigmoid和softplus函数工作良好,产生非负λ来推动池化(7)向avg/max-pooling方向发展。该结果意味着抑制特征通道的最小池化每隔一段时间降低,而平均/最大池化激励特征通道以有利地提高性能。最佳性能由sigmoid产生,该sigmoid适当地限制λ的范围并且排除最小池化。5.1.3增加参数数量的有效性由于全局平均池化之后是SE [14]中的MLP,因此我们的池化层被有效地计算,其计算成本可能会进一步改善,例如通过分组卷积[41]和信道重排[47]。至于网络大小,所提出的池化方法在每个池化层仅引入C2个附加参数,如表2b所示。从增加网络参数数量的角度来看,与其他类型的方法相比,我们证明了所提出的方法的有效性添加相同数量的参数的层;NiN [22]基于1×1conv,ResNiN将身份路径添加到NiN模块,如ResNet [12]和挤压和激发(SE)[14],其详细结构如补充材料所示。 为了公平比较,这些方法是通过使用相同的MLP-1实现的,池化层(深度)错误率(%)月1第2第3月4月5Top-1Top-5(一)C----30.0110.47(二)CC---29.6810.38(三)CCC--29.4310.24(iv)CCCC-29.089.89(v)CCCCC28.579.65(vi)-CCCC28.699.61(vii)--CCC29.049.83(viii)---CC28.929.90(ix)----C29.7110.17这增强了特征图的区别性而没有池化功能。5.1.4深度我们调查的效果,我们的池化方法的深度方面,它是嵌入式的。 在这个实验中该方法取代了VGG-13中的一些最大池化层,而在其他实验中,CNN在所有池化层都完全配备了所提出的方法表4中的性能结果表明,我们在更深层的方法有助于更有效地提高性能;在较浅的层(表4vi-20 viii)仅略微降低 越深的层次产生越多的区别,灵活的池化工作良好的创新功能。因此,仅在较深层应用所提出的池化方法将是有效的,用于抑制CNN中参数的增加。5.2. 变量λ然后,我们分析了在建议的GFGP中由(11)产生的λ在每个局部池化层,亲我们的(表2b)的C2参数,并嵌入,所以诱导{λc}C[0,1]由于sigmoid分布,至于工作的特征地图馈入(原始)最大池化层;注意,这些比较模块不提供缩小特征图的功能。性能结果如表3所示,表明所提出的合并方法最有效地受益于附加参数。而且,应该注意的是,为了进一步提高性能,建议的池化方法可以与这些模块激活s,我们把分布分成三个部分-三维直方图的三个箱,如图所示。3.第三章。由于直方图计数的总和恒定为C,三维直方图位于2-单纯形上,如图2所示。2;我们从ImageNet数据集中随机选取10,000个样本,并将它们通过训练的VGG-13进行前馈,以在每个池化层获得10,000个直方图向量。在第3372一层,人们可以看到各种3373c=1c=1c=1c=1走向0101走向走向0101第一层(C=64)第二层(C=128)第三层(C=256)第四层(C=512)第五层(C=512)图2.{λc}C分布的可视化其中C是每个池化层的通道数的C样本的分布{λc}C被量化为三个箱,以形成三维直方图(图1)。(3)位于2-单形上。每个点表示每个分布(三个箱的直方图),并通过将第一层三个直方图箱上的频率分配给RGB通道来着色。中心点(“×”)表示均匀分布。这个数字最好用彩色看。λ的分布类型,其围绕中心1分散。这表明最佳合并类型因样本而异。另一方面,在较深的层处,λ的分布在某种程度上是偏置的,并且特别地,最后的第五层表现出向平均或最大的池化类型的高偏置最后一个池化层接收可能需要不同池化类型(例如平均/最大池化)的区分特征。这将导致提议的池在更深层的有效性,如第2节所讨论的第5.1.4条。然后,为了测量λ对对象类别的依赖性,我们在表5a中示出了通过将Fisher判别分析应用于具有类别标签的三维直方图向量的Fisher判别得分。所有层都表现出低判别分数,表明产生的λ对对象类别的依赖性较小事实上,在Fig.3显示了λ分布的例子,我们可以看到即使属于相同ImageNet类别的两个样本之间的明显差异。我们还根据λ分析了层之间的关系。 每个样本图像产生λ在相应层的分布,并且通过三维直方图向量上的典型相关分析来计算层之间的相关系数。如表5b所示,尽管相邻的两个层表现出相对高的相关性,但它们通常较低,表明层间的相关性较小因此,我们可以得出结论,重要的是在每个样本的每个层产生变量λ,而不跨层共享它,也不考虑类别。5.3. 与其他方法的比较最后,在几个深度CNN上将该方法与其他池化方法进行了比较我们首先考虑包含五个局部最大池化层的VGG-16 [ 32 ]的CNN和四个局部最大池化层和一个全局平均池化层的VGG-16-mod [ 17 ];所有的损失-calmax-pooling层是用2×2池大小和(2,2)-striding实现的。我们将这些本地池替换为1中心点对应于{λ c}C的均匀分布.第一层第二层第三层第四层第五层0 1 0 1 0 1 0 1 0 10101010101图3. {λc}C的分布的例子。分布被量化为[0,1]上的三个箱的直方图。这两个直方图由属于相同ImageNet类别的两个图像样本产生。表5.统计λ的分布。(a)分数越高意味着λ的类依赖分布越高。(b)较高的相关性表明两个层之间关于λ(a) Fisher判别分数第一层第二层第三层第四层第五层0.1395 0.20210.1854 0.2276 0.1610(b) 相关系数第1层第2层第三层4层第5层月1-0.44000.24510.17390.1445第2--0.31720.21650.1771第3---0.34540.2581月4----0.3795用于比较的其他类型的池:通过与(2,2)-跨越的卷积实现的跳过池化,平均池化,两种类型的随机池化方法[45,46],DPP [ 30 ]的三种可训练池化方法,门控池化[21]和我们的参数λ池化(7),以及将(11)应 用 于 池 化 ( 7 ) 的 提 议 的 GFGP 。 深 度 CNN 在ImageNet数据集上以与Sec相同的方式进行训练。5.1;将拟议的池嵌入CNN并对其进行培训的详细程序见补充材料。性能结果示于表6a中。由于中讨论的位置敏感性,依赖于局部位置的跳过池化比其他池化更差样品B样品A3374秒第5.1.1节。而且,随机方法[45,46]的效率较低,特别是S3-池化[46],它使池化具有进一步的随机性,不适合大规模数据集上的这项池化中的这种随机性将妨碍网络的训练,并且确定性方式在大规模数据集上起作用,该大规模数据集包含具有足够数据增强的训练图像中的大变化所提出的GFGP优于标准池化方法以及复杂的方法[30,21]。然后,我们评估了ResNet-50 [12]和ResNeXt-50 [41]的更深CNN的池化方法。这些模型在第一个卷积层包含一个(2,2)-跨步的跳过池,随后是具有3 × 3池大小和(2,2)-跨步的最大池,以及在三个ResBlocks中分别包含三个(2,2)-跨步的跳过池;有-计算要用其他池化方法替换的五个局部池化层。在这些更深的CNN中,(原始)跳过池化再次劣于表6a中的简单平均/最大池化。使用(7)提出的GFGP大大提高了性能;在ResNet上,它甚至优于ResNet-101的更深CNN,后者产生22.48%(前1)和6.43%(前5)。除了上述性能比较之外,我们还通过应用全局特征指导(第二节)扩展了以前的可训练池方法[30,214)通过映射(11)估计可训练参数; DPP [30]每个通道包含两个参数,而门控池化[21]每个通道具有一个参数。如表6所示,我们的扩展2有利地提高了性能,证明了GFGP方法的通用性(图6)。①的人。该方法还在Places-365数据集上进行了评估[48],用于场景分类,这是与ImageNet中的对象识别不同的任务。我们应用与表6相同的CNN模型,也用我们的GFGP替换所有本地池层。表7中的性能结果证明了所提出的方法在场景分类任务上的有效性,这表明所提出的池化对通用任务的适用性。如上述实验结果所示,所提出的方法通常通过简单地替换局部池化层来提高深度CNN的性能。由于所提出的方法仅在池化层上操作,因此值得注意的是,该方法可以有利地与应用于细化特征图的技术一起工作,如第2节中所讨论的第5.1.3条。6. 结论在本文中,我们提出了一个灵活的池化方法自适应调整的基础上输入功能。亲-2正如论文[30,21]中所建议的,我们在GFGP-DPP中对s采用指数激活函数,而在GFGP-Gated中对s采用S形。(11)中的其他设置与我们的GFGP相同。表6. ImageNet数据集上的性能比较[6]。标记为“0”的池化方法是CNN模型中的原始设置;在(b)中的跳过表示原始设置,而不操纵模型中的任何池化层。(a) VGG模型VGG-16 [32]VGG-16-mod [17]合并top-1top-5top-1top-5skip29.6010.1626.008.26avg28.449.5325.508.01最大值27.949.2525.667.97随机的[45]28.669.6725.748.18[第四十六条]35.3813.7629.4510.46民进党[30]28.399.4525.558.04大门[21]28.069.3825.208.01(7)参数λ27.929.1925.427.94GFGP与(7)27.178.7724.637.50GFGP与DPP [30]28.039.2325.087.81[21]第二十一话27.369.0024.827.48(b) ResNet模型[41]第四十二话:一个人池化跳车top-123.53top-57.00top-122.69top-56.65avg22.616.5222.146.35Max22.996.7122.206.24民进党[30]22.526.6321.845.98大门[21]22.276.3321.635.99GFGP与(7)21.795.9521.355.74GFGP与DPP [30]22.666.6021.796.02[21]第二十一话22.206.2621.455.81表7.Places-365数据集上的性能比较[48]。(a) VGG模型VGG-16-mod [17]池化top-1top-5top-1top-5最大值46.2515.9545.4415.11GFGP与(7)45.9915.4645.3314.96(b) ResNet模型ResNet [12]ResNeXt [41]池化top-1top-5top-1top-5跳车44.8814.6244.5214.36GFGP与(7)44.0713.9444.2513.94该方法由一个基于最大熵原理的参数化池函数和一种基于全局特征统计的参数自适应估计方法组成pooling函数中的参数灵活地控制pooling类型,例如平均和最大池。并且,通过基于输入的全局特征自适应地调整池化类型(参数),全局信息被有效地并入局部池化函数我们进行了全面的实验,提出了一种有效形式的池化方法,并使用ImageNet和Places-365数据集在大规模图像分类任务上表现出良好的性能简单我们可训练随机我们简单可训练3375引用[1] Y-Lan Boureau,Jean Ponce,and Yann LeCun.视觉识别中特征池的理论分析。ICML,第111-118页,2010年[2] 琼·布鲁纳,亚瑟·斯拉姆,扬·勒昆。从池化表示中恢复信号。ICML,第307-315页,2014年。[3] 作者:Christopher R.舞蹈,范丽欣,尤塔·维拉姆·奥斯基,和C e'dricBra y。可视化的关键点包的猫进化2004年,ECCV计算机视觉统计学习研讨会[4] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。在ICCV,第764-773页[5] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在CVPR,第886-893页[6] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,第248-255页[7] Ian Goodfellow 、David Warde-Farley 、 Mehdi Mirza 、Aaron Courville 和 Yoshua Bengio 。 Maxout 网 络 。 在ICML,第1319-1327页[8] 斯蒂芬·格罗斯伯格视觉空间的量化几何:深度、形式和亮度的连贯计算。脑神经与脑科学,6(4):625[9] Caglar Gulcehre 、 Kyunghyun Cho 、 Razvan Pascanu 和Yoshua Bengio。深度前馈和递归神经网络的学习范数池在ECML PKDD,第530[10] Chuan Guo,Geoff Pleiss,Yu Sun,and Kilian Q.温伯格现代神经网络的校准。ICML,2017。[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 深入研究整流器:超越人类对imagenet分类的水平。在ICCV,2015年。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[13] 杰弗里·E Hinton,Oriol Vinyals和Jeff Dean。提取神经网络中的知识。在NIPS 2014深度学习研讨会,2014年。[14] 杰虎,李申,孙刚。挤压-激发网络。在CVPR中,第7132-7141页[15] David H. Hubel和Torsten Nils Wielman。猫视觉皮层的感受野、双眼互动与功能架构。生理学杂志,160:106-154,1962。[16] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。Journal ofMachine Learning Research,37:448[17] 小林拓美。分析过滤器以实现有效的连接。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功