细粒度恢复的门控注意力机制

180 浏览量更新于2023-10-13 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

参加并纠正：一种用于细粒度恢复的门控注意力机制。P au Rodr´ıguez1，JosépM. Gonf au s2，GuillemCu c urull1，，F.XavierRoca1，且z`alez1上的J或diG1ComputerVisionCenteranddUniversitatAuto`nomadeBarcelona（UAB），Campus UAB，08193 Bellaterra，Catalonia Spain.pau. cvc.uab.cat2视觉标签服务，Parc de Recerca，校园UAB抽象。我们提出了一种新的注意力机制来增强卷积神经网络的细粒度识别。它学习参加较低级别的功能激活，而不需要部分注释，并使用这些激活更新和纠正输出的可能性分布。与其他方法相比，所提出的机制是模块化的，架构无关的，并且在所需的参数和计算方面都是有效的。实验表明，用我们的方法增强的网络系统地提高了它们的分类精度，并且对杂波更加鲁棒。因此，使用我们的提案增强的宽残差网络超越了CIFAR-10，Adience性别识别任务，斯坦福狗和UEC Food-100中最先进的分类准确性。关键词：深度学习·卷积神经网络·注意力1介绍人类和动物利用有限的计算资源处理大量信息，这要归功于注意力机制，该机制允许它们将资源集中在最具信息性的信息块上[1，3，29]。这项工作的灵感来自视觉和生物注意力机制的优势，用于使用卷积神经网络（CNN）处理细粒度视觉识别[17]。这是一项特别困难的任务，因为它涉及在大量数据（图像）中寻找细节，同时保持对变形和混乱的鲁棒性。从这个意义上说，文献中存在用于细粒度识别的不同注意力机制：（i）使用递归神经网络（RNN）或长短期记忆（LSTM）的“一瞥”处理图像的迭代方法[26，38]，（ii）增强普通CNN的前馈注意力机制，例如空间Transformer网络（STN）[11]，或自上而下的前馈注意力机制。离子机制（FAM）[23]。虽然它不适用于细粒度识别，但[32]引入的剩余注意力是利用剩余的2P. Rodr'ıguezetal.关注关注关注全球注意力之门图1.拟议的机制。原始CNN在N个不同的深度处用N个注意力模块增强每个注意力模块将K个注意力头应用于网络特征图，以基于局部信息进行类别预测然后，通过全局注意力门基于局部特征对原始网络输出网络进行校正，从而得到最终输出。连接[8]以增量方式增强或抑制特征图的某些区域因此，大多数现有的注意力机制要么受到必须执行多次通过数据的限制[26]，要么受到应该从头开始训练的精心设计的架构的限制[11]，要么受到显著增加所需的存储器和计算量的限制，从而引入计算瓶颈[12]。因此，仍然需要具有以下学习特性的模型：（i）详细检测和处理图像中信息量最大的部分，以学习对变形和杂波更鲁棒的模型[21];(ii) 可使用SGD进行前馈训练，以实现比迭代模型更快的推理[26，38]，以及比基于强化学习（RL）的方法更快的收敛速度[26，19];（iii）在通过残余身份映射修改本地低级特征之前，保留低级细节以这对于细粒度识别很重要，其中低级别的特征（例如纹理）可以帮助区分两个相似的类。剩余注意力不能实现这一点，其中低级特征在遍历多个剩余连接后会受到噪声的影响[32]。In addition, desirable properties for attention mechanisms applied to CNNswould be: (i) Modular and incremental, since the same structure can be ap-plied at each layer on any convolutional architecture, and it is easy to adaptto the task at hand; (ii) Architecture independent, that is, being able toadapt any pre-trained architecture such as VGG [27] or ResNet [8]; (iii) Lowcomputational impact implying that it does not result in a significant in-crease in memory and computation; and (iv) Simple in the sense that it can beimplemented in few lines of code, making it appealing to be used in future work.基于所有这些属性，我们提出了一种新的注意力机制，该机制通过一组可复制的注意力模块和门控机制（见第3节）从标准CNN架构中学习关注低级特征。具体地，如在图1中可以看到的，任何现有的架构都可以被增强。转换器B锁转换块转换块...... ......这是出席并整改3通过在不同深度处应用所提出的模型，并且用所提出的模型替换原始损失来进行分段。值得注意的是，模块独立于网络的原始路径，因此在实践中，它可以与网络的其余部分并行计算。所提出的注意力机制已被纳入像宽残差网络（WRN）[35]这样的强基线中，并应用于CIFAR-10，CIFAR-100 [15]和五个具有挑战性的细粒度识别数据集。由此产生的网络，称为宽注意力残差网络（WARN）系统地增强了WRN的性能，并在各种分类基准中超越了最先进的2相关工作细粒度识别有不同的方法[37]：（i）vanilla deep CNN，（ii）CNN作为特征提取器，用于定位零件并进行对齐，(iii) 合奏，（四）注意机制。在这项工作中，我们专注于（iv），注意力机制，其目的是发现最具歧视性的部分的图像进行更详细的处理，从而忽略杂波和专注于最独特的特征。这些部分是细粒度识别的核心，其中类间方差较小，类内方差较高。不同的细粒度注意机制可以在文献中找到。[33]提出了一种两级注意力机制，用于对ILSVRC [25]数据集的不同子集进行细粒度分类，以及CUB200 2011。在这个模型中，图像首先由基于R-CNN [36]和选择性搜索[28]的自下而上对象建议网络处理。然后，另一个ILSVRC2012预训练CNN的softmax得分，他们称之为FilterNet，被阈值化以修剪具有最低父类得分的补丁。这些补丁，然后分类到细粒度的类别与DomainNet。光谱聚类也用于DomainNet过滤器，以提取部分（头部，颈部，身体等），其用SVM分类。最后，合并基于部分和基于对象的分类器得分以获得最终预测。两级注意力在CUB 200 -2011上获得了最先进的结果，只有类级监督。然而，由于许多阶段涉及许多超参数，因此必须仔细地微调流水线。与由独立处理组成并且不是端到端的两级注意力不同，Sermanet等人提出使用深度CNN和回流神经网络（RNN）来累积图像的高多分辨率“一瞥”以进行最终预测[ 26]。然而，强化学习减慢了收敛速度，并且RNN增加了额外的计算步骤和参数。Liu等人提出了一种更有效的方法。[19]，其中使用强化学习训练全卷积网络以在图像上生成置信度图，并使用它们来提取最终分类器的部分，其得分被平均。与以前的方法相比，在[19]所做的工作中，在单个时间步中提出了多个图像区域，从而加快了计算速度。为了提高训练速度，还提出了一种贪婪奖励策略。[5]提出的最近的方法使用类-4P. Rodr'ıguezetal.这两个网络是一个循环注意力建议网络（RA-CNN）和一个循环注意力建议网络（RA-CNN），它迭代地细化输入的中心和规模。排序损失用于在每次迭代时强制执行增量性能。Zhao等人提出强制执行多个非重叠的注意区域[38]。整体架构包括一个注意画布生成器，它从原始图像中提取不同区域和尺度的补丁;一个VGG-16[27]然后使用CNN从补丁中提取特征，这些特征与长短期记忆[9]聚合，该记忆关注补丁的非重叠区域利用每个区域中的平均预测来执行分类。类似地，在[39]中，他们提出了多注意力CNN（MA-CNN）来学习从VGG-19的输出中定位信息块，并使用它们来训练部分分类器的集合。在[12]中，他们提出从CNN的最后一层提取全局特征，就在分类器之前，并使用它们来参与较低级别特征激活中的然后，对来自每个级别的参与激活进行空间平均、逐通道级联，并馈送到最终分类器。与[12]的主要区别是：（i）注意力图与基本模型并行计算，而[12]中的模型需要输出特征来计算注意力图;（ii）WARN使用更少的参数，因此不需要放弃以获得竞争性能（这两个因素清楚地反映在速度的增益中）;以及(iii)门允许我们的模型忽略/参加不同的信息，以提高原始模型的性能，而在[12]中，完整的输出函数被替换。结果，WARN在CIFAR10上获得了3.44%的误差，优于[12]同时是W/O并行化的7倍所有先前描述的方法都涉及多级管道，并且其中大多数都使用强化学习进行训练（这需要采样并且使它们训练起来很慢）。相比之下，STNs、FAM、[12]中的模型和我们的方法联合提出的关注区域，并在一个单一的通道将它们此外，与STNs和FAM不同，我们的方法只使用一个CNN流，它可以用于预先训练的模型，并且它比STNs，FAM和[12]的计算效率高得多，如下所述3我们的方法我们的方法包括一个通用注意力模块，可以在每个卷积层之后添加，而不会改变任何架构的预定义信息路径（见图1）。这很有帮助，因为它无缝地增强了任何架构，如VGG和ResNet，而无需额外的监督，即不需要部件标签。此外，它还允许插入任何现有的训练网络，以快速执行迁移学习方法。注意力模块由图2（a）中描绘的三个主要子模块组成：（i）注意力头部H，其定义特征图的最相关区域，（ii）输出头部0，其在给定被关注信息的情况下生成假设，以及（iii）置信度门G，其输出针对被关注信息的置信度得分。出席并整改5全局注意力门注意头convK(a) 关注模块(b) 注意门图2：（a）注意力模块：K注意头部Hl应用于要素映射Zl，并且信息与层注意力门聚合（b）全球关注：来自最后一个特征图的全局信息ZL用于计算选通分数，该选通分数产生作为注意力模块的输出和原始网络输出网的加权平均的最终输出每个注意头。下面的小节将详细介绍每个模块3.1概述如图1所示，卷积层被应用于增强层的输出，产生K个注意力热图。然后，这些注意力图被用于对每个特征图的局部类别概率得分进行空间平均，并产生最终类别概率向量。该过程被应用于任意数量N的层，产生N类概率向量。然后，模型通过参与较低级别的类预测来学习纠正初始预测这是网络的最终组合预测在概率方面，网络通过用局部信息更新先验来校正初始似然。3.2注意头受[38]和[30]提出的Transformer架构的启发，并遵循[35]建立的符号，我们已经确定了两个主要维度来定义注意力机制：（i）使用注意力机制的层数，我们称之为注意力深度（AD），以及（ii）每个注意力模块中的注意力头的数量，我们称之为注意力宽度（AW）。因此，任何普遍注意力机制的期望属性是能够以任何任意深度和宽度部署。通过将图1中所描绘的K个注意力头部Hk（宽度）包括到每个注意力模块（深度）3中来实现该属性。然后，注意力集中在记法：H、O、G分别是注意头、输出头和注意门的集合。大写字母表示函数或常量，小写字母表示索引。粗体字母表示矩阵，粗体字母表示矢量。AAttt你把头conv注意头Softmax注意门Σconvconvavg.池输入avg.池avg.池SoftmaxSoftmax36P. Rodr'ıguezetal.KKKKKKKK层l∈ [1.. L]，接收该层的特征激活Zl∈Rc×h×w作为输入，并输出K个注意力掩码：Hl=空间softmax（WHl<$Zl），（1）其中Hl∈RK×h×w是第l个注意力模块的输出矩阵WHl：Rc×h×w→RK×h×w是使用输出维数K的卷积核计算对应于注意头部Hk的注意掩码，以及*表示卷积算子。spatialsoftmax执行在输入的空间维度上使用softmax以强制模型学习图像的最相关区域。也可以在退化为全零或全一的风险下使用S形单位。为了防止相同深度的注意力头部崩溃到相同的区域中，我们应用[38]中提出的正则化器。3.3输出头为了获得类别概率得分，输入特征图Zl进行卷积一个kernel：W01∈Rchannels×h×w→R#labels×h×w，h、w表示空间维度，并且通道是模块的输入通道的数量。这在类别概率得分的空间图上产生l= WOl* Zl。（二）请注意，通过将输出通道数设置为#labels·K，可以在所有K个磁头的单次通过中完成此操作。然后，类概率向量Ol由空间注意力分数加权并在空间上平均：Σol=Hl⊙Ol，（3）k k kx为oh其中⊙是逐元素乘积，并且x ∈ {1.. width}，y ∈ {1..高度}。注意力得分Hl是2D平面掩模，并且具有每个通过广播来完成Zl的输入通道，即重复H1中的每Zl的通道。3.4分层注意门一个注意力模块的最终输出ol通过加权平均得到的KoutputProbabilityVectors，以及对硬盘的使用gHl∈ R|H|、kgHl = 1时。ol= Σ gH101。（四）K KKO出席并整改7KO|O|其中，通过首先将Zl与Wgl ∈R通道×h× w →R| H| × h × w，然后进行空间加权平均：ΣgHl= softmax（tanh（（W gl*Zl）⊙ Hl））.（五）x为oh通过这种方式，模型学习选择为给定的注意力模块提供最有意义的输出3.5全球注意力门为了让模型学习选择每个深度处的最有区别的特征以消除输出预测的歧义，在模型输出处预测一组相关性得分c，一个用于每个注意力模块，一个用于最终预测。这样，通过一系列的门，模型可以学习查询来自网络的每个级别的信息，以适应全局上下文。请注意，与[12]不同，最终预测不会成为计算注意力模块输出的瓶颈相关性得分是利用网络的最后特征激活Z_L与门权重矩阵W_G之间的内积获得的：c= tanh（WGZL）。（六）然后，通过利用softmax函数对得分集合进行归一化来获得门值g0gOlecl=100，（7）K| G|i=1 eci哪里|G|是门的总数，并且是来自所有置信度分数的集合的第i个置信度分数。网络的最终输出是注意力模块的加权和：输出=g净·输出净+Σl∈{1.. |}|}l·ol，（8）其中，g_net是针对给定的输出（outputt）的门值，而output是考虑了注意力预测的最终输出。注意，将G的输出设置为1对应于对所有输出求平均。同样地，设置{G |G_output}= 0，G_output = 1，即注意门的集合被设置为零并且输出门被设置为一，对应于原始的预训练模型，无需注意。值得注意的是，使用Zl的所有操作可以被聚合到单个卷积操作中。同样地，注意力掩码仅由一个卷积运算生成，并且大多数掩码运算仅由一个卷积运算生成。G8P. Rodr'ıguezetal.(a)（b）（c）（d）（e）图3：来自五个细粒度数据集的样本。(a)Adience，（b）CUB200 Birds，（c）Stanford Cars，（d）Stanford Dogs，（e）UEC-Food100直接在标签空间中执行，或者可以被投影到更小的维度空间中，使得实现非常高效。此外，对输出梯度的直接访问使模块能够快速学习，从而能够从训练开始时生成前景遮罩，并在随后的时期内对其进行细化。4实验我们经验性地证明了对杂乱翻译MNIST模型中不同模块的准确性和鲁棒性的影响，然后将其与最先进的模型（如DenseNets和ResNeXt）进行比较。最后，我们通过在五个细粒度识别数据集上的一组实验，证明了我们的方法用于细粒度识别的通用性，如下所述4.1数据集杂乱的翻译MNIST4由40 × 40图像组成，包含一个随机放置的MNIST [16]数字和一组D随机放置的干扰项，见图5b。干扰项是来自其他MNIST数字的随机8 × 8块。CIFAR5CIFAR数据集由60 K 32 x32图像组成，CIFAR-10分为10类，CIFAR-100分为有50K训练图像和10K测试图像。斯坦福狗[13]. Stanford Dogs数据集由120种狗的20.5K图像组成，见图3d。数据集分割是固定的，它们由12k个训练图像和8.5K个验证图像组成。UEC食品100 [20]. 一个日本食物数据集，包含100种不同菜肴的14K图像，见图3e。为了遵循标准程序（例如[2，6]），在训练之前使用边界框来裁剪图像Adience数据集[4]。adience数据集由26.5 K图像组成，分布在8个年龄类别（02、46、813、1520、2532、3843、4853、60+）和性别中4https://github.com/deepmind/mnist-cluttered5https://www.cs.toronto.edu/kriz/cifar.html出席并整改9标签图3a中示出了样品。使用5倍交叉验证来测量该数据集上的性能。斯坦福汽车[14]. Cars数据集包含196类汽车的16K图像，见图3c。数据被分成8K训练图像和8K测试图像。[31]第31话. CUB 200 -2011鸟类数据集（见图3b）由分布在200个类别中的6 K训练和5.8K测试鸟类图像组成虽然提供了边界框、分割和属性，但我们按照[11]执行原始分类。4.2消融研究我们按照与[21]中相同的过程在杂乱的翻译MNIST上评估我们的方法的子模块。所提出的注意力机制用于增强CNN，其具有五个3× 3卷积层和两个全卷积层。最后连接的层三个前卷积层之后是批量归一化和空间池化。注意力模块从第五卷积（或池化）开始向后放置，直到达到AD使用SGD执行训练200个时期，并且学习率为0。1，在历元60之后除以10。模型在200k图像训练集上训练，在100k图像验证集上验证，并在100k测试图像上测试。权重使用Heet al. [7]初始化。图4显示了所提出的模型的不同超参数没有注意力的表现被标记为基线。注意力模型使用softmax注意力门进行训练，并使用[38]进行正则化，除非明确指定。首先，我们通过在每个池化层之后增加AW= 1的注意力层来测试AD如图4b所示，更大的AD导致更好的准确性，在AD= 4时达到饱和，注意，对于该值，注意力模块的感受野为5× 5px，因此来自这样的小区域的性能改善是有限的。图图4c示出了针对不同的AW值和AD= 4的训练曲线。可以看出，即使在图像中存在单个对象的情况下，也通过增加注意力头部然后，我们使用最好的AD和AW，即AD，AW= 4，来验证在注意力掩码上使用softmax而不是sigmoid（1）的重要性，使用门的效果（等式2）。7），以及正则化的好处[38]。图4d确认了按重要性排序的：门、softmax和正则化导致精度提高，达到97. 8%。特别是，门在丢弃干扰项方面起着重要的作用，特别是对于高AW和高AD最后，为了验证注意力掩码在数据上没有过度拟合，从而推广到任何数量的混乱，我们在测试集上运行了迄今为止最好的模型（图4d），其中干扰项的数量不断增加（从4到64）。为了进行比较，我们在应用我们的方法之前包括基线模型，并且使用STN [11]增强的相同基线达到了与验证集中的最佳模型相当的性能所有这三个模型都是使用具有八个干扰项的相同数据集进行训练的值得注意的是，因为它10P. Rodr'ıguezetal.0.9780.9760.9760.9740.9720.97050 100 150200时代0.9740.9720.97050 100 150 200时代(a) 混乱的MNIST0.9780.9760.974(b) 不同深度2.01.5(c) 不同宽度0.9720.970AD，AW=4不含注册sigmoid基线 w/o门0 50 100 150200时代1.00.50.020 30 40 50 60#distractor(d) Softmax，Gates，Reg.（e）过度拟合图4：在杂乱转化的MNIST上的消融实验。基线指示在用注意力增强之前的原始模型。(a)显示了杂乱MNIST数据集的示例。(b)增加注意深度（AD）的效果，对于注意宽度AW= 1。(c)增加AW的效果，对于AD=4。(d)最佳性能模型（AD，AW= 4，softmax注意力门和正则化[38]）与未正则化，sigmoid注意力和无门。（e）当用不同量的干扰物训练时，基线、注意力（AD，AW= 4）和空间Transformer网络（stn）.在图4e中可以看出，注意力增强模型展示出比基线和STN更好的泛化。4.3从头开始训练我们基准CIFAR-10和CIFAR- 100的建议的注意力机制，并比较它与最先进的。作为基础模型，我们选择宽残差网络，具有大量参数的强基线，因此我们的模型（WARN）引入的额外参数可以被认为是可以忽略的。相同的WRN基线用于训练att 2模型[12]，我们将此模型称为WRN-att 2。模型的初始化和优化遵循与[35]相同的程序。注意力模块被系统地放置在三个卷积组中的每一个之后，从最后一个开始，直到达到注意力深度，以便在不同的抽象级别和细粒度分辨率上捕获信息，在[12]中遵循相同的过程。该模型使用pytorch [22]实现，并在具有两个NVIDIA 1080Ti的单个工作站上运行66https://github.com/prlz77/attend-and-rectifyAD=4AD=3AD=2AD=1基线AW=4AW=2AW=1基线值精度stn基线AD，AW=4值精度测试误差值精度出席并整改11表1：CIFAR-10和CIFAR-100的错误率（%）。超过所有其他方法的结果以蓝色表示，超过基线的结果以黑色粗体表示。总网络深度、关注深度、关注宽度、dropout的使用以及浮点运算量（Flop）在列1-5中提供以用于公平比较净深度AD AW压差GFlop CIFAR-10 CIFAR-100[34]第29话--10.73.5817.31Densenet [10]250--5.43.6217.60190--9.33.4617.1828--5.2419.25WRN [35] 28--C5.23.8918.8540--C8.13.818.3282-5.74.1021.20WRN-att2 [12] 282-C5.73.6020.00402-C8.63.9019.2028245.23.6018.72警告28345.33.4518.612834C5.33.4418.264034C8.23.4617.82首先，在CI-FAR 100上重复第4.2节中进行的相同消融研究。我们一致地得出了与Cluttered-MNIST相同的结论：通过将注意深度从1增加到#个残余块，并且将宽度从1增加到4，准确度提高了1.5%。门控执行4%，比一个简单的线性投影，3%，相对于简单的平均输出矢量。当正则化被激活时，也观察到0.6%的改善。有趣的是，我们发现sigmoid attention的表现与softmax相似。使用此设置，WARN在CIFAR100上达到17.82%的误差。此外，我们进行了一项实验，阻止从所提出的注意力模块到原始网络的梯度，以分析观察到的改善是由于注意力机制还是由于向损失函数引入快捷路径而产生的优化效果[18]。有趣的是，我们观察到CIFAR10下降0.2%，CIFAR100下降0.4%，仍然优于基线。请注意，即使不考虑优化，也应该预期性能下降，因为反向传播使中间层学习为注意层收集更多同样值得注意的是，即使在微调时（在基础模型中梯度乘以0.1），细粒度的准确性也会提高，请参见第4.4节。相比之下，[12]中的方法在没有将梯度发送到基础模型时不会收敛，因为分类直接在中间特征图上执行（在训练期间连续移动）。如表1所示，所提出的宽注意力残差网络（WARN）改进了CIFAR-10和CIFAR-100的基线模型，即使不使用12P. Rodr'ıguezetal.ResnextDensenetWRN-28WRN-att2-28 WARN-28ResnextDensenetWRN-40WRN-att2-40 WARN-40表2：CIFAR-10和CIFAR-100上的参数数量、浮点运算（Flop）、每个验证时期的时间和错误率（%）“时间”列显示在单个GPU上转发批大小为256的验证数据集所深度参数GFlop时间CIFAR-10 CIFAR-100ResNext2968M10.75.02s3.5817.31Densenet19026M9.36.41s3.4617.18WRN4056M8.10.18s3.8018.30WRN-att24064M8.60.24s3.9019.20警告2837M5.30.17s3.4418.26警告4056M8.20.18s3.4617.8296.5CIFAR-1082.7582.50CIFAR-10096.496.396.296.15 6 7 8 910GFLOPS(a) CIFAR-1082.2582.0081.7581.5081.2581.0080.758.0 8.5 9.09.5十点五GFLOPS(b) CIFAR-100图图5：在CIFAR-10和CIFAR-100上性能最好的Resnext、Densenet、WRN、WRN-att 2和WARN的比较验证准确度报告为GFLOP数量的函数并且在CIFAR-10中优于现有技术的其余部分，同时显著更快，如表2中所示。值得注意的是，与Densenet和Resnext相比，CIFAR-100的性能使WARN具有竞争力，我们假设增强模型的准确性的增加受到基础网络的限制，并且当应用于表现最好的基线时可以获得更好的结果有趣的是，即使不使用dropout，WARN也显示出优异的性能;这在[12]中是不可能的，它需要dropout来实现竞争性性能，因为它们向增强网络引入了更多参数图5显示了性能最佳模型的计算效率。WARN在CIFAR-10上提供最高的每GFlop精度，比WRN和CIFAR-100上的WRN-att 2更具竞争力准确度（\%）准确度（\%）出席并整改13表3：六个细粒度识别任务的结果DSP意味着所引用的模型使用特定于域的预训练。HR表示引用的模型使用高分辨率图像。提高基线模型的准确度以黑色粗体显示，最高准确度以蓝色显示狗食品汽车性别年龄鸟类SotADSPRA-CNN [5] Inception [6] 美国有线电视新闻网[39]FAM [23]C[24]第二十四话C美国有线电视新闻网[39]HRCCC精度87.381.592.893.064.086.5WRN89.684.388.593.957.484.3警告92.985.590.094.659.785.64.4迁移学习我们微调了在Imagenet [25]上预训练的增强WRN-50-4，并报告了与WRN基线相比，在五个不同的细粒度数据集上更高的准确性：Stanford Dogs，所有实验都训练了100个epoch，批量大小为64。除了注意力模块和分类器之外，所有层的学习率首先被设置为10- 3，对于后者，学习率要高出10倍。学习率降低了0倍。每30次迭代1次，实验自动停止如果达到平稳期。该网络采用标准数据扩充进行训练，即从256× 256幅具有随机水平翻转的图像中提取随机的224×由于这项工作的目的是证明尽管所提出的机制普遍改进了用于细粒度识别的基线CNN，但我们在所有数据集中遵循相同的训练过程。因此，我们不使用512× 512图像，这是最先进的方法的核心，例如RA-CNN，MA-CNN或颜色抖动[6]用于食物识别。拟议该方法能够在Adience Gender、斯坦福犬和UEC Food-100中获得最先进的结果，即使在使用较低分辨率进行训练如表3所示，WRN通过仅用所提出的注意力机制对其进行微调来此外，我们报告了斯坦福狗，UEC食物和性别识别的最高准确率得分，并在与使用高分辨率图像或特定领域预训练的模型相比时获得了有竞争力的分数例如，在[24]中，在数百万张人脸上预训练的特定于领域的模型用于年龄识别，而我们的基线是在Imagenet上预训练的通用WRN另外值得注意的是，CUB 200 -2011（+1。3%）高于在具有224 × 224图像的STNs中获得的一个（+0. 8%），尽管我们正在扩大一个更强的基线。这表明，亲所提出的机制可以是提取未被主卷积流提取的补充信息。如表4所示，WARN不仅提高了绝对精度，而且它提供了每个引入参数的高效率每个数据集的注意力掩码示例如图所示14P. Rodr'ıguezetal.表4：每百万个参数狗食物汽车性别年龄鸟平均WRN1.31.2 1.31.40.81.21.2警告6.92.5 3.11.54.02.53.4(a)（b）（c）（d）（e）（f）图6：每个数据集的注意力掩码：（a）斯坦福狗，（b）斯坦福汽车，(c) Adience性别，（d）CUB鸟类，（e）Adience年龄，（f）UEC食物。因为它可以当被看到时，掩模有助于聚焦在前景对象上。在（c）中，注意力面具集中在耳朵上进行性别识别，可能是在寻找耳环6. 如图所示，注意头学会了忽略背景，并注意物体的最具辨别力的部分这与第4.2节的结论一致。5结论我们提出了一种新的注意力机制来改进CNN。所提出的模型学习在不同的深度级别上关注CNN特征图中信息量最大的部分，并将它们与门控函数相结合以更新输出分布。我们认为，注意力有助于丢弃嘈杂的无信息区域，避免网络记住它们。与以前的工作不同，所提出的机制是模块化的，架构独立的，快速，简单，但WRN增强了它获得最先进的结果在高度竞争的数据集上，同时比DenseNet快37倍，比ResNeXt快30倍，并使增强模型更具参数效率。当对迁移学习任务进行微调时，注意力增强模型在每个识别数据集中表现出优异此外，在狗、性别和食物方面获得了最先进的性能。结果表明，该模型学习提取局部判别信息，否则会丢失时，遍历的基线架构的层。致谢作者感谢西班牙项目TIN 2015 -65464-R（MINECO/FEDER）的支持，2016 FI B 01163授予Generali-tat de Catalunya和COST Action IC1307 iV L Net。我们也非常感谢NVIDIA公司的支持，他们捐赠了一个Tesla K40 GPU和一个GTX TITAN GPU，用于这项研究。出席并整改15引用1. Anderson ， J.R. ：认知心理学及其启示。美国纽约州纽约州：WHFreeman/Times Books/Henry Holt and Co（1985）2. 陈杰，Ngo，C.W.：用于烹饪食谱检索的深度成分识别In：ACM MM.pp. 32-41ACM（2016）3. Desimone河Duncan，J.：选择性视觉注意的神经机制。神经科学年鉴18（1），1934. Eidinger，E.，恩巴尔河哈斯纳，T.：未过滤面孔的年龄和性别估计。TIFS9（12），21705. Fu，J.，郑洪，Mei，T.：看得更近些，看得更清楚：用于细粒度图像识别的递归注意力卷积神经网络。在：CVPR（2017）6. Hassannejad，H.，Matrella，G.，Ciampolini，P.德穆纳里岛Mordonini，M.，Cagnoni，S.：使用非常深的卷积网络进行食物图像识别。在：MADIMA研讨会.pp.41比49 ACM（2016）7. 他，K.，张，X.，Ren，S.，孙杰：深入研究整流器：在图像网络分类方面超越人类水平的性能。在：CVPR中。pp. 10268. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：CVPR中。pp. 7709. Hochreiter，S.，Schmidhuber，J.：长短期记忆。神经计算9（8），173510. Huang，G.，刘志，Weinberger，K.Q.，van der Maaten，L.：密集连接的卷积网络。在：CVPR中。卷1，p.3（2017）11.Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，等：空间Transformer网络。在：NIPS。pp. 201712. Jetley，S.，Lord，N.A.，Lee，N. Torr，P.：学会注意。In：ICLR（2018）13. Khosla，A. Jayadevaprakash，N.，Yao，B.，Li，F.F.：用于细粒度图像分类的新数据集：斯坦福狗。In：FGVC.卷2，p.1（2011年）14. Krause，J.，斯塔克M. Deng，J.，李菲菲：用于细粒度分类的3D对象表示。在：CVPR中。pp. 第55415. Krizhevsky，A.，Hinton，G.：从微小图像中学习多层特征（2009）16. LeCun，Y.：mnist手写数字数据库。http：//yann. 乐村03 The Famous Women（1998）17. LeCun，Y.，博图湖Bengio，Y.，哈夫纳，P.：基于梯度的学习应用于文档识别。Proceedings of the IEEE86（11），227818. Lee，C.Y.， Xie，S.， Gallagher，P.，张志，图，Z.：深度监督网络。于：AISTATS。pp.第56219. Liu，X.，中国科学院院士，Xia，T.，王杰，Lin，Y.：全卷积注意力定位网络：有效的细粒度识别注意力定位。arXiv预印本arXiv：1603.06765（2016）20. Matsuda，Y.，美国，Hoashi，H.，Yanai，K.：通过检测候选区域的多食物图像识别。In：ICME（2012）21. Mnih，V.，Heess，N.格雷夫斯，A.，等：视觉注意的循环模型。在：NIPS。pp.第220422. Paszke，A.，格罗斯，S.，Chintala，S.，Chanan，G.：Pytorch（2017）23. Rodriguez，P.，Cucurull，G.，Gonfaus，J.M.，Roca，F.X.，Gonzalez，J.：年龄和性别识别在野外与深关注。PR（2017）24. 罗斯河Timofte河，古尔，L.V.：从没有面部标志的单个图像IJCV（2016年7月）16P. Rodr'ıguezetal.25. Russakovsky，O.，Deng，J.，Krause，J.，Berg，A.，李菲菲：The imagenetlarge scale visual recognition challenge 2012（ilsvrc2012）（2012）26. Sermanet，P.，Frome，A.，Real，E.：注意细粒度分类。载于：ICLR（2015）27. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv：1409.1556（2014）28. Uijlings河van de Sande，A.，Gevers，T. Smeulders，M.，等：对象识别的选择性搜索。IJCV104（2），154（2013）29. Ungerleider，S.K.， G、L.：人类大脑皮层的视觉注意机制。Annual Review of Neuroscience23（1），31530. Vaswani，A.，Shazeer，N. Parmar，N. Uszkoreit，J.，琼斯湖戈麦斯，A.N.，Kaiser，L-.，我是波罗蜜。：Attentionisallyouunned. In：N IPS. pp. 599831. Wah，C.，Branson，S.，Welinder，P. Perona，P.，Be

下载后可阅读完整内容，剩余1页未读，立即下载