细粒度图像识别的多注意多类约束及度量学习方法

110 浏览量更新于2023-10-13 收藏 1.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

细粒度图像识别的多注意多类约束孙明[0000− 0002− 5948− 2708]1、袁雨辰[0000− 0002− 5251− 9942]1、周峰[0000− 0002− 1132− 5877]2、丁二瑞 [0000− 0002− 1867− 5378]11百度公司计算机视觉技术部（VIS）2百度研究{sunming05，yuanyuchen02，zhoufeng09，dingerrui}@ baidu.com抽象。基于注意力的细粒度图像识别学习仍然是一项具有挑战性的任务，其中大多数现有的方法孤立地对待每个对象部分，而忽略了它们之间的相关性此外，所涉及的多阶段或多尺度机制使得现有方法效率较低且难以端到端训练在本文中，我们提出了一种新的基于注意力的卷积神经网络（CNN），它调节不同输入图像之间的多个对象部分。我们的方法首先学习多个关注区域的每个输入图像的特征，通过一次挤压多激发（OSME）模块，然后应用多注意多类约束（MAMC）的度量学习框架。对于每个锚点特征，MAMC通过将相同注意力的同类特征拉得更近，而将不同注意力或不同类的特征推开来发挥作用。我们的方法可以很容易地进行端到端的训练，并且是高效的，只需要一个训练阶段。此外，我们还介绍了Dogs-in-the-Wild，一个全面的狗物种数据集，在类别覆盖率，数据量和注释质量方面超过了类似的现有数据集。在四个基准数据集上进行了大量的实验，以显示我们的方法的实质性改进。关键词：细粒度分类，度量学习，视觉注意，多注意多类约束，一次挤压多激励1介绍在过去的几年中，通用图像识别在大规模数据集（例如，，ImageNet [8]，Places [56]）经历了前所未有的改进，这要归功于深度神经网络（DNN）设计和训练的突破。这种快速的研究进展也引起了相关行业的关注，在智能手机上构建像Google Lens这样的软件，以识别用户拍摄的所有快照。然而，识别日常对象的细粒度类别，如汽车模型，动物物种或食物菜肴仍然是一个挑战性的任务，现有的方法。原因是细粒度类的全局几何和外观可以非常相似，并且2孙明、袁雨辰、周峰、丁二瑞注意1注意2图1：来自建议的Dogs-in-the-Wild数据集的两种不同的狗物种。我们的方法能够捕捉头部和尾部的细微差异，而无需手动注释。如何识别它们在关键部位上的细微差别至关重要。例如，为了区分图1中的两个狗物种，重要的是考虑它们在耳朵、尾巴和体长上的区别特征，这是非常难以注意到的，即使对于没有领域专业知识的人。因此，在细粒度社区中的大部分努力集中在如何有效地集成零件本地化到分类管道。在前DNN时代，各种参数[9，24，29]和非参数[25]部件模型已被用于提取区分特定部件的特征。最近，随着DNN的普及，对象部分定位和特征表示的任务都可以以更有效的方式学习[22，18，2，48，49]。然而，这些强监督方法的主要缺点是，它们严重依赖于手动对象部分注释，这是太昂贵的，在实践中普遍应用。因此，弱监督框架在最近的研究中受到越来越多的关注。例如，注意机制可以被实现为顺序决策过程[27]或多流部分选择[10]，而不需要部分注释。尽管取得了很大的进展，这些方法仍然遭受一些局限性。首先，它们的附加步骤，例如零件定位和关注区域的特征提取，会产生昂贵的计算成本。其次，它们的训练过程是复杂的，由于复杂的架构设计，需要多个交替或级联阶段更重要的是，大多数作品倾向于孤立地检测对象部分，而忽略了它们内在的相关性。因此，学习的注意力模块可能集中在同一区域，并且缺乏利用可以区分类似细粒度类的区别性特征来定位多个部分的能力。从大量的实验研究中，我们观察到，用于细粒度分类的有效视觉注意机制应该遵循三个标准：1）检测到的部分应该很好地分布在对象主体上以提取非OSME模块细粒度图像识别的多注意多类约束3相关特征; 2）每个部分特征单独对于不同类别的对象的分离应该是有区别的; 3）零件提取器应该是轻量的，以便按比例放大以用于实际应用。为了满足这些需求，本文提出了一个新的框架，其中包含两个主要的改进。首先，我们提出了单挤压多激励模块（OSME）来本地化受最新ImageNet赢家SENet [13]启发的不同部分。它是完全可区分的，可以直接提取零件特征与预算的计算成本。其次，受度量学习损失的启发，我们提出了多注意多类约束（MAMC），以连贯地加强训练中不同部分之间的相关性此外，我们还发布了一个名为Dogs-in-the-Wild的大型狗物种数据集，其类别覆盖率、数据量和注释质量均高于实验结果表明，我们的方法在四个基准数据集上取得了实质性的改善此外，我们的方法可以很容易地进行端到端训练，并且与许多需要多个前馈过程进行特征提取[41，52]或多个替代训练阶段[10，31]的现有方法不同，每个训练步骤只需要一个阶段和一个前馈。2相关工作2.1细粒度图像识别在细粒度图像识别的任务中，由于类间差异是微妙的，因此需要应用更专业的技术，包括判别特征学习和对象部分定位一种直接的方法是使用手动对象部分注释的监督学习，其在分类鸟类[2，9，48，49]，狗[16，29，25，48]和汽车[17，24，20]方面显示出有希望的结果。然而，它通常是费力和昂贵的，以获得对象部分注释，这严重限制了这种方法的有效性。因此，最近提出的方法倾向于使用弱监督机制来定位对象部分，例如姿势对齐和联合分割的组合[18]，输入图像的动态空间变换以实现更好的对齐[14]，以及用于双线性特征提取的并行CNN [23]。与以往的工作相比，我们的方法也采取了弱监督机制，但可以直接提取的部分功能，而不裁剪出来，是高效的，以扩大与多个部分。近年来，出现了更先进的方法，结果有所改善。例如，二分图标签[57]利用了细粒度类上的标签层次结构，这是获得成本较低的[51]中的工作利用了统一的CNN框架，通过Fisher向量进行空间加权表示[30]。[3]和[45]将人类知识和各种类型的计算机视觉算法纳入人在环框架中，以实现两端的互补优势。在[34]中，将平均和双线性池化相结合，以在训练期间学习池化策略。[6]在人类的帮助文[50]中的工作，给出了标号的结构4孙明、袁雨辰、周峰、丁二瑞被剥削这些技术也可以潜在地与我们的方法相结合，用于进一步的工作。2.2视觉注意上述基于部件的方法在细粒度图像识别中表现出很强的性能然而，它们的主要缺点之一是它们需要对象部分的有意义的定义，这对于诸如花[28]和食物菜肴[1]的非结构化对象很难获得。因此，使CNN能够处理一般对象的松散定义区域的方法已成为一个有前途的方向。例如，软提议网络[58]将随机游走和CNN结合起来用于对象提议。[52]和[26]中的工作分别将长短期记忆[12]和强化学习引入到基于注意力的分类中类激活映射[55]生成输入图像的热图，这为注意力可视化提供了更好的方式。另一方面，多尺度特征融合或循环学习的思想在最近的工作中变得越来越流行。例如，[31]中的工作扩展了[55]，并建立了一个级联的多阶段框架，通过迭代来细化注意残余注意力网络[41]通过上采样和下采样获得输入图像的注意力掩码，并且堆叠一系列这样的注意力模块以用于特征图细化。而循环注意力CNN [10]在softmax的优化和成对排名损失之间交替，这共同有助于最终的特征融合。甚至还提出了一种具有强化学习的加速方法[21]，特别是针对上述重复注意力模型。与这些努力并行，我们的方法不仅自动定位注意区域，而且直接捕获相应的特征，而无需显式地裁剪ROI并再次前馈特征，这使得我们的方法非常高效。2.3度量学习除了上述技术之外，深度度量学习旨在学习样本对之间适当的相似性度量，这为细粒度图像识别提供了另一个有前途的方向Siamese网络[4]的先驱工作用对比损失来制定深度度量学习，该对比损失最小化正对之间的距离，同时保持负对分开。尽管对比嵌入在人脸验证方面取得了巨大的成功[33]，但它要求训练数据包含实值精确的成对相似性或距离。三重损失[32]通过优化来自三个样品的正对和一个负对的相对距离来解决这个问题。事实证明，三重丢失对于细粒度产品搜索非常有效[43]。后来，改进了三重丢失以自动搜索有区别的补丁[44]。然而，与softmax loss相比，三重丢失由于其缓慢的收敛而难以训练。为了缓解这个问题，引入N对损失[37]以细粒度图像识别的多注意多类约束511类2类1班2班M1W11W2F1S1MAMC损失W13UW12W222S2F组合softmax损W23M2输入图像对OSME模块图2：我们的网络架构概述在这里，我们可视化的情况下，学习- ING两个注意力分支给定的训练批次与两个类的四个图像在测试中，MAMC和softmax损耗将由softmax层代替与[10]等硬注意力方法不同，我们不会显式地裁剪部分。相反，由两个分支生成的特征图（S1和S2）提供了针对特定区域的一系列特征，如所构建的特征图所示。在训练中考虑多个负样本，并表现出更高的效率和性能。最近，角损耗[42]通过整合捕获三重态三角形的附加局部结构的高阶约束来增强N对损耗。我们的方法在两个方面与以前的度量学习工作不同：首先，我们采取的对象部分，而不是整个图像作为实例的特征学习过程中;其次，我们的配方同时考虑每个实例的部分和类标签。3该方法在本节中，我们提出了我们提出的方法，尽管只在图像级标签上进行训练，但该方法可以有效且准确地参加有区别的区域。如图2所示，我们的方法的框架由两部分组成：1）可微分单挤压多激励（OSME）模块，其从多个注意区域提取特征，计算负担略有增加。2)多注意力多类（MAMC）约束，它加强了注意力特征的相关性，有利于细粒度分类任务。与许多先前的工作相比，我们的方法的整个网络可以在一个阶段中有效地进行端到端的训练。3.1一次挤压多激发注意模块已经有许多探索弱监督部分定位的视觉注意模型，并且先前的工作可以大致分为两组。第一种类型的注意力也被称为部分检测，即、ConvConv全球集中共用全球集中共用FCFCReLUReLUFCFC乙状乙状注意二注意1FCFC6孙明、袁雨辰、周峰、丁二瑞C33每一个注意力都相当于覆盖某个区域的边界框。众所周知的例子包括循环视觉注意力的早期工作[27]，空间Transformer网络[14]和最近的循环注意力CNN [10]方法。这种硬注意力设置可以在制定和训练中从对象检测社区中受益匪浅。然而，其架构设计往往是繁琐的零件检测和特征提取分离在不同的模块。第二种类型的注意力可以被认为是在特征图上施加软掩模，其起源于激活可视化[46，54]。后来，人们发现它可以扩展用于定位部件[55，31]并提高整体识别性能[41，13]。我们的方法也属于这一范畴。我们采用了最新的ImageNet获奖者SENet[13]的思想，来捕获和描述输入图像中的多个区分区域。与其他软注意力作品[55，41]相比，我们建立在SENet上，因为它在实践中的性能和可扩展性方面具有优越性。如图2所示，我们的框架是一个前馈神经网络，其中每个图像首先由基础网络处理，例如，，ResNet-50 [11].设x∈′ ′ ′RW ×H×C表示馈送到最后残差块τ中的输入。SENet的目标是重新校准输出特征图，U=τ（x）=[u1，· · ·，u]∈RW×H×C，（1）通过一对挤压和激发操作。为了生成P注意力特定的特征图，我们通过执行一次挤压但多激励操作来扩展SENet的思想。在第一个单挤压步骤中，我们跨空间维度W×H聚合特征图U以产生通道方向描述符z= [z1，· · ·，zC]∈RC。采用全局平均池化作为描述每个信道统计的简单但有效的方式：Wzc=1WHΣHu c（w，h）.（二）w=1h =1在第二多激励步骤中，针对每个关注p=l，···，P，在zmp=σ.ΣWpδ（Wpz）=[mp，···，mp]∈RC，（3）211C其中σ和δ分别指Sigmod和ReLU函数。我们采用了与SENet相同的设计，通过形成一对降维，增加层参数Wp∈RC×C和Wp∈RC×C。因为1r2rSigmod函数的属性，每个mp编码通道之间的因此，我们使用它来重新加权原始特征图U的通道，Sp=[mpu1，· · ·，mpu] ∈RW×H×C.（四）1CC为了提取特定于注意力的特征，我们将每个注意力图Sp馈送到全连接层Wp∈RD×WHC：fp = Wp vec（Sp）∈RD，（5）Σ细粒度图像识别的多注意多类约束7{f}我其中操作或视频（·）是对视频的平坦化。简而言之，所提出的OSME模块寻求提取P个特征向量pp=1对于每个图像x，通过在最后一个残差块的顶部添加几个层它的简单性使得能够使用相对较深的基础网络和有效的一级培训管道。值得澄清的是，SENet最初不是为学习视觉注意力而设计的。通过采用SENet的关键思想，我们提出的OSME模块实现了一个轻量级但有效的注意力机制，使大规模细粒度数据集上的端到端的一阶段训练成为可能。3.2多注意多类约束除了3.1节介绍的注意力机制外，另一个关键问题是如何将提取的注意力特征引导到正确的类别标签上。一种直接的方法是直接计算注意力集中的特点[14]。然而，softmax损失无法调节注意特征之间的相关性。作为替代，另一个研究[27，26，10]倾向于用循环搜索机制来模仿人类感知。这些方法通过将先前的预测作为参考，从粗到细迭代地生成注意区域。极限-然而，它们的缺点是当前预测高度依赖于先前预测，从而初始误差可能被迭代放大。此外，它们需要先进的技术，如强化学习或多阶段训练中的仔细初始化。相比之下，我们采取了一种更实际的方法，直接在训练中加强部分之间的相关性。那里已经有一些像[44]这样的现有工作，其在局部贴片上引入几何约束。我们的方法，另一方面，探索更丰富的相关性的对象部分提出的多注意多类约束（MAMC）。在给定K个细粒度类的训练图像s{（x，y），···}的集合的情况下，其中y=1，· · ·，K表示与图像。X. 为了模拟图像内和类间的注意关系，我们在ch处，B={（xi，x+，yi）}N，通过对N对图像3进行i i=1类似于[37]。对于类yi的每对（xi，x+），OSME模块提取P我pp + P注意特征{fi，fi}p=1，根据等式（1）从多个分支五、给定每个批次中的2N个样本（图3a），我们的直觉来自由OSME模块提取的2个NP特征的自然聚类（图3b）。通过选取对应于第i类和第p个关注区域的fp作为锚点，我们将其余特征分为四组：-same-at-intIpipp+– s_a_t_t_i={f_j，f_j，f_j，f_j}，i=0;– differet-attionsame-classfeaturs，Sdasc（fp）={fq，fq+}q/=p;我我我3N代表样本对的数量以及小批量中的类的数量。受GPU内存的限制，N通常远小于K，即整个训练集中的类的总数。8孙明、袁雨辰、周峰、丁二瑞我我–different-attion different-classfeatusSdadc（fp）={fq，fq+}j=fi，qi=p.i j j我们的目标是在一个度量学习框架中挖掘这四个组之间丰富的相关性。如图3c中所总结的，我们根据锚fp的正集合的选择来组成三种类型的三元组。保持我为了简化符号，我们在下面的等式中省略fp同样的关注，同样的积极。与如果fp为fp+，则其他所有的值都必须与之有较大的差异我我主播然后，正集合和负集合被定义为：Psasc = Ssasc，Nsasc = Ssadc∪ Sdasc ∪ Sdadc。（六）同样关注不同类别的阳性。对于来自不同类别但从相同关注区域提取的特征，它们应该比也来自不同关注的特征更Psadc = Ssadc，Nsadc = Sdadc。（七）不同的注意同类的积极。类似地，对于来自同一类但从不同注意区域提取的特征，我们有：Pdasc = Sdasc，Ndasc = Sdadc。（八）对于任何正集合P ∈ {Psasc，Psadc，Pdasc}和负集合N ∈ {Nsasc，Nsadc，Ndasc}的组合，我们期望锚点到正的距离比到任何负的距离更接近m > 0，即。、fp− f +（九）我我为了更全面地描述和更准确地描述，在图4中示出的六个特征点的示例中描述了更准确的描述。在初始状态下（图4a），Ssasc特征点（绿色六边形）比其他特征点更远离中心处的锚点fp在应用第一约束（Eq. 6），底层特征空间被变换到图4b，其中Ssasc正点（绿色C）已经被拉向锚。然而，四个负特征（青色矩形和三角形）仍然处于无序位置。事实上，在给定锚的情况下，与Sdadc相比，Ssadc和Sdasc通过进一步实施第二（Eq. 7）和第三（Eq. 8）约束，可以在图4c中实现更好的嵌入，其中Ssadc和Sdasc被正则化为比Sdasc更接近锚点。3.3训练损失为了在Eq.9，一种常见的方法是最小化以下铰链损失：ΣΣfp−f+.（十）i i+尽管被广泛使用，优化Eq. 使用标准三元组采样的方法导致在实践中缓慢收敛和不稳定的性能灵感来自细粒度图像识别的多注意多类约束9锚钉（A）fip东凤我阳性（P）fq+我q=/pfpfqJ IQFJ阴性（N） fp+Jfq+我Jfq+（c）MAMCj=/我q=/pj/=iq=/pj/=iq=/ pj=/我我我我我fp+Jfp+JfpPCNPCN一一一CCNNPCN（一）N（b）第（1）款C（c）第（1）款锚SsascSdascSdadc(a) 输入图像（b）OSME图3：训练中的数据层次结构。(a)每批由N对样式的2N个输入图像组成。(b)OSME根据Eq.5. （c）通过挑选一个特征fp作为锚点，针对三个MAMC约束的特征组。图4：合成批次的特征嵌入。(a)学习前的初始嵌入。(b)通过应用Eq. 6.（c）最终嵌入通过实施Eq.7、Eq.8. 更多详细信息请参见文本。度量学习的最新进展，我们通过最小化N对损失4来执行三个约束中的每一个[37]，Lnp=1N，.log 1+ Σexp（fpTf−-fpT fΣ+）。（十一）fp∈B我f+∈Pf−∈N通常，对于每个训练批次B，MAMC利用权重参数λ联合地最小化softmax损失和N对损失：.Lmamc=Lsoftmax+λ国家广播公司南共体国家党法国国家银行Σ.（十二）给定一批N个图像和P个部件，MAMC能够生成三种类型的2（PN-1）+4（N-1）2（P-1）+4（N-1）（P-1）2个约束（等式1）。6、Eq。8），而N对损耗只能产生N-1。从长远来看，我们能够生成比相同的N对损失多130倍的约束4值得指出的是，MAMC的实现与N对损失的使用无关，因为MAMC是一个通用框架，也可以与其他基于三元组的度量学习损失相结合。N对损耗作为参考，因为它的鲁棒性和良好的收敛性在实践中。注意1注意P注意1注意P1类x1X+1F......这是什么？11FP1NxN类X+FN1...FNPN、、ff1个以上11 ...P+F1+P+N...FN东凤Jfq+J{{}}{}{{{}}}{{.........L+L+L10孙明、袁雨辰、周峰、丁二瑞正常设置下的数据，其中P= 2且N= 32。这意味着MAMC利用样本之间的更丰富的相关性，并且能够获得比三元组或N对损失更好的收敛。4野生狗数据集具有高质量注释的大型图像数据集（如ImageNet [8]）使视觉识别的显着发展成为可能。然而，用于细粒度识别的大多数数据集是过时的、非自然的并且相对较小（如表1所示）。最近，有几个尝试，如Goldfinch[19]和iNaturalist Challenge [38]，在构建大规模细粒度基准方面。然而，仍然缺乏具有足够大的数据量、高度准确的数据注释和常见犬种的全标签覆盖的综合数据集。因此，我们引入了包含299，458张图像的Dogs-in-the-Wild数据集在362只狗的分类5中，它比斯坦福狗大15倍[16]。我们通过结合多个来源（例如，，Wikipedia），然后用搜索引擎（例如，，Google，Baidu）。然后用众包检查每个图像的标签。我们进一步修剪小于100张图像的小类，并通过应用混淆矩阵和手动验证合并非常相似的类。整个标注过程分三次进行，以保证标注质量。最后但并非最不重要的是，由于大多数实验基线都是在ImageNet上预先训练的，这与我们的数据集有大量的类别重叠，因此我们从我们的数据集中排除了ImageNet的任何图像，以进行公平的评估。图5a和图5b定性地比较了我们的数据集与两个最相关的基准，斯坦福狗[16]和金翅雀的狗部分[19]。可以看出，我们的数据集在两个方面更具挑战性：（1）各类别的类内变异较大。例如，斯塔福德郡公牛梗的几乎所有常见图案和毛发颜色都涵盖在我们的数据集中，如图5a所示。（2）覆盖更多的周边环境类型，包括但不限于自然场景、室内场景甚至人工场景;狗本身可以是自然的外观，也可以是经过打扮的，例如图5a中的第一只波士顿梗。我们数据集的另一个特点虽然金翅雀具有可比的类数和数据量，但通常会在内部发现噪声图像，如图5b所示。然后，我们在图5c和表1中展示了三个数据集的统计数据。据观察，我们的数据集在每个类别的图像方面显着更不平衡，这与现实生活中的情况更一致，并且显着增加了分类难度。注意，为了更好的可视化，图5c中的曲线是平滑的另一方面，我们的数据集的每个类别的平均图像高于其他两个数据集，这有助于其高类内变化，并使其不易于过拟合。5http://ai.baidu.com/broad/subordinate?数据集=犬细粒度图像识别的多注意多类约束11表1：相关数据集的统计。数据集#类#火车测试次数#平均值列车/等级Cub-200-20112005,9945,79430斯坦福犬12012,0008,580100斯坦福汽车1968,1448,04142金翅雀515342,632-665野生狗362258,474 40,98471480706050波士顿梗（一）40斯塔福德郡斗牛梗3020100050010001500200025003000图像数量(a)（c）第（1）款图5：狗数据集的定性和定量比较。(a)来自斯坦福狗和野生狗的示例图像;（b）来自金翅雀的完全非狗的常见坏案例(c)按类别分布的图像。5实验结果我们在四个细粒度图像识别数据集上进行了实验，包括三个公开可用的数据集CUB-200-2011 [39]，Stanford Dogs [16]和Stanford Cars [20]，以及拟议的Dogs-in-the-Wild数据集。表1中总结了包括类别编号和训练/测试分布的详细统计数据。我们采用top-1准确度作为评估指标。在我们的实验中，输入图像的大小被调整为448×448，用于训练和测试。我们在每个数据集上训练60个epoch;批量大小被设置为10（N=5），并且基本学习率被设置为0.001，其对于每一次学习都衰减0.96。0.6纪Wp和Wp在方程式（1）中的减速比r在参考中，31 2至[13]。权重参数λ根据经验被设置为0.5，因为它一致地实现好的表演。并且对于FC层，我们设置通道C= 2048和D= 1024。我们的方法使用Caffe [15]和一个Tesla P40 GPU实现5.1消融分析为了充分研究我们的方法，表2a提供了对关键组件的不同配置的详细消融基地网络。为了在OSME模块之前提取卷积特征，我们选择VGG-19 [36]，ResNet-50和ResNet-101 [11]作为我们的候选基线。基于表2a，考虑到ResNet-50和ResNet-101的良好性能，选择它们斯坦福犬金翅雀野生狗我们斯坦福犬#分类12孙明、袁雨辰、周峰、丁二瑞性能和效率之间的平衡。我们还注意到，尽管在[21]（84.5%）中报告了CUB上的更好的ResNet-50基线，但它在Torch [5]中实现，并使用更高级的数据增强（例如颜色抖动、缩放）。另一方面，我们的基线是用简单的增强训练的（例如，镜像和随机裁剪），并满足其他作品的Caffe基线，例如[26]中的82.0%和[7]中的78.4%。OSME的重要性OSME在参加歧视性区域中是重要的。对于没有MAMC的ResNet-50，仅使用P= 2的OSME与基线相比可以提供3.2%的性能改进（84.9% vs.81.7%）。使用MAMC时，使用OSME比不使用OSME时的准确度提高了0.5%（使用两个独立的FC层，准确度为86.2%，而不使用OSME时为86.2%）。85.7%）。我们还注意到，两个注意区域（P= 2）导致有希望的结果，而更多的注意区域（P= 3）提供稍好的性能。MAMC约束。应用第一MAMC约束（等式2）。6）使用ResNet-50和OSME时，性能比基线高使用所有三个MAMC约束（等式1）。6、Eq。8）导致另外0.8%的改善。这表明三个MAMC约束中的每一个的有效性复杂性与ResNet-50 基线相比，我们的方法提供了更好的结果（+4.5%），仅多花30%的时间，而类似的方法[10]提供了不太理想的结果，但需要3。比我们多6倍5.2与最新技术水平定量实验结果示于表2b-2 e中。我们首先分析表2b中CUB-200-2011数据集的结果。据观察，使用ResNet-101，我们的方法实现了最佳的整体性能（与MACNN并列）。即使使用ResNet-50，我们的方法也比使用额外注释的第二好方法（PN-CNN）高出0.8%，比没有额外注释的第二好方法（RAM）高出0.2%。对于没有额外注释的弱监督方法，PDFR和MG-CNN从多个尺度进行特征组合，RACNN使用多个交替阶段进行训练，而我们的方法仅使用一个阶段进行训练以获得所有所需的特征。然而，我们的方法优于所有的三种方法分别为2.0%，4.8%和1.2%方法B-CNN和RAN与我们的方法中的OSME共享类似的多分支思想，其中B-CNN将两个CNN特征与外积连接，并且RAN将主干CNN特征与附加的注意力掩码组合。另一方面，我们的方法将OSME应用于一步多注意力特征提取，分别超过B-CNN和RAN 2.4%和3.7%我们的方法在斯坦福狗和斯坦福汽车上表现出类似的性能，如表2c和表2d所示。在Stanford Dogs上，我们的方法超过了除RACNN之外的所有比较方法，RACNN需要多个阶段进行特征提取，并且很难进行端到端的训练。在斯坦福汽车上，我们的方法获得了93.0%的准确率，优于所有的比较方法。最后，在Dogs-in-the-Wild数据集上，我们的方法仍然取得了最好的结果，具有显著的边缘。由于该数据集是新提出的，因此，细粒度图像识别的多注意多类约束13表2：Experimentalreults。“不不。“用于在测试中不使用X测试设备（包括磁盘或部件）的测试。“单级存储”意味着可以在单级存储中存储数据。“Ac c. “不需要备份备份。方法#注意（P）1-阶段加速时间（ms）VGG-19-C79.079.8ResNet-50-C81.748.6ResNet-101-C82.582.7ResNet-50 + OSME2C84.963.3美国有线电视新闻网[10]3×85.3229ResNet-50 + OSME + MAMC（等式1）六、2C85.463.3ResNet-50 + FC + MAMC（等式1）68）2C85.760.3ResNet-50 + OSME + MAMC（等式1）68）2C86.263.3ResNet-50 + OSME + MAMC（等式1）68）3C86.368.1ResNet-101 + OSME + MAMC（等式1）68）2C86.5102.1(a) 我们的方法在CUB-200-2011上的消融分析方法年代一级加速方法年代一级加速DVAN [52] × × 87.1我们的（ResNet-50）×C92.8我们的（ResNet-101）×C93.0(d) 斯坦福汽车方法年代一级加速(b)CUB-200-2011。ResNet-50 [11]×C74.4ResNet-101 [11]×C75.6方法年代一级加速[41]第四十一话××75.7PDFR [51] × × 72.0美国有线电视新闻网[10]××76.5ResNet-50 [11]×C81.1我们的（ResNet-50）×C77.9DVAN [52]××81.5我们的（ResNet-101）×C78.5(e) 《荒野中的狗》我们的（ResNet-50）×C84.8我们的（ResNet-101）×C85.2(c)斯坦福狗。DVAN [52]××79.0DeepLAC [22]CC80.3NAC [35]×C81.0[48]第四十八话C×81.6MG-CNN [40]××81.7ResNet-50 [11]×C81.7美国有线电视新闻网[18]CC82.8[41]第四十一话××82.8MG-CNN [40]C×83.0B-CNN [23]××84.1ST-CNN [14]××84.1FCAN [26]×C84.3PDFR [51]××84.5ResNet-101 [11]×C84.5FCAN [26]CC84.7SPDA-CNN [47]CC85.1美国有线电视新闻网[10]××85.3CNN [2]C×85.4RAM [21]××86.0MACNN [53]×C86.5我们的（ResNet-50）×C86.2FCAN [26]×C89.1ResNet-50 [11]×C89.8[41]第四十一话××91.0B-CNN [23]××91.3FCAN [26]CC91.3ResNet-101 [11]×C91.9美国有线电视新闻网[10]××92.5美国有线电视新闻网[18]CC92.8[41]第四十一话××83.1FCAN [26]×C84.2ResNet-101 [11]×C84.9美国有线电视新闻网[10]××87.314孙明、袁雨辰、周峰、丁二瑞图像基线注意1 注意2图像基线注意1注意二CUB-200-2011斯坦福犬斯坦福汽车公司图6：由OSME检测到的关注区域的可视化。对于每个数据集，第一列示出了输入图像，第二列示出了来自基线ResNet-101的最后一个conv层的热图;第三和第四列示出了通过OSME检测到的两个注意区域的热图。表2e中的结果可用作未来勘探的基线。此外，通过比较表2c和表2e中的整体性能，我们发现对野外狗的准确率显著低于对斯坦福狗的准确率，这证明了该数据集的分类难度相对较高通过采用我们的网络与ResNet-101，我们可视化方程中的Sp4作为其频道方向平均热图，如图6的第三和第四列中所示。相比之下，我们还在第二列中显示了基线网络（ResNet-101）的最后一个conv层的输出作为热图。可以看出，OSME输出的突出显示的区域比基线的那些区域揭示了更有意义的部分，我们人类也依赖于这些部分来识别细粒度标签，例如，鸟的头部和翅膀，狗的头部和尾巴，汽车的头灯/烤架和框架。6结论在本文中，我们提出了一种新的 CNN 与多注意多类约束（MAMC）的细粒度图像识别。我们的网络通过一次挤压多激励（OSME）模块提取注意力感知特征，由MAMC损失监督，该MAMC损失将积极特征拉得更靠近锚，同时将消极特征推开。我们的方法不需要绑定框或部分注释，并且可以在一个阶段中进行端到端的训练对国家的最先进的方法进行了广泛的实验，展示了我们的方法在鸟类，狗和汽车的各种细粒度识别任务此外，我们还收集并发布了Dogs-in-the-Wild，这是一个与现有类似数据集相比数据量最大，类别覆盖全，注释准确的综合犬种数据集。细粒度图像识别的多注意多类约束15引用1. 博萨尔湖Guillaumin，M.古尔，L.V.：Food-101 -使用随机森林挖掘判别成分。In：ECCV（2014）2. Branson，S.，Van Horn，G. Belongie，S.，Perona，P.：使用姿势归一化深度卷积网络进行鸟类分类。电影BMVC（2014）3. Branson，S.，Van Horn，G.Wah，C.，Perona，P.，Belongie，S.：无知的领导下，他的盲目：一个hybrid human-machi n evis is is in s ys temInt. J.来吧。Vis. 108（1-2）、34. 布鲁姆利，J.，古永岛，LeCun，Y.， Sa¨ckinger，E.，是的，R。：Signaturerif icatinunga“Si a m e s e“t i m e d e l a y n e u ra l n e t w o r k. 03 TheDogoftheDog（1994）5. 科洛伯特河Kavukcuoglu，K.，Farabet，C.：Torch7：类似matlab的机器学习环境。In：BigLearn，NIPS workshop（2011）6. 崔， Y. ， Zhou ， F. ，中国科学院院士， Lin ， Y. ，（ 1996 年），Belongie，S.：使用深度度量学习进行细粒度分类和数据集自举，人类参与其中。在：ProceedingsoftheIEEE ConFe RénCeo nConP uterVis iso nandPater n Reg g nitio n中。pp. 11537. 崔，Y.，Zhou，F.，中国科学院院士，王杰，Liu，X.，中国科学院院士，Lin，Y.，（1996年），Belongie，S.：卷积神经网络的核池。在：CVPR（2017）8. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：CVPR（2009）9. 法雷尔河，Oza，O.，Zhang，N.，Morariu，V.I.，Darrell，T.，Davis，L.S.：Birdlets：使用体积基元和姿势归一化外观的从属分类。In：ICCV（2011）10. Fu，J.，郑洪，Mei，T.：看得更近些，看得更清楚：用于细粒度图像识别的递归注意卷积神经网络。在：CVPR（2017）11. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）12. Hochreiter，S.，Schmidhuber，J.：长短期记忆。神经元计算9（8），173513. 胡，J，Shen，L.，Sun，G.：压缩-激励网络。arXiv预印本arXiv：1709.01507（2017）14. Jaderberg，M.，西蒙尼扬，K.，齐瑟曼，A.：空间Transformer网络。In：NIPS（2015）15. Jia，Y.，Shelhamer，E.，Donahue，J.，Karayev，S.，朗J格尔希克河瓜达尔-拉马，S.，达雷尔，T.：Caffe：用于快速特征嵌入的卷积架构In：ACM MM（2014）16. Khosla，A.Jayadevaprakash，N.，Yao，B.，Li，F.F.：用于细粒度图像分类的新数据集：斯坦福狗。In：CVPR Workshops on Fine-GrainedVisual Categorization（2011）17. Krause，J.，Gebru，T.，Deng，J.，Li，L.J.，李菲菲：学习特征和部件以进行细粒度识别。In：ICPR（2014）18. Krause，J.，Jin，H.，杨杰，李菲菲：无需零件注释的细粒度识别。参见：CVPR（2015）19. Krause ， J. ，萨普湾 Howard ， A. ，周， H. ， Toshev ， A. Duerig ， T. ，Philbin，J.，Fei-Fei，L.：噪声数据对细粒度识别的不合理有效性。In：ECCV（2016）20. Krause，J.，斯塔克M. Deng，J.，李菲菲：用于细粒度分类的3D对象表示。In：ICCV Workshops on 3D Representation

下载后可阅读完整内容，剩余1页未读，立即下载