细粒度图像识别中基于三线性注意抽样网络的细节学习

116 浏览量更新于2023-10-18 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5012在细节中寻找魔鬼：学习三线性注意抽样网络的细粒度图像识别郑鹤良1人，付建龙2人，查正军1人，罗杰波3人1中国科学技术大学，合肥，中国2中国北京微软研究院3University of Rochester，Rochester，NY1zhenghl@mail.ustc.edu.cn、zhazj@ustc.edu.cn、2jianf@microsoft.com、3jluo@cs.rochester.edu摘要学习微妙但有区别的特征（例如，鸟的喙和眼睛）在细粒度图像识别中起着重要作用。现有的基于注意力的方法局部化和放大重要部分以学习细粒度细节，这通常受到有限数量的部分和沉重的计算成本的影响。在本文中，我们提出了学习这样的细粒度功能，从数百个部分的建议三线性注意抽样网络（TASN）在一个有效的师生的方式。具体来说，TASN包括1）三线性注意模块，它通过建模通道间关系- s生成注意力地图，2）基于注意力的采样器，以高分辨率突出关注的部分，和3）特征提取器，通过权重共享和特征保留策略将部分特征提取为对象级特征。大量的实验验证了TASN在相同的设置下，在iNaturalist-2017，CUB-Bird和Stanford-Cars数据集中，使用最具竞争力的方法产生最佳性能。1. 介绍细粒度视觉分类（FGVC）专注于区分基本级别类别（例如，鸟[1，34]和汽车[13，20，36]）。尽管用于一般图像识别[14，23]的卷积神经网络（C-NN）[8，15，25]的技术已经变得越来越实用，但FGVC仍然是一项具有挑战性的任务，其中区分细节太微妙而无法由传统CNN很好地表示。因此，细粒度社区中的大多数努力都集中在学习更好地表示这种微妙而有区别的细节。现有的基于注意力/部分的方法[2，7，33，40]试图通过学习部分检测器、裁剪来解决这个问题。这一工作是在郑和良作为研究实习生访问微软研究院时完成的†通讯作者。图1.一个学习辨别性细节的例子，由TAS- N为如（b）所示，TASN通过将每个细节上采样为高分辨率来学习这些微妙的细节。（c）中的白色同心圆表示细粒度的细节。以及放大被关注的部分，并连接部分特征以用于识别。虽然已经取得了令人鼓舞的业绩，但在这样的管道中存在几个关键问题。具体而言，1）注意力的数量是有限的和预定义的，这限制了模型的有效性和灵活性。2)没有部件注释，很难学习多个一致的（即，注意每个样本的相同部分）注意力图。虽然精心设计的初始化[7，16，40]可以使模型训练受益，但它并不稳健，并且无法处理具有不常见姿势的情况此外，3）为每个部分训练CNN效率不高。这些问题成为基于注意力方法研究的瓶颈。为了解决上述挑战，我们提出了一个三线注意力抽样网络（TASN），它从数百个零件提案中学习细粒度的细节，并有效地将学习到的特征提取到一个卷积中。5013神经网络建议TASN由一个三线性注意模块，一个基于注意力的采样器，和一个功能蒸馏器。首先，三线性注意力模块以特征图为输入，通过自三线性积生成注意力图，该自三线性积将特征通道与它们的关系矩阵结合起来。由于特征图的每个通道都被转换为注意力图，因此可以提取数百个其次，基于注意力的采样器将注意力图和图像作为输入，并以高分辨率突出显示关注的部分。具体地，对于每次迭代，基于注意力的采样器基于随机选择的注意力图生成细节保留的图像，并且基于平均注意力图生成结构保留的图像前者学习特定零件的细粒度特征，后者捕获全局结构并包含所有重要细节。最后，进一步将一个部分网和一个主网分别表示为部分网络从细节保留的图像中学习细粒度特征，并将学习到的特征提取主网络将结构保留图像作为输入，并在每次迭代中细化特定部分（由部分网络引导）。这种蒸馏是通过权重共享和特征保留策略来实现的。注意，我们采用了[10] 而不是连接零件特征，因为零件号很大并且没有预定义。由于特征提取器通过优化参数将知识从部分网络转移到主网络，1）随机细节优化（即，在每次迭代中随机优化一个零件），这使得从数百个零件建议中学习细节变得实用，以及2）由于我们可以在测试阶段使用主网络来执行识别，因此可以获得有效的推理据我们所知，这项工作首次尝试从数百个零件提案中学习细粒度特征，并用单个卷积神经网络表示这些零件特征我们的贡献总结如下：• 我们提出了一种新的三线性注意力抽样网络（TASN），从数百个零件提案中学习细微的特征表示，以进行细粒度的信息提取。年龄识别• 我们建议以师生合作的方式优化TASN，其中细粒度的特征可以被提取到一个高效率的主网络中。• 我们进行了广泛的实验上的三个建模- ING数据集（iNaturalist，CUB鸟类和斯坦福汽车），并证明了TASN优于部分-集成模型，即使只有一个流。本文的其余部分组织如下。我们在第二节描述了相关的工作，并在第三节介绍了我们提出的TASN模型。对三个广泛使用的数据集的评价见第4节，结论见第5节。2. 相关作品注意机制：由于细微但有区别的细节在细粒度图像识别中起着重要作用，因此学习关注有区别的部分是最受欢迎和最有前途的方向。因此，近年来提出了各种注意力机制[7，19，26，35，40]。DT-RAM [19]提出了一种用于递归视觉注意的动态计算时间模型，该模型可以动态地参与最具辨别力的部分RA-CNN [7]提出了一种递归注意力卷积神经网络，用于在多个（即，3)鳞片MA-CNN [40]进一步生成多个（即，4）通过设计通道分组模块，实现了单尺度的一致性注意然而，注意数字（即，1，3，4）是预先定义的，这不利于模型的有效性和灵活性。同时，在视觉问答和视频分类中提出了高阶注意方法。具体来说，BAN [12]提出了一个双线性注意力模块来处理图像区域- s和相关单词之间的关系，Non-local [30]计算特征的点生成来表示视频帧中的空间和临时关系。与这些工作不同的是，我们的三线性注意力模块进行双线性池，以获得特征通道之间的关系，这是进一步利用这些功能集成，以获得三阶注意力地图。自适应图像采样：为了保留精细的识别细节，需要高输入分辨率（448 × 448 vs. 224×224）被广泛采用[5，33，40]，它可以显著提高性能[5]。然而，高分辨率-求解带来了巨大的计算代价。更重要的是，不同区域的重要性是不同的，而直接放大图像不能保证不同区域具有不同的分辨率。[11]提出了一种非均匀采样机制，该机制在MNIST数据集上表现良好[17]。但在没有明确指导的情况下，很难学习非均匀采样参数以用于诸如细粒度识别的复杂任务，因此他们最终学习了两个没有非均匀采样的部分。SSN [22]首先提出使用显著图作为非均匀采样的指导，并取得了显著的改进。与他们不同的是，我们的注意力采样器1)基于三线性注意图进行非均匀采样，以及2）将注意图分解为二维以减少空间失真效应。知识提炼：知识提取是由Hinton等人首先提出的。[10]将知识从集合或从大型高度正则化模型转移到较小的蒸馏模型中。主要思想是利用软目标-s（即，集合/大模型的预测分布）来优化小模型，因为它包含更多的信息，5014B图2.三线性注意力抽样网络（Trilinear Attention Sampling Network，TASN）（b）中的三线性注意力模块将卷积特征映射（表示为“conv”）作为输入，并生成注意力映射（表示为“att”）。（c）中的注意力采样模块进一步将注意力图以及原始图像作为输入以获得采样图像。具体地，在注意力图上进行平均池化和随机选择（在每次迭代中），以分别获得（d）中的结构保留图像和（e）中的细节保留图像。部分网络（绿色）从（e）学习细粒度特征，并生成一个软目标，通过软目标交叉熵将这些特征提取到主网络（蓝色）中。[Best颜色查看]比一个热门标签。这样一个简单而有效的想法启发了许多研究人员，并得到了进一步的研究[9，38]。在本文中，我们采用这种技术来提取学习的细节从部分网到主网。3. 方法在本节中，我们将介绍所提出的三线性张力采样网络（TASN），它能够通过单个卷积神经网络表示丰富的细粒度特征。TASN包含三个模块，即，一个用于细节定位的三线注意模块，一个用于细节提取的基于注意的采样器，和一个用于细节优化的特征提取器。图2中显示了所提出的TASN的概述。给定（a）中的输入图像，我们首先将其通过几个卷积层以提取特征图，其进一步通过（b）中的三线性注意模块为了学习特定部分的细粒度特征，我们随机选择一个注意力图，并使用所选择的注意力图对输入图像进行注意力采样。（e）中的采样图像被称为细节保留图像，因为它可以以高分辨率保留特定细节。此外，为了捕获全局结构并包含所有重要细节，我们对所有注意力图进行平均并再次进行注意力采样，这样的采样图像在（d）中被称为结构保留图像。我们进一步制定了一个部分网络来学习细节保留图像的细粒度表示，和一个主网络来学习结构保留图像的最后，部分网络生成软目标，通过软目标交叉熵将细粒度特征提取到主网络中[10]。3.1. 基于三线性注意的细节定位在本小节中，我们将介绍我们的三线性注意力模块，它将卷积特征映射转换为注意力映射。如先前的工作[24，39]所示，卷积特征的每个通道对应于视觉模式，然而，由于缺乏一致性和鲁棒性，这种特征图不能用作注意力图[32，40]。受[40]的启发，我们通过根据空间关系整合特征通道将特征图转换为注意力图注意，这样的过程可以在三线性公式中实现，因此我们称之为三线性注意模块。给定一个输入图像I，我们通过将其馈送到多个卷积层、批量归一化层、ReLU层和池化层来提取卷积特征。具体来说，我们使用resnet-18 [8]作为主干。为了获得用于精确定位的高分辨率此外，为了提高卷积响应的鲁棒性，我们通过添加两组具有多个膨胀率的膨胀卷积层来增加视野[3在训练阶段，我们添加了一个软最大分类器来优化这种卷积特征。假设特征图是一个尺寸为c×h×w的管道，其中c、h和w分别表示通道我们将该特征重新塑造成一个形状为c×hw的矩阵，表示为X∈Rc×hw。那么我们的三线性函数基本上公式为：M（X）：=（XXT）X，（1）其中XXT是双线性特征，其指示s-5015重塑不同注意力地图上的均匀采样hRcWChwXXTXXTXXTX转置点积Is=S（I，A（M）），Id=S（I，R（M）），（3）XC21XXT XC21XXTC21图3.三线性积的一个例子 X表示卷积特征图，我们可以通过XX T获得通道间的关系。然后，通过在XXT和X上进行点产生，将每个特征图与其相关的特征图进行整合，得到三线性注意力图。渠道之间的空间关系具体地，Xi是特征图的第i个通道，并且XXTi ，j指示通道i和通道j之间的空间关系。为了使特征图更加一致和鲁棒，我们通过在XXT和X上进行点生成来进一步将空间关系整合到特征图中，从而可以获得三线性注意力图（如图3所示）。我们进一步研究了不同的规范化方法，以提高三线性注意的有效性，详细的讨论可以在第4.2节中找到。最后，我们采用以下标准化三线性注意：M（X）：=N（N（X）XT）X，（2）其中M是采样映射，S（·）表示非均匀采样函数，A（·）表示在信道上的垂直池，R（·）表示从输入中随机选择信道我们计算所有的平均值注意力图来指导结构保持采样，因为这样的注意力图考虑了所有的区别部分。并随机选取一张关注图进行细节保留采样，从而以高分辨率保留该关注区域的细粒度细节随着训练过程的进行，所有的注意力图都有机会被选择，因此不同的细粒度细节可以被异步细化。基于注意力的抽样的基本思想是将注意力图看作概率质量函数，其中具有大注意力值的区域更有可能被抽样。受逆变换[6]的启发，我们通过计算离散函数的逆函数来实现采样。此外，我们将注意力地图分解为两个维度，以减少空间失真的影响。以结构保持采样为例，我们首先计算结构保持的吸光度映射A（M）在x和y轴上的积分：Σn其中N（·）是矩阵的第2维上的一个x范数分解的注意，这两个标准化-Fx（n）：=Max1≤i≤wj=1ΣnA（M）i，j，（四）函数有不同的含义：第一个N（X）是空间归一化，其保持每个通道的FEA，Fy（n）：=i=1maxA（M）i，j，1≤j ≤h同一比例尺下的真实地图。第二种是关系归一化，它是在每个关系上进行的。关系向量（N（X）XT）。我们表示输出其中w和h是注意力的宽度和高度。不是我们用的是一个有趣的方法-我方程2中的三线性函数M ∈Rc×hw，即，把注意力地图分成两个维度，因为它这是一个很大的问题，因为它是一个很大的问题。我们可以更进一步M=M（X）。最后，我们将M重塑为c × h × w的形状，因此M的每个通道表示一个注意力映射Mi∈ Rh× w。3.2. 基于注意抽样的细节抽取在本小节中，我们介绍了我们的基于注意力的采样器，它将图像和三线性注意力图作为输入结构保留图像捕获全局结构并包含所有重要细节。与原始图像相比，保留结构的方法去除了图像中没有细粒度细节的区域，从而能够以高分辨率更好地表示出图像中的可区分部分细节保留图像聚焦于单个零件，可以保留更多的细粒度细节。给定图像I，我们通过进行非线性变换来获得结构保留图像Is和细节保留图像IdR5016Fx（i）， Fy（j）通过以下方式获得采样函数S（I，A（M））i，j= I −1 −1.（五）其中F−1（·）表示F（·）的逆函数。总之，注意力地图用于计算原始图像的坐标与采样图像。这种采样机制如图4所示。给定（a）中的注意力地图，我们首先通过计算x轴（b1）和y轴（b2）上的最大值将地图分解为二维。然后求出（b1）和（b2）的积分，我们进一步以数字方式计算（c1）和（c2）的反函数，即，我们在y轴上均匀地采样点，并沿着红色箭头（如（c1）和（c2）所示）和蓝色箭头获得x轴上的值(d)显示5017SDs图4.一个基于注意力的非均匀采样的例子(a)是一个高斯分布的注意力地图。(b1)和（b2）分别是x和y轴上的边缘分布。(c1)和（c2）是边缘分布的积分。(d)用蓝点表示采样点，（e）表示采样图像。[Best以放大的颜色查看。]采样点由蓝点表示，我们可以观察到，具有大关注值的区域被分配了更多的采样点。最后，（e）示出了采样图像的结果请注意，图4中的示例是一个结构保留的采样情况。3.3. 基于知识提取在这一小节中，我们介绍了我们的细节蒸馏器，它以细节保留图像和结构保留图像作为输入，并以师生方式将学习到的细节从部分网络传输到主网络。具体地，对于每次迭代，在第3.2节中引入的基于注意力的采样器可以提供结构保留的图像（表示为Is）和细节保留的图像（表示为Id）。我们首先通过将这两个图像馈送到相同的骨干CNN（例如，Resnet-50 [8]）。fc输出分别表示为zs和zd。然后，以zs为例：exp（z（i）/T）表1.详细统计了本文使用的三个数据集数据集#类#火车测试次数[34]第34话2005,9945,794斯坦福汽车[13]1968,1448,041[27]第二十七话5,089579,18495,986其中Lcls表示分类损失函数，y是指示类别标签的独热向量，并且λde-表示两个项的损失权重软目标交叉熵的目的是提取细粒度细节的学习特征，并将这些信息传输到主网络。由于基于注意力的采样器在每次迭代中随机选择一个部分，因此所有细粒度的细节都可以在训练过程中提取到主网络。请注意，部分网络和主网络共享卷积参数，这对提取很重要，而全连接层的共享是可选的。4. 实验4.1. 实验装置数据集：为了评估我们提出的TASN的有效性，我们在三个广泛和有竞争力的数据集上进行了实验，即Caltech-UCSD Birds（CUB-200-2011）[34]，斯坦福汽车[13]和iNaturalist-2017[27]。分类数和标准训练/测试划分的详细统计数据见表1。iNaturalist-2017是细粒度任务的最大数据集。与本任务的其他数据集相比这样的数据分布可以为模型的泛化能力提供更有说服力的评价。基线：我们将我们的方法与以下基线进行了比较，因为它们具有最先进的性能和高度的相关性。请注意，为了公平比较，我们没有包括使用1）额外数据（来自网络或其它数据集），2）人工注释的部件位置和3）分层标签（即，种、属和科）。和q（i）=JSexp（z（j）/T）、（6）除非另有说明，否则每个表中的所有比较方法共享相同的主干。其中T是参数，即温度，对于分类任务通常将其设置为1。而在知识提取中，大的T值很重要，因为它可以在类上产生软概率分布。我们获得主网络的软目标交叉熵[10]为：ΣNLsoft（qs，qd）=− q（i）logq（i），（7）i=1其中N表示类别编号。最后，主网络的目标函数可以由下式驱动：L（Is）=Lcls（qs，y）+λLsoft（qs，qd），（8）• FCAN [21]：全卷积注意力网络，通过再学习自适应地选择多个注意力。• MDTP [31]：挖掘补丁的判别三元组，其利用几何约束来提高补丁定位的准确性。• DT-RAM [19]：递归视觉注意的动态计算时间模型，它通过动态步骤关注最具辨别力的部分。• SSN [22]：基于显着性的采样网络，基于显着性以端到端的方式映射。S5018表2.在CUB-200-2011数据集上对注意力模块的识别准确性进行消融实验。表3.在CUB-200-2011数据集上就分类准确性而言，对采样模块进行消融实验方法主网TASNResnet-50 [8]81.681.6均匀取样器84.185.8[22]第二十二话84.885.3我们的采样器85.587.0• MG-CNN[29]：多粒度描述符，表4.对不同输入分辨率的提取模块进行烧蚀实验。它利用分层标签来生成COM-冗长的描述词。• 空间Transformer网络，用于进行参数化空间变换，以获得放大或姿态归一化的对象。• RA-CNN [7]：循环注意力CNN，它在多尺度中循环地关注有区别的部分。• MA-CNN [40]：多注意力CNN，它以弱监督的方式通过他们提出的通道分组模块在多个部分上进行注意。• MAMC [26]：多注意力多类约束网络，它通过行为学习多个注意力对关注特征执行多类约束• NTSN [37]：导航-教师-审查网络，这是一种新型的自我监督机制，可以有效地定位信息区域，而无需边界框/零件注释。• iSQRT-COV [18]：通过迭代矩阵平方根归一化实现全局协方差池网络实施情况：我们使用开源的MXNet [4]作为代码库，并在8个Tesla P-100 GPU上训练所有模型。骨干是在Imagenet上预先训练的[23]，所有性能均为单作物测试结果-特征图。N（X）XTX和N（XXT）X的注意函数都能提高三线性注意的增益N（X）N（X）TX和N（XXTX）会导致性能下降，因为这样的归一化函数对于保存空间信息。为此，我们采用TASN中的最后一个设置（表2）请注意，在ter-mN（X）XT，N（X）表示通道聚焦的区域，XT表示该区域的特征我们进一步比较了我们的三线性注意力模块与具体来说，我们遵循[28]通过XTX获得注意力地图，结果表明三线性注意力模块可以优于自我注意力模块增加了0.7%。基于注意力的采样器为了证明我们基于注意力的采样机制的有效性，我们将我们的采样机制与1）均匀采样（通过二值化注意力地图）和2）SSN [22]中引入的我们设置输入注意力地图是相同的，当比较采样机制，并进行实验，在两种情况下，即，与除非特别说明，否则为单一型号。我们用S-没有动量和权重衰减的GD优化器，批量大小设置为96。等式6中的温度为10，等式8中的失重λ为2。更多的实现细节可以参考我们的代码https://github.com/researchmm/tasn。4.2. CUB 2002011评析三线注意力表2显示了不同归一化函数对部分网络识别准确性的影响。具体来说，我们随机选择一个在训练阶段的每一次迭代中对注意力图进行通道划分所有模型都使用Resnet-50作为主干，输入分辨率为224。可以观察到，三线注意力地图可以显著优于原始注意力地图没有部分网。所有模型都使用Resnet-50作为主干，输入分辨率设置为224。表3中的结果表明，我们的采样机制明显优于基线。SSN采样器比不加分网的均匀采样器取得了更好的效果，而加分网后，进一步的改善受到限制。这些观察结果表明，SSN采样器所造成的空间失真对保持微妙的细节是有害的。知识提炼。表4显示了不同输入分辨率的细节提取模块的影响。我们可以通过细节提取观察一致性改进Resnet-50 [8]的性能饱和到85.6%，448输入无法进一步提高精度。没有蒸馏器（即，仅限主网络），392输入（与336输入相比）的性能略有下降，因为很难用大特征分辨率优化每个细节关注描述精度X特征图83.5XXT X三线性注意84.9N（X） XT X空间范数85.2N（X）N（ X） T空间范数84.3N（XXT X）空间范数84.5N（XXT） X关系规范85.0N（N（X）XT） X空间+关系85.3决议224280336392Resnet-50 [8]主网81.685.583.386.685.087.085.686.8TASN87.087.387.987.95019图5.（a）中的特征映射X和（b）中的三线性注意力映射N（N（X） XT） X的比较每一列都显示了相同通道的特征图和三线性注意力图，我们随机选择了9个通道进行比较。与一阶特征图相比，三线性注意力图的每个通道都专注于特定的部分，而不关注背景噪声。[最佳颜色]表5.在CUB-200-2011数据集上与基于采样的方法在分类准确性方面的比较。方法决议精度Resnet-50 [8]22481.6Resnet-50 [8]44885.6DT-RAM [19]22482.8SSN [22]22784.5TASN（我们的）22487.0解决方案（在具有672个输入的Resnet-50上也可以观察到类似的下降）。此外，为了研究注意选择策略（即，排名选择与随机选择）时，对注意力图按响应排序，并对响应高的可能性大的注意力图进行抽样，识别率从87.0%下降到86.8%。原因是排名使一些部分很少被选中，而这些部分也有利于细节学习。我们还进行了每次迭代提取两个部分的实验，结果与每次提取一个部分相同。与基于抽样的方法相比。我们将TASN与三种基于采样的方法进行比较：1）具有高分辨率的均匀采样（即，放大），2）表6.在CUB-200-2011数据集的分类准确性方面，与基于部分的方法（所有结果均在高分辨率设置下报告）进行方法骨干精度[29]第二十九话3×VGG-1681.7[11]第十一话3×Inception-v284.1美国有线电视新闻网[7]3×VGG-1985.3美国有线电视新闻网（CNN）3×VGG-1985.4TASN（我们的）1×VGG-1986.1TASN（我们的）3×VGG-1987.1MAMC [26]1×Resnet-5086.5[第37话]3×Resnet-5087.3TASN（我们的）1×Resnet-5087.9（用不同的参数设置训练），TASN可以将性能提高1.9%，超过最好的3部分模型MA-CNN [40]。此外，我们的3流结果也优于6流MA-CNN（86.5%），边际为0.7%。我们没有集成更多的流，因为模型集成超出了这项工作。对于基于Resnet-50的方法：与最先进的单流MAMC相比，注意的均匀采样（即，作物）和3）SSN中提出的非均匀抽样[22]。如表5所示，更高的分辨率可以显著提高细粒度识别性能，相对提高4.9%。然而，448输入增加了计算成本（即，触发器）相比224输入增加了四倍。SSN [22]比DT-RAM [19]获得了更好的结果，我们的TASN可以进一步获得2.9%的相对改善。这些改进主要来自两个方面：1）考虑空间失真的更好的采样机制（1.2%）; 2）更好的细粒度细节优化策略（1.7%）。与基于注意力的部分方法相比。在表6中，我们将我们的TASN与基于注意力的部分方法进行了比较。为了公平比较，1）所有方法都采用高分辨率输入，2）使用相同的骨干编号可以观察到，对于基于VGG的方法-s，我们的TASN性能优于所有基线，即使只有一个骨干。此外，在整合了三个骨干5020[26]，我们的TASN实现了1.6%的显着改善。此外，尽管NTSN [37]（K=2）将全局特征与两部分特征连接，但我们的单流TASN仍然可以实现0.6%的点增加。结合二阶特征学习方法。在表7中，我们展示了我们的TASN学习了一个强大的一阶表示，这可以进一步提高二阶特征方法的性能。具体而言，与最好的二阶方法iSQRT-COV [18]相比，我们的TASN 2k一阶特征优于其8 k特征，提高了0.7%，这表明了我们的TASN的有效性。此外，我们将它们的发布代码转移到我们的框架中，并获得了89.1%的准确率，这表明这两种方法的兼容性S.请注意，为了进行公平的比较，我们遵循他们的设置，并通过平均图像及其水平翻转的预测得分来预测测试图像的标签5021表7.结合二阶特征学习方法的广泛实验方法尺寸精度[18]第十八话8k87.3[18]第十八话32k88.1TASN（我们的）2k87.9TASN + iSQRT-COV32k89.1表8.在Stanford-Car数据集上分类准确性方面的成分分析方法骨干精度基线1×VGG-1988.6主网1×VGG-1990.3TASN1×VGG-1992.4TASN（集成）2×VGG-1993.1TASN（集成）3×VGG-1993.2表9.在Stanford-Car数据集上的分类准确性比较。方法骨干精度FCAN [21]3×VGG-1691.3MDTP [31]3×VGG-1692.5美国有线电视新闻网[7]3×VGG-1992.5美国有线电视新闻网（CNN）3×VGG-1992.6TASN（我们的）1×VGG-1992.4TASN（我们的）3×VGG-1993.2MAMC [26]1×Resnet-5092.8[第37话]3×Resnet-5093.7TASN（我们的）1×Resnet-5093.84.3. Stanford Car评价与分析表8显示了VGG-19基线、我们的主网、单个TASN模型和TASN集合结果的结果我们可以观察到1.9%的结构保留抽样的相对改善和2.3%的进一步改善的完整模型。表9比较了TASN与基于注意力的部分方法。具体地，具有单个VGG-19的TASN实现了与3流部分方法相当的结果S.我们的集成3流TASN优于最好的3流部分学习方法MA-CNN [40]。与他们的5个流结果（92.8%）相比，我们的结果仍然更好。对于基于Resnet-50的方法，我们将我们的TAS- N与最先进的方法MAMC [26]进行了比较，并实现了1.1%的改进。此外，我们的单流TASN可以实现比NTSN [37]稍好的性能，NTSN将全局特征与两部分特征连接起来4.4. iNaturalist 2017评测与分析我们还在最大的细粒度数据集上进行了TASN，即，iNaturalist 2017.我们比较了Resnet [8]基线和最佳采样方法SSN [22]。所有的表10.在iNaturalist 2017数据集上的分类准确性比较。超类#类雷斯内[8]SSN [22]TASN植物界210160.363.966.6昆虫纲102169.174.777.6Aves96459.168.272.0爬行纲28937.443.946.4哺乳纲18650.255.357.7真菌12162.564.270.3两栖纲11541.850.251.6软体动物9356.961.564.7动物界7764.867.871.0蛛形纲5664.873.875.1辐鳍亚目5357.060.365.5色目957.657.662.5原生动物478.179.579.5总508959.665.268.2模型使用Resnet-101作为主干，输入分辨率为224。由于该数据集中有13个超类，我们使用其发布的代码重新实现SSN [22]，以获得每个超类的性能。结果如表10所示，我们可以观察到TASN在每个超类上都优于Resnet基线和SSN。值得注意的是，与Resnet-101相比，TASN显著提高了性能，特别是在Reptilia（相对提高了24.0%）和Aves（相对提高了21.8%）上，这表明此类超类包含更多细粒度的细节。5. 结论本文提出了一种三线性注意抽样网络用于细粒度图像识别，它可以从数百个零件命题中学习到丰富的特征表示。我们采用知识提取的方法将细粒度的特征整合到一个流中，而不是将多个部分的CNN集成在一起，这不仅是高效的，而且是有效的。在CUB-Bird、iNat- uralist 2017和Stanford-Car中进行的大量实验表明，即使使用单一流，TASN也能够优于部分集成模型。今后，我们将从以下几个方面进一步研究所提出的TASN： 1）注意力选择策略，即，学习选择哪些细节应该被学习和提取，而不是随机选择，2）在卷积特征上而不是仅在图像上进行基于注意力的采样，以及3）将我们的工作扩展到其他视觉任务，例如，目标检测和分割。鸣谢：本工作得到了国家重点&研发计划项目2017YF-B1300201、国家自然科学基金项目61622211和61620106009的资助，中央大学基础研究基金WK2100100030。5022引用[1] Thomas Berg，Jiongxin Liu，Seung Woo Lee，MichelleL Alexander，David W Jacobs，and Peter N Belhumeur.鸟快照：对鸟类进行大规模的细粒度视觉分类在CVPR中，第2011-2018页，2014年。1[2] 史蒂夫·布兰森，格兰特·范霍恩，谢尔盖·J。贝隆吉和皮埃特罗·裴罗纳。使用姿势归一化深度卷积网络进行鸟类分类。InBMVC，2014. 1[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，40（4）：8343[4] Tianqi Chen ， Mu Li ， Yutian Li ， Min Lin ， NaiyanWang，Minjie Wang，Tianjun Xiao，Bing Xu，ChiyuanZhang，and Zheng Zhang. Mxnet：一个灵活高效的异构分布式系统机器学习库 arXiv 预印本 arXiv ：1512.01274，2015。6[5] Yin Cui，Yang Song，Chen Sun，Andrew Howard，andSerge Belongie.大规模细粒度分类和特定领域迁移学习。在CVPR中，第4109- 4118页，2018年。2[6] 卢克·德罗伊。基于样本的非均匀随机变量生成。WSC，第260-265页。ACM，1986年。4[7] 傅建龙，郑和良，陶梅。近看才能看得更清楚：用于细粒度图像识别的循环注意力卷积神经网络。在CVPR中，第4438一二六七八[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。一、三、五、六、七、八[9] Byeongho Heo，Minsik Lee，Sangdoo Yun和Jin YoungChoi。支持决策边界的对抗样本知识提取。CoRR，abs/1805.05532，2018。3[10] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。stat，1050：9，2015. 二三五[11] Max Jaderberg，Karen Simonyan，Andrew Zisserman，and koray kavukcuoglu. 空间 Transformer 网络。参见NIPS，第2017-2025页，2015年。二六七[12] Jin-Hwa Kim，Jaehyun Jun，and Byoung-Tak Zhang.双耳注意力网络。在NIPS，第1571-1581页，2018年。 2[13] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3D对象表示。在ICCV研讨会，2013。一、五[14] Alex Krizhevsky Vinod Nair和Geoffrey Hinton。CIFAR-10 数据集。在线： http ： //www. CS. 多伦多 e-du/kriz/cifar。html，2014. 1[15] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。在NIPS中，第1106-1114页，2012年。1[16] Michael Lam、Behrooz Mahasseni和Sinisa Todorovic。细粒度识别作为hsnet搜索信息图像部分。在CVPR中，第6497-6506页。IEEE，2017年。1[17] 我是勒村，我是博图，我是贝吉奥，还有帕崔克·哈夫纳。基于梯度的学习应用于文档识别nition. Proceedings of the IEEE ， 86 （ 11 ）： 2278-2324，1998. 2[18] Peihua Li，Jiangtao Xie，Qilong Wang，and Zilin Gao.用迭代矩阵平方根归一化法快速训练全局协方差池网络.在CVPR中，第947-955页，2018年。六七八[19] 李志超、杨毅、小刘、周峰、文石磊、徐伟。视觉注意力的动态计算时间。在ICCV，第1199-1209页，2017年。二、五、七[20] Xinchen Liu，Wu Liu，Huadong Ma，and Huiyuan Fu.城市监控视频中的大规模车辆再识别。在ICME中，第1-6页。IEEE，2016. 1[21] 小刘、天夏、王江、易阳、周峰、林元庆。用于细粒度识别的完全卷积注意力网络。arXiv预印本arXiv：1603.06765，2016。五、八[22] Adria Recasens 、 Petr Kellnhofer 、 Simon Stent 、Wojciech Matusik和Antonio Torralba。学习缩放：一个基于显着性的神经网络采样层。参见ECCV，第51-66页，2018年。二五六七八[23] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。IJCV，115（3）：211-252，2015.1、6[24] MarcelSimon和ErikRodnerNeuralactivationconstellations ： Unsupervised part model discovery withconvolutional networks.在ICCV，第1143-1151页，2015年。3[25] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络ICLR，第1409-1556页，2015年1[26] 孙明，袁雨辰，周峰，丁二瑞。细粒度图像识别的多注意多类约束参见ECCV，第805-821页，2018年。二、六、七、八[27] Grant Van Horn、Oisi

下载后可阅读完整内容，剩余1页未读，立即下载