选择性稀疏采样网络：一种用于细粒度图像识别的有效框架

53 浏览量更新于2023-10-13 收藏 3.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6599类峰值响应类响应映射保留上下文的细粒度特征输入图像判别互补支行支部用于细粒度图像识别Yao Ding†§ †，Yanzhao Zhou† †，Yi Zhu†，Qixiang Ye†§‡ and Jiabin Jiao†‡†中国科学院大学，中国§中国深圳鹏程实验室{dingyao16，zhouyanzhao215，zhuyi215}@ mails.ucas.ac.cn，{jiaojb，qxye}@ucas.ac.cn摘要细粒度识别提出了在相当大的类内差异（例如，鸟类的喙）。传统的方法裁剪局部区域并从这些区域中学习详细的表示，但是遭受固定数量的部分和周围上下文的缺失。在本文中，我们提出了一个简单而有效的框架，称为选择性稀疏采样，捕捉不同的和细粒度的细节。该框架使用卷积神经网络来实现，称为选择性稀疏采样网络（S3N）。利用图像级的超视，S3N收集峰值，即，局部最大值，来自类解析注意选择性采样响应图，以估计信息接收域，并学习一组稀疏注意力，用于捕获精细详细的视觉证据以及保存上下文。证据被选择性地采样以提取区分性和互补性特征，这显著地丰富了所学习的表示并引导网络发现更微妙的线索。大量的实验和烧蚀研究表明，所提出的方法始终优于国家的最先进的方法上具有挑战性的基准，包括CUB-200-2011，FGVC飞机，和斯坦福汽车1。1. 介绍细粒度识别是指识别图像中基本级别类别下的子类别，鸟类[24]，花卉品种[19]，汽车模型[10]和飞机类型[15]。与一般的图像分类相比，由于类间图像的细微差别，细粒度识别更具挑战性认知神经科学的研究[8，16]发现，在理解一个场景时，人类视觉系统会经历三个阶段。这些阶段包括视觉‡通讯作者。*同等贡献。1源代码发布于https://github.com/Yao-DD/S3N.git图1.选择性稀疏采样网络（S3N）从类峰值响应中学习稀疏注意，这通常对应于信息对象部分。稀疏注意力选择性地以概率方式将图像采样到两个分支，以产生区分性和补充性视觉证据的丰富表示。覆盖在图像上的白色网格指示用于可视化目的的稀疏注意采样。最好用彩色观看。扫视激活显著区域，视觉搜寻选择感兴趣区域，以及视觉注视注视局部区域以做出最终决定。受此启发，以前的工作[31，7，13，6，30，20]的重要路线通过两个主分量来解决细粒度图像识别问题，即，区分本地部分定位和ROI2特征提取。然而，主要缺点有三个方面：1）在图像级监督下对零件边界框的精确估计仍然是一个开放的问题，并且经常诉诸于复杂和耗时的流水线，例如，弱监督检测模型[33，29]、循环挖掘[3]或再强化学习[12]。2）局部化部分的数量通常是预定义的超参数，其是固定的（例如，四个部分[29]）并且不适应图像内容。3)最后但并非最不重要的是，2通常由边界框定义的感兴趣区域。6600每个局部区域的周围背景限制了所得到的特征的表达能力，特别是当发生定位错误时。在本文中，我们通过提出选择性稀疏采样框架来解决细粒度识别的问题，图1。我们的方法模仿人类的视觉系统来预测一组动态的稀疏注意的图像内容的条件。每个注意力集中在一个信息区域，以估计适当的规模和捕捉精细详细的视觉证据，而不会丢失的上下文信息。MA-CNN[33]我们的方法剪切区域判别分支补充分支使用卷积神经网络（CNN）实现的所提出的框架被称为S3N。S3N是用图像级监督训练的，即，对象类别。我们首先收集类峰值响应，即局部最大值来自类响应图[34，35]，作为包含感兴趣对象的视觉线索的信息感受野的估计。然后，我们估计每个识别的类峰值响应的规模，以形成一组稀疏注意力。得到的稀疏参加部分被用于通过非齐次变换来选择性地对图像进行采样，以突出相应的区域，并引导网络学习鉴别特征和互补特征。与传统的方法相比，我们的方法简单而有效。通过利用CNN学习的表示，即，类峰值响应，我们的方法不需要额外的监督，但可以准确地定位信息区域（见第二节。4.1）。此外，稀疏关注部分的数量是动态的并且取决于图像内容。因此，所提出的框架更加灵活，可以应用于不同的领域，鸟、飞机和汽车，而无需为每个特定任务调整超参数。此外，S3N以“软”方式突出显示信息区域，这有助于捕获细粒度特征以及保留上下文信息，从而实现超过基线的显著性能增益。二、本文的主要贡献包括：• 开发了一种新的选择性稀疏采样框架，通过学习一组具有挑战性的细粒度图像识别问题稀疏的注意力，选择性地采样信息区域，并提取歧视性和互补的功能，同时保留上下文信息。• 我们的方法与流行的CNN（如ResNet50）的实施表明，与模型ac的基线相比，有了实质性的改进。准确性和挖掘视觉证据的能力。• 全面的实验分析，以及新的国家的最先进的性能，常见的细粒度识别基准，包括CUB-200-2011 Birds，FGVC-Aircraft，and Stanford Cars.图2.裁剪固定数量的对象部分通常涉及超参数并丢失上下文。我们的方法对稀疏注意力的动态数量进行采样，以编码具有区分性和互补性的细粒度视觉证据，同时保留周围的上下文信息。2. 相关工作在本节中，我们简要回顾了以前的工作，从特征学习和判别区域定位的角度细粒度特征学习：学习代表性特征对于细粒度图像识别至关重要。深度特征[11，23，5]对于一般图像识别任务已经实现了前所未有的性能，但对于细粒度图像识别，它们不太令人满意。在[14]中，Linet al.认为，细粒度分类的功能的有效性是由于他们的位置和姿势的对象的不变性。他们提出了一种双线性框架，这是一种无序的纹理表示，并捕获本地化的功能相互作用，在一个translationally不变的方式。Gao等人[4]将双线性模型更新为紧凑的结构，可以将特征维数降低两个数量级Kong等人[9]使用双线性分类器代替双线性特征，这提高了计算效率，并减少了要学习的参数的数量。特征学习方法主要集中于探索用于对象表示的不变特征，但通常忽略了区分区域的空间分布，这限制了它们在面对显著变形的对象时的性能。我们的S3N增强了采样稀疏注意力的局部特征，自然实现了空间信息的编码。区分区域定位：这些方法通常包括两个阶段：1）定位对象部分并裁剪固定数量的局部区域。2)从这些受限部分提取特征并聚集所有特征用于最终识别。许多早期的研究集中在使用边界框和部分注释定位用于细粒度识别的虽然有效，但是这种监督注释的获得是昂贵的6601主干重用判别损失输入图像12估计壮举.CNNFeat.FC损失壮举.样品3互补损失FCFCS选择S解析S采样上下文-保留细粒度特征图3.概述了所提出的用于细粒度图像识别的选择性稀疏采样框架。该框架首先产生稀疏注意本地化信息对象部分收集类响应图的局部最大值然后，下面的两个并行采样分支选择一个动态数量的稀疏注意力的图像内容的条件下，分别为歧视性和互补的视觉证据构建丰富的最后，聚合每个分支的特征以产生最终输出。最好用彩色观看。因此，越来越多的研究探索弱监督的方法来估计区分区域。目标检测方法为建议区域的生成提供了参考。例如，Xiaoet al.[28]和Zhanget al.[32]使用选择性搜索，而Yanget al.[29]将特征金字塔网络引入细粒度识别。然后，一些策略，如部分鉴别器或特定的损失，被设计来过滤掉信息补丁。Zheng等[33]将卷积网络中的信道分组以生成不同的部分模式。除此之外，还应用了注意力机制。Fu等人[3]递归地学习多个尺度上的判别区域（即，（3）第三章。Li等[17，22，12]使用递归视觉注意力模型来选择注意力区域的序列。尽管基于部分的判别方法是有效的，但是它们使用“硬”部分裁剪策略并且忽略了裁剪区域周围的环境，这限制了相反，我们使用一种柔和的方式来放大局部区域，同时保留上下文。Recasens等人[21]首先提出在显著图上执行非均匀采样我们的方法在以下三个方面不同于这项工作首先，我们提出对稀疏注意力进行采样，这是类感知的，并且比[21]中采用的类不可知显着性具有更丰富的表示。其次，我们的稀疏注意力通常对应于精细细节的对象部分，如喉咙，颈背和头顶，提供比[21]的显著区域更微妙的视觉证据。第三，S3N明确地将视觉证据分为两个平行的采样分支，即：判别和互补分支，而[21]中的模型将其一起采样。3. 方法所提出的选择性稀疏采样框架首先学习一组稀疏注意力，其指定候选区域的位置和规模，特别是对任务有用的。然后，该框架使用所学习的稀疏注意力来选择性地将输入图像采样为区分性和互补性分支，以提取上下文保留的精细细节特征。该框架使用卷积神经网络（CNN）骨干来实现，ResNet50，并且可以使用标准分类设置进行端到端训练，即图像级监督，和交叉熵损失，图。3.第三章。3.1. 重温类峰值响应给定输入图像X，我们的方法预测一组稀疏的注意力，即，局部最大值，从用图像级分类监督训练的分类网络的类响应图中出现[34，35]。我们首先将图像X馈送到CNN主干中，并从顶部卷积层提取特征图。所得到的特征图被指示为 S∈RD×H×W，其中，D是特征通道的数量，H×W是特征图的空间大小。然后，特征图S是被馈送到全局平均池化（GAP）层，随后是全连接（FC）层，以获得类分数s∈RC，其中C是细粒度对象类别的数量。利用FC层的权重矩阵Wfc∈RD×C，我们可以将类响应映射Mc计算为6602d、cmax（R）−min（R）eβ2Mc= ΣDd=1W fc× S d.（一）第1期第5期第20第c类的类峰值响应定义为来自相应的类响应映射Mc的窗口大小r内的局部最大值。并且峰位置被表示为Pc={（x0，y0），（x1，y1），...，（xNc，yNc）}，无选择性采样的输入图像其中Nc是第c类的有效峰的数量类峰响应通常对应于强视觉响应。初始化选择性采样（我们的）位于感兴趣区域内的线索[35]。3.2. 学习稀疏注意力我们利用学到的峰值来定位感受野，特别是信息的任务，并估计一组稀疏的注意力提取细粒度的视觉证据。为了保持训练和测试阶段的一致性，我们使用预测的类得分s来选择学习和推理阶段的候选峰值。基于实验观察，前1类响应图中的峰并不总是足以覆盖有区别的部分。然而，在这方面，图4. 在不同训练纪模型学习可能被强特征所主导，而无法保留细微特征。我们的方法选择性地采样和平衡的歧视性和互补性的功能，鼓励模型学习更多样化的图像表示。最好用彩色观看。对于通过上述过程检测到的每个峰（x，y）∈T，我们从均匀的分布在0和1之间。然后，我们根据响应值将峰分为两组，Td和Tc，top-k中的峰值相当多，但是可能是有噪声的。为了平衡视觉证据的回忆和精确，我们选择性地T d={（x，y）|（x，y）∈ T如果R x，y> T}T c={（x，y）|（x，y）∈ T如果R x，y<ζ}.（四）收集来自前1或前5个预测类的峰值。设Prob=softmax（s）∈RC是所有C类的预测概率，Pr_（？）b∈R_5是Prob的前5类得分的子集，按降序排列。我们计算熵为Σ5H=−pilogpi，pi∈Prob，（2）i=1定位辨别性证据的高响应值的峰（例如，细粒度类别的唯一模式）更可能被划分为Td，而定位互补证据的低响应值的峰值（例如，支持模式）更有可能被划分成Tc。最后，我们利用高斯核来计算一组稀疏注意力A∈RNt×H×W，注意到每个峰，如并基于以下内容构建响应映射R（x−x）2+（y−y）2−i2i战略，Rx，yeRxi，yiβ1，若（xi，yi）∈Td我我.Ai，x，y =−（x−x i）2+（y−y i）2如果H≤δ，则M1，i1Rxi，yi R2，若（xi，yi）∈Tc，R=Σ5、（3）xi，yi其中Mk=1Mk，如果H > δ∈R5×H×W是对应于（五）其中β1和β2是可学习的参数，Rxi，yi是T中第i个峰值的峰值。注意，振幅和spond到Prob，δ是阈值3。然后我们通过Min-Max Normalize将R映射到[0，1]，即R=R-min（R）。最后，我们在R中找到窗口大小为r4内的所有局部最大值，并将它们的位置表示为T={（x1，y1），（x2，y2），…，（x Nt，y Nt）}，其中N t是检测到的峰的数量。请注意，在上述峰值选择策略中，我们使用熵来确定网络预测的置信度当置信度高时，我们使用来自前1类响应图的峰值，并且当置信度低时，我们聚合所有前5类响应图用于峰值查找，以提高信息区域候选的召回率。6603的每个稀疏注意力控制采样尺度的半径相应的视觉证据（第3.3），并且受相应峰值响应值的动态影响;从而以输入图像内容为条件。3.3. 选择性采样随着稀疏的注意力定义在方程。5，我们执行图像重采样以突出来自信息局部区域的细粒度细节我们为特征提取的判别分支和互补分支构造两个采样映射Qd和Qc，如下所示：Σ3我们设δ= 0。2在所有实验中。当δ在一定范围内时，模型精度对δ不敏感，即δ在一定范围内时，模型精度对δ不敏感. [0.1，0.3]。[4]在所有实验中，我们根据经验将r设为3Qd=Qc=Ai，如果（xi，yi）∈TdΣAi，如果（xi，yi）∈ Tc.（六）6604g（v）=vy将输入图像X表示为具有顶点的网格网格V，其中V =[v0，v1，…且vi=（vi，vi）∈R2.所有输入的特征提取;因此，我们提出的方法没有引入重要的模型参数。Xy顶点可以连接成水平和垂直网格线采样过程以Σ为目标，探索一种新的从汇集全球和本地信息中获益图像的特征，我们定义每个图像的特征表示：F J={FO，FD，FC}，其中FO，FD，FC′ ′ ′ ′网格几何形状V=v0，v1，…V结束，其中较高的重要性享有均匀的缩放，而较低重要性的那些重要性被允许在很大程度上被抑制。该问题可以被转换为找到重采样图像与输入图像之间的映射。这样的映射可以写成两个函数f（v）和g（v），使得X new（v）=X（f（v），g（v）），其中X new表示表示从原始图像提取的特征区别分支图像和互补分支图像。这些特征被级联并馈送到具有softmax函数的全连接融合层以进行最终分类。在学习过程中，整个模型通过分类损失进行优化，分类损失定义为重采样图像。设计f和g的目标是按比例映射像素，使其与分配给它们ΣL（X）=Li∈ICLS（Yi，Y）+LCLS（Yj，Y*）（9）通过采样图。一个确切逼近这个问题是f和g可以满足条件：其中Lcls表示交叉熵损失。I是{0，D，C}。Yi是来自原始和重新分类的预测标签向量∫f（v）∫g（v）′ ′ ′基于特征FO、FD和FC对图像进行采样。YJ00Q（v）dvxdvy =vx vy。方法*在[21]中，解决方案可以描述为是使用联合特征F，J和Y的预测标签向量Σ′ ′′是地面实况标签向量。v′Q（v）k（v，v）vxf（v）=Σ′′、（7）3.5. 讨论v′Q（v）k（v，v）′Σ′ ′ ′′Q（v）k（v，v）vΣ′ ′′Q（v）k（v，v）、（8）所提出的S3N利用类峰值响应由图像分类网络学习以估计任务的信息区域，即，细粒度的图像识别，它引导选择性采样过程，以高，其中k（v，v）是高斯距离核以充当reg。ularizer和避免极端情况下，如所有的像素CON-接近相同的值。通过在Eq.7，在Eq。8，其中Qd和Qc是在等式（1）中计算的6，我们可以得到两个重新采样的图像。一个对应于Qd，命名为歧视性分支图像，突出显示用于提取详细证据的重要区域。另一个对应于Qc，命名为互补分支图像，放大的区域，是不显着的挖掘更多的视觉线索。如图4，所提出的选择性采样可以防止强大的功能从主导的梯度学习，并鼓励网络学习更多样化的图像表示。重采样过程通过卷积实现并嵌入到端到端训练中，其中β1和β2可以通过重采样图像的分类损失来更新3.4. 细粒度特征学习利用上面定义的稀疏注意和选择性采样过程，特征学习过程以端到端的方式实现。在该过程中，图像X首先被馈送到S3N，并生成两个重采样图像，其大小与输入图像相同。它们放大了对应于区别性和互补性特征的动态数量的信息区域。然后，两个重新采样的图像被S3N作为输入，用于提取细粒度特征。相同的主干被重用于轻精细详细的视觉证据，而不会丢失周围的上下文信息。然后将重新采样的图像馈送到共享网络骨干中以更新学习的类峰值响应。S3N通过多个时期的峰值预测和图像重采样，实现了一种特殊的迭代学习。S3N将稀疏注意机制与图像内容重采样结合在一个集成框架中，为融合局部和全局特征提供了一种新的方法在第一步骤中，全局图像特征用于激活类峰值响应。在第二步骤中，激活的峰加强图像内容和全局特征。因此，局部和全局特征相互加强。4. 实验数据集：我们在三个细粒度数据集上评估了所提出的方法。CUB-200-2011 [24]数据集包含来自200种鸟类的11，788张图像，分为5，994张训练图像和5794张测试图像。FGVC- Aircraft [15]数据集包含100种飞机变体的10，000张图像，其中6，667张用于训练，3，333张用于测试。Stanford Cars [10]数据集包括196类汽车的16，185张图像，其中8144张图像用于训练，8044张图像用于测试。我们提出的方法不利用任何额外的注释（例如，部件注释[30]、对象边界框[31]和先前v6605稀疏注意命中命中+未命中1086420CUB飞机汽车CUB飞机汽车图5.在三个数据集上采样的稀疏注意力的每图像命中数的分布我们的方法收集不同数量的稀疏注意不同的图像，而不是采样一个固定数量的所有图像的部分。在屏幕上放大查看效果最佳。数据集幼崽飞机汽车平均命中率（%）94.6397.2298.76表1.S3N在三个数据集上采样的稀疏注意力的平均命中率（%）类关系的知识[25，2]），除了整个实验中的图像级标签。实施详情：在我们所有的实验中，我们将图像预处理为448×448。我们使用Resnet-50作为特征提取器。我们训练S3N 60个epoch，其中使用Momentum SGD优化器将批处理大小设置为16。我们将重量衰减设为1 e-4，动量设为0。9 .第九条。对于从Imagenet上的预训练模型初始化的参数，我们使用初始学习率0。001;对于其他参数，我们使用初始学习率0。01.4.1. 稀疏注意分析为了分析由S3N产生的稀疏注意的质量，我们执行关于稀疏注意定位信息对象部分的能力的我们首先计算稀疏注意的命中数。如果稀疏注意力的像素落在图像的地面实况边界框中，则计数命中否则，计算未命中。我们可视化每个数据集的命中数的分布，以查看S3N网络是否可以收集信息对象部分作为视觉证据，图。五、可以看出，我们的方法可以自适应地为每个图像选择信息丰富的稀疏注意力，而不是固定数量的对象部分作为超参数。我们通过以下方式来测量每图像的命中率安打. 每个数据集的总体结果是每个图像稀疏注意命中率的平均值，如表1所示。1，表明我们收集的稀疏注意力经常击中有效的对象部分。我们进一步选择每个图像的最大和最小在图中可以看到。6. S3N的D判别分支通常以“喉”、“项”和“冠”等信息对象部分作为强有力的证据，对细粒度的鸟类类别进行主要判定。至于补充条款图6. CUB数据集上对象部件类的最大和最小稀疏注意统计。根据最大注意和最小注意的计数之差，对部分类别的区分度从强到弱排序最好用彩色观看。分支，对象部分如4.2. 消融研究在本节中，我们进行了一系列消融研究，以了解我们在CUB-200-2011数据集上提出的S3 N的名称。不同取样分支的影响：为了研究所提出的方法中每个分支的贡献，我们省略了S3Ns的不同稀疏注意采样分支。在选项卡中。2，我们报告了每个架构的总top-1分类准确度以及每个分支的分类准确度。此外，我们还报告了由[34]定义的前1位定位精度。基于来自O、D和C分支的聚合的前1个预测类响应图来估计定位;来自D、C分支的类别响应映射通过其对应的逆变换被映射到O分支的相同空间。根据表1中报告的结果2、我们可以得出以下结论：①的人。当省略判别分支和补充分支时，top-1定位准确率（第二列）分别从65.2%下降到56.6%和59.2%，这证明了这两个分支对定位信息对象区域的有效性2）的情况。在所有架构中，在补充分支（第5列）处的分类准确度低于其他分支（第3列和第4列），这表明由该分支学习的视觉证据的区分性较低。（3）第三章。仅具有判别分支的网络（S3N0 +D）将基线的总分类准确度（最后一列）提高了1.6%（86.0%对86.0%）。87.6%）表明，我们的方法可以为细粒度图像识别任务收集更强的视觉证据，而具有互补分支的网络（S3NO+C）提高了1.3%（86.0% vs. 87.3%）表明，我们的方法可以捕获弱vi-强弱稀疏注意计数6606设置Loc.O形分支D分支C分支总S3N O57.786.0--86.0S3N O+D59.287.086.5-87.6S3N O+C56.686.8-85.387.3公司简介62.6-87.185.687.5S3N O+D+C65.287.986.785.188.5表2.基于S3N不同分支的CUB数据集消融研究。第一列示出了对象定位的前1准确度（%），并且随后的列示出了针对原始分支、区分分支、补充分支的图像分类的前1准确度以及针对整个S3N的总聚合准确度。表3.CUB数据集上稀疏注意力和密集注意力的前1分类准确率（%），即基于显著性的注意力和基于类别响应的注意力。分区所有随机概率（我们的）累积（%）87.787.988.5表4.判别分支和互补分支不同选择性抽样策略的比较。相对容易被忽视的主观证据。4）.注意，鉴别分支的缺失导致总分类准确度的损失（1.2%，从88.5%到87.3% ）比互补分支的损失（ 0.9% ，从 88.5% 到87.6%）更多，这表明鉴别分支可以帮助收集细粒度图像识别所必需的关键视觉证据。稀疏注意力与密集注意：在选项卡中。3.我们将稀疏注意与两种类型的密集注意进行了比较，包括基于类别不可知的显著性的注意和基于类别反应的注意。我们的稀疏注意力可以显式地定位类感知的对象部分和信息部分。稀疏注意采样可以增强信息对象区域并丢弃噪声响应，使得更容易捕获在密集注意图中经常被忽略的细微视觉证据。表5.我们的方法与CUB- 200-2011，FGVC飞机和斯坦福汽车的最新结果的比较。分别在两个分支上进行，以同时增强强证据和保持弱证据。4.3. 细粒度图像分类在本节中，我们将在三个流行的细粒度图像识别数据集上比较所提出的S3N与现有方法的性能。数值结果：细粒度图像分类通过前1分类准确度（%）来评估。如Tab.所示。5，我们的模型显著优于ResNet-50 基线（ FT ResNet ） 2.5% （ 86.0% vs.88.5%）、2.9%（89.9% vs. 92.8%）和2.1%（92.6% vs.94.7%），这表明我们的S3N能够学习丰富的细粒度图像识别表示。我们的S3N性能也超过最先进的1%（87.5%与88.5%）、1.1%（91.7% vs. 92.8%）、0.8%（93.9% vs. 94.7%）这三个数据集对当前的任务很重要。这进一步验证了通过裁剪部件在部件号的固定超参数上对每个图像的稀疏注意力的灵活集合进行采样的益处。定性结果：在图7中，我们可视化了我们的方法和ResNet-50基线的中间输出，以解释为什么以及如何在基线失败时我们的方法可以给出正确的预测。所示稀疏注意力分区：在我们的方法中，稀疏的注意力将被分成两个集合，在一个概率的方式。分数较高的稀疏注意更有可能在判别分支处被采样，并且那些分数较低的更可能在补充分支处被采样我们将我们的概率划分与另外两种合理的稀疏注意力划分策略进行比较：1）全部。鉴别分支和互补分支都对所有稀疏注意进行采样。2）随机。这两个分支在整个稀疏注意力集中进行随机选择，从而使用不同的稀疏注意力。如Tab所示。4，我们的概率划分表现良好，因为我们样本强和弱的视觉证据sep-第一行，我们的S3N正确地预测了角，而基线将其误认为类似的角。区分这两种细颗粒物种的关键是，耳有一个扇形的金色头部羽毛，而角有金色的簇毛，直接穿过头部。虽然正确定位了相比之下，S3N在区分分支处增强了“鸟头”的视觉证据，编码了“头羽”的信息。在图的第二行。7、当使用“鸟头”作为视觉证据时，基线未能识别方法骨干幼崽飞机汽车B-CNN [14]VGG-1684.184.191.3低秩B-CNN [9]84.287.390.9HIHCA [1]85.388.391.7CNN [18]85.688.592.1RA-CNN [3]VGG-1985.3-92.5MA-CNN [33]86.589.992.8DT-RAM [12]ResNet-5086.0-93.1FT ResNet [5]86.089.992.6DPL-CNN [26]87.1-93.1DFL-CNN [27]87.491.793.1[29]第二十九话87.591.493.9S3N（我们的）88.592.894.7累积（%）评论基于显着性的注意力[21]85.9阶级不可知论者基于注意力的87.8类感知的6607基线预测：耳英文名：HornedGrebe基线预测：银鸥英文名：NorthernFulmar2009款世爵我们的预测：世爵C8轿跑车2009基线预测：Metroliner我们的预测：Yak-42下一篇：ChuckWillWidow别名：WhipPoorWill基线预测：WhipPoorWill我们的预测：查克将成为寡妇图像目视证据（基线）稀疏采样（我们的）鉴别互补视觉证据（我们的）图7.稀疏采样的可视化和我们方法的学习视觉证据。我们的方法不仅可以增强鉴别性视觉证据，而且可以探索互补性视觉证据，例如，“body” and “wing” for birds, “headstock” and “door” 我们的方法可能会犯错误时，纹理的对象是特别相似的背景和物种下的同一个属，即。最后两行中显示的图像。最好用彩色观看。北方管风琴。我们的S3N给出了正确的标签，结合了由补充分支提供的“鸟翅膀”的视觉证据我们的方法从图3中的第三和第四行可以看出。7，我们的方法可以发现更精细的详细的飞机和汽车的视觉证据时，基线只注意到最重要的。对于失败的案例，我们推断其原因是当目标与背景或其他物种相似时，补充分支学习到的特征是无用的，甚至是有害的5. 结论在本文中，我们提出了选择性稀疏采样，一个简单而有效的框架，旨在解决细粒度图像识别的挑战。框架-工作是用卷积神经网络实现的，称为选择性稀疏采样网络（S3N）。通过图像级监督，S3N估计稀疏注意并实现空间和语义采样。以这种方式，它选择性地聚集来自以图像内容为条件的动态数量的信息区域的S3N不断提高基线，并在多个流行的细粒度识别基准测试中产生优于最先进技术的性能潜在的现实是，选择性稀疏采样与人类视觉系统的机制是一致的，这为图像识别领域提供了新的见解。致谢。作者非常感谢国家自然科学基金项目61836012、61771447、61671427和北京市科委项目Z181100008918014的资助。FGVCAircraft斯坦福汽车CUB鸟类失败案例6608引用[1] 蔡思佳，左王梦，张磊。用于细粒度视觉分类的分层卷积激活的高阶积分。在IEEE International Conference onComputer Vision，第511-520页[2] 陈天水，吴文喜，高月芳，董乐，罗晓南，林亮。利用层次语义嵌入的细粒度表示学习和识别。arXiv预印本arXiv：1808.04505，2018。[3] 傅建龙，郑和良，陶梅。看得更近些，看得更清楚：用于细粒度图像识别的递归注意卷积神经网络。在2017年IEEE计算机视觉和模式识别会议，CVPR 2017，美国夏威夷檀香山，2017年7月21日至26日，第4476- 4484页[4] 杨高、奥斯卡·贝博姆、张宁和特雷弗·达雷尔。紧凑的双线性池。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 317[5] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第770-778页[6] 黄绍利、徐哲、陶大成、张雅。用于细粒度视觉分类的部分堆叠CNN。在2016年IEEE计算机视觉和模式识别会议，CVPR 2016，美国内华达州拉斯维加斯，2016年6月日，第1173-1182页[7] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络。神经信息处理系统，第2017-2025页[8] . I. 詹内松岛 M. 桑顿岛 J. Smith 、 A Chetverikov 和Kristjnsson 。用手指和眼睛凝视的视觉觅食。 i-Perception，7（2）：2041669516637279，2016.[9] Shu Kong和Charless C Fowlkes。用于细粒度分类的低秩双线性计算机视觉和模式识别，第7025-7034页[10] Jonathan Krause，Michael Stark，Jia Deng，and Fei FeiLi.用于细粒度分类的3d对象表示。IEEEInternationalConference on Computer Vision Work-shops，2013。[11] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统国际会议，2012年。[12] 李志超、杨毅、小刘、周峰、文石磊、徐伟。视觉注意力的动态计算时间。国际计算机视觉会议，第1199-1209页[13] Di Lin，Xiaoyong Shen，Cewu Lu，and Jiaya Jia.深度LAC：用于细粒度识别的深度定位、对齐和分类在IEEEConferenceonComputerVisionandPatternRecognition，CVPR 2015，Boston，MA，USA，2015年6月7-12日，第1666-1674页[14] Tsungyu Lin，Aruni Roychowdhury，and Subhransu Maji.用于细粒度视觉识别的双线性cnn模型。在-计算机视觉国际会议，第1449- 1457页，2015年。[15] Subhransu Maji 、 Esa Rahtu 、 Juho Kannala 、 MatthewBlaschko和Andrea Vedaldi。飞机的细粒度视觉分类。HAL-INRIA，2013.[16] M. B. 米尔扎河A. Adams、C Mathys和K.J. 弗里斯顿人类的视觉探索减少了感知世界的不确定性.Plos One，13（1）：e0190429，2018.[17] Volodymyr Mnih ， Nicolas Heess ， Alex Graves ， andKoray Kavukcuoglu.视觉注意的循环模型。神经信息处理系统的优势27：2014年神经信息处理系统年度会议，2014年12月8-13日，加拿大魁北克省蒙特利尔，第2204-2212页，2014年。[18] Mohammad Moghimi ， Serge J. 穆罕默德？贝隆吉Saberian，Jian Yang，Nuno Vasconcelos，and Li-Jia Li.增强型卷积神经网络。2016年英国机器视觉会议论文集，BMVC 2016，约克，英国，2016年9月19日至22日，2016年。[19] Maria-Elena Nilsback和Andrew Zisserman。在大量类别上的自动花卉分类。在 Sixth Indian Conference onComputer Vision，Graphics Image Processing，ICVGIP2008，Bhubaneswar，India，16-19 December 2008，第722-729页[20] 郭培和瑞恩·法雷尔。使用对的细粒度视觉分类：姿态和外观集成，用于识别子类别。CoRR，2018年。[21] Adria Recasens 、 Petr Kellnhofer 、 Simon Stent 、Wojciech Matusik和Antonio Torralba。学习缩放：神经网络中基于显著性的采样层。欧洲计算机视觉会议，第51-66页[22] Pierre Sermanet Andrea Frome和Esteban Real。注意细粒度分类。arXiv：计算机视觉和模式识别，2014年。[23] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年学习表征国际会议[24] C. Wah，S.布兰森山口韦林德山口Perona和S.贝隆吉Caltech-UCSD鸟类-200 -2011数据集。技术报告CNS-TR-2011-001，加利福尼亚理工学院，2011年。[25] 王德全，沈志强，邵杰，张伟，薛向阳，张正.用于细粒度分类的多粒度描述器。在ICCV 2015，第2399-2406页[26] 王亚明、弗拉德I莫拉留和拉里S戴维斯。基于CNN的弱监督判别式面片学习用于细粒度识别。arXiv：计算机视觉和模式识别，2016。[27] 王亚明、弗拉德I莫拉留和拉里S戴维斯。在cnn中学习判别滤波器组以进行细粒度识别。计算机视觉和模式识别，第4148-4157页[28] Tianjun Xiao ， Yichong Xu ， Kuiyuan Yang ， JiaxingZhang，Yuxin Peng，and Zheng Zhang.两级注意力模型在用于细粒度图像分类的深度卷积神经网络中的应用。在IEEE会议6609on Computer Vision and Pattern Recognition ， CVPR2015，Boston，MA，USA，2015年6月7-12日，第842-850页[29] 泽阳、天哥罗、东王、胡志强、高俊、王立伟。学习导航以进行细粒度分类。InComputer Vision-ECCV 2018 -15th European Conference ， Munich ， Germany ，September 8-14，2018，Proceedings，Part XIV，pages438[30] 张汉，徐涛，穆罕默德·埃尔侯赛尼，黄晓蕾，张绍庭，艾哈迈德 ·M. Elgammal 和 Dimitris N. MetaxasSPDA-CNN：统一语义部分检测和抽象以实现细粒度识别。在2016年IEEE计算机视觉和模式识别会议，CVPR2016，美国内华达州拉斯维加斯，2016年6月27-30日，第1143- 1152页[31] 放大图片创作者：张宁， Jeff Donahue ， Ross B.Girshick和Trevor Darrell用于细粒度类别检测的基于部件的r-cnn。在计算机视觉-ECCV 2014-第13届欧洲会议，瑞士苏黎世，2014年9月6-12日，Proceedings，第I部分，第834-849页[32] Xiaopeng Zhang ， Hongkai Xiong ， Wengang Zhou ，Weiyao Lin，and Qi Tian.选取深度滤波器响应以进行细粒度图像识别。在2016年IEEE计算机视觉和模式识别会议，CVPR 2016，美国内华达州拉斯维加斯，2016年6月27日至30日，第1134[33] Heliang Zheng，Jianlong Fu，Me

下载后可阅读完整内容，剩余1页未读，立即下载