没有合适的资源?快使用搜索试试~ 我知道了~
1看得更近,看得更清楚:用于细粒度图像识别的递归注意力卷积神经网络傅建龙1,郑和良2,陶梅11中国北京微软研究院2中国科学技术大学,中国合肥1{jianf,tmei} @ microsoft.com,2zhenghl@mail.ustc.edu.cn摘要识别细粒度的类别(例如,鸟类)由于区分区域定位和细粒度特征学习的挑战而变得困难。现有方法主要独立地解决这些挑战,而忽略了区域检测和细粒度特征学习是相互关联的,因此可以相互加强的事实。在本文中,我们提出了一种新的递归注意力卷积神经网络(RA-CNN),它以相互增强的方式递归地学习多尺度上的区分性区域注意力和基于区域的特征表示。每个尺度的学习由分类子网络和注意提议子网络(APN)组成。APN从完整图像开始,通过将先前的预测作为参考,从粗到细迭代地生成区域注意力,而更细尺度的网络以循环的方式将来自先前尺度的放大的注意力区域所提出的RA-CNN通过尺度内分类损失和尺度间排名损失进行优化,以相互学习准确的RA-CNN不需要边界框/部件注释,并且可以端到端训练。我们进行了全面的实验,并表明RA-CNN在三个细粒度任务中实现了最佳性能,具有相对准确性收 益 3 。 3% , 3. 7% , 3. 8% , 分 别 在 CUB Birds ,Stanford Dogs和Stanford Cars上。1. 介绍通过计算机视觉技术(例如,分类鸟类[2,34],花型[21,24],汽车模型[14,19]等)引起了广泛关注。该任务是非常具有挑战性的,因为一些细粒度类别(例如,“有耳的grebe”和“有角的grebe”)只能由领域专家识别。与一般识别不同,细粒度图像识别是一种新的识别方法。图1. 啄木鸟的两种鸟类。我们可以观察到来自高度局部区域的非常细微的视觉差异(例如,头部- S在黄色框中),这是很难从原始图像比例中学习的。然而,如果我们能够学会以更精细的尺度放大所关注的区域,[Best颜色查看]认知应该能够定位和表示从属类别内的非常边缘的视觉差异,并且因此可以有益于各种各样的应用,例如,专家级图像识别[15,31],丰富的图像字幕[1,12]等等。细粒度识别的挑战主要是-ly两重:区分性区域定位和来自这些区域的细粒度特征学习。以前的研究通过引入基于零件的识别框架取得了令人印象深刻的进展,该框架通常包括两个步骤:1)通过以无监督的方式分析来自神经网络的卷积响应或者通过使用有监督的边界框/部分注释来识别可能的对象区域,以及2)从每个区域提取区别性特征并将它们编码成用于识别的紧凑向量。虽然已经报道了有希望的结果,但是进一步的改进受到以下限制。首先,人类定义的区域或通过现有无监督方法学习的区域可能不是机器分类的最佳选择[35]。第二,细微的视觉差异存在于局部区域,从类似的罚款,44384439粒度分类仍然难以学习。我们发现,区域检测和细粒度特征学习是相互关联的,因此可以相互加强如图1所示,准确的头部定位可以促进学习有区别的头部特征,这进一步有助于查明存在于后脑中的不同颜色。为了应对上述挑战,我们提出了一种新的递归注意卷积神经网络(RA-CNN),用于细粒度识别,而没有边界框/部分注释。RA-CNN以相互增强的方式递归学习区分区域注意力和基于区域的特征表示。所提出的RA-CNN是一个堆叠网络,它将输入从完整的图像到多个尺度的细粒度局部区域。首先,多尺度网络共享相同的网络体系结构,但在每个尺度具有不同的参数以拟合具有不同分辨率的输入(例如,图1中的粗标度和细标度)。每个尺度的学习由一个分类子网络和一个注意力建议子网络(APN)组成,保证了每个尺度的足够的区分能力,并为下一个更细的尺度生成准确的其次,专用于高分辨率区域的更细尺度网络将放大的关注区域作为输入,以提取更细粒度的特征。第三,递归网络交替地通过用于分类的尺度内softmax损失和用于注意力建议网络的尺度间成对排序损失来优化。排名损失优化了更精细的网络,以在正确的类别上生成比先前预测更高的置信度分数由于更精细规模的网络可以以循环的方式堆叠,因此RA-CNN可以从粗到细逐渐关注最具区分力的区域(例如,从身体到头部,然后到鸟喙)。注意,准确的区域局部化可以帮助基于区分性区域的特征学习,反之亦然。因此,建议的网络可以受益于区域定位和特征学习之间的相互加强。为了进一步利用集成学习的优势,通过学习完全连接的融合层,将来自多个尺度的特征深度融合以分类图像据我们所知,这项工作代表了第一次尝试提出一个多尺度循环注意网络细粒度识别。我们的贡献可总结如下:• 我们通过提出一种新的循环注意力卷积神经网络架构来解决细粒度识别的挑战,能够以相互增强的方式精确检测区分区域和有效学习基于区域的表示。• 我们提出了一种成对排序损失来优化注意力建议网络。与地区相比,只有标签监督的calizers,这样的设计en-使网络能够在参考以前的尺度的情况下逐渐关注更• 我 们 在 三 个 chal-challing 数 据 集 ( CUB Birds ,Stanford Dogs,Stanford)上进行了综合实验汽车),并在所有这些数据集上实现优于最先进方法的性能本文的其余部分组织如下。第二节回顾了相关工作.第3节介绍了所提出的方法。第4节提供了评价和分析,随后是第5节的结论。2. 相关工作对细粒度图像识别的研究沿着两个维度进行,即,区分特征学习和复杂的部件定位。2.1. 判别特征学习学习鉴别特征是细粒度图像识别的关键.由于深度学习的成功,大多数方法都依赖于强大的卷积深度特征,这些特征在一般和细粒度类别上都比手工制作的特征有显著的改进[4,5,6,17,29]。为了学习更强的特征表示,深度残差网络[9]通过优化残差函数将CNN扩展到152层,从而将错误率降低到3。ImageNet测试集上的75%[17]。为了更好地建模细粒度类别,最近提出了一种双线性结构[19],用于通过两个独立的CNN计算成对特征相互作用,以捕获图像局部差异,这在鸟类分类中取得了最先进的结果[30]。此外,另一种方法[34]提出将CNN与Fisher Vec- tor [23]的空间加权表示统一起来,这在鸟[30]和狗数据集[13]上都显示出优越的结果2.2. 复杂的零件本地化以前的工作主要集中在利用边界框和部分注释的额外注释来定位细粒度识别中的重要区域[10,18,22,30、32、33]。然而,手动注释的大量参与使得这项任务对于大规模的实际问题不切实际。近年来,出现了一些针对更一般场景的工作,并提出使用非监督的方法来进行矿区关注。基于视觉注意力的方法在对象和部件上提出了两级域网络,其中部件模板通过聚类方案从CNN中的内部隐藏表示中学习[31]。挑选深度过滤器响应[34]和多粒度描述符[28]提出通过分析来自CNN的过滤器响应来学习一组部分检测器,这些CNN以 无 监 督 的 方 式 一 致 地 响 应 特 定 模 式 。 空 间Transformer [11]更进一步,提出了一种4440图2. 递归注意力卷积神经网络(RA-CNN)的框架。输入是从粗略的全尺寸图像到更精细的区域关注(从上到下)。不同的网络模块用于分类(以蓝色标记)和关注建议(以红色)可替代地通过分类损失L来优化CLS在每个尺度上的标签预测Y(s)和地面实况Y(s)之间,排序损失L在相邻尺度的p(s)和p(s+1)之间排序,其中p(s)和p(s+1)表示正确的概率。t t t t t t类别,S表示规模。APN是注意力建议网络,fc表示全连接层,softmax层通过fc lay r匹配到categoryentrices,然后是softmaxoperation。可持续发展提供了“可持续发展”和“可持续发展”的运营。[Bes tviee we dinccolor]动态机制可以主动地对图像进行空间变换以实现更准确的分类。然而,由于微小区域的尺寸较小,现有的模型仍然难以精确定位微小我的最大成就,是在[20]和[35]之间。他们都建议放大判别局部区域,以提高细粒度识别的性能然而,从[20]和[35]中学习区域定位器依赖于预处理的区域建议或类别标签,这对准确的区域定位提出了3. 方法在本节中,我们将介绍用于细粒度图像识别的递归注意力卷积神经网络(RA-CNN)我们将具有三个尺度的网络视为图2中的示例,并且可以以类似的方式堆叠更精细的s尺度。输入是从1中的全尺寸图像到2和3中的细粒度判别区域的重现,其中2和3分别将输入作为来自1和2首先,将不同尺度的图像馈送到卷积层- s(b1到b3)中以提取基于区域的特征表示。第二,网络继续通过全连接和softmax层(c1到c3)预测概率s-核心和通过注意力建议网络(d1,d2)预测区域注意力。所提出的RA-CNN通过交替学习每个尺度上的softmax分类损失和相邻尺度上的成对排名损失3.1. 关注建议网络多任务制定:传统的基于零件的细粒度识别框架没有利用经过深度训练的网络,以相互促进定位和识别的学习。受最近成功的区域建议网络(RPN)[8]的启发,在 本 文 中 , 我 们 提 出 了 一 种 注 意 力 建 议 网 络(APN),其中区域注意力的计算几乎是免费的,并且APN可以端到端训练。给定输入图像X,我们首先通过将图像馈送到预先训练的卷积层中来提取基于区域的深度特征所提取的深度表示被表示为WcX,其中表示一组操作卷积,池化和激活,Wc表示整体参数。 我们进一步对网络进行建模,规模作为一个多任务的制定与两个输出。第一个任务被设计为在细粒度类别上生成概率分布p,如图所示:p(X)=f(Wc<$X),(1)当ref(·)重新提供完全一致的分层时,将可变特征映射到可以匹配的特征向量具有类别条目,以及包括softmax层以进一步将特征向量变换为概率。第二个任务是预测下一个更精细尺度的关注区域的一组框坐标。通过将所关注的区域近似为具有三个4441(m,n)tt不参数,表示由下式给出:[tx,ty,tl]=g(Wc<$X),(2)其中tx、ty分别表示正方形在x和y轴方面的中心坐标,并且t l表示正方形的长度的一半。对于mofg(·)的pecifc可以用具有三个输出的两个堆叠的全连接层来表示,所述三个输出是参与的重新构造的参数gions。请注意,与使用地面真值框的强监督的对象检测中的区域建议网络相比,所提出的APN的学习以弱监督的方式进行训练,因为部分级别的注释通常难以获得。具体的学习过程和损失函数将在第2节中介绍。3.2.注意力定位和放大:一旦假设了关注区域的位置,我们就以更高的分辨率将关注区域裁剪和放大到更精细的尺度,以提取更细粒度的特征。确保沿着X和Y维度的整个实数线,除了单个区域(即,x的范围从tx(t1)到tx(br),y的范围从ty(t1)到ty(br),其中y等于1。使用矩形波串函数有两个好处。首先,boxcar函数可以很好地近似裁剪操作,以选择从粗尺度网络预测的最重要区域。其次,boxcar函数建立了关注区域与框坐标之间的{tx,ty,tl},这在优化反向传播中的盒参数时是必要的。虽然关注区域已经被局部化,但是有效的特征表示有时仍然难以从高度局部化的区域中表现出来。因此,我们进一步通过自适应缩放将区域放大到更大的尺寸。具体来说,我们使用双线性插值来计算放大输出X放大器从最近的四个通过线性映射在Xatt中输入,该线性映射由下式给出Σ1APN可以在训练中进行优化,我们通过提出一个二维的变体来近似裁剪操作,Xamp=(i,j)α,β=0|1−β − { j / λ}||XATT|Xatt、(7)boxcar功能作为注意力面具。该掩模可以在前向传播中选择最重要的区域,并且由于连续函数的性质,在后向传播中容易被优化假设原始图像中的左上角作为像素坐标系的原点,像素坐标系的x轴和y轴分别从左到右和从上到下定义我们可以如下采用来自关注区域的左上(表示为“tl”)和右下(表示为“br”)点的参数化tx(tl)=tx−tl,ty(tl)=ty−tl,其中,m=[i/λ]+α,n=[j/λ]+β,λ是上采样因子,其中,所述上采样因子是由所述上采样因子所划分的采样大小的最大值。[·]an d{·}分别是整数部分和小数3.2. 分类和排名所提出的循环注意力CNN通过两种类型的监督来优化,即,尺度内分类损失和尺度间成对排序损失,用于交替地生成准确的区域注意力和学习更细粒度的特征。具体来说,我们最小化的目标函数以下的多任务损失。的损失函数tx(br) =tx +tl,t y(br)=ty(三)+tl.图像样本被定义为:基于上述表示,裁剪操作可以通过在较粗尺度处的原始图像和注意力Σ3L(X)={Ls=1CLSΣ2(Y(s),Y)}+{Ls=1rank(p(s),p(s+1))},(8)掩码,可以计算为:Xatt= X<$M(tx,ty,tl),(4)其中,X表示逐元素乘法,Xatt将所捕获的第一个寄存器定义为一个时间掩码,并且M(·)acts作为一个时间掩码,其具体形式为:其中,s表示每个尺度,Y(s)和Y(s)分别表示来自特定尺度的预测标签向量和地面实况标签向量Lcls代表分类损失,其主要优化图2中的卷积和分类层的参数(b1到b3和c1到c3),以确保在每个尺度上的足够的辨别能力。训练是通过拟合类别标签来M(·)=[h(x−tx(tl))−h(x−tx(br))]·[h(y-ty(tl))-h(y-ty(br))],并且h(·)是一个逻辑函数,其中h∈xk:−kx(五)通过softmax函数对整个训练样本进行此外,来自成对排序损失Lrank的p(s)表示正确类别标签t上的预测概率。具体地,排名损失由下式给出:4442h(x)= 1/{ 1+ exp{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}(六)(s)(s+1)(s)(s+1)理论上,当k足够大时,逻辑函数可以被认为是阶跃函数,L秩(pt ,pt)=max{0,pt-pt+margin},(9)其在训练中强制p(s+1)>p(s)+余量等t t小型箱式车(即,M(·))是一种可用于从4443X粗尺度作为参考,并通过实施更细尺度的网络来逐渐接近最具鉴别力的区域,以生成更可信的预测。请注意,Lcls和Lrank交替生效,用于不同的优化目的,详细信息可以在Sec.三点四分。3.3. 多尺度联合表示一旦提出的RA-CNN在每个尺度上进行了训练,我们就可以获得从全尺寸图像到多个粗到细区域关注的多尺度表示。特别地,图像X可以由一组多尺度描述符表示:{F1,F2,. FN},(10)其中Fi表示从分类网络中的全连接层(图2中的c1至c3)生成的特定尺度下的特征描述符,N是尺度总数。为了利用特征集成的好处,我们首先独立地对每个描述符进行归一化,并将它们连接在一起成为一个具有softmax函数的全连接融合层,用于最终分类。应用软最大值函数代替支持向量机(SVM)[3]主要是为了特征提取和分类的技术一致性,以便我们在测试中可以端到端地集成多尺度描述符和分类此外,我们已经验证了softmax和线性SVM可以产生相当的分类结果。3.4. 实现细节图3. 区域注意力学习的一个例子。顶行指示在特定尺度下的两个范例区域输入,并且底行指示反向传播到输入层中的导数。黑色箭头表示tx、ty和tl的优化方向,与人类感知一致。详细的分析可以在第二节中找到。三点四分。在粗略尺度下,小于先前的T1的三分之一,以避免当T1太小时对象结构的不完整性。注意学习的优化:通过计算tx,ty,tl上的导数来说明注意学习的机制,并展示了注意学习对区域裁剪的影响。由于衍生品的建议排名损失由于tx,ty,tl具有类似的形式,我们以tx为例,用反向传播中的链式法则[25]计算导数,公式如下:培训策略:为了更好地优化注意力定位-Lrankn(tx,ty,tl),(11)在一个相互加强的概念中,∂tx顶部∂tx方式,我们采取以下替代培训策略。第1步:我们通过ImageNet中相同的预训练VGG网络[27]初始化图2中的卷积/分类层(b1到b3和c1到c3第二步:我们考虑一个正方形(用t,t,t表示)其中,表示逐元素乘法,Dtop表示反向传播到输入层在特定的尺度上,它代表了每个像素相对于整个网络激活的重要性[15]。我们简化了方程中的导数形式(11)到L′(tx)XyL′秩与原始图像的边长的一半相同和M(tx)。 在最小化问题中,如果通过在原始IM中搜索区域来选择正方形′秩(tx)<0,则tx增加,否则tx减少。年龄,在最后一个卷积中具有最高响应值Al层(即,VGG-19中的conv 54)。我们可以通过以类似的方式分析第二尺度的卷积响应来进一步获得更小的平方。这些选择的正方形用于预训练APN,以通过从卷积fea学习变换来获得图2(d1)、(d2)中的参数真映射到{t,t,t}。我们进一步遵循[15]来计算用于获得与人类感知一致的优化方向的导数的范数。导数图显示在图3的底行中,点越暗,绝对值越大每个导数映射对应于顶行中具有相同di的输入尺寸 此外,M′(tx)表示掩模XyL第三步:我们以交替的方式优化上述两步中的参数。具体来说,我们保持APN参数不变,并在三个尺度上优化softmax损耗以收敛。然后,我们确定参数,函数到tx,它可以由分段函数定性评价为:0x→tx(tl)演化/分类层,并切换到排名损失M′(t)=0x→tx(br)(十二)优化两个APN。 学习的过程中,T-这两个部分是迭代的,直到两种类型的损失不再改变。此外,每个尺度下的tl被约束为不小于=0否则,其中符号L4444yL秩(ty)ue iny的导数的类似形式由下式给出:<0y→t表1.本文中使用的细粒度数据集的统计M′(t)=时间>0 y→ty(tl)y(br)(十三)=0否则。由于M′(tl)在边界上取正值,而在内部取负值,因此tl的导数由下式给出:• MG-CNN[28]:多个粒度描述符学习0x→t x(tl)或x→tx(br)各级粮食利益的多区域性• ST-CNN[11]:空间变换器网络在-M′(t)=或y→ty(br)或y→ty(tl)(十四)尺度方差,特征变换变形<0否则。基于上述分析,我们可以得到L′图3(a)中M′(tx)为正值,是因为导数图中负值的黑点主要分布在左上方,M′(tx)在左侧也取负值同样,我们可以得到L′(ty)是正数,因为M′采用负值秩顶部。 作为衍生物-在边界上,正地图几乎为零,内部为负•TLAN[31]:两个级别的注意力网络建议对对象和部件进行分类的域网• DVAN[35]:分布式注意网络通过多个区域建议从粗到细关注对象。• FCAN[20]:全卷积注意网络通过强化学习自适应地选择多个任务驱动的视觉注意。• B-CNN[19]:bilinear-CNN提出捕捉对-智能特征交互用于分类。′秩(tl)是正的。 因此tx,ty和tl将变为• NAC[26]:神经元激活星座找到零件在下一次迭代中更小,这与人类一致。perception.图3(b)中的优化可以通过类似的分析获得。4. 实验4.1. 数据集和基线数据集:我们对三个具有挑战性的细粒度图像识别数据集进行了实验,包括Caltech-UCSD Birds(CUB-200-2011 ) [30] , Stanford Dogs [13] 和 Stanford Cars[16]。分类详细统计数字和数据分割总结在表1中。基线:我们将比较方法分为两类,基于它们是否使用人类定义的绑定框(bbox)或部分注释。在下文中,第一五种方法使用人类监督,后八种方法基于无监督部分学习方法。我们与他们相比,由于他们的国家的最先进的结果,在这两个类别。所有基线如下所示:• DeepLAC[18]:deep l ocalization , a lignation andclassification建议使用姿势对齐的部分图像进行分类。• SPDA-CNN[32] : emantic p art detection and abstraction提出通过检测/分类网络生成部分候选并提取特征。• Part-RCNN[33] : 通 过 部 分 注 释 扩 展 基 于 R-CNN[7• PA-CNN[14]:一种基于木质素的方法通过使用共同分割和对齐来生成部件。• PN-CNN[2]:pose n normalized CNN提出通过估计对象的姿势来计算局部特征。• PDFR[34]:picking deep filter responses建议找到独特的滤波器并学习部分检测器。L数据集#类别#培训测试次数[30]第30话2005,9945,794斯坦福狗[13]12012,0008,580[16]第十六话1968,1448,0414445通过计算神经激活模式由于粗尺度下的对象尺寸较小,因此在训练中将输入图像(尺度1)和关注区域(尺度2,3)的尺寸分别调整为448×448和224×224我们使用VGG-19 [27](在ImageNet上预先训练)用于鸟类和汽车数据集,VGG-16用于狗作为相同的设置基线。我们发现,k在Eqn。(6)和Eqn中的余量。(9)对于优化是鲁棒的,因此我们经验性地将k设置为10并且将裕度设置为0。05.该模型已在https://github.com/Jianlong-Fu/Recurrent-Attention-CNN 上 公 开 发布。4.2. CUB 200 2011注意定位:我们从多个尺度显示的关注区域的建议网络的定性分析。在图4中,我们可以观察到第二和第三尺度下的这些局部区域对相应的类别具有区分性,并且比第一尺度更容易被分类。结果与人类的感知是一致的,这将有助于更仔细地观察细粒度的类别。由于提出的APN是通过发现最具鉴别力的区域来自动学习分类的,而不是回归人类定义的边界框,我们在分类精度方面对注意定位进行定量比较。为了公平比较,所有比较的方法都使用VGG-19模型,但使用不同的注意力定位算法。我们采用第二尺度网络来产生我们的结果(表示为RA-CNN(尺度2)),因为在这个尺度下的关注区域可以保留全局鸟类结构和局部视觉线索,如图4所示。首先,我们可以观察比较-4446图4.五种鸟类在不同尺度下的学习区域注意力我们可以观察到清晰和有意义的视觉线索分类后,在关注的区域逐渐放大。表2. 在CUB-200-2011数据集上比较注意定位的分类准确性。方法精度[20]第二十话76.1MG-CNN(单粒度)[28]79.5RA-CNN(规模2)w/initial{tx,ty,tl}79.0RA-CNN(规模2)82.4使用人定义的结合框的方法的结果见表3。 PA-CNN[14]和MG-CNN(带有-(编号)[28]第82话8%,83。0%的准确度。RA-CNN(规模2)达到82。4%的准确度。第二,我们可以取得明显更好的结果相比,前,基于无监督部分学习的方法。FCAN[20]和MG-CNN [28]是我们的两个相关作品,它们也使用了多尺度/粒度的特征组合方案。 为了进行公平的比较,我们从[20]和[28]中选择了基于单注意力和单粒度的性能,并在表2中显示了结果。我们可以得到8。3%和3。6%的相对改善,与FCAN(单注意)[20]和MG-CNN(单注意)[20]粒度)[28],这表明了所提出的方法的优越的注意力学习能力。此外,在第三行中列出了具有初始化的关注区域并且没有从这个结果可以看出,排序损失对于优化区域注意力的关键作用。细粒度的图像识别:我们比较了两种基线,基于它们是否使用人类定义的边界框(bbox)/部分注释。PN-CNN [2]对人类定义的边界框和地面实况部分进行了强有力的监督。B-CNN [19]使用边界框具有非常高维的特征表示(250k维)。如表3所示,所提出的RA-CNN(s尺度1+2+3)可以实现与PN-CNN[2]和B-CNN [19],即使没有bbox和部分注释,这也证明了有效性。与无监督方法相比,PDFR [34]没有额外的Fish-表3.CUB-200-2011数据集的比较结果Train An- no.表示在训练中使用边界框或零件注释。方法火车安诺。精度DeepLAC [34]C80.3[33]第三十三话C81.6[14]第十四话C82.8[28]第二十八话C83.0FCAN [20]C84.3B-CNN(250k-dims)[19]C85.1SPDA-CNN [32]C85.1CNN [2]C85.4VGG-19 [27]77.8TLAN [31]77.9DAN[35]79.0[26]第二十六话81.0[28]第二十八话81.7FCAN [20]82.0PDFR [34]82.6B-CNN(250k-dims)[19]84.1ST-CNN(Inception net)[11]84.1RA-CNN(规模2)82.4RA-CNN(3级)81.2RA-CNN(比例1+2)84.7RA-CNN(比例1+2+3)85.3er向量学习,我们可以获得相对精度增益为3。3%,我们的完整模型RA-CNN(规模1+2+3)。我们甚至超过了B-CNN(w/o anno.)[19]和ST-CNN [11],它使用高维特征或更强的入侵网络作为基线模型,几乎都是1。5%的相对精度增益。虽然FCAN(w/o anno.)[20]和DVAN [35]提出了类似的想法来放大到参与的区域进行分类,我们可以用4. 1%,8。0%的相对改善,因为注意力定位和基于区域的特征学习的相互加强框架。请注意,RA-CNN(s-cale 2)在尺度1下的表现优于VGG-19结果,具有清晰的边缘(5。9%的相对收益),这表明了在细粒度类别上“看得更近”的必要性。此外,RA-CNN(规模3)比RA-CNN(规模2)略有下降,因为全球鸟类图像中存在结构信息的缺失。通过一个完全连接的层在三个尺度上组合特征,我们实现了最佳的85。3%的准确度。请注意,优越的结果得益于多尺度的综合优势不同初始参数的三重单尺度网络的组合只能达到78。0%,83. 5%,82. 第一、第二和第三比例分别为0%此外,我们将RA-CNN扩展到更多的尺度,但性能饱和,因为判别信息已被编码到以前的尺度。4.3. 斯坦福犬实验Stanford Dogs数据集的分类准确度总结见表4。VGG-16在第一尺度下以原始图像为输入,获得76。7%的人承认-4447图5.鸟、狗和汽车的第三尺度注意力定位从多个图像样本中学习的区域(在每一行中)表示针对特定细粒度类别的一致注意区域,其具有区分性以将该类别与其他类别分类。表4.斯坦福狗数据集上的比较结果,没有额外的边界框或部分注释。方法精度[26]第二十六话68.6[34]第34话71.9VGG-16 [27]76.7DAN[35]81.5FCAN [20]84.2RA-CNN(规模2)85.9RA-CNN(3级)85.0RA-CNN(比例1+2)86.7RA-CNN(比例1+2+3)87.3测量精度依靠精确的注意力定位,RA-CNN(规模2)实现了85的识别准确率的显着提高。9%,12。0%相对增益。通过结合两个尺度和三个尺度的特征,我们可以将性能提高到86。7%,87。3%。与两种最相关的方法DVAN [35]和FCAN [20]相比,相对精度增益为7。1%和3。7%,分别。这种改进主要来自于精确的注意力定位,如图5所示。该图证明了所关注的区域主要位于狗的头部,这与先前的研究一致[31,35]。表5.斯坦福汽车数据集的比较结果火车安诺。表示在训练中使用边界框或零件注释。方法火车安诺。精度R-CNN [7]C88.4FCAN [20]C91.3[14]第十四话C92.8VGG-19 [27]84.9DAN[35]87.1FCAN [20]89.1B-CNN(250k-dims)[19]91.3RA-CNN(规模2)90.0RA-CNN(3级)89.2RA-CNN(比例1+2)91.8RA-CNN(比例1+2+3)92.5道奇,还有Smart可爱的背部设计。与最先进的方法相比,我们的全模型RA-CNN(s-cale 1 + 2 + 3)优于DVAN [35]和FCAN(w/o anno.)[20 ]第20话大开眼界(6)2%和3。8%相对增益)。我们还获得了比高维B-CNN [19],甚至实现与PA-CNN [14]相当的性能,这取决于人类定义的边界框。5. 结论4.4. 斯坦福汽车实验斯坦福汽车的分类准确性总结见表5。不同的汽车型号由于细微的差异而难以被识别,例如,不同的正面和背面设计虽然VGG-19在规模1只达到84。9%的精度,性能可提高到90.0 在区分区域注意力放大后的%到更精细的尺度。最高识别率为92. 5%,通过利用功能集成的力量,它集成了原始图像,放大的整车和前部或后部区域的特征。我们可以从图5中分析出,网络能够本地化具有代表性的参与区域,例如奥迪独特的前部设计,在本文中,我们提出了一种用于细粒度识别的递归注意力卷积神经网络,该网络递归地学习多尺度下的区分性区域注意力所提出的网络不需要边界框/部分注释进行训练,并且可以端到端地进行训练。在鸟、狗和汽车上的广泛实验表明,该算法在注意力定位和细粒度识别任务上具有优异的性能。今后,我们将从两个方向进行研究.首先,如何同时保留全局图像结构和局部视觉线索模型,以不断提高性能在更细的尺度。第二,如何集成多个区域注意力来建模更复杂的细粒度类别。4448引用[1] H. L. Anne,V.苏布哈希尼河Marcus,M.Raymond,S.凯特和T.达雷尔。深度合成字幕:在没有配对训练数据的情况下描述新的对象类别。在CVPR,2016年。[2] S.布兰森湾V. Horn,S. J. Belongie和P.佩洛娜基于姿态归一化深度卷积网络的鸟类分类。InBMVC,2014.[3] C. Cortes 和 V. 瓦 普 尼 克 支 持 向 量 网 络 。 MachineLearning,20(3):273[4] J. 傅氏T.Mei,K.Yang,H.Lu和Y.瑞使用transfer深度学习标记个人照片在WWW,第344[5] J. Fu,J.Wang,Y.鲁伊,X.-J. Wang,T.Mei和H.陆图像标签细化与视图相关的概念表示。IEEE T-CSVT,25(28):1409[6] J. Fu,Y.,-地,中国地质大学出版社,1963-人Wu,T.Mei,J. Wang,H. Lu和Y.瑞从词汇中放松:用于无词汇图像标记的鲁棒弱监督深度学习。在ICCV,2015年。[7] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于准确的对象检测和语义分割。在CVPR中,第580-587页[8] R. B.娘娘腔。快速R-CNN。在ICCV,第1440-1448页,2015中。[9] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[10] S. Huang,Z. Xu,L. Tao和Y.张某用于细粒度视觉分类的部分堆叠CNN。在CVPR,第1173[11] M.贾德伯格K.西蒙尼扬A.齐瑟曼 和K.卡武克丘奥卢。空间Transformer网络。参见NIPS,第2017-2025页[12] J. Johnson,A. Karpathy和F.- F.李Densecap:用于密集字幕的全卷积本地化网络。在CVPR,2016年。[13] A. Khosla,N. Jayadevaprakash湾Yao和F.- F. 李一种新的用于细粒度图像分类的数据集。在ICCV Work-shop,2011年。[14] J. Krause,H. Jin,J. Yang和F.- F.李无零件注释的细粒度识别在CVPR中,第5546[15] 克劳斯, B. 萨普 A. Howard,H. 周先生, A. 托舍夫T. Duerig,J. Philbin和F.- F.李噪声数据对细粒度识别的不合理影响在ECCV,第301-316页[16] J. Krause,M. Stark,J. Deng和F.- F.李用于细粒度分类的3D对象表示。在ICCV工作室,2013年。[17] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS中,第1106-1114页[18] D. Lin,X.申角Lu和J. Jia.深度LAC:用于细粒度识别的深度本地化、对齐和分类。在CVPR中,第1666-1674页[19] T.- Y. Lin,L. RoyChowdhury和S.玛吉用于细粒度视觉识别的双线性CNN模型。在ICCV,第1449-1457页[20] X. Liu,T. Xia,J. Wang,and Y.是林书全卷积注意力定位网络:用于细粒度识别的高效注意力定位CoRR,abs/1603.06765,2016。[21] M.- E. Nilsback和A.齐瑟曼。花分类的视觉词汇表。在CVPR,第1447-1454页[22] O. M. Parkhi、黑腹拟步行虫A.韦达尔迪角Jawajar和A.齐瑟曼。关于猫和狗的真相在ICCV,第1427[23] F. Perronnin和D.拉勒斯Fisher向量满足神经网络:混合分类架构。在CVPR,第3743[24] S. E. Reed,Z.阿卡塔湾Schiele和H.李你学习细粒度视觉描述的深度表示在CVPR,2016年。[25] D. Rumelhart,G. Hintont和R.威廉姆斯通过反向传播误差学习表示Nature,323:533[26] M. Simon和E.罗德纳神经激活星座:用卷积网络发现无监督零件模型。在ICCV,第1143-1151页[27] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。ICLR,第1409-1556页,2015年[28] D. Wang,Z.Shen,J.邵,W.Zhang,X.Xue和Z.张某用于细粒度分类的多粒度描述符。在ICCV,第2399-2406页[29] J. Wang,J.傅氏T.Mei和Y.徐 除了物体识别:用深度耦合 形 容 词 和 名 词 神 经 网 络 进 行 视 觉 情 感 分 析 。InIJCAI,2016.[30] P. Welinder,S.Branson,T.米塔角Wah,F.Schroff,S.Be- longie和P.佩洛娜200.第200章大结局技术报告CNS-TR-2010-001,加州理工学院,2010年。[31] T.肖氏Y. Xu,K. Yang,J. Zhang,Y.彭,还有Z。张某两级注意力模型在深度卷积神经网络中的应用在CVPR中,第842-850页[32] H. Zhang,T. Xu,M. Elhoseiny,X. Huang,S. Zhang,中国古柏A. El- gammal和D. Metaxas SPDA-CNN:统一语义部分检测和抽象以实现细粒度识别。在CVPR,第1143-1152页[33] N. Zhang,J. Donahue,R. B. Girshick和T.达雷尔。用于细粒度类别检测的基于部分的R-CNN。在EC-CV,第1173-1182页[34] X. Zhang,H.熊,W.Zhou,W.Lin和Q.田为细粒度图像识别挑选深度滤波器响应。在CVPR,第1134-1142页[35] B. Zhao,X.Wu,J.丰角,澳-地Peng和S.燕. 用于细粒度对 象 分 类 的 多 样 化 视 觉 注 意 力 网 络 CoRR ,abs/1606.08572,2016。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功