没有合适的资源?快使用搜索试试~ 我知道了~
细粒度视觉分类中的跨类别关系与网络层之间的跨层关系的鲁棒多尺度特征学习方法
8242用于细粒度视觉分类的罗伟1,2 杨锡彤2莫先杰1卢玉衡2,5拉里S。Davis2 Jun Li3Jian Yang4Ser-Nam Lim51华南农业大学2马里兰大学帕克学院3麻省理工学院4南京理工大学5Facebook AI{cswluo,yangxitongbob,cedricmo.cs,junl.mldl,sernam}@ gmail.com{ylu,lsd}@ umiacs.umd.educsjyang@njust.edu.cn摘要从具有非常细微差异的子类别中识别对象仍然是一项具有挑战性的任务,这是由于大的类内变化和小的类间变化。最近的工作解决了这个问题,在弱监督的方式:对象部分首先检测和相应的部分特定的功能提取细粒度分类。然而,这些方法通常孤立地处理每个图像的特定于零件的在本文中,我们提出了交叉X学习,这是一种简单而有效的方法,可以利用不同图像之间的关系以及不同网络层之间的关系进行鲁棒的多尺度特征学习。我们的方法涉及两个新的组件:(i)跨类别跨语义正则化器,其引导所提取的特征以表示语义部分,以及(ii)跨层正则化器,其通过跨多个层匹配预测分布来提高多尺度特征的鲁棒性。我们的方法可以很容易地进行端到端训练,并且可以扩展到大型数据集,如NABirds。我们实证分析了我们的方法的不同组成部分的贡献,并证明了其鲁棒性,有效性和国家的最先进的性能在五个基准数据集。代码可从https://github.com/cswluo/CrossX网站。1. 介绍细粒度视觉分类(FGVC)的目的是从非常相似的类 别 中 对 对 象 进 行 分 类 , 例 如 :[30][31][32][33][34][35][36][37][38][39][3由于类内变异大、类间变异小以及标注数据的不足,长期以来一直被认为是一项具有挑战性的任务。受益于深度神经网络的进步[17,27,29,9],FGVC的识别性能在最近多年来,并且社区最近集中在弱监督的FGVC上,其消除了对劳动密集型的基于部分的注释的需要。弱监督FGVC有两种主要方法,即利用细粒度标签之间的关系来正则化特征学习[31,35]和定位用于特定于部件的特征提取的区分部件与基于标签关系的方法相比,基于定位的方法具有从子类别之间通常存在细微差异的局部区域基于本地化的方法的早期工作通常采用多阶段学习框架:部分检测器首先通过在DCNN特征[36]上训练或利用DCNN中的隐藏表示[34,26,40]来获得,然后用于提取用于细粒度分类的特定于部分的特征。最近的工作将这两个阶段合并到一个端到端的学习框架中,该框架利用最终目标同时优化零件定位和细粒度分类[6,42,37,32]。这些方法在每个图像上独立地定位语义部分,同时忽略来自不同图像的部分特定特征之间的关系[28]通过提出一个基于软注意力的模型来探索物体各部分之间的关系。该模型首先通过多个激励模块生成每幅输入图像的注意区域特征,然后采用度量学习框架引导注意特征具有然而,他们的模型的改进是有限的,因为优化这种度量学习损失是具有挑战性的,并且涉及非平凡的样本选择过程[33]。我们提出了交叉X学习,这是一种简单但有效的方法,它利用不同图像之间和不同网络层之间的关系进行鲁棒的细粒度识别。与[28]类似,我们的方法首先通过多个激励模块生成注意区域特征,但它进一步涉及两个新的组件:跨类别跨语义正则化器(C3S)和跨层8243正则化子(CL)引入C3S来引导来自不同激发模块的注意特征来表示不同的语义部分。理想情况下,相同语义部分的注意力特征,尽管来自具有不同类别标签的不同图像,但应该比不同语义部分的注意力特征更相关(参见图1B)。2)的情况。因此,C3S通过最大化由相同激励模块提取的注意特征之间的相关性来调节特征学习,同时对由不同激励模块提取的注意特征进行去相关。与度量学习损失相比,C3S可以自然地集成到模型中,并且无需任何采样过程即可轻松优化。同时,我们利用不同网络层之间的关系进行鲁棒的多尺度特征学习。我们首先调整FPN [20]以生成合并特征。合并的特征使我们的模型能够发现具有精细空间分辨率和丰富高层语义信息的局部判别结构。为了进一步提高多尺度特征的鲁棒性,我们引入了跨层正则化器(CL),该跨层正则化器通过最小化它们的KL散度将中级特征的预测分布与高级特征的预测分布相匹配。在五个基准数据集上的实验结果表明,我们的方法优于或达到与最先进的方法相当的性能。此外,我们的方法易于训练,并且可扩展到大规模数据集,因为它不涉及多阶段或多作物机制。我们做出以下贡献:• 我们提出了一种用于细粒度特征学习的交叉X学习方法。交叉X学习探索来自不同图像和不同的网络层来学习语义部件特征。• 我们通过跨层正则化来解决鲁棒的多尺度特征学习问题,这匹配跨层的预测分布,从而增加不同层中特征的鲁棒性。本文其余部分的组织结构如下:第2节简要回顾了我们的方法的相关工作。我们的方法在第3节中进行了研究和详细说明。模型烧蚀研究和实验结果进行了分析,并在第4节。我们在第5节结束我们的工作2. 相关工作细粒度分类:受益于DCNN的发展,例如。AlexNet[17],VGGNet [27],InceptionNet [29],ResNet [9],近年来FGVC的研究逐渐从强监督[1,19,39]转向弱监督[6,32,28]。在弱监督配置中,为了诱导模型从主要有区别的区域学习特征,创建通过中间概念[35,31]或共享属性[44,22],通常伴随着数据扩充[3],已经提出了标签之间的结构关系。多任务学习通常用于使学习可行[35,31,41]。另一条研究路线首先定位语义部分,然后在多阶段学习框架中从定位部分学习特征[34,26,40]。最近,这条研究路线在端到端框架中结合了零件定位和特征学习[6,42,18,32]。探索不同图像中的对象之间的关系以用于部件特征学习也已被研究,但由于优化损失函数中涉及的非平凡样本选择,因此性能有限[28]。我们的方法是朝着提高稳健探索不同图像之间的关系的效率和效果迈出的一步我们在正则化学习中探索来自不同图像的对象之间的相关性,并学习鲁棒的多尺度特征。多尺度特征:利用多尺度特征可以提高许多视觉任务的性能。其中,有多种方法通过组合进行预测从多个单独的层推断的结果[21,2],几种其他方法首先组合多个层特征,然后进行预测[24,8,15]。这些方法将低级特征的空间分辨率与高级特征的语义属性相结合。最近的研究已经通过自下而上和自上而下特征映射的横向连接在DCNN中构建特征金字塔来构建高分辨率多尺度语义特征[20]。[38]中研究了非线性和渐进连接结构,以加强多尺度特征的开发。还使用多粒度标签研究了多尺度特征[35,31]。这些方法通过训练具有不同粒度标签的网络来学习多尺度特征。我们的工作还涉及多尺度特征的利用,但通过匹配不同层特征图的预测分布来利用不同尺度特征之间的相互作用3. 方法交叉学习包括两个主要部分:1)跨类别跨语义正则化器(C3S),其通过利用不同图像之间的相关性来学习语义部分特征(Sec. 3.2)。2)一种跨层正则化器(CL),通过匹配不同层之间的预测分布来学习鲁棒特征(第二节)。3.3)。我们的方法的概述如图所示。1.一、3.1. 预赛我们首先简要回顾一次挤压多激励(OSME)块[28],该块为每个输入图像学习多个注意力区域特征。设U=[u1,···,uC]∈RW×H ×C表示8244黑鸟红腹啄木鸟彩绘彩旗黄胸聊天阶段1… …图1.概述我们的方法。我们的网络输出多个特征映射,采用OSME块。两个OSME块,每个有两个激励,描绘在最后两个阶段,以说明我们的方法。来自阶段L-1(蓝色)和L(红色)的特征图被组合以生成合并的特征图(橙色)。左上角是合并特征图的合并过程的放大显示。然后通过GAP或GMP聚合特征图以获得对应的池化特征。合并的特征来自同一级的两个或两个以上的逻辑被C3S正则化器相互约束,并且同时被级联以馈送到全连接层中以生成logit。在转换成类别概率之后,通过CL正则化器约束logits,并将其组合用于分类。最好用彩色观看。残差块τ。为了生成多个注意力特定特征图,OSME块通过执行一次挤压和多次激励操作来扩展原始残差块从形式上讲,OSME首先执行全局平均池化以挤压U并生成通道描述符 z=[z1,· · ·,zC]∈RC.然后,对于每个激励模块p=l,···,P,在z上独立地采用门控机制,以输出:mp=σ( Wpδ( Wp z))=[mp,· · ·,mp] ∈RC,不同的激励模块应该具有不同的语义,即使它们来自相同的图像(见图2)。2为例)。为了实现这一目标,我们引入了跨类别的跨语义正则化(C3S),最大限度地提高相关性的功能,从同一个激励模块,同时最大限度地减少相关性的功能,从不同的激励模块。形式上,我们首先对Up执行全局平均池化(GAP)以获得对应的池化特征fp∈RC,然后进行2归一化(fp←fp/fp)。则211C(一)所有激励模块对p和p之间的相关性p′形成矩阵S:其中σ和δ是指Sigmoid和ReLU函数。最后,通过对原始特征图U的通道进行重新加权来生成注意力特定特征U_p:Up=[mpu1,···,mpuC] ∈ RW× H × C.(二)Sp,p′=1ΣFpTFp′,(3)N2其中T是转置运算符,N是批量大小,并且Fp=[fp,1,· ··,fp,N]∈RC×N是存储虽然OSME可以产生注意力特异性fea,然而,引导这些特征具有语义意义是具有挑战性的。[28]通过优化度量学习损失来解决这个问题,该度量学习损失将来自相同激励的特征拉得更近,并将来自不同激励的特征推得更远。然而,优化这种损失仍然是一个挑战,并涉及一个非平凡的样本选择程序[33]。3.2. 跨范畴跨语义正则化来自该批次中所有样品的激发模块PC3S正则化损失然后从两个部分构建:1)最大化S的对角线以最大化相同激励模块内的相关性,以及2)使S的范数最小化以最小化不同激励模块之间的相关性1 .一、22Σ而不是像[28]中那样优化度量损失,我们支持通过探索相关性来学习语义特征LC3S(S)=2 SF−2diag(S)2、(四)在来自不同图像和不同激励模块的特征图之间。理想情况下,我们希望从同一激励模块提取的特征具有相同的语义含义,即使它们来自具有不同类别标签的不同图像。以及从中其中·是Frobenius范数,并且diag(·)算子将矩阵的主对角线提取为向量。Com-与基于三元组的度量学习损失相比,C3S损失可以自然地集成到OSME块中,并且容易优化,而无需任何采样过程。BN���L−12 up1 1转换LCLCL奥斯梅奥斯梅C3 SSoftmaxC3 S33转换C3 SGAP/GMP…8245CLpppp p=1pp=1分别为。UG集成了中间层的精细空间分辨率和顶层的丰富高层语义的属性为了进一步利用特征预测之间的关系,我们提出了CL正则化器,它匹配不同层之间的预测分布呃 。 设 PrL=σ ( f ( UL ) ) 和 PrL−1=σ ( f(UL−1))是阶段L和L−1的预测输出,其中σ(·)是softmax函数,f(·)表示输出层r。CL正则化器鼓励PrL−1通过mini-L匹配PrL放大KL散度:L(PrL,PrL−1)= KL(PrL||PrL−1)图2.C3S学习的一个例证 占据中心1ΣN ΣK= NLLlognk,nkpL−1(六)以图像为例,C3S通过利用来自不同图像的特征(橙色虚线框)和来自不同激发模块的特征(蓝色阴影)之间的关系,鼓励激发模块U1和U2在不同语义部分上被激活框)。最好用彩色观看。3.3. 跨层正则器利用CNN不同层的语义特征已被证明对许多视觉任务有益[24,8,15,21,2]。这个想法的简单延伸就是把预测结合起来n=1k=1nk其中K是类的数量也可以添加类似的正则化器来约束特征图U_L和U_GCL正则化器可以被视为知识提取[7],它使用3.4. 优化给定特征图UL,UL-1和UG,我们的最终预测可以通过组合它们的预测输出来获得:把不同的层用于最终的预测。然而,我们在实验中观察到,这种简单的策略通常Pr=σ . f(UL)+f(UL−1)+f(UG)Σ.(七)盟友导致性能较差(见第4.3)。我们假设该问题是由于两个原因:1)中级特征对输入变化更 敏 感 [5],这使得它们对于其中类内变化较大的细粒度识别的鲁棒性较低,2)中间级特征之间的关系综合这些,Cross-X学习的完整目标函数是:L=L数据+γLC3S+λLCL,(8)特征的预测没有被利用。 为了解决这些问题,我们采用了特征金字塔网络1ΣNL数据=−NΣKcnklogpnk,(9)(FPN)[20]集成不同层的功能,并提出了一种新的跨层正则化器(CL),通过匹配预测分布来学习鲁棒特征,LC3S=γ1 LC3S(Sn=1k=1L)+γ2LC3S(SL−1)+γ3LC3S(SG),在不同的图层之间。形式上,令UL={UL}P,UL−1={UL−1}PbeLCL =λ1LCL (PrL,PrL−1)+λ2L(十)(PrL,PrG),(十一)阶段L和L-1的特征图(这里阶段是指一组图层,用于生成具有相同size [9])。我们在图1中生成合并的特征图UG。与FPN [20]相似,但有两个不同之处。首先,在上采样之前执行U_L其次,在合并的特征图上进行抗锯齿操作该过程可以总结为:其中L数据是分类损失,γ和λ是平衡不同成本的贡献的超参数。我们的模型可以使用随机梯度下降(SGD)进行端到端训练,并且不需要其他优化技巧,例如多作物[37],数据增强[3],模型集成[42]和单独初始化[32]4. 实验G..L−1LΣΣUp= BNK2*Up+Bilinear(K1*Up)... ...这是什么?... ...这是什么?... ...这是什么?12... ...这是什么?NpCL8246、(五)4.1. 数据集和基线其中*是一个l操作的卷积,Bilinear(·)表示双线性插值,K1,K2是1×1和3×3滤波器,re-i = 1 × 1,re-i = 2 ×3,re-i = 2 × 1,re-i = 2 × 3,re-i = 1。数据集:我们在五个细粒度视觉分类数据集上进行实验,包括NABirds[10],8247数据集#类别#训练#测试NABIrds[10]55523,92924,633[30]第三十话200五九九四五千七百九十四[16]第十六话1968,1448,041斯坦福犬[14]12012,0008,580[25]第二十五话1006,6673,333表1.本文对细粒度数据集的统计Caltech-UCSD Birds(CUB-Birds)[30],Stanford Cars[16],Stanford Dogs [14]和FGVC-Aircraft [25]。请注意,NABIrds是最近发布的数据集,具有更大的规模和更细粒度的类别。详细的统计数据,如类别编号和数据分割汇总在Tab中。1.一、我们在这项研究中报告了前1名的准确性基线:我们将我们的方法与使用弱监督学习进行细粒度识别的各种最新方法进行比较。为了公平比较,我们主要比较以ResNet-50作为其骨干网络的结果,并在下文中包括基于VGG的方法的最佳结果此外,基于SENet主干[11]分析了交叉X学习的消融研究,因为OSME是SE块的直接扩展。此外,我们还报告了我们在ResNet-50主干上的方法结果[9]。所有基线如下所示:• FCAN[23]:完全卷积注意力网络,通过强化学习自适应地选择多个任务驱动的视觉注意力。• RA-CNN[6]:递归注意力卷积神经网络,定位有区别的区域并从粗到细提取特征。• DT-RAM[18]:通过动态连续/停止门控机制选择一系列区域的递归视觉注意力模型。4.2. 实现细节我 们 在 PyTorch 中 开 发 我 们 的 模 型 , 在SENet/ResNet-50 的 实 现 之 上 。 具 体 来 说 , 我 们 将OSME 块 放 置 在 SENet/ResNet-50 中 的 conv5_3 和conv4_6之后。两个块的输出特征图的大小分别为14×14×2048和28×28×1024,re-mapping分别为。因此,UL、UL−1和U L −2的信道大小是相同的当P=2时,UG 分 别为4096、2048和2048。我们使用在ImageNet上预训练的权重初始化大部分网络,并从头开始初始化新引入的层(OSME块,FPN块)在训练期间不使用零件或边界我们的网络在单个NVIDIA P6000 GPU上使用SGD进行训练,动量为0.9,小批量大小为32. 初始学习率被设置为0.01,除了在斯坦福狗上使用0.001的实验。我们训练网络30个epoch,每15个epoch将学习率衰减0.1。 对于不提供 一个验证集,我们随机从训练中抽取10%每个类别的样本进行验证。输入图像被裁剪为448×448,并以0的概率水平翻转。五、我们报告了来自单个模型的448×448的单尺度结果更多详情请参见补充材料。4.3. 消融研究C3S和CL的有效性:我们的正则化的有效性在图中进行了研究3.第三章。我们发现我们的基础网络的性能(OSME,将OSME块放在SENet-50中的conv5_3之后在几乎所有数据集上都低于SENet- 50(SE与OSME),这指示当针对多个输出采用OSME块时的训练困难。正如我们所预期的那样,C3S可以有效地调节我们网络的学习,以迫使OSME块中的激励在不同的语义部分上被激活,从而产生更好的分类特征(C3S与• MA-CNN[42]:多注意力卷积神经网络,其经由多任务学习从空间相关的通道生成多个部分。• DFB-CNN[32]:判别滤波器组方法,学习一组捕获特定类别判别补丁的卷积滤波器。• NTS-Net[37]:导航员-教师-审查员网络通过多代理合作找到一致的信息区域。• MAMC-CNN[28]:多注意力多类约束方法,通过对不同图像的特征进行正则化来学习软注意力掩模• MaxEnt-CNN[4]:最大熵方法提供了一种训练例程,以最大化FGVC的输出概率分布的熵OSME)。此外,我们还发现,如果中间级(L-1级)和高级(L级)功能之间没有约束,则会导致性能下降(C3 S与C3S+GMP)。然而,CL可以有效地增加中级特征的鲁棒性,从而提高性能(C3S+GMP与C3S+GMP+CL)。合并后的好处特征地图:无论是否使用CL,使用合并的特征图都可以在所有数据集上带来系统性能的改善(C3S+GxP与C3S+GxP+FP和C3S+GxP+CL与C3S+GxP+FP+CL。(第3至4段)。这验证了我们的提议的有效性,即可以引入额外的语义特征来提高FGVC性能,以及我们生成合并特征图的操作的正确性。一个有趣的观察结果是C3S+GxP+FP的性能系统性地低于图1中C3S+GxP+FP+CL的性能38248SE奥斯梅C3sC3S+GMPC3S+GMP+CLC3S+GMP+FPC3S+GMP+FP+CL准确度(%)ppp100 10095 9590 9085 8580 8075 7570NABIrds CUB-鸟汽车狗飞机70NABIrds CUB-鸟汽车狗飞机图3. 5个基准数据集上的消融性能,其中在UL−1上采用GMP。图例只显示了添加的块/正则化器名称,省略了默认的ResNet-50主干,例如SE是指SENet-50。最好用彩色观看NABirdsCUB-鸟类汽车狗飞机GMP-GAP-81. 776.3八十五284.793.090.483.087.391.189.4GMP+间隙+80.981. 784.284.791.9九十三886.787岁390.791. 3表2.我们的方法在五个基准数据集上的性能,其中GAP和GMP在UL-1上交替使用。 顶部组比较来自具有CL但没有合并特征图的方法的结果。 底部组示出了来自具有合并特征图但没有CL的方法的结果。新引入的合并特征图的鲁棒性也是必要的,并且它进一步证明CL具有提高中级特征的鲁棒性的能力。GMP与GAP:如图所示。1,GAP和全局最大池化(GMP)可替代地被采用来池化特征图。然而,我们只在U L − 1中将池化方法从GAP切换到GMP,因为我们最初认为FGVC的判别结构是局部的和微妙的,因此GMP应该比GAP更有利于捕获这些结构,并提供更好的特征表示。这在几乎所有数据集上都得到了验证(Tab.2)的情况。结果表明,CL可以很好地与GMP合作,提供强大的中级功能。然而,当网络被合并的特征图增强时,使用GAP,但没有CL,结果显示出不同的行为(Tab.2)的情况。GAP+在UL−1上使用,在汽车、狗和飞机上达到最佳性能,但未能超过GMP−在UL−1上使用的性能。这一现象表明,GMP是必要的,以确定局部和微妙的结构类别与精细和丰富的纹理。在U L-1上采用GMP或GAP所引起的差异也可以在图中观察到。5(b)(见第二节)4.5)。因此,我们报告了在UL−1上采用GAP的汽车、狗和飞机的最终结果,而在第二节中,在UL−1上采用GMP4.4图4. 5个基准数据集上的消融性能,其中在UL−1上采用GAP。C3S、CL和FP分别表示C3S、CL和合并的特征图最好用彩色观看方法1级Sep. Init.精度AlexNet-fc6 [1]美国有线电视新闻网[10]MaxEnt-CNN[4](ResNet-50)SENet-50[11]ResNet-50 [9]MaxEnt-CNN[4](DenseNet-161)√×√√√√√××××××35.074.069.282.182.283.0Cross-X(SENet)Cross-X(ResNet)√××86岁。486岁。2表3.在NABIRDS上的表现。PN-CNN的结果是基于AlexNet的部分注释实现的1阶段意味着网络在初始化后进行端到端训练。Sep. Init. 去注释单独的初始化。4.4. 与最新技术关于NABirds的结果:由于多作物、多尺度和多阶段优化的计算复杂性,大多数先前的方法不报告该数据集上的结果。由于我们的方法简单,它可以很好地扩展到大数据集。选项卡. 3比较了所有优化单作物投入的方法的结果。我们对SENet/ResNet-50的重新实现优于更复杂的posed-normalized PN-CNN [1]和最大熵正则化MaxEnt-ResNet-50。MaxEnt-CNN将其性能提高到83。0%,采用DenseNet-161架构[12]。这显示了更先进的网络架构带来的好处。然而,我们的Cross-X学习可以进一步超过它3。2%,相对简单的ResNet-50主干,这表明我们的方法的有效性。关于CUB-Birds:CUB鸟类的分类结果见表1。4.与以前的方法相比,我们的方法实现了国家的最先进的perfor-曼斯在一个更容易的实验设置,其中只需要一个前馈操作的一个单一的规模输入,没有任何专门的初始化。注意DFB-SE奥斯梅C3sC3S+GAPC3S+GAP+CLC3S+GAP+FPC3S+GAP+FP+CL准确度(%)8249方法1级Sep. Init.精度RA-CNN [6]FCAN [23]√×√√×87.388岁9MaxEnt-CNN [4]美国有线电视新闻网(CNN)SENet-50 [1]ResNet-50 [9]√√√√××××73.684.887.188.1Cross-X(SENet)Cross-X(ResNet)√××88.288岁9表4.表演者:CUB BirdsRA-CNN和MA-CNN基于VGGNet。在第一组中采用多作物操作,而在其他组中不采用。方法1级Sep. Init.精度RA-CNN [6]√×√√×√√√×××92.5MA-CNN [42]92.8FCAN [23]93.1DT-RAM [18]93.1[37]第三十七话93.9SENet-50 [1]√√√√√√××√××91.6Kernel-Pooling [3]92.4ResNet-50 [9]92.9美国有线电视新闻网(CNN)93.0DFB-CNN [32]93.8MaxEnt-CNN [4]93.9Cross-X(SENet)Cross-X(ResNet)√√××94 594 6表5.在斯坦福汽车上的表现。Kernel-Pooling、RA-CNN和MA-CNN基于VGGNet。在第一组中采用多作物训练和测试。CNN [32]需要单独的层初始化来防止模型学习退化,NTS-Net [37]从多个作物进行特征组合。MA-CNN [42]基于具有部分定位预训练和多作物输入的VGGNet获得了可比较的结果。MaxEnt-CNN [4]可以达到86。当使用DenseNet-161实现时,MAMC-CNN [28]提高到86。5%,使用ResNet-101和内核池时达到86。2%,当与VGGNet结合时,如其工作中所报告的那样;但是还是明显低于我们。表6.斯坦福狗的表演第一组使用多作物操作,而其他组不使用。方法1级Sep. Init.精度MA-CNN [42][37]第三十七话√√√√√×89.991.4Kernel-Pooling [3]MaxEnt-CNN [4]ResNet-50 [9]SENet-50 [1]DFB-CNN [32]√√√√√××√×86.989.890.390.692.0Cross-X(SENet)Cross-X(ResNet)√××92. 792. 6表7.在FGVC飞机上的性能。第一组使用多作物操作。Kernel-Pooling和DFB-CNN基于VGGNet。MaxEnt-CNN是用DenseNet-161实现的。Tab中的VGGNet驱动结果。5.与MAMC-CNN [28]相比,MAMC-CNN通过将OSME块嵌入度量学习框架来学习多个特征图,我们的Cross-X学习优于它1。百分之六。改进表明我们的建议,学习语义部分功能,通过探索兴奋模块之间的相关性和提取强大的功能,通过桥接不同层的功能之间的关系的有效性关于Stanford Dogs:分类结果见表1。六、令人惊讶的是,我们重新实现的SENet/ResNet-50的性能即使它们可以通过采用更高级的体系结构(例如,MAMC-CNN [28]与ResNet-101(85. 2%)和MaxEnt-CNN [4]与DenseNet-161(83. 6%),仍然落后于我们。然而,我们的Cross-X学习可以击败ResNet-50,并通过分别与SENet-50和ResNet- 50相结合来实现最先进的性能。[23]最好的方法是:关于Stanford Cars:选项卡. 5显示了斯坦福汽车的结果。我们的Cross-X学习也在这个数据集上实现了最先进的性能,即使DBF-CNN [32]和NTS-Net [37]分别采用单独的层初始化和多尺度裁剪。与ResNet-50相比,内核池在与VGGNet耦合时获得了更好的结果(91。9%),因此我们报告mance,但它比我们的方法更复杂,并且需要多尺度多作物用于模型训练和测试。相比之下,Cross-X学习简单有效。FGVC-飞机上的结果:选项卡. 7报告平均类别预测准确度。我们的方法在报告此数据集结果的方法中获得了最好的结果,即使与基于更高级网络的方法相方法1级Sep. Init.精度FCAN [23]RA-CNN [6]√×√×√√√×84.385.3DT-RAM [18]MA-CNN [42]√×86.086.5[37]第三十七话×87.5MaxEnt-CNN [4]√√√√√√××√×√×80.4SENet-50 [1]83.0ResNet-50 [9]84.5Kernel-Pooling [3]84.7美国有线电视新闻网(CNN)86.2DFB-CNN [32]87.4Cross-X(SENet)√××87岁587岁78250比,8251ppp(a)(b)(c)(d)(e)图5.来自CUB-Birds、Stanford Cars和FGVC-Aircraft的激活图(b)UL−1、(c)UL和(d)UG的叠加显示P P P第一列(a)示出了原始图像,并且最后两列(e)是来自图1的对应列的组合激活图。UL−1,UL和UG。(b)〜(e)中的每一个示出了对应层中的两个激发模块的激活最好用彩色观看架构。由于该数据集中类别的主要差异来自飞机结构的变化,因此该结果意味着我们的Cross-X学习适用于类间结构变化相对较大的分类问题。请注意,Kernel-Pooling [3],MaxEnt [4]和DFB-CNN [32]方法的性能下降至 83. 9% , 85 。 7% , 91 。 当 由 ResNet-50 而 不 是VGGNet支持时,分别为7%4.5. 可视化图5显示了来自3个数据集的6个图像的调整大小的激活图[43](更多显示见补充材料)。来自同一层的激活图相互补充-它们集中在对象的不同此外,我们还发现了相应的激活-(b)〜(d)的响应列以不同比例覆盖相同的对象部分 与激活图(c)U1相比,(b)UL-1和(d)UG中的高活化区域具有相对较小的尺度和突出的中心。UG的激活图可以进一步被看作是UL的激活图从UL-1的激活图增强,例如:鸟的头,飞机的翅膀这与精细的空间分辨率和丰富的高层语义的设计是一致的[20]第20话在(b)中也可以观察到在UL-1上采用GMP或GAP引起的差异,其中GMP导致单个区域(前两行)中的一致激活,而GAP导致多个区域(最后4行)中的分散激活我们进一步呈现(e)中的组合激活图,以展示在我们的分类方法中作为输入的细化的最终图5. 结论我们提出了交叉X学习,通过利用不同图像和不同网络层的特征之间的关系来学习鲁棒我们的方法利用了这样一个事实,即相同语义部分的特征,尽管来自具有不同类别标签的不同图像,但应该比不同语义部分的特征更相关在五个基准数据集上进行的实验,范围从100到555个类别,验证了我们的方法的有效性。消融研究进一步证明了Cross-X每个组件的作用。鸣 谢 本 工 作 得 到 国 家 自 然 科 学 基 金 资 助( No.61702197 ) 、 国 家 自 然 科 学 基 金 资 助(No.2017A030310261 ) 、 国家 自 然 科 学基 金 资 助(No.2017A030310261 ) 、 国家 自 然 科 学基 金 资 助(No.2017A030310261 ) 、 国家 自 然 科 学基 金 资 助( No.61702197 ) 、 国 家 自 然 科 学 基 金 资 助(No.2017A030310261)。书AI。8252引用[1] Steve Branson,Grant Van Horn,Serge Belongie,andPietro Perona.使用姿势归一化深度卷积网络进行鸟类分类。在arXiv预印本arXiv:1406.2952,2014。[2] 蔡兆伟,范全福,Rogerio S. Feris和Nuno Vas- concelos.用于快速目标检测的统一多尺度深度卷积神经网络。在ECCV,2016年。[3] Yin Cui,Feng Zhou,Jiang Wang,Xiao Liu,YuanqingLin,and Serge Belongie.卷积神经网络的核池在CVPR,2017年。[4] Abhimanyu Dubey,Otkrist Gupta,Ramesh Raskar,andNikhil Naik.最大熵细粒度分类。在NIPS,2018年。[5] David Eigen、Jason Rolfe、Rob Fergus和Yann LeCun。使用递归卷积网络理解深层架构。见ICLR,2014年。[6] 傅建龙,郑和良,陶梅。递归注意力卷积神经网络用于细粒度图像识别。在CVPR,2017年。[7] Hinton Geoffrey Oriol Vinyals和Jeff Dean 提取神经网络中的知识。在arXiv预印本arXiv:1503.02531,2015。[8] Bharath Hariharan,Pablo Arbelez,Ross Girshick,andJiten- dra Malik.用于对象分割和细粒度定位的超列。CVPR,2015。[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[10] Grant Van Horn 、 Steve Branson 、 Ryan Farrell 、 ScottHaber、Jessie Barry、Panos Ipeirotis、Pietro Perona和Serge Be- longie。与公民科学家一起构建鸟类识别应用程序和大规模数据集:细粒度数据集集合中的细打印。CVPR,2015。[11] 杰虎,李申,孙刚。挤压-激发网络。在CVPR,2017年。[12] 高煌,刘庄,劳伦斯·范德马腾,和基利安·Q.温伯格密集连接的卷积网络。在CVPR,2017年。[13] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。ICML ,2015。[14] Aditya Khosla,Nityananda Jayadevaprakash,Bang pengYao,and Fei-Fei Li.一种新的用于细粒度图像分类的数据 集 。 在 2011 年 CVPR 的 第 一 次 细 粒 度 视 觉 分 类(FGVC)研讨会上[15] 孔涛、姚安邦、陈玉荣和孙富春。Hypernet:TowardsAccurate Region Proposal Generation and Joint ObjectDetection.在CVPR,2016年。[16] Jonathan Krause,Michael Stark,Jia Deng,and Fei-FeiLi.用于细粒度分类的3d对象表示。2013年在ICCV上举办的第四届IEEE 3D表示和识别研讨会[17] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。NIPS,2012年。[18] 李志超、杨毅、小刘、周峰、文石磊、徐伟。视觉注意力的动态计算时间。InICCV,2017.[19] Di Lin,Xiaoyong Shen,Cewu Lu,and Jiaya Jia. 深度lac:用于细粒度识别的深度定位、对齐和分类。CVPR,2015。[20] Tsung-Yi Lin , Piotr Dollr , Ross Girshick , KaimingHe,Bharath Hariharan,and Serge Belongie.用于对象检测的特征金字塔网络。在CVPR,2017年。[21] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C.伯格。Ssd:单发多盒探测器。在ECCV,2016年。[22] 小刘,王江,温石磊,丁二瑞,林元庆。通过描述进行本地化:用于细粒度识别的属性引导的注意力定位。InAAAI,2017.[23] 小刘,天夏,王剑,林元庆。全卷积注意力定位网络。在arXiv预印本arXiv:1603.06765,2016。[24] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR,2015。[25] Subhransu Maji 、 Esa Rahtu 、 Juho Kannala 、 MatthewBlaschko和Andrea Vedaldi。飞机的细粒度视觉分类。在arXiv预印本arXiv:1306.5151,2013。[26] MarcelSimon和ErikRodnerNeuralactivationconstellat
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功