没有合适的资源?快使用搜索试试~ 我知道了~
细粒度分类中的信息区域定位与特征提取方法综述
学习导航以实现细粒度分类杨泽1[0000- 0002- 6299- 7649]、罗天戈1、王东1、胡志强1、高军1、王立伟1、 21北京大学机电工程学院机器感知教育部重点实验室2北京大学数据科学中心、北京大数据研究院{yangze,luotg,wangdongcis,huzq,jun.gao}@ pku.edu.cnwanglw@cis.pku.edu.cn抽象。细粒度分类是具有挑战性的,因为很难找到有区别的特征。要找到那些能充分表征物体的细微特征并不容易。为了处理这种情况下,我们提出了一种新的自我监督机制,有效地本地化的信息区域,而不需要边界框/部分注释。我们的模型,称为NTS-Net的导航员,教师,审查网络,由一个导航员代理,教师代理和一个审查代理。考虑到区域的信息量与其成为地面真值类的概率之间的内在一致性,我们设计了一种新的训练范式,使导航器能够在教师的指导下检测出最具信息量的区域之后,Scruti- nizer仔细检查来自Navigator的建议区域并进行预测。我们的模型可以被看作是一个多智能体合作,其中的智能体相互受益,共同进步。NTS-Net可以进行端到端的训练,同时在推理过程中提供准确的细粒度我们在广泛的基准数据集中实现了最先进的性能1介绍细粒度分类的目的在于区分共同的上级类别的下级类别,例如区分野生鸟类、汽车模型等。这些从属类通常由领域专家用复杂的规则定义,这些规则通常集中在特定区域的细微差异上。虽然深度学习促进了许多计算机视觉任务的研究[24,38,33],但其在细粒度分类中的应用或多或少不令人满意,这在很大程度上是由于难以找到信息区域并提取其中的区分特征。对于像鸟这样姿态多变的从属类来说,情况更糟。因此,细粒度分类的关键在于开发自动方法来准确地识别图像中的信息区域。一些以前的作品[45,8,3,46,13,2,29]利用了细粒度的人类注释,例如鸟类分类中鸟类部分的注释。在取得不错成绩的同时2Yang等人Fig. 1. 我们的模型概述。导航器导航模型以关注信息量最大的区域(由黄色矩形表示),而教师评估导航器建议的区域并提供反馈。之后,审查者仔细检查这些区域以做出预测。它们所需的细粒度人工注释是昂贵的,使得这些方法在实践中不太适用其他方法[49,47,48,43]采用无监督学习方案来定位信息区域。它们消除了对昂贵的注释的需要,但缺乏一种机制来保证模型专注于正确的区域,这通常会导致精度下降在本文中,我们提出了一种新的自我监督机制,有效地本地化信息区域,而不需要细粒度的边界框/部分注释。我们开发的模型,我们长期的NTS-Net的导航员-教师-Scrutinizer网络,采用了多智能体合作学习计划,以解决准确识别信息区域的图像,年龄的问题。直观上,被分配为地面实况类的概率较高的区域应该包含更多的对象特征语义,从而增强整个图像的分类性能。因此,我们设计了一种新的损失函数,以优化每个选定区域的信息量,使其具有与其成为地面实况类的概率相同的顺序,并且我们将完整图像作为区域的地面实况类。具体来说,我们的NTS-Net由一个导航代理,一个教师代理和一个Scrutinizer代理。导航器导航模型,以关注信息最多的区域:对于图像中的每个区域,导航器预测该区域的信息量,并且预测用于提出最具信息量的区域。 教师评估导航器提出的区域并提供反馈:对于每个提出的区域,教师评估其属于地面实况类的概率;置信度评估引导导航器利用我们的新颖的排序一致损失函数来提出更多信息区域。Scrutinizer仔细检查来自Navigator的建议区域并进行细粒度分类:每个建议区域都被放大到相同的Scrutinizer黄色黑鹂反馈导航器老师学习导航以实现细粒度分类3尺寸和检查器提取其中的特征;对区域和整个图像的特征进行联合处理以进行细粒度分类。总的来说,我们的方法可以被视为强化学习中的演员-评论家[21]方案与在教师提供的更精确的监督下,导航器将定位更多信息区域,这反过来将使教师受益。因此,代理一起取得进展,并最终与一个模型,提供准确的细粒度的分类预测,以及高度信息化的地区。图1示出了我们的方法的概述。我们的主要贡献可概括如下:– 我们提出了一种新的多智能体协作学习方案,以解决在细粒度分类任务中准确识别信息区域的问题,而无需边界框/部分注释。– 我们设计了一个新的损失函数,它使教师指导导航定位图像中的最信息区域,通过强制执行的一致性,由两个区域上的s'在formativeness和他的rprrb r b r a b i l i t y e i n g鲁恩德-图特h类。– 我们的模型可以进行端到端的训练,同时提供准确的细粒度分类预测以及在推理过程中提供高信息量的区域。我们在广泛的基准数据集中实现了最先进的性能。本文的其余部分组织如下:我们将在第节中回顾2. 在第节中。3、我们将详细说明我们的方法。实验结果在第节中给出并分析4、最后一节。5结束2相关工作2.1细粒度分类已经设计了多种方法来区分细粒类别。 由于一些细粒度分类数据集提供边界框/部分注释,因此早期的作品[45,8,2]在训练和推理阶段都利用了这些注释。 然而,在实际中,当模型被部署时,将没有人工注释可用。后来,一些作品[3,46]仅在训练阶段使用边界框/部分注释 在此设置下,框架与检测非常相似:选择区域,然后对姿态标准化的对象进行分类。此外,Jonathan et al. [22]使用共同分割和对齐来生成没有部件注释的部件,但是在训练期间使用边界框注释。最近,已经出现了一种更通用的设置,其在训练或推理时不需要边界框/部件注释此设置使细粒度分类在实践中更有用本文将主要考虑最后一种设置,其中在训练或推理阶段都不需要边界框/部分注释。为了在没有细粒度注释的情况下进行学习,Jaderberg等人 [19]提出了空间Transformer网络来显式地操作数据表示4Yang等人并预测信息区域的位置。Lin等人[28]使用双线性模型来构建整个图像的判别特征;该模型能够捕捉不同从属类之间的细微差异。Zhang等人。 [47]提出了一种两步方法来学习一堆部分检测器和部分显着图。Fu等人。[12]使用替代优化方案来训练注意力建议网络和基于区域的分类器;它们表明,两项任务是相互关联的,可以相互受益。Zhao等人。 [48]提出了Diversified Visual Attention Network(DVAN),以明确追求注意力的多样性,更好地收集区分信息。Lam等人。 [25]提出了一种启发式后继网络(HSNet),将细粒度分类问题公式化为图像中信息区域的顺序搜索2.2对象检测早期的目标检测方法采用SIFT [34]或HOG [10]特征。最近的工作主要集中在卷积神经网络上。像R-CNN [14],OverFeat [40]和SPPnet [16]这样的方法采用传统的图像处理方法来生成对象建议并执行类别分类和边界框回归。后来的作品,如Faster R-CNN [38]提出了区域建议网络(RPN)来生成建议。YOLO [37]和SSD [31]通过采用单次架构,提高了更快的R-CNN [38]的检测速度。另一方面,特征金字塔网络(FPN)[27]专注于更好地解决多尺度问题,并从多个特征图中生成锚点。我们的方法需要选择信息区域,这也可以被视为对象检测。据我们所知,我们是第一个一个是将FPN引入细粒度分类,同时消除了of human人的annotations注释.2.3学习排序学习排名在机器学习和信息检索领域引起关注[30]。训练数据由具有指定顺序的项目列表组成,而目标是学习项目列表的顺序。排名损失函数的目的是惩罚对错误的顺序。令X={X1,X2,· · ·,Xn}表示要排序的对象,并且Y={Y1,Y2,· · ·,Yn}表示对象的索引,其中Yi彡Yj表示Xi应该被排序在Xj之前。设F为秩函数的假设集。目标是找到一个排序函数F∈F,使定义在{X1,X2···Xn},{Y1,Y2,···,Yn}和F上的某个损失函数最小化。有很多排名方法。一般来说,这些方法可以分为三类:点式方法[9],成对方法[18,4]和列表方法[6,44]。逐点方法为每个数据分配数值分数,并且学习排名问题可以被公式化为回归问题,例如,其中L2损失函数:L点(F,X,Y)=Σni=1(F(Xi)−Yi)2(1)学习导航以实现细粒度分类5在成对排序方法中,学习排序问题被公式化为分类问题。 即 学习一个二元分类器,选择一对中的优势。假设F(Xi,Xj)仅取{1,0}中的值,其中F(Xi,Xj)= 0意味着Xi排名在Xj之前。然后,在所有对上定义损失,如等式n。2,目标是找到一个最优的F,以最小化具有错误顺序的对的L对(F,X,Y)=Σ(i,j):YiC(R2),I(R1)>I(R2)我们使用Navigator网络来近似信息函数I,使用Teacher网络来近似置信函数C。为了简单起见,我们在区域空间A中选择M个区域AM。对于每个区域R i∈ AM,导航网络评估其信息量I(R i),教师网络评估其置信度C(R i)。为了满足条件。1、我们优化导航仪3不失一般性,我们也把整个图像作为一个区域4表示法:映射用C字表示,特殊集用B黑体表示,网络参数用黑体表示。6Yang等人n∈w或k表示{I ( R1 ) ,I ( R2 ) , ···,I ( R1)}和{C ( R1 ) , C(R2),···,C(R1)}具有相同的阶数。随着Navigator网络根据Teacher网络进行改进,它将产生更多的信息区域,以帮助Scrutinizer网络获得更好的细粒度分类结果。在第节中。在图3.2中,我们将描述如何由N个候选人提出信息区域。 在安全方面。3.3,我们将提供如何从Scrutinizer获得细粒度的分类结果在第节中。3.4和3.5,我们将分别详细介绍网络架构和优化。3.2导航员和教师导航到可能的信息区域可以被视为区域建议问题,这在[41,11,1,7,20]中得到了广泛的研究。它们中的大多数基于滑动窗口搜索机制。 Ren等人 [38]介绍了一种新的区域建议网络(RPN),它与分类器共享卷积层,并减轻了计算建议的边际成本。他们使用锚点同时预测多个区域的建议。每个锚点与滑动窗口位置、纵横比和框比例相关联。受锚点思想的启发,我们的Navigator网络将图像作为输入,并生成一堆矩形区域{R ′,R ′,. . . R ′},每个都有一个分数,表示信息-1 2A该地区(图)2显示了我们锚的设计对于大小为448的输入图像X,我们选择具有{48,96,192}的尺度和比率{1:1,3:2,2:3}的锚点,然后Navigator网络将产生表示所有锚点的信息量的列表我们对信息列表进行排序,如等式1中所示。其中A是锚的数量,I(Ri)是排序信息列表中的第i个元素I(R1)彡I(R2)彡···彡I(R4)(4)为了减少区域冗余,我们采用非最大抑制(NMS)的区域的基础上,他们的信息。然后我们取前M个信息区域{R1,R2,. . .,RM},并将它们馈送到教师网络中,以获得作为{C( R1 ),C( R2),. . . C(RM)}。 Fig. 图3示出了M=3时的视图,其中M是表示有多少区域的超参数用于训练Navigator网络。我们优化Navigator网络,使{I(R1),I(R2),. . . I(R1)}和{C(R1),C(R2),. . . C(RM)}具有相同的或-der. 每个提出的区域用于通过最小化地面实况类和预测置信度之间的交叉熵损失来优化教师3.3Scrutinizer随着Navigator网络逐渐收敛,它将产生信息丰富的对象特征区域,以帮助Scrutinizer网络做出决策。我们使用前K个信息区域与完整图像相结合作为输入来训练Scrutinizer网络。换句话说,那些K区域用于促进细粒度识别。图图4展示了K= 3时的这个过程 Lam等人 [25日]学习导航以实现细粒度分类7标度4896级第192号比为2:3比1:1比3:2一个量表中的三个比率图二. 锚的设计。我们使用三个尺度和三个比率。对于大小为448的图像,我们构造锚点以具有{48,96,192}的尺度和比率{1:1,2:3,3:2}。表明使用信息区域可以减少类内方差,并且可能在正确的标签上生成更高的置信度分数我们的比较实验表明,在包括CUB-200-2001、FGVC Aircraft和Stanford Cars在内的广泛数据集中,添加信息区域大大改善了细粒度分类结果,二,三。3.4网络架构为了获得区域建议和特征图中的特征向量之间的对应关系,我们使用全卷积网络作为特征提取器,没有全连接层。具体来说,我们选择在ILSVRC 2012 [39]上预训练的ResNet-50 [17]作为CNN特征提取器,Navigator,Scrutinizer,Teacher网络都共享特征提取器中的参数我们将特征提取器中的参数表示为W。对于输入图像X,所提取的深度表示被表示为XW,其中表示卷积、池化和激活操作的组合导航器网络。受特征金字塔网络(FPN)[27]设计的启发,我们使用具有横向连接的自顶向下架构来检测多尺度区域。我们使用卷积层逐层计算特征层次结构,然后进行ReLU激活和最大池化。然后我们得到一系列不同空间分辨率的特征图较大特征图中的锚图中的导航器网络。4显示了我们的设计草图。使用来自不同层的多尺度特征图,我们可以在不同尺度和比率之间生成区域的信息量在我们的设置中,我们使用大小为{14× 14, 7× 7, 4× 4}的特征图对应到规模的区域{48× 48, 96× 96, 192× 192}。我们将参数表示为导航器网络作为WI(包括特征提取器中的共享参数8Yang等人特征提取器特征了c0特征C111提取器I2I3特征C2提取器特征C3提取器导航器网络教师网络图3.第三章。Navigator网络的训练方法对于输入图像,特征提取器提取其深层特征图,然后将特征图馈送到Navigator网络以计算所有区域的信息量我们在NMS之后选择前M个(这里M = 3用于解释)信息区域,并将它们的信息量表示为{I1,I2,I3}。然后我们从完整的图像中裁剪区域,将它们调整到预定义的大小并将它们馈送到Teacher网络中,然后我们得到置信度{C1,C2,C3}。优化Navigator网络,使{I1,I2,I3}和{C1,C2,C3}具有相同的顺序。教师网。教师网(图)3)逼近映射C:A-[0, 1],其表示每个区域的置信度 在接收M 个尺度归一化(224 × 224)信息区域{R1,R2,. . . ,RM},教师网络输出信心作为教学信号以帮助导航器网络学习。除了特征提取器中的共享层之外,Teaching网络还具有一个具有2048个神经元的全连接层。为了方便起见,我们将教师网络中的参数表示为WC审查网络。 在从Navigator网络接收到前K个信息区域之后,将K个区域调整到预定义的大小(在我们的实验中使用224×224),并且将K个区域重新定义为具有K个区域的特征向量的最大值,每个区域具有长度2048。 然后,我们将这些K个特征与输入图像的函数连接起来,并在2048×(K+1)个神经元的情况下将其划分为一个完整的神经元网络(图2)。4). 我们使用函数S来表示这些变换的合成我们将Scrutinizer网络中的参数表示为WS。学习导航以实现细粒度分类9..见图4。我们的模型的推理过程(这里K= 3用于解释)。首先将输入图像送入特征提取器,然后Navigator网络提出输入的最具信息性的区域我们从输入图像中裁剪这些区域并将它们调整到预定义的大小,然后使用特征提取器计算这些区域的特征并将它们与输入图像的特征最后,Scrutinizer网络处理融合的特征以预测标签。3.5损失函数与优化导航损失。我们将由Navigator网络预测的M个信息量最大的区域表示为R ={R1,R2,. . .,RM},其信息量为I ={I1,I2,. . . ,IM},并且由 教 师 网 络 预 测 的 它们的置信度为C ={C1,C2,. . . ,CM}。那么导航损失定义如下:ΣLI(I,C)=(i,s):Ci Ci,则鼓励Is> Ii,并且我们在实验中使用铰链损失函数f(x)= max{ 1−x, 0}损失函数惩罚I和C之间的反向对5,并鼓励I和C处于相同的顺序。导航损失函数是可微的,求导w.r.t. 通过反向传播中的链式法则,我们得到:LI(I,C)WI(6)Σ=f′(I-I)·( I(x).I(x).- -译者注)(i,s):Ci πj同时成立,则xi和xj是反向对。特征特征提取器特征提取器预测特征提取器特征提取器导航器网络筛选器网络Concat10Yang等人i=1i=1该方程直接由Ii=I(Ri)的定义得出教学损失我们将教师损失LC定义如下:LC=−ΣMi=1logC(Ri)−logC(X)(7)其中C是置信度函数,其将区域映射到其为地面实况类的概率Eqn中的第一项第一项是所有区域的交叉熵损失之和,第二项是全图像的交叉熵损失。6仔细检查损失。当Navigator网络导航到最具信息性的区域{R1,R2,···,RK}时,Scrutinizer网络使细粒度识别结果P=S(X, R1,R2,···,RK)。我们采用交叉熵损失作为分类损失:LS=−logS(X,R1,R2,···,RK)(8)联合训练算法总损失定义为:L总=LI+λ·LS+μ·LC(9)其中λ和μ是超参数。在我们的设置中,λ=μ= 1。总体算法总结见算法。1. 我们使用随机梯度法来优化L总数。算法1:NTS-Net算法输入:全图像X,超参数K、M、λ、μ,假设K≤M输出:预测概率P1 对于t = 1,Tdo2拍摄完整图像=X3生成锚{R′,R′,. . . ,R′}1 2A4{I′,. . . ,I′}:= I({R′,. . . ,R′})1A1A5{Ii}A ,{Ri}A:= NMS({I′}A,{R′}A)i=1i=1i i=1i i=16选择顶部M:{Ii}M,{Ri}M7{C1,. . . ,CK}:= C({R 1,. . . ,RK})8P=S(X,R1,R2,···,Rk)9根据等式计算Ltotal910BP(L总)得到梯度w.r.t. WI,WC,WS11使用SGD更新WI、WC、WS12 端第二学期有助于训练。为了简单起见,我们还将全图像的置信度函数表示为C。学习导航以实现细粒度分类114实验4.1数据集我们在Caltech-UCSD Birds(CUB-200- 2011)[42],Stanford Cars [23]和FGVC Aircraft [35]数据集上全面评估了我们的算法,这些数据集是细粒度图像分类的广泛使用的基准在我们所有的实验中,我们不使用任何所有3个数据集的统计数据见表。1,并且我们遵循与表中相同的训练/测试拆分。加州理工-加州大学圣地亚哥分校鸟类。CUB-200-2011是一个鸟类分类任务,包含来自200种野生鸟类的训练数据和测试数据的比例大致为它通常被认为是最具竞争力的数据集之一,因为每个物种只有30张图像用于训练。斯坦福汽车Stanford Cars数据集包含196个类的16,185张图像,每个类大约有50-50的分割。图像中的汽车是从多个角度拍摄的,并且类别通常处于生产年份和型号的水平(例如2012年特斯拉Model S)。FGVC飞机。 FGVC Aircraft数据集包含超过100个类的10,000个图像,训练集/测试集分割比约为2:1.这个数据集中的大多数图像都是飞机。数据集按照从细到粗的四级层次结构进行组织:型号、变体、族、制造商。数据集#类#火车 测试次数Cub-200-2011200五九九四五千七百九十四斯坦福汽车1968144八千零四十一FGVC飞机100六千六百六十七三千三百三十三表1.基准数据集的统计4.2实现细节在我们所有的实验中,我们将图像预处理为448× 448,并固定M= 6,这意味着每个图像使用6个区域来训练Navigator网络(对超参数K和M没有限制)。我们使用全卷积网络ResNet-50 [17]作为特征提取器,并使用批量归一化作为正则化器。我们使用Momentum SGD,初始学习率为0。001乘以0。1,我们使用权重衰减1 e-4。NMS阈值设置为0。25,不使用预训练的检测模型。我们的模型是强大的超参数的选择。我 们 使 用 Pytorch 来 实 现 我 们 的 算 法 , 代 码 将 在https://github.com/yangze0930/NTS-Net上提供。4.3定量结果总体而言,我们提出的系统优于所有以前的方法。由于我们不使用任何边界框/部件注释,因此我们不与12Yang等人取决于这些注释。表. 2显示了我们的结果与CUB-200-2011中以前的最佳结果之间的比较。ResNet-50是一个强大的基线,其本身达到84。5%的准确性,而我们提出的NTS-Net明显优于它3。0%的百分比。与也使用ResNet-50作为特征提取器的[ 26]相比,我们实现了1。5%的改善。 值得注意的是,当我们仅使用完整图像(K = 0)作为Scrutinizer的输入时,我们实现了85。3%的准确率,也高于ResNet-50。这种现象表明,在导航到信息区域时,Navigator网络还通过共享特征提取器来促进Scrutinizer,从而学习更好的特征表示。方法前1精度MG-CNN [43]81. 占7%[28]第二十八话84. 百分之一ST-CNN [19]84. 百分之一FCAN [32]84. 百分之三ResNet-50(在[26]中实现)84. 百分之五PDFR [47]84. 百分之五美国有线电视新闻网[12]八十五百分之三HIHCA [5]八十五百分之三[36]第三十六话八十五占6%DT-RAM [26]86岁。0%的百分比美国有线电视新闻网[49]86岁。百分之五我们的NTS-Net(K = 2)87岁百分之三我们的NTS-Net(K = 4)87岁百分之五表2. CUB-200-2011中的实验结果表. 3分别显示了我们在FGVC飞机和斯坦福汽车上的结果我们的模型实现了新的国家的最先进的结果与91。4%的FGVC飞机和93. 9%的斯坦福汽车排名前一的准确率。4.4消融研究为了分析框架中不同组件的影响,我们在CUB-200-2011中设计了不同的运行,并在表中报告了结果。4. 我们使用NS-Netto d e t e t 5%至83。3%,我们假设这是因为导航员没有接受老师的监督,会提出随机区域,我们认为这不利于分类。我们还研究了超参数K的作用,即有多少部分区域用于分类。参考表。4、精度只增加0. 当K从2增加到4时,准确率提高了2%,而特征维数几乎增加了一倍。另一方面,准确性学习导航以实现细粒度分类13方法FGVC飞机斯坦福汽车排名[15]第十五话81. 百分之五-FCAN [32]-89岁。百分之一[28]第二十八话84. 百分之一91. 百分之三美国有线电视新闻网[12]88岁百分之二92. 百分之五HIHCA [5]88岁百分之三91. 占7%[36]第三十六话88岁百分之五92. 百分之一美国有线电视新闻网[49]89岁。百分之九92. 百分之八DT-RAM [26]-九十三百分之一我们的NTS-Net(K= 2)九十百分之八九十三占7%我们的NTS-Net(K= 4)91. 百分之四九十三百分之九表3. FGVC飞机和斯坦福汽车的实验结果。增加2。0%,这表明简单地增加特征维度只会得到很小的改进,但我们的多智能体框架将实现相当大的改进(0. 2%对2%)。方法前1精度ResNet-50基线84. 百分之五NS-Net(K = 4)83岁百分之三我们的NTS-Net(K= 0)八十五百分之三我们的NTS-Net(K= 2)87岁百分之三我们的NTS-Net(K= 4)87岁百分之五表4.CUB-200-2011影响因素研究4.5定性结果为了分析Navigator网络导航模型的位置,我们在图中绘制了Navigator网络预测的导航区域。五、我们使用红色,橙色,黄色,绿色矩形来表示Navigator网络提出的前四个信息区域可以看出,局部化区域确实为细粒度分类提供了信息。第一行显示CUB-200-2011数据集中的K =2:我们可以发现,使用两个区域能够覆盖鸟的信息部分,特别是在鸟的颜色和背景非常相似的第二张图片中。第二行显示CUB-200-2011中K= 4:我们可以看到鸟类最具信息性的区域是头部、翅膀和主体,这与人类的感知一致第三行显示斯坦福汽车中的K = 4:我们可以发现大灯和格栅被认为是信息量最大的区域14Yang等人的汽车。第四行示出了FGVC飞机中的K = 4:导航器网络定位飞机机翼和头部,这对分类非常有帮助。图五. 导航器网络提出的信息量最大的区域。第一行显示CUB-200-2011数据集中的K= 2。第二至第四行分别显示CUB-200-2011、Stanford Cars和FGVC Aircraft中的K5结论在本文中,我们提出了一种新的方法,细粒度的分类与-出需要的包围盒/部分注释。导航者、教师和监督者这三个网络相互配合、相互促进。我们设计了一种新的损失函数,它定义了一个由两个规则组成的函数,其中我们的算法是端到端的训练,并实现了国家的最先进的结果在CUB-200-2001,FGVC飞机和斯坦福汽车数据集。6致谢本 工 作 得 到 了 国 家 基 础 研 究 计 划 ( 973 计 划 ) ( 批 准 号 :2015CB352502)、NSFC(61573026)和BJNSF(L172037)。学习导航以实现细粒度分类15引用1. Arbelaez,P.,Ponttuset,J.,Barron,J.,Marques,F.,Malik,J.:多尺度组合以提高增长率。In:CVP R.pp. 3282. Berg,T.,Belhumeur,P.N.:Poof:基于零件的一对一一个特征用于细粒度分类、面部验证和属性估计。在:CVPR(2013)3. Branson,S.,Horn,G.V.,Belongie,S.,Perona,P.:使用姿势归一化深度卷积网络进行鸟类分类。电影BMVC(2014)4. 伯吉斯角震惊了TRenshaw,E.,Lazier,A.,Deeds,M.,Hamilton,N.Hullen-der,G.:Learningingto rankk usi ngradientt desent.In:ICML.pp. 第895. Cai,S.,左,W.,Zhang,L.:用于细粒度视觉分类的分层卷积激活的高阶集成在:ICCV(2017年10月)6. Cao,Z.,Qin,T.,Liu,T.Y.,Tsai,M.F.,Li,H.:学习排名:从成对的pproach到两个pproach。 In:ICML. pp. 1297. 卡雷拉,J.,Sminchisescu,C.:CPMC:使用约束参数最小切割的自动对象分割IEEE计算机学会(2012)8. 柴,Y.,Lempitsky,V.齐瑟曼,A.:共生分割和局部定位,用于finegrainedcategorization。In:IC CV.pp. 3219. Cossock,D.,张T:贝叶斯最优子集排序的统计分析。IEEETransactionsonInfonThery54(11),514010. Dalal,N.,Triggs,B.:用于人体检测的定向梯度直方图。In:CVPR.pp. 88611. 我的意思是, Hoiem,D. :Categoryindendentobjectpposals. In:E CCV. pp.第57512. Fu,J.,郑洪,Mei,T.:看得更近些,看得更清楚:用于细粒度图像识别的递归注意卷积神经网络。在:CVPR13. Gavves,E.,Fernando,B.,Snoek,C.G.M.,Smeulders,A.W.M.Tuytelaars,T.:Fine-grai ne dcate g et e grizatin nments。In:ICCV.pp. 171314. 格尔希克河Donahue,J.,Darrell,T.,Malik,J.:丰富的功能层次结构,可实现准确的数据块和语义段。In:CVP R.pp. 第58015. Gosselin,P. H.,Murray,N. Jgou,H.,Perronnin,F.:重新访问用于精细分级的Fisher向量。PATTERECOGNITIONLETTERS49,9216. 他,K.,张,X.,Ren,S.,孙杰:深度卷积神经网络中的空间金字塔池化用于虚拟重构。TPAMI37(9),190417. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。In:CVPR. pp. 77018. Herbrich,R.:有序回归的大边距秩边界。大间隔分类器的进展88(2000)19. Jaderberg,M.,西蒙尼扬,K.,Zisserman,A.,kavukcuoglu,k.:空间Transformer器网络工作。 ^^ 201720. 杰,Z.梁湘,冯杰,Jin X卢伟,Yan,S.:树结构的增强层用于均衡的局部计算。^^12721. Konda,V.R.:演员-评论家算法。暹罗控制与优化42(4),114322. Krause,J.,Jin,H.,杨杰,李菲菲:无需零件注释的细粒度识别。在:CVPR(2015年6月)23. Krause,J.,斯塔克M. Jia,D.,Li,F.F.:用于细粒度计算机的3D对象表示。In:ICCVWo rks ho ps.pp. 第55424. Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:具有深度卷积神经网络任务的图像网分类。 In:NIPS. pp. 109716Yang等人25. Lam,M.,Mahasseni,B.,Todorovic,S.:细粒度识别作为hsnet搜索信息图像部分。在:CVPR(2017年7月)26. Li,Z.,杨,Y.,Liu,X.,中国科学院院士,Zhou,F.,中国科学院院士,Wen,S.,徐伟:动态计算时间视觉上的注意。在:ICCV(2017年10月)27. Lin,T.Y.,Dollar,P.,格尔希克河他,K.,Hariharan,B.,Belongie,S.:用于对象检测的特征金字塔网络。在:CVPR(2017年7月)28. Lin,T.Y.,RoyChowdhury,A. Maji,S.:细粒度视觉识别. In:ICCV(2015)29. 刘杰,Kanazawa,A.,雅各布斯,D. Belhumeur,P.:狗品种分类法。In:ECCV. pp. 17230. Liu,T.Y.:学习为信息检索排序Found. 趋势信息Retr.3(3),22531. 刘伟,Anguelov,D.,Erhan,D.,塞格迪角Reed,S.,Fu,C.Y.,Berg,A.C.:Ssd:Singleshotmutiboxdetectorr. In:ECCV. pp. 2132. Liu,X.,中国科学院院士,Xia,T.,王杰,Lin,Y.:全卷积注意力定位网-作品:有效的注意力定位细粒度识别。CoRR(2016)33. 朗J Shelhamer,E.,达雷尔,T.:用于语义分段的全卷积网络。CVPR(2015年11月)34. Lowe,D.G.:从尺度不变的关键点中提取独特的图像特征IJCV(2004)35. Maji,S.,Kannala,J.,Rahtu,E.,Blaschko,M.,Vedaldi,A.:飞机的细粒度视觉分类。Tech.众议员(二零一三年)36. Moghimi,M.,Belongie,S.,Saberian,M.,杨杰,Vasconcelos,N.,Li,L.J.:B oostedc onvolneurnetor ks. In:B MVC. pp. 二十四岁1-24 13(2016)37. Redmon,J.,Divvala,S.,格尔希克河Farhadi,A.:你只看一次:统一的、可靠的数据结构。 In:CVPR. pp. 77938. Ren,S.,他,K.,格尔希克河孙杰:更快的r-cnn:面向实时对象去在两个工作中,我们都可以使用区域计划。 In:NIPS. pp. 9139. Russakovsky,O.,Deng,J.,Su,H.,Krause,J.,Satheesh,S.,妈妈,S.,黄志,Karpathy,A.,Khosla,A. Bernstein,M. Berg,A.C.,李菲菲:ImageNet LargeScaleV是一个简单的检索引擎。IJCV115(3),21140. Sermanet,P.,Eigen,D.张,X.,Mathieu,M.,费格斯河Lecun,Y.:特长:使用卷积网络集成识别、定位和检测。Arxiv(2013)41. Uijlings,J.R.,Sande,K.E.,Gevers,T.Smeulders,A.W.:Selective search for object是的。IJ CV104(2),15442. Wah,C.,Branson,S.,Welinder,P.Perona,P.,Belongie,S.:Caltech-UCSD鸟类-200 -2011数据集。Tech.众议员(2011年)43. Wang,D.,中国科学院,沈志,邵,J.,张伟,Xue,X.,中国科学院,张志:多粒度Descr i ptorsfor finee-grai ne dcategorizatio n.In:ICCV.pp. 239944. Xia,F.,中国农业大学,Liu,T.Y.,王杰,Li,H.,Li,H.:学习排序的列表法:算法与规则。In:ICML.pp. 119245. 谢伊湖,加-地田,Q,洪河Yan,S.:细粒度的分层零件匹配V isualcateg or izaton. In:I C CV. pp. 164146. Zhang,N.,Donahue,J.,格尔希克河达雷尔,T.:用于细粒度检测的基于部分的rcnn。In:ECCV(2014)47. 张,X.,Xiong,H.,周文,林伟,Tian,Q.:挑选深层过滤器响应用于细粒度图像识别。在:CVPR(2016年6月)48. Zhao,B.,Wu,X.,中国农业科学院,冯杰,彭昆,Yan,S.:多样化的视觉注意力网络,用于精细化分组。 Trans. 穆尔蒂岛19(6),124549. 郑洪,Fu,J.,Mei T罗杰:学习多注意力卷积神经网络用于细粒度图像识
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功