细粒度图像识别中的基于深度搜索的HSnet架构

168 浏览量更新于2023-10-16 收藏 886KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2520细粒度识别作为HSnet搜索信息图像部分Michael Lam，Behrooz Mahasseni†，SinisaTodorovic俄勒冈州立大学Corvallis，OR{lamm，sinisa}@ oregonstate.edu<$behrooz. gmail.com摘要这项工作解决了细粒度的图像分类。我们的工作是基于这样的假设，即当处理对象类之间的细微差异时，关键是要识别和只考虑一些信息图像部分，因为剩余的图像上下文不仅可能是无信息的，而且可能会损害识别。这促使我们将我们的问题形式化为在深度卷积神经网络（CNN）产生的深度特征图上对信息部分的顺序搜索。该搜索的状态是图像中的一组提议边界框，其这两个功能通过长短期记忆网络（LSTM）统一到一个新的深度回流架构中，称为HSnet。因此，HSnet（i）生成信息图像部分的建议，以及（ii）融合所有建议以实现最终的细粒度识别。我们根据对象部分注释的可用性指定HSnet的监督和弱监督训练。对基准Caltech-UCSD Birds 200- 2011和Cars-196数据集的评估证明了我们相对于最先进技术的竞争力。1. 介绍本文讨论了细粒度目标识别问题。最近的工作在提高越来越多的对象类别的准确性方面取得了重大进展[26，21，16，38]。与普遍认为上下文线索很重要的一般对象识别相比，细粒度识别已被证明受益于识别关键对象部分并仅从这些部分学习以区分类似类别[4，5，44，45，8]。在本文中，我们通过引入和评估一个新的基于深度搜索的框架来继续这一研究方向。我们的工作似乎有点孤立，但在最近的背景下，图1：我们的方法概述。给定一幅图像，我们使用HSnet顺序搜索图像中有区别的边界框，并融合所有未覆盖的图像部分进行细粒度识别。HSnet提供了一个统一的框架来共同学习启发式函数和后继函数，前者评估搜索状态，后者在搜索空间中提出新的状态。深度学习在各种视觉问题上的进展，包括对象跟踪[34]，活动识别[27]以及细粒度对象识别[22，38]。所有这些方法都证明了当初始训练数据集用额外的噪声数据增强时，用于通过围绕地面实况轨迹的随机采样来学习跟踪器，或者用于通过下载因特网上Google搜索的噪声结果来学习细粒度类的图像来学习细粒度对象检测器因此，最近的研究结果支持并推动了一系列关于如何从各种多模态来源获得更多训练数据的新研究，因为这通常会然而，在需要细粒度识别的广泛应用中，很难（如果不是不可能的话）获得额外的基础事实或军事，双-2521化石的图像为了解决这些应用，在本文中，我们专注于如何更优化地操作现有的数据，以提取最有区别的功能，并删除可靠的细粒度识别的背景。我们的方法基于这样的假设，即非常相似但不同的对象类之间的细微差异通常采用对象部分的形式。因此，这些部分必然会产生最具鉴别力的特征，用于细粒度识别。由于所考虑的对象是相似的，因此对象的空间范围的其余部分由于这些部分的总数、位置、形状以及通常的语义含义都不是先验已知的，因此我们开发了一种基于搜索的方法，• 顺序地揭示有区别的图像部分，以及• 在整个搜索轨迹上进行识别。图1示出了我们的方法的概述。在我们的方法中，图像定义了图像边界框的搜索空间在这个搜索空间中，我们运行一个搜索al-出租m，它针对给定的搜索状态提出并移动到一个新的状态，直到一个时间界限。给定时间的搜索状态由直到该时间为止访问的边界框建议定义搜索由两个功能定义。当前状态的succes- sor函数在搜索空间中提出一个新的状态。启发式函数对状态进行评分，即，在图像中访问的所有边界框，并且以这种方式引导搜索朝向用于识别的最佳图像部分。当搜索时间到期时，在最后一个状态上的分类器用于识别。我们的主要贡献是制定新的深度架构，称为HSnet，用于计算我们在图像中的顺序搜索的上面的递归和后继函数。HSnet通过CNN接地到图像，由三个组件组成：H层用于计算启发式函数，S层用于实现后继函数，长短期记忆（LSTM）[14]用于捕获搜索轨迹上的长程依赖关系。因此，HSnet的作用是双重的：以评估边界框候选并提出新的边界框候选。由于LSTM具有内存，因此我们的顺序搜索并不贪婪。也就是说，LSTM的内存使我们能够将搜索状态的累积定义为在该状态之前访问的所有绑定框的集合。因此，HSnet具有用于处理不确定性的内置鲁棒性机制（例如，遮挡、缺失部分、形状变形），因为识别并不完全取决于搜索结束时未被覆盖的最后一组边界框。对基准Caltech-UCSD Birds 200- 2011和Cars-196数据集的评估证明了我们相对于最先进技术的竞争力。接下来，SEC。2将我们的方法在上下文的先前工作，第二。3指定我们的方法，和SEC。4介绍了我们的成果。2. 相关工作细粒度识别。有一个广泛的方法，已经开发了细粒度的对象识别[9，40，41，39，4，5，44，45，8，26，21]。这些方法通常通过识别和推理细粒度类中存在的对象部分的布局结构来区分相似类之间的细微差异[4，5，44，45，8]。我们的方法与现有的工作有关，这些工作旨在使用很少或不使用部件的监督来找到对象部件[9，11，7，16]。例如，最近的工作[21]结合了对齐和共分割来生成没有注释的部件。此外，在[16]中，通过使用可微空间变换模块增强现有CNN架构，在不需要部分注释的情况下学习信息对象部分。与这些方法相比，我们的HSnet具有内置的细化机制来搜索越来越多的信息部分，从而提高识别率，以及在推理过程中对错误识别部分的鲁棒性机制。物体检测。我们的工作与最近的目标检测方法最相似[12，31，30]。在先前的工作中，对象检测已经被应用于细粒度分类其中R-CNN [12，31，44]被训练来检测对象部分。与这些预测对象部分以一次性分类图像的工作相反，我们采用顺序推理利用LSTM来搜索对象部分以分类图像。此外，我们不能直接使用这些方法，因为它们的对象建议是基于对象的，而我们需要对象部分，而部分不是对象。搜索在视觉中有许多基于搜索的方法[13，10，19，29，32]。例如，使用蒙特卡罗马尔可夫链（MCMC）解决了图形模型的能量最小化问题，进而可以查看作为一个搜索[3]。我们的方法与那些寻求学习训练数据搜索的启发式和后继函数的方法密切相关，而不是使用启发式[2，35，18，32，25]。这些方法通常将启发式和后继函数定义为分开训练的单独模块。相比之下，我们参数化我们的启发式和后继函数，使它们具有相同的预测器来评估和提出搜索候选日期。此外，我们指定了一个统一的启发式和后继函数的端到端学习。注意力模型。我们的方法也和冰毒类似-2522≥0用于估计视觉注意力的ODS。注意力模型旨在识别最负责识别的区别性图像部分[37，28，6，43]。虽然大多数注意力模型一次只关注一个边界框或图像的一部分（例如，[6]），我们的HSnet一次识别和推理图像的多个部分。我们的方法最接近Jaderberg et al.[16]，因为他们的方法可以被解释为多注意估计;然而，我们也使用顺序推理和搜索。3. 技术途径3.1. 搜索全体本节阐述了我们的搜索框架。搜索被定义在搜索状态s∈S的空间中，其中S可以是计算上难以处理的或不可处理的，就像我们的情况一样搜索算法A是迭代自适应程序，其产生从给定初始状态s0到结束状态sτ的轨迹：[s0，s1，. . . ，sτ]。A通常由两个函数引导，称为启发式函数和后继函数。每个状态s可以使用启发式函数H：s→R来分配一个分数。有很多方法可以定义H。例如，当目标状态已知时，A* 搜索使用根据到目标状态的距离指定的启发式函数。目标国家。最近的工作试图在训练数据上学习H[2，35，18，32，25]。当搜索时间到期时，或者可替换地当分数H（sτ）大于阈值时，可以达到结束状态sτ文献还介绍了其他更复杂的何时停止搜索的规定在难以处理的S的情况下，搜索需要搜索-用于部分地构造搜索空间的后继函数S。S{s1，s2，… sk} s，即，构造了一组有限的新状态可以通过从s搜索到达的。德的细节由特定的搜索算法来定义扩展什么以及何时扩展。例如，在贪婪搜索中，具有最高H分数的邻居是下一个要扩展的给定状态。在下一节中，我们将细粒度识别公式化为搜索。3.2. 图像包围盒我们在CNN生成的深度特征图上执行搜索，以找到图像中信息量最大的边界框进行识别。因此，我们的搜索空间S在深度特征图中的边界框配置上定义。图图2展示了一个示例搜索轨迹，并概述了我们基于搜索的推理是如何工作的。CNN将图像映射到深度特征映射，x∈RH×W×C，其中H是高度，W是宽度，C是通道数。卷积层后期已经证明，深层架构可以产生信息丰富的对象特性特征[42]，因此我们将使用它。图2：我们的搜索框架。给定时间的搜索状态由图像中直到该时间为止访问的边界框建议定义搜索是由一个名叫-ticH和后继S函数，它们是统一的，并使用HSnet联合学习。S提出新的状态，H给状态打分，直到时间界限τ。的一个组成部分HSnet是LSTM，其内存融合了沿着搜索轨迹访问的所有候选边界框。HSnet的soft-max层输出最终识别结果。边界框i的位置由元组l（i）=（x（i），y（i），w（i），h（i））参数化，其中（x（i），y（i））是中心，并且（w（i），h（i））是宽度和高度。l（i）的范围在0和1之间归一化。由x（i）表示的边界框i的深度特征可以在整个图像的x中确定性地在时间t的搜索状态st∈ S由在t之前访问的K （t）个边界框组成， st=（lt，xt），其中lt={l（i）：i= 1，. . .，K（t）}，并且类似地，xt={x（i）：i = 1，. . . ，K（t）}。给定初始状态s0，我们的搜索算法发现了一个轨迹[s0，s1，. . . ，sτ]直到时间约束τ。我们的搜索由启发式H和后继S函数指导，这些函数由单个深度架构统一和估计，如图所示。二、具体地说，我们将H和S参数化为HSnet，使得它们具有相同的预测器来评估并提出新的搜索状态。此外，这允许我们指定H和S的统一端到端学习。给定当前状态st，H计算一个矩阵分数向量，H（st）=φt。将启发式得分传递给S以提出一组k≥1个边界框，S（φt）= [（l（1），x（1））。. . ，（l（k），x（k））]。这2523图3：HSnet由H层、S层和LSTM组成。CNN从图像中提取深度特征图x。H层实现H. 它计算启发式得分从k个当前边界框[x（1）. . . x（k）] （标记红色）。S层实现了S.它采用φ，LSTM理论和边界框[l（1）]的位置。. . l（k）]作为输入，并提出k个空间偏移[0（1）。. . [1][2][3][4][5][6][7][8][9][10] . . l（k）]。这是通过经常性的链接反馈到去-在图像中精细的新边界框在τ搜索步骤之后，软最大层C被用于细粒度识别y。MLP是多层感知器，ROIP是感兴趣区域池，SM是softmax层，R是回归。状态st+1=（lt+1，xt+1）= [st，S（φt）]，其中所考虑的边界框的数目增加到K（t+ 1）=K（t）+k。在每个搜索步骤中，S（φt）预测边界框在时间t−1相对于先前k个预测的k个空间位移，也称为偏移。在我们的实验中，预测偏移量而不是绝对位置，边界框产生了更好的性能。请注意，随着k变大，H和S增加了参数的数量，这反过来又变得更难鲁棒学习。我们的方法在Alg中进行了总结。1.一、在下一节中，我们指定HSnet。3.3. HSnet我们将H和S参数化为HSnet。如示于图3、HSnet将当前状态作为输入，并产生下一个状态。HSnet由三部分组成S-layer和LSTMLSTM [14]是一个递归神经网络，算法1基于搜索的细粒度识别1：输入：初始状态s0，时间界限τ2：输出：预测第三章：计时器t：=04：当t τdo第五章：启发式特征φt：=H（st ） 6 ：下一状态st+1 ：=st+S（φt）7：t：=t+ 18：结束时9：预测yτ：=C（sτ）ory细胞。 LSTM已成功地用于解决广泛的视觉问题，如顺序决策。在本文中，我们使用基本的1层LSTM架构[14]。请注意，我们对所有访问过的边界框的累积搜索状态的定义是由LSTM内存启用的。H层实现H. H层采用k个边界框[x（ 1 ）]的深度特征。. . x（k）]，并输出启发式的向量scores，φ。在R-CNN文献[12，31]中，这些绑定框也称为感兴趣区域（ROI）。每个ROI被传递到感兴趣区域池化层（ROIP）以获得固定大小的矢量表示。然后，所有的ROI被连接并通过多层分光器（MLP）以产生φ作为输出。S层实现了S.如图3，作为输入，S层接受φ，以及LSTM的内容。k个边界框[l（1）]的理论和位置。. . l（k）]。该输入被传递到多层感知器，用于预测k个空间偏移[o（1）]。. . o（k）]相对于[l（1）. . . l（k）]。来自S层的输出的偏移的预测经由递归链路被反馈以在图像中定义新的边界框。在τ搜索步骤之后，使用软最大层C来预测细粒度类别y。注意，我们的复杂度低于梁搜索（在许多先前的工作中使用），因为我们的H和S联合处理所有k个边界框。我们的复杂度也与视频序列的标准LSTM处理相当，因为我们的H和S相对3.4. 学习HSnet在本文中，我们考虑在两种情况下学习HSnet(1) 可访问零件位置的注释，以及(2) 在训练数据中不提供部件注释。在这两种设置中，HSnet中所有三个组件的端到端学习都是使用基于梯度的时间反向传播（BPTT）来执行的，该方法通常用于训练LSTM。当搜索到达时间2524不不定义 τ ， HSnet 的 soft-max 输出用于预测类别标签y_max。该分类损失通过附加损失函数来调节，附加损失函数针对上述两种设置中的每一种不同地定义。带零件注释。当零件注释可用时，我们能够正则化HSnet的学习，以预测边界框的位置，使它们更好地具有地面实况部分注释。具体来说，我们用预测的边界框和最接近的地面实况部分之间的欧几里得距离来规则化学习。对于k个部分，正则化是k个欧几里德距离的和。我们在每个搜索步骤t计算这个和，并用正则化参数λt对其进行加权。因此，我们在此设置中的正则化损失定义为：图4：10个框搜索的初始状态的边界框的位置和大小（如Cars-196中所用我们使用一个由9个盒子组成的规则网格，除了每个盒子稍微大一点，以便与相邻的盒子重叠为了清楚起见，黄色表示所提及的9个框中的第10个盒子在中间，尺寸较大，用橙色表示ΣτL=− logp（y）+t=1Σkλtl（i）i=1-β1（1）β2，（一）4. 实验4.1. 设置其中第一项是交叉熵损失，第二项是第二项是正则化。在（1）中，y表示地面真值类标签，p（y）表示地面真值类的HSnet的软最大值得分，l（i）是部分i的地面真值位置，λl（l）是在搜索步骤t处最接近l（i）的边界框的位置预测（greatly完成），λt是在搜索步骤t处的正则化超参数。没有部件注释。当训练数据中没有提供地面实况部分符号时，我们寻求对HSnet的学习进行正则化，以预测边界框的位置，使它们在视觉上多样化。为此，我们正则化的交叉熵损失与一个长期的特征在于由行列式点过程（DPP）。DPP已被广泛用于学习中的正规化[24]。在这种情况下，我们的正则化损失定义为ΣτL（y，y）=−logp（y）−λtlogPt（2）t=1其中第一项是交叉熵损失，第二项是DPP正则化。超参数λt控制DPP正则化的大小。Pt是在搜索步骤t具有不同边界框的概率，定义为Pt= det| Ωk|/det|+I|. 是所有可能之间的仿射的半正定核矩阵，ble边界框，并且bk表示对k个所选边界框的bk亲和度被指定为位置之间的逆欧几里德距离。确定性检测|Ωk|量化k个位置的多样性。因此，多样性越高，Pt越高。即使我们无法访问此设置中的零件位置，我们仍然能够规范绑定框的位置DPP不鼓励只学习单个对象部分的琐碎解决方案。在预测的零件位置上没有DPP或一些其他训练信号的情况下，仅利用分类目标进行训练将困难得多数据集。我们在CUB-2011 [36]和Cars-196[23]数据集。CUB-2011包含11，788张图片，共200张鸟类物种，通常被认为是细粒度识别最具竞争力的数据集之一Cars-196拥有196种车型的16，185张图片。两个数据集在每个图像中都有一个边界框注释（针对整个对象，而不是每个部分），CUB-2011还包含粗略分割和每个图像注释的15个关键点。在我们的实验中，我们不使用边界框或分割注释。评估设置。对于CUB-2011和Cars-196，我们遵循[36，23]提供的列车和测试拆分。指标. 我们的评估指标是top-1准确度，其中正确的分类定义为当地面真实标签出现在前1个最有信心的预测中时。初始搜索状态。我们的初始搜索状态包含以图像中先前位置为中心的k个边界框对于CUB-2011，我们设置k= 15，因为有15个鸟部件可供监督。我们为Cars-196设置k= 10，因为我们根据经验观察到k= 10具有准确性和速度的最佳折衷。我们设计了初始状态，使初始框处于重叠网格中。图4示出了k= 10个边界框的示例，其中九个框被布置在网格中，并且第十个框位于图像的中心。我们发现这比随机初始化更好，后者更难训练。我们还发现，最好先用多个边界框覆盖整个图像，以获得迭代次数。我们凭经验确定τ= 15最适合CUB-2011，τ= 10最适合Cars-196。我们用τ=1、2、5、10、15、20、25、50，并确定了最佳权衡每个数据集的准确性和计算时间。事实证明，粗略地设置τ=k会产生最佳性能。2525一种可能的解释是，即使同时细化多个边界框，每个时间步也可以集中我们还将正则化超参数λt设置为线性时间表，当t=τ时具有最大权重。实施详情。对于我们的 CNN ，我们采用了GoogLeNet架构，并在ImageNet [33]上进行了批处理归一化[15]预训练由于ImageNet包含多个从我们的其他数据集的图像进行评估，我们从训练中删除它们。我们使用Caffe [17]从图像中提取特征映射，使用TensorFlow [1]实现HSnet。在ROIP（兴趣池化区域）之后的MLP（多层感知器）层包含两个大小为4096的完全连接的层。LSTM之后的MLP层包含一个大小为2048的层。LSTM包含2048个隐藏单元。我们使用Adam optimizer使用默认参数训练我们的框架4.2. 基线我们定义了以下基线方法。B1. CNN：给定一个图像，CNN直接预测类。我们像[16]中所做的那样微调预训练模型。B2. CNN与地面实况边界框：给定一个图像，CNN产生一个特征图，然后神经网络仅基于k个边界框的内容预测类，初始化为地面实况部分位置。这可以被认为是搜索的一个时间步长，其中初始状态被设置为地面实况部分。我们希望这个请注意，此基线仅适用于CUB-2011，其中包含带注释的部件位置。由于只给出了零件位置而没有给出边界框大小，因此我们根据经验确定64是16、32、64、128中的最佳大小B3.具有一个真实边界框的HSnet：在此基线中，HSNet接受一个边界框而不是k个边界框作为输入。HSnet针对k个时间步的固定序列（在搜索开始之前预先确定）运行，其中在每个时间步处，基于k个部件注释提供地面实况边界框。没有使用HSnet的专业人员。此外，我们的损失函数只包含分类目标，因为搜索中的“建议”边界框已经是基础事实。在这个“作弊”基线中，我们想表明对象部分的顺序推理是合理的。请注意，此基线也仅适用于CUB-2011。再次，我们根据经验确定64是最好的盒子大小。B4.带有一个边界框的HSnet：这baseline类似于B3，除了使用HSnet预测的下一个边界框而不是使用地面实况边界框这个基线仍然只使用一个边界框而不是k个框。初始框是图中的中心框。4.第一章对于每个序列，我们只关注一个部分。我们对每个图像的所有对象部分进行训练。注意，使用k表1：CUB-2011鸟类数据集的定量结果。还指定了训练期间使用的注释：“GT”表示地面实况类别标签，“BB”表示边界框注释，“parts”表示部件注释，“web”表示使用web数据扩充数据集。方法使用的注释精度Krause等人[21日]GT+BB82.8Jaderberg等人[16个]GT84.1Xu等人[38个]GT+BB+零件+腹板84.6Lin等人[26日]GT+BB85.1B1GT82.3B2GT+零件83.1B3GT+零件86.2B4GT+零件85.7HSnetGT+零件87.5表2：Cars-196数据集的定量结果。还规定了培训期间使用的注释：“GT”表示地面实况类别标签，“BB”表示绑定框注释，并且“部件”表示部件注释。方法使用的注释精度Deng等人[八]《中国日报》GT+BB63.6Krause等人[23日]GT+BB67.6Krause等人[20个]GT+BB73.9Lin等人[26日]GT91.3Krause等人[21日]GT+BB92.6B1GT88.5B4GT+零件92.2HSnetGT+零件93.9框导致我们提出的方法。4.3. 定量结果表1将我们的主要结果和基线与之前在CUB-2011上的工作进行了比较。我们在CUB-2011上的结果与最先进的技术相比具有竞争力，提高了约3%。基线B1和B2具有可比性，这表明删除某些上下文不会损害识别。B3和B4比B1和B2产生更高的准确率，这表明顺序推理确实有帮助。B4比B3稍差，因为B4中不存在地面实况。最后，我们的完整框架比所有基线都要好，这表明多个提案比一次一个提案更好。我们还认为，我们的方法比B3更好，因为我们的模型观察到不同大小的边界框的多个观察结果，而B32526(a) 左腿，右腿，腹部，喉咙，左翼，胸部，尾巴，颈背（b）左眼，右眼，前额，右翼，背部，头顶，比尔图5：CUB-2011数据集上作为时间步长函数的平均偏移量图，其中偏移量是地面实况部件位置和预测位置之间的距离不同的颜色表示不同的部分，总共15个部分分为两个图。偏移量随时间减小，表明边界框正在收敛到接近地面实况部分。增加，平均偏移量减少，表明我们的框架正在学习本地化部分。(a) 平均图像（b）零件集群图6：（a）从汽车图像计算的平均图像。这表明大多数汽车的图像都是从前面拍摄的。(b)显示零件群集的地图。中心表示部件的平均位置，圆圈表示这些中心的范围。零件位置主要与汽车的前部和图像的中心对齐，其中汽车的大部分平均存在。仅使用一个具有固定大小的边界框。表2将我们的主要结果和基线与之前在Cars-196上的工作进行了比较。由于零件注释不适用于Cars-196，因此我们只能执行基线B1和B4。值得注意的是，B4的表现明显优于B1，这再次支持了顺序推理的表现优于一次使用CNN的识别。总的来说，我们的完整框架比基线表现得更好，并且与以前的最先进的技术相比也具有竞争力。图5绘制了CUB-2011的预测零件位置与地面实况零件位置的平均偏移量图显示，随着时间步长的增加，4.4. 定性结果图7示出了针对鸟类的几个图像预测的边界框的序列。我们展示了两个成功案例和一个失败案例，其中成功案例是当最终预测的类是正确的，否则是失败的。我们可以看到，随着时间步长的增加，盒子开始转向鸟的部分。这些成功案例是有意义的，因为训练目标考虑了地面实况零件位置。对于失败的情况，一些边界框不收敛到地面实况部分。尽管如此，一些框仍然收敛到注释部分。虽然有些边界框不会落在对象上，但LSTM有一个强大的记忆机制来记住重要的部分。因此，分类并不关键地取决于在最终时间步长处的错误检测。在成功的案例中，这一点也很明显，一些盒子本可以被细化到更好的位置和尺寸。由于没有为Cars-196提供零件注释，因此我们无法将零件预测与地面实况进行定量比较。相反，我们将算法预测的平均零件位置可视化。图6显示了Cars-196数据集的平均图像，并显示了针对汽车数据集预测的零件位置的聚类。平均图像显示，汽车的大多数图像都是从前面拍摄的，这意味着我们可以预期一些平均零件位置与汽车的前部对齐。事实上，平均而言，大多数零件都与汽车的前部对齐。所有部分都在图像的中心附近，大多数汽车都在那里2527(a)t= 5（b）t= 10（c）t= 15（d）GT(e)t= 5（f）t= 10（g）t= 15（h）GT(i)t= 5（j）t= 10（k）t= 15（l）GT图7：为一些图像预测的边界框序列。上面两行是成功案例，下面一行是失败案例，其中成功案例是正确的分类，失败是不正确的分类。我们展示了时间步长t= 5，10，15，其中t= 15是用于分类的最后一个时间步长我们还比较了这些边界框的位置使用地面实况位置（表示为GT），其中这些框的大小固定为64 ×64。在成功的案例中，边界框的序列正在收敛到GT，这表明我们的框架正在学习检测部件。平均来说此外，平均部分位置相对不同，覆盖平均图像的大部分而不是仅几个位置。最后图6表明，我们的方法发现了视觉上不同的部分，也是歧视性的，所需的细粒度分类。5. 结论我们提出了一个基于搜索的框架，具有用于细粒度识别的深层体系结构，可获得有竞争力的结果。我们提出了一种基于搜索的架构，其中搜索空间定义在CNN的卷积特征图上，启发式和后继函数由一种名为HSnet的新深度网络架构参数化。HSnet是一个内置的重新制定除了在推理期间防止错误识别部分的鲁棒性机制之外，还提供了我们指定了两个训练设置，一个是零件位置注释可用的设置，另一个是零件位置注释不可用的设置，后者是通过确定点过程损失来解决的，以获得不同的建议。最后，我们在Caltech-UCSD Birds 200-2011和Cars-196数据集上的实验结果表明，关于对象部分的序列推理和去除背景上下文对于细粒度识别是有效的。鸣谢。这项工作是支持部分由DARPA XAI、NSF RI 1302700和NSF GRFP 1314109-DGE提供。2528引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C. 西特罗湾S. Corrado，A.Davis，J.Dean，M.Devin，S.盖-马瓦特岛。Goodfellow，A.Harp，G.Irving，M.Isard，Y.贾，R. 约瑟夫·奥维茨湖Kaiser，M.Kudlur，J.L evenber g，D.妈妈，R. Monga、S.穆尔，D.默里角奥拉山舒斯特J. Shlens，B.施泰纳岛Sutskever，K. Talwar，P. Tucker，V. Vanhouc k e，V. Vasud ev an，F. Viegas，O. Vi nyals，P. 等等，M。Wattenberg，M.Wicke，Y.Yu和X.郑张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。6[2] M. R. Amer，D. Xie，M. Zhao，S. Todorovic和S.- C.竹多尺度活动识别的成本敏感自上而下/自下而上推理。欧洲计算机视觉会议，第187-200页。Springer，2012.二、三[3] A. Barbu和S.- C. 竹将swendsen-wang推广到任意后验概率抽样。IEEE Trans- actions on Pattern Analysis andMachine Intelligence，27（8）：1239-1253，2005. 2[4] T. Berg和P.贝尔胡默尔Poof：基于零件的一对一一个特征用于细粒度分类、面部验证和属性估计。在IEEE计算机视觉和模式识别会议集，第955- 962页一、二[5] S.布兰森湾Van Horn，S. Belongie和P.佩洛娜基于姿态归一化深度卷积网络的鸟类分类。arXiv预印本arXiv：1406.2952，2014年。一、二[6] J. C. Caicedo和S. Lazebnik使用深度强化学习进行主动目标定位。在IEEE计算机视觉国际会议论文集，第2488-2496页，2015年。3[7] Y. Chai，V. Lempitsky，and A.齐瑟曼。用于细粒度分类的共生分割和部分定位。在IEEE计算机视觉国际会议论文集，第321-328页，2013年。2[8] J. Deng，J.Krause和L.飞飞细粒度众包，用于细粒度识别。IEEE计算机视觉和模式识别会议论文集，第580-587页，2013年。一、二、六[9] K. Duan，中国粘蝇D.Parikh，D.Crandall，and K.格劳曼发现用于细粒度识别的本地化属性在Computer Visionand Pattern Recognition （ CVPR ）， 2012 IEEEConference on，第3474-3481页中IEEE，2012。2[10] P. F. Felzenszwalb和D.麦卡莱斯特广义 a* architecture.Journal of Artificial Intelligence Research ， 29 ： 153-190，2007. 2[11] E. 加夫韦斯湾费尔南多角G. Snoek，A.W. Smeulders，以及T. Tuytelaars通过比对进行细粒度分类。在2013年IEEEInternational Conference on Computer Vision的论文集，第1713-1720页。2[12] R.娘娘腔。快速R-CNN。IEEE国际计算机视觉会议，第1440-1448页，2015年二、四[13] P. 古普塔角Doermann和D.德门森支持向量机缺陷自动分类中特征选择的波束搜索模式识别，2002年。诉讼第16届国际会议，第2卷，第212-215页。IEEE，2002年。2[14] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735-1780，1997。二、四[15] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。 arXiv 预印本 arXiv ：1502.03167，2015。6[16] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。神经信息处理系统进展，2017-2025页，2015年。一、二、三、六[17] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构 arXiv 预印本 arXiv ：1408.5093，2014。6[18] K. M.基塔尼湾D. Ziebart，J. A. Bagnell和M.赫伯特活动预测。欧洲计算机视觉会议，第201-214页。Springer，2012. 二、三[19] I. Kokkinos基于双树分枝定界的快速变形目标检测。神经信息处理系统进展，第2681-2689页，2011年。2[20] J. Krause，T. Gebru，J. Deng，L. J. Li和F.- F.李学习特征和零件以进行细粒度识别。载于ICPR第2卷第8页。Citeseer，2014. 6[21] J. Krause，H. Jin，J. Yang，and L.飞飞无需零件注释的细粒度识别。在2015年IEEE计算机视觉和模式识别会议，第5546-5555页中。一、二、六[22] 克劳斯， B. 萨普 A. 霍华德 H. 周先生， A. 托舍夫T. Duerig，J. Philbin，and L.飞飞噪声数据对细粒度识别的不合理影响。arXiv预印本arXiv：1511.06789，2015年。1[23] J. Krause，M. Stark、J.Deng和L.飞飞用于细粒度分类的3D对象表示。在IEEE计算机视觉研讨会国际会议论文集，第554-561页，2013年。五、六[24] A. Kulesza和B.Taskar 机器学习的行列式点过程arXiv预印本arXiv：1207.6083，2012。5[25] M. Lam，J. Rao Doppa，S. Todorovic和T. G.迪特里希计算机视觉中结构化预测的hc搜索。IEEE计算机视觉和模式识别会议论文集，第4923-4932页，2015年。二、三[26] T.- Y. Lin，L.RoyChowdhury和S.玛吉用于细粒度视觉识别的双线性cnn模型在IEEE计算机视觉国际会议论文集，第1449一、二、六[27] B. Mahasseni和S.托多洛维奇使用3D人体骨骼序列对长短期记忆进行规则化，用于动作识别。在CVPR，2016年。1[28] 诉Mnih，N.Heess，A.Graves等人视觉注意的循环模型神经信息处理系统进展，2014年，第2204-2212页。3[29] N. Payet和S.托多洛维奇Sledge：用于边界检测的图像边缘的顺序标记。 International Journal of ComputerVision，104（1）：15-37，2013。2[30] J.雷德蒙，S.迪夫拉河，巴西-地Girshick和A.法哈迪。你只看一次：统一的实时物体检测。arXiv预印本arXiv：1506.02640，2015年。2[31] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-time object detection with region proposal networks.在2529神经信息处理系统的进展，第91-99页，2015年。二、四[32] A. Roy和S.托多洛维奇互斥约束下使用波束搜索的场景标注在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，第1178二、三[33] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein 等人图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211 6[34] R. Tao，E. Gavves和A.史默德斯搜索跟踪的连体实例。在CVPR，2016年。1[35] O. 泰布尔岛科基诺斯湖 Simon，P. Koutsourakis，andN.帕拉吉奥斯通过强化学习的形状语法分析。在计算机视觉和模式识别（CVPR），2011 IEEE会议上，第2273IEEE，2011年。二、三[36] C. Wah，S.布兰森山口韦林德山口Perona和S.贝隆吉Caltech-UCSD鸟类-200 -2011数据集。技术报告CNS-TR-2011-001，加利福尼亚理工学院，2011年。5[37] K. Xu，J. Ba，R. Kiros、K. Cho，A.库维尔河萨拉胡特-迪诺夫河S. Zemel和Y.本吉奥。显示、出席和讲述：具有视觉注意的神经图像字幕生成。arXiv预印本arXiv：1502.03044，2（3）：5，2015。3[38] Z. Xu，S. Huang，Y.黄氏Y. Zhang和D.涛.使用web数据增强在IEEE计算机视觉国际会议（ICCV），2015年12月。1、6[39] S.扬湖，澳-地Bo，J. Wang，and L. G.夏皮罗用于细粒度对象识别的无监督模板学习。神经信息处理系统进展，第3122-3130页，2012年。2[40] B. Yao，G. Bradski和L.飞飞一种

下载后可阅读完整内容，剩余1页未读，立即下载