细粒度图像识别中的破坏和构造学习

187 浏览量更新于2023-10-19 收藏 2.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43215157基于破坏和构造学习的细粒度图像识别Yue Chen1Yalong Bai2Zhang Wei3 Tao Mei4 JDAI Research，北京，中国1chenyue21@jd.com，ylbai@outlook.com 2www.example.com，3www.example.comwzhang.cu @ gmail.com，4tmei@live.com摘要精细的物体特征表示在细粒度识别中起着至关重要的作用例如，专家甚至可以根据专业知识仅依靠对象部分来区分细粒度对象在本文中，我们提出了一种新的除了标准的分类骨干网络，另一个更具体地说，对于为了正确地识别这些破坏的图像，分类网络必须更加注意区分区域以发现差异。为了补偿由RCM引入的噪声，应用区分原始图像和破坏图像的对抗性损失来抑制由RCM引入的噪声模式对于通过联合训练和参数共享，我们提出的DCL注入更多的判别局部细节的分类网络。实验结果表明，我们提出的框架，工作达到国家的最先进的性能在三个标准的基准测试。此外，我们提出的方法不需要任何外部知识在训练过程中，并没有在推理时间的计算开销，除了标准的分类网络前馈。原始程式码：https://github.com/JDAI-CV/DCL。1. 介绍在过去的十年中，在大规模的*同等缴款。注释数据集和复杂的模型设计。然而，识别细粒度的对象类别（例如，鸟类[3]、汽车模型[14]和飞机[18]）仍然是一项具有挑战性的任务，吸引了广泛的研究关注。虽然细粒度的对象在粗略的一瞥下在视觉上是相似的，但是它们可以通过区分性局部区域中的细节来正确识别。在细粒度图像识别中，从具有区分性的部分中学习具有区分性的特征表示起着关键作用现有的细粒度识别方法可以大致分为两类，如图1所示一个组（a）首先定位有区别的对象部分，然后基于有区别的区域进行分类这些两步方法[21，11，1]大多需要在对象或部件上附加边界框注释，这是昂贵的收集。另一组（b）试图以无监督的方式通过注意机制自动定位区分区域，因此不需要额外的注释。然而，这些方法[7，42，41，22]通常需要额外的网络结构（例如，注意力机制），并因此为训练和推理阶段引入额外的计算开销。在本文中，我们提出了一个新的细粒度图像识别框架，名为“破坏与构造学习”（DCL），如图1（c）所示。除了标准的分类骨干网络，我们引入了一个DCL流，从判别区域自动学习该算法首先对输入图像进行细致的破坏，以突出局部细节，然后进行重构，以模拟局部区域之间的语义相关性。一方面，DCL自动定位有区别的区域，因此在训练时不需要任何额外的知识。另一方面，DCL结构仅在训练阶段采用，因此在推理时不引入计算开销。对于 “ 破坏 ” ，我们提出了一个区域混淆机制（RCM）来故意“混淆”全局结构，该机制将输入图像划分为局部块，然后随机将其打乱（图3）。对于细粒度识别，局部细节比全局结构起着更重要的作用，因为来自不同细粒度的图像43215158检测毁灭建设(a)(b)（c）第（1）款图1.两个以前的一般框架（a，b）和我们提出的框架（c）的细粒度分类的说明。(a)基于两阶段零件检测的框架. (b)基于注意力的框架。(c)我们提出的破坏和建设学习框架。虚线中的网络结构在推断期间被禁用。粒度类别通常共享相同的全局结构或形状，但仅在局部细节上不同。丢弃全局结构并保留局部细节可以迫使网络识别并专注于有区别的局部区域进行识别。毕竟，魔鬼在细节中。在自然语言处理中也采用了洗牌[15]，让神经网络专注于有区别的单词。类似地，如果图像中的局部区域被使用RCM，图像的视觉外观已经被实质性地改变。如图3的底行所示，虽然识别变得更加困难，但鸟类专家仍然可以汽车爱好者可以通过检查汽车的零部件来区分汽车型号[34]。同样，神经网络也需要学习专家知识来分类破坏的图像。值得注意的是，“破坏”并不总是有益的作为副作用，RCM引入了几个嘈杂的视觉模式，如图3所示为了抵消负面影响，我们应用对抗损失来区分原始图像和破坏的图像。因此，可以最小化噪声图案的影响从概念上讲，对抗性和分类损失以对抗的方式工作，以仔细学习在通过学习恢复原始布局，如[19，6]，网络需要理解每个区域的语义，包括那些有区别的区域。通过可以对不同的局部区域进行建模。主要贡献概述如下：• 提出了一种新的对于破坏，区域混淆机制（RCM）迫使分类网络从有区别的区域学习，并且对抗性损失防止过度拟合RCM引起的噪声模式。在构造时，区域对齐网络通过对区域之间的语义相关性建模来恢复原始区域布局。• 在三个标准基准数据集上报告了最先进的性能，其中我们的DCL consis- tently优于现有方法。• 与现有方法相比，我们提出的DCL不需要额外的零件/对象注释，并在推理时不引入计算开销。2. 相关作品对于细粒度图像识别任务的研究主要是沿着两个维度进行的。一种是直接从原始图像中学习更好的视觉表示[26，25，28]，另一种是使用基于部分/注意力的方法[41，42，7，13]来获得图像中的区分区域并学习基于区域的特征表示。由于深度学习的成功，细粒度识别方法已经从基于手工特征的多级框架[39，36，23，10]转变为基于多个特征的多级框架[39，36，23，10]具有CNN功能的阶段框架[13，31，29]。二阶双线性特征相互作用被证明对视觉表示学习有显著的改善[16，30]。这种方法后来被扩展到一系列相关的工作，并进行了进一步的改进[12，4，8]。深度度量学习也用于捕捉细微的视觉差异。Zhang等人[40]引入了标签结构和三元组丢失的泛化来学习细粒度的特征表示。Chen等人[27]研究同时预测层次结构中不同级别的类别，并通过嵌入方法将这种结构化的相关信息集成到网络中。然而，这些成对的神经网络模型往往带来复杂的网络计算.还有大量的基于部分定位的方法，这些方法是关于对象部分对于学习细粒度分类的区分特征是必不可少的理论提出的Fu等人[7]提出了一种增强的注意力建议网络，以获得可区分的注意区域和基于区域的多尺度特征表示。Sun等人[20]提出了一个单压缩多激励模块来学习每个输入图像的多个注意区域特征，然后在度量学习框架中应用多注意多类约束。Zheng等[42]采用通道分组网络，通过聚类生成多个零件，关注43215159区域混淆机制分类网络特征向量区域对齐网络对抗性学习网络·········特征图位置矩阵图2.所提出的DCL方法的框架，其中包括四个部分。(1)区域混淆机制：用于混洗输入图像的局部区域的模块。(2)分类网络：将图像分类为细粒度类别的骨干分类网络。(3)对抗学习网络：对抗性损失被应用于区分原始图像和被破坏的图像。(4)区域对齐网络：附加在分类网络之后以恢复局部区域的空间布局。通过对这些特征的细化来预测输入图像的类别与早期的基于部分/注意力的方法相比，最近的一些方法往往是弱监督的，不需要部分或关键区域的注释[21，35]。特别地，Penget al. [21]提出了一种局部空间约束的方法来保证模型能够选择出有鉴别力的区域，并采用专门的聚类算法来整合这些区域的特征。Yang等[35]引入了一种方法来检测信息区域，然后仔细检查它们以做出最终预测。然而，区域间的相关性有助于建立对对象的深入理解，这一点通常被以往的研究所忽略研究[19]还表明，利用区域的位置信息可以增强神经网络的视觉表示能力，从而提高分类和检测任务的性能。我们提出的方法在三个方面不同于以前的工作其次，我们的公式不仅考虑了细粒度的局部区域特征表示，而且还考虑了整个图像中不同区域之间的语义相关性。第三，我们所提出的方法是高效的，除了骨干网络前馈在预测时间没有额外的开销。3. 该方法在本节中，我们将介绍我们提出的破坏和构造学习（DCL）方法。如图2所示，整个框架由四个部分组成。请注意，在推理时间内只3.1. 毁灭学习细节决定成败对于细粒度图像识别，局部细节比全局结构重要得多在大多数情况下，不同的细粒度类别通常共享相似的全局结构，仅在某些局部细节上有所不同。在这项工作中，我们建议仔细破坏全局结构，通过洗牌的局部区域，以更好地识别区分区域和学习区分特征（第3.1.1节）。为了防止网络从由破坏引入的噪声模式中学习，提出了一种对抗性对应物（第3.1.2节）来拒绝与细粒度分类无关的RCM诱导模式。3.1.1区域混淆机制作为自然语言处理的类比[15]，在句子中洗牌将迫使神经网络专注于有区别的单词，而忽略不相关的单词。类似地，如果图像中的局部区域被如图3所示，我们提出的区域混淆机制（RCM）旨在破坏局部图像区域的空间给定一幅输入图像I，我们首先将图像均匀地划分成N×N个子区域，用Ri，j表示，其中i和j分别是水平和垂直索引，1≤i，j≤N。受[15]启发，我们提出的RCM打乱这些分区的局部区域，高级损失位置损失Cls损失RCM43215160J我CLSCLSM我..在2D社区。对于R的第j行，生成大小为N的随机向量qj，其中ith元素qj，i=i+r，其中r<$U（−k，k）是在[−k，k]范围内遵循均匀分布的随机变量。这里，k是定义邻域范围的可调参数（1 ≤ k

下载后可阅读完整内容，剩余1页未读，立即下载