基于部件的卷积神经网络中用于视觉对象识别的共现层

31 浏览量更新于2023-10-16 收藏 864KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于视觉对象识别的施雅芳1，2，叶阳明1，3，林燕玉1，翁明芳4，卢义昌3，庄永玉21中央研究院信息技术创新研究中心2国立台湾大学资讯工程学系3国立台湾大学电子工程研究所4信息产业摘要本文讨论了将基于部件的表示集成到卷积神经网络（CNN）中进行对象识别的三个问题。首先，大多数基于部件的模型依赖于一些预先指定的对象部件。但我offset（i，j）jmax（i，j）用于识别的最佳对象部分通常因类别而异。第二，获取训练数据，特征图共现向量部件级注释是劳动密集型的。第三，在CNN中对部件之间的空间关系进行建模通常涉及在多个网络流上对部件模板的穷举搜索。我们通过引入一个新的网络层，称为共现层来解决这三个问题。它可以扩展卷积层来编码由众多神经元检测到的视觉部分之间的同现，而不是一些预先指定的部分。为此，特征图既充当过滤器又充当图像，并且在它们之间进行相互干扰过滤。同现层是端到端可训练的。所得到的同现特征是旋转和平移不变的，并且对对象变形是通过应用这个新层到VGG-16和ResNet-152，我们实现了识别，83的比例。6%，85。8%的加州理工大学-加州大学圣地亚哥分校的鸟benchmark分别源代码位于https://github.com/yafangshih/Deep-COOC网站。1. 介绍细粒度识别的目标是识别图像中更细级别的类别，例如：不同的鸟类[33]，狗的品种[19]和飞机类型[25]。除了类属对象识别中固有的困难（如类内变化大和要识别的类别数量多）之外，*表示同等贡献。图1. 建议的共现层。通过卷积层的图像由一组特征图表示在这些特征图之间进行相互卷积。生成记录视觉部分的共现的向量由于细微的类间差异，已识别的细粒度识别甚至更加困难卷积神经网络（CNN）在联合视觉特征提取和非线性分类器学习方面表现出了很好的效果最近的基于CNN的细粒度识别方法，例如。[23，29，40]，已被证明显着优于传统的方法[1，14]，工程功能的工作。尽管取得了令人鼓舞的进展，但细粒度识别仍然具有挑战性，需要更好的解决方案。基于零件的模型，例如：[6，7]，通过考虑各个对象部分的外观以及它们的空间关系来识别对象。它们对由不同姿态、对象变形、部分遮挡等引起的类内变化具有鲁棒性。最近的研究[13，41]表明，将基于部件的模型集成到卷积神经网络中，可以在通用和细粒度对象识别方面获得显着的性能提升。不幸的是，存在一些问题阻碍了基于零件的模型的进步。首先，大多数基于部件的模型依赖于固定数量的预先指定的对象部件。然而，识别的最佳部分通常因类别而异，并且在广告中通常是未知4123卷积层4124韦恩斯第二，在训练图像中的部分级标记导致比传统的图像级注释昂贵得多的成本第三，在CNN中建模对象部分之间的关系通常需要对部分模板进行穷举搜索[34]或需要多个网络流[35，40]。在这项工作中，提出了一个新的网络层称为同现层，以解决上述三个问题。它概括了CNN中的卷积层，以发现图像中视觉模式之间的共现。正如[39，44]所指出的，CNN中的卷积滤波器这种滤波器的特征图记录了图像中对应部分的空间出现可能性在两个特征图之间进行相关性分析揭示了两个对应部分的共现程度图1说明了同现层的工作原理。通过卷积层的图像由N个特征图表示。对于一对特征图i和j，我们将其中一个作为图像，另一个作为过滤器。然后进行相关滤波，并记录滤波过程中的最大相关响应。通过对每对特征图重复该过程，通过收集所有最大响应来产生维度为N2的共生该向量可以作为最后一个全连接层的输入，提高识别性能。所得到的同现向量对由神经元检测到的多个部分之间因此，共现层将基于部分的信息集成到CNN中。它既不需要预定义的对象部件，也不需要部件级注释。它只涉及过滤和最大值操作，所以实现起来很简单。共生层是旋转和平移不变的，并且对变形是鲁棒的。与CNN的神经元中的激活函数所给出的非线性不同，所得到的同现向量捕获跨同一卷积层的神经元的非线性特性。所提出的共现层是可区分的，因此支持端到端训练。以前的研究，e.G. [44]已经表明，不同卷积层中的神经元以从粗到细的方式提取对象部分。同现层是通用的，因为它可以作为构建块，并概括CNN模型中卷积层的任意子集。由于广义网络是一个有向无环图（DAG），因此传统的反向传播算法可以应用于网络优化。在实验中，我们通过将其应用于两个广泛使用的CNN框架VGG-16[28]和ResNet-152[17]的最后三个卷积层来说明所提出的同现层识别率在加州理工大学-加州大学圣地亚哥分校鸟类基准（CUB 200 - 2011）[33]显着改善从70。4%至83。6%与VGG-16和73。3%至85。ResNet-152分别为8%2. 相关工作我们将在本节中回顾一些相关主题2.1. 基于零件的物体识别方法大的类内差异是阻碍精确目标识别的一个主要困难，这是由目标姿态不同、实例多样性、部分遮挡和背景杂乱等内在和外在问题引起的。介绍了基于零件的方法，以解决这些变化，表示一个对象作为一个组件的局部零件和它们的空间布局。星座模型[9，36]将对象表示为完全连接的星座。也就是说，对象局部部分的成对位置受到几何约束。零件的形状、外观和比例由概率密度函数共同表示。尽管有效，推断图像中的对象的计算成本相对于部分的数量呈指数增长。图形模型[7，11]将对象表示为树状结构可变形配置中的部件集合。利用Viterbi算法在多项式时间内实现能量最小化目标部分推理受图像模型的启发，可变形零件模型（英语：Deformable partmodel）[8]使用方向梯度直方图（英语：histogram oforientedgradients）[4]来描述物体的根和零件。它通过基于检测到的根部和零件计算外观成本以及基于相对于根部的零件位置计算变形成本来定位对象。在[6]中，后来引入了混合模型来覆盖多尺度和多视点的对象在许多应用中，例如姿态估计[38，45]和对象检测[13，34]，广泛采用了双参数估计。对于细粒度识别，可变形部分描述符（DPD）[42]利用可变形部分来获得姿态归一化特征，这增强了细粒度识别。然而，这些方法依赖于手工制作的特征。它们的性能可以通过以下方式大大提高：使用通过CNN学习的特征。2.2. 基于部件表示的最近的研究，例如。[13，34]认为卷积神经网络和CNN是互补的，因为前者采用图形结构对零件的空间布局进行建模，而后者学习更多的区分特征用于零件描述。 Girshick等人[13]介绍了一种新的网络层，称为距离变换池，并表明可以将CNN公式化为等效的CNN模型。Wan等人[34]提出了一种集成CNN、SVM和非最大抑制的系统，并将其应用于基于部分的对象检测。在他们的工作中预先指定了零件之间的可容忍偏移鉴于基于部分的表示对部分遮挡是鲁棒的，Tian等人。[31]建议的DeepParts，包括4125A A2多个ConvNet部分检测器，缓解了行人检测中部分遮挡带来的然而，这些方法依赖于对多个部分或视点模板的穷举搜索，或者需要多个CNN模型。此外，零件的数量是手动给定的，但最佳数量通常事先未知。2.3. 细粒度识别与通用对象识别相比，细粒度识别高度依赖于可区分部分，这捕获了细微的类间差异。因此，许多细粒度识别的方法，例如。[1，2，3，14，22，41]，使用带有部件级注释的训练数据。在测试阶段，部件本地化成为这些方法的固有组成部分。例如，基于部件的R-CNN [41]采用R-CNN [12]来检测部件，并将部件位置限制在距离对象根的距离内。在[40]中，用于零件定位的额外检测网络与用于细粒度分类的识别网络相结合。然而，在这些方法中，在训练数据收集中标记对象部分是劳动密集型的。最近在细粒度识别方面的成功通常使用具有多个网络流的CNN模型在[37]中，采用了一个额外的网络来过滤掉非对象块，以便另一个网络可以专注于鸟类识别的对象区域。在[35]中训练了具有多个CNN模型的框架，以学习多粒度描述符。Lin等[23]通过使用双流CNN提取双耳无序特征。在[18]中，包含本地化网络和两个 Inception 模型的ST-CNN 框架 [30]在 CUB200-2011上实现了最先进的结果。然而，这些模型中的AP-途径是复杂的。更多的训练数据和更长的时间需要培训时间层，以便可以利用对象部分之间的同现属性来增强细粒度识别的性能。为了快速概述，同现层如何与卷积层一起工作已在图1中示出，并且所得到的网络架构如图3所示。在下文中，首先描述所提出的同现层的前向然后，我们展示了耦合的卷积层和同现层可以作为网络构建的构建块。最后给出了该方法的实现细节。3.1. 同现层：向前传球考虑采用N个卷积滤波器并将输入映射到一组N个特征映射的卷积层。它可以由下式表示：A i= σ（W i<$X + b i），其中i = 1，.，N（1）其中，X是输入，W i和b i分别是第i个滤波器的可学习权重矩阵和偏置，并且m是卷积算子。σ表示激活函数。本文采用了ReLU [21]的思想，即：σ（Z）=max（0，Z）。 Ai∈Rm×m是第i个大小为m×m的特征图。同现层背后的想法很简单：Fea-在等式中的真实映射Ai（1）记录由第i个滤波器检测到的可视部分的空间出现似然。在一对特征图之间进行空间相关，显示了相应部分共同出现的程度具体地说，对于一对特征图Ai∈Rm×m和Aj∈Rm×m，我们分别把它们当作滤波器和图像，进行相关滤波。我们寻求最大-与空间偏移一样，oij=[oij，x，oij，y]n∈R2，即Σ在FlowNet [10]中，所有fea上的分片相关性利用真地图进行流量预测。相比之下，我们取出每一对特征图，并评估cij= max欧伊杰p∈[1，m]×[1，m]Ijpp+oij 、（二）两个对应模式在其中Ai是Ai在位置p处的元素。一个j是sim-p p+oij全地图我们的方法基于CNN生成对象部分之间的它区别于以前的工作，同时具有以下三个吸引人的特性。首先，它编码了神经元检测到的众多部分之间的关系，而不是少量预先指定的部分。其次，它不需要任何部件级注释。第三，我们的同现层几乎没有引入额外的参数。它基于单流网络生成同现特征。3. 所提出的方法本节介绍我们的方法。给定一个目标CNN架构，我们的目标是将卷积层的一个子集甚至整个卷积层与同现相间接定义。请注意，在滤波之前执行零填充。最大响应cij可以被解释为分别由第i个和第j个滤波器检测到的对象部分之间的共现程度在对每个特征图对重复互相关过程之后，是Gen-已验证，将用于通过分类器进行识别，例如本工作中的全连接层。讨论基于部分的表示对于细粒度识别是有价值的[35，43]，因为用于从属分类的区分特征通常包含在对象部分中，而不是整个对象中。尽管有效，但大多数基于零件的模型只使用少数预先指定的零件。此外，识别的最佳部分41261,1cij=max∑ij奥伊pp+oijp∈ 1，× 1，一一{A}i=1Wcpp.pp一般都是事先不知道的同现层同时解决了这些不利的问题。它发现了由许多神经元检测到的视觉部分之间的共现，而不是那些预先指定的部分。因此，不需要任何零件级注释。上1，b1i，bi，b1C我J另一方面，由于损失函数是生成的同现特征的函数，因此这些神经元将被优化用于对象部分检测。共现向量c通过经由等式（1）寻求最大相关性来生成。（二）、可以观察到，矢量c是旋转、镜面反射和平移不变的，并且对对象变形是鲁棒的。这些特性对于对象识别是期望的。由方程式（2）、同现向量中的每个元素都是内J Jc、，b图2. 卷积层的参数W、特征图A、同现向量c和目标函数l之间的依赖关系。如下所示：产生的两个重叠特征图之间的乘积自己的神经元。因此，共现向量捕获跨神经元的非线性特性。它是复杂的-1p+ok1A21p−o1kA2这与CNN的单个神经元中的激活函数所给出的非线性有关。没关系ANA N3.2. 同现层：反向传播p+okNp−oNk同现层不引入额外的可学习参数。它将特征图A=三阶张量Uk∈Rm×m×N是通过对每个位置p沿其前两个维度连接Uk而k m×m×NI Ni=1 作为输入，并编译共现向量Ssions。同样，我们有V∈R对于每个位置p，通过级联C.当映射A由可学习的映射p参数化时，卷积的三重和偏置W={Wi，bi}N方程的矩阵形式。（5）可以表示为层，向量c是目标函数l的输入，图3所示之间的依赖关系W、A、c和l总结在图2中。客观克鲁尔克Ak=U×3ck+Vk×3ck，（7）网络学习的l被设置为最大化多项式在这项工作中的逻辑回归。其中运算符×3是3模乘积，ck 为[2014年， . . ，l]和ck=[l，. . . ，但这是两个世界，在下面的例子中，我们证明了网络的输入-k1向量千牛顿1k南克仍然可以学习同现层的集成通过计算{N}N，Ak=1随机梯度下降为此，梯度目标函数相对于参数的变化，I.E.这是必需的。通过应用链式法则，我们有经由等式（七）、因此，具有同现层集成的网络仍然是端到端可训练的。我们使用随机梯度下降来训练网络尔=lcA. 最后一个学期导出了在实验中的动量。WCNN的文献，所以我们专注于推导尔A=0.0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000其元素计算如下所示3.3. 泛化l=阿卢尔·阿卢奇伊杰（三）更深即是更好的哲学已经被许多强大的CNN框架所采用，例如VGG-16[28]和Aki，j=1cijResNet [15].最近的研究，例如，”[44]他说：“耳朵。ΣΣN∂l∂AiAj深度CNN模型中的更高层卷积层倾向于检测……………………p4127p=q∈[1，m]×[1，m]Qq+oij（四）低级图案，例如边缘状和斑点状特征，i，j=1 伊贾奇Ak而后面的层倾向于检测高级模式，ΣN=j=1尔KJJp+okjΣN+i=1尔阿夫茨伊克我p−oik、（五）作为对象部分。所提出的同现层对在特定层中检测到的模式之间的同现属性进行编码。为了推广它，我们使用了耦合的con-i。其中，偏导数m和m可以是com。作为构建块的层叠和共现层，通过反向传播计算。KJ阿夫茨伊克构建网络。通过这种方式，为了有一个紧凑的表示，我们创建两个辅助-二元变量uk∈RN和vk∈RN，并将它们定义为不仅可以提取高级视觉特征，还可以提取低级视觉特征，进一步便于识别。作为p p一一4128CONV卷积层：同现层：全连接层1 × 1conv1 × 1conv最终输出图3. 网络架构。耦合的卷积层和同现层作为网络重构的构建块。来自不同层的同现向量通过全连接层进行融合以进行预测。如图3所示，结果网络通过使用全连接层连接同现向量。该架构是一个有向无环图。因此，反向传播算法适用于相对于所有参数的梯度的计算。3.4. 实现细节同现层作用于由卷积层生成的特征图在我们的实现中，应用1×1卷积层和高斯滤波前者减少了特征图的数量，而后者抑制了噪声。所得到的同现向量通过将其传递通过有符号平方根和归一化来进一步后处理，以获得更稳定和更好的性能。特征图缩减。共现层估计每个特征图对之间的共现程度。在实践中，大多数特征图对具有非常弱的相关性。同现向量的大多数元素对信息没有贡献。因此，我们使用1×1卷积滤波器[30]来减少特征图的数量。此操作将区分能力因为通过分配较低的权重更可能去除较不相关的特征图更重要的是，它大大降低了共生层的计算成本，因为共生向量的维数是特征图数量的平方。噪音抑制。在实践中，噪声响应经常出现在特征图中。所提出的同现层将特征图作为输入，并且在特征图之间执行互相关滤波时可能遭受噪声响应为了解决这个问题，在执行特征图之间的互相关滤波之前，将高斯滤波应用于特征图。高斯滤波保持倾向于编码对象部分的强响应，同时抑制更可能由噪声引起的弱响应。该方法简单而有效，因为它显著提高了识别中生成的同现向量的质量。4. 实验结果在本节中评估所提出的同现层的性能。我们首先描述了所采用的数据集CUB200-2011[33]，用于性能测量，并详细介绍了我们网络的构建和初始化。然后，报告和分析了定量结果，包括单独或联合地将同现层应用于最后几个卷积层的性能，以及我们的方法与现有方法的比较。最后，我们提出了一个可视化学习的同现特征的方案，并表明这些特征往往会检测到对象部分是distinctive和共同出现。4.1. CUB200 2011数据集该数据集由来自200种鸟类的图像组成，由于其类内变化大，类间差异小，因此被认为具有相当大的挑战性。它包含200种鸟类中每种大约60张图像，其中30张用于训练，30张用于测试。图像总数为11，788。由于这些图像的大小不同，我们将其调整为448×448，然后使用它们来训练或测试网络。4.2. 实验装置在我们的实验中，我们采用在ImageNet [5]上预训练的VGG-16[28]和ResNet-152[17]模型，并将每个模型的最后一个全连接层替换为另一个全连接层，其中有200个输出单元用于对CUB200-2011数据集中的数据进行分类。ImageNet中丰富的数据有助于初始化深度CNN模型，特别是当特定领域的细粒度数据集没有足够的训练图像时。如[44]所述，后面的卷积层倾向于提取对象的高级概念。我们将共现层应用于VGG-16的最后K个卷积层和ResNet-152的最后K个构建块。在实验中，我们将证明只有最后几层的同现向量才有助于提高CONVCOOCCOOCFCFCconv1 × 1CONVCOOCFCCOOCCONV41291009590858075706560VGG.16top.1acc.VGG.16top.5acc.ResNet.152top.1acc.ResNet.152top.5acc.1 2 3 45K（一）10095908580757065VGG.16top.1acc.VGG.16top.5acc.ResNet.152top.1acc.ResNet.152top.5acc.0 1 2 3 4 5K（b）第（1）款1009590858075VGG.16top.1acc.VGG.16top.5acc.ResNet.152top.1acc.ResNet.152top.5acc.32 641281x1卷积滤波器数量（c）第（1）款图4.（a）将同现层应用于第k个卷积层到最后一个卷积层时的识别率（b）将同现层应用于最后k个卷积层时的识别率(c)不同数量的1 ×1过滤器的识别率。识别率因此，K在这里被设置为5。如图3所示，一个额外的1×1卷积层与每个选定的卷积层连接，层，以便去除不重要的特征图，并且还将特征图的数量从512减少到M，其中M分别被设置为32、64和128我们采用[2]中介绍的两步训练程序。我们通过[16]中描述的方式初始化1×1卷积层和最后一个全连接层，并使用多项式逻辑回归对象训练网络tive.在训练过程收敛后，我们以端到端的方式微调最后K个卷积层之后的所有层。这项工作是基于开源框架MatConvNet[32]实现的。一旦完成微调，提取的特征，I.E.最后一个全连接层的输入，是功率归一化的[26]，并用于训练一对所有线性SVM。在这个数据集上，SVM分类器对VGG-16的识别率略高，而softmax层对ResNet-152的识别率更高。因此，我们采用此设置来报告识别率。4.3. 与基线的比较虽然同现层可以应用于卷积层的任意子集，但如何选择适当的子集还不清楚。CUB 200 - 2011数据集上的前1准确度为70。VGG-16和73为4%。3%用于ResNet-一百五十二我们将它们视为基线，并进行一组实验，以找到一组合适的卷积层，以通过同现层进行推广。我们将每个1×1卷积层中的过滤器数量设置为32，这是同现层所采用的特征映射的数量。我们将共现层应用于VGG-16的第k个卷积层和ResNet-152的最后一个构建块。得到的共现向量用于分类.通过将k的值从1变化到5，识别率报告在图4（a）中。利用VGG-16模型，对同现向量进行了估计，来自最后三个卷积层的tor分别给出75的识别率。百分之一，七十八。7%，76。4%，明显高于基线。值得一提的是，每个共生向量的维数为1024，远低于VGG-16中的特征维数4096。然而，从第四层和第五层到最后一层使用同现向量的准确性急剧下降。结果表明，与VGG-16模型一致，只有最后几层的同现向量才是有效的。当使用ResNet-152时，来自最后五个构建块的同现向量达到了类似的精度，范围从79。5%至82。百分之二。这意味着所有这些构建块都捕获了高级概念，这在这样一个深度网络中并不奇怪。我们调查如果同现向量从不同的层是互补的。为此，我们将同现层应用于最后k个卷积层或联合构建块，并通过连接学习到的同现向量来表示数据。通过改变k的值从1到5，识别率如图4（b）所示。可以看出，对于VGG-16和ResNet-152，当k=3时，精度迅速收敛。结果表明，这些同现向量是互补的，并且是互补的。将它们合并导致显著的性能增益。1×1卷积层中的滤波器数量是在准确性和效率之间进行权衡的图4（c）报告了识别精度，当数字1×1卷积滤波器的数量分别设置为32、64和128。结果表明，使用更多的1×1滤波器可以获得更好的性能，但将滤波器数量从64个增加到128个时，性能的改善很小。4.4. 与以前工作的比较受图4所示结果的启发，我们将同现层应用于VGG-16的最后三个卷积层和ResNet的最后三个构建块152，并在每个1×1卷积中设置滤波器数量128层。最终的网络识别率达到82。6%，85。8%，分别。通过级联准确度（%）准确度（%）准确度（%）4130方法网络部分注释acc.（%）方法我们的VGG-16 BCNNBerg等人[1]-56.9美元Goering等[14]-57.8美元Chai等人[3]-Zhang等人[42]第四十二话Liu等[24]第二十四话Zhang等人[41] Caffe咖啡厅73.9英镑Branson等人[2]咖啡馆75.7Simon等人[27]第二十七话Krause等人[20]第20话我们的VGG 83.6我们的ResNet-15285.8Xiao等[37]第三十七话Wang等人[35] VGG×381.7Lin等[23]第二十三话Jaderberg等人[18]《盗梦空间》×484.1表1.CUB200-2011上各种方法的准确性。将共生向量与VGG- 16学习的4096维特征向量相结合，VGG- 16模型的准确率进一步提高到83. 百分之六。表1报告了我们的方法和竞争方法在CUB200-2011数据集上的识别率竞争的方法，包括[1，14，3，42]，执行基于手工制作的fea的细粒度识别真的。虽然这些方法是在理论上发展起来的，但它们可以被基于CNN的现代方法所超越，其中特征学习和分类器训练联合进行。一些基于CNN的竞争方法[37，35，23，18]是基于多流网络开发的。他们的模型尺寸更大。需要更多的训练数据来调整参数。一些竞争方法[41，2]依赖于具有部分级别注释的训练数据，导致训练数据收集的成本高昂。相比之下，我们的方法可以在单流网络上的对象部分之间生成同现特征。该方法不需要进行零件级标注，可以大大提高细粒度识别的性能。我们的方法，识别率为85。基于ResNet-152的8%，优于所有竞争方法。其精度基于VGG-16，83。6%，与最先进的方法[23，18]相当，我们的方法是具有小模型的优点，因为所提出的同现层本身不引入额外的参数。[23]中的方法采用了双流网络，其中可学习参数的数量也增加了一倍。[18]中的方法建立在CNN上，有四个概念模型，比我们的方法更复杂。共现向量的总维数为LM2，其中L=3是共现层的数目，M={32，64，128}是1×1卷积的数目。表2. 特征尺寸和精度的三种方法。我们的方法报告了两个准确率：上面一个基于VGG-16，下面一个基于ResNet-152。用于特征图缩减的tion过滤器。表2报告了VGG-16，双线性CNN（BCNN）[23]和我们的三种不同数量的1×1滤波器的特征维度和准确度。请注意，将同现层应用于VGG-16和ResNet-152的准确率都已给出，并且准确率的报告没有重复。通过VGG-16和ResNet-152连接特征向量。在表2中，我们使用32个1 ×1滤波器的方法比VGG-16具有更低的特征维度，实现了更好的性能。与BCNN相比，我们的方法基于ResNet-152和128个1×1滤波器，具有更好的识别率和更低的维数。4.5. 可视化为了深入了解定量结果，我们研究了同现层如何通过突出同现特征检测到的同现区域来指导细粒度如图3所示，网络中的最后一个全连接层将所有同现向量映射到最终输出。该层为每个同现特征和类别组合维护权重。对于目标类别，我们关注该类别权重最高的同现特征，因为它是预测为该类别的图像最有影响力的特征。该同现特征的可视化可以通过该类别的图像来执行。对于图像，我们取其对应于该同现特征的两个特征通过将两个所得热图上采样到输入图像的大小，突出显示共同出现的区域。图5显示了五种鸟类的最有影响力的同现特征，包括长尾小鹦鹉、彩旗、古铜色燕八哥、小霸鹟和烤箱鸟。每个同现特征通过图中一行所示的热图对形式的三个示例来可视化。可以观察到，同现特征通过强调语义对象部分（例如眼睛、喙和头部）来识别对象，即使在训练期间没有给出部分级注释或对象边界框此外，这些部件在整个过程中始终被检测到1×1过滤器数量32 64128尺寸3k 12.3k 49.2k4.1k262.1k准确度（%）80.682.082.670.484.183.685.385.84131(a)(b)（c）第（1）款图5.五个共现特征的可视化，每个都在一行中，这是最有影响力的鸟类物种长尾小鹦鹉海雀，彩绘彩旗，古铜色燕八哥，最少的捕蝇草，和烤箱鸟，分别。每个同现特征通过三个图像可视化，其中它们的热图对分别在列（a）、（b）和（c）中示出。同一个班级的年龄。例如，在图5的第一行中，三只长尾小鹦鹉的喙在第一热图中突出显示，而它们的眼睛在第二热图中突出显示。在第二、第三和第五行中，在两个热图中相应地检测到对于第四行中的最少的捕蝇草，它们的头和翅膀被检测到。所生成的共生特征具有旋转和平移不变性，并且对物体变形具有鲁棒性。如图5所示，同现特征可以针对姿态和视点的变化鲁棒地检测对象部分。5. 结论我们提出了一个新的网络层，称为共现层，它使卷积神经网络能够学习基于部分的特征，并更好地解决日益复杂的对象识别任务。它在特征图之间执行互相关过滤，并学习由神经元检测到的众多对象部分之间的共现特征。与大多数基于部件的方法不同，它既不需要预定义的对象部件，也不需要在训练期间进行部件级注释。此外，所提出的共现层几乎不引入额外的参数，并且是端到端可训练的。所生成的同现特征具有旋转和平移不变性，并且对物体变形具有鲁棒性。我们在Caltech-UCSD鸟类数据集上评估了这个新层的细粒度识别。实验结果表明，该方法可以在较少参数的基础上达到最佳性能。在未来，我们计划推广这项工作，并将其应用于具有基于部分信息的CNN的视觉应用，例如通用对象识别和弱监督对象检测。谢谢。这项工作得到了部分支持通过赠款MOST105-2221-E-001-030-MY 2 ， MOST 105- 2218-E-002-032，最 105-2218-E-001-006，MOST105-2221-E-002-090和MOEA 106-EC-17-A-24-1177。4132引用[1] T. Berg和P. Belhumeur。POOF：基于零件的一对一一个特征用于细粒度分类、面部验证和属性估计。CVPR，2013。一、三、七[2] S.布兰森湾霍恩，S。Belongie和P.佩洛娜基于姿态归一化深度卷积网络的鸟类分类。InBMVC，2014. 三六七[3] Y. Chai，V. Lempitsky，and A.齐瑟曼。用于细粒度分类的共生分割和部分定位。InICCV，2013. 三、七[4] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，2005年。2[5] J. Deng，W.东河，巴西-地索赫尔湖J. Li.，K.李和F F.李ImageNet：一个大规模的分层图像数据库。CVPR，2009。5[6] 费尔岑斯瓦尔布河Girshick，D. McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。TPAMI，2010年。一、二[7] P. Felzenszwalb和D.Huttenlocher 用于物体识别的图形结构IJCV，2005年。一、二[8] P. Felzenszwalb，D. McAllester和D. Ramanan区分训练的多尺度可变形零件模型。CVPR，2008。2[9] R. Fergus，P. Perona，and A.齐瑟曼。通过无监督尺度不变学习的对象类别识别。在CVPR，2003年。2[10] P. Fischer ， A. 两个人都是 E.Ilg ， P.Hausser ，C.Hazzirbassoul，Golkov，P. van der Smagt，D. Cremers和T.布洛克斯Flownet：使用卷积网络学习光流arXiv预印本arXiv：1504.06852，2015年。3[11] M. Fischler和R.埃尔施拉格图像结构的表现和匹配IEEETransactions on Computers，1973. 2[12] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。3[13] R. 格尔希克F.Iandola，T.Darrell和J.马利克可变形零件模型是卷积神经网络。CVPR，2015。一、二[14] C. Goring，E. Rodne r，A. Fr e ytag和J. 丹泽尔河用于细粒度识别的非参数部分转移。CVPR，2014。一、三、七[15] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，2015。4[16] K.他，X。Zhang，S. Ren和J. Sun.深入研究整流器：在imagenet分类上超越人类水平的性能在ICCV，2015年。6[17] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。二、五[18]M. Jaderberg，K.Simonyan、A. 泽瑟曼，K. Kavukcuoglu空间Transformer网络。在NIPS，2015年。三、七[19] A. Khosla，N. Jayadevaprakash湾Yao和F.- F.李用于细粒度图像分类的新数据集：斯坦福的狗。InFGVC，2011. 1[20] J. Krause，H. Jin，J. Yang，and L.飞飞无需零件注释的细粒度识别。CVPR，2015。7[21] A. 克里热夫斯基岛Sutskever和G.辛顿使用深度卷积神经网络进行图像网分类3[22] D. Lin，X.申角Lu和J. Jia.深度LAC：用于细粒度识别的深度本地化、对齐和分类。CVPR，2015。3[23] T.- Y. Lin，L. RoyChowdhury和S.玛吉用于细粒度视觉识别的双线性CNN模型。在ICCV，2015年。一、三、七[24] L. Liu，C.Shen和A.范登亨格尔。卷积层下的宝藏：用于图像分类的交叉卷积层池化。CVPR，2015。7[25] S. Maji、E. Rahtu，J. Kannala，M. Blaschko和A. 维达尔迪飞机的细粒度视觉分类。 arXiv 预印本 arXiv ：1306.5151，2013。1[26] F. Perronnin，J. S'nchez和T。门辛克改进fisher核用于大规模图像分类。ECCV，2010年。6[27] M. Simon和E.罗德纳神经激活星座：用卷积网络发现无监督零件模型。在ICCV，2015年。7[28] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年，国际会议。二、四、五[29] M. Srinivas，Y.Y. Lin和H.-Y. M. 辽学习用于细粒度识别的深度在ICME，2017年。1[30] C.塞格迪W.刘先生，Y.贾，P.SermanetS.里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A. 拉比诺维奇。更深的回旋。CVPR，2015。三、五[31] Y. 田，P.Luo，X.Wang和X.唐用于行人检测的深度学习强在ICCV，2015年。2[32] A. Vedaldi和K.伦克MatConvNet在ACMMM，2015年。6[33] C. Wah，S.布兰森山口韦林德山口Perona和S.贝隆吉Caltech-UCSD birds-200-2011数据集。技术报告CNS-TR-2011-001，2011年。一、二、五[34] L. Wan，L. Eigen和R.费格斯。端到端集成卷积网络、可变形零件模型和非最大值抑制。CVPR，2015。2[35] D. Wang，Z.Shen，J.邵，W.Zhang，X.Xue和Z.张某用于细粒度分类的多粒度描述符。在ICCV，2015年。二、三、七[36] M.韦伯，M。Welling，和P.佩洛娜面向对象类别的自动发现。在CVPR，2000年。2[37] T.肖氏Y. Xu，K. Yang，J. Zhang，Y.彭，还有Z。张某两级注意力模型在深度卷积神经网络中的应用CVPR，2015。三、七[38] Y. Yang和D. Ramanan具有柔性部件混合的铰接姿态估计。CVPR，2011。2[39] M. Zeiler和R.费格斯。可视化和理解卷积网络。2014年，在ECCV。2[40] H. Zhang，T. Xu，M. Elhoseiny，X. Huang，S. Zhang，中国古柏A. El- gammal和D. Metaxas SPDA-CNN：统一语义部分检测和抽象以实现细粒度识别。在CVPR，2016年。一、二、三4133[41] N. Zhang，J. Donahue，R. Girshick和T.达雷尔。用于细粒度类别检测的基于部分的 R-CNN 。 2014 年，在ECCV。一、三、七[42] N.张河，巴西-地法雷尔F. Iandola和T.达雷尔。用于细粒度识别和属性预测的可变形零件描述符。InICCV，2013. 二、七[43] N. Zhang，E.Shelhamer，Y.Gao和T.达雷尔。精细的姿态预测、标准化和识别。ICLR，2016年。3[44] B. Zhou，中国古柏A.科斯拉A.拉佩德里萨A.Oliva和A.托拉尔巴对象检测器出现在深度场景CNN中。2015年，国际会议二、四、五[45] X. Zhu和D. Ramanan野外人脸检测、姿态估计和地标定位。CVPR，2012。2

下载后可阅读完整内容，剩余1页未读，立即下载