没有合适的资源?快使用搜索试试~ 我知道了~
1查看对象:用于目标识别的自监督结构建模Mohan Zhou1,2 *,Yalong Bai2*,Wei Zhang2 *,Tiejun Zhao1,Tao Mei21哈尔滨工业2JD AI Research,北京,中国{mhzhou99,ylbai}@www.example.comwww.example.comoutlook.comwzhang.cu @gmail.comtmei@jd.comtjzhao@hit.edu.cn摘要大多数物体识别方法主要集中在学习有区别的视觉模式,而忽略了整体的物体结构。虽然重要,但结构建模通常需要大量的手动注释,因此是劳动密集型的。在本文中,我们提出通过将自我监督纳入传统框架来我们表明,识别骨干可以大大增强更强大的表示学习,没有任何额外的注释和推理速度的成本具体来说,我们首先提出了一个对象范围学习模块,用于本地化兰博基尼DiabloCoupe2001兰博基尼GallardoLP570-4兰博基尼DiabloCoupe2001根据同一类别中的实例之间共享的视觉模式来识别对象然后,我们设计了一个空间上下文学习模块,通过预测范围内的相对位置来建模对象的内部结构这两个模块可以很容易地插入到任何骨干网络在训练和拆卸在推理时间。大量的实验表明,我们的look-into-object方法(LIO)在许多基准测试中实现了很大的性能增益,包括通用对象识别(ImageNet)和细粒度对象识别任务(CUB,汽车,飞机)。我们还表明,这种学习范式是高度概括的其他任务,如对象检测和分割(MSCOCO)。项目页面:https://github.com/JDAI-CV/LIO。1. 介绍目标识别是计算机视觉中最基本的任务之一,在深度神经网络设计和丰富的数据标注方面取得了稳步进展。然而,在实际应用中,识别视觉上相似的物体仍然具有挑战性,* 同等缴款。这项工作是在JD AI Research完成的。†通讯作者。图1.基于最后卷积的特征图可视化ResNet-50主干的基本层。第一列显示原始图像,而第二列和第三列分别显示来自地面实况和预测标签的最大响应特征图最后一列通过将我们提出的LIO插入ResNet-50来显示特征图。由于采用了整体结构建模方法,目标(Best以颜色观看)。特别是当存在不同的视觉外观、姿势、背景杂乱等时。由于复杂的视觉外观,即使是大规模的人类标记数据集,纯粹基于区分区域来正确识别对象也不总是可靠的。如图1,一个训练有素的ResNet- 50(第三列)仍然可以通过查看错误的部分来错误分类对象。现有的对象识别方法可以大致分为两组。一组优化网络架构以学习高质量的表示[29,21,15,7],而另一组研究引入了额外的模块来显式突出部分(通过边界框[2,16,18])或隐式突出(通过注意力[11,36])。但是,后一种方法在任何一种注释上都要花费更多(例如,边界框/部件位置)或计算(注意事项/11774输入图像地面实况ResNet-50基线通过Look-into-Object校正普通乌鸦褐藤普通乌鸦BAE-125MD-87BAE-12511775图2.我们提出的Look-into-Object(LIO)方法。对象范围学习(OEL)和空间情境学习(SCL)分别强化主干对对象范围和内部结构的学习。检测模块)。然而,这些方法都主要集中在学习显著模式上,而忽略了整体的结构成分.在本文中,我们认为,正确识别区分区域在很大程度上取决于对象的整体结构。传统的基于深度学习的方法在许多情况下很容易被愚弄,例如,区分汽车的前后轮胎,在树枝间定位鸟的腿。这主要是由于缺乏对物体结构的认知能力。因此,学习物体的结构超越简单的视觉模式是至关重要的。虽然重要,但系统地学习对象结构组成仍然具有挑战性,特别是在没有额外注释和额外推理时间成本的情况下。在这项工作中,我们建议建模的整体对象结构没有额外的注释和额外的推理时间。具体来说,我们提出了“看进对象”(简称“LIO”),以了解图像中的对象结构,通过自动建模的区域之间的上下文信息。从心理学的角度来看,对一个对象的认知可以自然地分为两个阶段:1)粗略地定位图像中的对象范围(对象的整个范围而不是对象部分),以及2)解析对象内各部分之间的结构。因此,我们设计了两个模块来模仿这样的心理过程的对象识别。 我们提出了一个新颖的和通用的方案,通过嵌入两个额外的模块到一个传统的骨干网络的目标识别,如图所示。二、第一个是用于对象范围定位的对象范围学习模块(OEL),第二个是用于对象内部结构学习的空间上下文学习模块自然,对象结构建模的先决条件是对象范围可以被局部化。OEL模块强制主干使用伪掩码来学习对象范围我们首先测量目标图像与同一类别中的其他正图像之间的区域级相关性属于主要物体的区域将具有高度的相关性,因为同一类别的图像具有共性因此,除了原始图像标签之外,可以根据扩展分数来构造对象范围,而无需附加注释。然后,训练骨干网络回归伪掩模以定位目标。通过端到端的训练,可以进一步增强骨干网的对象范围定位能力。SCL模块以自我监督的方式预测对象范围内区域之间的空间关系。由于OEL模块学习到的本地化程度,SCL主要关注区域之间的内部结构。具体来说,我们实施骨干网络来预测区域对之间的相对极坐标,如图所示。二、以这种方式,可以对对象部件的结构组成进行建模。这种自我监督的信号可以通过端到端的训练有利于分类网络对对象结构的理解。显然,在解析良好的结构中定位有区别的区域比在原始特征图中容易得多请注意,所有这些模块都将分类骨干网络生成的特征表示作为输入,并在区域级别上运行,这导致了精细的Look-into-Object(LIO)框架。具有这样的目标的训练通过端到端反向传播来执行骨干网络的特征学习理想情况下,对象范围和结构信息都此外,这两个模块可以在推理期间禁用。其主要贡献可归纳如下:1. 具有两个新颖模块的通用LIO范例:用于对象范围定位的对象范围学习,以及用于对对象结构组成进行建模的自监督空间上下文学习模块。2. 通用目标识别、细粒度目标识别、目标检测和语义分割任务的实验结果证明了LIO的有效性和通用化能力。3. 从实际应用的角度来看,我们提出的方法不需要额外的注释,在推理时不引入计算开销。此外,所提出的模块可以插入任何基于CNN的识别模型。2. 相关工作通用对象识别:一般图像分类因ILSVRC的出现而普及[27]。随着AlexNet [32]取得的非凡进步,深度学习浪潮开始在计算机视觉领域出现。从那时起,一系列的作品,例如。VGGNet [30],GoogLeNet [33],ResNet[13],Inception Net [33,35],SENet [15]等被提出来学习更好的图像识别表示。然而,一般的对象识别模型仍然受到影响,查看对象①定位对象②结构理解指南:重点在哪里骨干. -是的-是的OELSCL11776×××我在视觉上相似的物体之间容易混淆[1,8]。类混淆模式通常遵循类的层次结构。一般的对象识别网络通常可以很好地分离高级别的类组,但是学习分离各个类的专门特征检测器是相当昂贵的。原因是同一层次结构中的类的全局几何形状和外观可能非常相似。因此,如何识别它们在判别域中的细微差别就显得尤为重要。细粒度对象识别:与一般的目标识别不同,目标部分的精细特征表示在细粒度目标识别中起着更为关键的作用。现有的细粒度图像分类方法可以归纳为两个方向。第一个是增强骨干网络的详细特征表示能力[34,31,37]。第二个是引入零件位置或对象边界框注释作为除了基本分类网络之外的广告优化目标或监督[43,44,11,18]。与一般对象识别类似,基于深度学习的特征表示在细粒度图像识别方面取得了巨大成功[9,28]。在此之后,二阶双线性特征表示学习方法[21]和一系列扩展[39,17,42]被提出用于以平移不变的方式学习局部成对特征交互。然而,从细粒度类别中识别对象需要神经网络更多地关注区分部分[40]。为了解决这个问题,提出了大量的零件定位的细粒度识别方法。这些方法中的大多数应用注意力机制来获得区分区域[11,25]。Zheng等[44]试图通过聚类生成多个部分,然后对这些部分进行分类以预测类别。与早期的基于零件的方法相比,最近的一些工作倾向于使用弱监督,甚至没有零件注释用于理解对象结构和定位区分区域。受物体之间的上下文信息影响物体识别的准确性和效率的研究[14]的启发,物体内部区域之间的空间信息也有利于区分区域的定位。因此,我们在我们提出的方法中引入了两个模块;第一个模块旨在检测主要对象,第二个模块推断对象中区域之间的空间依赖性。实验结果表明,该方法在一般目标识别和细粒度目标识别方面都有较好的效果此外,我们的方法没有额外的开销,除了骨干网络的前馈在推理。3. 方法在本节中,我们介绍我们提出的LIO方法。如图3、我们的网络主要由三个模块组织:分类模块(CM):提取基本图像表示并产生最终对象类别的骨干分类网络。对象范围学习模块(OEL):用于定位给定图像中的主要对象的模块。空间上下文学习模块(SCL):一个自我监督的模块,通过CM中特征单元之间的交互来加强区域之间的联系。给定一个图像I和它的基础真值one-hot标签l,我们可以从其中一个卷积层获得大小为N N C的特征映射f(I),并从分类网络获得概率向量y(I)。C是该层的通道大小,N N是f(I)中每个特征图的大小。分类模块(CM)Lcls的损失函数可以写为:Σ或关键领域[26,41]。特别地,Penget al.[26]提出了一个部分空间约束,以确保模型可以Lcls=−I∈Il·logy(I),(1)选择有区别的区域,并使用专门的聚类算法来整合这些区域的特征。Yang等[41]介绍了一种方法来检测信息区域,然后仔细检查它们以进行最终预测。这些先前的工作旨在直接从像素级图像中搜索关键区域。However, to correctly detect discriminative parts, the deepunderstanding of the struc- tures of objects and the spatialcontextual information of key regions are essential.反过来,图像中区域的位置信息可以增强神经网络的视觉表示[24],这已经在无监督特征学习中得到了证明。与以往的工作不同,我们提出的方法侧重于建模对象部分之间的空间连接哪里是用于训练的图像集。对象范围学习模块和空间上下文学习模块旨在帮助我们的骨干分类网络学习有利于结构理解和对象定位的表示。这两个模块是轻量级的,并且只引入了一些可学习的参数此外,OEL和SCL在推理时被禁用,并且仅需要分类模块以提高计算效率。3.1. 对象范围学习(OEL)定位图像中对象的范围是理解对象结构的先决条件。典型的方法是引入边界框或分割···11777���′≤≤∈×××L图3.我们的Look-into-object(LIO)框架的整体管道。从分类模块提取的特征图f(I)进一步被馈送到空间上下文学习模块和对象范围学习模块。经过端到端训练后,空间上下文学习模块和对象范围学习模块的反向传播信号可以共同优化分类模块中骨干网络的表示学习。在推理过程中,只有分类模块(在绿色框中)被激活。注释,这在数据收集上花费很多。针对缺乏局部化或分割标注的典型图像识别任务,提出了一种新的对象范围学习模块,帮助骨干网络区分前景和背景。我们可以将特征图f(I)划分为N N个特征向量f(I)i,jR1×C,其中i和j分别是水平和垂直索引(1i,jN).每个特征向量集中地响应于输入图像I中的某个区域。受同一类别的图像中的对象总是共享一些共性的原则的启发,并且共性反过来帮助模型识别对象,我们使用���������(���������(图4.相关计算有助于定位对象范围。口罩:1ΣP1 2名专业人员M(I,I′)=(I,I′).(三)图像I的相同标签l,然后测量区域级f(I)i,j与每个图像I′∈I′之间的相关性,Ppp=1ϕ(I,I′)=1maxf(I),f(I′)′′,(2)C此外,M(I,I′)可以被视为来自同一类别的图像之间共享的共性i、j′′1≤i,j≤Ni、ji、jOEL模块的主要目的是丰富分类网络的共性和推断其中,·表示点积。与分类目标Lcls联合训练,相关性得分Lclsi,j通常与与l的语义相关性正相关。然后,我们可以构造一个N N语义掩码矩阵<$(I,I′),用于I中的对象范围。因此,该语义相关性掩码可以很好地捕捉同一类别图像的共性,并且其中的值自然区分了主要对象4.第一章考虑到视点变化和变形的影响,我们使用多个正图像来局部化,对象范围的语义掩码 因此,我们在f(I)之后配备一个简单的流,以将f(I)中的所有特征图与权重融合。通过1 1卷积处理特征以获得具有一个通道m′(I)的输出。与传统的只检测特定部位或区域的注意力不同,OEL模块被训练为收集对象内部的所有区域,而忽略背景或其他无关对象。OEL模块oel的损失可以定义为对象范围的伪掩模M(I,I′)与m′(I)之间的距离,其可以表示为:Σ。Σ调整对象的主要区域。 因此,我们得到一个弱模仿对象定位的监督伪标签Loel=I∈IMSEm′(I),M(I,I′),(4)分类模块(′,���空间情境学习ℒ���������(���′1������(1ℒ������������′ℒ���′(������������(������(对象范围学习在反向传播过程中,每个模块的监督处于非活动状态(骨干骨干...骨干......积极的形象���11778Li、j∈×LΣ。′L×=Σ其中MSE被定义为均方误差损失函数。OEL有助于根据图像从h(I)得到Ro。我们首先对h(I)i,j和h(I)x,y应用通道级级联,然后输出由具有ReLU的全连接层处理,以获得预测的po。在同一类别中。 通过端到端培训,目标-最大坐标(Γ′,θi,j)′。由于我们提出的模块范围学习模块可以通过以下方式丰富骨干网络:检测主对象范围。3.2. 空间情境学习(SCL)结构信息在图像理解中起着重要的作用。经典的通用卷积神经网络利用卷积核提取图像中的结构信息,并融合多层次信息主要集中在模拟不同的空间结构在对象内的部分,从OEL模块学习的对象范围掩码m′(I)也在SCL模块中被适配SCL模块有两个目标。第一个测量所有区域与对象的相对距离差. Σm′(I)i,j(Γ′ −Γi,j)2通过层层叠加 我们提出了一个自监督模块所谓的空间语境学习,以加强结构通过学习SPA为骨干网络提供信息-Ldis=I∈I1≤i,j≤NΣm′(I)i、j.(七)对象中的初始上下文信息给定图像I,我们的SCL模块还作用于特征图f(I),并且旨在学习区域之间的结构首先,特征图由11卷积加上ReLU,使得我们得到新的映射h(I)RN×N×C1,描述了不同特征单元的空间信息。h(I)中的每个单元集中表示图像I的区域的语义信息。另一个测量的极角差异的re-物体内部的离子。考虑到目标的结构信息应该是旋转不变的,并且对目标的各种外观和姿态具有鲁棒性,我们根据预测极角和地面之间的间隙的标准描述来测量极角差Δ真极角:‚通过建立空间连接,可以很容易地对对象的不同部分之间的结构关系进行L=. Σ,1≤i,j≤Nm′(I)i,jΣ.θi,jΣ2-θ,在不同的地区。在本文中,我们采用极坐标测量不同区域之间的空间联系给予联系我们I∈I.′i、jm′(I)-θi,j,如果θi,j−θi,j≥0(八)参考区域Ro=Rx,y,其索引为(x,y),i、j′i、j-θi,j,否则,N N平面,以及参考水平方向,极坐标区域R的坐标可以写为(r ,θ):其中θ1Σ第一章1≤i,j≤Nm′(I)i,jθi,j 是平均ri,ji、j=(x−i)2+(y−j)2/2Ni、ji、j(五)预测极角和地面实况极角之间的差距通过这种方式,我们的SCL可以专注于对对象各部分之间的相对结构进行建模,而不是θi,j=(在2(y-j,x-i)+π处)/2π,其中,0ri,j≤1测量相对距离。对参考方向敏感的区域的绝对位置此外,由于预测tweenRo 和Ri、j,atan2(·)返回明确的值语义掩码m′(I),除主要对象,例如,背景,在回归过程中被忽略在(−π,π]的范围内,对于从笛卡尔坐标转换的角度,θi,j测量Ri,j对应于水平方向的极角值得注意的是,为了确保广泛的差异化,θ值的最小值,理想情况下,应选择对象范围内的区域作为参考区域。在本文中,选择响应于m(I)中的最大值的区域在极坐标系中。总的来说,空间上下文学习模块的损失函数可以写为:Lscl=Ldis+ L。(九)利用scl,骨干网可以识别模式结构,即,物体的组θ1+θ11779成。通过端到端的训练,空间情境学习模块可以实现Ro=Rx,y,其中(x,y)=argmax1≤x,y≤Nm′(I)i,j(6)为骨干网络提供动力,以模拟对象各部分之间的空间依赖性。该地面实况极坐标被视为用于指导SCL模块训练的监督。SCL模块通过联合考虑目标区域Ri,j和参考区域的表示来预测区域Ri,j3.3. 联合结构学习在我们的框架中,分类,对象范围学习和空间上下文学习模块以端到端的方式进行训练,其中网络可以利用两者11780LL×××××增强的对象定位和对象结构信息。整个框架通过最小化以下目标来训练:L=Lcls+αLoel+ βLscl。(十)我们设α = β= 0。1为本文报道的所有实验结果在推理过程中,SCL和OEL都被删除,只保留分类模块因此,该框架不会在推理时引入额外的计算此外,对象范围学习模块和空间上下文学习模块可以附接到从分类模块的不同卷积层生成的特征图从而可以在不同的粒度层次上对对象的结构信息进行建模。总的来说,整个训练方法被称为多阶段LIO。例如,我们可以共同优化我们的框架由7×7(提取fea-对 于 ResNet-50 , 最 后 一 个 卷 积 层 的 真 实 映 射(N=7)和14×14(倒数第二个卷积层,N=14)。4. 实验为了显示我们提出的查找对象框架的优越性,我们评估了两种对象识别设置的性能:细粒度对象识别和通用图像分类。此外,我们还探讨了我们的LIO框架在其他任务,如目标检测和分割,研究其泛化能力。除非特别提及,否则空间上下文学习模块和对象范围学习模块应用于骨干分类网络的最后一级特征图,并且默认使用三个正图像用于对于所有这些任务,我们没有使用任何额外的注释。4.1. 细粒度目标识别对于细粒度对象识别,我们在三个不同的标准基准上测试LIO:CUB-200-2011(CUB)[4],斯坦福汽车(CAR)[19]和FGVC飞机(AIR)[23]。我 们 首 先 使 用 在 ImageNet 分 类 任 务 上 预 训 练 的ResNet-50骨干初始化LIO,然后在上述数据集上微调我们的框架。输入图像被调整大小为512 512的固定大小,并且随机地448个第448章正常化 我们采用随机旋转和水平翻转以用于数据扩充。所有上述变换在文献中是标准的。ResNet-50基线和LIO/ResNet-50都经过240个epoch的训练,以确保完全收敛。SGD用于优化公式10中定义的训练损失。方法准确度(%)幼崽车空气CoSeq(+BBox)[22]第二十二话82.884.792.893.1--[21]第二十一话84.191.384.1HIHCA [3]85.391.788.3[11]第十一话85.392.588.2OPAM [26]85.892.2-Kernel-Pooling [7]84.791.185.7美国有线电视新闻网[45]86.592.889.9DeepKSPD-rootm [1]86.593.291.0MAMC [25]86.593.0-HBP [42]87.193.790.3DFL-CNN [38]87.493.191.7[41]第四十一话87.593.991.4DCL [6]87.894.593.0ResNet-50基线85.592.790.3LIO/ResNet-50(7 × 7)87.393.992.4LIO/ResNet-50(14 × 14)87.394.292.3LIO/ResNet-50(28 × 28)87.694.092.4LIO/ResNet-50(多级)88.094.592.7表1.三个不同的细粒度对象识别基准测试的比较结果。测试时,只对骨干网进行分类。输入图像被集中裁剪,然后输入到骨干分类网络进行最终预测。详细结果总结见表1。除了将OEL和SCL插入到大小为7 7的最后阶段特征图之外,我们还在第二阶段14上测试了这两个模块14输出,和倒数第三阶段28 28输出。 然后将这三个不同阶段的模型组合成多级LIO。如表1所示,LIO嵌入式ResNet-50可以实现比基线ResNet-50更好的准确度。 此外,多-阶段LIO在所有三个基准上都取得了显着的性能改善,这证明了所提出的区域级结构学习框架的有效性。值得注意的是,LIO和我们以前的工作DCL [6]在细粒度识别任务中针对不同的研究路线DCL旨在学习有区别的局部区域,而LIO试图理解整个对象的结构。这两种方法都有利于细粒度的目标识别,而LIO方法更适合于柔性目标(CUB)的识别,并可以进一步扩展到通用目标识别(Sec. 4.2),对象检测和分割(第4.2节)。4.3),因为对象结构信息在这些任务中起着至关重要的作用。4.2. 基于ImageNet的通用对象识别我们还评估了我们提出的LIO在大规模通用对象识别数据集ImageNet上的性能。11781×(a)(b)(c)图5. COCO对象检测和实例分割的定性示例。我们基于LIO的方法可以根据对象结构信息在三个方面帮助提高性能:(a)减少不正确的对象标签预测。(b)忽略噪声分割掩模。(c)完成片段分割掩模。最好看电子版。地面实况ResNet-50基线OEL/ResNet-50LIO/ResNet-50表2. ImageNet-1 K验证集上单个模型的单次裁剪错误率(%)。1 K(ILSVRC-2012),其中包括128万张图像,1000个类。对于兼容性测试,我们在常用的骨干网络ResNet上评估了我们的方法,50. 按照标准的做法,我们进行数据扩增,与随机裁剪到224 - 224像素的大小,并执行随机水平翻转。使用动量为0.9的SGD和最小-黄喉绿鹃蓝色翅莺加拿大莺黄喉绿鹃食虫柳莺(英语:WormEatingWarbler)歌曲麻雀Laysan信天翁沟收费阿尼歌曲麻雀批量大小为256。闪亮的牛鸟小海雀犀牛小海雀闪亮的牛仔实 验 结 果 报 告 于 表 2 中 。 我 们 可 以 发 现 LIO 在ImageNet-1 K验证集上提升了三个不同骨干网络的性能,这进一步证明了我们提出的对象识别框架的通用性使用轻量级LIO插件,典型ResNet-50的性能甚至可以达到SE-ResNet-50的性能[15]。4.3. 基于COCO的目标检测与分割同时,考虑到对象结构信息将有助于对象检测和分割任务,我们还在MS COCO数据集上研究了我们提出的LIO对象检测/分割任务[20]。我们采用基本的MaskR-CNN [12]并将LIO插入区域建议网络之后,以便可以很好地建模每个对象的结构SCL模块可以直接作用于ROI池化后的目标特征,从而禁用OEL模块。我们基于mmdetection[5]工具箱实现了新的检测/分割网络,并将所有超参数保持为默认值。我们在ResNet-50-C4的基本基线和ResNeXt-101-FPN的更高基线模型在COCOtrain2017 set上训练,图6.基于OEL和SCL的特征图可视化分别为。OEL强制主干集中在对象范围上。SCL不仅有助于在目标范围内搜索有区别的区域,而且有助于完成OEL对目标范围的定位。在COCOval2017集合中进行了评估。我们报告了标准COCO指标,包括AP、AP50、AP75(多个IoU阈值上的平均精度)和APS、APM、APL(跨尺度的AP)。表3中描述的实验结果表明,建模结构成分有利于对象理解,并导致更好的语义分割结果。实验结果表明了LIO算法在对象结构组合学习中的有效性和泛化能力.我们的基本ResNeXt-101-FPN和我们的方法的结果的一些例子在图中给出。五、4.4. 消融研究为了证明OEL模块和SCL模块的效果,我们对CUB[4]和CAR [19]进行了模块分离实验。OEL和SCL都作用于来自ResNet-50主干的最后阶段特征图。结果示于表4中。我们可以发现,这两个模块都显着提高了性能。详细地说,正如我们所展示的,LIO,带ResNexT-101-FPNResNeXT-101-FPN方法Top-1错误前5名错误。ResNet-50 [1]24.807.48LIO/ResNet-50(7 × 7)23.637.12LIO/ResNet-50(14 × 14)23.607.10LIO/ResNet-50(多级)22.876.6411782阳性数量=1 阳性数量=3 #阳性=5 #阳性=1#阳性=3 阳性数量=5方法对象检测语义分割APAP50AP75APSAPMAPLAPAP50AP75APSAPMAPLResNet-50-C435.956.138.918.040.149.731.552.833.012.134.749.3LIO/ResNet-50-C437.657.541.021.041.852.032.654.134.714.335.751.3ResNeXT-101-FPN41.162.845.024.045.452.637.159.439.717.740.553.8LIO/ResNeXT-101-FPN42.063.346.024.746.154.337.960.040.618.141.154.8表3.COCOval2017集上的对象检测和分割结果图7.给定不同数量的正图像,伪分割掩模的变化的可视化。表4.对拟议框架进行了消融研究ResNet-50:由Lcls训练的基本ResNet-50神经网络。OEL:由Lcls+αLoel训练的模型。SCL:Lcls+βLscl训练的模型。LIO:L训练的模型。GM:地面实况语义分割注释。在图6中,SCL提供了一种学习空间结构的原则性方法,这有助于挖掘对象中的区分区域。此外,OEL模块还可以根据类内区域相关性对目标范围进行定位,进一步克服了不同姿态、外观和背景杂波的负面两者的互补性可以进一步提高系统的整体性能。此外,我们还尝试将伪语义掩码M(I,I′)替换为LIO的地面真值掩码。结果表明,我们的基于学习的方法可以构建一个高质量的语义掩模,这是非常接近的地面真理掩模(87.3%对。CUB上的准确率为87.4%4.5. 讨论阳性图像数量:一批中正图像的数量P是对象范围学习模块的重要参数。我们通过在图1中给定不同数目的正图像P来可视化伪掩模M(I,I′)。7 .第一次会议。我们还使用不同数量的阳性图像在CUB和CAR上评估了我们的方法,识别准确率如表5所示。随着更多积极图像的使用,框架在结构学习中变得更好,并导致更好的性能。最后,业绩将停止上升或下降,变得稳定。对于刚性对象结构,例如CAR,我们只需要几个正图像来生成合理的伪范围掩模。一般来说,只输入一个正图像可以让主干学习片段对象范围以实现视点多样性。P的增加导致记忆表5.阳性图像数量对准确性的影响使用.因此,我们在本文中使用P=3进行实验,以权衡最终性能和计算成本。模型效率:在训练期间,我们的LIO在骨干网络之外引入了三个额外的层,包括OEL模块中的一个卷积层,SCL模块中的一个卷积层和一个全连接层。对于LIO/ResNet-50(28 x28),只有0.26 LIO中引入了100万个新参数,是原始ResNet-50的#Params的1.01%。一个重要的属性是,OEL和SCL模块,在测试过程中可以禁用。这意味着最终分类模型的大小与原始骨干网络相同。基线骨干网络可以显着改善,没有任何计算开销在推理时间。5. 结论在 本 文 中 , 我 们 提 出 了 一 个 Look-into-Object(LIO)框架来学习结构信息以增强对象识别。我们表明,监督对象识别可以在很大程度上受益于结构信息在以前的文献中被忽略了,它可靠地防止了网络陷入局部混乱。此外,我们的插件式设计可以被广泛采用,用于将额外的监督注入骨干网络,而无需额外的模型部署计算开销。方法准确度(%)幼崽车ResNet-50 [1]85.5092.73SCL86.7493.82OEL86.9993.83LIO87.3193.89LIO w/GM87.37-数据集阳性图像135幼崽86.8387.3187.30车93.8193.8993.8911783引用[1] Alsallakh Bilal,Amin Jourabloo,Mao Ye ,XiaomingLiu,and Liu Ren.卷积神经网络可以学习类层次结构吗 ? IEEE transactions on visualization and computergraphics,24(1):152-162,2018。3[2] Steve Branson,Grant Van Horn,Serge Belongie,andPietro Perona.使用姿势归一化深度卷积网络进行鸟类分类。arXiv预印本arXiv:1406.2952,2014年。1[3] 蔡思佳,左王梦,张磊。用于细粒度视觉分类的分层卷积激活的高阶积分。在IEEE计算机视觉国际会议论文集,第511- 520页,2017年。6[4] W. 凯瑟琳湾Steve,W.Peter,P.Pietro和B.Serge 加州理工学院-ucsd鸟类-200-2011数据集。(CNS-TR-2011-001),2011年。六、七[5] Kai Chen,Jiaqi Wang,Jiangmiao Pang,Yuhang Cao,Yu Xiong,Xiaoxiao Li,Shuyang Sun,Wansen Feng,Ziwei Liu,Jiarui Xu,et al.检测:打开mmlab检测工具箱和基准。arXiv预印本arXiv:1906.07155,2019。7[6] 岳晨、白亚龙、张伟、陶梅。用于细粒度图像识别的破坏与构造学习在IEEE计算机视觉和模式识别会议论文集,第5157-5166页6[7] Yin Cui,Feng Zhou,Jiang Wang,Xiao Liu,YuanqingLin,and Serge Belongie.卷积神经网络的核池。在IEEE计算机视觉和模式识别会议论文集,第2921-2930页,2017年。1、6[8] 放大图片作者:Jia Deng,Alexander C. Berg,Kai Li,and Li Fei-Fei.分类超过10,000个图像类别能告诉我们什 么 ? 在 Kostas Daniilovich , Petros Maragos 和 NikosParagios,编辑,计算机视觉3[9] Jeff Donahue , Yangqing Jia , Oriol Vinyals , JudyHoffman,Ning Zhang,Eric Tzeng,and Trevor Darrell.Decaf:用于通用视觉识别的深度卷积激活功能。机器学习国际会议,第647-655页,2014年3[10] Melih Engin,Lei Wang,Luping Zhou,and XinwangLiu. Deepkspd:学习基于核矩阵的spd表示,用于细粒度图像识别。在欧洲计算机视觉会议(ECCV)的会议记录中,第6126[11] 傅建龙,郑和良,陶梅。看得更近些,看得更清楚:用于细粒度图像识别的递归注意卷积神经网络。在IEEE计算机视觉和模式识别会议论文集,第4438-4446页,2017年。一、三、六[12] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页7[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。进行中-IEEE计算机视觉和模式识别会议的论文集,第770-778页,2016年。二七八[14] 霍华德·S·霍克,格雷戈里·P·戈登,罗伯特·怀特赫斯特.上下文关系:熟悉性、身体可接受性和亲切感的影响。知觉心理物理学,16(1):4-8,1974. 3[15] 杰虎,李申,孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集,第7132-7141页,2018年。一、二、七[16] 黄绍利、徐哲、陶大成、张雅。用于细粒度视觉分类的部分堆叠cnn。在IEEE计算机视觉和模式识别会议的Proceedings,第1173-1182页,2016年。1[17] 舒空和查尔斯·福克斯。用于细粒度分类的低秩双线性池。在IEEE计算机视觉和模式识别会议论文集,第365-374页,2017年。3[18] Jonathan Krause,Hailin Jin,Jianchao Yang,and Li Fei-Fei.无需零件注释的细粒度识别。在IEEE计算机视觉和模式识别会议的Proceedings,第5546-5555页,2015年。一、三、六[19] J. Krause,M. Stark、J.Deng和L.飞飞用于细粒度分类的3D对象表示。2013年IEEE计算机视觉研讨会国际会议,第554-561页,2013年12月。六、七[20] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740Springer,2014. 7[21] 林宗宇,Aruni RoyChowdhury,Subhransu Maji。用于细粒度视觉识别的双线性cnn模型。在Proceedings of theIEEE international conference on computer vision,pages1449-1457,2015中。一、三、六[22] 小刘、天夏、王江、易阳、周峰、林元庆。用于细粒度识别的完全卷积注意力网络。arXiv预印本arXiv:1603.06765,2016。6[23] S. Maji、E. Rahtu,J. Kannala,M.B. Blaschko和A.维达尔迪飞机的细粒度视觉分类CoRR,abs/1306.5151,2013。6[24] N. Mehdi和F.保罗通过解决拼图游戏进行视觉表示的无监督学习计算机视觉中– ECCV 2016Springer Interna-国家出版社。3[25] S.明,Y. Ychen,Z. Feng和D.二蕊多注意多类约束下的细粒度图像识别。第834-850页,2018年。三、六[26] Y.彭、X。他和J.赵。用于细粒度图像分类的对象部分注意模型。IEEE Transactions on Image Processing,27(3):1487-1500,2018年3月。三、六[27] OlgaRussakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein , et al. 图 像 网 大 规 模 视 觉 识 别 挑 战 。International Journal of Computer Vision,115(3):211-252,2015. 211784[28] Ali Sharif Razavian 、 Hossein Azizpour 、 JosephineSu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功