无细粒度包围盒的大规模目标检测

74 浏览量更新于2023-10-12 收藏 873KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1检测11K类：无细粒度包围盒的大规模目标检测Hao Yang Hao Wu Hao Chen亚马逊网络服务{haoyng，goodwu，hxen} @ amazon.com摘要深度学习的最新进展极大地提高了对象检测的性能。Faster-RCNN、FPN和R-FCN等最先进的方法然而，这些方法需要完全注释的对象边界框进行训练，由于注释成本高，因此难以扩展。另一方面，弱监督方法只需要图像级标签进行训练，但性能远远低于完全监督方法。本文提出了一种半监督的大规模细粒度检测方法，该方法只需要少量粗粒度类的边界框标注和大规模细粒度类的图像级标签，就可以以接近全监督的精度检测出所有类。我们实现这一点，利用粗粒度和细粒度的类之间的相关性与共享的骨干，软关注的建议重新排名，和一个双级内存模块。实验结果表明，在两个大规模数据集ImageNet和OpenImages上，我们的方法可以达到与最先进的全监督方法接近的目标检测精度，并且只需要一小部分完全注释的类。1. 介绍目标检测一直是计算机视觉研究的中心，而深度学习的最新发展极大地提高了其性能。最先进的算法，如R-FCN [5]，FPN [16]和Mask- RCNN [12]，在具有挑战性的基准数据集上实现了高精度。然而，这些方法依赖于对象边界框的精确且完整的注释，这是昂贵且耗时的。用细粒度级别标签详尽地注释大规模数据集的边界框是极其费力的（这里“大规模”不仅意味着大量的实例N，而且意味着由于检测问题的多标签性质，注释成本为O（NC））。即使有最先进的注释方法[21，22]，它仍然比注释图像级标签昂贵得多。现有的对象检测数据集要么是完全注释的，但规模较小，如PASCAL VOC [8]和MS COCO [17]，要么是大规模的，但只有部分类别具有边界框注释，如ImageNet [7]和OpenImages [14]。ImageNet有11K个被认为是可训练的类别（即，超过500个训练图像），总共有12M个训练图像。然而，只有3 K个类别和不到1M个训练图像具有边界框注释[27]（如果我们计算所有ILSVRC-Detection注释，则数量接近1。5M）。类似地，OpenImages有超过8K的可训练类别，但只有601个类别有边界框注释[14]。即使对于那些带有边界框注释的类别，缺少注释也很常见[37]。最近的研究提出了大规模算法来简化ImageNet和OpenImages检测集规模上的检测任务，例如R-FCN3000 [27]和具有软采样的SNIPER[37，28]。然而，这些方法仍然需要完整的边界框注释。全监督检测器不仅不能利用训练数据的全部容量（通过忽略没有边界框注释的数据），而且还限制了检测器我们认为训练大规模检测器的更好方法是通过利用粗粒度检测数据和细粒度分类数据的半监督学习这种方法有几个好处：首先，与全监督检测器相比，半监督检测器仅需要相对少量的粗粒度类来用边界框进行完全标注。直观地说，如果我们已经用边界框完全注释了这可以大大降低注释成本，并更好地利用现有数据。其次，与弱监督检测器相比，我们仍然利用粗粒度的检测数据，训练出更强的检测器。在mAP中，最先进的弱监督方法仍然比完全监督方法低30个点[10，40，33我们的半监督方法表明，我们可以实现可比的性能98059806到完全监督的方法。解决这一问题的关键在于粗粒度类和细粒度类之间的相关性。因此，我们试图回答以下两个问题：1）如何在完全监督的粗粒度数据（即，具有边界框注释）和弱监督细粒度数据（即，仅具有图像级注释）; 2）如何有效地利用这些相关性来将从全监督数据学习到的准确对象外观转移到弱监督数据，以及如何从更细粒度的弱监督数据的丰富方差中学习更好的检测器。在这项工作中，我们提出了一种新的大规模半监督目标检测解决方案。与现有作品[24，27]相比，我们的解决方案能够处理完全监督和弱监督数据之间的语义和视觉相关性更重要的是，除了共享特征学习层之外，我们还明确地利用这些知识来在这两个数据世界之间传输知识。该设计不仅有助于扩展检测器对细粒度类的检测能力，而且还可以借助细粒度数据的丰富多样性来提高检测器具体来说，我们提出了一个两个流网络的骨干网的基础上R-FCN。一个流专注于全监督检测，另一个流解决了细粒度数据的弱监督检测。两个流共享特征学习层。我们的主要技术贡献包括：• 用细粒度的弱注释数据增强全监督检测流。与共享骨干和多任务训练，我们利用更多样化的细粒度图像在弱注释，以提高检测器• 弱监督检测流的基于软注意力的建议重排序我们利用粗粒度标签和细粒度标签之间的相关性，从全监督流到弱监督流，更可能包含相关对象的建议• 具有前台注意力池的双级存储器模块。我们用一个前-内部存储器模块与聚类损失类似，该模块可以将知识从监督数据转移到非监督数据，并进一步规范训练过程。在OpenImages和ImageNet两个大规模数据集上的实验结果表明，该方法在不需要边界框标注的情况下，仍然可以在细粒度类上实现高检测精度，同时在某些情况下还可以提高粗粒度类的检测性能。此外，我们设计的框架是端到端可训练的，几乎与标准检测网络一样有效。建议的组成部分是通用的-并且可以很容易地转移到任何两级（基于RPN）检测器。我们方法的成功还为物体检测的实际数据收集提供了有意义的见解：为了构建能够检测数万个类别（例如，ImageNet数据集中的11K类），我们只需要收集一小部分粗粒度类的边界框和所有细粒度类的图像标签，这可以显著降低注释成本。2. 相关工作完全监督的物体检测：全监督检测可分为两类：1）一步法，如YOLO系列[23，24，25]和SSD [18]。这些方法不需要区域建议和单次拍摄中的每个形式检测。2)两阶段方法，如快速R-CNN系列[11，26]，R-FCN [5]，FPN [16]和Mask-RCNN [12]。这些方法基于相同的思想，即检测器应该首先生成可能包含对象的区域建议，然后将建议进一步分类为背景和特定对象类。与两阶段方法相比，一阶段方法通常在训练和推理方面更快我们提出的框架是建立在最先进的方法之一，具有可变形卷积网络的R-FCN[5，6]之上。然而，它可以很容易地采用任何其他两级检测器。弱监督对象检测：弱监督对象检测通常被公式化为多示例学习的关键实例检测，其中我们将每个对象提案视为一个实例，将每个图像视为一个包。问题是要找出包含对象的实例，只给出bag级的监督。大多数弱监督检测方法有两个阶段：首先使用选择性搜索[36]或边缘框[41]作为建议，然后使用CNN来解决多实例学习问题。进一步提高弱监督检测性能的主要方向有两个：提高提案质量和提案的汇总 - 选择过程。WSDDN [2]是使用深度学习进行弱监督对象检测的着名工作之一。关键的想法是为提案提供一个额外的排名softmax，以智能地聚合和选择提案分数。OICR [30]通过将多个细化流与伪地面实况相结合来改进WSDDN。[34]利用网络图像来增强训练数据。[31]放弃手工制作的对象提案，转而支持区域提案网络（RPN）的弱监督版本最近，[10]还提出使用额外的注意力地图来改进提案选择过程。在这项工作中，我们证明了相关粗粒度检测类的边界框信息可以在两个方向上大大改善9807我我i1CwJ半监督对象检测：那里是而在半监督检测领域的研究还很少。[32]提出了一种基于LSDA的方法，可以处理不相交集半监督检测。 [35]提出了一种基于不相交集的半MIL半监督检测方法，其性能优于[32]。然而，它们不是端到端可训练的，并且不能容易地扩展到最先进的检测框架。注- RCNN [9]提出了一种用于半监督检测的挖掘和训练方案YOLO 9000 [24]也可以被视为一个半监督检测框架，但它只不过是检测和分类流的简单组合，只依赖于从网络中学习的隐式共享特征。据我们所知，我们的方法是第一个端到端的半监督检测框架，明确利用粗粒度检测和细粒度分类数据之间的语义/视觉相关性在ImageNet和OpenImages数据集上的实验结果表明，该方法是有效的，更适用于现实世界中的大规模检测问题。3. 技术途径在本节中，我们将介绍如何解决半监督细粒度检测问题。我们首先在3.1节中对问题进行公式化，然后在3.2节中介绍如何对视觉和语义相关性进行编码。我们的整体架构在第3.3节中概述。主要组成部分是：完全监督检测流、具有基于软注意力的优先级排序的弱监督流、以及具有前景注意力池的双级存储器模块，它们分别在第3.3.1节、第3.3.2节和第3.3.3节中详细解释。3.1. 问题公式化设X是由子集Xf组成的整个数据集的Cf类与完整的边界框注释（fde-粗粒度级别标签，而Cw包含所有细粒度级别标签以反映真实世界场景。例如，对于语义相关性，我们可以将具有边界框的粒度标签，以及作为没有边界框注释的细粒度标签的“拉布拉多”、“奇瓦瓦”等。或者对于视觉语义相关性，我们可以将我们的方法旨在利用这些相关性为细粒度类提供准确的边界框预测，并利用相关的细粒度数据提高粗粒度类的训练精度3.2.粗粒度类与细粒度类之间的编码相关性我们认为，成功的半监督检测器的关键是建立和利用粗粒度和细粒度类之间的相关性。这些相关性是桥梁，使我们能够在两个世界之间转移知识。具体来说，我们考虑两种相关性：语义和视觉相关性。3.2.1语义相关性语义相关性是从人类知识和语言中提取的这些相关性通常表示为有向图或树，例如WordNet [20]和VisualGenome [15]。这种语义相关性的好处是：1）它们编码了关于我们如何看待世界的强大先验知识。2)它们可从各种来源容易地获得。例如，ImageNet构建在WordNet 上， OpenImages 构建在 Google KnowledgeGraph上。编码语义相关性是直接的，因为这些相关性已经由有向图表示。F或粗粒度检测类CF，如果我们将其简写为H（cf），编码函数可以写成一个独热向量：. w wf完全注释的注释），以及仅具有图像级注释的C w类的子集X w（w表示弱注释）。让|CF|=Cf且|CW|=Cw.我们的目标M（cf）=[ew，. . . ，ew]，在哪里eJ =1，如果cj ∈ H（ci）0，否则。（一）训练一个能够准确检测所有C=Cf<$Cw类的检测器。我们的方法不能处理chal-challening场景，其中完全注释和弱注释的类是不相交的（即，CfCw=），并且存在比边界框注释多得多的图像级注释CwCf）.该场景包括最突出的大规模图像数据集，即Im-ageNet和OpenImages。我们假设在完全注释集合Cf和弱注释集合Cw 之间存在语义或/和视觉相关性。我们还假设Cf包含所有这里cw是一个任意的细粒度分类类。的从细粒度到粗粒度的反向编码只是与上位词类似的功能。我们在随后的实验中使用这些映射函数。语义相关性存在缺陷。首先，向现有图中添加新节点需要大量的专家努力，并且会被修剪到错误。第二，语义相关性并不总是可转换为视觉相似性，反之亦然。例如，“鬣狗”在生物学上更接近“猫科动物”，但在视觉上更类似于“犬科动物”;“basket-ball” 在视觉上类似于“orange”，但在语义上，9808我XJi1CwCGCG都很遥远因此，我们将在下一节介绍视觉相关性。3.2.2视觉相关性视觉相关性描述了物体/概念之间的视觉相似性。这些相关性更好地与培训目标保持一致，并且更灵活，更容易维护。为了编码视觉相关性，我们考虑两种情况，直接使用检测类作为如果我们有相对较少的粗粒度类，我们可以将它们中的每一个都视为“超类”并构建两级编码。我们通过取特征xi，m的平均值（从深度神经网络的最后一层提取，例如ResNet-101，用于属于第i类的采样图像m）来获得第i个对象类表示xi在获得每个类的表示之后，我们可以通过硬分配或软分配来编码粗粒度和细粒度类之间的相关性图1：设计架构的概述。该架构可以分为三个流：1）全监督检测流，2）弱监督分类流，以及3）包括基于软注意力的建议重新排序和双层存储器模块的相关组件。所有三个流共享共同的模块，例如用于特征学习的基本CNN层和区域建议网络（RPN）。在训练过程中，检测数据用于训练RPN和R-FCN类似的粗粒度检测流，而细粒度数据用于训练RPN和R-FCN类似的粗粒度检测流。让当欧几里得距离是-用于训练细粒度分类流。的i ij2在来自粗粒度集合的两个表示xf和来自细粒度集合的表示w一曰：. WJ相关组件旨在传递知识在粗粒和细粒之间。细粒度类的流，以及3）相关性组件。M（cf）=[ew，. . . ，ew]，在哪里eJ =1，如果di<θi0，否则。（二）用于在粗粒度和细粒度数据之间传递知识的组件，包括共享主干、基于软注意力的建议重新排序以及双层存储模式，这里θi是类特定的阈值。对于软分配，这类似于加权K均值聚类，我们可以使用softmax函数将细粒度类分配给乌莱这些组件的详细信息将在以下章节中解释。M（cf）=[ew，. . . ，ew]，其中ew=e−βdj我、（3）3.3.1全监督检测流i1Cwj−βdjkek其中β是控制softmax函数分布的温度参数如果我们有大量的粗粒度类，为了降低计算成本以及促进更有效的视觉编码，我们可以通过（加权的，如果我们使用软分配编码）对来自粗粒度集合C f的对象类的表示进行K均值聚类来构建一组超类Cs。然后我们有一个编码函数，Cs→Cf和Cs→Cw的解与方程的精神相同2和等式3 .第三章。3.3. 架构为了利用全监督（粗粒度）和弱监督（细粒度）数据及其编码相关性，我们在框架中构建了三个关键组件：1）用于粗粒度类别的全监督检测流，2）弱监督分类此流构建在可变形R-FCN上[5]。首先，区域建议网络（RPN）用于生成pro-bands，并且仅使用检测数据进行训练，以避免来自弱监督数据的标签噪声。然后，在共享的骨干网上，我们应用位置敏感的过滤器，以池的功能，从每个建议。因为我们有Cf类，每类P×P个滤波器，有（Cf+1）×P×P个滤波器.在执行位置敏感的ROI池化之后，我们应用两个完全连接的层来获得最终的分类分数，并为每个投影回归边界框结果。交叉熵损失和边界框回归损失用于分类和回归学习，例如：Lcg=0。5Lreg+ Lcls，（4）其中我们使用0。5作为权衡参数[28]。9809CF图2：弱监督流的概述。3.3.2软注意建议重排序的弱监督检测流弱监督检测可以看作是一种特殊的带有关键实例检测的多实例多标记学习。在多实例学习中，每个图像都可以是一个包，图像中的每个建议都是包中的一个实例由于我们只有图像（包）级标签，解决这个问题的关键是如何将建议级分数聚合为图像级分数，以及如何选择最有可能包含目标对象的建议。在深度学习和反向传播的背景下，这两个问题紧密联系在一起。一个经典的方法来汇总提案分数是使用最大或平均池[38，39]。这对于获得良好的图像级预测效果很好，但对于检测具有最高交集的联合（IoU）到地面实况边界框的预测效果不佳。最可能的原因是现代CNN倾向于关注对象中最具区分力的部分，而不是整个对象[40]。例如，在ImageNet上训练的网络仅使用头部/面部部分而不是整个身体来区分因此，现有技术的弱监督对象检测方法[2，34，33，10]采用一些形式图3：基于软注意力的提案重新排名。特征，我们通过一个完全连接的层获得提案级别的分数。这些分数然后被发送到两个不同的池分支，如图2所示。第一个分支是全局池：我们使用最大、平均或加权平均池来聚集图像级分数，并使用归一化的softmax损失来学习。该分支被设计用于平滑训练过程并生成良好的图像级性能。第二个分支是注意力池，它从完全监督的流中转移知识，并帮助创建准确的建议。类似于神经机器翻译[1]中的软注意机制，我们使用来自全监督检测流的建议分数作为注意力图，并将该图应用于弱监督检测分数以获得最终建议分数。然后通过平均池化来汇总该分数。如图3所示，为了获得用于排名的注意力图，我们需要重新缩放和归一化粗粒度的检测分数，然后使用前面讨论的映射函数将分数映射到细粒度的标签选项，即，当量（1）、（2）、（3）。假设我们有一个得分图Sf∈R（Cf+1）×P，其中Cf+1是粗粒度检测类加上背景的数量，P是建议的数量。如果背景类位于索引Cf+1，为了将映射上的每个建议约束为一个唯一的类，我们使用softmax操作，定义为：Sf（p，c）激活映射的正则化或解决问题的建议幸运的是，由于我们有全面监督的侦探-Sf（p，c）=ej=1 eSf（p，j），n ∈[1，. . . ，Cf]、（5）流，对于每个建议，我们实际上知道对于细粒度对象存在或不存在紧密相关的粗粒度对象。继续我们的其中Sf（p，c）是提案p在类别c的得分。后f获得Sc，类似于WSDDN中的排名项[2]，我们在建议的方向上规范化分数图，获得粗粒度的注意力图eSf（p，c）Af（p，c）= n，n ∈ [1，. . . ，P]，（6）“狗”从检测数据中获得的知识是一个很好的Pj=1 eSf（j，c）弱监督检测的注意机制。我们基于这个思想设计了我们的弱监督分支。与完全监督流类似，我们使用共享RPN来生成建议，并使用RoI池化层来精确共享层中每个建议的特征。我们选择RoI pooling 而不是PSRoI pooling 来减少计算开销，因为PSRoI pooling需要的过滤器是RoI pooling的P×P倍，并且在我们的例子中有大量的类在我们生成池化后，然而，由于我们需要将注意力图应用于细粒度的建议，因此我们利用第3.2节中描述的编码函数作为粗到细的映射函数，以将粗粒度的注意力图映射到细粒度的。我们在提议p处获得细粒度注意力图Ww（p作为CfAw（p）= Af（p，j）<$M（j），（7）j=19810CMi i=1Mi i=1ccii其中M（j）是类j上的软分配或独热硬分配编码，具有维度Cw。然后将该注意力图应用于弱监督得分图Sw∈RCw×P。弱监督细粒度的最终损失函数粒度检测分支是：Lfg=Lcls （ pool （ Sw ）， y ） +λLcls （ pool （ Sw<$Aw），y），（8）其中y是多标签图像级标签，λ是交易。我们正在处理多实例半监督SCENARIO。因此，我们需要将提议级特征和预测聚合到图像级，以便促进内存更新和预测。我们使用前景注意力（FA）池来过滤掉嘈杂的建议。在FA池中，我们只从具有积极图像级别的高响应的建议中池化特征和预测，并通过总和池化来聚合这些特征和预测以表示它们对应的图像。具体地，如果图像I具有m个提议pim，并且它们的对应特征和得分关闭参数，设置为0。1、我们所有的经验条款。我们使用前5名平均池的第一个任期，是{pf}mi=1和{ps}m，对于a的图像级特征If，第二个任期的总和。关于设计选择的详细实验可以在我们的补充文件中找到。3.3.3双电平存储器模块最近引入了具有记忆的神经网络，以实现更强大的学习和推理能力用于解决几个具有挑战性的任务，例如问答[19]，一次性学习[13]和半监督分类[4]。用外部记忆组件来增强网络与标准半监督学习中的聚类损失起着类似的作用，但动态然后，特定类别c由下式定义：ΣIf=（pf），如果ar gmax（ps）=c，（10）我图像级预测以类似的方式汇集在我们有了图像级的特征和分数来更新内存模块之后，我们利用f= H（I）+DKL（I||（11）作为细粒度级存储器的损失函数。整个记忆丧失是：更新特征表示和概率预测，L=Lw+Lf（十二）记忆力。受这些工作的启发，我们建议在我们的框架中添加一个记忆模块，以利用模型学习中产生的可记忆信息，并进一步规范学习。与[4]不同，我们的半监督检测任务是一个两级半监督问题。对于检测流，我们没有用于细粒度分类数据的边界框注释，并且对于分类流，我们没有用于检测数据的细粒度标签因此，我们需要两个级别的内存：粗粒度的建议级内存和细粒度的图像级内存。因此，我们提出了一个具有前景注意力池（DLM-FA）的双层内存模块。对于粗粒度级别的内存，我们有建议（框）级标签的粗粒度检测图像，但我们缺乏建议级粗粒度标签的细粒度图像。如果我们将每个建议视为一个训练实例，我们将面临一个直接的半监督学习问题，我们可以直接使用与[4]相同的记忆结构。损失函数为：Lw=H（p）+DKL（p||其中H（·）是entropy，DKL（·）是Kullback。嗯嗯内存模块的详细信息可以在补充文件中找到。4. 实验在本节中，我们首先介绍我们的实现细节。然后对实验结果进行了讨论，并与其他基线方法进行了比较。我们在两个最具挑战性的大规模数据集上测试了我们的4.1. 实施细节和基线我们的实现基于SNIPER [28]。特别是，我们使用混合精度训练来获得更大的批量和更快的训练速度。使用具有fp16权重的ResNet-101作为共享骨干。我们对所有头部的全连接层和卷积层使用fp32权重。我们在8个V-100 GPU上训练模型，批量大小为128（即每个GPU16）。平衡采样方案用于检测和分类数据，即，我们对每一批样本的分类和检测数据的数量相同。初始学习率被设置为0。015对于所有实验。我们训练所有模型9个epoch，Leibler（KL）分歧。p是记忆预测，率下降0。每3个时期1个。影像视界-p是每个建议p的网络预测。对于细粒度级别存储器，我们具有用于细粒度分类图像的图像级别标签，但是我们缺乏用于粗粒度图像的细粒度标签。然而，与标准半监督设置相比，语音翻转用于数据扩充。我们只使用一个尺度，即512×512用于训练和测试。在推理过程中，我们对模型输出运行软NMS [3标准偏差参数为0。55在高斯加权函数。L9811我们将我们的方法与在相同数据上训练的最先进的全监督检测方法进行了比较。所有结果均以平均平均精度（mAP）报告，交叉联合（IoU）阈值为0。五、具体而言，我们的方法与以下方法进行比较：1）SNIPER-CG-Fully：SNIPER在具有完全注释的边界框的粗粒度数据上训练。2)SNIPER-FG-完全，即，SNIPER在细粒度数据上进行训练，并使用完全注释的绑定框。 3)SNIPER-FG-Weakly ：具有固定主干和 RPN 的SNIPER，从粗粒度检测数据训练，并对仅具有图像级标签的细粒度数据进行微调。这是我们测试中最强的弱基线之一。4)SNIPER-All：SNIPER在粗粒度和细粒度数据上进行训练，并使用所有绑定框和标签注释。我们还将我们的方法与[29，32，35]中提出的半监督检测方法进行了比较，在相同粒度的随机分割设置中，并取得了有利的结果。由于这不是我们论文的重点和篇幅限制，结果显示在补充文件中。4.2. OpenImages结果类#类#训练#测试粗粒度34786K22K细粒度462567K8.8K表1：OpenImages数据集的统计数据。OpenImagesV4数据集包含601个类的边界框注释，具有基于Google Knowledge Graph的语义树。我们使用语义树中的所有462个叶节点作为细粒度类。这些细粒的方法培训数据/标签mAP-CGmAP-FG[第28话]CG完全45.7-[第28话]FG-完全-59.1[第28话]所有28.754.0SNIPER-弱FG-弱-20.2天真CG-完全+FG-弱52.534.0+软关注CG-完全+FG-弱52.949.2+ CG记忆CG-完全+FG-弱52.249.6+DLM-FACG-完全+FG-弱53.551.9表2：OpenImages数据集上不同模型的测试结果，我们分别评估了粗粒度（CG）和细粒度（FG）类。使用简单的建议聚合方法（top-5 pooling），我们可以看到细粒度的检测结果虽然合理，但远低于SNIPER-FG-Fully和SNIPER-All。尽管如此，我们仍然可以看到，在相同的RPN上，朴素的弱监督流仍然优于纯弱监督方法，这进一步验证了联合训练和共享骨干的好处如果我们在训练和推理过程中加入基于软注意力的建议重新排序，上升超过15个百分点。结果表明，将从检测器中学习到的知识引入到弱监督流中可以显著地帮助弱监督流。对于内存模块，如果我们只是添加一个类似于[4]的单级粗粒度内存模块，我们看不到任何改进。然而，在双层内存模块的帮助下，我们可以进一步缩小细粒度流和全监督流之间的差距。尽管它表明我们的最佳模型在细粒度上仍然比最佳全监督模型低7类有72个直接父节点，可以用作粗粒度类。然而，由于这72个类也有层次结构，为了简单起见，我们合并了较低的级别类到其最高级别的父类。我们最终得到了34个粗粒度的类。如前所述，我们只使用粗粒度类的边界框注释，以及训练中细粒度类的图像级标签。我们使用语义相关的OpenImages实验。我们在OpenImages验证数据集上评估我们的模型验证数据集包含所有粗粒度和细粒度标签的边界框注释。表1显示了OpenImages的训练和验证数据集中不同模型的结果汇总在表2中。我们可以看到，在没有软注意力和记忆的情况下，完全监督和弱监督流的简单组合已经可以在这两个任务上表现良好，特别是在粗粒度检测上。朴素基线已经比SNIPER-CG-Fully高出约7个点。这这意味着共享的骨干网从丰富的各种紧密相关的细粒度图像，以及多任务训练。然而，由于我们只类，我们应该提到的是，我们的模型实际上在mAP 0方面与SNIPER-FG-Fully类似。五比零95岁，都在36岁左右。这表明，尽管我们在细粒度类上没有边界框，但我们仍然可以学习像全监督方法一样准确地预测。4.3. ImageNet结果类#类#训练#测试粗粒度200400K22K细粒度-3 K2937870K46K细粒度-11 K110211.7M-表3：ImageNet数据集的统计数据。然后我们在ImageNet数据集上运行实验。如表3所示，我们使用ILSVRC 2014检测集200个类作为粗粒度集。两个细粒度集进行了测试。一个是带有边界框注释的3K集，类似于[27]中使用的内容。对于这个集合，我们将5%的训练数据分割到验证集进行测试细粒度流的性能。另一组包含11K类，每个类具有超过500个训练图像。这一组总共有1300万张图片在9812图4：定性结果。第一行显示了我们最好的OpenImages模型的细粒度检测结果（表2的最后一行）。第二行显示了我们的ImageNet模型在11K细粒度类上的细粒度检测结果表4：ImageNet数据集上不同模型的测试结果，我们分别评估了粗粒度（CG）和细粒度（FG）类。请注意，YOLO-9000和R-FCN-3000的结果不能直接比较。根据[27]，SNIPER-3k-FG-Fully应是FG上R-FCN-3000在我们的实验中，我们从所有类别中随机抽取1/8的图像进行训练和测试。这样的子集可能已经足够一般，并且是完整集合的良好代表我们使用前面介绍的软分配在细粒度和粗粒度类之间建立视觉相关性。从表 4 中总结的结果中，我们可以看到，与OpenImages数据集的结果不同，我们的粗粒度检测结果略差于SNIPER-CG-Fully，在25和SNIPER-FG-Fully在22。这再次表明，我们可以学习在大规模数据集上像完全监督方法一样准确地预测我们还在表4中列出了CG验证集上YOLO-9000和R-FCN-3000的检测结果。请注意，这些方法不是在与我们的方法相同的数据上训练的，因此结果不能直接比较。然而，我们想在这里展示的是，我们能够训练一个大规模的检测器，它能够检测多达11k个类，同时在粗粒度类上仍然远远优于YOLO-9000和R-FCN-3000由于ImageNet中的11K类没有边界框注释，我们在图4中展示了定性结果。总的来说，我们的方法表现得相当不错。例如，我们的模型能够检测细粒度的动物物种和人类活动。更多定性结果和失效案例可参见补充文件。5. 结论本文提出了一种基于半监督的方法来解决大规模细粒度目标检测问题。我们的方法可以实现类似的重新-3的利润率。3和49，分别。这可能是用粗颗粒和细颗粒的相关性来解释粒度数据。对于OpenImages，粗粒度集和细粒度集紧密相关，因为它们被手工挑选以形成紧凑的语义树，而对于ImageNet，细粒度集是通过边界框注释的可用性和训练图像的数量来任意挑选ImageNet数据集在粗粒度集之间的语义和视觉相关性方面可以包含更多因此，我们没有观察到粗粒度性能的改善。与OpenImages类似，尽管我们的最佳模型比mAP 0中细粒度类的最佳监督模型差6个点。5，我们的模型实际上在mAP 0方面比SNIPER-FG-Fully表现得更好。五比零95、我们的模式通过利用来自仅少量完全注释的粗粒度类和大规模弱注释的细粒度类的数据，得到最先进的全监督检测器。我们的工作不仅建立了一种新的学习大规模检测器的方法，而且为大规模数据收集和注释提供了思路。有几个未来的方向可以探索。目前，我们只是使用了一个简单的两级树结构，并没有探讨粗粒度或细粒度集内的相关性。显然，11k细粒度类不应该更好的方法是利用细粒度类中的层次结构。我们还可以探索系统的方法来搜索可以很好地检测的好的细粒度类，同时也有助于提高粗粒度检测。方法培训数据/标签mAP-CGmAP-FG[第28话]CG完全54.0-[第28话]3k-FG-完全-41.6[24]第二十四话COCO+9k-FG-弱19.9-R-FCN-3000系列[27]3k-FG-完全34.9-我们的-3 KCG-完全+3k-FG-弱50.735.1我们的-11 KCG-完全+11k-FG-弱49.1-9813引用[1] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。CoRR，abs/1409.0473，2014。5[2] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在CVPR，第2846-2854页，2016年。二、五[3] Navaneeth Bodla，Bharat Singh，Rama Chellappa，and Larry SDavis.用一行代码改进目标检测。在ICCV，第5562-5570页，2017年。6[4] 陈燕北，朱夏天，龚少刚。带记忆的半监督深度学习。在ECCV，2018。六、七[5] 戴纪峰，易力，何开明，孙建。R-FCN：通过基于区域的完全卷积网络进行对象检测。在NIPS，第379-387页，2016年。一、二、四[6] Jifeng Dai ， Haozhi Qi ， Yuwen Xiong ， Yi Li ， GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在ICCV，第764-773页2[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li，andFei-Fei Li. Imagenet：一个大规模的分层图像数据库。CVPR，第248-255页，2009。1、6[8] Mark Everingham，Luc J.放大图片作者：Christopher K. I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。Pascal Visual Object Classes（VOC）International Journal of Computer Vision，88（2）：303-338，2010. 1[9] Jiyang Gao，Jiang Wang，Shengyang Dai，Li-Jia Li，and RamNevatia. NOTE-RCNN：用于半监督对象检测的噪声容忍集成RCNN。CoRR，abs/1812.00124，2018。3[10] 伟峰阁、司北央、益州羽。基于弱监督学习的多标签分类、目标检测和语义分割的多证据过滤在CVPR，2018年6月。一、二、五[11] 罗斯湾娘娘腔。快速R-CNN。在ICCV，第1440-1448页，2015中。2[12] Kaiming He，Geor gia Gkioxari，Piotr Dolla'r，and Ross B.娘娘腔。面罩R-CNN。在ICCV，第2980-2988页，2017年。一、二[13] Lukasz Kaiser，Ofir Nachum，Aurko Roy和Samy Bengio。学会记住罕见的事件。CoRR，abs/1703.03129，2017。6[14] Ivan Krasin、Tom Duerig、Neil Alldrin、Vittorio Ferrari、SamiAbu-El-Haija 、 Alina Kuznetsova 、 Hassan Rom 、 JasperUijlings 、 Stefan Popov 、 Shahab Kamali 、 Matteo Mallocis 、Jordi Pont-Tuset 、 Andreas Veit 、 Serge Belongie 、 VictorGomes、Abhinav Gupta、Chen Sun、Gal Chechik、David Cai、Zheyun Feng 、 DhyaneshNarayanan 和 KevinMurphy 。Openimages：用于大规模多标签和多类别图像分类的公共数据集。数据集可从https://storage.googleapis.com/openimages/web/index.html 获得，2017年。1、6[15] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， Justin Johnson ，Kenji Hata ， Joshua Kravitz ， Stephanie Chen ， YannisKalantidis，Li-Jia Li，David A Shamma，Michael Bernstein，and Li Fei-Fei. Visual genome：Connecting language and visionusing crowdsourced dense image annotations.2016. 3[16] 作者声明：Dr. Girshick，KaimingHe，BharathHariharan，andSerge J.贝隆吉用于目标检测的特征金字塔网络。在CVPR中，第936-944页，2017年。一、二[17] 作者：Michael Maire，Serge J.Belongie，James Hays，PietroPerona，Dev aRamanan，PiotrDoll a'r和C. 劳伦斯·齐特尼克。MicrosoftCOCO：在上下文中常见的对象。在ECCV，第740-755页，2014中。1[18] 刘伟，Dragomir Anguelov，Dumitru Erhan，Christian Szegedy，Scott E.Reed，Cheng-Yang Fu，and Alexander C.伯格。SSD：单次触发多盒探测器。在ECCV，第21-37页，2016年。2[19] 亚历山大·H Miller ，Adam Fisch， Jesse Dodge ， Amir-HosseinKarimi，Antoine Bordes，and Jason Weston.键值存储网络-用于直接读取文档。参见EMNLP，第140069814[20] George A.米勒Wordnet：英语词汇数据库Commun.ACM，38（11）：39-41，1995. 3[21] 迪姆山口帕帕多普洛斯R. 厄林斯，弗兰克·凯勒，还有维托里奥·法拉利。我们不需要边界框：仅使用人工验证训练对象类检测器。在CVPR，第854-863页，2016年。1[22] 迪姆山口帕帕多普洛斯R. 厄林斯，弗兰克·凯勒，还有维托里奥·法拉利。极端点击有效的对象注释。在ICCV，第4940-4949页1[23] 放大图片作者：Joseph Redmon，Santosh K

下载后可阅读完整内容，剩余1页未读，立即下载