网络监督目标检测的自下而上和自上而下的线索与注意学习

26 浏览量更新于2023-10-24 收藏 1.86MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12936探索自下而上和自上而下的网络监督目标检测线索与注意学习吴忠华1陶庆义1，2林国胜1蔡建飞1，31南洋理工大学2英伟达人工智能技术中心3莫纳什大学{zhonghua001，qtao002}@ e.ntu.edu.sg{gslin}@ntu.edu.sg{jianfei.cai}@ monash.edu摘要近年来，全监督目标检测取得了很大的然而，丰富的边界框注释需要训练检测器的新类。为了减少人类标记的努力，我们提出了一种新的网络监督对象检测（WebSOD）方法，新的类，只需要网络图像与-出进一步的注释。我们提出的方法结合了自下而上和自上而下的线索，新的类检测。在我们的方法中，我们引入了一个自底向上的机制，该机制基于训练有素的完全监督对象检测器（即更快的RCNN）作为Web图像的对象区域估计器，通过识别基类和新类共享的共同客观性。在网络图像上的估计区域，我们然后利用自上而下的注意线索作为区域分类的指导。此外，我们提出了一个残余特征细化（RFR）块来解决Web域和目标域之间的域不匹配。我们在PASCAL VOC数据集上展示了我们提出的方法在没有任何目标域新类别图像和注释的情况下，我们提出的网络监督对象检测模型能够为新类别实现有希望的性能。此外，我们还在大规模ILSVRC 2013检测数据集上进行了迁移学习实验，并实现了最先进的性能。1. 介绍随着卷积神经网络（CNN）的发展[30，29]，目标检测在准确性和速度方面都有了很大的提高。然而，最先进的对象检测方法[16，8，21]需要大量的边界框注释。如果我们想检测不在预定义训练集中的新类别，我们需要做大量的标记工作来注释新类别的图像。为了简化标记过程，* 通讯作者：G. Lin（电子邮件：gslin@ntu.edu.sg）图1.所提出的网络监督对象检测方法（WebSOD）旨在学习具有基本类检测器的新颖类的检测器和新颖类的网络图像，而没有进一步的人类注释。已经提出了可以仅用图像级标签来训练的监督对象检测（WSOD）方法。然而，仅标记图像级标签仍然是昂贵和耗时的，特别是在大规模多实例对象检测场景中。这促使我们开发一种对象检测方法，该方法在扩展到新类时不需要任何进一步的人类标记。出于类似的动机，已经提出了一种基于Web的弱监督对象检测方法[23]，以减轻对人工劳动的需求。该方法需要从互联网上获得的训练图像。一种用于新类别对象检测的朴素方法是简单地使用web图像及其图像级“标签”（本质上是用作搜索短语以获得图像的预定义标签），通过使用弱监督检测方法来然而，这种朴素的基于web的弱监督方法产生较差的性能。这主要是由于弱监督模型的边界框定位较差。此外，Web域和目标域之间的域差异也加剧了这一问题.为了解决弱监督目标检测方法在Web图像上定位不准确的问题，提出了一种新的Web监督目标检测（WebSOD）方法。目标域基类检测器新颖类检测器狗马车角马Web域Webly监督目标检测（WebSOD）新颖的Web图像，图像级“label "12937培训测试目标测试集对象区域估计器估计对象区域目标训练集Web培训集基类和新类对象检测器基类，BB注释基类和新类没有注释的次目标检测最终对象检测器剩余特征细化注意力分类模块损失图2.我们提出的网络监督对象检测方法（WebSOD）的整体流程。目标训练集包含具有丰富边界框注释的基本类图像，并且web训练集包含没有进一步注释的基本类图像和新类在训练过程中（左侧），我们有三个阶段。在第一阶段（蓝色）中，我们使用目标域图像来训练一个基类对象检测器作为Web图像的自底向上对象区域估计器，以估计可能包含对象的对象区域。在第二阶段（橙色）中，我们使用自上而下的专注分类模块，在Web图像上为基础类和新类训练端到端的Web监督对象检测器在最后一个阶段（黄色），我们提出了一个残差特征细化（RFR）块来细化两个域的特征表示，以获得最终的对象检测器。在测试过程中（右侧），我们直接将最终对象检测器应用于目标测试集。鸟巴士牛摩托车沙发图3.由经过良好训练的基本对象检测器在新的网络图像上估计的对象区域的视觉结果。来自自下而上线索的常见对象性使得基础检测器能够定位可能包含对象的潜在区域。然而，所获得的对象区域还可以包含背景区域（例如，鸟图像中的背景区域）或不相关的对象（例如，牛图像中的人）。图1说明了问题设置。在我们的方法中，我们结合自下而上和自上而下的线索的网络图像的新类，以训练新类检测器。考虑一个典型的两阶段对象检测器，它包含一个区域建议生成器，用于定位可能包含对象的显著区域。如[15]中所指出的，在完全监督的对象检测方法中，检测模型能够学习一些域不变和类不可知的对象知识。这种对象性知识是自下而上的线索[1]，在不同的类之间共享，即使是在训练中没有看到的新类这促使我们使用现有的训练有素的检测器作为新类别的对象区域估计器给定从现有检测器估计的对象区域，然后我们需要一个区域分类器来将区域分类到相应的类。虽然我们有Web图像的固有图像级别标签，但我们观察到生成的区域可能是背景区域，甚至是与Web图像不一致的对象。贝尔斯如图3所示，区域可以是不包含对象或不相关对象的背景块。为了解决这个问题，我们提出了一个自上而下的类特定注意模型，通过将学习集中在所需类的相关区域上，并抑制不相关的区域。具体来说，我们使用[38]中的方法来生成注意权重，并为每个估计区域引入注意分类损失为此，将来自自下而上的对象区域估计器的对象此外，由于新类别检测器是使用Web图像训练的，因此我们需要将目标数据适应Web域，以便将其用于目标新类别。对于域不匹配问题，通常的做法是混淆源域和目标域的特征然而，通常存在这样的潜在风险，即特征以非类特定的方式被混淆，并且特征不仅对于域而且对于类变得不可区分。因此，我们使用一个固定的检测分类器，只细化具有类特定任务丢失的特征学习器。在微调特征学习器的同时，我们提出了一个残差块来稳定训练，并减少对仅在适应良好的源域中可用的新类的在我们的实验中，我们遵循[12]将类拆分为不重叠的新类/基类我们评估了我们提出的网络监督对象检测模型在PASCAL VOC数据集上的STC数据集被用作额外的网络数据，图像可以从互联网上免费获得，而不需要额外的数据。12938人类劳动。通过使用Web数据和VOC基类进行训练，我们的WebSOD方法能够优于大多数需要目标域新类图像的图像级标签的弱监督方法。此外，我们还在大规模ILSVRC 2013检测数据集上进行了迁移学习实验，其中我们提出的方法优于最先进的方法[25]。总的来说，我们工作的主要贡献可以概括如下：• 我们提出了一种新的网络监督对象检测（WebSOD）方法，新的类，而不需要人的标签的努力。该模型实现了promis-在PASCAL VOC数据集上对不同的新的/基本的分割结果，并且优于大多数需要图像级标签的最先进的弱监督对象检测方法。此外，我们提出的方法在大规模ILSVRC 2013检测数据集上的迁移学习任务• 我们介绍了一种基于训练良好的基本检测器的自底向上的目标区域估计方法和一种基于自顶向下线索的有从图像级类别激活图中提取新类别对象，以便更好地对网络图像中的新类别对象进行分类。• 针对目标域和Web域之间的域不匹配，我们提出了一种残差特征细化（RFR）网络，以适应来自目标域到网络训练的检测模型。2. 相关作品我们的方法涉及的研究课题包括从Web数据中学习，弱监督对象检测，挖掘判别区域和域自适应。2.1. 从Web数据中学习为了提高目标训练数据的多样性，经常使用Web数据进行数据扩充。的工作[6]在分类任务中使用Web图像。他们专注于过滤嘈杂的Web图像，以构建干净的Web训练数据。具有类似的效果，Shen et al.[17]和Tao et al.[22]提出使用Web图像作为外部数据，以分别提高图像语义分割和弱监督对象检测的性能。相反，我们建议使用Web图像，而无需进一步标记，用于训练新类别的对象检测器。2.2. 弱监督目标检测近年来，弱监督检测的研究主要是利用图像层次来减少人工标注的工作量标签而不是边界框注释[3，36，2，4，11，14、19、28、5]。多实例学习问题已被定义为弱监督对象检测任务，其中模型交替学习所包含的对象的类别，并找到每个对象的位置[3]中的工作首先提出了一种端到端的解决方案，用于弱监督对象检测，具有两个分支，分别用于对象分类和对象定位。后来，Tanget al.[19]建议使用图像级别标签，通过在线分类器细化来进一步细化实例分类。为了充分利用现有目标检测数据集上丰富的标记数据，引入混合监督目标检测来提高弱标记的新类检测性能。[18]中的工作提出使用基础类别到新类别的训练排名模型来选择可能是对象的区域霍夫曼等。[9]提出了一种通过自适应的大规模对象检测（LSDA）方法，该方法是学习分类器和检测器之间的差异。然后，使用差异将分类器转换为新类别的相应对象检测器。基于LSDA，Tang et al.[20]提出通过考虑语义和视觉相似性来改进LSDA。最近，Li et al.[15]提出从完全标记的数据中学习域不变对象信息，然后使用该信息来识别新类的对象区域。DOCK[13]使用区域级相似性以及常识来指导算法从具有边界框注释的基本类中学习新类的正确检测，其中所有类都出现在一个域中。相比之下，我们提出的方法是使用Web域图像来训练新类别的检测器在目标域中。 Yang et al. [31]proposed a semi- supervised large scale fine-graineddetection method to de- tect fine-grained classes fromcoarse-grained classes with bounding boxes annotations,where fine-grained classes are the sub-classes from thecoarse-grained classes. 相比之下，我们提出的方法在两个域之间和不同的类之间传输知识我们的工作旨在利用现有的良好训练对象检测器中的对象性知识，用于新的类别，而无需进一步的人类标记。2.3. 判别区域挖掘最近的工作区域挖掘方法提出了从图像级标签中发现目标区域[38]中的工作在弱监督定位任务中引入了自上而下的神经显着性方法。[34]中的工作在网络层次中使用激励反向传播方法来找出判别区域。Zhou等人。[38]提出了一种类激活映射（CAM）方法，通过在12939特征图Conv层RPNRoI池ROIs每个ROI的功能（Nx7x7）回归损失注意Cls损失凸轮全球图像Cls0.01 0.950.3Conv池化图像Cls丢失注意力图RoI池每个RoI的注意力得分（Nx1x1）图4.我们提出的网络的插图与CAM分支（橙色），以产生自上而下的类特定的注意力分数。通过从CAM分支获得的自上而下的注意力地图上的ROI池化，我们获得了每个ROI的注意力分数。注意分类损失（ACL）是一种加权分类损失，专注于训练与图像标签（图像中的“奶牛”）相关的新类别，并抑制不相关的类别（例如，图像中的“人”）。图像分类任务。后来提出了Grad-CAM来增强CAM，而不需要修改DCNN结构。在这些方法中，CAM被广泛用于生成语义分割任务的伪掩码[35]。对于弱监督对象检测，Wei et al. [28]使用CAM作为伪掩模来训练弱监督分割，以帮助弱监督检测和Diba等人。[5]使用CAM生成一些建议。相比之下，在本文中，我们利用CAM来找到具有图像级别“标签”的Web图像的对应区域2.4. 域适应我们的工作也与域适应方法有关[26，10，39，37，32]。[7]中的工作通过添加域分类器来对来自相应域的特征进行分类，并添加梯度反转层来使特征不可区分，从而引入了一种用于域自适应的对抗训练方法。基于类似的想法，[24]中的工作在分类任务中引入了域分类损失和域混淆损失，以对抗性地训练他们的模型。此外，Tao et al.[23]在对象检测任务中提出了一种提议级域自适应，以混淆来自Web域和目标域的特征。在本文中，我们提出了一个由任务损失监督的残差特征细化块，以使目标域特征适应网络训练的检测模型。3. 问题定义在这项工作中，我们定义了一个新的和实用的设置为新类别的对象检测，其中有两种类型的训练，即。基类和新类。对于基类，我们在目标域中有丰富的以获得图像）。对于新的类，我们只有来自web域的具有图像级别“标签”的图像。这个设置值得探索，因为它是一个非常有意义的实际场景-人们可能想探索一个已经训练好的检测器，以发现具有许多Web图像的新类别，而无需进一步标记。更具体地说，丰富的标记数据集（例如，PAS-CALVOC、MS-COCO）已经可用于产生经过良好训练的对象检测器。然而，总有一些新的类别在现有的数据集中不可用，但在具有图像级“标签”的Web图像中可能可用因此，在没有进一步注释的情况下解决新类检测的这个问题是实际的和期望的。4. 方法我们提出了一个Webly监督对象检测（Web-SOD）方法，在目标领域的新类，只需要目标领域的基础类图像与边界框注释和网络图像的基础和新类没有任何进一步的注释。首先，我们使用目标域图像来训练一个基类对象检测器作为自底向上的对象区域估计器，用于Web图像来估计可能包含新对象的对象区域。随着自上而下的注意分类损失，我们然后训练一个端到端的网络监督对象检测器的网络图像的基础和新的类。此外，我们提出了一个残差特征细化（RFR）块，以细化两个域的特征表示。我们在图24.1. 作为目标区域估计的目标检测器我们利用两阶段检测框架Faster- RCNN [16]，并使用目标域基类图像及其边界框注释训练基本检测器。使用这个基类检测器，我们能够定位一些非-Bbox ClsBbox注册12940KKROIROI我我我Web中的基类和新类VOC中的基类ROI功能细化ROI功能残余特征细化Bbox ClsBbox注册损失残留特征图5.剩余特征细化（RFR）块的图示。在RFR训练过程中，我们固定所有层（如灰色所示），并且我们只训练RFR块（如紫色所示）。从它们与基类对象共享的共同的自下而上的视觉特征来观察对象，尽管置信度相对较低。For example, a“dog” detector is likely to detect an unseen “cat” as a“dog” with low con- fidence.因此，给定目标域中具有丰富基础事实的基类上的完全监督检测器，我们直接将训练的检测器应用于Web图像，并生成具有比背景更高客观性的类别不可知区域框如图3所示，我们能够获得高质量的区域框，并对Web图像上的基础类和新类进行准确的对象定位。例如，即使基本检测器没有使用任何鸟类图像进行训练，它仍然能够捕获图像中的总的来说，基本检测器通过其对客观性的共同知识捕获几乎所有感兴趣的对象。4.2. 注意分类损失全连接层作为具有交叉熵分类损失的图像分类器。最后，如[38]中所提出的，我们计算卷积层特征图的加权组合以获得类激活图。我们将Mc定义为类c的类激活映射，如下所示：ΣMc（x，y）= wcfk（x，y）.（一）K这里，fk（x，y）表示在空间位置（x，y）处的CAM卷积层之后的第k个特征图，并且wc指示对应于特征图k的类c的线性层中的权重。此外，我们在类激活映射上应用了类特定的softmax。然后，我们在类激活映射上为每个RoI应用1×1 RoI池Mc（x，y）得到注意力分数W i。然后，我们应用一个每个RoI的归一化为：为此，我们获得了一些稀疏的对象区域盒鲁伊河iROI /（max（WRoI）+δ），（2）具有很高的客观性。理想情况下，由于Web图像通常是简单的单对象图像，因此我们可以将Web图像标签作为每个框的标签进行传播。然后，我们能够训练一个更快的RCNN为基础和其中，max是指所有Wi内的最大值，δ是一个非常小的正值。最后，我们将标准化的注意力分数ˆ小说类网页上的图像与估计框。我ROI在分类损失Lcls为每个ROI作为At-然而，据观察，估计的箱子可能在-潜在分类损失（ACL）：包括背景补丁和各种物体L=1Wi·L（p，p≠ 0）。与图像标签不一致的类。期间训练，这些不相关的盒子可能会混淆detec-ACLNRoI i∈RoIROICLS我我（三）如果他们都被认为是同一类的形象总损失函数可以写为：标签因此，需要一种自上而下的机制这可以使得能够在那些正确的盒子上进行选择性的和专注的学习因此，我们提出了一个类特定的注意力模块与注意的分类损失的detec，L=λ1 LACL+λ21NRoIΣi∈RoILreg（ti，t）+λ3LIcls（c，c）。（四）训练以区分感兴趣的盒子和不相关的盒子，并减少错误标记实例的影响。为了在图像上产生类特定的注意力，我们通过添加图像分类分支来使用类激活图（CAM）具体来说，如图4所示，我们在Conv Layers（CAM）Conv）和一个全局池化层，以获得这里，i是小批量中的RoI的索引，并且pi是RoI是具有地面实况标签pi的对象的预测概率，如果为真，则p i为1，如果不为真，则p i为0。ti是表示预测边界框的4个参数化坐标的向量，并且ti是与RoI相关联的地面实况框的坐标。（3）中的分类损失Lcls是对数损失。对于回归损失，我们使用Lreg（ti，t）=R（ti−t）其中R是光滑的L1损失de-我我整个图像的特征表示。我们在《易经》中，也是这样的图中Cls和Reg层的输出Conv层ROI池化特征图W=WW12941表1. 在PASCAL VOC 2007测试数据集上对15个基本类别的检测性能（mAP），其中包含三种不同的新型/基本类别划分。基础检测器在PASCAL VOC 2007和2012数据集上使用15个类进行训练基础组1基础组2基础组3我们的基础模型 73.9374.1273.22表2. PASCAL VOC 2007数据集上所有三个新类/基类的对象检测性能（mAP）。月1 分裂第2 分裂3rd Split方法新平均值基础平均值新平均值基础平均值新平均值基础平均值[23]第二十三话32.423.025.725.329.221.4WSDDN [3]45.631.632.635.537.134.0ZLDN [36]58.943.851.946.150.246.7WSOD2 [33]67.852.160.654.557.755.5[12]第十二话47.263.639.265.441.363.0基本WebSOD58.367.652.270.158.067.2WebSOD + ACL60.569.053.071.258.967.3WebSOD + ACL + RFR61.870.754.072.560.070.5完全监督83.178.180.679.181.479.34分别为{pi}和{ti}这里的λ是不同项的权衡参数对于CAM图像分类损失LIcls，我们使用交叉熵损失。请注意，我们使用图像级别同时进行检测通过提出的用于训练具有噪声框的Web图像的注意力损失4.3. 剩余特征细化由于我们的Web域新类检测器仅使用未见过类的Web图像进行训练，因此由于域不匹配，它可能无法很好地推广到目标域中的未见过类（如Pascal VOC图像）。为了更有效地传输用于检测目标域中的新对象的Web检测器（新颖+基类），我们通过调整目标特征来改进特征表示模型，以适应训练有素的Web检测器。特别是，我们修复了最终的Web检测层（Bbox ClsReg层），并通过Web和目标数据的联合训练来微调特征提取层。通过这样的细化，我们希望强制特征网络学习跨不同领域的通用特征表示。然而，我们发现，当我们从目标数据集（基类）添加额外的图像时，通过固定Web检测层进行的特征微调会产生不稳定的结果对来自不同域的图像进行训练可能会影响原始源域中的检测。因此，我们建议使用残差特征细化（RFR）块来保持训练有素的Web检测器中的小变化。特别是，我们精心设计了一个轻量级的残差特征细化块，如图5所示，它由三个卷积层和两个ReLU层组成。通过残差块，目标域特征转换为：图像凸轮鸟巴士牛摩托车沙发图6.自上而下的类特定注意力地图的视觉结果。类特定的注意力地图能够关注与图像级别标签一致的图像区域。F=（FT）F，（5）其中，F和T分别表示每个像素的逐元素乘法和逐元素求和，F是原始特征，T是生成的残差特征。对于RFR训练，我们首先使用前面提到的注意分类损失（ACL）在Web域中训练对象检测器其次，我们为对象检测器固定所有层然后我们迭代地从目标域和web域中输入图像来训练残差模型。我们在馈送Web图像时使用ACL，并在馈送目标域图像时使用与Faster-RCNN相同的请注意，我们只使用包含目标域中基本类别的图像。通过实验，我们发现，特征细化模型是能够推广到新的类在目标领域，即使他们不涉及在特征细化学习。5. 实验5.1. 数据集为了评估所提出的方法，我们在广泛使用的大规模多实例对象检测基准PASCAL VOC 2007和2012上测试了我们的方法我们遵循在VOC 07和12个训练和验证图像上进行训练以及在VOC 07测试图像上进行测试的常见做法我们使用STC数据集[27]作为我们的网络图像数据集，其图像是从互联网上免费获得的，无需人工注释。STC数据集有20个图像对象类别，与VOC数据集相同。我们遵循[12]中的实践来拆分新类和基类。我们使用整个PASCAL VOC 2007测试图像集，共4952张图像来评估我们的模型，并选择mAP作为评估指标，IoU阈值为0.5。5.2. 碱基检测器在PyTorch中实现的更快的RCNN检测器被用作我们的基础检测器，ResNet-101被用作12942表3.在PASCAL VOC 2007数据集上对新类别和基础类别进行第一次分割的对象检测性能（AP）小说基地方法鸟总线牛姆比凯沙发是说Aero自行车船瓶车猫椅子表狗马人植物羊火车电视是说[23]第二十三话17.842.920.343.837.332.440.630.115.96.440.531.511.427.415.724.18.912.217.732.131.023.0WSDDN [3]31.564.535.755.640.745.639.450.116.312.642.842.610.124.938.234.49.414.730.254.746.931.6ZLDN [36]50.162.757.868.256.158.955.468.516.820.866.856.52.147.540.169.721.627.253.452.558.243.8WSOD2 [33]61.573.471.971.460.967.868.270.742.328.069.352.332.742.857.973.825.529.261.656.570.752.1[12]第十二话30.062.743.260.639.647.265.373.554.739.575.781.135.362.572.878.868.641.559.276.269.263.6基本WebSOD50.161.978.156.245.058.366.673.759.760.178.085.044.863.079.575.675.441.173.176.062.867.6WebSOD + ACL52.563.379.558.348.760.567.476.361.060.780.082.946.161.981.078.775.745.574.277.665.969.0WebSOD + ACL + FT56.660.973.954.844.858.278.983.767.667.083.986.054.270.981.884.177.648.778.781.074.974.6WebSOD + ACL + RFR56.866.280.357.348.261.869.976.261.060.682.984.648.764.482.580.876.546.076.680.868.870.7完全监督79.186.185.884.879.883.179.485.772.068.487.788.463.071.087.886.982.352.182.187.176.978.1我们的脊梁在基本检测器训练期间，我们使用仅包含基本类（15个类）的图像，批量大小为16，学习率为0.004，动量为0.9，权重衰减为0.0005。我们训练基础模型14个时期，表1显示了基础检测器在三个不同的新类/基础分裂上的mAP结果，其中我们选择5个类作为新类，其余15个类作为基础类。5.3. 消融研究表2的底部显示了我们提出的网络监督对象检测（WebSOD）及其变体在三种不同的新类/基类拆分下的mAP值。表3进一步显示了第一种新的/基础类别划分的每种类别的详细AP结果。基础WebSOD。这是最简单的基线，我们将基本检测器的阈值设置为0.8，作为Web图像的建议生成器，如图3所示。然后，我们直接使用所有的建议作为伪边界框注释来训练基础类和新类的Web检测器。之后，我们直接将训练好的Web检测器应用于目标域测试图像。这样一个简单的基线实现了相当不错的性能，如表2所示，这表明在不同的对象类之间以及Web图像和VOC图像之间存在一些共性。此外，我们的工作假设，共同的对象性知识共享之间的基础和小说类。据观察，一个新的类的性能会更好，如果有一个类似的基类。注意分类损失的影响。从表2中，我们可以看到，我们的ACL模型（表示为WebSOD+ACL）提高了对新类的检测性能，在第一部小说/基地分裂。这表明ACL能够删除新类的不相关建议。图6给出了类特定的注意力图的几个示例，其能够关注与图像级标签一致的图像区域，从而有助于对有噪声的web图像提议进行边界框分类的专注训练。残余特征细化的影响。与WebSOD+ACL相比，具有附加RFR块的方法（表示为WebSOD+ACL+RFR）在基类的目标域图像上表现更好这表明RFR块能够学习通用特征表示并缩小web和目标域之间的差异此外，WebSOD+ACL+RFR还实现了新类别的目标域图像的改进，尽管它是在目标域中没有任何新类别的图像和注释的情况下训练的这表明，特征细化是不同领域之间的一种常见的特征转换，可以扩展到新的类。其他结果。我们还考虑了另一个基线（ Web-SOD+ACL+FT），它在修复Web检测器的同时微调所有层以进行特征学习。从表3中，我们可以看到，与WebSOD+ACL相比，WebSOD+ACL+FT的结果对于基类有很大的改进，但同时对于新类下降了很多，因为该特征被严重地微调到目标域基类。5.4. 与其他方法的比较由于没有现有的工作与相同的设置，我们比较我们的方法与其他几个方法在不同的目标检测设置。这表明我们提出的方法和设置能够在有限的人力投入下胜过大多数设置。完全监督的对象检测。我们比较我们提出的方法与完全监督的对象检测方法，作为我们的方法的上限如表 2 和表 3 所示，尽管我们的完整模型（WebSOD+ACL+RFR）和完全监督方法之间仍存在很大的性能差距，但与其他方法相比，差距已显著缩小。请注意，完全监督的方法需要丰富的边界框注释的小说类，而我们只需要网络图像的小说类没有进一步的注释。弱监督目标检测（WSD）弱监督目标检测方法需要新类目标域图像的图像级标签，而我们不需要新类图像。由于我们在不同的环境下，我们直接使用他们论文中的结果。我们将三种最新的弱监督对象方法WSDDN [3]、ZLDN[36][33]第二节表2、3中的结果表明，我们的网络监督完整模型能够超越大多数模型，尽管我们不需要任何图像和anno，12943表4.我们在大规模ImageNet检测数据集（ILSVRC 13）中的结果（mAP）与现有方法在IoU> 0.5和IoU> 0.7时的比较。方法和基础网络mAP IoU> 0.5mAP IoU> 0.7LSDA（AlexNet）[9]18.1-Tang等人（AlexNet）[19]20.0-Uijlings等人（Inception-ResNet）36.927.2我们的（ResNet）37.127.8在目标域中的新类的状态。零注释对象检测（ZAOD）。零注释对象检测[23]与我们类似，其目的是通过使用具有相关图像级标签的Web图像作为唯一注释的图像以及未注释的目标域图像来训练目标域对象检测器，从而减少人类标记工作。与它们类似，我们都需要基础类和新类的Web图像相比之下，我们的方法确实利用了基类的注释目标域图像，但不使用任何目标域图像和需要图像的新类的标签我们的模型显著优于ZAOD（在第一个新/碱基分裂中将mAP从32.4%提高到61.8%，如表3所示），这表明基本类的标记可以在很大程度上帮助未注释的新类检测器。少数拍摄对象检测。我们还比较了我们提出的方法与国家的最先进的少数拍摄对象德-保护方法[12]，它不仅需要对基类进行丰富的注释，而且还需要对新类进行少量注释。尽管我们的方法不需要针对目标域中的新类别的任何注释和图像，但我们仍然能够显著优于针对新类别的少量拍摄方法（具有10次拍摄），例如。在第一次新的/碱基分裂中，mAP增加了14.6%。最后，我们在PASCAL VOC 2007测试数据集上对第一个新类别/基础类别中的五个新类别的一些检测结果和失败结果进行了可视化，分别见图7和图85.5. 大规模数据集实验我们还在大规模ImageNet检测数据集（ILSVRC13）上进行了实验，遵循[25]其中100个基本类（类别1-100）具有边界框注释，而100个新颖类（类别101-200）仅具有图像级标签。我们首先使用基本类图像来训练基本检测器作为新类图像的对象区域估计器然后，我们将估计器应用将新类别图像的估计框与基础类别图像的地面实况边界框相结合，我们训练了更快的RCNN检测器。在训练过程中，由于我们直接使用基础类图像的地面实况注释，因此我们仅对新类图像应用ACL，而不应用残差特征细化（RFR）。表4显示了我们的mAP值图7.我们提出的Webly监督对象检测（WebSOD）方法在第一个新的/基本分裂的检测结果图8.我们提出的WebSOD的一些失败案例。第一行显示分类误差，第二行显示局部化误差。该方法和其他三种迁移学习方法在相同的数据集（ILSVRC 13的val2）上具有相同的尽管基础网络在[25]（Faster RCNN with Inception-ResNet）比我们的（Faster RCNN with ResNet）更强大，我们提出的方法能够在100个新类的测试集上比最先进的迁移学习方法高出0.2%。6. 结论在本文中，我们提出了一种新的网络监督对象检测（WebSOD）的方法来检测新的类，而无需进一步的人类标记的努力。为了实现这一点，我们提出使用预训练的基类对象检测器作为自下而上的区域建议生成器，以及自上而下的注意分类损失来训练用于基类和新类的网络监督检测器此外，为了使目标域特征适应经过良好训练的Web检测器，我们通过使用固定检测器训练残差特征细化模块来细化特征表示。该方法在目标新类别图像上取得了良好的检测效果鸣谢。这项研究主要在新加坡南洋理工大学的快速丰富对象搜索（ROSE）实验室进行。ROSE实验室由新加坡国家研究基金会和新加坡信息技术媒体发展管理局支持这项研究也得到了新加坡国家研究基金会在其AI新加坡计划（奖励编号：AISG-RP-2018-003）下的部分支持，MoE Tier-1研究补助金：RG 28/18（S）和RG 22/19(S) 和蒙纳士大学FIT创业基金12944引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议集，第6077-6086页[2] Hakan Bilen、Marco Pedersoli和Tinne Tuytelaars。后验正则化弱监督目标检测。英国机器视觉会议，第3卷，2014年。[3] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议论文集，第2846- 2854页[4] Ramazan Gokberk Cinbis，Jakob Verbeek，and CordeliaSchmid.基于多重多示例学习的弱监督目标定位。IEEETransactionsonPatternAnalysisandMachineIntelligence，39（1）：189[5] Ali Diba 、 Vivek Sharma 、 Ali Pazandeh 、 HamedPirsiavash和Luc Van Gool。弱监督级联卷积网络。在IEEE计算机视觉和模式识别集，第914[6] Santosh K Divvala、Ali Farhadi和Carlos Guestrin。学习关于任何事情的一切：Webly监督的视觉概念学习。IEEE计算机视觉和模式识别会议论文集，第3270- 3277页，2014年[7] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督域自适应。arXiv 预印本arXiv ： 1409.7495 ，2014。[8] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[9] Judy Hoffman 、 Sergio Guadarrama 、 Eric S Tzeng 、Ronghang Hu 、 Jeff Donahue 、 Ross Girshick 、 TrevorDarrell和Kate Saenko。Lsda：通过自适应进行大规模检测。神经信息处理系统进展，第3536-3544页，2014年[10] Sungeun Hong，Woobin Im，Jongbin Ryu，and Hyun SYang.Sspp-dan：用于人脸识别的深度域自适应网络，每人单样本。第825-829页[11] 杰泽群，魏云超，金小杰，冯佳世，刘伟。用于弱监督对象定位的深度自学学习。在IEEE计算机视觉和模式识别会议论文集，第1377- 1385页[12] 秉义康、庄柳、辛王、渔人余、嘉世丰、特雷弗·达雷尔。通过特征重加权的少镜头对象检测。arXiv预印本arXiv：1812.01866，2018。[13] Krishna Kumar Singh，Santosh Divvala，Ali Farhadi，and Yong Jae Lee. Dock：通过传递常识来检测物体。在欧洲计算机视觉会议（ECCV）的会议记录中，第492-508页，2018年。[14] Krishna Kumar Singh，Fanyi Xiao，and Yong Jae Lee.跟踪和转移：观看视频以模拟强人类监督，用于弱监督对象检测。在 IEEE 计算机视觉和模式识别会议的Proceedings，第3548-3556页[15] Yan Li，Junge Zhang，Kaiqi Huang，and Jianguo Zhang.具有鲁棒对象转移的混合监督对象检测。 IEEEtransactionsonpatternanalysisandmachineintelligence，41（3）：639[16] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，第91-99页，2015年[17] Tong Shen，Guosheng Li

下载后可阅读完整内容，剩余1页未读，立即下载