增强弱监督目标检测的边界框调整器

139 浏览量更新于2023-10-15 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2876通过学习Bounding Box调整器增强弱监督目标检测董博文1黄梓桐1郭跃林1王启龙2牛振兴3王梦左1，41哈尔滨工业大学2天津大学3阿里巴巴达摩院4琶洲实验室{cndongsky，zitonghuang99，zhenxingniu} @ gmail.comgyl2565309278@163.comwmzuo@hit.edu.cnqlwang@tju.edu.cn摘要弱监督对象检测（WSOD）已经成为一个鼓舞人心的最近的话题，以避免昂贵的实例级对象注释。然而，大多数现有的WSOD方法的边界框主要由预先计算的建议来确定，从而在精确的对象定位方面受到限制。在本文中，我们捍卫的问题设置，提高本地化性能，利用边界框回归知识，从一个良好的注释辅助数据集。首先，我们使用注释良好的辅助数据集，以多阶段训练的方式探索一系列可学习的边界框调整器（LBBAs），这是类不可知的。然后，仅使用LB-BA和具有非重叠类的弱注释数据集来训练LBBA增强的WSOD。因此，我们的LBBA实际上更方便和经济地实现，同时避免了辅助注释良好的数据集的泄漏。特别是，我们制定了学习边界框调整器作为一个双层优化问题，并提出了一个类似EM的多阶段训练算法。然后，一个多级的计划，进一步提出了 LBBA 助推WSOD。此外，采用掩码策略，以改善建议分类。实验结果验证了该方法的有效性。我们的方法表现良好，对国家的最先进的WSOD方法和知识转移模型具有类似的问题设置。代码可在https：//github.com/DongSky/lbba_boosted_wsod网站。1. 介绍目标检测[8，7，19，16]在计算机视觉界引起了相当大的关注，并使广泛的应用受益。随着强大的卷积神经网络（CNN）和大规模标注良好的数据集的发展，目标检测网络的性能得到了显著的提高。然而，对象检测网络的成功高度依赖于大量图像的精确但昂贵的实例级边界框注释敬阿列维-在这个问题之后，弱监督目标检测（WSOD）成为一个鼓舞人心的新课题，其目标是学习具有图像级监督的有效检测模型。现有的WSOD方法[3，25，34，20]通常采用基于预计算建议的多实例学习（MIL）框架。大多数的努力已经被给予提高建议分类能力。然而，大多数现有方法的边界框主要由预先计算的建议确定，从而在精确的对象定位方面受到限制。对于单相WSOD方法[3，26，25，22，13]，将预先计算的建议分类为特定类别，直接作为检测结果。在[33，20，34]中引入了边界框回归分支，并在[36，2]中采用了多阶段训练。但它们通常是基于伪地面实况通过选择具有最高分数的预先计算的建议来监督的。在本地化性能方面，WSOD方法与其完全监督的对应方法之间仍然存在巨大差距。迁移学习也被调查，以提高本地化性能的WSOD。Lee等[12]提出了一个通用边界框回归器（UBBR），该回归器在一个注释良好的辅助数据集上训练，用于细化WSOD中生成的边界框。相反，Uijlingset al. [28]在注释良好的源数据集上训练通用检测器，然后将其转移到WSOD作为通用提案生成器。然而，[12]和[28]采用的是单阶段转移策略，这实际上并不是WSOD[3，26，12，28]所规定的，并且存在不完善的注释。源域中的元素[17，6，28]。超越[28]，Zhonget al. [37]以渐进的方式训练和利用单类通用检测器（OCUD）。相比之下，在OCUD的整个训练过程中需要源良好注释和目标弱注释数据集 [37]。当源数据集是私有的并且是大规模的[24，18]时，优选地避免将源和目标数据集直接联合使用于具有转移学习的WSOD。相反，源数据集的所有者可以首先从数据中提取知识，然后将知识而不是源数据集分发给用户以提升WSOD。2877在本文中，我们遵循[12，28]中的问题设置，并提出了一个可学习的边界框调整器（LBBA），以提高WSOD性能。具体来说，我们考虑一个良好的注释辅助数据集和弱注释数据集。我们的方法包括两个子任务，学习类不可知的边界框调整器和训练LBBA增强的WSOD模型。与[12，28]相比，LB-BA被专门设计用于通过开发多级方案来改善WSOD性能。与[37]不同的是，仅使用LBBA和弱注释数据集来提升WSOD，因此我们的方法对于WSOD训练是实用方便和经济的，同时避免了辅助数据集的泄漏。为了更好地从注释良好的辅助数据集中学习LBBA并利用它们来提高WSOD的性能，我们将LBBA的学习表示为双层优化问题，并提出了一种类似EM的多阶段训练算法。特别地，下部子问题被公式化为通过将WSOD与基于LBBA的正则化结合来学习深度检测模型，而上部子问题被公式化为学习边界框调节器，用于使由WSOD生成的所选区域建议向地面实况边界框回归。利用这样的公式化，因此可以学习LBBA以优化WSOD性能。为了解决双层优化问题，我们采用了类似EM的多阶段训练算法，通过交替训练LBBA和WSOD模型。考虑到类不可知和多阶段LBBA，LBBA增强的WSOD的训练也涉及几个阶段。在每个阶段中，最终的LBBA可以用于基于由WSOD生成的所选区域提议来预测边界框，然后将其用于训练WSOD模型。尽管如此，我们的LBBA提高了本地化性能，但在提高提案分类方面受到限制。作为一种补救措施，我们引入了掩蔽策略，以提高检测器的分类性能。具体地，引入多标签分类器来预测图像级的类别置信度，这可以进一步抑制WSOD网络的假阳性建议的分数已经进行了大量的实验来评估我们提出的方法。受益于类不可知设置，LBBA很好地推广到新的对象类，并提高了WSOD的定位性能。我们的方法对最先进的WSOD方法以及具有类似问题设置的知识转移模型表现良好，例如，UBBR [12].这项工作的贡献可归纳如下：1) 多级可学习的边界框调整器，提出了提高定位性能的WSOD，这是我们提出的框架的核心组成部分。特别地，LBBAs使得单独使用源数据集和目标数据集进行训练WSOD模型，这实际上是更方便和经济。2) 一个双层优化配方，以及EM-样的多阶段训练算法，建议学习LBBA指定优化WSOD。3) 引入了一种有效的屏蔽策略，提高了建议分类分支的准确性。4) 实验结果表明，我们所提出的方法表现良好，对国家的最先进的WSOD方法和知识转移模型与类似的问题设置。2. 相关工作2.1. 弱监督目标检测弱监督对象检测（WSOD）旨在仅使用图像级标签来训练有效的检测器现有的WSOD方法可以大致分为两类：单阶段训练方法和多阶段训练方法。对于单阶段训练方法，它们在训练和测试期间依赖于预先计算的建议[29，1，38]具体地，Bilen et al. [3]提出了双流检测网络（WSDDN）作为基本建议分类器。为了提高建议分类能力，OICR [26]和PCL [25]提出了在线分类器细化模块。OIM [15]提出了空间和外观图，其中对象实例重新加权损失以解决部分支配。SDCN [13]和WS-JDS [22]引入了分段分支和协作循环来重新加权提案。为了提高提案定位能力，Yang等人。 [33]，WSOD2 [34]和MIST [20]将边界框回归引入WSOD网络，其中具有最高得分的提案被选为伪地面实况以监督边界框回归分支。对于多阶段训练方法[36，35，13，30，32]，通过基于在先前阶段中训练的WSOD网络的输出选择具有最高分数的建议作为伪地面实况来进一步训练附加检测器[7]。任何单相方法[26，25，33，2]都可以通过该程序扩展当前的多阶段训练方法集中于如何选择具有最高分数的伪地面实况。然而，这些方法仅依赖于选定的预先计算的建议来定位对象或监督盒回归分支，低精度的建议限制了WSOD方法的定位能力与上述方法不同，我们的目标是通过使用可学习的边界框调整器来解决这个问题，它提供更精确的伪框监督，以帮助WSOD网络获得更好的目标定位能力。2.2. WSOD中的迁移学习基于迁移学习的WSOD通常利用辅助数据集来提供语义信息或类别信息。2878--------关于我们学习边界框调整器（）LBBA增强的WSOD输入建议输入建议CLS标签预测伪框GTM步E步CLS标签预测伪框GT输入建议WSOD：调节器：基座颈部基座颈部GT预测RPNRPNBBRBBR密耳CLS图1.说明我们提出的方法，其中包括两个子任务，即学习边界框调整器（左）和LBBA增强的WSOD（右）。为了学习边界框调整器，我们采用了EM类算法。在E步骤中，调整器g从faux的建议预测边界框，并由Xaux的地面实况监督;在M步骤中，WSOD网络faux由图像标签以及Xaux上的g的调整框监督。对于LBBA增强的WSOD，WSOD网络f由X上的图像标签和来自g的调整框来监督。最后，学习的f用于评估。不可知信息，以帮助WSOD网络在弱注释的目标数据集上进行训练。以前的工作[9，11，27]集中在强分类器和弱监督检测器之间传输语义信息。其中，Hoffman等人。 [11]提出了LSDA，其引入类别特定自适应以使分类器适应目标检测数据集。Tang等人。 [27]通过构建视觉相似性和语义相关性进一步扩展了LSDA。尽管如此，上述方法未被提出用于改进边界框回归。最近，已经研究了几种方法[21，14，28，12，37]来利用迁移学习来改善对象定位性能。 [21，14，28，37]提出学习建议生成器，以帮助WSOD网络在弱注释的目标数据集上定位新对象。其中，[21，14，28]仅使用辅助数据集训练提案生成器，而Zhong等人在辅助数据集和弱注释数据集上训练生成器，以更好地推广目标数据集。相反，Lee等人。 [12]提出了一个框细化模块，该模块将地面实况框的随机变换作为输入来学习类不可知的框回归器，并且在目标弱注释数据集上也表现出一定的泛化能力然而，在WSOD训练期间生成的真实框可能与通过随机变换生成的真实框完全不同，使得学习的回归量不适合WSOD。与现有方法相比，我们的LBBA可以被认为是只使用辅助数据集的框细化模块的多阶段训练，并且在弱注释数据集上实现了非常有竞争力的框回归性能。与UBBR[12]不同，我们的方法动态地将WSOD生成的建议作为训练LBBA的输入，因此有望实现改进的检测性能。3. 该方法3.1. 问题设置和符号在这项工作中，我们通过使用注释良好的辅助数据集Xaux和弱注释数据集X来遵循[21，14，28，12]中的WSOD问题设置。特别地，Xaux首先用于训练类不可知的可学习边界框调整器（LBBA）。然后，我们利用LBBA和任何弱注释数据集X来学习更好的WSOD模型。对于图像级弱注释数据集X=I，P，y，I表示来自X的图像，y表示对应的图像级标签。对于WSOD的结尾，MCG [1]和选择性搜索[29]用于为每个图像I提取一组预先计算的建议P=p。除了X之外，我们还引入了一个注释良好的辅助数据集Xaux=（Iaux，Paux，baux，yaux）。对于来自Xaux的图像Iaux，yaux表示图像级标签，并且baux表示注释的边界框。为了帮助WSOD，我们还给出了预先计算的建议Paux=paux 我的奥克斯。为了显示LBBA的泛化能力，我们假设X中的对象类与Xaux中的对象类不重叠。我们认为，上述问题设置是既实用价值和方便的实施。尽管弱监督学习对于对象检测是优选的，但是几个良好注释的数据集，例如，COCO [17]已经公开可用。我们的问题设置允许学习的边界框调整器被部署在训练新类别的对象检测器中，从而被期望对仅依赖于X的常规WSOD是有利的。在OCUD [37]中，注释良好的数据集Xaux是di-2879·Σ----关于我们--L∪··--LLLLCL LL直接与WSOD的弱注释数据集X合并在我们的问题设置中，在学习边界框调整器之后，可以安全地放弃注释良好的数据集Xaux。然后，LBBA可以与WSOD的任何弱注释数据集X合并。我们注意到LB-它的x_cls和x_det，它们通过softmax层。然后，可以通过对分类和定位的那些进行逐元素乘积来计算融合得分s=σcls（xcls）σdet（xdet）最后，类别c的图像级分数可以通过以下方式获得：BA可以避免注释良好的数据集X辅助到具有弱注释数据集X的用户，从而q=Ri= lsi，c.（一）在实践中更加方便、经济和安全。3.2. 概述总的来说，我们的方法包括两个子任务，即，（i）学习边界框调整器，以及（ii）LBBA增强的WSOD。整个训练过程如图所示。1.为了更好地从注释良好的辅助数据集中绘制LBBAs，我们将边界框调整器的学习公式化为双层优化问题。在较低的子问题中，我们使用WSOD方法和当前LBBAgt来更新来自（Iaux，Paux，yaux）的对象检测模型ft+1。因此，所学习的ft+1也可以表示为LBBA的函数。因此，上一子问题被公式化为通过使用良好注释的数据（Iaux，baux，yaux）来学习被指定用于优化弱监督对象检测器的性能的g t +1。在每个阶段中，我们首先通过固定ft来更新边界框调整器gt+1的学习，然后通过固定LBBAgt+1来更新弱监督对象检测器ft+1。有几个阶段（T = 3）的训练。我们可以得到一组LBBA模型g〇，…g T，每级一个。对于LBBA增强的WSOD，可以放弃良好注释的数据集Xaux，并且仅LBBA模型g〇，…g T和弱注释数据集X。LBBA增强的WSOD还包括几个阶段（即，T）。在每个阶段（例如，t），我们使用当前对象检测器ft来获得一组所选择的建议，并利用逐阶段LBBAgt来进行边界框调整。然后，将调整后的边界框引入WSOD模型中以用于更新ft+1。在下文中，在介绍了本工作中使用的基线WSOD模型之后，我们详细介绍了学习边界框调整器和LBBA提升的WSOD的子任务的解决方案3.3. 基线WSOD模型为了从弱注释数据集中学习边界框回归和建议分类，我们采用[31，33]中提出的方法作为我们的基线网络f（I，P;θf）。这里，θf表示对象检测器r的模型参数。具体地，网络工作f（I，P;θf）涉及基本的多实例学习（MIL ）分支以及独立边界盒回归（BBR）分支。给定具有图像级标签y ={y1，…以及R个预先计算的建议{p密耳，1，… pmil，R}，MIL分支生成两个R × C log。并且MIL分支可以通过以下来优化：其中BCE（q，y;θf）表示二进制交叉熵损失。为了提高检测质量，我们还引入了伪标签挖掘策略，并通过一组加权实例精化损失r[26，25，20]来构建实例精化分支。在典型的单相WSOD中，将分类到特定类别的预先计算的为了提高对象定位性能，我们遵循[31]将RPN模块引入到我们的WSOD网络中，用于生成区域建议Prpn=prpn。然后，来自P=PmilPrpn的所有提议被发送到边界盒回归分支中以生成对应的本地化输出。遵循标准的Faster R-CNN [19]，RPN模块和边界框回归分支都由损失训练RPN-CLS，rpn-det和det定义在由细化分数选择的伪地面实况实例上。因此，我们的基线WSOD模型的学习目标可以写为，Lwsod=L wsddn+L r+L rpn-cls+L rpn-det+L det，（3）其中r和rpn-cls是由所选建议上的伪类标签监督的交叉熵损失，而rpn-det和det是由伪地面实况的建议框监督的平滑L1损失[7]。请注意，我们遵循OICR [26]的相同策略来生成伪事实我们注意到，基线WSOD模型中的边界框回归分支是基于来自预先计算的建议的监督来学习的在随后的小节中，我们学习了一组边界框调整器，以提供更好的地面实况，用于监督边界框回归分支，从而有利于检测性能。此外，我们使用上述基线WSOD模型作为示例来显示学习的边界框调整器的有效性实际上，我们提出的方法是独立的，与大多数现有的WSOD方法，并可以与他们结合，以进一步提高检测性能。我们将在实验中说明这一点。3.4. 学习边界框调整器3.4.1双水平优化配方要制定我们的弱监督对象检测问题，lem优雅，我们首先回顾传统的EM算法2880L∈F--7：θ ←arg minLθgLLθaux=arg min（L+L）（ bL|LLθg1：在X上初始化θ0 auxGG波欧 Paux使用地面实况边界框b是弱监督对象去密耳FGL算法1学习边界框调整器输入：辅助数据集Xaux，调节器网络g，WSOD网络faux，阶段数TL1损失[7]bbr用于监督f的边界框回归分支，输出：调节器参数{θ0. . . θ T}GLbbr=ΣSmoot hL1（bau x，b~au x;θf）.（六）aux，我们从Xaux第二章： θ0辅助 ←arg minLwsod+Lbbr进一步引入损失Lbba用于监督学习θfaux3：对于t = 0…T1做4：E-步骤：5：θt+1←arg minLbba边界框调整器，Lbba=Σpaux∈PauxSmoot hL1（bau x，b~au x;θg）.（七）Gθg6：M-步骤：为此，我们建议利用LBBA g来生成X aux上的潜在变量baux。t+1f辅助θfaux8：返回{θ〇. . . θ T}WSOD+Lbbrbaux=g（Iaux，Paux;θg）（八）g gθg= arg minLbba（{baux}，g（Iaux，Paux;θg））在将LBBAg引入WSOD之后，我们的WSOD弱监督学习。特别地，E步骤用于更新潜在变量b =argmaxlogP（y| b laten t）−L（b laten t，f（I，P;θf））. （四）问题可以转化为一个双层优化问题，这里我们说明如何建立双层优化。下级子问题在M步骤期间，WSOD网络f由图像类别标签y以及b潜伏对于具有框回归的WSOD，y是图像类别标签，LLBBA网络输出的潜在变量baux定义为箱回归损失（例如，，边界框回归的平滑L1损失[7]，Φb表示潜在边界框变量，P（y| b潜在）是y的概率，其中给定g（Iaux，Paux; θ g）。因此，我们更新了WSOD网络的参数θf aux 通过最小化公司简介BBR，如下所示，b在WSOD训练中潜伏。并且f（I，P;θf）是从WSOD网络f输出的具有相应参数的边界框auxfwsod bbr，fθfauxaux（Iaux，Paux;θf aux））（9）etersθf. 我们主要在下面的段落中进行讨论。然后，采用M步迭代法更新模型参数θf。θf=argmin（b，f（I，P;θf）），（5）θf其中L上子问题考虑上述方程，WSOD参数θf aux可以被视为LB BA参数θg（i. e. ，θf aux（θg））。因此，在E步骤中定义了θg上的一个子问题，用于优化θ g上的Lbbaauxauxaux保护损失LWSOD和边界框回归损失Lbbr.WSOD网络基金（I ，P;θf aux（θg）），如上所述，先前的方法在E步骤中利用预计算的建议以及伪地面实况挖掘，然后在M步骤中更新WSOD网络的盒回归分支。然而，仅利用图像级监督来优化E步骤中的P（yblatent）以提高质量的是困难的。此外，优化时在E步骤中，设计预先计算的建议用于生成用于对象检测的盒回归的区域建议，其不适合于最终对象定位。为了解决这个问题，我们希望使用额外的注释良好的数据来监督可学习的模型，使其在E-step中生成更精确的b因此，我们首先引入完整注释的辅助数据集Xaux以提供类不可知的本地化监督。然后，我们的目标是引入一个类无关的可学习边界框调整器（LBBA）g（Iaux，Paux;θg），它在Xaux上训练，从θg=argminLbba（{baux}，faux（Iaux，Paux;θf aux（θg）（10）其中g生成针对来自WSODfaux的给定提议的经调整的边界框回归。因此，上层子问题已转移到一个完全监督的设置。3.4.2类EM多阶段训练算法从Eqns（9，10）中，θ g的直接优化涉及部分梯度（bbr/θf）（θf/θg）的繁琐计算。简单地说，直接通过两个网络的联合训练来解决这个双层优化问题，不利于LBBA的泛化能力类EM培训策略可以保持LBBA的培训效果因此，为了避免这个问题，我们提出了一个2881GG类似EM的多阶段训练算法。设ft（Iaux，Paux;θt）和gt（Iaux，Paux;θt）Paux =Paux∪Paux作为输入。对于每个paux∈Paux，是阶段t的学习模型。在E步骤中，我们使用aux密耳RPNf（Iaux，Paux;θt）来生成和选择建议Paux，g（I ，Paux;θg）旨在预测更精确的估计t密耳 f的边界框b？ au x，然后用于监督WSOD中的边界框回归分支。由b~aux表示边界框回归的输出我们申请光滑然后将其部署以学习gt+1（Iaux，Paux;θt+1）。在M步中，我们用θt+1代替Lbbr中的θg，并且ob-通过求解下部子问题得到ft+1（Iaux，Paux;θt+1）密耳f2882FG密耳∪LFFLLRPNFG--LFGRPNLFLL--∈密耳RPNWSOD密耳RPNFG从而产生我们的类EM多阶段训练算法。在下文中，我们更详细地解释初始化、初始化。首先，我们利用Xaux来训练具有类别不可知的边界框回归分支的两阶段检测器，然后将其用作阶段t=0处的边界框调整器g0。然后，选择的建议被馈送到g0以生成经调整的边界用于监督WSOD模型f0的学习的框。E步给定在阶段t处的ft的学习模型参数θt，E步骤旨在学习具有模型参数θt+1的边界框调整器gt+1。用于图像建议书PwsodfromPmilPrpn.将Pwsod作为输入，然后使用由LBBA预测的调整后的边界框来定义损失bbr。最后，具有模型参数θt的WSOD模型ft可以通过最小化组合损失wsod+bbr来训练。经过T个阶段的训练，WSOD模型在T阶段，即具有参数θT的fT可以被保持并应用于测试图像。LBBA增强的WSOD的训练过程在算法2中给出。尽管如此，我们的经验发现，更新WSOD网络只有最后gT可以达到类似的性能。因此，我们可以通过仅使用最后的gT来构建更轻的流水线。IauxfromXaux，我们利用ft的RPN模块来生成一套区域提案Paux.我们根据经验发现，最好采用区域建议而不是由ft预测的边界框作为gt+1的输入。而且两算法2LBBA增强的WSOD输入：弱注释数据集X，阶段编号T，调整器网络g，调节器参数{θ0. . . θ T}，WSOD预先计算的和生成的建议Paux∪PauxG g网络有利于gt+1的训练。因此，我们使用ft参数θt来预测边界框，并对它们进行解码以生成对应的所选建议输出：WSOD网络参数θT1：对于t=0…没做2：θg←θtPaux从Paux∪Paux。模型G以P辅助与tWSOD密耳RPN电话+1WSOD3：θf←argminLwsod+Lbbr输入以预测一组经调整的边界框。使用来自Xaux的真实边界框，我们通过最小化损失bba来在阶段t+1处使用参数θt+1训练边界框调整器gt+1。M步在学习的模型参数θt+1，M步学习WSOD模型ft+1，其中模型参数θt+1。在前向传播中，θf4：返回θT3.6. 提案分类的掩蔽策略上述训练算法可以提高WSOD网络的定位能力，但不能提高定位能力X辅助图像I辅助F被输入当前的WSOD模型提案分类。为了进一步提高检测以生成多个区域提议P辅助和边界框。然后，我们对预测的边界框进行解码，以从Paux∪Paux中获得所选择的建议Paux。以性能，我们引入了一个额外的多标签图像分类器h（I;θh），并提出了一个分类得分掩模策略。在训练过程中，我们利用图像和校正-auxWSOD作为输入，由将数据集X的图像标签响应于训练h;在测试期间，然后使用LBBAgt+1来定义损耗bbr。最后，具有模型参数θt+1的WSOD 模型ft+1可以通过最小化组合损失wsod+bbr来训练。综上所述，在初始化之后，我们的训练算法-rithm在E步和M步之间交替T次。因此，这是一个多阶段的训练方案，我们在每个阶段运行LBBA的训练过程在算法1中给出。3.5. LBBA增强的WSOD在学习边界框调整器之后，可以放弃良好注释的辅助数据集。对于LBBA提升的WSOD任务，我们仅需要弱注释数据集X以及一组学习的边界框调整器g〇，…gT.多阶段的计划也被用来训练WSOD，我们使用阶段t作为一个例子来说明训练过程。特别地，来自X的图像I被馈送到当前WSOD模型中以生成多个区域提议Prpn和边界框。然后，我们解码预测的边界框，以获得选定给定输入图像I，我们通过下式获得图像分类得分（I;θh），其中R1×C为I的同级预测得分。因此，我们可以判断哪些类别不应该包含在I中，并抑制WSOD的相应输出。具体地，我们选择阈值τ（即，=-3.0），如果scτ，我们断言猫的血c没有出现在这个图像中。因此，对于每个具有scτ的猫样本c，第i个提案bi，c的得分被设置为0以消除错误的预测。4. 实验4.1. 数据集和评估指标辅助数据集。MS-COCO 2017 [17]是一个大规模的对象检测数据集。请注意，MS-COCO数据集包括80个不同的对象类。为了消除语义重叠，并显示我们的方法的泛化能力，我们构造了一个子集的MS-COCO不包括PASCAL VOC类实例注释，并称之为COCO-60。作为例如，COCO-60数据集包含98 K训练图像，4K验证图像，分别。PF2883图2.我们的方法在PASCAL VOC 2007上的可视化结果，它具有生成精确边界框的能力表1. PASCAL VOC 2007和2012上的单模型检测结果，其中+表示多尺度测试的结果，*表示辅助数据集和弱注释数据集上WSOD模型的联合训练。方法mAP（07）mAP（12）OICR+ [26]41.237.9PCL+ [25]43.540.6Yang等人+[33]51.546.8WSOD 2+ [34]53.647.2Arun等人[二]《中国日报》52.948.4C-MIDN+ [32]52.650.2雾（满）+[20]54.952.1MSD-Ens+ [14]51.1-OICR+UBBR [12]52.0-Zhong等人（R50-C4）*[37]57.8-Zhong等人（R50-C4）+*[37]59.7-我们56.554.7我们的+56.655.4上限：更快的R-CNN [19]69.967.0目标数据集。 PASCAL VOC 2007和2012数据集包含从20个对象类收集的9，963张图像和22，531张图像。为了公平的比较，我们使用训练集训练WSOD网络，并报告测试集的评估结果。在训练过程中，仅使用图像级我们还利用其他数据集来评估我们的LBBA，请参见suppl.有关详细信息评估指标。由于我们的方法的目的是提高目标检测性能，平均精度（AP）被用作我们的实验中的基本评价指标。我们还采用CorLoc [4]作为另一个评估指标。4.2. 与现有技术的我们在Suppl.我们在此基础上建立了所有的实验。我们比较我们的方法与几个国家的最先进的WSOD方法在检测和定位性能的PAS-CAL VOC数据集。如[3，26，25，33，20，2，37]中所建议的，我们分别报告测试集上的检测结果和训练集上的定位结果。表1比较了 PASCAL VOC 2007 和 2012 数据集上不同的最新WSOD 方法的结果。可以看出，我们的 LBBA 在PASCAL VOC 2007 数据集上分别将 OICR 和OICR+REG提高了15.3%和5.0%毛皮-表 2. PASCAL VOC 2007 和 2012 上的单模型正确定位（CorLoc）结果，其中+表示多尺度测试的结果，*表示辅助数据集和弱注释数据集上的WSOD模型的联合训练。方法CorLoc（07）中文（简体）OICR+ [26]60.662.1PCL+ [25]62.763.2Li+ [13]68.667.9Yang等人+[33]68.069.5WSOD 2+ [34]69.571.9Arun等人[二]《中国日报》70.969.5C-MIL+ [30]65.067.4雾（满）+[20]68.870.9[21]第二十一话58.8-MSD-Ens+ [14]66.8-OICR+UBBR [12]47.6-Zhong等人（R50-C4）*[37]73.6-Zhong等人（R50-C4）+*[37]74.4-我们72.373.2我们的+72.573.7此外，除了Zhong等人 [37]之外，我们的方法比所有竞争方法都更好。请注意，[37]通过直接合并源数据集和目标数据集，使用更强大的骨干模型和知识转移策略。此外，Zhong等人采用的辅助数据集。与我们的不同之处在于，了解更多详情）。如图2、我们的方法具有生成精确的约束盒的能力在PASCAL VOC 2012上，我们的LBBA优于所有竞争方法，并比所有WSOD方法获得超过1%的收益。实验结果表明，该方法能有效地提高WSOD的检测性能。我们进一步评估我们的方法的本地化性能。表2列出了 PASCAL VOC 2007 和 2012 上的几种最先进的WSOD方法的结果。在PASCAL VOC 2007数据集上，我们的 LBBA 优于 OICR 11.7% ，并且还将基线OICR+REG提高了4.3%以上。此外，我们的LBBA表现优于所有的计算方法。同时，在PASCAL VOC 2012上，我们的LBBA也优于所有竞争方法，并且比WSOD2 获得 1.3% 的增益与 Zhonget al.[37]，我们的基于LBBA的方法采用较弱的骨干模型，避免了直接联合使用源和目标数据集，同时仍然实现了竞争性的核心。2884表3. VOC 07上Adjusterg的不同骨干模型的比较，其中多阶段学习的迭代T被设置为3，而WSDDN [3]被用作WSOD网络f。调节器主干gmAP（VOC07）CorLoc（VOC07）VGG-1650.267.7R50-C452.770.3表4. VOC 07上各种WSOD网络的比较方法mAP（VOC07）CorLoc（VOC07）基线（WSDDN）46.664.7基线（OICR）48.666.8基线（OICR+[20]）51.464.9我们的（WSDDN）52.770.3我们的（OICR）55.171.0我们的（OICR+[20]）55.871.6单尺度测试和多尺度测试设置下的Loc结果。上述结果表明，我们的LBBA为基础的方法是有效的，提高定位性能的WSOD。4.3. 消融研究此外，我们采用PASCAL VOC 2007年来评估我们的LBBA的一些关键组件的效果。我们在附录中说明了更详细的消融研究。调节器的主干模型在这项工作中，Faster R-CNN [19]被用作调整器。在这里，我们首先评估骨干模型对调节子g的影响。为此，我们比较了两种CNN架构作为Faster R-CNN的骨干模型，即ResNet-50 [10]和VGG-16[23]。特别地，我们将多阶段学习的迭代次数T设置为3，并采用WSDDN [3]作为WSOD网络f。比较的结果是-表5.调整器g和WSOD网络f分别使用不同学习策略对COCO-60和VOC 07的结果学习策略调节器mAP（COCO-60）mAP（VOC07）T=029.153.1T=129.654.9T=229.955.7T=330.955.8LBBA-MCG29.654.3迭代（T）和可学习的辅助WSOD网络faux。通过将WSOD网络f和调整器g分别固定为OICR+[20]和具有ResNet- 50主干的Faster R-CNN，我们评估了迭代次数（T）和faux对我们的LBBA方法的影响。为此，我们通过将T设置为0到3来学习绑定框调整器。此外，我们使用MCG生成的建议，即LBBA-MCG取代可学习的faux表5给出了分别使用不同学习策略的COCO-60和VOC07上的调节器g和WSOD网络f可以看出，增加迭代（T）可以改善调节器g和WSOD网络f两者的性能。然而，当迭代次数T>2时，WSOD网络f的性能略有改善。因此，T=3是平衡效率和有效性的良好选择。这些结果清楚地证明了我们的多阶段学习策略的有效性。对于调节器g和WSOD网络f，具有3次迭代的可学习faux优于LBBA-MCG1.3%和1.5%，显示了可学习faux的显著性。5. 结论在本文中，我们提出了一个基于知识转移表3中列出了对VOC 07的结果，从中我们可以看出，具有ResNet-50骨架的调节剂g在mAP和CorLoc方面分别比具有VGG-16骨架的调节剂好2.5%和2.6%。这些结果表明，我们的方法可以受益于更强的调节器，这鼓励我们开发更有效的调节器。WSOD网络的效果f. 在确定调节器g的骨干模型后，我们评估了WSOD网络f的影响.具体地，我们考虑三种方法（即，WSDDN+REG [3]、OICR+REG [26]和OICR+ REGtop p%伪标签挖掘[20]），并将我们的LBBA与原始方法（即，基线）。多阶段学习的迭代T被设置为3，并且不同WSOD网络f的结果在表4中给出。首先，我们的LBBA实现了明确的性能增益（超过4%）的基线方法的所有选择的WSOD网络方面的mAP和Cor- Loc。结果表明，所提出的LBBA方法可以很好地推广到各种WSOD网络。其次，我们的LBBA受益于更强大的WSOD网络，因此我们通过使用OICR+[20]作为WSOD网络f与最先进的技术进行比较。多级LBBA。所提出的LBBA的多阶段学习策略涉及两个核心因素，即数量WSOD法我们提出的方法包括两个子任务，学习边界框调整器和LBBA增强的WSOD。对于前一个子任务，我们建议在辅助数据集上使用双层优化公式和类EM训练算法来学习指定用于优化WSOD性能的多阶段和类不可知的LBBA对于后面的子任务，我们采用了一个多阶段的计划，只利用LBBA和弱注释的数据集的WSOD。此外，采用掩蔽策略来改善提案分类，以利于检测性能。实验结果表明，我们提出的方法对最先进的WSOD方法和具有类似问题设置的知识转移模型尽管如此，我们主要集中在跨类迁移在本文中，而跨域的迁移没有被特别考虑。在未来，我们将探索合适的领域泛化方法来应对这个问题。确认本工作得到了国家自然科学基金项目（U19A2073、62006064、61806140）和天津市自然科学基金项目（ U19A2073 、 62006064 、 61806140 ）的部分资助20JCQNJC1530。2885引用[1] P. Arbel a'ez，J. Pont-T uset，J. Barron，F. Marques和J.马力。多尺度组合分组在计算机视觉和模式识别，2014年。[2] Aditya Arun，C.V. Jawahar和M。帕万·库马尔基于相异系数的弱监督目标检测。2019 IEEE/CVF计算机视觉和模式识别会议（CVPR），2019年6月。[3] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议论文集，第2846- 2854页[4] Thomas Deselaers Bogdan Alexe和Vittorio Ferrari弱监督定位和通用知识学习。国际计算机视觉杂志，100，122012。[5] 托马斯·G 作者声明：RichardH. 莱思罗普和托马的洛扎诺-佩雷兹。用平行轴矩形求解多实例问题第内特尔，89：31[6] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[7] 罗斯·格希

下载后可阅读完整内容，剩余1页未读，立即下载