基于分割协作的弱监督目标检测方法

76 浏览量更新于2023-10-12 收藏 1.81MB PDF 举报

弱监督目标检测

中国科学院大学

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9735基于分割协作的李晓燕1、2阚美娜1、2石广珊1、2、3陈西林1、21中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，北京1001902中国科学院大学，北京1000493深圳市鹏程实验室，518055，中国xiaoyan.li @ vipl.ict.ac.cn{kanmeina，sgshan，xlchen}@ict. ac. cn摘要弱监督目标检测的目的是在给定图像类别标签的情况下学习精确的目标检测器在最近流行的工作中，这个问题通常被公式化为由图像分类损失引导的多实例学习模块对象边界框被假定为是一个贡献最大的分类在所有pro-bands。然而，贡献最大的区域也可能是对象的关键部分或支持上下文。(a) 以前的作品(b) 我们为了获得更准确的检测器，在这项工作中，我们提出了一种新的端到端弱监督检测方法，其中新引入的生成对抗分割模块与传统的检测模块在协作循环中进行交互。协作机制充分利用了弱监督定位任务的互补解释，即检测和分割任务，形成了更全面的解决方案。因此，我们的方法获得更精确的对象边界框，而不是部分或不相关的表面。预计，该方法在PASCAL VOC2007数据集上实现了53.7%的准确率，表现出最先进的水平，并证明了其在弱监督对象检测方面的优越性。1. 介绍随着数据驱动方法在学术界和工业界的目标检测任务中的流行然而，注释对象边界框既昂贵又耗时。为了减少标记工作量，研究人员希望使目标检测器以弱监督的方式工作，例如。学习只具有类别标签而不是边界框的检测器近年来，弱监督目标检测领域的研究成果都是利用多示例学习算法，图1：以前的工作与分割利用[7，32]和我们提出的协作方法的示意图在[7，32]中，使用了一个两阶段的范例，其中首先过滤建议，然后在这些剩余的盒子上执行检测（[7]在两个模块之间共享主干）。在我们的方法中，检测和分割模块在训练过程中的动态协作循环中相互指导。ing（MIL）范式[3，5，22，21，18，14，1，23，24，2，7]。基于对象边界框应该是所有提案中对图像分类贡献最大的一个的假设，基于MIL的方法以类似注意力的机制工作：自动为与分类标签一致的建议分配较大的权重。结合MIL和深度学习[2，25，32]的几项有前途的工作极大地推动了弱监督对象检测的边界。然而，如[25，32]所述，这些方法很容易在对象部分上过度拟合，因为最具区分力的分类证据可能来自整个对象区域，但也可能来自关键部分。注意机制在选择区分框方面是有效的，但不能保证检测对象的完整性。为了使推理更加合理，需要进一步的细化机制。同时，在弱监督分割中，更容易保证检测区域的完整性一种常见的方法来概述整个类相关的分割重新，骨干骨干Stage1阶段2分割检测提案筛选骨干热图分割检测建议重新加权9736任务召回精度弱监督检测百分之六十二点九46.3%弱监督分割69.7%35.4%表1：VOC 2007测试集上的逐像素查全率和检测精度以及分割结果，遵循第2节中的相同设置。4.2.对于可比较的像素级度量，检测结果以类似于在第2.2节中描述的方式转换为等效分割图。三点三gions在几次向前传递中反复发现和掩蔽这些区域[31]。这些分割图可以潜在地约束弱监督对象检测，假定与对应的分割图具有低交集（IoU）的提议不太可能是对象边界框。在[7，32]中，弱监督分割图用于过滤对象pro-bands并降低检测难度，如图所示。1a. 然而，这些方法采用具有相对粗糙分割的级联或总之，这些方法没有充分利用分割，限制了改进。基于MIL的目标检测方法和语义分割方法侧重于抑制弱监督定位的不同方面，并且具有可操作性。在端到端方式的分类损失的弱监督下进行优化，这优于先前作品中的级联或独立架构[7，32]。综上所述，我们在本文中做出了三个贡献：1)分割-检测协同机制加强了两个互补任务之间的深度合作，并在弱监督环境下增强了对彼此的有价值监督;2）对于分割分支，新的生成对抗定位策略使我们的方法能够生成更完整的分割图，这对于改进分割和检测分支至关重要; 3）如第4节所示，我们在PASCAL VOC2007和2012数据集上实现了最佳性能，超越了以前的最先进技术。2. 相关作品多实例学习（MIL）。MIL [8]是机器学习中的一个概念，说明了不精确监督问题的本质，其中只有粗粒度的标签可用[34]。形式上，给定训练图像I，所有实例以某种形式构成“包”。E.G.对象轮廓（在检测任务中）或图像像素（在分割任务中）可以是不同形式的实例。如果图像I被标记为c类，则I的优点和缺点都是对的。基于MIL的目标检测方法在区分目标相关区域和无关环境方面具有较高的精度，但由于对重要区域的过度关注，容易将整体目标与局部目标混淆。同时，弱超监督分割能够覆盖整个实例，但容易将不相关环境与真实对象混合。在表1中验证了这种互补性质，即分割可以实现更高的逐像素查全率但更低的精度，而检测可以实现更高的像素级精度但更低的查全率。这两者不是独立工作，而是天然的合作，可以共同克服其内在的弱点。在这项工作中，我们提出了一个分割检测协作网络（SDCN），用于在弱监督下进行更精确的对象检测，如图所示。1b.在提出的SDCN中，检测和分割分支以协作方式工作，以相互促进具体地说，分割分支被设计为生成式对抗定位结构，用于绘制对象区域。检测模块以MIL方式进行优化，将获得的分割图用作对象建议的空间先验概率。此外，对象检测分支还通过从所有建议框及其分类得分生成的合成热图向分割分支因此，这两个分支之间紧密互动，形成一个动态的合作循环。总的来说，整个网络在这个包里的C类如果I没有被标记为c类，则对应的MIL模型旨在预测输入袋的标签，更重要的是，在阳性袋中找到弱监督对象检测。最近，深度神经网络和MIL被合并，并显着改善了以前的最先进技术。Bilen等人[2]亲提出了一种弱监督深度检测网络（Weakly SupervisedDeep Detection Network，WS-DDN），该网络由两个分支组成，分别作为建议选择器和建议分类器。基于注意力选择的目标检测思想被证明是非常有效的，后来的大多数作品都遵循了这一思想。例如，WSDDN通过在[25]中添加递归细化分支得到进一步改进。[30，28，29]利用连续优化和逐步学习模型，从容易到困难，这是非常有前途和有效的。除了这些单阶段方法之外，研究人员还考虑了多阶段方法，其中完全监督检测器使用单阶段方法检测到的框作为伪标签进行训练。Zhang等人[33]提出了一个度量标准来估计图像的难度与建议分类分数的WSDDN，并训练了一个快速的R-CNN课程学习策略。为了加速弱监督对象检测器，Shenet al. [19]使用WSDDN作为指导器，指导快速生成器产生类似的检测结果。弱监督对象分割。另一9737图2：整体架构。SDCN由三个模块组成：特征提取器、分割分支和检测分支。分割分支由分类网络以生成对抗学习方式进行指导，而检测分支采用传统的弱监督检测器OICR [25]，由MIL目标指导。这两个分支在协作循环中进一步相互监督。实心椭圆表示损失函数。操作用蓝色箭头表示，而协作循环用橙色箭头表示。定位对象的途径是语义分割。为了获得弱监督分割图，在[17]中，Kolesnikovet al.将分割图作为网络的输出，然后将其聚合为全局分类预测，以使用类别标签进行学习在[9]中，改进了聚合函数，以合并否定和肯定证据，表示目标类的在[31]中，提出了一种循环对抗性时代策略，以屏蔽先前向前传递的响应区域，并强制在当前向前传递期间在其他未检测到的部分上生成响应。分割在弱监督检测中的应用。研究人员发现，弱监督分割和非监督分割之间存在着内在的联系和检测任务。在[7]中，使用生成粗略响应图的分割分支来消除不太可能覆盖对象的建议。在[32]中，建议过滤步骤基于用弱监督分割图定义的新对象评级TS2C。Ge等人[12]提出了一种用于对象分割和检测的复杂框架，其中，来自弱监督分割模型的结果被用作对象建议生成器和用于后一检测模型的过滤器这些方法结合分割来改善弱监督目标检测，这是合理的和有前途的，因为它们优于它们的基线模型。然而，他们忽略了上述这些任务的互补性，只利用单向合作，如图所示。1a.使用分割信息的次优方式限制了其方法的性能。3. 方法所提出的分割检测协作网络（SDCN）的总体架构如图所示二、该网络主要由三个部分组成：主干特征提取器fE、分割分支fS和检测分支fD。对于输入图像I，其特征x =fE（I）由提取器fE提取，然后分别馈送到fS和fD用于分割和检测。整个网络由分类标签y=[y1，y2 ，···，yN]∈{0，1}N（其中N是对象类的数量）引导，其被格式化为对抗分类损失和MIL目标。设计了额外的协作损失，以协作循环的方式提高两个分支的准确性。在Python 3.1中，我们首先简要介绍了我们的检测分支，它遵循在线实例分类器细化（OICR）[25]。3.2和3.3中详细描述了所提出的分段分支和归并机制3.1. 检测分支检测分支fD旨在仅给定图像类别标签来检测输入图像中的fD的设计遵循OICR [25]，其工作方式与Fast RCNN [13]类似具体地说，f D从主干f E和对象proc B={b 1，b 2，. . .，bB}（其中B是提议的数量）作为输入，并且通过对每个提议进行分类来检测，公式如下：D=fD（x，B），D∈[0，1]B×（N+1），（1）其中N表示以第（N +1）类作为背景的类的数目。每个元素D（i，j）指示第i个建议bi属于第j个类别的概率。检测分支fD由两个子模块组成多实例检测网络（MIDN）fDm和在线实例分类器细化模块fDr。的LSCLSLS←Dseg公司简介Adv分段分支分类网络f分段网络fS图像分类分数我协作循环特征提取器fE分割图Sseg检测分支DⓈ投资回报池DM特征地图迪姆伪标签输入图像I合并特征提案分数D= Dr热图S检测LD←SrefLD←S密耳F RfDOICRfD=DM伪标签9738密耳AdvrefMIDNfDm充当细化模块fDr的指导者，而fDr产生最终检测输出。MIDN与前面提到的WSDDN [2]相同，它在类别标签的监督下计算每个提案属于每个类别的概率，并具有MIL目标（在等式2中）。(1)[25]如下：Dm=fDm（x，B），Dm∈[0，1]B×N，（2）在整个训练集中保持高度一致性。为了克服这个问题，需要测量和调整被检测对象的完整性，例如：通过与分割图进行比较。因此，提出了一种弱监督分割分支，以覆盖完整的对象区域与生成对抗定位策略。详细地，分割分支fS取特征x作为输入并预测分割图，如下所示ΣNLD=公元前500年.ΣBΣDm（i，j），y（j）、（3）S=fS（x），S∈[0，1]（N+1）×h×w，（8）高×宽密耳j=1i=1sk，S（k，：，：），k ∈ {1，. . . ，N+1}，sk∈ [0，1]（九）其中，Dm（i，j）（在[25]中表示为φ）表示C日其中S具有N+ 1个通道。每个通道sk对应于大小为h×w的第k类的分割图。输入图像属于j类的概率LBCE表示标准的多类二进制交叉熵损失。然后，从最小化Eq.(3)用于生成伪实例分类标签用于细化模块。该过程表示为：Yr=κ（Dm），Yr∈{0，1}B×（N+1）.（四）每个二进制元素Yr（i，j）指示第i个建议是否被标记为第j个类。κ表示从软概率矩阵Dm到离散实例标签Yr的转换，其中得分最高的建议及其高度重叠的建议被标记为图像标签，其余的被标记为背景。详情请参见SEC。3.2 in [25].在线实例分类器细化模块fDr逐个建议地执行检测建议，并且进一步约束检测结果与所生成的标签Yr的空间一致性，其公式化如下：为了确保分割图S覆盖com，精确地填充对象区域，一种新的生成对抗定位策略被设计为分割预测器fs和独立的图像分类器fc之间的对抗训练，分别作为生成器和鉴别器，如图所示二、生成器fS的训练目标是通过屏蔽掉对象区域来欺骗fC进行错误分类，而生成器fC的目标是消除擦除区域的影响并正确预测类别标签。fS和fC交替优化，给定另一个固定。这里，我们首先介绍分割分支fS的优化，给定分类器fC固定。总的来说，分割分支的目标可以用公式表示为每个类别的损失之和LS（S）= LS（s1）+LS（s2）+···+LS（sN+1）.（十）RDr（i，：）=fD（x，bi），Dr[0，1] B×（N+1）、（五）LS（sk）是分割的第i个通道简体中文图，由对抗性损失LS一个经典的--L参考=LCE（D（i，j），Y（i，j）），（6）SAdvj=1i=1损耗Lcls，详细描述如下。其中，Dr（i，：）∈[0，1]N+1是D r的r w，指示提案bi的分类得分。LCE表示等式（1）中的加权交叉熵（CE）损失函数。（4）[25]。这里，考虑到每个建议具有且仅具有一个正类别标签，采用L CE而不是LBCE。最后，由细化模块给出检测结果，即. D=Dr，以及如果第k个类是正前景类1，则分割图sk应该完全覆盖第k类的区域，但不与其他类的区域重叠。换句话说，对于一个准确的sk，只有被sk掩盖的对象区域才应该被分类为第k类，而其互补区域不应该被分类为第k类从形式上讲，这个期望可以通过最小化函数来满足检测模块是Eq. (3)和等式（六）：L D=λ DLD +λD LD，（7）LS （sk）=LBCE（fC（Isk），y）+（十一）密耳密耳refrefLBCE（fC（I（1−sk）），y），其中λDλD是造成损失的平衡因素。根据Eq.（7）精化模块fDR在测试中抛弃 M I D N，独立进行目标检测。3.2. 分段分支通常，MIL弱监督对象检测模块在区分性部分上经受过拟合，因为具有较少变化的较小区域更有可能i=19739其中，X表示逐像素乘积。第一个术语是repre-发送由所生成的分割图覆盖的对象区域，即， I=k，应该被分类器f C识别为第k个类，但不响应任何其他具有标签y∈{0，1}N的类，其中y∈（k）=1且y∈（i/=k）=0。第二个术语意味着当1正的前景类别意味着前景类别出现在当前图像中，而负的前景类别意味着它不出现。9740L=λCLSAdvCLSAdvL=Adv与第k个类相关的区域被从输入中屏蔽掉，即，I（1−sk），分类器fC不应该再识别第k个类而不影响其他类，标签y∈{0，1}N，其中y（k）=0，不需要像[31]那样确定递归步骤的数量，这可能会因不同的对象而异。3.3. 协作机制y（i/=k）=y（ik）。在这里，我们注意到，动态协作循环旨在补充可以将蒙版应用于图像I或任何层的输入由于fC是固定的，损失函数由方程式（11）仅惩罚分段分支fS。如果第k个类是一个负前景类，那么sk应该是全零，因为没有这个前景类的实例存在。这通过响应约束项来约束。在这一项中，每个图sk的前20%响应像素被合并并平均，用于利用如下的二进制交叉熵损失优化的分类预测，检测和分割都是为了更精确的预测，即既不会大到覆盖背景，也不会小到退化为对象部分。分割指示检测。如前所述，检测分支容易过拟合到有区别的部分，而分割可以覆盖整个对象区域。所以很自然地，分割图可以用来细化通过使具有较大IoU的建议与相应的分割图的检测结果具有较高的SCLS（sk）=LBCE（avgpool20%sk，y（k））。（十二）得分这是通过重新加权实例类来实现的。公式中的概率矩阵Dm（2）在检测中如果第k个类被标记为负，则avgpool20%sk被强制接近0，即。映射Sk的所有元素应该近似为0。然而，上述损失也适用于-当第k类为正时，avgpool20%sk应接近1，与等式中的约束一致。（十一）、背景是作为一个特殊的情况。由方程式(11)虽然标签y_n和y_n不属于背景类，但背景分割图sN+1也适用于其他类。当sN+1被乘以作为方程中的第一项时当1−sN+1被用作等式（11）的第二项中的掩码时，目标标签应该是全零y=0（11）、目标标签应与原始标签y=y完全相同。 F或Eq. （12），我们假设背景区域总是出现在任何输入图像中，即，对于所有图像，y（N+ 1）= 1总的来说，方程中分割分支的总损失。(10)可以总结和重写如下，通过使用源自分割图的先验概率矩阵Dseg分支如下，其中，Dseg（i，k）表示两个像素之间的重叠度，第i对象建议和来自第k个对象建议的连接区域分割图 D段生成如下：Dse g（i，k）=m ax jIoU（iskj，bi）+τ0.（十七）这里，kkj表示分割图s k中的阈值Tc下的第j个连通分量，并且IoU（kj，bi）表示kj和对象建议bi之间的交集。常数τ0为分段分支增加了容错性。Dseg的每一列通过其最大值进行归一化，以使其范围在[0，1]内。在Eq. (16)，仅关注局部部分的对象propos- als被分配有较低的S SAdvΣkify（k）=1SAdv（sk）+λSN+1k=1SCLS（sk），（13）而这些建议恰恰涵盖了OB-突出。连接组件被用来减轻多个实例出现的问题，这是一个很难的情况下，弱监督对象检测。的其中λSλS表示平衡配重。最近的TS2C [32]目标评级旨在解决这一问题优化Eq.(13)在对抗以这种方式，分割分支fs是固定的，并且分类器fc被进一步优化，具有以下目标，还测试了issue代替具有连接组件的IoU，但在我们的情况下没有显示出优越性。重新加权的概率矩阵Dm代替Dm，当量 (3)并进一步指示MIDN，如等式（1）中所示。(18)和CAdv（sk）=LBCE（fC（I（1 −sk）），y），（14）如在Eq. （十九）：LC=LBCE（fΣC（I），y）+LC （sk）。（十五）ΣLD←S=.Σ公元前500年ΣDm（i，j），y（j）、（十八）kify（k）=1目标信用证由分类损失和广告组成，密耳D←S参考JΣΣLCEJ I我.ΣDr（i，j），Y<$r（i，j）、（十九）对抗损失信用证分类器f C的目标应该总是y，因为它旨在挖掘出剩余的对象区域，即使sk被掩盖。我们的想法设计的分割分支股其中，Y_r表示从D_m得到的伪标签，如等式（1）中的伪标签（四）、最后，在方程中的检测分支的总体目标(7)重新表述如下，与[31]相同的对抗精神，但我们的设计更LD←S=λDLD←S+λDL D←S.LLLL9741（二十）与[31]相比，它的效率更高，密耳密耳refref一个分割图的每个前向传递。此外，我们检测指导分割。虽然该detec，9742KKN+1个Kseg×CLSseg密耳refK--塞格塞格图像框可能不会覆盖整个对象，它们对于将对象与背景区分开是有效的。为了引导分割分支，生成检测热图Sdet∈[0，1]（N+1）×h×w，其可以被看作是分析。算法1训练和测试SDCN输入：具有类别标签T1={（I，y）}的训练集。一曰：程序TRAINING2：前向SDCNfE（I）→x，fD（x）→D，fS（x）→S，分割图的日志每个通道sdet，Sdet（k，：C，CK，：）对应于第k个3：转发分类器f（sk <$I）和f（（1-sk）<$I），课具体地说，对于正类k，每个建议框将其分类得分贡献给该建议内的所有像素，4：用S和D生成变量Dseg和Sdet，5：在等式中计算L D←S。(20)而LS←D在等式中。(24)、6：对于SDCN，向后损失L=LD<$S+LS<$D从而通过C C生成sdetKΣsdet（p，q）=i如果（p，q）∈bi D（i，k），（21）7：计算并向后计算损失L 对于f，8：继续，直到收敛。输出：用于检测的优化SDCN（fE和fD）而对应于负类的其它SDET然后，sdet通过其最大re归一化。输入：测试集T2=I。一曰：程序测试sponse和背景热图的检测可以简单地2：前向SDCNfR（I）→x，f（x）→D，计算为前景的互补集，即，3：用D对检测到的边界框进行后处理。detN+1 =1 − maxk∈{1，.，N} s检测。（二十二）输出：检测到的对象边界框为T2.为了生成每个像素的伪类别标签，首先通过获取每个像素处的最大值的面积来离散化软分割图Sdet所生成的标签由Sdet（Sdet）表示，并且指导性损失被公式化如下：L S←D= L CE（S，（Sdet））.（二十三）因此，方程中的整个分割分支的损失函数。(13)现已更新为数据集包括9，963张图像，共24，640个对象，分为20个类别。它被分为一个包含5，011张图像的训练集和一个包含4，952张图像的测试更具挑战性的VOC 2012数据集由11，540张图像组成，其中27，450个对象在训练集中，10，991张图像用于测试。在我们的实验中，trainval分割用于训练，测试集用于测试。业绩报告采用两个指标：1）在训练值分割上的正确定位（CorLoc）[6]和2）在测试集上的平均精度（AP）。LS←D=LS+ λ SL S←D。（二十四）实施. 对于骨干网f E，我们使用VGG-16 [20]。对于fD，同样的结构在OICR [32]中使用。对于fS，相似分割总体目标。随着Eq. (20)和等式(24)，整个网络的最终目标是argmin fE，fS，fDL=L S<$D+ L D<$S.（二十五）简而言之，上述目标以端到端的方式进行优化。图像分类器fC与损失LC交替地优化，如大多数对抗性方法。优化可以很容易地进行使用梯度下降。为了清楚起见，我们的SDCN的训练和测试总结在算法1中。在测试阶段，如算法1所示，只需要特征提取器fE和细化模块fDr，这使得我们的方法与[25]一样高效采用CPN 的 Header [4]。对于对抗分类器fC，使用ResNet-101 [15]，并在res 4 b22层之后应用分段掩码操作。我们遵循三步训练策略：1）分类器fC以固定的学习率5× 10- 4进行训练，直到其收敛; 2）分割分支fS和检测分支fD在没有协作的情况下进行预训练;3）整个架构按照端到端的方式进行训练SDCN以10−3的学习率运行40k次迭代，然后以10−4的学习率运行30k次迭代。采用了OICR[25]中相同的多尺度培训和测试策略。为了实现检测和分割分支之间的平衡影响，损失的权重被简单地设置为使梯度具有相似的尺度，即，4. 实验SAdv= 1，λS= 0。1，λS= 0。1，λD= 1和λD=1，我们评估了所提出的分割检测协作网络（SDCN）的弱监督对象检测，以证明其优于国家的最先进的。4.1. 实验装置数据集。评估是在两个常用的弱监督检测数据集上进行的，包括PASCAL VOC 2007 [11]和2012 [10]。SλED9743VOC 2007分别等式中的常数τ0（17）门槛Tc根据经验分别设置为0.5和0.1。4.2. 消融研究我们的消融研究在VOC 2007数据集上进行。比较了五种弱监督策略，结果如表2所示。没有分割分支的基线检测方法与9744输入图像没有合作与协作(a) 分割（b）检测图3：分割和检测结果的可视化（无协作和有协作）。在（a）中，从左到右的列是原始图像，即在没有和有协作循环的情况下获得的分割图。在（b）中，不考虑协作的OICR[25]的检测结果以及具有协作循环的拟议方法分别用红色和绿色框（没有方框意味着在给定检测阈值的情况下没有检测到对象OICR[32]。另一个幼稚的考虑是以多任务方式直接包括检测和分割模块，而在它们之间没有任何协作。并对只有分割分支指示检测分支的模型进行了测试。它的mAP是最低的，因为分割之间的平均交集大于并集（mIoU）结果表明，在没有检测分支的指导下，地面真值从37%下降到25.1%该模型也可以在没有生成式对抗定位策略的情况下进行训练，但其性能下降。我们的完整方法实现了最高的mAP。可以观察到，所提出的方法大幅改善了所有基线模型，证明了生成式对抗定位策略和并行循环的有效性和必要性。分割掩模和检测结果没有和与合作可视化图。3.如图所示。3a，利用来自检测分支的指令，分割图变得更加精确，背景和类别相关区域之间的混淆更少。类似地，如图所示。3b，基线方法倾向于将区分部分与目标对象边界框混合，而在分割的指导下，检测到更完整的对象。可视化清楚地说明了彼此的好处。4.3. 与最先进技术的比较所有比较方法首先在VOC 2007上进行评价，如表3和表4所示，以mAP和Cor- Loc表示。在单阶段方法中，我们的方法在大多数类别上都优于其他方法，平均而言有显著的特别是，我们的方法在“船”、“猫”、“狗”上的表现比现有技术表2：VOC 2007数据集上具有相同主干的不同弱监督策略的mAP（%）。我们的方法倾向于检测更完整的对象，尽管在大多数情况下，这些类别的实例可以通过部分来此外，与具有完全相同架构的OICR[25]相比，我们的方法产生了显着的改进。最具竞争力的方法[26]是为弱监督对象建议而设计的，这不是真正的竞争，而是对我们的方法的补充，并且用[26]替换我们方法中的固定对象建议可能会提高性能。此外，我们的单阶段方法的性能甚至与多阶段方法[25，32，33，30]相当，说明了所提出的动态协作循环的有效性。此外，所有方法都可以通过多阶段训练来增强，如表3底部所示接下来[32]，来自SDCN的最高得分检测边界框用作训练具有VGG16主干的Fast RCNN [13]的标签，表示为SDCN+FRCNN。通过这种简单的多阶段训练策略，性能可以进一步提高到53.7%，这超过了所有最先进的多阶段方法，尽管[25，26]使用更复杂的集成模型。值得注意的是， HCP+DSD+OSSH3[16]和ZLDN-L[33]，尝试通过自定进度或课程学习设计更精细的培训机制我们相信，我们的模型SDCN+FRCNN的性能可以进一步提高，Det.分支隔离区分支隔离区→Det.Det.→分段。Adv. Loc. 地图√√√√√√√√√√√√√√√√√41.241.336.846.050.29745×方法Aero 自行车鸟船形瓶总线车猫椅子牛桌子狗马摩托车人植物羊沙发火车电视地图单级WSDDN-VGG16 [2]39.4 50.1 31.5 16.312.664.5 42.8 42.6 10.135.724.9 38.234.455.69.414.730.240.7 54.7 46.934.8OICR-VGG 16 [25]58.0 62.4 31.1 19.413.065.1 62.2 28.4 24.844.730.6 25.337.865.515.724.141.746.9 64.3 62.641.2MELM-L+RL[30]50.4 57.6 37.7 23.213.960.2 63.1 44.4 24.352.042.3 42.743.766.62.921.445.145.2 59.1 56.242.6TS2C [32]59.3 57.5 43.7 27.313.563.9 61.7 59.9 24.146.936.7 45.639.962.610.323.641.752.4 58.7 56.644.3[26日]57.9 70.5 37.85.721.066.1 69.2 59.43.457.1 57.3 35.264.268.632.828.650.849.5 41.1 30.045.3SDCN（我们的）59.4 71.5 38.9 32.221.567.7 64.5 68.9 20.449.247.6 60.955.967.431.222.945.053.2 60.9 64.450.2多级WSDDN-Ens。[二]《中国日报》46.4 58.3 35.5 25.914.066.7 53.0 39.28.941.826.6 38.644.759.010.817.340.749.6 56.9 50.839.3HCP+DSD+OSSH3[16]52.2 47.1 35.0 26.715.461.3 66.0 54.33.053.624.7 43.648.465.86.618.851.943.6 53.6 62.441.7OICR-Ens.+ [25]第二十五话65.5 67.2 47.2 21.622.168.0 68.5 35.95.763.149.5 30.364.766.113.025.650.057.1 60.2 59.047.0MELM-L2+ARL[30]55.6 66.9 34.2 29.116.468.8 68.1 43.0 25.065.645.3 53.249.668.62.025.452.556.8 62.1 57.147.3ZLDN-L[33]55.4 68.5 50.1 16.820.862.7 66.8 56.52.157.847.5 40.169.768.221.627.253.456.1 52.5 58.247.6TS2C+FRCNN [32]––––––––––––––––––––48.0Ens.+ [26]第二十六话63.0 69.7 40.8 11.627.770.5 74.1 58.5 10.0 66.7 60.6 34.775.770.325.726.555.456.4 55.5 54.950.4SDCN+FRCNN（我们的）59.8 75.1 43.3 31.722.869.1 71.0 72.9 21.061.153.9 73.154.168.337.620.148.262.3 67.2 61.153.7表3：我们的方法和VOC 2007测试分割的最新技术的平均精度（%）方法Aero 自行车鸟船形瓶总线车猫椅子奶牛饲养台狗马人种羊沙发火车电视CorLoc单级WSDDN-VGG16 [2]65.1 58.8 58.5 33.139.868.3 60.2 59.6 34.864.5 30.5 43.056.882.425.541.661.555.9 65.9 63.753.5OICR-VGG 16 [25]81.7 80.4 48.7 49.532.881.7 85.4 40.1 40.679.5 35.7 33.760.588.821.857.976.359.9 75.3 81.460.6TS2C [32]84.2 74.1 61.3 52.132.176.7 82.9 66.6 42.370.6 39.5 57.061.288.49.354.672.260.0 65.0 70.361.0[26日]77.5 81.2 55.3 19.744.380.2 86.6 69.5 10.187.768.4 52.184.491.657.463.477.358.1 57.0 53.863.8SDCN（我们的）85.0 83.9 58.9 59.643.179.7 85.2 77.9 31.378.1 50.6 75.676.288.449.756.473.262.6 77.2 79.968.6多级HCP+DSD+OSSH3[16]72.7 55.3 53.0 27.835.268.6 81.9 60.7 11.671.6 29.7 54.364.388.222.253.772.252.6 68.9 75.556.1WSDDN-Ens。[二]《中国日报》68.9 68.7 65.2 42.540.672.6 75.2 53.7 29.768.1 33.5 45.665.986.127.544.976.062.4 66.3 66.858.0MELM-L2+ARL[30]––––––––––––––––––––61.4ZLDN-L[33]74.0 77.8 65.2 37.046.775.8 83.7 58.8 17.573.1 49.0 51.376.787.430.647.875.062.5 64.8 68.861.2OICR-Ens.+ [25]第二十五话85.8 82.7 62.8 45.243.584.8 87.0 46.8 15.782.2 51.0 45.683.791.222.259.775.365.1 76.8 78.164.3Ens.+ [26]第二十六话83.8 82.7 60.7 35.153.882.7 88.6 67.4 22.086.368.8 50.990.893.644.061.282.565.9 71.1 76.768.4SDCN+FRCNN（我们的）85.0 86.7 60.7 62.846.683.2 87.8 81.7 35.880.8 57.4 81.679.992.459.357.579.468.5 81.7 81.472.5表4：我们的方法的CorLoc（%）和VOC 2007训练值分割的最新技术。站点地图和不良的互动与检测分支，留下了进一步改进的空间。时间成本。我们的训练速度比基线OICR [25]慢大约2，但我们的方法和OICR的测试时间成本是相同的，因为它们共享完全相同的检测分支架构。表5：我们的方法的mAP和CorLoc（以%计）以及VOC2012训练分割的最新技术。5. 结论和未来工作在本文中，我们提出了一种新的分割检测协作网络（SDCN）的弱监督对象检测。与以往的作品不同，通过采用这些算法进行改进。在更具挑战性的VOC2012数据集上进一步评价了比较方法正如预期的那样，所提出的方法在与[25，32]相同的架构下实现了显著的改进，证明了其优越性。总体而言，我们的SDCN显著提高了弱监督对象检测的平均性能，受益于分割和检测的深度合作然而，如表3所示，仍有几个类别的性能相对较低，例如：“chair”主要原因是这些类别的大部分被遮挡和重叠的样本，这导致了段上的不完整或连接的响应。该方法利用分割任务和检测任务之间的协作循环大量的实验结果安全地得出结论，我们的方法成功地超过了以前的国家的最先进的，而它保持在推理阶段的效率。对于密集重叠或部分遮挡的物体，SDCN的设计可能会更加复杂，这更具挑战性，并将其作为未来的工作。鸣谢：这项工作得到了中国国家重点研发计划的部分支持，合同号为。2017YFA0700800，国家自然科学基金项目，合同号：&61772496。方法地图CorLocOICR-VGG 16 [25]37.962.1单级TS2C [32][26日]40.040.864.464.9SDCN（我们的）43.567.9MELM-L2+ARL[30]42.4–OICR-Ens.+ [25]第二十五话42.565.6多级ZLDN-L[33]TS2C+FRCNN [32]42.944.461.5–Ens.+ [26]第二十六话45.769.3SDCN+FRCNN（我们的）46.769.59746引用[1] Hakan Bilen、Marco Pedersoli和Tinne Tuytelaars。后验正则化弱监督目标检测。英国机器视觉会议（BMVC），第1-12页，2014年[2] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议，第2846-2854页[3] 马修·布拉施科，安德里亚·维达尔迪，安德鲁·齐瑟曼。弱视觉下的目标检测和排序神经信息处理系统进展（NeurIPS），第235-243页，2010年[4] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人姿态估计的级联金字塔网络在 IEEE计算机视觉和模式识别会议（CVPR），第7103-7112页[5] Thomas Deselaers Bogdan Alexe和Vittorio Ferrari在学习物体外观的同时将其局部化。在欧洲计算机视觉会议（ECCV）中，第452- 466页[6] Thomas Deselaers Bogdan Alexe和Vittorio Ferrari弱监督定位和通用知识学习。International Journal of ComputerVision（IJCV），100（3）：275[7] Ali Diba ，Vivek Sharma ，Ali

下载后可阅读完整内容，剩余1页未读，立即下载