基于实例和关注上下文的弱监督目标检测

165 浏览量更新于2023-10-23 收藏 14MB PDF 举报

弱监督目标检测

实例学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1105980基于实例、关注上下文和内存高效的弱监督目标检测0Zhongzheng Ren 1, 2 � Zhiding Yu 2 Xiaodong Yang 2 � Ming-Yu Liu 20Yong Jae Lee 3 Alexander G. Schwing 1 Jan Kautz 201 伊利诺伊大学香槟分校 2 NVIDIA 3 加利福尼亚大学戴维斯分校0摘要0通过减少训练过程中对强监督的需求，弱监督学习已成为目标检测的一种有吸引力的工具。然而，仍然存在一些主要挑战：(1)区分对象实例可能是模糊的；(2)检测器往往更关注有区别性的部分而不是整个对象；(3)在没有地面真值的情况下，为了获得高召回率，对象候选框必须是冗余的，导致显著的内存消耗。解决这些挑战是困难的，因为它通常需要消除不确定性和琐碎的解决方案。为了解决这些问题，我们开发了一个基于实例和关注上下文的统一框架。它采用了一个基于实例的自训练算法和一个可学习的ConcreteDropBlock，同时设计了一个内存高效的顺序批量反向传播。我们提出的方法在COCO（12.1% AP，24.8% AP50）、VOC 2007（54.9% AP）和VOC 2012（52.1%AP）上取得了最先进的结果，大大改进了基线。此外，该方法是第一个对基于ResNet的模型和弱监督视频目标检测进行基准测试的方法。请参考我们的项目页面获取代码、模型和更多细节：https://github.com/NVlabs/wetectron。01. 引言0最近关于目标检测的研究[17, 35, 34,26]取得了令人印象深刻的结果。然而，训练过程通常需要精确的边界框等强监督。在大规模情况下获得这样的注释可能是昂贵的、耗时的，甚至是不可行的。这促使了弱监督目标检测（WSOD）方法[5, 45,22]，其中检测器是使用图像级别的类别标签等较弱形式的监督进行训练的。这些方法通常将WSOD形式化为一个多实例学习任务，将每个图像中的一组对象候选框作为一个包。真正覆盖对象的候选框的选择使用可学习的潜变量进行建模。0� 本工作部分在NVIDIA完成。0分组实例缺失实例0部分主导0图1：典型的WSOD问题：(1)实例模糊性：缺失不太显著的对象（顶部）或无法区分聚集的实例（中部）；(2)部分主导：关注最有区别性的对象部分（底部）。0尽管减轻了对精确注释的需求，但现有的弱监督目标检测方法[5, 45, 50, 40,60]常常面临三个主要挑战，这是由于不确定性和不适定性的性质所导致的，如图1所示：(1)实例模糊性。这可能是最大的挑战，它包含了两种常见类型的问题：(a)缺失实例：背景中不太显著的对象，具有罕见的姿势和较小的尺度通常被忽略(图1顶行)。(b)分组实例：同一类别的多个实例在空间上相邻时被分组到一个边界框中(图1中间行)。这两个问题都是由于较大或更显著的框比较小或不太显著的框得分更高所导致的。(2)部分主导。预测往往被对象最有区别的部分所主导(图1底部)。对于具有大的类内差异的类别，这个问题尤为明显。例如，在动物和人类等类别上，模型通常会变成一个“人脸检测器”，因为人脸是最一致的外观信号。(3)内存消耗。现有的候选生成方法[49,64]通常会产生密集的候选。在没有地面真值定位的情况下，保持大量候选会消耗大量内存。105990为了实现合理的召回率和良好的性能，需要大量的候选框，尤其是对于视频目标检测。由于候选框的数量庞大，大部分内存消耗在ROI-Pooling之后的中间层。为了解决上述三个挑战，我们提出了一个统一的弱监督学习框架，该框架具有实例感知和上下文聚焦的特点。所提出的方法通过引入先进的自我训练算法来解决实例模糊性，其中实例级伪标签以类别标签和回归目标的形式计算，同时考虑更多的实例关联空间差异化约束。所提出的方法还通过引入参数化的空间丢弃模块“ConcreteDropBlock”来解决部分主导问题。该模块通过端到端学习来对抗性地最大化检测目标，从而鼓励整个框架考虑上下文而不是只关注最具有区分性的部分。最后，为了减轻内存消耗问题，我们的方法采用了一个顺序批量反向传播算法，该算法在内存消耗最大的阶段以批处理方式处理数据。这使得我们可以使用更大的深度模型，如ResNet[18]在WSOD中，以及探索弱监督视频目标检测。通过我们提出的框架解决上述三个挑战，可以在包括COCO[29]、VOC 2007和2012[11]在内的几个流行数据集上实现最先进的性能。通过详细的消融研究和定性结果进一步验证了每个提出模块的有效性和鲁棒性。最后，我们在视频上进行了额外的实验，并在ImageNet VID [8]上提供了第一个弱监督视频目标检测基准。02. 相关工作0弱监督目标检测（WSOD）。目标检测是计算机视觉中最基本的问题之一。最近的监督方法在准确性和速度方面表现出色。对于WSOD，大多数方法将其视为多实例学习问题，其中输入图像包含一组实例（目标候选框）。该模型通过分类损失进行训练，以选择最自信的正样本候选框。通过初始化、正则化和表示等方面的修改已经被证明可以改善结果。例如，Bilen和Vedaldi提出了一个用于此任务的端到端可训练架构。后续的工作通过利用空间关系、更好的优化和与弱监督分割的多任务处理等进一步改进。0自我训练用于弱监督目标检测。在上述方向中，自我训练已被证明是半监督的。自我训练使用实例级伪标签来增强训练，并且可以以离线方式实现：首先使用上述任何方法训练WSOD模型；然后将自信预测用作伪标签来训练最终的监督检测器。这种迭代的知识蒸馏过程是有益的，因为额外的监督模型从更少噪声的数据中学习，并且通常具有训练耗时更长的更好的架构。一些研究[45, 44, 50, 12, 60,46]研究了自我训练的端到端实现：WSOD模型在训练过程中同时计算和使用伪标签，这通常被称为在线解决方案。然而，这些方法通常只考虑最自信的预测作为伪标签。因此，它们倾向于在忽略困难部分和实例的情况下出现过拟合问题。0空间丢弃。为了解决上述问题，一种有效的正则化策略是在训练过程中丢弃部分空间特征图。空间丢弃的变体已经广泛应用于监督任务，如分类[14]、目标检测[53]和人体关节定位[48]。类似的方法也被应用于弱监督任务，以实现更好的检测[39]和语义分割[55]。然而，这些方法是非参数的，不能以数据驱动的方式适应不同的数据集。作为进一步的改进，Kingma等人[23]设计了可变丢弃率的变分丢弃，其中丢弃率在训练过程中学习。Wang等人[53]提出了一种参数化但不可微的空间丢弃，使用REINFORCE进行训练。相比之下，提出的“ConcreteDropBlock”模块具有参数化和可微的结构化新形式。0内存高效的反向传播。内存一直是一个问题，因为更深的模型[18,38]和更大的批次大小[32]往往会产生更好的结果。缓解这个问题的一种方法是通过修改反向传播（BP）算法[36]，以交换计算时间和内存消耗。一种合适的技术[24, 33,6]是在前向传播期间不存储一些中间的深度网络表示。可以通过在反向传播期间注入小的前向传递来恢复这些表示。因此，一阶段的反向传播被分为几个步骤。然而，这种方法不能直接应用于我们的模型，其中少数中间层占用了大部分内存。为了解决这个问题，我们建议对内存密集型的中间层进行批量操作。03. 背景0Bilen和Vedaldi[5]是最早基于“一站式”深度WSOD框架的开发者之一，该框架基于以下思想：c∈Cy(c) log φw(c),(2)Lroi(w) = − 1|R|ConcreteDropBlock&𝒚𝟏, *𝒕𝟏𝒇𝒘𝒈𝒘106000多实例学习。具体而言，给定输入图像I和相应的预计算[49,64]的提议R，使用经过ImageNet[8]预训练的神经网络来生成每个对象类别c∈C和每个区域r∈R的分类logits fw(c,r)和检测logits gw(c,r)。向量w包含所有可训练参数。通过以下方式获得区域r被分类为类别c的得分矩阵s(c |r)和检测到区域r属于类别c的得分矩阵s(r | c)：0s w ( c | r ) = exp f w ( c, r ) / ∑ c ∈ C exp f w ( c, r ) ，以及 s w ( r | c )= exp g w ( c, r ) / ∑ r ∈ R exp g w ( c, r ) 。0(1) 为将类别c分配给区域r的最终得分s w(c,r)通过逐元素乘积计算：s w(c, r) = s w(c | r) s w(r | c) ∈[0, 1]。在训练过程中，对于所有区域r∈R，将s w(c,r)求和以获得图像证据φ w(c) = ∑ c ∈ C s w(c, r)。0r ∈ R s w ( c, r ) 。然后通过以下方式计算损失：0L img(w) = − ∑0其中y(c)∈{0,1}是表示类别c的图像级存在的真实类别标签。对于推断，使用s w(c,r)进行预测，然后进行标准的非极大值抑制（NMS）和阈值处理。为了集成在线自训练，通常将区域得分s w(c,r)用作教师，为每个区域r∈R生成实例级伪类别标签ˆy(c,r)∈{0, 1}，[44, 50, 12, 60,46]。这是通过将得分最高的区域及其高度重叠的邻居视为类别c的正例来实现的。然后，通过以下方式训练额外的学生层进行区域分类：0c ∈ C ˆ y(c, r) log ˆ s w(c | r) , (3)0其中ˆs w(c|r)是该层的输出。在测试过程中，将使用学生预测ˆsw(c|r)而不是sw(c,r)。我们在此基础上构建并开发了两个附加的新模块，如后续所述。04.方法0图像级标签是一种有效的监督形式，可以挖掘图像之间的共同模式。然而，不精确的监督常常导致定位的不确定性。为了解决由此不确定性引起的三个挑战，我们开发了基于实例感知和上下文聚焦的框架，如图2所示。它包含一个新颖的在线自训练算法，带有ROI回归，以减少实例的不确定性并更好地利用自训练监督（第4.1节）。它还通过一种新颖的端到端可学习的“具体DropBlock”（第4.2节）减少了具有大类内方差的类别的部分主导，并且更加友好于内存（第4.3节）。0基础0Neck0学生0��。0类别概率0MIST0MIST0学生#N+10学生#N0&� �，* � �0� �0*� �0&� �0� �0图2：整体框架。为了方便阅读，ROI池化和等式（1）中的操作被抽象化了。04.1.多实例自训练（MIST）0使用在线或离线生成的伪标签[44, 41，062],自训练有助于消除定位的不确定性，主要从两个方面受益：（1）伪标签允许建模候选框级别的监督和候选框之间的关系；（2）自训练可以广泛地被视为一种教师-学生蒸馏过程，已被发现有助于改进学生的表示。在设计我们的框架时，我们考虑了以下几个维度：实例关联性：目标检测通常是“实例关联性”的：高度重叠的候选框应该被分配相似的标签。大多数用于弱监督目标检测的自训练方法忽视了这一点，而是独立地处理候选框。相反，我们将显式的实例关联性约束引入到伪框生成中。代表性：每个候选框的分数通常是其代表性的良好代理。它并不完美，特别是在开始阶段，有一种倾向于关注目标的部分。然而，该分数提供了至少定位在正确目标上的高召回率。空间多样性：对所选伪标签施加空间多样性可以作为一种有用的自训练归纳偏置。它促进了对困难对象（例如，罕见的外观、姿势或遮挡）的更好覆盖，并提高了多个实例的召回率（例如，不同的尺度和大小）。上述约束和标准激发了一种生成多样且具有代表性的伪框的新算法，这些伪框是实例关联的。具体细节请参见算法1。具体来说，我们首先对出现在类别标签中的每个类别c的候选框集合R进行排序。然后，我们选择排名靠前的p百分比的候选区域，形成一个初始候选池R�(c)。注意，候选池R�(c)的大小，即|R�(c)|是图像自适应和内容相关的，与|R|成比例。直观地说，|R|是输入图像整体目标性的有意义的先验。然后，从R�(c)中选择一组高分且不重叠的区域作为伪框ˆR(c)，使用非最大值抑制。尽管简单，但这种有效的算法在第5节中显示出了显著的性能改进。8: return ˆR(c)Lroi(w) =1|R|�r∈Rλr(Lsmooth-L1(ˆt(r), µw(r))−1|C|�c∈Cˆy(c, r) log ˆsw(c|r)),(4)𝜃𝑝#(𝑟)𝑀#(𝑟)106010算法1 多实例自训练0输入：图像I，类别标签y，候选框R，阈值τ，百分比p 输出：伪框ˆR101: 将 I 输入模型；得到 ROI 分数 s 2: for 真实类别 c do 3: R ( c ) sorted ← SORT ( s ( c, � ))//按类别 c 的分数对 ROI 进行排序 4: R � ( c ) ← R ( c ) sorted 的前 p 百分比 5: ˆ R ( c ) ← r � 0 //保存第一个区域（得分最高） r � 0 ∈ R �06: for i in { 2 ... | R � ( c ) |} do // 从第二个最高开始 7: APPEND ( ˆ R (c ) , r � i ) if IoU ( r � i , ˆ r j ) < τ , � ˆ r j ∈ ˆ R ( c )0带回归的自训练。边界框回归是在有监督目标检测中起重要作用的另一个模块，但在在线自训练方法中缺失。为了弥补这一差距，我们将分类层和回归层封装到“学生块”中，如图2中的蓝色框所示。我们使用伪标签ˆR共同优化它们。回归层预测的边界框通过µw(r)引用所有区域r∈R。对于每个区域r，如果它与伪框ˆr∈ˆR高度重叠，并且对于真实类别c，我们使用ˆr的坐标生成回归目标ˆt(r)，并标记分类标签ˆy(c, r)=1。用于训练学生块的完整区域级损失为：0其中 L smooth-L1 是[15]中使用的Smooth-L1目标函数，λr是[45]中使用的每个区域的标量权重。在实践中，当我们强制ˆy(∙,r)成为一个one-hot向量时，会出现冲突，因为同一个区域可能被选择为不同的真实类别的正样本，特别是在训练的早期阶段。我们的解决方案是使用具有更高预测分数s(c,ˆr)的类别作为伪标签ˆr。此外，获得的伪标签和提议不可避免地会有噪声。通过施加边界框回归，可以从噪声标签中正确学习，捕捉它们之间最一致的模式，并相应地改进噪声提议的坐标。我们在第5.3节中通过实验证明，边界框回归可以提高模型的鲁棒性和泛化性。0自我集成。我们遵循[45,44]的方法，堆叠多个学生块以提高性能。如图2所示，第一个伪标签ˆR1是由教师分支生成的，然后学生块N生成下一个学生块N+1的伪标签ˆRN。这种技术类似于自我集成方法[25]。04.2. 具体的DropBlock0由于类内变化的存在，现有的无监督目标检测方法常常错误地只检测有区分度的部分。0Gumbel Softmax 最大池化0图3：具体的DropBlock思想的示意图。将头等有区分度的部分置零。0对象的部分而不是其完整范围。解决这个问题的一个自然方法是鼓励网络关注上下文，这可以通过去除最具区分度的部分来实现。因此，空间dropout是一个直观的选择。然而，由于对象的具有区分度的部分在位置和大小上不同，因此纯粹的空间dropout在检测中存在局限性。提出了一种更结构化的DropBlock[14]，其中在ROI特征图上随机采样空间点作为blob中心，然后在ROI特征图上的所有通道上删除大小为H×H的这些中心周围的方形区域。最后，通过整个ROI的面积与未删除区域的面积之比对特征值进行重新缩放，这样在没有删除区域时，推理时不需要应用归一化。DropBlock是一种非参数正则化技术。虽然它能够提高模型的鲁棒性并减轻部分主导问题，但它基本上将区域视为平等。我们以对抗的方式更频繁地在具有区分度的部分进行删除。为此，我们开发了具体的DropBlock：一种数据驱动和参数化的DropBlock变体，它可以端到端地学习以删除最相关的区域，如图3所示。给定输入图像，对于每个区域r∈R，使用ROI-Pooling之前的层计算特征图ψw(r)∈RH×H。H是ROI-Pooling的输出维度。然后将ψw(r)馈入卷积残差块，生成概率图pθ(r)∈RH×H�r∈R，其中θ包含该模块的可训练参数。pθ(r)的每个元素被视为独立的伯努利变量，并且通过空间Gumbel-Softmax[20, 31]将该概率图转换为硬掩码Mθ(r)∈{0,1}H×H�r∈R。该操作是对采样的可微分近似。为了避免平凡解（例如，所有区域都被删除或某个区域一直被删除），我们应用一个阈值τ，使得pθ(r)=min(pθ(r),τ)。这保证了计算得到的掩码Mθ(r)是稀疏的。我们遵循DropBlock的方法最终生成结构化掩码并对特征进行归一化。在训练过程中，我们共同优化原始网络参数w和残差块参数θ，使用以下minmax目标函数：0w � , θ � = arg min w max θ0I L img ( w, θ ) + L roi ( w, θ ) .(5)BaseHeadImg𝓛NeckROI-P NeckNeckRFast R-CNN18.938.619.339.3Faster R-CNN21.241.521.542.1106020G n1 : 1000 ×C'H'W'0子批次10G n2 : 1000 ×C'H'W'0子批次20G b : 2000 ×CHW Img0(c) 使用 G b 更新‘Base’网络。图7：Seq-BBP：蓝色、黄色和绿色的块分别表示激活、梯度和正在更新的模块。0通过最大化原始损失相对于ConcreteDrop-Block参数，ConcreteDropBlock将学会丢弃对象最具有区分性的部分，因为这是增加训练损失的最简单方法。这迫使目标检测器也关注上下文区域。我们发现这种策略特别适用于非刚性对象类别，通常具有较大的类内差异。04.3. 顺序批量反向传播0在本节中，我们讨论如何处理训练过程中的内存限制，这是阻碍先前的WSOD方法使用最先进的深度网络的主要瓶颈。我们引入了内存高效的顺序批量前向和反向计算，专为WSOD模型设计。通过反向传播的传统训练[36]在前向传递期间存储所有中间激活，这些中间激活在计算网络参数的梯度时被重复使用。由于记忆化，这种方法在计算上是高效的，但由于相同的原因，对内存的需求很大。已经提出了更高效的版本[24，6]，在关键层的前向传递期间仅保存一部分中间激活。整个模型在这些关键层被切割成较小的子网络。在计算子网络的梯度时，首先对该子网络应用前向传递，从存储的输入关键层的激活开始，获得该子网络的中间表示。结合从较早子网络传播的梯度，计算子网络权重的梯度，并将梯度传播到较早子网络的输出。该算法设计用于内存成本在各层之间大致均匀分布的极深网络。然而，当这些深度网络用于检测时，激活（在ROI-Pooling之后）从1×CHW（图像特征）增长到N×CHW（ROI特征），其中N对于弱监督模型来说通常是数千个。没有真实边界框，所有这些提议都需要保持高召回率和良好性能（见附录E中的证据）。为了解决这个训练挑战，我们在‘Neck’子模块中提出了顺序计算，如图7所示。在前向传递过程中，输入图像首先通过‘Base’和‘Neck’，仅存储‘Base’之后的激活A b。‘Neck’的输出0方法 Val-AP Val-AP 50 Test-AP Test-AP 500WSDDN [5] - - - 11.5 WCCN [9] - - - 12.3 PCL [44] 8.5 19.40C-MIDN [12] 9.6 21.4 - - WSOD2 [60] 10.8 22.7 - -0Diba et al. [10]+SSD - - - 13.6 OICR [45]+Ens+FRCNN 7.7 17.4 - -Ge et al. [13]+FRCNN 8.9 19.3 - - PCL [44]+Ens.+FRCNN 9.2 19.6 - -0我们的（单一模型）11.4 24.3 12.1 24.80表1：COCO上的单一模型结果（VGG16）0方法提议骨干网络 AP AP 500Faster R-CNN RPN R101-C4 27.2 48.40我们的 MCG VGG16 11.4 24.3 我们的 MCG R50-C412.6 26.1 我们的 MCG R101-C4 13.0 26.30表2：COCO 2014验证集上的单一模型结果（ResNet）0然后进行第一次前向和反向传播，以更新“Head”的权重和梯度Gn，如图7（a）所示。为了更新“Neck”的参数，我们将ROI特征分成“子批次”，并依次对每个小的子批次进行反向传播。因此，我们避免了在“Neck”中存储消耗内存的特征图及其梯度。图7（b）展示了这种顺序方法的示例，我们将2000个提议分成两个包含1000个提议的子批次。梯度Gb被累积并用于通过常规的反向传播更新“Base”网络的参数，如图7（c）所示。对于测试，如果ROI的数量或“Neck”的大小过大，可以应用相同的策略。05. 实验0在详细介绍数据集、评估指标和实施细节之后，我们随后评估了我们提出的方法。0数据集和评估指标。我们首先在COCO[29]上进行实验，这是用于监督目标检测的最流行的数据集，但在WSOD中很少研究。我们使用COCO2014的训练/验证/测试划分，并报告标准的COCO指标，包括AP（在IoU阈值上取平均）和AP50（IoU阈值为50%）。然后我们在VOC 2007和2012[11]上进行评估，这是常用于评估WSOD性能的数据集。使用IoU阈值为50%的平均精度（AP）进行评估。Fast R-CNNSS66.965.7Faster R-CNNRPN69.967.0Ours-0768.8-54.9Ours-12-70.956.3WSOD2(07+12) [60]71.472.256.0Ours-(07+12)71.872.958.1Ours-Train201411.424.39.4Ours-Train201712.425.810.5∗http://host.robots.ox.ac.uk:8080/anonymous/DCJ5GA.html106030用于评估测试数据上的目标检测（Det.）准确性。我们还评估了正确的定位准确性（CorLoc.），它衡量了一个类别的训练图像中最有信心的预测框与至少一个真实框具有50%IoU的百分比。0实施细节。为了公平比较，VGG16模型的所有设置与[45,44]完全相同，除了下面提到的设置。我们在训练过程中使用8个GPU，每个设备处理一张输入图像。优化使用的是SGD。我们提出的MIST技术（算法1）中的默认p和IoU设置为0.15和0.2。对于具体的DropBlock，τ=0.3，H=3。ResNet模型与[15]完全相同。其他细节请查看发布的代码。05.1. 总体性能0VGG16-COCO。我们在COCO上与最先进的WSOD方法进行比较，结果如表1所示。我们的单一模型在没有任何后处理的情况下，大幅度超过了所有以往的方法（带有花哨的东西）。在私有的Test-dev基准测试中，我们将AP50提高了11.2（+82.3%）。对于2014年的验证集，我们将AP和AP50分别提高了0.6（+5.6%）和1.6（+7.1%）。附录A中提供了完整的结果。请注意，与第一行和第二行的监督模型相比，性能差距仍然相对较大：我们的模型平均为FasterR-CNN的56.9%。此外，我们的模型在COCO2017分割上的AP为12.4，AP50为25.8，如表4所示，这在监督论文中更常见。ResNet-COCO。ResNet模型以前从未被用于WSOD的训练和评估。尽管如此，它们是监督方法中最流行的骨干网络。原因之一是ResNet的内存消耗较大。如果没有第4.3节介绍的训练技术，使用所有提议在标准GPU上进行训练是不可能的。在表2中，我们提供了使用ResNet-50和ResNet-101对COCO数据集进行的第一个基准测试。正如预期的那样，我们观察到ResNet模型的性能优于VGG16模型。此外，我们注意到ResNet-50和ResNet-101之间的差异相对较小。VGG16-VOC。为了公平地与大多数以前的WSOD工作进行比较，我们还在VOC数据集[11]上评估了我们的方法。与最近的工作相比，表3中报告了所有单一模型的结果。对于目标检测，我们的单一模型结果在公开可用的2007测试集（+1.3 AP50）和私有的2012测试集（+1.9 AP50）上均超过了以前的方法。此外，我们的单一模型也优于所有以前的方法（例如，‘+FRCNN’：监督重新训练，‘+Ens.’：模型集成）。结合2007年和2012年的训练集，我们的模型在2007年测试集上的AP 50为58.1%（+2.1 AP50），如表4所示。附录B中提供了训练集上的CorLoc结果和每个类别的结果。由于VOC数据集较容易，因此我们首先在COCO上进行实验。0方法提议 07-AP 50 12-AP 500WSDDN [ 5 ] EB 34.8 - OICR [ 45 ] SS 41.2 37.9 PCL [ 44 ]SS 43.5 40.6 SDCN [ 28 ] SS 50.2 43.5 Yang等人[59] SS51.5 45.6 C-MIL [ 50 ] SS 50.5 46.7 WSOD2 [ 60 ] SS 53.647.2 Pred Net [ 2 ] SS 52.9 48.4 C-MIDN [ 12 ] SS 52.650.20C-MIL [ 50 ]+FRCNN SS 53.1 - SDCN [ 28 ]+FRCNN SS 53.7 46.7Pred Net [ 2 ]+Ens.+FRCNN SS 53.6 49.5Yang等人[59]+Ens.+FRCNN SS 54.5 49.5 C-MIDN [ 12 ]+FRCNNSS 53.6 50.30我们的（单一）SS 54.9 52.1 �0表3：VOC上单模型（VGG16）的检测结果。0数据拆分 07-Trainval 12-Trainval 07-Test 指标 CorLocCorLoc Det0指标 17-Val-AP 17-Val-AP 50 17-Val-AP 750表4：更多数据是否有帮助？0相对于COCO，我们与监督方法之间的性能差距较小：我们的平均性能是FasterR-CNN的78.1%。额外的训练数据。WSOD方法的最大优势是有更多的数据可用。因此，我们有兴趣研究更多的训练数据是否能改善结果。我们分别在VOC 2007trainval（5011张图像）、2012trainval（11540张图像）和两者的组合（16555张图像）上训练我们的模型，并在VOC2007测试集上进行评估。如表4（顶部）所示，性能随着训练数据的增加而持续提高。我们在COCO上进行验证，其中使用2014-train（82783张图像）和2017-train（128287张图像）进行训练，使用2017-val（也称为minival）进行测试。如表4（底部）所示，观察到类似的结果。05.2. 定性结果0在定性上，我们将我们的完整模型与Tang等人的模型[45]进行了比较。在图8中，我们展示了一组两张并排的图片，左边是基线，右边是我们的结果。我们的模型能够通过以下方式解决实例模糊问题：（1）检测以前被忽视的实例（图8左）；（2）为多个实例预测紧密和精确的框而不是一个大框（图8中）；我们的模型还能够减轻部分支配问题，因为我们的模型关注对象的完整范围（图8右）。尽管我们的模型可以大大提高得分106040缺失实例分组实例部分支配0图8：我们的模型（一对中的右图）与基线（一对中的左图）的比较。0图9：更多可视化（顶部：VOC 2007，中部：VOC 2012，底部：COCO）和一些失败案例（右侧列）。0对于更大的框（参见马的例子），预测可能仍然被一些困难情况中的部分所支配。我们使用的三个数据集的更多定性结果在图9中展示，附录C中也有展示。我们的模型能够在相对复杂的场景中检测到同一类别的多个实例（牛、羊、鸟、苹果、人）和不同类别的各种对象（食物、家具、动物）。COCO数据集比VOC更难，因为对象和类别的数量更多。我们的模型仍然能够很好地区分对象（图9底部一行）。我们还展示了一些失败案例（图9右列），可以粗略地分为三类：（1）相关部分被预测为对象的实例（手和腿、自行车轮）；（2）在极端情况下，部分支配仍然存在（模型收敛为人脸检测器）；（3）对象共现使得检测器在将海洋预测为冲浪板或将棒球场预测为球棒时产生困惑。5.3. 分析0每个模块有多大帮助？我们在表5中研究了每个模块的有效性。我们首先复现了Tang等人的方法[45]，取得了类似的结果（前两行）。应用开发的MIST模块改进了0结果显著。这与我们的观察一致，实例模糊性是WSOD的最大瓶颈。我们的概念简单的解决方案也优于改进版本[44]（PCL），后者基于计算昂贵且经过精心调整的聚类。使用MIST作为基础时，设计的ConcreteDropBlock进一步提高了性能。该模块超过了包括：（1）（ImgSpa.-Dropout）：在图像级特征上应用空间dropout；（2）（ROI-Spa.-Dropout）：在每个ROI上应用空间dropout，每个特征点独立处理。这个设置类似于[39，53]；（3）（DropBlock）：在[14]中报告的最佳DropBlock设置。0实例模糊性是否得到解决？为了验证实例模糊性是否得到缓解，我们报告了在VOC2007上针对多个IoU值（.50:.05:.95）的平均召回率（AR），每个图像给出1、10、100个检测结果（AR1，AR10，AR100），以及小、中和大目标的召回率（ARs，ARm，ARl）。我们在表6中将有无MIST的模型进行了比较，结果显示我们的方法提高了所有召回率指标。0部分占主导地位是否得到解决？在图10中，我们展示了性能相对提升最大的5个类别。�� 106050数据分割 07训练验证 07测试 12训练验证 12测试指标 CorLoc检测 CorLoc 检测0基准[45]* 60.8 42.5 - -0+ PCL [44] 62.7 43.5 63.2 40.6 + MIST无Reg. 62.9 48.3 65.1 - +MIST 64.9 51.4 66.7 -0+ Img Spa.-Dropout 64.3 51.1 65.9 - + ROI Spa.-Dropout 66.852.4 67.3 - + DropBlock [14] 67.1 52.9 68.4 - + ConcreteDropBlock 68.8 54.9 70.9 52.10表5：消融研究。(*：我们的实现)0指标 AR1 AR10 AR100 ARs ARm ARl0无MIST 18.6 30.6 32.5 8.8 25.8 38.9 有MIST 20.5 37.8 43.9 15.034.8 51.70表6：平均召回率（AR）（%）比较。0图10：使用ConcreteDropBlock时性能提升最大的五个类别。动物类别以绿色突出显示。0图11：使用不同方法和不同提议数量的ResNet-101模型内存消耗。0应用Concrete DropBlock后，在VOC 2007和VOC2012数据集上的改进。动物类别的性能提升最大，这与我们在第1节中提到的直觉相符：对于具有刚性和有区别的部分的关节类别，部分占主导地位的问题最为突出。在这两个数据集中，五个最好的类别中有三个是哺乳动物。0时空分析顺序批量BP？我们还研究了我们的顺序批量反向传播的效果。我们将输入图像的大小固定为600×600，并运行两种方法（普通反向传播和我们的子批量大小为500的方法）进行比较，使用ResNet-101。我们将提议的数量从1k增加到5k，每次增加1k，并在图11中报告平均训练迭代时间和内存消耗。我们观察到：（1）普通反向传播甚至无法承受2k个提议（在[15，5，45]中广泛使用的平均ROI数量）在标准的16GBGPU上，但我们可以轻松处理高达4k个框；（2）训练过程并没有明显减慢，我们的方法需要大约1-2倍的时间。0方法骨干网络检测 (AP) 骨干网络检测 (AP)0监督VGG16 61.7 [58] R-101 80.5 [58]0[5] VGG16 24.2 R-101 21.9 [45] VGG16 34.8 R-101 40.50我们的（仅MIST）VGG16 35.7 R-101 44.0 我们的VGG16 36.6 R-10145.70我们+流动VGG16 38.3 R-101 46.90表7：视频目标检测结果。0图12：不同p和IoU的VOC 2007结果。0比普通版本多。实际上，输入分辨率和提议总数可以更大。0MIST的稳健性？为了评估稳健性，我们在VOC2007数据集上仅使用不同的top百分比p和拒绝IoU进行基线模型和该算法的测试。结果如图12所示。最佳结果是p =0.15和IoU =0.2，我们在所有其他模型和数据集上都使用这个值。重要的是要注意，总体而言，最终结果对p值的敏感性很小，对IoU稍微大一些。05.4. 扩展：视频目标检测0最后，我们将我们的模型推广到视频WSOD，这在文献中尚未探索。我们按照监督方法，在最流行的数据集ImageNetVID[8]上进行实验。在训练期间，可以使用帧级别的类别标签。我们使用均匀采样的关键帧进行训练，遵循[63]的方法，并且评估设置也保持相同。结果报告在表7中。所提出的MIST和ConcreteDrop-Block的性能改进推广到了视频。内存高效的顺序批处理反向传播允许利用短期运动模式（即，我们使用[63]的光流）进一步提高性能。这表明视频是一个有用的领域，我们可以获得更多数据来改进WSOD。有关详细信息，请参见附录F。06. 结论0在本文中，我们解决了WSOD的三个主要问题。对于每个问题，我们提出了一个解决方案，并通过大量实验证明了其有效性。我们在流行的数据集（COCO，VOC07和12）上取得了最先进的结果，并且是首个对ResNet骨干和弱监督视频目标检测进行基准测试的研究。致谢：ZR受Yunni＆MaxinePao纪念奖学金的支持。本工作部分地得到了NSF的支持，合同号为1718221和1751206。[11] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn,and A. Zisserman.The pascal visual object classes (voc)challenge. In Proc. IJCV, 2010. 2, 5, 66, 8, 11106060参考文献0[1] P. Arbel´aez, J. Pont-Tuset, J. Barron, F. Marques, and J.Ma- lik. 多尺度组合. In Proc. CVPR , 2014. 120[2] Aditya Arun, C. V. Jawahar, and M. Pawan Kumar.基于不相似系数的弱监督目标检测. In Proc. CVPR , 2019. 2 , 6, 11 , 12 , 130[3] H. B

下载后可阅读完整内容，剩余1页未读，立即下载