弱监督目标检测中监督的补救：一个弥合WSOD和FSOD差距的新方法

119 浏览量更新于2023-10-25 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14227弱监督目标检测中监督的补救张晨琳1，2吴建新1*1南京大学软件新技术国家重点实验室24Paradigm Inc.，中国北京{suilin0432，zclnjucs，wujx2001} @ gmail.com摘要弱监督目标检测（WSOD）是近年来备受关注的一个问题。然而，缺乏边界框监督使得其准确性远低于完全监督对象检测（FSOD），并且目前现代FSOD技术不能应用于WSOD。为了弥合WSOD和FSOD之间的性能和技术差距，本文提出了一个新的框架，监督补救（SoS），其核心思想是利用WSOD中的每个潜在有用的监督信号：弱图像级标签，伪标签和半监督对象检测的能力。本文提出了有效利用这些弱噪声信号的新方法，并表明每种类型的监督信号都带来了显著的改善，大大优于现有的WSOD方法（主要只使用弱标记）。所提出的SoS-WSOD方法还具有自由使用现代FSOD技术的能力SoS- WSOD在VOC 2007上达到64.4mAP50，在VOC 2012上达到61.9m AP50，在MS-COCO上达到16.6mAP50：95消融和可视化进一步验证了SoS的有效性。1. 介绍具有精确注释的大规模数据集在开发检测算法中至关重要，但获得成本高昂。因此，弱监督对象检测（WSOD），它只需要训练图像上的图像级标签，这些天很受欢迎。 WSOD 借鉴了全监督对象检测（FSOD）的思想，例如对象建议[2，33]和Fast-RCNN框架[10]。但是现代FSOD已经放弃了外部对象的建议，并开发了更好的技术，如Faster-RCNN [24]和FPN[20]。此外，目前的WSOD方法大多使用VGG 16 [28]作为主干，Fast-RCNN [10]作为*J. Wu是通讯作者。本研究得到国家自然科学基金项目61772256和61921006的部分资助。探测器，这限制了精度和速度。也就是说，由于缺乏详细的框级注释，WSOD无法享受来自FSOD的进度。事实上，已经表明现代FSOD技术，如ResNet back-bones和RoIAlign甚至会使WSOD检测器恶化[27]。通过采用多实例识别设置，弱图像级标签通常是WSOD中用于对象检测的唯一超级信号[4]。在本文中，我们认为，WSOD必须努力利用每一个潜在的监督信号源，并应找到一种方法来利用FSOD的进展。所提出的监督救助（ SoS ）框架（ SoS-WSOD）如图1所示，它有3个阶段。阶段1使用任何WSOD方法训练检测器，我们提出了改进的OICR [32]作为我们的阶段1。阶段2是伪FSOD，其中困难在于生成良好的伪框级注释以便提升性能并采用更新的FSOD技术（例如，[13][14][15][16][17][18][19]来挽救监督权这个问题在WSOD中基本上被忽略了，我们提出了一个简单而有效的解决方案。第三阶段是我们提出的SSOD阶段，将整个数据集分为“干净”和“有噪声”的部分，然后将有噪声的部分视为未标记的部分也就是说，我们通过创建半监督对象检测（SSOD）问题来挽救其他有用的因此，我们通过设计新的算法来生成高质量的伪盒级标签，并通过创建一个半监督学习问题，分别从弱标签中拯救了监督与现有的WSOD方法相比，我们的SoS-WSOD不仅利用每一个潜在的有用的监督信号，但也使WSOD充分享受现代FSOD方法的准确性和速度的好处。虽然伪FSOD已经尝试过[6，9，32，41]，但我们将证明SoS-WSOD挽救了更高质量的伪监督。因此，我们的贡献是：我们提出了SoS-WSOD，一个新的WSOD框架，表明我们必须利用WSOD中所有潜在的监督信号：为FSOD生成高质量的伪注释，并处理生成的伪注释。·14228D···∈∈图1. SoS-WSOD管道。第一阶段训练一个只有图像级标签的弱监督检测器。我们设计PGF来过滤其检测结果，并在第2阶段生成高质量的伪框级注释，这使我们能够训练一个完全监督的检测器。第三阶段将训练集分成将数据集标记为噪声数据集以利用SSOD。我们表明，虽然现有的WSOD方法远远落后于FSOD的精度和技术方面，它是非常有益的和可行的，以填补这一空白。我们的伪FSOD享有的所有现代FSOD技术在WSOD的好处，并实现了更高的精度和更快的速度。我们大幅提高了WSOD的准确性，达到64.4VOC2007上的mAP50， VOC2012上的61.9mAP50，以及16.6米 AP50：95在MS-COCO上。此外，SoS-WSOD还具有快速的检测速度。2. 相关工作弱监督目标检测（ WSOD ）弱监督对象检测（WSOD）试图在训练期间仅给定图像级标签来检测多个对象的位置和类型。WSOD方法通常利用目标建议和多实例学习（MIL）框架。WSDDN [4]是第一个将MIL集成到端到端WSOD中的。OICR [32]提出了伪地面实况挖掘和在线实例细化分支。PCL [31]聚类建议以改善伪地面实况挖掘，C-MIL [34]改善了MIL损失。最近，MIST [25]改变了OICR的伪地面实况挖掘规则，并提出了一个具体的DropBlock模块。[27] Zeng等人[ 27]使ResNet [13]主干在WSOD中工作。CASD[14]提出了自蒸馏，同时注意改善WSOD。一些方法[5，7，42]建议在完全注释的COCO-60数据集的帮助下提高WSOD检测器性能。一些方法试图将现代FSOD技术引入WSOD [26，27]。一些方法使用WSOD方法的输出（伪框注释）来用FSOD重新训练WSOD模型。W2F [41]提出了一种伪地面实况挖掘和伪地面实况适配模块，用于挖掘大型和完整的对象以进行再训练。然而，他们直接重新训练WSOD模型，而不考虑生成的伪标记中的任何噪声。数据集肯定会非常嘈杂。相比之下，我们建议重新考虑具有噪声标签训练视角的伪标签数据集，并利用半监督学习范式来挤压更好的伪标签。半监督目标检测（SSOD）。SSOD用一小组带有框级注释的图像加上许多没有任何标签的图像来训练检测器。与WSOD相比，SSOD的方法较少。SSM [35]将未标记数据的高置信度补丁CSD [15]使用一致性和背景消除。最近，STAC [29]对未标记数据使用了强数据增强。Liu等人 [22]使用了教师-学生框架，ISMT [37]使用了平均教师。然而，这些方法需要标记和未标记数据的精确分割，以及标记图像的无噪声框级注释，但所有这些都在 WSOD 中不可用。我们将从 SoS-WSOD中前一级的噪声输出中生成它们用嘈杂的标签学习。由于深度神经网络需要大量的注释，因此使用噪声标签训练DNN也引起了人们的广泛关注，特别是在图像分类方面。一些人[30，38]提出了通过使用网络预测来重新标记噪声样本的迭代方法。[1，23]重点是重新加权。此外，将损失较小的样品视为清洁样品也是许多工作中常用的方法，如[11，18]。在SoS-WSOD中，我们采用了小损失的思想来分割第二阶段的噪声输出，将数据分为3. 监管救助记法。我们首先定义我们的符号。训练集w由训练图像I tr和图像级注释L tr组成。具体地，Itr中的每个图像xRh×w×3具有对应的标签y =[y1，y2，yC][0，1]C，其中C是对象类别的总数。我们将在不使用任何额外注释的情况下训练检测器W final。概况. 算法1是SoS-WSOD的流水线。我们首先训练一个WSOD检测器Wwsod，它通过tr生成伪边界框。这些伪苏-WSOD检测结果PGF标记数据集拆分特别联大数据集FSOD未标记伪地面实况标签··14229≥算法1监督补救输入：训练图像Itr和图像级类标签Ltr，测试图像Ite1：训练WSOD模型Wwsod，并为训练图像生成伪地面实况边界框btr2：使用Itr和btr来训练完全监督的对象检测器Wfull3：将Itr分解为具有伪boxesbtr的标记子集Itr和未标记子集It′r4：使用Wfull进行初始化，并在Ltr，Itrr（带btr）和It′r上学习半监督Wfinal5：返回：使用Wfinal预测测试图像的边界框及其类标签使用透视信号来训练FSOD模型WFull，其可以使用现代FSOD技术。然后，我们将生成的伪标记数据集视为噪声数据集。利用我们提出的分裂规则，它被分裂成一个未标记的子集和一个“ 干净 ” 的标记子集（那些图像具有置信伪 box es ），该子集由 I t ′ r和 bt ′ r组成。最后，我们采用SSOD方法在伪标记数据集上训练最终检测器W final。3.1. 阶段1：改进WSOD传统的WSOD检测器启动该过程。除了给定的图像级注释Itr之外，大多数WSOD方法使用外部对象建议R作为额外的输入。其中，OICR [32]的流水线被广泛使用，它首先选择少量最有信心的对象建议R***作为基础建议，然后通过过滤和添加边界框回归分支来细化它们我们建议通过两个简单的变化来改进OICR，作为我们的第一阶段。首先，最近的工作[19，25，31，39]证明了更好的建议挖掘规则对于获得更高的对象召回率至关重要例如，MIST [25]建议挖掘更多彼此之间重叠较少的提案。我们发现，MIST可以捕获更多的对象，但也会挖掘大量的错误建议，而OICR能够挖掘准确的建议，但忽略了许多groundtruth instances。因此，我们引入了一个挖掘规则，它在召回率和精度之间取得了平衡。此外，受CASD [14]的启发，我们发现即使不使用反向注意和CASD的自我注意转移，多输入技术也是有帮助的。更多细节见附录。我们建议的WSOD（第1阶段）是一个强有力的基线（参见秒4）.然而，我们也将证明SoS-WSOD也可以通过在第1阶段采用较弱的WSOD基线来实现出色的性能。3.2. 阶段2：FSOD如果我们能够从阶段1的检测器Wsod输出在一定程度上准确的伪边界框btr，则[32]是第一个通过选择每个类的前一个检测结果作为伪地面实况标签来重新训练WSOD检测器的人，但它会错过大量对象，特别是对于MS-COCO这样的复杂数据集。作为图2. W2F [41]（顶部）和PGF（底部）的比较。W2F倾向于在复杂的场景中生成集群对象。将在第节的消融中显示4、遗漏的目标会被当作背景处理，甚至会降低检测精度。W2F [41]提出了伪地面实况挖掘（PGE）和伪地面实况适应（PGA），以从WSOD输出生成伪地面实况。然而，W2F只处理VOC数据集，每个图像的对象数量很少，并且对象通常很W2F中的这两个模块都是为了挖掘大型完整对象而设计的，不适合一般的检测。图2显示了W2F倾向于将多个对象聚集到一个伪框中。相反，我们提出了一个简单但有效的算法，称为伪地面实况过滤（PGF），从阶段1的WSOD模型生成高质量的伪框对于每个groundtruth类，我们只保留得分最高的预测和那些具有高置信度的预测（tkeep，第6行）。然后，我们删除了大多数包含在同一类别中的其他提案中的微小提案（第8-10行）。Af-在SoS-WSOD中，我们能够使用PGF来监督和训练完全使用现代FSOD方法的FSOD检测器W（例如，更快-RCNN [24]+ FPN [20]）。请注意，我们的伪FSOD阶段的影响是双重的。首先，重新训练的WSOD检测器从这些挽救的监督信号中获得精度和速度增益。此外，现在我们能够使用几乎所有的现代FSOD技术，以前不适用于WSOD。换句话说，WSOD检测器现在具有选择WSOD中所需的大多数骨干和架构的灵活性，而无需采取大量努力（例如，如[27]。14230我我|v|L算法2伪地面实况滤波（PGF）输入：具有输入图像（阶段1的输出）的分数S的框P及其活动标签yi ，. . .，y m，keep threshold tkeep，containment threshold t con输出：伪地面实况box esP1：P=2：对于i = l，. - 是的- 是的，m do3：Si=S[i，：] //获取第i个活动类的分数4：indmax，Smax=max（Si）//获取排名靠前的提案5：Pmax=P[indmax，：]//获取顶部提议的边界框因此，很难简单地基于所有提案的所有损失的总和来决定图像是否干净。我们遵循小损失的想法，但修改它的对象检测。当然，我们希望专注于前景对象，因此我们提出了以下简单的分割过程。在Faster-RCNN中，感兴趣区域（ROI，表示为R）根据ROI和伪地面实况框之间的IoU被划分为前景ROI和背景ROI。然后，我们不计算背景ROI的损失，而是累积不同前景ROI的RPN损失和ROI损失（分类和回归分支）。聚集损失是输入图像的分割损失：6：删除所有的建议，其分数0。20的情况。101SoS-WSOD00的情况。031用于生成提议的时间总是远长于每个图像0.2秒，例如，8.3 s/img 用于选择性搜索[33]，而我们的SoS-WSOD不需要生成外部提案。因此，SoS-WSOD不仅比基线WSOD方法快得多，而且还消除了生成外部提案的时间。最后，我们在图4中提供了MS-COCO上检测结果的可视化。这些结果表明，SoS-WSOD算法在复杂的环境下也能挖掘出更多的正确目标VOC 2007和 MS-COCO的其他可视化结果见附录。5. 结论和备注在本文中，我们提出了一个新的三阶段框架称为救助监督弱监督的对象，利用PGF生成的伪地面实况，然后自由地使用现代FSOD的技术。最后，第三阶段将生成的伪标记数据集视为带有噪声标签的数据集，并提出了一种新的标准将图像分为标记和未标记子集，因此可以使用半监督检测来挤压有用的监督信号，以进一步提高检测性能。在VOC 2007、VOC 2012和MS-COCO上的大量实验和可视化结果通过成功地利用现代FSOD方法，SoS-WSOD也可以具有比以前的WSOD方法更快的检测速度。但由于其局限性，SoS-WSOD与FSOD相比仍存在较大的性能差距，尤其是在COCO上。由于缺乏完全注释的框级注释，我们需要在未来挽救更多的监督信号。但是，SOS-WSOD仍然存在部分支配、实例丢失和实例聚集等问题，这些问题在WSOD中普遍存在在未来，我们将继续探索解决常见的WSOD问题，并为WSOD任务开发更好的规则来分割数据集和更强大映射50映射5014237引用[1] 埃里克·阿拉索，迭戈·奥尔特戈，保罗·阿尔伯特，诺埃尔·无监督标签噪声建模和损失校正。ICML，第312-321页。PMLR，2019年。2[2] 巴勃罗·阿贝·拉伊兹、乔迪·蓬-图塞特、乔纳森·T·巴伦、费兰·马克斯和吉滕德拉·马利克.多尺度组合分组在CVPR，第328-335页，2014年。1[3] Aditya Arun，CV Jawahar和M Pawan Kumar。基于相异系数的弱监督目标检测.在CVPR中，第9432-9441页，2019年。6[4] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在CVPR，第2846-2854页，2016年。一、二[5] Tianyue Cao ， Lianyu Du ， Xiaoyun Zhang ， SihengChen，Ya Zhang，and Yan-Feng Wang. CaT：弱监督对象检测与类别转移。在ICCV中，2021年出版的页面二、六[6] Ze Chen，Zhihang Fu，Rongxin Jiang，Yaowu Chen，and Xian-Sheng Hua. SLV：Spatial Likelihood Voting forWeakly Supervised Object Detection弱监督目标检测的空间似然投票。在CVPR中，第12995-13004页，2020年。1、6[7] 董博文，黄梓桐，郭跃林，王启龙，牛振兴，左旺梦。通过学习边界框调整器增强弱监督对象检测在ICCV中，2021年出版的页面。二、六[8] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.PASCAL视觉对象类（VOC）挑战。IJCV，88（2）：3035[9] 高岩、刘博笑、南郭、叶小春、方晚、游海航、樊东瑞C-MIDN：具有分割指导的耦合在ICCV，第9834- 9843页，2019年。1、6[10] 罗斯·格希克。快速R-CNN。在ICCV，第1440-1448页，2015中。1[11] Bo Han，Quanming Yao，Xingrui Yu，Gang Niu，MiaoXu，Weihua Hu ，Ivor Tsang，and Masashi Sugiyama.Co-teaching：对具有极强噪声标签的深度神经网络进行鲁棒训练。arXiv预印本arXiv：1804.06872，2018. 二、四[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面罩R-CNN。在ICCV，第2961-2969页，2017年。1[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。一、二[14] 黄泽一，邹阳，B. V. K. Vijaya

下载后可阅读完整内容，剩余1页未读，立即下载