基于R-CNN的弱半监督点目标检测

198 浏览量更新于2023-10-25 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9417基于R-CNN的弱半监督点目标检测张世龙1*，余卓然2*，刘丽阳3*，王新江4，周傲军4，陈凯1，41上海AI实验室2佐治亚理工3腾讯AI平台部，中国4商汤科技研究zhangshilong@pjlab.org.cn，zhuoranyu@gatech.edu，leonlyliu@tencent.com，{wangxinjiang，zhouaojun，chenkai} @ sensetime.com摘要我们研究了弱半监督点目标检测（WSSOD-P）问题，其中训练数据由一小部分带有边界框的完全标注图像和一大部分每个实例只标注一个点的弱标注图像组合而成。该任务的核心是在标记良好的图像上训练点到框回归器，该回归器可用于预测每个点注释的可信边界框。我们挑战之前的信念，现有的基于CNN的检测器是不兼容的这项任务。基于经典的R-CNN架构，我们提出了一种有效的点到盒回归器：Group R-CNN。Group R-CNN首先使用实例级建议分组来为每个点注释生成一组建议，因此可以获得高的重新调用率。为了更好地区分不同的实例并提高精度，我们提出了实例级建议分配，以取代原始R-CNN方法中采用的香草分配策略。针对单纯的实例级赋值带来的收敛困难，提出了一种基于实例感知的表示学习方法，包括实例感知特征增强和实例感知参数生成两部分。在MS-COCO基准上的综合实验证明了该方法的有效性。具体来说，Group R-CNN的性能明显优于先前的方法Point DETR，3.9具有5%良好标记图像的mAP，这是最具挑战性的场景。源代码可以在www.example.com找到https://github.com/jshilong/GroupRCNN。1. 介绍近年来，随着网络体系结构和数据集建设的发展，目标检测技术得到了很大的发展然而，先进的目标检测器通常需要大量的训练*同等贡献具有精确的边界框注释的图像，这是非常耗时和昂贵的获得。为了减轻人类标记的负担，以前的研究提出了弱监督[2，11，13，21，32]和半监督方法。ODS [8，18，24，31]用于对象检测，其采用小部分良好注释的图像以及大量弱注释的图像和未标记的图像。弱半监督对象检测（WS-SOD）[28]从两个世界中获取货物。通过用弱标记图像代替半监督检测中的未标记图像，在标记代价和模型性能之间取得了较好的平衡更进一步，具有点注释的WSSOD（WSSOD-P）用单个点标记实例，以便以最小的标记成本提供类别和位置信息。标记点的时间成本与提供图像级注释的时间成本相当[1，4]，这大大低于边界框注释。先前的工作[4]提出了以下管道来杠杆年龄点注释。（1）使用仅具有边界框注释的图像来训练点到框回归器。为了模拟将点转换为边界框的过程，在实例的边界框内随机采样点作为点注释。（2）训练后，利用回归器将弱标记图像上的点标注（3）最后，任何对象检测器都可以以监督的方式使用良好标记的图像和伪标记的图像进行训练。这项任务的核心，然后归结为设计一个准确的点到框回归。Point DETR [4]声称基于CNN的检测器作为点到框回归器表现不佳，但我们认为基于以下深入分析它并不成立一方面，我们发现之前工作中的CNN模型仅生成单个建议，其特征向量位于注释点（投影在特征图上这种建议的质量可能相当低，导致低召回率，因为注释点可能偏离对象中心，并且对于框回归来说信息量较少。到9418图1. 实例级建议分组和实例级建议分配的说明。同一组中的提案（即属于同一实例）用相同的颜色表示。(a)到（b）：实例级分组：而不仅仅是注释点，收集由足够接近（投影）注释点的所有点生成的提议(b)到（c）：实例级分配：当且仅当具有其所属实例的IoU高于预定义阈值时，建议被分配为肯定的，而不管其具有任何其他实例的IoU。为了提高任意标注点的召回率，我们提出了实例级建议分组（图1，（a）到（b）），它为每个实例生成一组建议，而不是单个建议。也就是说，将考虑特征地图上靠近注释点的点，并且从这些点生成的所有提议形成特定实例的实例级组。另一方面，如果具有任何地面真值框的最大IoU超过某个阈值，则原始建议分配策略将建议分配为正然而，当具有相同类别的对象彼此接近时（例如，在拥挤的场景中），一个组中的提议可以被分配给另一组的地面实况边界框。这样的场景在现实世界的数据集中非常常见，例如，在MS-COCO中，超过50%的图像具有这样的场景。使用这样的策略进行训练不能确保为每个点注释生成高质量的建议。因此，我们提出了实例级分配，将组中的建议仅分配给其期望的地面实况框。如果提案与相应实例的IoU较低，则提案将被视为否定，而不管其与另一实例的IoU是否可能超过阈值（图1，（b）至（c））。然而，我们发现，天真的实例分配- ment导致收敛困难，从而导致性能不如原来的分配策略。以来来自不同组的建议共享相同的特征图，并且还与相同的固定参数进行卷积，一组中的正建议和另一组中的负建议可以具有类似的卷积输出。然而，它们被分配到完全相反的优化目标，这种矛盾可能会阻碍模型收敛。为了解决这个问题，我们提出了实例感知表示学习，包括实例感知特征增强和实例感知参数生成。具体来说，我们使用点注释来计算实例感知的相对坐标，用它来构建实例感知的特征图。为了进一步区分来自不同群组的提案的特征，我们使用实例感知特征和注释点通过将实例感知特征和实例感知参数进行卷积，我们成功地缓解了朴素实例分配带来的收敛问题，并获得了更好的性能。为了突出我们的关键设计和提出的一般框架作为点到框回归器，我们将我们的回归器命名为R-CNN组。与之前基于transformer架构的最先进方法Point DETR相比，我们提出的Group R-CNN具有以下优点：（1）Group R-CNN可以利用特征金字塔网络[14]进行多尺度建议生成，而Point DETR [4]不能天真地采用FPN。(2)Group R-CNN继承了CNN的收敛优势，因此比PointDETR收敛得更好更快，特别是在低标记数据状态下[6]（详见附录）。我们在MS-COCO数据集上进行了广泛的实验，使用各种百分比的标记图像来展示Group R-CNN的有效性。Group R-CNN在不同的实验协议下比现有的基于变换器的方法Point DETR表现更好，同时只需要一半的训练芽。具体来说，当只有5%的图像被边界框很好地标记时，我们的 R-CNN 组比 Point DETR 好 3.9mAP。因此，R-CNN组实现了比先前的现有技术更好的性能和更快的收敛2. 相关工作监督对象检测。在过去的几年里，监督目标检测取得了显著的进步[3，12，15，20，26]。基于结构设计，这些目标检测器可以主要分为两级检测器和单级检测器。两阶段检测器[20]首先生成一个大的对象建议集，并在第二阶段对其进行细化。相比之下，单阶段检测器[15，17，19]直接预测具有类别的边界框，而无需细化。除了设计外，9419图2. R-CNN集团的管道。Vanilla R-CNN（上层架构）不能利用点注释，容易产生假阳性和假阴性边界框。相比之下，组R-CNN（较低的架构）通过结合相对坐标（右上）和动态组卷积（右下）来实现更高的查全率实例感知特征（右上）：为每个实例构建一个单独的特征映射，以对相对坐标进行w.r.t.它的点注释，然后是ROI池程序。实例感知参数（右下）：每个组的平均RoI特征与相应的类别嵌入连接在一起，作为线性层的输入，以生成动态组卷积的参数。在对象检测器中，多尺度对象检测是另一种流行的工作。特征金字塔网络[14]产生多尺度特征表示，可用于单阶段和两阶段对象检测器半监督和弱监督对象检测。为了降低产生用于对象检测的大规模良好标记的图像的注释成本，提出了两种流行的设置。半监督对象检测[18，22，31]用未标记的图像替换弱标记的图像，并利用伪标记来获得更好的性能。在这项工作中考虑的问题是不同于这两个经典的学习范式的点注释添加到弱标记的图像。弱监督对象检测[2，9，13，21，23，27，28]建议使用一大组弱标记图像（例如没有边界框的图像级注释）以及一小组标记良好的图像。PCL [23]采用了分组的概念，并以无监督的方式对建议进行聚类，以防止关注实例的歧视性部分。相比之下，Group R-CNN围绕人类标记点选择建议以提高召回率，这在动机和实现方面与PCL我们的方法的细节可以在第3节中找到。弱半监督点目标检测（WSSOD-P）。最近，PointDETR [4]提出了一种用于弱监督对象检测的新注释格式，其添加了点注释作为弱注释的新形式。为了利用点注释，Point DETR引入了基于transformer的点到框回归器，将点注释转换为边界框注释，以便可以训练实际对象检测器。然而，当训练数据不足时，基于transformer的模型通常会出现收敛问题[6]，这通常是WSSOD-P的情况（详见附录）。相比之下，我们为这项任务设计了一个基于卷积的回归器，这被先前的工作认为是具有挑战性的[4]。动态参数生成。动态参数生成已被用于各种计算机视觉任务9420例如图像分类[5，29，30]和实例分割[25]。这项工作背后的关键思想是根据输入动态调整网络参数。我们提出的动态组卷积的灵感来自于这些现有的工作，我们建议为每个实例级提案组生成卷积参数。据我们所知，这是第一次在WSSOD-P设置下实现这样的想法。3. 组R-CNN在本节中，我们首先回顾了带有点注释的弱半监督对象检测（WSSOD-P）问题。接下来，我们提出我们的新框架Group R-CNN作为这项任务的解决方案。3.1. 背景WSSOD-P的问题提出使用具有实例级注释的良好标记的图像的一小部分来训练对象检测器（例如，边界框和类标签）和丰富的弱标记图像，每个实例只有一个单点注释。与香草弱监督对象检测，点注释提供了有意义的位置信息的实例，而不引入太多的标签成本。解决这个问题的常见流水线[4]是：（1）使用具有边界框注释的良好标记图像训练点到框回归器（2）为具有点注释的图像生成伪边界框，以及（3）使用良好标记和伪标记图像的组合训练对象检测器该任务的核心是设计一个有效的点到框回归器，将点注释转换为可信的伪边界框注释。为了设计更好的点到框回归器，我们提出了GroupR-CNN，这是一种基于CNN的点到框翻译任务架构。Group R-CNN继承了Cascade R-CNN [3]中的多阶段架构，该架构由提案生成阶段和提案细化阶段组成。我们将在下一节中详细介绍我们的架构的新颖设计3.2. 实例级提案使用基于CNN的框架作为点到框回归器的先前尝试使用实例的投影注释点的特征来生成单个提议，这可能导致由不准确的点注释导致的较差的召回率。为了提高召回率，我们提出了实例级建议分组（图3），它将由靠近某个注释点的特征点生成的建议聚合起来形成一个组。该策略基于这样的见解，即对应于高质量建议的特征图上的点通常接近于特征图上的注释点的投影。具体地说，我们在投影的anno周围收集k个特征点图3. 实例级提案由与投影注释点相邻的点生成的方案形成单个组。这些点可以存在于多个组中。在特征金字塔的每个级别上的站点。由这些km点产生的建议然后形成针对给定实例的组，其中m是FPN中的级别的数量。每个小组最终产生nkm建议，其中n是RPN中每个点具有不同尺度和纵横比的锚的数量所提出的实例级建议分组从注释点周围的相邻点收集信息，从而可以提高召回率，并且对不准确的注释点更具鲁棒性。3.3. 实例感知表示学习实例级建议分配。为了实现高查全率，同时重新训练高精度，回归器是supposed产生一个准确的边界框为每个点注释。因此，我们只输出单个组中具有最高预测分数的一个提案。然而，经典R-CNN架构中的普通设计很难实现这样的目标，特别是当具有相同类别的对象彼此相邻时（拥挤场景问题）。首先，在训练中，利用香草分配策略，如果提案具有任何地面真值框的最大IoU大于预定义的阈值，则提案被视为积极的，否则被视为消极的。然而，当同一类的对象彼此接近时，一个组内的建议可能会与另一个实例的地面实况边界框相匹配，并最终损害精度。为了解决这个问题，我们提出了实例级分配，使得某个组的pro-boundary只能被分配给该组的相应的ground-truth边界框。如果它们之间的IoU 并且对应的实例低于阈值，即使它们可能达到具有另一组的真实边界框的IoU阈值。然而，拥挤场景问题不能通过朴素实例级分配来解决（如表1所示）。以来9421×J·J≤ ≤−≤ ≤−=F（jj，C）（1）图4.具有相同类别的重叠实例的说明。所有四个提案都属于较高的长颈鹿组。对于实例级赋值，只有建议A和C被视为肯定。然而，建议D暴露了与小长颈鹿组的阳性的高水平由于不同组中的提案共享特征金字塔，并且使用共享的网络参数来处理这些特征，因此对小长颈鹿组中的积极提案和高长颈鹿组中的消极提案的预测彼此相似，这导致模型训练中的混乱。不同组中的建议共享相同的特征金字塔，并且网络还使用R-CNN头的共享参数来处理这些特征，一组中的正建议和另一组中的负建议可以具有类似的处理结果，但是被分配给完全相反的优化目标（如图4所示），这导致模型训练的困难。为了解决这个困难，我们从两个不同的方面提出了我们的解决方案：通过相对坐标编码的实例感知特征增强和动态组卷积的实例感知参数表1.初始实例级赋值失败。这两种方法都配备了实例分组，并在NMS后为每组输出最高预测得分的地图AP@50AP@75香草分配36.661.537.7实例分配34.260.234.9以编码相对于其点注释的坐标偏移fij=[xij，xij]T，其中xij和xij表示索引i，j处的每个像素相对于相应点注释的坐标偏移。特征f也遵循每个提议的相同RoI池化过程，然后与普通RoI池化特征连接，如图2所示。由于每个组的坐标不同，即使它们具有相似的外观，也会为不同的组生成实例感知的RoI特征，这在拥挤的场景中并不实例感知参数生成。我们引入实例感知模型参数，以便在不同的组中的建议的特征表示，可以进一步多样化。尽管单个提案可能具有与另一组的地面实况边界框更大的IoU，但对于组中的大多数提案，最大IoU仍然是通过相应的地面实况实例实现的。因此，我们计算一个组中所有ROI特征的平均值作为实例的表示。更具体地说，我们首先收集一组中所有提案的ROI特征，并对它们应用空间平均池来产生矢量化特征。然后，我们计算这些特征的平均值以形成实例表示。此外，为了更好地利用点注释的类别信息，我们引入形状为C256的类嵌入矩阵，其中C是类的数量。该嵌入矩阵与其他模型参数一起优化。实例类的嵌入然后，我们将动态生成的参数与上述实例感知建议特征进行卷积，以在实例级分配的上下文中产生分类分数。该过程在图2的右下角组件中示出，并在等式（1）中总结，其中0我N1和0jG1。N和G分别是实例的数量和组的 f i是第i个实例组中第j个提案的实例感知特征，f j′ i是对应的实例感知特征。响应动态群卷积的输出特性Pi是第i个群的生成参数，Ci是群i的范畴嵌入。F（）表示具有可学习参数的线性投影动态组卷积是高阶变换，因为参数是从平均提议特征生成的，这使得来自不同组的特征更具区分性。fj′i=fi<$Pi实例感知功能增强。实现实例感知特征增强，我们引入相对萨夫一世坐标编码具体来说，我们利用了一个先验，即接近点注释的建议应该有更高的机会被分配给这个实例。具体地说，对每一实例构造了一个特征映射f∈RH× W×2iGi动态卷积可以有效地实现为组卷积，其中组的数量通过P9422将实例感知特征与实例感知参数进行卷积，我们有效地增加了实例之间的区分度。生成的卷积层用于处理特定组中提案的RoI特征。分类和回归头在我们的动态组卷积之后附加，以预测最终的类预测和回归偏移。4. 实验数据集。我们在MS-COCO [16]数据集上评估了Group R-CNN的性能。MS-COCO包含118 k个带有边界框注释的训练图像和5 k个用于验证的图像。我们从训练集中随机抽取不同百分比的图像，固定随机种子0作为我们的良好标记集，其余的作为带有点注释的弱标记集。为了用标记良好的图像训练我们的点到框回归器，我们在每次迭代时在实例的边界框内随机采样点，并使用边界框作为优化目标。在训练之后，我们在带有点注释的弱标记图像上运行回归量的推理过程。根据先前的工作[4]，我们通过从对象的实例掩码中随机采样一个点来合成弱标记图像的点注释。我们还在Pascal VOC [7]上评估了我们的方法，结果见附录。体系结构详细信息。Group R-CNN构建在CascadeR-CNN [3]之上，并用作WSSOD-P任务中为了更好地利用点注释的类别标签，我们采用类感知检测器Reti-naNet [15]作为我们的区域建议网络（RPN）。在原有RetinaNet的基础上，我们使用P3到P7的特征金字塔来提取区域建议.请注意，Reti- naNet在提取区域建议时进行类级预测，而原始RPN仅生成Faster R-CNN [20]中的对象性得分对于第二阶段的ROI池，我们放弃了P7，只使用P3到P6作为候选日期。对于建议改进，使用具有三个阶段的普通Cascade R-CNN头。每个阶段有两个共享的FC层和两个独立的FC层，分别进行回归和分类。除非另有说明，否则模型超参数设置为默认值[3]。RPN基于类别预测得分对来自具有相同类别的所有组的提案运行非最大抑制（NMS），IoU阈值为0.7，并且每组中仅保留至于最终的预测结果，我们只选择NMS后每组中精度得分最高的提案。在我们的动态组卷积中，为了简单起见，我们总是将生成的内核大小设置为1实施详情。为了公平的比较，我们...尽可能降低点DETR [4]的训练设置。为了训练我们的Group R-CNN，我们使用8个RTX 2080 Ti GPU，每个GPU有2个图像。我们的数据增强策略也与Point DETR完全相同虽然我们的图5. 与Point Detr比较。我们的方法consietly优于点DETR，特别是有限的良好标记的图像。当使用50%标记良好的图像时，用我们的方法产生的标记良好的图像和伪标记图像训练的FCOS模型与用100%标记良好的图像训练的监督基线紧密匹配建议的Group R-CNN与Point DETR [4]具有不同的整体架构，我们使用ResNet-50 [10]作为我们的骨干，这与Point DETR一致。我们使用0.02的学习率。我们使用SGD作为优化器，动量为0.9，权重衰减为1e−4。培训设置的唯一区别是培训计划。点DETR用108个epoch训练回归器，并在第72和第96个epoch应用学习率衰减。我们的训练时间表比Point DETR短得多，我们只训练了50个epoch的Group R-CNN，并在第30和40个epoch降低了学习率。4.1. 与Point DETR我们还遵循Point DETR的评估设置，在那里我们用标记良好的图像和弱标记图像的推断来训练我们的点到框回归器Group R-CNN。作为最后一步，我们用良好标记的图像和弱标记的图像训练FCOS检测器FCOS的训练设置遵循标准的1x训练计划，例如与标准监督训练设置中相同的超参数。我们在图5中报告了FCOS检测器的性能，这表明Group R-CNN在所有不同的良好标记分数下都优于Point DETR，特别是当良好标记的图像有限时。我们发现，标记得越好的图像越少，Group R-CNN就越优于Point DETR。具体来说，在最具挑战性的情况下，当只有5%和10%的图像标记有边界框，我们实现了3.9 mAP和2.3 mAP，分别改善。此外，Group R-CNN只需要Point DETR的50%训练时间就可以实现如此大的改进。当9423×使用50%标记良好的图像进行训练，使用Group R-CNN生成的伪标记图像训练的FCOS实现了与使用100%标记良好的图像训练的模型相当的性能这表明，我们可以在很大程度上缩小弱半监督检测和监督检测之间的差距，只有点注释。4.2. 消融研究为了说明我们提出的组件的有效性，我们进行了广泛的消融研究。在我们所有的消融研究中，R-CNN组使用10%标记良好的图像进行训练。为了消除干扰因素，并证明我们提出的组件上的点到框回归的有效性，我们报告的COCO验证集与固定点注释的测试结果。换句话说，我们只评估点到框回归器的性能，而不是用产生的伪标记图像训练对象检测器在本节中，我们仅用24个epoch训练我们的Group R-CNN，因为它已经足以显示我们设计的有效性。表2.不同群体规模的影响结果在IoU=0.5时计算ARARsARmARl无分组80.461.186.895k= 182.775.086.091.6k= 390.685.193.796.9K= 692.586.195.898.9K= 992.384.895.599.2实例组的大小。回想一下，我们在特征图的每个级别上选择投影注释点周围的k个点，并将输出建议作为一个组收集我们使用不同的k值进行实验，以研究实例组的大小如何影响我们的点到框回归的召回率。对于没有提案分组的基线，我们对IoU=0.7的所有提案运行NMS，并选择具有最高分类分数的前1000个对于提案分组，我们在NMS之后为每个组平均而言，COCO的每张图像因此，我们的方法产生7 .第一次会议。2750 = 363。五是预期。所示如表2所示，当采用实例分组时，我们的RPN的性能得到了显著的改善。通过实例分组，虽然该模型只产生了约30%的建议，与模型相比，没有实例分组，AR提高了10%以上。此外，当k从1增加到3时，性能进一步提高。虽然k越大，结果越好，但k>3并不能大幅提高查全率。因此，为了更好的性能-复杂度权衡，我们选择k= 3作为Group R-CNN的默认选择。表3.消融研究：相对坐标地图AP@50AP@75无相对坐标35.761.037.0w/相对坐标37.164.138.1表4.额外投影层的影响。#项目层地图AP@50AP@75034.260.234.9135.761.037.0235.860.936.9335.760.636.7实例级分配。现在，我们将实例级建议分配与普通建议分配进行比较。对于香草分配策略，我们将具有最大IoU且任何地面实况边界框大于预定义阈值的提案分配为正。三个阶段的IoU阈值分别设置为0.5、0.6和0.7，遵循级联R-CNN的故障设置[3]。在最后阶段应用具有0.5的IoU阈值的NMS，并且仅保留每个组的具有最高类别分数的专业人员对于实例级赋值，我们使用与普通赋值相同的IoU阈值。然而，我们发现，直接应用实例级分配导致收敛困难。尽管R-CNN细化阶段是用实例级赋值训练的。RPN仍然通过香草任务进行训练。然后RPN和R-CNN将对FPN有冲突的要求。因此，我们首先将FPN从R-CNN头中分离出来，以阻止反向传播的梯度。然后，我们在FPN上添加额外的投影层，以生成指定用于R-CNN的单独FPN。我们比较了使用不同数量的投影层的效果，结果如表4所示。我们展示了额外的投影卷积层的有效性，以处理与分离策略的功能。使用一个额外的投影层将mAP提升1.5，而更多的投影层不会导致进一步的改善。因此，我们只需使用一个额外的投影层，使额外的计算开销是最小的。实例感知功能增强的有效性。如表3所示，当使用相对坐标时，mAP从35.7提高到37.1。如所讨论的，尽管来自不同实例组的提议可以共享相似的外观，但是在给定（地面实况）对象位于图像中的不同位置的先验的情况下，利用相对坐标增强提议特征赋予提议区分实例的能力。实例感知参数生成的有效性。表5显示了生成卷积时的结果9424表5.类别嵌入（CE）和RoI特征（RoI-Feat.）的影响关于动态群卷积在基线中，37.1 AP，所有ROI均未通过动态卷积进行细化CERoI-Feat.地图AP@50AP@75✓37.138.564.164.738.139.9✓38.264.539.7✓✓39.265.741.0表6.在拥挤和非拥挤场景中，具有实例级分组的vanilla R-CNN与Group R-CNN之间的比较数据集方法地图AP@50AP@75拥挤的54k图像香草组∆32.235.4+3.256.962.5+5.632.435.8+3.4非拥挤的52k图像香草组∆46.948.5+1.673.975.0+1.150.752.7+2.0参数与RoI功能，类别嵌入，以及两者的串联，分别。显然，生成具有RoI特征和类别嵌入的参数大大优于仅使用单个组件。此外，使用常规卷积层代替我们的动态组卷积仅实现38.0 mAP（未包括在表中），无论在参数生成中使用什么特征，这都比动态组生成因此，我们的动态组卷积是Group R-CNN的关键设计在所有实验中，我们总是将内核大小设置为1，因为使用更大的内核大小（如3）只能提供边际改进（内核大小等于3时为39.5 mAP）。与Vanilla Assignment比较。在现实世界的数据集中，同一类的对象具有重叠是非常常见的。例如，超过50%的MS-COCO图像包含拥挤的场景。我们比较了Group R-CNN和vanilla R-CNN在拥挤场景和非拥挤场景下的实例分组性能。在90%的弱标记图像上对模型进行了评估。表6显示，R-CNN组（具有我们提出的实例级分配、实例感知特征增强和实例感知参数生成）分别显著优于基线 3.2 mAP 和 1.6 mAP 。很明显，Group R-CNN在拥挤的场景中表现得特别好，这很好地支持了我们方法的动机。4.3. 可视化结果我们对验证数据集进行了定性分析，并将我们的点到框重新检测的检测结果图6. 通过Group R-CNN（我们的）和vanilla R-CNN可视化预测的伪边界框。Group R-CNN在点到框回归任务中实现了高精度和高召回率，确保为每个点注释生成一个准确的边界框。相比之下，vanilla R-CNN即使使用点注释也无法捕获大量实例。gressor Group R-CNN与vanilla R-CNN的比较。如图6所示，每个边界框都由一个点注释（用相同的颜色表示）生成。Vanilla R-CNN产生了许多边界框，这些边界框在很大程度上与其他实例重叠，从而导致低的重新调用率。相比之下，Group R-CNN成功地为大多数点注释生成了边界框，即使在具有相同类别对象的拥挤场景中也是如此。5. 确认本课题得到了上海市科学技术委员会（批准号：20DZ1100800）的资助。6. 结论我们提出了Group R-CNN，这是一种基于CNN的点到框回归器，用于弱半监督对象检测任务。Group R-CNN利用实例级建议分组和实例级表示学习（通过实例感知特征增强和实例感知参数生成）来提高召回率和精度。通过这些新颖的设计，Group R-CNN的性能大大优于现有的基于transformer的回归器，特别是在标记良好的图像有限的情况下。9425引用[1] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。重点是什么欧洲计算机视觉会议，第549-565页。施普林格，2016年。1[2] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议论文集，第2846- 2854页，2016年。第1、3条[3] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：Delv- inginto high quality object detection.在IEEE计算机视觉和模式识别会议论文集，第6154-6162页，2018年。二四六七[4] Liangyu Chen ， Tong Yang ， Xiangyu Zhang ， WeiZhang，and Jian Sun.点作为查询：通过点进行弱半监督对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第8823-8832页一二三四六[5] Yinpeng Chen，Xiyang Dai，Mengchen Liu，DongdongChen ， LuYuan ， andZichengLiu.Dynamicconvolution：注意卷积核。在IEEE/CVF计算机视觉和模式识别会议论文集，第11030-11039页，2020年。4[6] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al. An image is worth16x16 words ： Trans- formers for image recognition atscale. arXiv预印本arXiv：2010.11929，2020。二、三[7] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010。6[8] Jiyang Gao，Jiang Wang，Shengyang Dai，Li-Jia Li，and Ram Nevatia.注-rcnn：用于半监督对象检测的噪声容忍集成rcnn。在IEEE/CVF计算机视觉国际会议论文集，第9508- 9517页1[9] 高伟、方婉、潘星佳、彭志良、田琦、韩真君、周伯磊、叶启祥。TS-CAM：用于弱监督对象定位的令牌语义耦合注意力图IEEE/CVF计算机视觉国际会议论文集，第2886-2895页，2021年。3[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。6[11] 杰泽群，魏云超，金小杰，冯佳世，刘伟。用于弱监督对象定位的深度自学学习。在IEEE计算机视觉和模式识别会议论文集，第1377- 1385页，2017年。1[12] 黑律和贾登。Cornernet：将对象检测为成对的关键点。在欧洲计算机视觉会议论文集（ECCV）中，第734-750页，2018年。2[13] Xiaoyan Li ， Meina Kan ， Shiguang Shan ， and XilinChen.弱监督目标检测与分割颜色精细化。在IEEE/CVF计算机视觉，第97351、3[14] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页，2017年。二、三[15] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年二、六[16] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco：上下文中的公共对象。欧洲计算机视觉会议，第740Springer，2014. 6[17] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。2[18] Yen-Cheng Liu ，Chih-Yao Ma ，Zijian He ，Chia-WenKuo， Kan Chen ， Peizhao Zhang ， Bichen Wu ， ZsoltKira，and Peter Vajda.无偏见的教师半监督对象检测。arXiv预印本arXiv：2102.09480，2021。第1、3条[19] 约瑟夫·雷德蒙和阿里·法哈迪Yolo9000：更好，更快，更强。在IEEE计算机视觉和模式识别会议论文集，第7263-7271页2[20] 任少卿、何开明、罗斯·格尔希克、孙健。Faster r-cnn ： Towards real-time object detection with regionproposal networks.神经信息处理系统的进展，28：91-99，2015。二、六[21] 施妙静、霍尔格·凯撒、维托里奥·法拉利。弱监督的对象定位使用的东西和东西的转移。在IEEE计算机视觉国际会议论文集，第3381-3390页第1、3条[22] Kihyuk Sohn ， Zizhao Zhang ， Chun-Liang Li ， HanZhang，Chen-Yu Lee，and Tomas Pfister.一个简单的用于对象检测的半监督学习框架。arXiv预印本arXiv：2005.04757，2020。3[23] Peng Tang，Xinggang Wang，Song Bai，Wei Shen，Xiang Bai，Wenyu Liu，and Alan Yuille.Pcl：用于弱监督对象检测的建议聚类学习。IEEE Transactions onPattern Analysis and Machine Intelligence，42（1 ）：176- 191，2018。3[24] Yuxing Tang，Josiah Wang，Boyang Gao，EmmanuelDel-landr e´ a，RobertGaizauskas，andLimingChen. 使用视觉和语义知识转移的大规模在IEEE计算机视觉和模式识别会议论文集，第2119- 2128页，2016年。1[25] 智天，春华，陈昊。用于实例分割的条件卷积。在计算机视觉-Springer，2020年。49426[26] Zhi Tian ， ChunhuaShen ， Hao Chen ， and Tong He.Fcos：完全卷积的一阶段对象检测。在IEEE/CVF计算机视觉，第9627-9636页，2019年。2[27] 方晚，刘畅，魏柯，季向阳，焦建斌，叶麒翔。C-mil：用于弱监督对象检测的连续多实例学习。在IEEE/CVF计算机视觉和模式识别会议上，第2199-2208页，2019年3[28] 严子昂，梁健，潘伟申，李进，张长水.基于期望最大化算法的弱监督和半监督目标检测。arXiv预印本arXiv：1702.08740，2017年。第1、3条[29] Brandon Yang ， Gabriel Bender ， Quoc V Le ， and Ji-quan Ngiam. Condconv：用于高效推理的条件参数化卷积。arXiv预印本arXiv：1904.04971，2019。4[30] Yikang Zhang ， Jian Zhang ， Qiang Wang ， and ZhaoZhong. Dynet：用于加速卷积神经网络的动态卷积。arXiv预印本arXiv：2004.10694，2020。4[31] Qiang Zhou，Chaohui Yu，Zhibin Wang，Qi Qian，andHao Li. Instant-teaching：一个端到端的半监督对象检测框架。在IEEE/CVF计算机视觉和模式识别会议论文集，第4081-4090页第1、3条[32] Yi Zhu，Yanzhao Zho

下载后可阅读完整内容，剩余1页未读，立即下载