稀疏监督的点云3D对象检测方法：SS3D

101 浏览量更新于2023-10-26 收藏 3.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8428SS3D：稀疏监督的点云刘传东1，2高晨强1，2* 刘芳岑1，2刘江3孟德宇4，5高新波11重庆邮电大学通信与信息工程学院2重庆市信号与信息处理重点实验室，重庆3Meta，门洛帕克，美国4西安5澳门科技大学澳门系统工程研究所，澳门摘要用于3D对象检测的传统的基于深度学习的方法需要大量的3D边界框注释用于训练，这在实践中获得是昂贵的。稀疏标注的对象检测可以大大减少标注，但由于缺少标注的实例会被视为背景，因此具有很大的挑战性训练推理输入输入输入在训练期间。在本文中，我们提出了一种稀疏监督的三维物体检测方法，命名为SS3D。为了消除标注缺失带来的负面监督，设计了一个标注缺失实例挖掘模块，采用严格过滤策略挖掘正面实例。同时，我们设计了一个可靠的PV-RCNN我们的模型完全监督稀疏监督注释地面实况预测边界框PV-RCNN模型预测预测背景挖掘模块和点云填充数据增强策略，以生成用于在可靠监督下进行交互式学习的可靠数据。建议的SS3D是一个通用框架，可用于学习任何现代3D物体探测器。在KITTI数据集上的大量实验表明，在不同的3D检测器上，与完全监督方法相比，仅需要20%注释的SS3D框架可以实现同等的性能。与KITTI上最先进的半监督3D对象检测相比，我们的SS3D在相同的注释工作量下显著提高了基准。此外，我们的SS3D还以显着的幅度超过了最先进的弱监督方法，突出了其有效性。1. 介绍三维（3D）对象检测，旨在从3D传感器数据（例如，LiDAR点云），由于其在自动驾驶中的多样化应用而*通讯作者。图1.演示完全监督方法和我们的方法所需的注释。左边的例子显示了PV-RCNN [16]的训练阶段，这是一个高性能的检测器，具有完整的注释作为输入，而我们的模型只为每个场景注释一个实例。右边的例子显示了PV-RCNN和我们的模型的预测结果，表明我们的模型达到了与完全监督方法相当的性能。增强/虚拟现实和室内机器人。最近，已经提出了许多基于体素或逐点特征的方法[1，17，18，34，35]，并且在大规模基准数据集上实现了高性能[2，21]。然而，大多数提出的3D对象检测器需要完全监督学习，这意味着模型学习需要完全注释的数据集。与2D图像对象相比，注释3D点云对象更加劳动密集型：注释者必须在整个3D场景中切换视点或放大和缩小，以标记每个3D对象。因此，开发具有同等检测性能的3D检测器，同时仅需要轻量级对象注释，是实际应用中需要解决的有意义的问题。8429最近，很少有作品[10，15，24，26，33]被提出来解决这个问题。在[10]中，采用了弱监督学习策略。具体而言，点注释方案用于减少注释边界框的负担。然而，由点注释提供的监督信息是弱的，使得必须另外提供一定量的完整注释，以便实现最佳性能。在[24，33]中，使用了半监督学习策略，其中只有部分数据集被注释，其余未标记。教师-学生框架被用来将信息从标记数据转移到未标记数据。然而，当标记数据和未标记数据之间的差距很大时，信息传递往往是无效的。此外，尽管仅对数据集的一部分进行了注释，但标记单个场景仍然需要不可忽略的劳动，特别是对于具有许多3D对象的拥挤场景，如图1所示。在本文中，我们采用稀疏注释策略，只注释场景中的一个3D对象，如图1的左侧所示。通过这种方式，我们能够为每个场景获得一个3D对象的完整监督信息。直观地说，这有助于学习关于未标记对象的信息，因为场景内信息传递比跨场景知识传递容易得多。然而，稀疏注释的对象检测也提出了新的挑战：丢失注释的实例将带来不正确的监督信号（即，作为负样本）来扰乱网络的训练。在训练过程中，由于缺少注释的实例及其附近的区域可能被错误地标记为背景，当梯度反向传播时，网络更新的权重将被严重误导。通过利用2D对象之间的重叠或层次关系信息，在2D稀疏对象检测方法[11，27]中已经解决了这一挑战。然而，这样的信息可能在3D数据集中不存在，在KITTI [2]中，这阻碍了将这种方法直接应用于3D应用。为了解决这个问题，我们提出了一种新的和有效的方法，稀疏注释的三维物体检测，即SS3D，它可以应用于任何先进的三维检测器。我们的SS3D的主要思想是以高置信度迭代地挖掘阳性实例和背景，并进一步使用这些生成的数据来训练3D检测器。我们设计了两个有效的模块，即缺失标注实例挖掘模块和可靠背景挖掘模块，分别用于挖掘可靠的缺失正实例和背景。这确保了3D探测器能够使用可靠的监督数据进行训练。通过这种设计，与使用完全注释的数据集训练的3D检测器相比，我们的SS3D可以达到相当的性能，其中对于稀疏注释的数据集仅需要20%的注释。概括起来，我们的贡献如下：• 我们提出了一种新的方法，稀疏注释的三维物体检测点云，它可以作为一个通用的框架来训练任何现有的三维全监督检测器。据我们所知，这是探索3D对象检测任务的稀疏注释策略的第一项工作。• 我们设计了两个有效的模块来分别挖掘可靠的遗漏正例和背景，从而确保了3D检测器能够使用可靠的监督数据进行训练。• 实验结果表明，我们的方法与稀疏注释可以实现相当的性能与全监督的方法和高度执行的最先进的半监督和弱监督的3D对象检测方法。2. 相关工作2.1. 全监督3D物体检测现有的3D检测方法可以大致分为两种类型：基于体素的方法[4，5，28，34，35]和基于点的方法[12，17，19，29，30，32]。对于基于体素的方法，体素化是不规则点云应用传统2D或3D卷积的常用措施。在voxelNet [36]中，采用体素特征编码层从点云中提取统一的特征表示。第二[28]通过修改稀疏卷积算法[3，7]有效地从3D体素中提取特征。TANet [8]利用堆叠的attention模块来利用多级特征关系。Part-A² [18]提出了一个两阶段网络，通过对对象内部分特征进行分组来探索空间关系。SE-SSD [35]采用了一对教师和学生检测器来提高性能，而不会在推理中引入额外的计算。Voxel R-CNN [1]设计了一个体素RoI池，直接从3D体素特征体积中聚合空间上下文。基于点的方法直接将原始不规则点作为输入来提取局部和全局特征[13，14]。PointRCNN [17]融合了从自下而上的方式生成的3D提案中提取的特征和原始点，以进行细化。STD [30]提出了一种新的球形锚点来减少锚点的数量，并利用稀疏到密集的思想来提高性能。3DSSD [29]提出了一种基于特征距离的融合采样策略，用于丰富的信息保存。PV-RCNN [16]利用体素到关键点场景编码和关键点到网格特征聚合来提高性能。虽然先前的工作已经取得了重大进展，并显示出令人印象深刻的性能，但这些结果深深依赖于大规模的手动注释，8430迭代学习初步培训检测器可靠的后台挖掘模块稀疏注释数据破碎场景注释的地面实况缺少注释的实例缺少注释的实例挖掘模块…实例银行点云填充数据增强可信数据图2.我们的SS3D管道缺少标注的实例挖掘模块查找缺少标注的实例并存储到实例库中。可靠背景挖掘模块利用实例库进一步获得具有可靠背景的破碎场景。然后使用点云填充数据增强策略来生成用于迭代学习检测器的置信数据耗时且劳动密集。我们提出的方法采用稀疏注释策略，只为每个场景注释一个对象，同时实现与这些全监督方法相当的性能。此外，无论是基于体素还是基于点的检测器，我们的SS3D都可以直接应用。2.2. 弱/半监督3D物体检测为了减少3D对象的注释，WS3D [24]中采用了弱监督学习策略，该策略通过基于点击注释方案的两阶段架构实现。WS3D [10]在阶段1中通过点击注释场景生成圆柱形对象提案，并在阶段2中使用轻微的良好标记实例对提案进行细化以获得长方体。然而，由弱监督点注释提供的监督信息是弱的，使得必须另外提供一定量的全注释。同时，基于VoteNet [12]，SESS [33]首先提出了一种半监督的3D对象检测，它利用了一个相互的教师-学生[22]框架来实施三种一致性损失。在SESS之后，提出了3DIoUMatch [24]来估计3D IoU作为定位度量，并设置自调整阈值来过滤伪标签。与这些方法不同的是，我们提出的方法使每个场景中存在的对象的监督信息精确，这使得我们能够在场景内传递可靠的监督信息。直观地说，这将优于跨场景传输监督信息，特别是对于变化很大的场景。2.3. 稀疏监督的2D目标检测稀疏标注对象检测是减少网络对数据标注依赖的另一种方法，数据标注仅标注部分对象。由于部分实例缺少注释，当梯度反向传播时，网络的权重更新可能会被严重误导。为了解决这个问题，现有的先进的方法，ods对感兴趣区域的丢失采用重新加权或重新校正策略，以消除未标记实例的影响。软采样[27]利用ROI和注释实例之间的重叠来重新加权损失。基于焦点损失[ 6 ]的背景重新校准损失[31]将未标记的实例视为硬阴性样本并重新校准其损失，这仅适用于单级探测器。特别是，部件感知采样[11]通过使用人类对标记和未标记实例之间的层次关系的直觉，忽略了部件类别的分类损失。联合采矿[25] 联合生成模块，用于将未标记的实例转换为正监督。上述稀疏注释的对象检测方法都是针对2D图像对象的。由于2D图像和3D点云之间的模态差异，这些方法不能应用于我们的3D目标检测任务。例如，在KITTI [2]中，3D对象是自然分离的，这意味着对象之间的重叠为零，并且对象之间不存在层次关系。与重加权和重校准方法相比，本文提出了一种新的稀疏标注三维物体检测方法，该方法利用一个缺失标注实例挖掘模块和一个简单但有效的背景挖掘模块来挖掘出可信的正实例和背景，这是训练高性能检测器的关键。3. 方法3.1. 总体框架作为一个通用框架，所提出的SS3D旨在促进3D检测器的学习，以在基于稀疏注释数据集从头开始训练时获得最佳检测性能。如图2、提出的SS3D主要由缺失标注实例挖掘模块、可靠背景挖掘模块、点云填充数据扩充模块、8431BnnNn- -B伪实例训练数据x检测器预测pt增强预测预测之后pt抑制全球扩增IoU引导的抑制实例银行基于分数的过滤…Augme nte dD atapalex检测器预测pb过滤预测缺少注释的实例挖掘模块图3.我们提出的缺失注释实例挖掘模块的说明。训练数据和相应的增强数据是检测器的两个不同输入。然后，我们利用基于分数的过滤来去除原始训练数据的增强预测和具有低置信度分数的增强数据的预测此外，提出了IoU引导的抑制来过滤低质量的预测。最后，我们将剩余的预测作为伪实例存储在实例库中。和实例库。给定一个3D检测器，最初，我们在稀疏注释的数据集上从头开始训练检测器。然后，我们使用检测器，通过缺失标注实例挖掘模块，采用严格的过滤策略，从训练数据中的点云中挖掘出可靠的缺失标注实例。我们将挖掘的实例（或- ange颜色）和原始注释的实例（红色）存储到实例库中。在实例库的基础上，通过可靠背景挖掘模块，进一步利用检测器进行可靠背景的挖掘。基于这两个模块的结果，我们利用所提出的点云填充数据增强来构建一个可靠的数据集，该数据集可进一步用于重新训练检测器。通过这种迭代学习方式，我们最终可以获得高性能的3D检测器。详情介绍如下。3.2. 探测器的结构该方法是一个用稀疏标注数据集训练三维目标检测器的通用框架，可直接应用于各种检测器。在本文中，我们使用PointRCNN [17]，Part-A2 [18]，PV-RCNN [16]和Voxel的最先进的3D检测器验证了我们的SS 3D。RCNN [1].本文以PV-RCNN为例，对该方法进行了简要的回顾。PV-RCNN是一种高性能和高效的两阶段点云检测器，通过新颖的体素集抽象模块将多尺度3D体素卷积神经网络（CNN）特征和基于PointNet++的集抽象特征深度集成到一小组关键点。3.3. 缺少注释的实例挖掘模块如图3所示，我们设计了一个缺失注释实例挖掘模块，该模块结合了IoU引导的抑制和基于分数的过滤方案，作为挖掘未标记阳性实例的增强措施作为高质量的伪实例。然后，将选定的伪实例存储在实例库中，以进一步指导可靠背景挖掘模块。如图3所示，首先，原始输入点云x通过顶部检测器以生成预测pt。然后，我们执行一组全局增强，其包括在x上的随机旋转、缩放和缩放以生成增强的点云x，in，与p t同步以产生增强的预测p，t，并且底部检测器基于x，t生成预测p，b。最后，我们设置一个分类置信度阈值τcls，过滤掉可能包含错误类别的pb和pt的预测，然后获得过滤后的预测。IoU引导的抑制请注意，只有基于分数的过滤策略无法获得可靠的预测。受FixMatch [20]的启发，我们进一步提出了一种有效的IoU引导抑制策略。在我们得到过滤后的预测后，我们计算来自pt和p b的每对边界框之间的IoU矩阵，旨在匹配来自不规则点云的两个预测的框。然后，我们过滤出IOU小于阈值τ IoU的不匹配的成对边界框，从而进一步提高伪实例的质量。最后一步实例库处理结合基于分数的过滤和IoU引导的抑制，可以有效避免低质量伪实例的生成，并能有效地提高计算效率。最后得到一组边界边界边界，其中N和r是训练场景和边界框的数量分别留在一个场景中。然后，我们计算索引为n的同一场景的box esbr和bB（从实例库中包围box es）之间的IoU，并选择不与bBn重叠的r。最后，选择的边界框（橙色）以及相应的预测类标签和点云存储在实例库中，该实例库还包含所有稀疏注释的8432BBBLL可靠的背景选择…训练数据检测器近似重复预测可靠的后台挖掘模块破碎场景实例银行图4.我们提出的可靠的背景挖掘模块的说明。首先，我们将原始点云馈送到没有NMS的检测器，以产生近似重复的预测，并利用存储在实例库中的实例来过滤不可靠的对象点。这将导致破碎的场景，通过点云填充策略进一步处理姿态（红色）。通过这种设计，随着网络的迭代，我们的实例库可以存储越来越多的正例，指导可靠背景挖掘模块挖掘出更多的可靠背景。3.4. 可靠的后台挖掘模块依靠更新后的实例库，我们利用所提出的可靠背景挖掘模块来挖掘背景点，并进一步消除由于缺少注释的实例而导致的负面监督信息。与现有的不正确监督的重新缩放策略[11，31]相比，我们的方法更简单有效。如图4所示，为了得到可靠的背景点云，我们采用尽可能寻找潜在前景点的策略具体来说，我们使用具有低置信度分数阈值τl的检测器来获得对象检测结果。同时，我们从检测器中删除了通过这种方式，我们确保结果尽可能包含潜在的前点，这意味着原始点云的其余部分往往是可靠的背景点云。为了生成新的训练数据，我们删除了检测到的对象的3D边界框内的点数据，这些点数据与实例库中的实例不重叠。3.5. 点云填充数据增强经过可靠的背景选择处理后，点云场景被打破。同时，场景中的实例可能非常稀疏。这些问题将严重降低网络的性能。通过[28]提出的地面实况（GT）采样增强，我们进一步提出了点云填充数据增强策略来解决这些问题。对于每个剩余的边界框，我们从实例库中随机选择一个边界框，并将相应的点云放置在所选边界框内剩余边界框的中心，如果所选边界框不与破碎场景中的外部边界框重叠。然后，我们杠杆年龄的GT采样增强[28]，以进一步增强当前的场景。最后得到合并后的点云算法1我们的SS3D算法。输入：在稀疏注释的训练数据D上从头开始训练的检测器F，实例库，低分数阈值τ1，迭代学习次数M，训练时期E;1：对于m=1，2，...，Mdo2：对于D中的点云x，3.在x上进行缺失标注挖掘;4：更新实例银行 ;5：结束6：对于e=1，2，...，Edo7：对训练数据D中的点云进行平移;8：对于小批量DkinDdo9：对于Dk中的点云x，10：P=F（x，W），具有τ1且无NMS;11：boxgt=来自x的盒子;12：对于P中的框i，13：如果IoU（boxi，boxgt）= 0，则14：删除x中框i内的点;15：如果结束16：结束17：点云填充x上的数据增强;18：结束19：计算Dk上的损失;20：通过以下公式更新检测器F的权重W：21：结束22：结束二十三：端输出量：更新重量参数W有可靠的正面事例和可靠的背景。通过这种设计，我们可以修复之前删除点所造成的密度不均匀，同时，更多的地面真值盒也减少了每个场景中只有少量实例稀疏注释时对网络的负面影响。通过前面的处理，可能对网络造成负面影响的模糊点被大量去除，包括那些丢失注释的实例和未注释的实例。8433方法数据汽车- 3D检测汽车- BEV检测Cyclist - 3D检测自行车- BEV检测容易Mod硬容易Mod硬容易Mod硬容易Mod硬1. [17]第十七话充分88.8878.6377.3890.2187.8985.5186.1369.7065.4087.1673.4767.612. [17]第十七话稀疏（20%）63.7153.7451.8774.0369.7066.2373.8362.8158.2675.8665.4260.263.我们的（基于PointRCNN）稀疏（20%）87.1877.1076.1389.7487.4185.7186.6273.2266.9287.2174.2771.544. 改进2→ 15. 改进3→ 1---25.17-1.70-24.89-1.53-25.51-1.25-16.18-0.47-18.19-0.48-19.28+0.20-12.30+0.49-6.89+3.52-7.14+1.52-11.30+0.05-8.05+0.80-8.90+3.931.第二部分[18]充分89.4779.4778.5490.4288.6187.3185.5069.9064.4886.9273.3570.772.第二部分[18]稀疏（20%）72.9264.4160.4979.3875.3871.8174.5263.3958.9176.2366.2661.913. 我们的（基于Part-A2稀疏（20%）89.2683.1078.4190.0987.7387.2585.1571.7469.2187.1174.6071.814. 改进2→ 15. 改进3→ 1---16.55-0.21-15.06+3.63-18.05-0.13-11.04-0.33-13.23-0.88-15.50-0.06-10.98-0.35-6.51+1.84-5.57+4.73-10.69+0.19-7.09+1.25-8.86+1.041. PV-RCNN [16]充分89.3583.9078.7090.0887.9087.4086.0669.4764.5088.5273.3270.362. PV-RCNN [16]稀疏（20%）76.3866.6766.0982.2478.5072.8074.6561.4056.9477.1965.2060.093.我们的（基于PV-RCNN）稀疏（20%）89.4979.3078.2890.4587.9887.0088.0170.3567.4089.7272.3370.144. 改进2→ 15. 改进3→ 1---12.97+0.14-17.23-4.60-12.61-0.42-7.84+0.37-9.40+0.08-14.60-0.40-11.41+1.95-8.07+0.88-7.56+2.90-11.33+1.20-8.12-0.99-10.27-0.221. Voxel-RCNN [1]充分89.4184.5278.9390.2188.2887.77------2. Voxel-RCNN [1]稀疏（20%）65.7057.0557.5671.6770.0963.60------3. 我们的（基于体素RCNN）稀疏（20%）89.3084.2878.2390.3288.4287.47------4. 改进2→ 15. 改进3→ 1---23.71-0.11-27.47-0.2421.37-0.70-18.54+0.11-18.19+0.14-24.17-0.30------------表1.与在KITTIval split上使用全注释和极稀疏分割（全注释的20%实例）训练的不同检测器的比较3D物体检测和鸟瞰由我们的missing-annotated实例挖掘模块挖掘。此外，还生成了可靠的数据，这些数据提供了重要的监督信息，以便以迭代方式重新训练检测器。算法1总结了我们的SS3D。4. 实验4.1. 数据集和评估指标遵循最先进的方法[4，8，17，18，34，35]，我们在KITTI 3D 和 BEV 对象检测基准 [2] 上评估了我们的SS3D。这是一个广泛用于性能评估的流行数据集，包含用于3D对象检测的完整注释。有7，481个样本用于训练，7，518个样本用于测试，我们进一步将训练样本分为3，712个样本的训练分割和3，769个样本的val分割作为惯例[16]。此外，由于阻塞和截断水平，KITTI基准在评估中有三个困难水平：容易、中等和困难。在[31]中生成稀疏注释的数据集之后，我们在每个3D场景中随机保留一个注释对象，以从训练分割中生成极其稀疏的分割。与KITTI上所有对象的全an-注释相比，极稀疏的分割只需要用20%的对象进行注释。为了公平的比较，我们报告了40和11个召回位置的mAP，对于三个类别：汽车，行人和骑自行车的人，分别具有0.7，0.5，0.5的3D重叠阈值。4.2. 实现细节首先，我们以监督的方式训练我们的检测器，遵循具有极稀疏分裂的PCDet [23]，并保持8434ΣΣ4 4与使用的检测器相同的监督损失在训练阶段，我们采用ADAM优化器和余弦退火学习率[9]，批次大小为8，用于6个epoch。在可靠背景选择中，我们将低分阈值τ l设为0.01. 对于基于分数的过滤和IoU引导的抑制，我们将置信分数阈值τ cls和IoU阈值τIoU设置为0.9。请注意，我们将迭代学习的次数设置为M=10。在我们的全局增强中，我们以0.5的概率沿X轴和Y轴随机地缩放每个场景，然后以[0. 八，一。2]。最后，我们以从− π，π采样的随机角度围绕Z轴旋转点云。4.3. 与最先进方法的与完全监督方法的比较我们将所提出的方法与四种最先进的完全监督方法进行了比较： PointRCNN [17] ， Part-A2 [18] ， PV-RCNN [16]，Voxel-RCNN [1]，分别具有完全注释的训练分裂和极稀疏的训练分裂，其中这些在极稀疏分裂上训练的检测器用作我们方法的初始检测器。不同方法的结果见表1。1.一、从表中可以看出，由于缺少注释实例的负面影响，在极稀疏分裂上训练的四个检测器的性能平均下降超过10%。我们的方法显着提高了这些检测器的性能，使它们接近结果表明，该方法在挖掘缺失标注实例和可靠背景方面具有良好的效果。我们的SS 3D预测结果的可视化是IL-8435××数据方法（基于PV-RCNN）汽车- 3D检测Pedstrian - 3D检测骑车人- 3D检测容易Mod硬容易Mod硬容易Mod硬半百分之一[24]第二十四话89.076.070.837.031.729.160.436.434.3稀疏-1%我们的SS3D96.288.186.961.758.754.585.662.858.4半百分之二[24]第二十四话-78.7--48.2--56.2-稀疏-2%我们的SS3D98.2889.288.367.562.361.090.172.268.3表2.在1%或2%标示数据下，与KITTIval分割的3DIoUMatch进行比较我们的SS 3D和3DIoUMatch都基于PV-RCNN。我们报告了40个召回位置的mAP，分别在汽车，行人和骑自行车的IoU阈值0.5，0.25，0.25下数据方法车容易3D检测Mod硬weakly*+534precisely#WS3D [10]84.0475.1073.29我们的（基于体素RCNN）88.8578.5376.92534精确#我们的（基于PointRCNN）85.5975.8573.93我们的（基于Part-A288.6778.1776.86我们的（基于PV-RCNN）88.2978.0776.77表3.与WS3D在KITTIval split上的比较。我们报告了11个召回位置的mAP。‘*’ denotes the scenes with center-click and ‘如图5所示。为了更好地查看结果，我们将3D点云的预测投影到相应的彩色图像上。从图中可以看出，该方法具有高质量的预测结果。与半监督方法的比较我们将所提出的方法与基于先进检测器PV-RCNN [ 16 ]的半监督方法3DIoUMatch [24]进行了比较。为了进行公平的比较，我们还采用PV-RCNN作为检测器，并保持所有方法具有相同数量的注释对象进行训练。在KITTI列车分割中，有3，712个场景，这些场景总共包含17，289个汽车、行人和骑自行车的对象。对于半监督方法，1%的标记数据意味着37（37121% ）个场景，其中包括用于训练的平均172（172891%）个标记对象。以便对于在我们的极稀疏分割中的1%标记数据，我们随机选择包括172个标记对象的172个场景用于训练。我们还测试了这两种方法的2%标记训练数据的情况。不同比例标注数据的结果见表1。 2，这表明我们的SS3D在三个类别的所有三个难度水平下的表现明显优于当前最先进的3DIoUMatch。与3DIoUMatch相比，我们的网络更大的优势是在训练过程中只使用了172个场景。我们放弃了剩余的场景，而3DIoUMatch则使用列车分割中的所有3712个场景进行信息传输。在弱监督方法中，WS3D [10]，500个带有中心点击标签的场景和534个精确注释的实例用于训练网络。由于标准检测器不适用于中心单击标签，因此我们仅使用相同的534个精确注释的实例来训练我们的图5.我们的SS 3D（基于PV-RCNN）在KITTIval数据集上的定性结果。汽车、骑自行车者和行人的地面实况3D边界框以绿色、黄色和青色绘制，重新显示。我们将预测的边界框设置为红色，并将点云中的框投影到彩色图像上以进行可视化。建议使用SS3D。选项卡. 3显示了比较结果。此外，我们的SS3D与不同的3D探测器实现了所有困难水平的最高结果，以更少的标记努力大幅优于WS3D。4.4. 消融研究在本节中，我们将介绍一系列消融研究来分析我们在SS3D中提出的模块的效果。遵循一般原则，所有模型都在KITTI极稀疏分裂上训练，并在val分裂上进行评估。由于训练速度快，我们采用Voxel-RCNN [1]作为我们的检测器进行消融研究，我们与其他检测器的方法相似。选项卡. 4总结了我们的IoU引导抑制（IoU-GS）、基于分数的滤波（Score-BF）、可靠背景挖掘模块（RBMM）和点云填充数据增强（PCFD）策略的消融结果。所有结果都有11个召回点。可靠的后台挖掘模块的效果第一行的标签。4，我们删除了所有模块，因此它代表了标准的Voxel-RCNN检测器，非常稀疏的分裂。在第二部分中，我们增加了RBMM，并用GT抽样代替PCFD [28].此外，实例库只包含稀疏注释的实例，而不进行更新。我们可靠的后台挖掘模块8436IoU-GS 评分-BFRBMMPCFD汽车-3D检测容易Mod硬- ---65.7057.0557.56- -C-86.8378.0375.32- -CC87.4278.1275.72- -C键CC88.5782.7876.12C-CC88.2783.9577.68C CCC89.3084.2878.23表4.不同组件对我们设计的SS3D网络的影响我们报告了11个召回位置的mAP。显著提高了所有三个难度级别的性能。这表明，挖掘可靠的背景可以有助于更好地消除由缺少注释的实例引起的负监督。点云填充数据扩充策略的效果在Tab的第34、通过结合RBMM和PCFD，我们的SS3D进一步提高了性能。这表明我们的PCFD优于GT采样数据增强，因为由于先前的点去除操作，它可以固定原始点云的结构信息。缺少注释的实例挖掘模块的效果如表4和表5中的第4行和第54、无论是单独使用IoU-GS还是Score-BF进行伪实例填充，都比单独使用可靠的后台挖掘模块有一定的改进，说明更多的正实例有助于更好的模型优化。此外，通过将IoU-GS与Score-BF相结合以获得高质量的伪实例，我们的SS 3D将简单，中等和困难的性能分别提升了约1.88，6.16和2.51个百分点，如第3行和第6行所示。这验证了联合过滤策略的有效性，也表明了高质量伪实例对网络的重要性。4.5. 质量分析在本节中，我们将探索SS3D如何在极稀疏分裂上进行训练，并进一步分析实例库中伪实例的质量。图6中的曲线示出了在训练过程期间，所生成的伪实例的覆盖率在缺失注释的实例上增加。这里，预设阈值的覆盖率意味着可以将伪标签与大于阈值的IoU配对的缺失注释实例的百分比[24]。从图6中可以看出，由于过滤机制比较严格，伪实例的覆盖率在一开始比较低随着训练的进行，改进的检测器导致更高的过滤器通过率，从而提高伪实例的覆盖率，这反过来又为SS3D提供了动力。在训练结束时，IoU@0.7的覆盖率可以达到0.75，这意味着我们的网络有效地挖掘了75%的未标记实例。图6.KITTI上极稀疏分裂训练过程中的伪实例覆盖率4.6. 限制原则上，完全监督方法的性能是我们SS3D的天花板。然而，在Tab。1、在某些情况下，我们的方法甚至超过了全监督方法，这可能是因为我们的方法可以挖掘原始数据集中的一些缺失注释实例，而这些缺失实例可能会对全监督方法的训练产生负面影响。在未来的工作中，我们计划验证上述假设。5. 结论在本文中，我们提出了一种新的方法，称为SS3D，迭代学习的3D对象检测器从稀疏注释的点云。通过我们的缺失注释实例挖掘模块和可靠背景挖掘模块的结合，我们在很大程度上确保了每个场景在相对训练检测器时都拥有可靠的监督信息，从而消除了稀疏注释策略中缺失注释实例的负面影响。此外，我们的SS3D是一种通用方法，可用于学习任何高级探测器。大量的实验验证了我们提出的方法的有效性，只有20%的注释，其中我们的网络取得了令人印象深刻的结果，这是接近的检测器训练与完全注释的数据集。此外，我们的方法超过了目前的半监督和弱监督的方法在KITTI的大幅度。致谢此工作是支持部分由国家重点研发计划（2020 YFA0713900）资助，部分由国家自然科学基金资助（62176035、61906025、61721002、U1811461和62036007），部分由重庆市教育委员会科学技术研究计划（ KJZD-K202100606）资助，澳门科技发展基金（061/2020/A）资助。8437引用[1] Jiajun Deng ， Shaoshuai Shi ， Peiwei Li ， WengangZhou，Yanyong Zhang，and Houqiang Li.体素r-cnn：面向高性能的基于体素的3d目标检测。在AAAI，第35卷，第1201-1209页一二四六七[2] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.Vision meets robotics：The kitti dataset.Int. J. 罗伯Res. ，32（11）：1231一、二、三、六[3] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在CVPR中，第92242[4] Chenhang He ， Hui Zeng ， Jianqiang Huang ， Xian-Sheng Hua，and Lei Zhang.基于点云的结构感知单阶段三维物体检测在CVPR中，第11873二、六[5] Alex H Lang，Sourabh Vora，Holger Caesar，LubingZhou，Jiong Yang，and Oscar Beijbom.Pointpillars：用于从点云检测对象的快速在CVPR中，第12697-12705页，2019年。2[6] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在ICCV，第2980-2988页，2017年。 3[7] Baoyuan Liu，Min Wang ，Hassan Foroosh ，MarshallTappen，and Marianna Pensky.稀疏卷积神经网络。在CVPR，第8062[8] 刘哲、赵信、黄腾腾、胡若兰、周瑜、向白。Tanet：从点云中进行三重注意力的鲁棒3D对象检测。在AAAI，第34卷，第11677-11684页二、六[9] 伊利亚·罗希洛夫和弗兰克·哈特。SGDR：带有热重启的随机在ICLR，2017。6[10] Qinghao Meng ， Wenguan Wang ， Tianfei Zhou ，Jianbing Shen，Luc Van Gool，and Dengxin Dai.激光雷达点云弱在ECCV，第515-531页二、三、七[11] Yusuke Niitani、Takuya Akiba、Tommi Kerola、ToruOgawa、Shotaro Sano和Shuji Suzuki。从稀疏注释对象中检测大规模对象在CVPR中，第6510二三五[12] Charles R Qi，Or Litany，Kaiming He，and Leonidas JGuibas.点云数据中三维目标检测的深度霍夫投票在ICCV，第9277-9286页，2019年。二、三[13] Charles R Qi，Hao Su，Kaichun Mo ，and Leonidas JGuibas.Pointnet ：点集深度学习，用于3D 分类和分割。在CVPR中，第652-660页，2017年。2[14] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas J.Guibas. Pointnet++：度量空间中点集的深度层次特征学习。在NeurIPS，第50992[15] 秦增义，王静璐，陆燕。从点云数据中检测弱监督三维目标。在ACM MM中，第4144-4152页，2020年。2[16] Shaoshuai Shi ，Chaoxu Guo ，Li Jiang ，Zhe Wang ，Jianping Shi ，Xiaogang Wang ，and Hongsheng Li.Pv-rcnn：用于3D对象检测的点-体素特征集抽象。在CVPR中，第10529-10538页，2020年。一二四六七[17] Shaoshuai Shi，Xiaogang Wang，and Hongsheng Li.从点云生成和检测三维物体在CVPR，第770-779页，2019年。一、二、四、六[18] Shaoshuai Shi ， Zhe Wang ， Jianping Shi ， XiaogangWang，and Hongsheng Li.从点到零件：利用零件感知和零件聚合网络从点云检测IEEE TPAMI，43（8）：2647一、二、四、六[19] Weijing Shi和Raj RajkumarPoint-gnn：用于点云中的3D对象检测的图形神经网络在CVPR中，第1711-1719页2[20] Kihyuk Sohn ， David Berthelot ， Nicholas Carlini ，Zizhao Zhang ， Han Zhang ， Colin A Raffel ， EkinDogus Cubuk ， Alexey Kurakin ， and Chun-LiangLi.Fixmatch：用一致性和置信度简化半监督学习。NeurIPS，33：5964[21] Pei Sun ， Henrik Kretzschmar ， Xerxes Dotiwalla ，Aurelien Chouard，Vijaysai Patnaik，Paul Tsui，JamesGuo，Yin Zhou，Yunning Cha

下载后可阅读完整内容，剩余1页未读，立即下载