基于点云的场外3D目标检测及自动生成高质量的3D标签方法研究

99 浏览量更新于2024-01-22 收藏 1.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6134PointPillarPVRCNN3D Auto Labeling（Ours）基于点云序列的Charles R.Qi Yin Zhou Mahyar Najibi Pei Sun Khoa Vo Boyang Deng Dragomir Anguelov WaymoLLC摘要PointPillar PVRCNN 3D自动标注（我们的）虽然目前的3D对象识别研究主要集中在实时、机载场景上，但有许多感知的非机载用例在很大程度上还没有被探索，例如使用机器自动生成高质量的3D标签。现有的3D物体检测器由于输入和速度的限制而不能满足非车载使用的高质量要求。本文在分析了现有文献的基础上，1.00.80.60.4+11.4%+20.7%+19.9%+40.2%+47.7%+108.9%我们提出了一种新的场外3D目标检测流水线使用点云序列数据。观察到不同帧捕获对象的互补视图，我们设计了场外检测器，以通过多帧对象检测和新颖的以对象为中心的细化模型来利用时间点。在Waymo OpenDataset上进行评估后，我们名为3D Auto Labeling的管道显示，与最先进的车载检测器和我们的车外基线相比，有显著的收益。其性能甚至与通过人体标签研究验证的人体标签相当。进一步的实验展示了自动标签在半监督学习中的应用，并提供了广泛的分析来验证各种设计选择。1. 介绍近年来，随着3D深度学习的进步和强大的应用需求，3D对象识别取得了快速进展。然而，大多数3D感知研究一直专注于实时、机载用例，并且仅考虑来自当前帧或少数历史帧的传感器输入。这些模型对于许多需要最佳感知质量的非车载用例来说是次优的。其中，一个重要的方向是让机器高质量的感知也可以用于模拟或构建数据集，以监督或评估下游模块，如行为预测。在本文中，我们提出了一种用于非机载3D物体检测的新型流水线，具有模块化设计和一系列定制的深度网络模型。非机载流水线利用整个传感器序列输入（例如视频数据在自动驾驶和自动驾驶的应用中很常见，0.20.5 0.6 0.7 0.83D IoU阈值图1. 我们的非机载3D自动标记在两个代表性的机载3D检测器（有效的 PointPillar [20] 和性能最高的 PVRCNN[45]）上实现了显著的增益。在更严格的标准（更高的IoU阈值）下，相对收益（百分比）更高。该指标是WaymoOpen Dataset [52]val集上车辆的3D AP智能现实）。由于对模型因果关系没有约束，对模型推理速度几乎没有约束，我们能够大大扩展3D对象检测器的设计空间，并实现显着更高的性能。我们基于一个关键目标来设计我们的非机载3D探测器：在点云序列中，物体的不同视角包含有关其几何形状的互补信息（图2）。即时基线设计是扩展电流检测器以使用多帧输入。然而，由于多帧检测器是有效的，它们仍然受限于它们可以使用的上下文的量，并且不能简单地扩展到更多的帧为了充分利用时间点云（例如，10秒或更多秒），我们远离常见的基于帧的输入结构，在该结构中，点云的整个帧相反，我们转向以对象为中心的设计。我们首先利用性能最好的多帧检测器来为我们提供初始对象定位。然后，我们通过多目标跟踪链接在不同帧检测到的对象。基于跟踪盒和原始点云序列，我们可以提取物体的整个轨迹数据，包括其所有的传感器数据（点云）和检测器盒，这是4D的：3D空间加1D时间。我们3D平均精度6135然后提出新的深度网络模型来处理这样的4D对象跟踪数据，并输出对象的时间一致和高质量的框。由于它们类似于人类标记对象的方式，并且由于它们的高质量输出，我们将处理4D轨迹数据的那些模型3）。我们在Waymo Open Dataset（WOD）[52]上评估了我们提出的模型，这是一个大规模的自动驾驶基准，包含1，000多个激光雷达扫描序列，每个帧都有3D注释我们的3D自动标记管道与为实时机载用例设计的现有3D探测器相比，显著提高了感知质量（图1、第二。5.1）。在更高的标准下，收益甚至更为为了了解我们在3D对象检测中与人类的表现有多远，我们进行了一项人类标签研究，以比较自动标签与人类标签。5.2）。令我们高兴的是，我们发现在选定的测试段上，自动标签已经与人类标签不相上下，甚至略好于节中5.3，我们展示了我们的管道在半监督学习中的应用，并展示了使用自动标签训练的显著改进的学生模型。我们还进行了广泛的消融和分析实验，以验证我们的设计选择。5.4和SEC。5.5节中提供可视化结果。5.6总之，我们工作的贡献是：• 制定非机载3D物体检测问题和建议的一个特定的管道（3D自动拉，beling），它利用了我们的多帧检测器和新颖的以对象为中心的自动标记模型。• 在具有挑战性的Waymo Open Dataset上实现最先进的3D对象检测性能。• 3D物体检测的人类标签研究，比较人类和自动标签。• 证明了半监督学习中自动标签的有效性2. 相关工作3D物体检测大多数工作都集中在使用单帧输入。根据所使用的表示，它们可以分为基于体素的[54，10，23，51，19，63，48，71，62，20，67，55]，基于点的[46，65，37，41，64，47]，透视视图为基础[24，35，3]以及hy-桥梁战略[70，66，7，14，45]。最近的几项工作探讨了激光雷达扫描的时间聚集点云致密化和形状完成。[32]通过连接来自不同帧的特征图来融合多帧信息。[15]聚合（运动补偿）点，1帧5帧10帧全部（146）帧图2. 点云序列中对象的互补视图的插图点云（从多个帧聚合）可视化在一个自顶向下的看法，为一个小型货车。不同的激光雷达扫描到一个场景。[68]使用基于图的时空特征编码来实现不同帧之间的消息传递。[16]使用LSTM对先前的帧进行编码，以帮助当前帧中的检测。使用多模态输入（相机视图和3D点云）[19，6，42，60，27，26，34，49，40]与仅点云方法相比，显示出改进的3D检测性能，特别是对于小的和遥远的物体。在这项工作中，我们专注于点云解决方案，并在很长的时间间隔内利用数据。从点云序列中学习最近的几项工作[30，13，36]提出使用端到端训练的深度神经网络（从一对连续的点云）学习从动态点云估计场景流。扩展这些想法，MeteorNet [31]表明，较长的序列输入可以导致动作识别，语义分割和场景流估计等任务的性能提升。点云序列中还有其他学习应用，如点云完成[39]，未来点云预测[57]和手势识别[38]。我们还看到更多发布的序列点云数据集，例如用于检测的Waymo Open Dataset[52]和用于3D语义分割的SemanticKITTI数据集[2近年来，训练数据饥渴模型所需的大型数据集增加了注释成本准确的自动标注可以显著减少标注时间和成本。以前的自动标注工作主要集中在2D应用上。Lee等提出了伪标签[21]，使用图像分类器的最有信心的预测类别作为标签，在数据集的未标记部分上训练它。最近的作品[17，72，61，59]进一步改进了使用伪标签的过程，并在ImageNet上展示了广泛的成功，包括最先进的结果[8]。对于3D对象检测，最近，Zakharovet al. [69]提出了一个使用预训练的2D6136点云序列检测输出：3D边界框、类和分数。跟踪输出：带有轨迹ID的3D边界框3D对象检测3D多目标跟踪框颜色：轨道ID3D自动标签静态目标轨迹静态对象自动标注动态对象轨迹基于轨迹的运动状态分类目标轨迹数据提取动态对象自动标注放大一帧3D自动标注图3. 3D Auto Labeling管线给定点云序列作为输入，管道首先利用3D对象检测器来定位每帧中的对象。然后通过多对象跟踪器将不同帧处的对象框链接起来。对象轨迹数据（它的点云在每帧以及它的3D边界框）被提取为每个对象，然后通过对象为中心的自动标注（与静态和动态轨道分治），以生成最终的精细的3D边界框。探测器来注释3D对象。虽然对松散的定位有效（即，IoU为0.5），对于要求更高精度的应用，存在相当大的性能差距。[33]试图利用弱中心点击监督来减少所需的3D标签。其他几项工作[5，1，22，28，11]也提出了帮助人类注释者并降低注释成本的方法。3. 车外3D物体检测给定动态环境的传感器输入（时间数据）的序列，我们的目标是针对每帧对3D场景中的对象进行局部化和分类具体地说，我们考虑输入点云序列{Pi∈ Rni× C}，i = 1，2，.， N与点云Pi（ni个点，每个点有C个通道），总共N帧。点通道包括传感器的坐标（在每帧）和其它可选信息，例如颜色和强度。我们还假设已知的传感器姿态{Mi=[Ri|ti]∈R3×4}，i=1，2，.，N在世界坐标系中的每一帧，这样我们就可以补偿自我运动。对于每一帧，我们输出amodal3D边界框（由其中心，大小和方向参数化），类类型（例如，车辆）和唯一的对象ID的所有对象出现在帧中。与仅使用单帧输入相比，对时间数据（历史和未来）的访问导致了检测器的更大的设计空间一个基线设计是扩展单帧3D对象检测器以使用多帧输入。虽然先前的工作[32，15，16，68]已经显示了其有效性，但多帧检测器很难扩展到超过很少的帧并且不能补偿对象运动，因为帧堆叠是针对整个场景进行的我们观察到，随着我们堆叠更多帧，多帧输入对检测器质量的贡献减少（表5）。另一个想法是扩展两级检测器[42，46]的第二级与采用整个场景的多帧输入相比，第二阶段仅处理建议的对象区域。然而，决定使用多少上下文框架并不直观。对于某些对象，设置一个固定的数字可能效果很好，但对于另一些对象，则不是最佳的。与上述以帧为中心的设计相比，其中输入总是来自固定数量的帧，我们认识到有必要独立地自适应地为每个对象选择时间上下文大小，从而导致以对象为中心的设计。如图3所示，我们可以利用强大的多帧检测器来为我们提供初始对象局部化。然后对于每个对象，通过跟踪，我们可以从它出现的所有帧中提取所有相关的对象点云和检测框。后续模型可以采用这样的对象轨迹数据来输出对象的最终轨迹级由于该过程模拟了人类标注人员如何在点云序列中注释3D对象（随时间定位、跟踪和细化跟踪），因此我们选择将我们的流水线称为3D自动标注。4. 3D自动标注流水线图3说明了我们提出的3D自动标记流水线。我们将在下面的小节中介绍管道的每个模块。61374.1. 多帧3D目标检测MVF++作为我们流水线的入口点，准确的物体检测对下游模块至关重要。在这项工作中，我们提出了MVF++ 3D检测器，通过在三个方面扩展性能最好的多视图融合[70]（MVF）检测器：1）为了增强点级别特征的区分能力，我们为3D语义分割添加了辅助损失，其中如果点位于地面真实3D框的内部/外部，则将其标记为阳性/阴性; 2）为了获得更准确的训练目标并提高训练效率，我们取消了MVF论文中的锚匹配步骤，并采用了[ 53 ]中的无锚设计; 3）为了充分利用机外环境中的计算资源，我们重新设计了网络结构，增加了模型容量。请参见补充章节。C为细节。多帧MVF++我们扩展了MVF模型以使用多个LiDAR扫描。来自多个连续扫描的点基于自我运动被变换到当前帧。每个点通过一个额外的通道扩展，相对时间偏移的编码，类似于[15]。聚合点云用作MVF++的输入。测试时增强我们通过测试时增强（TTA）[18]进一步增强3D检测，通过将点云围绕Z轴旋转10个不同的角度（即，[0，±1/8π，±1/4π，±3/4π，±7/8π，π]），并使用加权盒融合进行集成预测[50]。虽然这可能会导致对于机载使用的过度计算复杂性，在非机载设置中，TTA可以跨多个设备并行化以快速执行。4.2. 多目标跟踪多对象跟踪模块跨帧链接检测到的对象。鉴于强大的多帧检测器，我们选择采用检测跟踪路径，并有一个单独的非参数跟踪器。与联合检测和跟踪方法相比，这导致了更简单和更模块化的设计[32，58，25]。我们的跟踪器是[56]的实现变体，使用检测器框进行关联，使用卡尔曼滤波器进行状态更新。4.3. 目标轨迹数据提取给定对象的跟踪检测框，我们可以从序列中提取对象特定的LiDAR点云我们使用术语对象跟踪数据来指代这样的4D（3D空间和1D时间）对象信息。为了提取目标轨迹数据，我们首先通过已知的传感器姿态将所有的盒子和点云转换到世界坐标，对于每个唯一的对象（根据对象ID），我们裁剪其对象点静态对象自动标注图4. 静态对象自动标记模型。以世界坐标中的合并对象点作为输入，模型输出静态对象的单个框。在估计的检测器框内（在每个方向上放大α米以包含更多上下文）。这样的提取为我们提供了针对每个对象j及其可见帧Sj的对象点云序列{Pj，k}，k∈Sj。图3显示了几辆车的目标点除了原始点云之外，我们还提取了世界坐标中每个对象和每个帧{Bj，k}，k∈Sj的跟踪框4.4. 以对象为中心的自动标注在本节中，我们将介绍如何使用对象轨迹数据来如图3所示，该过程包括三个子模块：基于轨迹的运动状态分类、静态对象自动标注和动态对象自动标注，下面将详细描述。分而治之：运动状态估计在现实世界中，许多对象在一段时间内是完全静止的。例如，停放在房间里的汽车或家具在几分钟或几小时内不会移动。在板外检测方面，优选的是将单个3D绑定框分配给静态对象，而不是将不同帧中的单独框分配给静态对象，以避免抖动。基于这一观察，我们采取分而治之的方法来不同地处理静态和移动对象，在自动标记之前引入一个模块来分类对象虽然很难从几帧中预测对象的运动状态（由于感知噪声），但我们发现如果使用所有对象跟踪数据，则相对容易。如图3中的可视化所示，从物体的轨迹判断其是否静止通常是显而易见的。使用来自对象轨迹框的一些启发式特征的线性分类器更多细节见补充章节。E.静态对象自动标注对于静态对象，模型从不同帧的点获取合并的对象点云（世界坐标中的Pj={Pj ，k}），并预先前景段网络对象点云（世界坐标）logits初始箱参数对象点云前景点（框坐标）（框坐标）Box RegressionNetwork坐标变换Box回归网络细化框前景点（框变换坐标框参数nxcnxcmxc框参数n×2掩蔽mxc6138前景段网络点序列编码器序列物点k=T-r，物点盒式序列编码器+序列对象框k=T-s，concat框回归网络T型架精箱联合嵌入轨迹嵌入点嵌入k=T−r动态对象自动标注图5. 动态对象自动标注模型。以一系列的对象点和一系列的对象框，该模型运行在一个滑动窗口的方式，并输出一个完善的3D框的中心帧。输入点和框的颜色表示帧。写了一个盒子。然后可以通过已知的传感器姿势将盒子变换到图4说明了我们提出的静态对象自动标记模型。类似于[42，46]，我们首先将对象点转换（通过旋转和平移）到一个框对齐可变形物体，如行人。我们提出了一种设计（图5），它利用点云和检测器框序列，而不将点明确地与关键帧给定对象点云序列{Pj，k}和检测器盒序列{Bj，k}对于在帧k∈Sj处的对象j，模型预测以滑动窗口的形式在每个帧k处的对象框。它由两个分支组成，一个采用点序列，另一个采用盒序列。对于点云分支，模型取对象点云的子序列{Pj ，k}T+r。在向每个点添加时间编码通道（类似于[15]）之后，通过并集合并子序列点，并将其变换为中心帧处的检测器框Bj ， T 的在此之后，我们有一个基于PointNet [43]的分割网络来对前景点（2r+1帧）进行分类，然后通过另一个点编码器网络将对象点编码为嵌入。为的框序列分支，的盒序列在每个对象处理之前，′j，kT+sk=T−s 的2s+1帧被转换为框点云在对象之间更加对齐。在盒子坐标中，+X轴是盒子的方向，原点是盒子的中心。由于我们有检测器盒的完整序列，因此我们有多个选项可以选择将哪个盒用作初始盒。选择实际上对模型性能有重大影响根据经验，使用具有最高检测器分数的框会导致最佳性能（参见补充第I用于消融）。为了关注对象，对象点通过实例分割网络来分割前景（通过掩模提取m个前景点）。受Cascade-RCNN [4]的启发，我们迭代回归对象的边界框。在测试时，我们可以通过测试时间增强（类似于Sec. 4.1）。所有网络都基于PointNet [43]架构。该模型由分割和框估计地面实况监督。有关体系结构、损失和训练过程的详细信息，请F.动态对象自动标注对于移动对象，我们需要为每帧预测不同的3D边界框由于顺序输入/输出，模型设计空间比静态对象大得多。基线是用裁剪的点云重新估计3D边界框。与跟踪中的平滑类似，我们也可以基于检测器框的序列来另一种选择是当前帧）以获得用于框估计的更密集的点云。然而，对齐可能是比框估计更难的问题，特别是对于具有较少点的被遮挡或遥远的对象另外，它是查尔-在帧T处的探测器盒的坐标。请注意，子序列可以长于点子序列以捕获较长的轨迹形状。然后，盒序列编码器网络（PointNet变体）将盒序列编码成轨迹嵌入，其中每个盒是具有7维几何形状和1维时间编码的点。接下来，将计算出的对象嵌入和轨迹嵌入连接起来以形成联合嵌入，然后将其通过框回归网络来预测帧T处的对象框。5. 实验我们首先将我们的车外3D自动标记与第二节中最先进的3D物体探测器进行比较。5.1. 节中5.2我们比较了汽车标签和人类标签。节中5.3，我们展示了如何使用自动标签来监督学生模型，以在低标签制度下或在另一个领域中实现改进的性能我们在第二节中提供了多帧检测器的分析5.4和分析实验，以验证我们的设计的对象为中心的自动标注模型在第5.4节。5.5最后在第5节中可视化结果。5.6数据集我们使用具有挑战性的Waymo 开放数据集（WOD）[52]来评估我们的方法，因为它提供了大量的LiDAR序列，每个帧都有3D标签。该数据集包括总共1150个序列，其中798个用于训练，202个用于验证，150个用于测试。每个LiDAR序列持续约20秒，采样频率为10 Hz。对于我们的实验，我们评估了车辆和行人的3D和鸟瞰框参数（2s+1）nx（c+1）n×2掩蔽mxc{B}6139方法帧车辆行人3D APBEV AP3D APBEV APIoU=0.7 IoU=0.8 IoU=0.7 IoU=0.8IoU=0.5 IoU=0.6 IoU=0.5 IoU=0.6[37]第三十七话153.70---66.80---美国[20]160.2527.6778.1463.7960.1140.3565.4251.71多视图融合（MVF）[70]162.93-80.40-65.33-74.38-AFDET [12]163.69-------ConvLSTM [16]463.60-------刚果民主共和国[3]168.95-82.09-----PillarNet [55]169.80-87.11-72.51-78.53-[45]第45话170.4739.1683.4369.5265.3445.1270.3556.63单帧MVF++（我们的）174.6443.3087.5975.3078.0156.0283.3168.04多帧MVF++ w. TTA（我们的）579.7349.4391.9380.3381.8360.5685.9073.003D Auto Labeling（Ours）所有84.5057.8293.3084.8882.8863.6986.3275.60表1. Waymo Open Dataset val set上车辆和行人的3D物体检测结果。比较的方法包括现有的最先进的基于单帧的3D检测器以及我们的单帧MVF++、我们的多帧MVF++（5帧）和我们的完整3D自动标记流水线。这些指标是两个IoU阈值下的L1 3D AP和鸟瞰使用作者发布的代码复制结果5.1. 与现有探测器的在表1中，我们显示了我们的3D对象检测器和3D自动标记与各种基于单帧和多帧的检测器的比较，在通用标准IoU阈值和更高标准IoU阈值下对模型进行压力测试。我们表明，我们的单帧MVF++已经优于现有技术的单帧检测器PVR-CNN [45]。MVF++的多帧版本作为非机载3D检测方法的基线，由于来自上下文帧的额外信息，它比单帧MVF++有了显著改进对于车辆，比较最后三行，我们的完整3D自动标记流水线利用多帧MVF++和以对象为中心的自动标记模型，进一步提高了检测质量，特别是在IoU阈值为0. 8的更高标准下。与单帧MVF++相比，它将3DAP@0.8显著提高了14.52个点，与多帧MVF ++相比，它将3DAP@0.8显著提高了8.39个点，多帧MVF++本身已经非常强大。这些结果显示了利用长序列的点云进行场外感知的巨大潜力我们还显示了行人类的检测AP，其中我们始终观察到3D自动标记流水线的领先性能，特别是在更高的局部化标准（IoU=0.6）下，与单帧MVF++相比具有7.67点增益，与多帧MVF++相比具有3.135.2. 与人类标签在许多感知领域，如图像分类和语音识别，研究人员已经收集了数据来了解人类但上述要求与3D APIoU=0.7 IoU=0.8BEV APIoU=0.7 IoU=0.8人类86.4560.4993.8686.273DAL（我们的）85.3756.9392.8087.55表2. 在3D物体检测中比较人类标签和自动标签。这些指标是Waymo Open Datasetval set中5个序列上车辆的3D和BEVAP。通过将人类AP与WOD发布的地面实况进行比较并使用框中的点数作为人类标签分数来计算人类AP据我们所知，对于3D识别，特别是对于3D对象检测，还不存在这样的研究为了填补这一空白，我们在Waymo Open Dataset上进行了一项小规模的人类标签研究，以了解人类在动态3D场景中识别物体的能力。我们从Waymo Open Datasetval集合中随机选择了5个序列，并要求三名经验丰富的标签人员独立地重新标记每个序列（使用与WOD相同的标记协议）。在表2中，我们报告了5个序列中人类标签和自动标签的平均AP。使用常见的3DAP@0.7（L1）指标，自动贴标机仅比普通贴标机低1点左右，尽管在更严格的3DAP@0.8指标中差距略大。通过可视化分析，我们发现较大的间隙主要是由于高度不准确造成的与BEVAP@0.8指标的比较验证了我们的观察：当我们不考虑身高时，自动标签甚至比人类标签的平均性能高出1。28分。凭借如此高的质量，我们相信自动标签可用于预标记点云序列以辅助和加速人类标记，或直接用于训练轻量级学生模型，如以下部分所示。6140表4. 关于3D探测器MVF改进的消融研究[70]。在WaymoOpen Datasetval set上，车辆的IoU阈值为0.7和0.8时，3DAP（L1）表3. 使用自动标签的半监督学习的结果。Waymo OpenDataset上的车辆3D和BEV AP。注释的类型在括号中报告。请注意，测试集BEV AP不由提交服务器提供5.3. 半监督学习Semi Supervised Learning在本节中，我们将研究我们的自动标记管道在半监督学习任务中的有效性，以在两种设置下训练学生模型：域内和跨域。我们选择学生模型作为可以实时运行的单帧MVF++检测器。对于域内半监督学习，我们在主WOD训练集中随机选择10%的序列（79个）来训练我们的3D自动标注（3DAL）流水线。一旦训练完成，我们将其应用于主训练集中其余90%的序列（719个），以生成只保留分数大于0的盒子。①的人。在表3（前两行）中，我们看到将人工注释减少到 10%会显著降低student模型的性能。然而，当我们使用自动标签时，学生在10%人类标签和90%自动标签上训练的模型可以获得与使用100%人类标签（AP差距小于1点）相似的性能，证明了自动标签可以提供卓越的数据效率。对于跨域半监督学习，教师自动标记来自未知域的数据。教师在主WOD训练集上进行训练，并自动标记域自适应WOD训练集和未标记集（与主WOD分离的680个序列然后，评估是在域适应测试集上进行的。表3的最后三行显示了结果。在不使用来自新域的任何数据的情况下，学生的AP为59。四、同时使用表5. 3D检测AP与时间背景。在Waymo Open Datasetval set上为车辆提供3D AP（L1）。我们在3D Auto Labeling中使用了5帧模型。提高检测质量。表5示出了连续输入帧的数量如何影响检测AP。增加帧的收益随着帧的数量的增加而迅速减少：例如.而AP@0.8提高了0. 81，从4到5帧的增益仅为0。14分5.5.对象自动标注模型我们使用Waymo Open Datasetval set上的两个IoU阈值0.7和0.8下的框准确度度量来评估对象自动标记模型。如果预测框的IoU与地面真实值高于阈值，则预测框被认为是正确的。更多的分析在补充章节中。I.在表6中，我们可以看到初始坐标变换（到框坐标）的重要性，以及前3行中的前景分割网络。在第4行和第5行中，我们分别看到使用迭代框重新估计和测试时间增加的收益。动态对象自动标记的替代设计表7阐述了动态对象自动标记模型的设计。对于对齐细化模型，我们使用多帧MVF++检测器框将学生自我标记稍微有帮助（改善结果通过使用我们的3DAL自动标记新领域，学生AP显著提高了105分。5.4.多帧检测器表4显示了我们提出的MVF++探测器的消融。我们看到，场外技术，如模型容量增加（ +3 。 08AP@0.7），使用来自5帧的点云作为输入（+1. 70AP@0.7）和测试时间增加（+3。39个AP@0.7）都非常有效称为帧。对于每一个上下文框架，我们变换协-通过将上下文框架框的中心和标题与中心框架框对齐来调整纵坐标。使用未对齐点云的模型（在中心框架的坐标中，来自[-2，+2]上下文框架），第二行，实际上比对齐的模型获得更高的精度（第模型tak-通过利用轨迹形状和框大小，仅将框序列（第三行）作为输入也合理地执行我们的模型联合使用多帧对象点云和框序列得到最好的精度。训练数据测试数据3D APBEV AP100%主列车（人）主阀71.286.910%主列车（人）主阀64.381.210%主列车（人）+ 90%主列车（3DAL）主阀70.086.4无锚章增加分段损失5帧TTAAP@0.7/0.8J----71.20 /39.70JJ---74.28 /42.91JJJ--74.64 /43.30JJJJ-76.34 /45.57JJJJJ79.73 /49.43100%主列车（人）域测试59.4N/A100%主列车（人）+ domain（Self Anno.）域测试60.3N/A100%训练（人类）+ 域（3DAL）域测试64.2N/A#帧1234510AP@0.774.6475.3275.6376.1776.3476.96AP@0.843.3044.1144.8045.4345.5746.206141图6. Waymo Open Datasetvalset上的3D自动标签可视化（放大后最佳彩色视图）。对象点按对象类型着色，蓝色表示静止车辆，红色表示移动车辆，橙色表示行人。框的颜色为：绿色用于真阳性检测，红色用于假阳性，青色用于假阴性情况下的地面实况框CCCCCC-C82.02 /56.7782.28/56.92表6. 静态自动标记模型的消融研究。满足-rics 是 Waymo Open Datasetval set 中车辆在 3D IoU=0.7 和IoU=0.8时的框精度。方法Acc@0.7/0.8对齐细化83.33 /60.69站点只83.79 /61.95仅框序列83.13 /58.96点、箱顺序接头85.67/65.77表7. 比较动态对象自动标注的各种设计方案。具有 3DIoU阈值的超高盒精度Waymo Open Datasetval set上的车辆为0.7和0.8时间上下文大小对对象自动标记的影响表8研究了上下文帧大小如何影响框预测精度。我们还与我们的单帧（S-MVF++）和多帧检测器（M-MVF++）进行了比较，以显示对象自动标记可以带来的额外增益。我们可以清楚地看到，使用大的时间上下文可以提高性能，而使用整个对象轨迹（最后一行）可以获得最佳性能。请注意，对于静态对象模型，我们使用具有最高分数的检测器框进行初始坐标变换，这使我们的自动标记优于基于帧的方法。5.6.定性分析在图6中，我们可视化了自动驾驶中两个代表性场景的自动标签：在停放着汽车的道路上行驶我们的模型能够准确地识别车辆和行人，表8. 时间上下文大小对对象自动标注的影响。是WOD值集中车辆在3D IoU=0.7、0.8时的箱精度。动态车辆具有更高的精度，因为它们比静态车辆更接近传感器具有闭塞和非常少的点的挑战性病例繁忙的十字路口场景还示出了一些失败情况，包括行人以罕见姿势（坐着）的假阴性这些困难的情况可以通过添加具有多模态学习的相机信息来解决6. 结论在这项工作中，我们介绍了3D Auto Labeling，这是一种使用点云序列作为输入的最先进的场外3D对象检测解决方案。流水线利用3D场景中对象的长期时间数据。我们成功的关键是我们以对象为中心的制定，强大的场外多帧检测器和新颖的对象自动标记模型。在Waymo Open Dataset上进行评估，我们的解决方案比现有技术的机载3D探测器有了显著的进步人类标签的研究进一步表明，高质量的汽车标签达到了与经验丰富的人类相当的性能此外，半监督学习实验表明，在低标签和不可见领域的情况下，自动标签对于学习训练是有用的。变换分割迭代TTAAcc@0.7/0.8方法上下文帧静态Acc@0.7/0.8动态Acc@0.7/0.8----78.82 /50.90C---81.35 /54.76CC--81.37 /55.67MVF ++【-0，+0】67.17 /36.6180.07 /57.71M-MVF【-4，+0】73.96 /43.5682.21 /59.523DAL【-0，+0】【-2，+2】【-5，+5】所有78.13 /50.3079.60 /52.5280.48 /55.0282.28/56.9280.65 /57.9784.34 /63.6085.10 /64.5185.67/65.776142引用[1] David Acuna，Huan Ling，Amlan Kar，and Sanja Fidler.使用RNN ++对分割数据集进行有效的交互式注释。在IEEE计算机视觉和模式识别会议论文集，第859-868页，2018年。[2] Jens Behley ， Martin Garbade ， Andres Milioto ， JanQuenzel ， Sven Behnke ， Cyrill Stachniss ， and JurgenGall. Se- mantickitti：用于激光雷达序列语义场景理解的数据集。在IEEE计算机视觉国际会议论文集，第9297-9307页[3] Alex Bewley 、 Pei Sun 、 Thomas Mensink 、 DragomirAnguelov和Cristian Sminchisescu。用于尺度不变3d对象检测的范围条件扩张卷积，2020。[4] 蔡兆伟和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在CVPR，2018年。[5] Lluis Castrejon，Kaustav Kundu，Raquel Urtasun，andSanja Fidler.用一个rnn注释对象实例。在IEEE计算机视觉和模式识别会议论文集，第5230-5238页[6] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在CVPR，2017年。[7] Y. Chen，S. Liu，X. Shen和J. Jia.快点R-CNN。在2019年IEEE/CVF国际计算机视觉会议（ICCV）上，第9774-9783页[8] 贾登、魏东、理查德·索彻、李力佳、李凯、李菲菲。Imagenet：一个大规模的分层图像数据库。在CVPR。IEEE，2009年。[9] Neeraj Deshmukh ， Richard Jennings Duncan ， AravindGanapathiraju，and Joseph Picone.连续语音识别的人类性能基准。第四届口语处理国际会议论文集。ICSLP'96，第4卷，第2486-2489页。IEEE，1996年。[10] M. Engelcke，D.拉奥，D.Z. Wang，C.H. 唐和我。波斯纳Vote3deep：使用高效卷积神经网络在3D点云中进行快速对象检测。在2017年IEEE机器人和自动化国际会议（ICRA）上，第1355-1361页，2017年5月[11] 狄峰，肖伟，拉尔斯·罗森鲍姆，Atsuto Maki和克劳斯·迪特梅耶。深度主动学习用于激光雷达3d物体检测器的有效训练。2019年IEEE智能车辆研讨会（IV），第667-674页。IEEE，2019年。[12] 葛润州，丁壮壮，胡一涵，王宇，陈思佳，李煌，袁力.Afdet：Anchor Free One Stage 3D Object Detection，2020。[13] Xiuye Gu，Yijie Wang，Chongruo Wu，Yong Jae Lee，and Panqu Wang.Hplflownet：用于大规模点云场景流估计的分层置换面体网格流网在IEEE计算机视觉和模式识别会议论文集，第3254-3263页[14] Chenhang He，Hui Zeng，Jianqiang Hua，Xian-ShengHua，and Lei Zhang.结构感知的单阶段点云三维物体检测。在IEEE/CVF会议记录中计算机视觉和模式识别会议（CVPR），2020年6月。[15] Peiyun Hu ， Jason Ziglar ， David Held ， and DevaRamanan.所见即所得：利用可见性进行3D对象检测。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2020年6月。[16] 黄锐，张万跃，阿比吉特·昆杜，卡罗琳·潘托法鲁，大卫·A.作者：Thomas A. Funkhouser和Alireza Fathi。激光雷达点云中时间3D对象检测的LSTM方法。CoRR，2020年。[17] Ahmet Iscen 、 Giorgos Tolias、 Yannis Avritis 和OndrejChum。深度半监督学习的标签传播在IEEE计算机视觉和模式识别会议论文集，第5070-5079页[18] Alex Krizhevsky，Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络进行图像网分类。Commun. ACM，60（6）：84 -90，May 2017.[19] Jason Ku ， Melissa Mozifian ， Jungwook Lee ， AliHarakeh和Steven L Waslander。从视图聚合联合生成3d建议和目标检测。2018年IEEE/RSJ智能机器人与系统国际会议（IROS），第1-8页。IEEE，2018年。[20] Alex H Lang ， Sourabh Vora ， Holger Caesar ， LubingZhou，Jiong Yang，and Oscar Beijbom. Pointpillars：用于从点云中检测物体的快速编码器。在CVPR，2019年。[21] 李东贤伪标签：用于深度神经网络的简单有效的半监督学习方法。在表征学习挑战研讨会上，ICML，第3卷，2013年。[22] Jungwook Lee，Sean Walsh，Ali Harakeh，and Steven LWaslander. 利用预先训练的3d物体检测模型快速生成地面实况。 2018 年第 21 届国际智能交通系统会议（ITSC），第2504-2510

下载后可阅读完整内容，剩余1页未读，立即下载