时空记忆用于集成的3D目标检测和跟踪

120 浏览量更新于2023-10-13 收藏 2.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13185RPN你构建时空记忆用于集成的3D目标检测和跟踪孙家明1，2 *谢一鸣1 * 张思宇2陈凌浩1 张国峰1鲍虎军1周晓伟1†1浙江大学2商汤科技摘要人类能够通过在环顾四周时构建对象的时空记忆来连续地检测和跟踪周围的对象相比之下，现有的检测跟踪系统中的3D对象检测器通常从头开始搜索每个新视频帧中的对象，而不完全利用来自先前检测结果的存储器。在这项工作中，我们提出了一种新的系统集成的三维物体检测和跟踪，它使用了输入数据检测器对象未来状态数据关联状态融合最终3D框预测动态对象占用图和先前对象状态作为空间-时间存储器，以辅助在未来的目标检测。反馈设计（我们的）检测和跟踪管道物体占据图真帧该存储器与来自后端测距的自我运动一起引导检测器实现更有效的对象提议生成和更准确的对象状态估计。在ScanNet和KITTI数据集上的实验证明了该系统的有效性和性能。此外，所提出的系统随着时间的推移产生稳定的边界框和姿态轨迹，同时能够处理被遮挡和截断的对象。代码可在项目页面获得：https://zju3dv.github.io/UDOLO。1. 介绍人类在很小的时候就开始发展空间工作记忆[38，50]，从而意识到周围环境的空间物体排列是心理“世界模型”的一部分有了这个记忆作为3D物体位置的先验知识，再加上对眼睛自我运动的估计，当我们环顾四周时，我们会预计物体会出现在视野中的某些区域这种能力使人类能够连续定位，跟踪和识别3D空间中的对象，即使在严重遮挡或截断的情况下。然而，在大多数现有技术中的3D对象检测*前两位作者的贡献相等。作者隶属于CAD CG国家重点实验室和ZJU-SenseTime三维视觉联合实验室†通讯作者：周晓薇。图1. UDOLO中的时空记忆由对象占用图和对象未来状态表示。系统能够在产生更好的对象检测结果之前将该存储器反馈到检测流水线中。红色箭头表示反馈的信息流。检测跟踪系统仍然单独地处理来自视频流的每个输入图像，并且从头开始在每个新帧中搜索然后，对象跟踪通常作为后处理步骤来执行，以将检测到的边界框与先前观察到的轨迹子相关联，随后是递归滤波器或优化，以提高估计的对象状态的准确性和时间稳定性。虽然时间信息的这种后期集成将改善结果，但是对象检测模块仍然在每帧的基础上执行，而不使用周围场景中的对象的存储器，这不仅违反直觉而且非常低效。我们认为，充分利用时间信息的关键是不仅要跟踪对象和平滑对象状态，但更重要的是要馈送对象状态的时间积累的记忆回检测模块，产生一个集成的检测和跟踪系统。为此，我们提出了一种名为UDOLO的新系统，该系统使对象检测器能够将时空记忆作为更有效和准确的3D对象检测和跟踪的强先验，如图1所示。1.一、R-CNN13186具体而言，UDOLO同时检测和跟踪点云序列中的3D对象，这些对象可以直接从深度传感器获得，也可以通过多个图像视图进行估计。UDOLO的核心思想是将动态对象占用图（00M）和对象未来状态预测保持为时空存储器以辅助未来帧中的OOM是2D鸟瞰OOM通过将先前帧中的3D观察结果配准到世界帧来构造，给定来自后端测距的相机姿势，并且融合每个位置处的占用状态接下来，UDOLO系统在两个不同的级别将空间-时间存储器集成到现代两阶段对象检测流水线[40，47]中：早期集成和中期集成。通过早期集成，前端对象检测器中的区域建议网络（RPN）仅在具有由OOM给出的高对象占用分数的区域和可能出现新对象的未观察区域早期集成设计基本上减少了区域建议阶段的搜索空间，并节省了在标准3D对象检测器中评估数万个密集排列的预定义锚点的工作[40，47]，从而导致更有效的检测。利用中间集成，通过组合ROI点云并使它们通过检测器的第二级以产生前端边界框估计，将当前帧对象提议与后端对象未来状态预测融合。中间集成设计使得检测器能够利用来自后端的优化和预测的对象未来状态，以便产生更准确的边界框并处理截断和遮挡。我们在ScanNet和KITTI数据集上评估了我们的系统，并对系统的不同组件进行了消融分析。实验表明，与室内和室外场景中的仅单帧检测基线相比，将时空记忆反馈到对象检测流水线中，3D对象检测性能可以得到很大改善对于KITTI上的动态场景，3D多目标跟踪（MOT）也得到了很大的改善。该系统还能够在杂乱的室内环境中检测被遮挡或截断的对象，并产生更稳定的对象边界框。概括而言，我们的贡献如下：• 一种新颖的集成检测和跟踪框架，其通过检测流水线一直馈送对象的时空记忆，以提高效率和准确性，据我们所知，这在文献中尚未被探索。• 一种早期集成方案，基于一种新的表示方法，称为对象占用图（OOM），以生成高质量的对象建议并加快检测和跟踪.• 中间集成设计，用于将来自先前帧的对象状态预测与当前帧处的估计融合，以实现更好的检测和跟踪性能以及截断或遮挡处理。2. 相关工作点云中的三维物体检测 3D对象检测在我们的框架中起着核心作用。由于所提出的方法的性质，我们只关注基于点云输入的3D对象检测器。为了估计对象的3D边界框，点云通常由3D传感器（RGB-D相机或LiDAR）捕获[7，48]或从图像估计[6，57]。在室内环境中，VoteNet [39，40]将场景的重建点云作为输入，并回归投票偏移以提取对象提案。在户外驾驶场景中，PointRCNN [47]和PV-RCNN [46]直接将点云表示作为输入，并设计了类似于2D检测对应物[43]的两级流水线，并实现了令人印象深刻的性能。伪LiDAR及其后续工作[41，51，60]使用从图像估计的点云作为基于点云的3D检测器的输入，尽管这些检测器在基准上实现了高AP结果，但它们在现实世界的实践中仍然遭受遮挡或我们的工作试图解决这个问题，通过将时空存储器作为强先验检测流水线。视频中的对象跟踪。除了对象检测模块之外，典型的检测跟踪系统通常由多对象跟踪（MOT）模块和对象状态估计模块组成，多对象跟踪（MOT）模块用于提供对象关联，对象状态估计模块用于融合同一对象的时间观测并估计其状态（位置、航向、速度等）。[21 ]第20段。3D MOT [8，17，44，45，52，54，62]的近期检测到的边界框与线索测量和链接通过解决线性分配问题。对于物体状态估计，[12，15]将2D物体检测与通过扩展卡尔曼滤波器（EKF）实现的视觉惯性测距法相结合，以进行物体的持久3D状态[31]提出了一种新的流水线，以在非线性最小二乘优化设置中估计3D对象状态3D对象边界框由2D检测前端初始化，然后通过锚定在对象上的稀疏特征的重投影误差来优化在[58]中提出了类似的管道。该管道最近在[32]中扩展了基于学习的对象坐标估计前端除了使用3D对象检测前端来提供直接的3D观察之外，这些作品与我们的作品之间的主要区别在于13187X--−--联系我们--是反馈设计，充分利用优化的目标状态从后端，以协助3D检测前端在下一个时间步长。还值得注意的是，在所提出的框架中，OOM引导的RPN的总体目标类似于2D和3D单对象跟踪中的一些相关工作 [19，30，61]，在减少具有时间累积信息的对象建议的搜索空间的意义然而，UDOLO的主要焦点是利用累积的对象分布作为空间先验，而不明确区分各个对象，而不是基于外观在具有相似性搜索的帧之间重新定位相同对象综合检测和跟踪。我们的工作也与视频对象检测领域密切相关，其主要目标是利用时间信息来提高对象检测性能。一些工作试图通过在2D对象检测的上下文中的时间特征聚合来解决这个问题[27，28，56，66]。值得注意的是，[16]提出将检测和跟踪集成到统一的神经网络中。[63]提出了一个tracklet调节的2D检测流水线，其中根据特征嵌入相似性，在NMS过程之前对从RPN产生的对象建议[56]提出了一种时空存储器模块来融合和对齐对象的时间卷积特征。Tracktor++ [3]和CenterTrack [64]直接使用对象检测的边界框回归模块进行跟踪。至于3D对象检测和跟踪，[33，34]提出了一种统一的神经网络来联合执行3D对象检测，跟踪和运动预测。[24]提出了一种具有单目图像输入的联合检测和跟踪系统。[5]将3D卡尔曼滤波器集成到3D检测系统中以提高定位精度。[26，59]使用RNN来聚合时间信息，以实现更准确的3D对象检测。还存在利用与所提出的OOM相关的BEV地图表示的值得注意的是，[11，14，22，37]提出了用于对象检测或跟踪的OGM [13]和动态OGM（DOGMa）[36]。OGM和OOM之间的主要区别在于OOM表示位置被任何物体占据的可能性最近，[25]提出了BEV中的可见性图，以帮助区分3D对象检测中的模糊性。所提出的方法UDOLO属于这一类别，但强调时空存储器到检测流水线中的反馈上述工作，特别是在3D侧，都没有试图将显式和持久的对象占用表示保持为空间存储器，并将其集成到检测流水线的对象提议阶段。如果没有在我们的框架中提出的早期集成方案，检测器仍然不能在搜索对象的阶段利用时间先验知识，从而导致效率较低的对象建议和检测。由于遮挡或截断而丢失检测。3. 方法给定由里程计系统提供的点云序列Pt和相机姿态轨迹PtSE（3） bt的感兴趣的对象，并且利用时间累积的观测值1来估计真实的对象状态xt。按照SLAM社区中的惯例，我们考虑将进行当前帧预测的模块作为前端，并且将聚合时间观测并预测未来对象状态的模块作为后端。系统图和管线概述如图所示。二、与标准的检测跟踪系统不同，UDOLO由两个反馈设计组成，将时间信息作为先验知识深度集成到目标检测管道中。3.1. 物体占据图以前的作品使用对象tracklet，包含链接的3D边界框来表示和保存历史观察。然而，单独的边界框表示不能捕获先前检测的完整状态。理想情况下，类似人类的时空记忆的表现不仅应该告诉我们哪里有物体，而且应该告诉我们哪里没有物体。我们提出了一个地图表示记录和积累的对象占用状态的世界帧。OOM是用点云输入和在最后一个时间步长从后端运动预测模块产生的对应对象未来状态预测来构造的。如图所示3.2，该表示可以用作对周围世界的选择性注意机制，其引导对象检测器仅聚焦于场景的重要部分对象占用图被表示为BEV（自顶向下视图）中的2D网格OOM的更新过程在图1中被直观地示出。3.第三章。从概念上讲，OOM构建类似于密集重建系统（如KinectFusion [35]）中的映射过程的2D BEV版本主要区别在于，对于OOM构造，目标是融合来自每帧的对象占用状态观测，而不是重建密集几何。形式上，通过以下等式更新对象占用图MtMt=Vox elize（φ（t−1（Pt）+Mt−1其中，如果点pi在对象未来状态的任何边界框中，则φ（pi）= + γ，否则为1。γ=λs t是由因子λ重新缩放的融合对象分类得分，我们将在第2节中进一步说明。三点三我们使用ξt−1（·）表示1由于系统独立地处理不同的对象，因此只考虑来自一个类别的一个对象实例以简化表示法。13188·----联系我们图2. UDOLO系统图。实线箭头表示主要数据流。红色箭头表示反馈机制设计。在每个时间步长，前端区域建议网络（OOM引导的RPN）将点云作为输入，仅在具有由对象占用图给出的高对象占用分数（红点）的区域以及可能出现新对象的未观察区域（蓝点）中提取当前帧对象这些建议随后与来自最后一帧的后端对象未来状态预测融合，并通过检测器的第二阶段（Fusion R-CNN）。在与轨迹片段相关联之后，当前前端预测被馈送到卡尔曼滤波器中以产生融合对象状态作为最终边界框预测。然后，根据由运动预测模块给出的未来对象状态来更新对象占用图。最佳彩色视图（放大查看详细信息）。从摄影机帧到世界帧的转换，以及表示将世界帧点云转换为2D网格的操作的Voxelize（）M0被初始化为具有全零值的2D网格。3.2. 早期整合：OOM引导的RPN为了使检测器只在先前未观察到的区域中检测并继续检测观察到的对象，集成必须在检测流水线的最开始发生。给定来自上一帧的对象占用图，通过选择一个阈值σ，将输入点云根据对应的占用划分为三个部分因为传入的点更少，所以在主干处保存锚点和生成的建议的数量也大大减少，从而节省了RPN和3D非最大值抑制（NMS）的计算时间，而不会跳过任何输入帧。与跳过输入帧以加速检测流水线的一些视频对象检测方法[65]3.3. 中间集成：融合R-CNN在从RPN生成对象提议之后，在R-CNN阶段进一步集成时空存储器融合步骤涉及两组绑定世界坐标系中网格位置（x，y）框xes：当前帧对象建议{b道具 }和对象Mt（x，y）> σ高占有面积Mt（x，y）−σ低占有面积<−σ≤Mt（x，y）≤σ 未观测面积由于我们该过程在图1中直观地示出。3.第三章。通过基于时间融合的00M丢弃不包含对象的区域，计算成本为来自后端bpred的未来状态预测样本，这使得融合过程在概念上类似于卡尔曼滤波器中的校正步骤。这些边界框首先在边界框回归网络中融合，方法是通过3DRoI Pooling模块裁剪的bprop和bpred 的RoI点云的组合[40，47]。bpred还参与具有融合对象分数的3D NMS过程，其中融合通过以下对象置信度分数的移动平均来实现：tt−1个连续观测值：st=s+αs. st表示Bxx1+αx帧t-1物体占据图未来对象状态样本帧t输入点云中间整合汇总提案前端3D框轰--引导RPN物体占据图未来对象状态样本最终3D框预测不反馈设计（我们的）检测和跟踪管道卡尔曼滤波OOM更新运动预测OOM分割点云早期一体化卡尔曼滤波运动预测融合RCNNOOM更新与tracklet关联前端后端后端13189B∈------------OOM更新OOM指导的RPN未来对象状态样本点云OOM（更新前）-1+1- 1++-1++-1+1- 1-1点云当前占用状态OOM轰--分割点云图 4. Fusion R-CNN 插图。黄色框：当前框架建议（{bprop}）。绿框：从后端对象状态预测（{bpred}）采样的建议。紫色框：R-CNN细化后的建议。蓝色框：前端3D框（{bfron t}）。OOM（已更新）图3. OOM更新流程和OOM指导的RPN说明。红色：高占用区。绿色：低占用区。蓝色：未观察区域。最佳彩色视图（放大查看详细信息）。st是来自帧t的检测到的3D边界框的得分。α[0，1]是衰减参数。融合R-CNN在前端产生当前帧观测值，表示为b_f_ont。融合R-CNN的视觉图示在图中给出。4.第一章融合R-CNN将当前帧对象提议以及时间融合和预测的后端对象未来状态合并到边界框回归网络（R-CNN）中，这使得前端边界框预测更加准确和稳定。在R-CNN之前的RoI点云融合步骤将确保在RPN未能产生准确的对象建议的情况下，对应的感兴趣对象的点云通过将bpred集成到NMS过程中，来自先前帧的时间优化的对象状态即使由于严重的截断或遮挡，R-CNN未能预测具有足够高置信度分数的边界框，由于分数融合过程，NMS模块仍将能够从b预测中3.4. 其他组件协会关联模块的作用是找到当前帧检测结果与后端轨迹片段之间的对应关系。虽然可以使用更复杂的方法，但由于相似性估计和对应搜索不是这项工作的主要焦点，我们简单地选择基于3D IoU的关联并使用匈牙利算法[29]解决二分匹配。卡尔曼滤波和运动预测。卡尔曼滤波器（KF）是用来融合当前和未来的状态预测b pred从最后一帧和估计的真实对象状态的时间观测。我们遵循AB3DMOT [52]KF中的所有参数设置。在每个时间t，由KF预测t+1上的对象运动预测，其稍后用于OOM构造过程和FusionR-CNN。关于这一过程的更多细节可在补充材料中找到3.5. 讨论对于标准的3D对象检测器，每个输入帧都被等同地对待，因为它来自全新的场景。它没有利用先前的观测对象的检测结果来实现更准确的状态估计，而浪费计算在寻找空区域中的对象，这些空区域肯定没有感兴趣的对象。所提出的UDOLO系统试图解决这些问题，通过构造和反馈的OOM和记忆对象的未来状态作为时空记忆，使对象检测操作的时间先验信息在整个管道。这种集成也模糊了检测和跟踪之间的边界。因此，我们认为UDOLO作为一个综合的检测和跟踪系统。值得注意的是，我们在2D对象检测和跟踪领域观察到类似的趋势，例如 Tracktor++[3]和 Center-Track[64]，它们直接使用对象检测的模块进行跟踪或以更一致的方式组合这两个任务我们相信UDOLO中提出的早期和中期整合的想法对社区将这两项任务更紧密地结合在一起是有价值的。4. 实验在本节中，我们进行了一系列实验来证明UDOLO中时空记忆反馈设计的有效性，并给出了详细的消融研究来分析我们的系统中不同组件的重要性。4.4我们将在补充材料中进一步讨论实验设计R-CNN未来对象状态样本三维网络管理系统13190椅子沙发床火炉桌浴缸柜衣柜打印机洗衣机地图VoteNet41.1424.5933.6122.0814.8713.369.314.904.873.712.861.6914.75深度所有我们51.6332.6540.3225.8420.0414.3812.195.666.526.023.462.4018.43W/O早期51.5341.1732.1724.8940.0633.6225.7722.1319.9414.9414.3313.3912.049.325.504.916.444.816.183.722.962.852.251.6318.2614.78w/o中。发生率VoteNet6.670.200.220.500.741.420.110.810.010.010.040.130.91我们19.114.682.303.224.032.110.851.380.360.130.070.573.23所有VoteNet11.308.4718.873.143.302.412.320.910.980.210.310.644.41RGB我们21.9213.7522.899.696.093.304.231.121.980.141.321.367.32发生率VoteNet0.471.9110.240.580.221.100.260.020.010.010.010.031.24我们6.535.8613.896.561.751.671.370.090.600.120.350.333.26表1. ScanNet验证集上的3D对象检测结果。在实验中考虑了12个类别，使用单帧深度/RGB图像作为输入，用mAP@0.5IoU（%）进行评估。烧蚀的研究，我们的方法没有早期/中期集成灰色背景。椅子沙发床炉子表浴缸内阁特尔斯宾英国广播公司打印机垫圈弗拉克布整体STD. 译VoteNet1.081.230.330.611.381.110.940.950.18-0.43-1.07我们1.020.030.120.520.980.110.770.261.82-0.05-0.76STD. 腐VoteNet37.8812.1218.7147.2232.8838.3340.282.762.10-5.12-37.98我们31.826.544.4410.4519.9711.8312.666.9314.09-19.780.2817.88STD. 昏暗VoteNet0.850.211.730.670.730.920.670.060.05-0.08-0.79我们0.540.110.180.210.370.170.450.120.54-0.190.040.37表2. ScanNet验证集的稳定性，采用[18]中建议的指标，使用单帧深度输入。对于所有指标来说，越低越好。4.1. 数据集、指标和基线4.1.1室内环境：ScanNet室内环境对于3D对象检测器来说一直是具有挑战性的，因为室内对象通常在类别上更加我们使用ScanNet[9]数据集来证明UDOLO中时空记忆的反馈设计的有效性。虽然UDOLO可以处理室内场景中的移动对象，但我们删除了运动预测模块，因为ScanNet中的所有对象都是静态的。基线。由于我们方法的实时性和增量性，实验设置与使用该数据集的大多数基线方法 [23 ， 40] 不同。VoteNet检测世界帧中定义的轴对齐边界框，并将整个场景的完整点云作为输入。相反，我们使用每个帧的单视点云作为输入数据，并预测相机帧中的定向边界框，这在实时应用中更实用。由于Scan2CAD [1]中对齐的CAD模型地面实况注释，我们直接使用定向3D边界框训练VoteNet的单视图变体。我们进一步利用由DeepV2D [49]从多视图RGB图像重建的点云来评估UDOLO，在表1中表示为RGB。类别和指标。我们在Scan2CAD实验20类，并提出12类AP大于1%。为了展示UDOLO的遮挡或截断处理能力，我们创建了一个新的难度级别，“occluded”我们使用3D对象检测mAP@0.5IoU作为主要指标。考虑到ScanNet中的对象在世界坐标系中是静态的，我们由于空间限制，我们将所有20个类别的结果、IoU阈值为0.25的结果、详细的地面实况准备过程以及边界框稳定性的指标留给补充材料。4.1.2户外环境：KITTI为了证明UDOLO也可以应用于动态场景，我们在KITTI跟踪和KITTI对象数据集上对其进行了进一步评估。对于立体图像输入，3D检测器的点云输入根据伪激光雷达[51]中提出的方法从估计的视差转换使用AB3DMOT [ 52 ] 中提出的度量来测量多对象跟踪（MOT）性能，AB3DMOT [52]是CLEAR度量[4]的3D变体。我们还考虑AB3DMOT作为LiDAR输入的基线方法，因为我们共享相同的3D检测器（PointRCNN），关联方法（基于IoU的关联）和状态融合方法（卡尔曼滤波器）。我们进一步将我们的方法与使用序列立体图像作为输入的[32]和[31]进行所有实验中使用的训练/验证分割与相应的基线相同，以保持公平的比较。公共基准测试集的2D MOT结果见补充材料。13191××××方法输入AP3d（IoU=0.5）AP3d（IoU=0.7）容易Mod.硬容易Mod.硬PL（AVOD）立体声88.5076.4061.2061.9045.3039.00PL（F-PointNet）立体声88.6072.8063.9054.9036.4031.10PL（PointRCNN）立体声89.0174.3667.1162.5145.7839.50方法类型AP3d（IoU=0.25）AP3d（IoU=0.5）容易中度硬容易中度硬3DOP [6] 单帧80.6270.0165.7653.7342.2735.87ST [31]我们多帧多帧86.5786.6974.1375.7168.9668.0948.5186.4537.1367.4934.5459.66方法输入3D IoU = 0.253D IoU = 0.53D IoU = 0.7(sA/A/）MOTA（A）MOTP(sA/A/）MOTA（A）MOTP(sA/A/）MOTA（A）MOTP简体中文[CN]单- / - /-15.6- /47.9- / - /-55.6- /63.8--ST [31]立体声- / - /3.3- /51.7- / - /-34.1- /65.4--JST [32]立体声- / - /56.7- /62.3- / - /29.4- /69.4--我们立体声63.8/22.4/53.753.1/71.716.9/45.548.4/74.426.8/4.3/20.032.4/80.6mmMOT [62]LiDAR70.6/33.1/74.172.5/78.269.1/32.8/73.572.2/78.563.9/24.9/51.967.3/80.7FANTrack [2]LiDAR83.0/40.0/74.375.0/75.280.1/38.2/72.773.6/74.962.7/24.7/49.266.1/79.0AB3DMOTLiDAR93.3/45.4/86.277.4/78.490.4/42.8/84.075.7/79.069.8/27.3/57.167.0/82.4GNN3D [53]LiDAR93.9/45.8/86.078.1/79.0- /--- /-- /--- /-[55]第五十五话LiDAR94.4/46.2/86.976.8/78.3- /--- /-- /--- /-我们LiDAR94.9/47.4/87.980.7/79.892.7/45.2/86.278.9/80.075.7/31.0/65.869.7/82.6表 3. KITTI Tracking 验证集上的 3D 多对象跟踪结果。我们报告汽车类别的 3D MOT 指标。（ sA/A ） MOTA 代表sAMOTA/AMOTA/MOTA，（A）MOTP代表AMOTP/MOTP。使用[52]中提供的3D MOT评估工具在3D空间中进行评估。3D IoU是用于真阳性（TP）分配的阈值。对于所有指标来说，越高越好。表4. KITTI对象验证集上的3D对象检测结果。我们报告汽车类别的AP3D（以%计）。PL代表伪激光雷达[60]。4.2. 实现细节原则上，所提出的框架与各种两阶段3D对象检测器一起工作对于室内场景，我们使用VoteNet作为基本检测器，并将VoteNet中的点云对于户外场景，我们使用PointRCNN [47]作为基本检测器，其中“基于bin的3D框生成”模块被视为RPN，“基于bin的3D框细化”被在ScanNet和KITTI的训练过程中，我们使用与原始实现相同的超参数。由于点云主干的灵活性，在UDOLO内的推断期间，不需要微调网络以适应输入点云的不同模态由于在KITTI上构建覆盖整个室外场景的OOM是不切实际的，因此我们在摄像机前面构建了一个移动的OOM，该摄像机随车辆移动具体而言，OOM的面积在ScanNet上设置为8m 8m，在KITTI上设置为25 m 15m，体素大小设置为0。04米0. 04m和0. 5米0. 5米，分别。OOM引导RPN中的阈值σ在ScanNet上设置为3，在KITTI上设置为8缩放参数λ被设置为100。我们在FusionR-CNN中使用50个当前帧提案和50个后端未来状态样本。相机自运动从 ScanNet 上的 BundleFusion [10] 和KITTI上的VINS-Fusion [42]获得。表5. KITTI跟踪验证集上的3D物体检测结果。我们使用立体图像作为输入报告汽车类别的AP 3D（以%计），使用0.25和0.5的IoU阈值进行评估。3DOP的结果来自[31]。4.3. 评价结果ScanNet上的3D物体检测性能。ScanNet上的结果见表1。我们的方法也产生了更好的性能相比，单帧detec-tion基线（复制的单视图变体的VoteNet）。特别地，在“闭塞”分裂上，mAP的改善在比率上高达250%（从0.91至3.23）。从多视图RGB图像重建的点云的实验也显示出一致的改进。显著的改进得益于UDOLO边界框从后端到前端的反馈使得系统能够记住先前检测到的对象并在当前时间步长中重用该信息。ScanNet上的稳定性评价。结果报告于表2中。没有数字的单元意味着在任何两个相邻帧中没有稳定的边界框预测利用时空记忆提供的强先验信息，该方法比单帧检测基线更稳定在补充视频中也可以观察到边界框稳定性的改善KITTI Tracking上的3D MOT性能。KITTI跟踪的确认和测试集结果总结见表3。在3D MOT结果方面131928070605010080 60时间（ms）45.545.044.544.043.543.00 10 20检测精度主要由中间积分器贡献特别是在“椅子”类别，AP遭受了10.5%的严重下降（21%的比例）时运行时速度（早期集成的有效性）。正如在第二节中所解释的。3.2，OOM引导的RPN中的早期集成设计将节省主干和RPN上的运行时间我们分析了运行时加速在骨干网图5. 权衡速度和准确性。对于汽车，速度通过每帧运行时间（ ms ）测量，精度通过AP3D（%）在IoU=0.7时测量.越靠近右上角的曲线越好。图6. 消融研究具有立体声输入的KITTI跟踪集上的OOM阈值参数σ。我们报告了在3D空间中评估的汽车类别的MOTA在我们的实验中使用σ= 8。以及KITTI对象与PointRCNN的早期集成带来的RPN。运行时间从42ms减少到32ms，提高了23.8%。我们给出了UDOLO中速度和精度之间的权衡分析，如图所示。五、通过选择不同数量的总体对象建议来实现折衷，从100到10开始，步长为10。对于我们的方法，{bprop}和{bpred}用作提案，编号在验证集上，我们的方法比共享相同输入的相应基线表现更好，特别是在0.5 IoU阈值下。我们观察到，与基线方法JST相比，我们的方法具有显著较低的误报量，从而导致MOTA的大幅改进。对于使用LiDAR输入的结果，我们的方法在大多数指标上都超过了基线方法AB3DMOT由于AB3DMOT共享了UDOLO中使用的大部分相同模块（即3D检测器，卡尔曼滤波器和运动预测），因此这些改进验证了时空记忆反馈的有效性KITTI Object和KITTI Tracking的3D物体检测性能。结果总结见表4和5.对于3D对象检测性能，如表中所示，我们的系统在检测度量方面大大超过了基线方法（PL（PointRCNN）和ST）。由于PL（PointRCNN）被用作 UDOLO 的基本检测器，因此 Ours 和 PL（PointRCNN）之间的比较表明，UDOLO也提高了检测度量的性能。4.4. 消融研究反馈设计（中间整合的有效性）。结果示于表1中，背景为灰色。我们验证的时空记忆反馈设计，分别删除早期（标题为w/o早期。）和中间集成（w/o mid. ）.系统的其余部分保持不变。与完整系统（我们的）相比，在没有中间集成设计的实验中，性能显著下降（w/o mid. ）.结果W/O早。进一步表明，虽然输入点已被删除的早期集成设计，结果并没有显着下降。如后所示，早期集成设计在不损失检测精度的情况下提高了运行时速度这些结果表明，改善它们之间的比例保持固定。实验是在KITTI天体上进行的，输入了LiDAR数据。该图揭示了我们的时空记忆反馈设计对运行时速度的有效性。我们的系统可以保留的预测精度，即使建议的数量减少到原来的数量的一半，而单帧检测基线的精度迅速下降。对不同OOM阈值σ的影响。如图6，AMOTA评分[52]随着σ的增加先增加后减少。在σ值较小的情况下，即使在相应位置处的观测值的数量不够，也将移除点云的较大部分，从而降低整体性能。当阈值大于20时，大部分点云通过网络，因为很少有位置具有超过阈值的观测值，并且OOM引导的RPN降级为将整个点云作为输入的RPN的普通版本。5. 结论在本文中，我们介绍了UDOLO，一个集成的检测和跟踪系统，将对象占用图和对象状态作为时空存储器，并通过检测管道一直馈送该存储器，以提高3D检测的效率和准确性我们在实验中证明了所提出的反馈设计的有效性，其在室外和室内数据集上的3D多对象跟踪和单帧3D对象检测中均超过基线方法。谢谢。作者感谢国家重点研究发展计划（2003年）的支持。2020 AAA 0108901）、国家自然科学基金（编号： 61822310 ）和 ZJU-SenseTime Joint Lab of 3DVision.PRCNN模块我们的国防部硬路PRCNN我们的哈AP（%）MOTA（%）13193引用[1] Armen Avetisyan ， Manuel Dahnert ， Angela Dai ，Manolis Savva ，Angel X. Chang和Matthias Nieß ner。Scan 2CAD ：学习RGB-D 扫描中的CAD 模型对齐。CVPR，2019年。[2] ErkanBaser 、 VenkateshwaranBalasubramanian 、PrarthanaBhattacharyya和KrzysztofCzarnecki。FANTrack：使用特征关联网络进行3D多目标跟踪。2019年IEEE智能车辆研讨会（IV），2019年。[3] Philipp Bergmann，Tim Meinhardt，and Laura Leal-Taixe.没有铃铛和哨子的跟踪。在ICCV，2019年。[4] 肯尼·贝尔纳丁和雷纳·施蒂费尔哈根。评估多对象跟踪性能：CLEAR MOT指标。EURASIP Journal on Imageand Video Processing，2008，2008。[5] Garrick Brazil，Gerard Pons-Moll，Xiaoming Liu，andBernt Schiele.单目视频中的运动三维目标检测。ECCV，2020年。[6] Xiaozhi Chen ， Kaustav Kundu ， Yukun Zhu ， AndrewBerne-shawi ， Huimin Ma ， Sanja Fidler ， and RaquelUrtasun. 3D对象建议用于准确的对象类别检测。神经信息处理系统（NIPS），2015年。[7] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视图三维物体检测网络。在CVPR，2017年。[8] Hsu-kuang Chiu，Antonio Prioletti，Jie Li，and JeannetteBohg.自动驾驶的概率三维多目标跟踪Arxiv，2020年。[9] 戴安琪，天使 X.Chang ， Manolis Savva ， MaciejHalber ， ThomasFunkhouser ， andMatthiasNießner.CVPR：丰富注释的室内场景三维重建CVPR，2017年。[10] AngelaDai ， MatthiasNießner ， MichaelZollh oüfer ，ShahramIzadi，and Christian Theobalt.BundleFusion：使用动态表面重新整合的实时TOGS，2017年。[11] Julie Dequaire、Peter Ondruska、Dushyant Rao、DominicWang和Ingmar Posner。野外深度追踪：使用递归神经网络的端到端跟踪。国际机器人研究杂志，37，2017。[12] Jingming Dong，Xiaohan Fei，and Stefano Soatto.三维物体检测的视觉-惯性-语义场景表示在CVPR，2017年。[13] A. 精灵使用占用网格进行移动机器人感知和导航。Computer，22（6），1989.[14] Nico Engel ， Stefan Hoermann ， Philipp Henzler ， andKlaus Dietmayer. 使用rnns在动态占有栅格地图上进行深度目标跟踪2018年。[15] 费晓涵和斯特凡诺·索亚托。视觉-惯性物体检测和映射。ECCV，2018年。[16] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测到跟踪和跟踪到检测。ICCV，2017年。[17] 戴维·弗罗萨德和拉奎尔·乌塔松端到端学习的多传感器三维跟踪检测。ICRA，2018年。[18] MathieuGaron，DenisLaurendeau，andJean-FranncoisLalonde.六自由度目标跟踪器的评估框架。ECCV，2018年。13194[19] Silvio Giancola，Jesus Zarzar，and Bernard Ghanem.杠杆老化形状完成三维暹罗跟踪。CVP

下载后可阅读完整内容，剩余1页未读，立即下载