LiDAR传感器的目标检测与预测方法简介和评估指标

65 浏览量更新于2023-10-25 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17202通过未来目标检测从LiDAR进行预测尼哈尔佩里酒店1* JonjiangLuiten 1，2MengtianLi 1Aljo sLuaO sLuep 1，3LauraLeal-T aix e'3，4D ev aRamanan1，41卡内基梅隆大学2亚琛工业大学3TUM慕尼黑4Argo AI@andrew.cmu.edu，leal. tum.de摘要a）目标检测和预测是具身感知的不过，社会人士对这两个问题的在本文中，我们提出了一个端到端的方法，检测和运动预测的基础上，原始传感器测量，而不是地面真实的轨道。我们不是预测当前帧的位置并在时间上向前预测与其他模块化或端到端基线相比，我们的方法不仅提高了整体准确性，还促使我们重新思考显式跟踪对体现感知的此外，通过将未来和当前位置以多对多的方式连接起来，检测、跟踪、预测一方面，我们的方法能够推理多个未来，这是以前认为端到端方法难以实现的能力我们在流行的nuScenes数据集上进行了广泛的实验，并证明了我们方法的经验有效性此外，我们还研究了在端到端设置中重用标准预测指标的适当性，并发现了一些限制，这些限制使我们能够构建简单的基线来应对这些指标。我们解决这个问题，一套新的联合预测和检测指标，扩展了常用的AP指标从检测社区测量预测的准确性。我们的代码可以在GitHub上找到。1. 介绍目标检测和预测是具身感知的基本组成部分，通常被独立研究在本文中，我们重新考虑了从LiDAR传感器数据进行轨迹预测的方法和轨迹预测是机器人自主导航的关键感知任务，因此建立有意义的评价指标和鲁棒方法至关重要。传统的轨迹预测方法[6，9，47] de-*在Argo AI图1.（a）目前的分阶段方法独立处理检测、跟踪和预测的问题，考虑到整个管道中的复合误差。每个子模块不正确地假设其输入将是完美的，从而导致进一步的积分错误。与使用对象轨迹作为输入的当前预测方法相比，直接从LiDAR传感数据进行端到端预测（b）简化了预测管道。为此，我们提出了FutureDet（c），这是一种端到端模型，能够通过未来物体检测直接从LiDAR预测多个未来轨迹。我们表明，我们的端到端管道改进后，国家的最先进的三阶段和端到端的方法。tect [44- 46 ]和跟踪[ 23，48，50 ]三维激光雷达扫描中的对象，以获得过去的轨迹（图）。1a）。这些可以与自回归预测方法[1，20，22，43]结合使用，以估计未来的行动，舍入剂。最近的努力[33，37，51]简化了这种多阶段感知堆栈，并训练多任务神经网络，以直接从原始传感器数据联合检测，跟踪和预测对象位置（图1）。（见第1段b）。然而，这种端到端的方法往往只预测每个物体的单一未来轨迹，而不考虑未来的不确定性。这并不奇怪，因为估计多个未来是预测中的一个重大挑战，需要多项选择损失[5]或生成模型[2，10，11，20，22，25，29，42]等机器我们重新思考了预测任务，并提出了FutureDet，这是一种将预测重新定义为未来任务的方法激光雷达序列检测跟踪预测b）、端到端预测LiDAR序列预测目标检测+偏移预测c）、此工作：预测作为未来对象检测多元化未来激光雷达序列预测（未来）目标检测+回溯17203真实目标检测（图1c）。重要的是，现有的检测器[27，53，56]已经学会预测捕获可能对象位置上的分布的热图。我们重新利用这个机制来表示可能的未来对象状态。为此，我们使用基于3D LiDAR的对象检测的标准主干对过去原始LiDAR扫描的累积序列进行编码，并训练我们的网络以（i）检测未来多个时间步的对象，以及（ii）及时估计这些未来检测的轨迹（即，回射）到当前帧。通过以多对一的方式将回溯的未来检测与当前检测进行匹配，我们的方法可以表示多个可能的未来状态的分布。我们对用于轨迹预测的大规模nuScenes [6]数据集的广泛评估表明，我们提出的FutureDet优于最先进的方法，而不需要对象轨迹或HD图作为模型的输入。我们认为，跟踪可能会从我们的网络中出现（因为从过去的激光雷达扫描中跟踪对象可能会使它们更容易预测），类似于流感知中跟踪和预测的出现[31]。此外，我们研究了当前度量[33，49]用于直接从原始LiDAR数据评估预测的实用性我们发现，现有的指标不太适合联合检测和预测的任务，让他们被平凡的预测。当前用于端到端LiDAR预测的指标这些指标的设计是为了评估预测的设置，其中完美的轨道作为输入，并ob-bankers不需要检测。但是，这些指标并不能很好地适应端到端设置。我们证明，这样的度量可以通过基线来进行游戏，该基线简单地以高置信度对所有静止对象（其很容易预测）进行排名，显著地优于所有现有技术。此外，这些评估指标分离了检测和预测这两个因此，他们不惩罚错误的预测，实际上不属于任何对象的预测。从这个意义上说，端到端的设置和评估更加现实。为了解决这些问题，我们重新考虑了直接从传感器数据进行联合目标检测和预测的评估过程。我们的主要见解是，通用的平均精度（AP）度量，黄金标准评估- ING对象检测性能，可以推广到联合检测和预测的任务。我们的新预测mAP的关键特征是，只有当对象被正确检测和预测时，预测才是正确的。我们的预测mAP然后通过简单地使用AP的算法来计算，但是使用真阳性的这种联合检测和此外，我们的预测mAP可以扩展到评估多个未来的预测，每个对象通过简单地评估w.r.t.前K最多每次检测的可靠预测。我们的指标适当地调整了端到端评估的预测指标：预测mAP联合评估预测和检测，将错过的预测和错误的预测都进行了分析。它评估了对全部物体探测的预测性能，并包含了预测的内在多未来性质。贡献：我们（i）重新利用对象检测器进行端到端轨迹预测，并提出了一个模型，可以预测每个当前检测的多个预测，（ii）重新思考轨迹预测评估，并表明可以使用普遍接受的对象检测指标来联合评估检测和预测，以及（iii）彻底分析我们的模型在具有挑战性的nuScenes数据库上的性能t [7]，表明它优于以前的端到端可训练方法和更传统的多阶段方法。2. 相关工作目标检测和跟踪。由于监督式深度学习[26]的最新进展以及社区在数据集收集和基准测试[4，6，12，16，47]方面的努力，研究社区见证了基于LiDAR的3D对象检测[27，39，44，45]的快速改进，跟踪-[48][49]几种方法[44，45]遵循使用点云编码器骨干和区域提议网络的3D变体[40]的成熟的两阶段对象检测流水线，或者将对象检测为点，然后进行分类和边界框回归[53]。由于LiDAR点云的稀疏性，最近的方法随着时间的推移积累多次扫描，以提高目标检测[27，53]和LiDAR全景分割性能[3]。为了了解检测到的物体的轮廓如何随时间演变，多物体跟踪方法使用卡尔曼滤波器[48]、学习的物体描述符[14，50]或回归帧到帧偏移[53，55]来关联检测，通常随后进行贪婪或组合优化以解决模糊的数据关联。后一种方法可以被解释为用于航迹关联的单帧预报。然而，自主车辆必须在较长的时间范围内考虑周围代理的可能的未来位置，以在动态环境中安全导航和避免碰撞。轨迹预测基于视觉的轨迹预测已经被提出来作为预测智能体的未来行为的任务，给定完美的过去轨迹和自上而下的图像（例如，使用无人机）作为输入[30，38，41]。早期的基于物理的模型[21]明确地建模代理-代理和代理-环境交互，并已成功地用于增强对象跟踪器[28，52]。最近的方法使用自回归数据驱动模型，利用递归神经网络（RNN）和编码器，17204SS}{∈联系我们我我我我关于我们基于解码器的架构来编码过去的轨迹并估计其在未来帧中的演变[1]。为了处理问题的固有多模态性质，几种方法利用生成模型[18，24]来学习未来轨迹的分布[2，10，11，20，22，25，29，42]。然而，这些方法和基准解决了理想化场景中的预测问题，在理想化场景中，整个视觉场景被直接观察到，并且提供了完美的输入轨迹。在汽车和机器人应用中，这两种假设都是不切实际的。由于预测对于汽车路径规划的重要性，最近的大规模汽车基准测试[6，9，47]明确关注轨迹预测任务。与基于视觉的方法类似，这些基准将预测问题作为给定过去轨迹和环境的高清地图的轨迹这些基准已经促成了一系列广泛的基于HD地图的预测方法，这些方法将HD地图表示为光栅化图像[8，17]、图形或矢量[15，19，32]。然而，这两种算法和评估协议都不切实际地假设检测和跟踪输出是完美的。从传感器数据进行预测现有方法[33，37，51]通过从LiDAR扫描的累积堆栈中以多任务方式训练单个卷积神经网络来联合解决对象检测，跟踪和预测。或者，[49] 直接预测未来的 LiDAR 扫描，并利用现成的LiDAR物体探测器来检测这些预测扫描中的物体。我们认为，这种端到端联合检测和预测的方法是朝着正确方向迈出的一步。然而，上述端到端方法中没有一种能够推理出多个未来轨迹。为了拥抱固有的不确定未来，我们提出了一个端到端的预测模型（第二节）。4）在给定LiDAR扫描历史的情况下，同时检测当前和未来时间步中的对象，将多个可能的未来检测锚定到当前扫描检测。这种方法不仅优于上述方法w.r.t.预测的准确性，但也允许多种未来的解释。最后，我们观察到预测指标的自适应[33，37，51]并不能适当地表征某些类型的预测错误。作为一种补救措施，我们提出了平均精度（AP）[13]度量的泛化，用于联合检测和预测。3 .第三章。请注意，我们采用AP也受到流感知工作的启发[31]，其中AP用于测量2D对象检测，跟踪和短期预测的联合性能，而无需考虑多个未来。3. 重新思考预测评估由于我们正在处理直接从LiDAR扫描预测汽车未来位置的任务，因此我们假设过去LiDAR传感器数据的观测序列，直到在时间tobs的最近观测tobs，作为输入。我们提出联合目标检测和预测的任务，估计一组对象的位置（参数化为三维长方体），在当前的扫描 tobs以及他们的未来轨迹延续未来，未观察到的扫描，即，{St，t ∈ [t obs+1，. - 是的- 是的，T]}。3.1. 预赛先前的工作[1，20，22，30，38，41，43]将预测作为估计给定地面实况跟踪的“正确”延续的任务。特别地，给定过去的轨迹观测 Xi = （ xt ， yt ） R2 ，t=1，. . .，tobs，任务是估计未来位置Yi=（xt，yt）R2，t=tobs+1，. - 是的- 是的，t T表示场景中存在的所有代理。最近的汽车预测基准也采用了这种形式化[6，9，47]。然而，当自我车辆移动时，方法被给出周围环境和自我车辆位置的高清（HD）地图以考虑周围环境的几何形状首先，我们讨论了现有的预测评估指标ADE和FDE。平均位移误差（ADE）和最终位移误差（FDE）是用于评估轨迹预测的常用评估指标。两者都是以模型预测之间的L2距离来衡量的Yi和地面实况轨迹Gi。为了解释轨迹延续中的固有不确定性，在前K模型预测集上评估方法（w.r.t.每个预测预报的置信度得分）。这些方法假设所有方法的真阳性集相同。当比较端到端方法时，这种假设不成立，端到端方法可能产生不同的真阳性结果集，使比较不可靠。拉特小姐如果地面实况轨迹和预测之间的最终位移误差高于中心距离阈值，则我们将预测计数为未命中（类似地评估为w.r.t.前K个预测的集合）。此度量评估场景中所有预测的未命中比例。ADE/FDE w.r.t.记得了标准预测设置允许我们建立与其他因素隔离的模型，并在该研究领域取得了快速进展[1，10，11，20，22，43]。然而，具有完美的输入轨迹的标准配置在实践中是不可行的，因为它严格地依赖于完美的对象轨迹作为输入，这在实践中几乎不可能获得。为此，[33，37，51]研究了直接从原始传感器数据进行端到端轨迹预测，并提出了使用上述ADE和FDE在固定召回阈值下进行端到端预测模型的评估设置，即，ADE/FDE为60%或90%。此评估设置有两个主要缺点：17205S----仅在匹配检测的子集上进行评估。大量的智能体是不移动的，对它们未来位置的预测将静止对象的排名高于移动对象的模型可以通过专门处理琐碎的预测来获得更高的预测性能。我们在第二节中提供了经验证据。5.1，并表明这种基于召回的度量可以使用简单的恒定位置预测模型进行假阳性不受惩罚。目前的评估方案将检测和预测这两项相互关联的任务分开。因此，模型可以预测任意数量的预测，这些预测不依赖于任何检测。换句话说，这种方法不惩罚错误的预测，即，没有固定到任何检测的预报，以及通常以未命中率为特征的未命中预报评估设置（i）考虑所有检测（不仅仅是真阳性），以及（ii）惩罚错过的预报（典型地由错过率表征）。预测平均精度（mAP f）。预测-ING AP评估的全套检测，不能“游戏”的一个简单的恒定的位置模型。然而，我们注意到数据本身是不平衡的：nuScenes数据集中超过60%的汽车是停放的，因此是静止的。为此，我们定义了三个子类：静态汽车，线性移动汽车和非线性移动汽车。计算子类AP f可能很困难;我们不要求预测输出子类标签，但假设所有地面实况对象都有子类标签。我们遵循COCO [35]的大对象与小对象子类评估协议，在附录中进一步描述然后，我们将mAP f评估为1（APstat. +AP直线 +AP非线性。）以确保我们的3f f f3.2. 平均精度是你所需要的平均精密度（AP）。AP被定义为精确度-召回率曲线下的面积[13]，通常在多个空间重叠阈值上取平均值[34]。为了计算AP，我们首先确定真阳性（TP）和假阳性（FP）的集合，以评估精度和召回率。在标准物体检测中，TP被认为是模型预测与地面实况之间的成功匹配，通常分别基于2D/3D交联（IoU）[13]或距参考图像或LiDAR点云中物体中心的距离[6]确定。我们可以通过（a）评估当前帧的检测精度或（b）评估未来T秒的检测精度来扩展AP以进行联合检测和预测然而，（a）完全忽略预测，并且（b）预测平均精度（AP f）。对于联合检测和预测的任务，所有未来的预测都需要锚定到对象，在tobs中呈现（并检测）。鲁棒的度量必须正确地惩罚具有正确的第一帧检测和不正确的预测（错误的预测）的轨迹，以及具有不正确的第一帧检测（错过的预测）的轨迹。为了表征这两种类型的错误，如果在当前时间戳（tobs）和未来（最终）时间步长tobs+T中存在正匹配，则我们参考当前帧tobs定义真正。否则，预测被认为是误报。当前帧中的成功匹配是基于与中心的距离来确定的，平均距离阈值为0。5、1、2、4m [7]。类似地，基于分别在1、2、4、8m的距离阈值上平均的距对象中心的距离来确定最终时间步中的成功匹配。与ADE @ Recall %和FDE @ Recall %相比，度量不能被琐碎的预测者“玩弄”，也不能分别讨论对这三种情况的细粒度分析。类似地，mAPdet被评估为三个子类上的平均APdet拥抱多种未来。如所描述的，mAP f将适合于评估对具有多个未来地面实况轨迹的场景的预测。然而，当直接从历史传感器数据进行预测时，这在实践中是不可行的。为此，我们采用了基于前K的预测评估[30，38，41]，这不会惩罚从单个检测锚定的假设可能的未来轨迹的模型特别是，我们首先将预测与tobs中的地面实况检测相匹配，并为每个检测获取排名最高的前K个预测。基于这个集合，我们确定FDE方面的最佳匹配预测，并如上所述评估APf4. 预测作为未来目标检测FutureDet通过预测在tobs处观察到的对象的未来位置来解决预测问题。我们可以重新利用现有的LiDAR探测器来预测T个未来（未观察到的）LiDAR扫描的对象位置，为此给出了地面实况监督。我们首先描述了我们的方法，并讨论了我们的实现基于最近提出的中心点激光雷达检测器。[53]。未来目标探测和预测是相关的任务。预测要求在当前帧和T个未来帧之间的每一帧中预测一致的轨迹为了从未来的检测中估计预测，我们训练我们的网络来额外估计每个未来检测的速度偏移向量。我们对当前时间步和未来检测发生的最终未来时间步之间的所有帧都这样做。回溯与预测。《速度与激情》[37]提出了一种类似的架构，可以直接从当前帧检测中预测未来的位置偏移。我们17206激光雷达序列对象检测未来目标检测t-i：t不t+1t+2t+T回溯+匹配…图2. FutureDet. 基于累积的LiDAR序列，FutureDet检测当前帧t和未来帧t+T中的对象。然后我们将这些未来的检测投射到过去（即，反向投射）到当前帧，在那里它们与当前帧对象检测相匹配。多个未来检测与当前帧检测的这种匹配是用于观察到的证据的多未来解释的自然机制方法考虑了逆设置，其中我们在当前和未来帧中进行检测我们认为，未来的对象检测需要网络学习预测的特征表示[36]，直接优化未来的对象位置。我们的实验评估和目视检查证实了这一直觉（第（3）第三章。方法：拥抱多种未来。预测的任务本质上是模棱两可的：尽管在给定输入轨迹的情况下有许多可能的结果，但对于训练监督和评估来说，只有一种未来是可以实现的。传统的预测方法和基准通过基于前K的评估促进多个未来预测，利用多选择损失[5]和生成模型[2，10，11，20，22，25，29，42]来学习未来轨迹的（可能是多模态[10，11]）分布Future- Det允许自然的多未来预测出现。我们首先指出，通过在未来T秒内给出目标边界框，可以很容易地将检测网络重新用于未来的检测。由于未来对象的检测独立于当前帧的检测，我们认为网络将为场景中的每个对象产生多个未来检测，有效地将由于所有未来的检测都是由高斯热图建模的，因此我们隐式地获得了未来可能位置的多模态分布（见图1）。2）。匹配多个预测。预测任务要求将所有轨迹锚定到当前（观察到的）LiDAR扫描中的对象检测集。对于每个未来的检测i，我们回溯并计算从前一个时间步到每个检测j的距离。对于每个i，我们选择最好的j（允许多对一匹配）。这个框架自然地允许潜在地多个未来预测属于每个当前时间步检测。对多个预测进行排序。对于锚定在单个检测的所有预测，我们根据其预测得分对轨迹进行排名，这些预测得分是使用预测轨迹中最后一次检测的检测置信度得分得出的。如表2所示，我们发现，在K=1和K=5之间，per-cycle略有增加，这表明更好的排名策略可以进一步改善FutureDet。实施. 我们训练CenterPoint在未来的扫描中检测物体。底层检测网络简单地认为它找到汽车和未来汽车），具有附加的回归偏移（类似于现有的速度回归器）。此外，我们重新利用地面实况采样（又名复制-粘贴）增强[57]以增加训练投影的多样性。这在线性和非线性预测性能方面提供了相当大的改进我们使用Py-Torch工具箱，使用Adam优化器和单周期学习率调度器训练所有模型20个epoch。CenterPoint已经是一个单帧预测器。它检测物体并预测一帧未来的速度向量，这些速度向量用作跟踪的线索它通过累积T个先前的LiDAR扫描并使用VoxelNet[56]主干对累积的点云序列进行编码来实现这一点这种跟踪器可以用作自回归预测方法的输入，[43]然而，我们认为我们可以使用这样的时空表示来直接预测。CenterPoint将对象位置建模为高斯分布。它通过生成2D鸟瞰图（BEV）热图来实现，该热图对BEV空间中每个点的连续检测可能性进行通过非最大值抑制（NMS）在这些热图中找到局部最大值来获得检测。通过将这种表示重新用于未来检测，我们的检测热图有效地预测了对象位置的连续似然场这个连续的场自然地编码了非编码的-17207F--FF未来检测的污点，说明了多模态，并为预测提供了连续的表示。通过每一个动作的镜头，类（AP stat. 、AP线。 AP非线性），并作为一个agre-f f f5. 实验评价我们进行我们的实验分析，门首先，我们观察到，在静态汽车上评估的恒定位置模型APf的性能优于FaF*，FaF * 是最先进的端到端预测器。然而当我们对运动中的汽车子集AP线进行评估。nuScenes [6] dataset.由于我们正在处理传感器数据的端到端预测，我们不遵循es-和AP非FF是林书证实了我们的度量表现为前-制定评估协议，提供地面实况轨迹和高清地图作为输入（如第2.2节所述第3.1节）。首先，我们对[33]中提出的评估指标进行分解分析，并通过分析简单的恒定位置模型的性能来预测mAP（第二节）。5.1）。在验证了我们建议的评估设置不是预期：我们用恒定位置模型获得0AP这表明它不能预测移动的汽车的运动。另一方面，FaF获得7.5 AP非线性。，这表明从原始感觉数据进行运动预测是一个非常具有挑战性的问题。我们观察到Trajectron++优于移动物体的恒定位置模型（8.1AP线），但达不到性能的恒定很容易“游戏”，如第二节所讨论的。3.1、我们彻底地消融我们的模型，并将其性能与其他最先进的方法进行比较（第二节）。5.2）。重新调整NuScenes跟踪数据集。nuScenes [6]最近推出了一个在波士顿和新加坡记录的大规模多模态数据集。它提供了1000个20秒的日志，这些日志都用3D边界框进行了充分的注释。这项工作的重点是基于LiDAR数据的预测，该数据是用32束LiDAR传感器以20 Hz记录的，覆盖360度视图。我们遵循官方协议，并评估未来最多3秒的汽车类别预测我们在附录中评估了行人类别的预测性能。由于测试集是隐藏的，我们遵循[33]并对官方验证分割进行分析。5.1. 指标细分分析在本节中，我们通过将平凡的恒定位置模型与几种最先进的预测方法进行比较来分析不同的评估指标[33，37，43]。对于从原始数据进行端到端预测的任务，方法报告检测和预测置信度分数。对于简单的恒定位置模型，我们阈值化的序列，使得我们只报告那些最终位置与初始位置重叠的序列（即，对象是静止的），具有高置信度。一个好的预测评估指标应该表明，平凡的恒定位置基线不是一个好的预测器，因为它只能正确预测静止物体的未来位置，并明确假设一个静止的世界。现有指标是否反映了这一点？为了回答这个问题，我们在表1中报告了我们的分析结果。我们使用平均和最终位移（ADE和FDE）错误在60，90%重新调用[33]和一个变体，平均结果超过所有召回阈值[49]（见第二节）来分析结果。3.1讨论这些标准）。在上述评估设置下，我们微不足道的恒定位置基线产生了最先进的结果目前的指标是我们的预测mAP（Sec.3.2）？我们认为-位置模型或FaF 固定物体上。一个好的衡量标准应该总结整套汽车的性能，即，一个好的模型除了能预测移动中的汽车的运动外，还应该能正确地预测停放的汽车在不久的将来不太可能移动。这是通过我们预测平均AP状态的mAP来实现的。、AP线 AP非线性.正如预期的那样，我们的mAPf比恒定位置基线（22.1mAPf）更有利地排名最先进的FaF（31.5 mAP f）基于此分析，我们有信心我们有正确的工具来彻底分析Future- Det5.2. 消融和与最新技术水平的在确认我们提出的预测mAP是联合对象检测和预测的合适指标后，我们将FutureDet与一些基线和两种最先进的方法进行了比较。侦测+恒速。我们从一个令人惊讶的简单，但强大的基线，这是经常被忽视的预测文献。该基线采用检测结果以及来自我们的CenterPoint检测器[53]的估计速度，并简单地外推预测，就像物体以恒定速度移动一样。由于CenterPoint是如此强大的检测器，因此此基线会产生强大的结果。大多数地面实况对象近似以恒定速度移动，要么直接向前移动，要么静止。我们预计该模型在非线性轨迹上表现不佳。检测+预测（FaF预测，参见[37]）。该变体预测每次检测在未来的每个时间步长处的不同速度偏移，并通过积分来导出轨迹。速度在前进方向。这是一个快速和愤怒（FaF）[37]。对于一个苹果到苹果的比较，我们重新实现FaF使用一个中心点骨干，并表示为FaF模型。该方法预测每次检测的单个轨迹。Trajectron++。我们将我们方法的所有上述变体和消融与最先进的自动消融进行比较，−17208FFFADE@60（↓）FDE@60（↓）ADE@90（↓）FDE@90（↓）ADE平均值（↓）FDE平均值（↓）AP统计。（↑）AP lin. （↑）AP非线性。（↑）mAPf（↑）恒定位置（CP）0.380.630.480.760.370.6466.30022.1PnPNet [33]0.580.930.681.04------PnPNet w/o Tracker [33]0.691.090.751.14------[43]第四十三话1.132.541.252.711.082.4259.28.12.823.4防晒霜[49]----1.041.04----《速度与激情》（Fast andFurious）[37]0.741.590.831.690.731.5664.822.27.531.5表1.指标分解分析：我们将简单的恒定位置模型与最先进的预测模型进行比较，突出显示各种建议指标之间的在不同召回率下测量的基于ADE/FDE的指标优于最先进的方法[33，37，43]。只有我们提出的预测mAP（mAPf）有利于国家的最先进的模型在恒定的位置基线。我们报告了PnPNet [33]和SPF 2 [49]各自论文中的数字。注意：ADE/FDE越低越好，APf越高越好。K=1 K=5AP统计。AP线AP非线性。mAPAP状态。AP线AP非线性。地图AP检测 APf AP检测 APf AP检测 APfmAP检测器映射f AP检测 APf AP检测 APf AP检测 APfmAP检测器映射f检测+恒速70.3 66.065.8二十一点二90.06.575.431.270.3 66.065.8二十一点二90.06.575.431.2检测+预测（参见[37]）69.1 64.766.122.286.37.573.831.569.1 64.766.122.286.37.573.831.5[43]第四十三话70.3 59.265.8第八条第一款90.02.875.423.470.3 61.765.8九点八90.04.375.425.3FutureDet70.1 65.562.9二十四点九91.810.174.933.570.1 67.362.9二十七点七91.711.774.935.6FutureDet-PointPillars70.1 64.163.4二十四点八92.49.675.432.870.7 67.563.4二十八点八分92.011.975.436.1FutureDet+地图70.2 65.562.7二十四点三91.79.474.933.170.2 67.562.727.191.711.074.935.2表2.联合汽车检测和预测评估nuScenes。我们采用top-K评估进行预测，并在K=1和K=5两种设置下进行评估（仅用于预测）。我们通过检查检测AP（AP检测）进一步细分每个模型的性能。）和在静态、线性和非线性移动子类别上预测AP（APf首先，我们发现，经过训练以检测当前帧中的对象的方法具有更高的整体APdet。（检测+恒定速度，第1行），而被训练以检测未来帧中的对象的方法具有更高的总体APf（c.f.FutureDet，第4行），这是设计所预期的对于预测，令人惊讶的是，Trajectron++（第3行）的表现优于恒定速度预测（第1行），这表明这确实是一个具有挑战性的问题，恒定速度是一个强大的基线。FutureDet在非线性轨迹上始终优于其他基线。值得注意的是，对于K=5，我们将非线性对象的预测精度提高了4%。使用PointPillars主干训练的FutureDet在指标方面提供了适度的改进，并且整体表现最佳。回归轨迹预测模型，Trajectron++ [43]。该模型表明了传统预测任务的当前最先进的方法，其中给出了地面实况跟踪。通过这种比较，我们希望概述标准的三阶段检测-跟踪-预测方法与我们的端到端预测方法的比较。为了构建该基线，我们从来自中心点的现成检测和跟踪结果开始[53]。CenterPoint使用速度偏移估计值执行跟踪，以使用当前帧检测和先前帧检测之间的贪婪匹配来匹配每个帧中的Trajectron++然后将这些预测的轨迹作为预测的输入。FutureDet. - 是的我们直接在未来的帧中检测对象，并将这些未来的检测回溯到参考帧。显然，这种变体相对于简单预测（FaF）的优势在于，它鼓励网络通过对当前帧中对象的未来位置进行“多重押注”来学习更好的如图2所示，该方法自然允许对于所观察到的感觉数据的多未来解释（如在第二节中所讨论的），4）.在图3中，我们展示了我们的方法可以代表多个未来的质量。我们注意到，最高置信度的未来轨迹看起来像恒定速度预测，因为训练数据偏向于静态和线性移动的对象。FutureDet能够在没有地图信息的情况下学习道路几何形状，如曲线轨迹所示。讨论我们将上述变体的结果与表2中的FutureDet以及Trajectron++[43]进行了比较。首先，我们注意到，在我们的端到端设置下的移动对象预测是一个具有挑战性的问题-我们研究的方法都没有高APf，这表明社区需要关注这个问题。其次，尽管恒速模型在概念上很简单，但它的性能与我们的FaF重新实现相当，并在Trajectron++上提高了+7.8 mAP f。不幸的是，文献中通常对这种恒速基线我们在这里认为，它仍然是一个重要的基线。表现不佳17209图3.我们对FutureDet的预测进行了定性评估。我们用绿色表示地面实况轨迹，用蓝色表示最高置信度预测的多个未来预测，用青色表示剩余的多个未来预测。由于我们重新使用了CenterPoint，一个最先进的检测器，当前帧检测性能良好。通常，我们的模型预测移动对象可能以高置信度以恒定速度移动考虑到数据偏差，其中大多数对象要么静止，要么以恒定速度移动，这是一个合理的输出。我们在左上角突出显示了多未来检测输出。Trajectron++还可能暗示，执行直接的端到端预测比检测-跟踪-预测的三阶段方法更有FutureDet采用了与现有方法不同的方法。我们的方法在非线性对象APf和运动类别平均mAPf（我们的主要指标）方面改进了所有其他基线。此外，这种多未来解释还允许在K=5评估中提高性能，其中评估每个检测的前5个排名预测中具有最小FDE注意，对于FutureDetAP静态，6. 结论本文提出了一种新的直接从LiDAR传感器数据进行轨迹预测的端到端方法。我们提出的FutureDet是一个自然的预测检测框架，允许对观察到的证据进行多未来解释，并建立了一个新的最先进的。我们对现有的端到端预测评估指标进行了深入分析，并揭示了它们可以通过简单的恒定位置模型进行游戏。为此，我们提出了一套新的评估指标的基础上，av-K= 1F结果略有下降，因为捆绑多，综合评价关节检测和预测性能。这使我们能够将轨迹估计合并到单个对象的一个多未来预测中减少了召回。然而，这在K=5时检测和预测移动对象的性能增加中得到了弥补。我们用道路遮罩作为额外的输入通道来到BEV特征表示中（在稀疏体素主干之后）。这对结果的影响很小。我们假设添加地图信息不会提供额外的信息，因为它可以很容易地从原始LiDAR输入中学习然而，需要进一步的探索，以评估如何最好地融合地图信息。进行彻底的分析，揭示恒定速度模型是一个令人惊讶的强大基线，应该在未来的预测工作中加以考虑。局限性。由于我们没有明确地强制执行多样化的轨迹生成，我们的许多多未来是紧密聚集的。虽然FutureDet提出了第一种从原始感知数据进行端到端预测的方法，能够进行多未来预测，但生成多样化的多模态预测仍然是一个开放的挑战。致谢。这项工作得到了CMU Argo AI自动驾驶汽车研究中心的支持。17210引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：人类在拥挤的空间轨迹预测在IEEE Conf.Comput.目视模式识别，2016年6月。第1、3条[2] J av adAmirian，Jean-BernardHayet，andJulienPett re´. 社会的方式：学习多模态分布的行人轨迹与gans。在2019年计算机视觉和模式识别研讨会上。一、三、五[3] MehmetAy gun？ n，Alj osdrolaO sdroep ，MarkWeeber r，MaximMaxi- m ov ， CyrillStachniss ， JensBehl ey ，andLauraLeal-Taixe'. 4D全景激光雷达分割。在IEEE Conf.Comput.目视模式识别，2021年。2[4] J. Behley ， M.Garbade ， A.Milioto ， J.Quenzel ，S.Behnke，J. Gall，and C.水苏尼斯朝向3D点云序列的基于3D LiDAR的语义场景理解：Se-manticKITTI数据集。国际J机器人。Res. ，40（8-9）：959-967，2021. 2[5] Apratim Bhattacharyya，Bernt Schiele，and Mario Fritz.基于“多个最佳”样本目标的精确和多样的序列采样在IEEE会议Comput. 目视模式识别，2018年。一、五[6] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan ， Yu Pan ， Gi- ancarlo Baldan ， andOscar Beijbom.nuScenes：用于自动驾驶的多模态数据集。在IEEE Conf.目视模式识别，2020年。一二三四六[7] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes：自动驾驶的多模态数据集。在IEEE Conf.目视模式识别，2020年。二、四[8] 柴玉宁、本杰明·萨普、马扬克·班萨尔和德拉戈米尔·安格洛夫。多路径：用于行为预测的多个概率锚轨迹假设。arXiv预印本arXiv：1910.05449，2019。3[9] Ming-Fang Chang，John Lambert，Patsorn Sangkloy，Jag-jeet Singh ， Slawomir Bak ， Andrew Hartnett ， DeWang，Pe- ter Carr，Simon Lucey，Deva Ramanan，etal. Argoverse：3D跟踪和预测与丰富的地图。在IEEE会议Comput.目视模式识别，2019年。第1、3条[10] Patr i ckDendorfe r，S v enElflein，andLauraLeal-Taix e'.Mg-gan：一个多生成器模型，防止行人轨迹预测中的分布样本。在国际会议中Comput.目视，2021年。一、三、五[11] Patrick Dendorfer ， Aljosa Osep ， and Laura Leal-Taixe.Goal-gan：基于目标位置估计的多模式轨迹预测在亚洲会议上。目视，2020年。一、三、五[12] Patrick Dendorfer，Aljosˇa Osˇep，Anton Milan，KonradSchindler ， Daniel Cremers ， Ian Reid ， and StefanRothLaura Leal-Taix e´. Motchallenge：单相机多目标跟踪的基准国际计算机目视，2

下载后可阅读完整内容，剩余1页未读，立即下载