1学习使用以计划者为中心的方法Jonah Phelvis Amlan Kar Sanja Fidler NVIDIA多伦多大学矢量学院{jpharian,amlank,sfidler}@nvidia摘要准确度和精确度的变化是计算机视觉社区衡量感知算法进展的黄金标准这些指标普遍存在的一个原因是它们在很大程度上与任务无关;我们通常寻求检测零假阴性或假阳性。这些指标的缺点是,在最坏的情况下,它们对所有不正确的检测进行同等惩罚,而不对任务或场景进行调节在本文中,我们提出了一个专门用于自动驾驶任务的3D对象检测的原则性指标我们度量的核心思想是隔离目标检测任务,并测量所产生的检测对下游驾驶任务在没有手工设计的情况下,我们发现我们的指标惩罚了许多其他指标通过设计惩罚的错误。此外,我们的metric基于其他因素(例如从检测到自我汽车的距离和检测速度)以其他检测metric所不具备的直观方式降低检测的对于人类评估,我们生成了标准指标和我们的指标不一致的场景,并发现人类在79%的时间里支持我们的指标。我们的项目页面包括 一 个 评 估 服 务 器 可 以 在 https://nv-tlabs.github.io/detection-relevance找到。1. 介绍在过去,原始准确度和精度足以作为衡量计算机视觉进展的标准评估指标。今天,研究人员还应该尝试从其他方面评估他们的模型,例如鲁棒性[25],速度[18]和公平性[30],仅举几例。在诸如自动驾驶的实际机器人系统中,至关重要的是,感知算法根据其实现驾驶的下游任务的能力进行排名。在数据集上实现更高准确度和精度的对象检测器并不能保证导致更安全的驾驶。例如,未能检测到远处停放的汽车(可能仅跨越图像中的几个像素或单个LIDAR点)被认为与未能检测到汽车一样糟糕图1. 并非所有的错误都是一样的,错误检测到的停放车辆不会导致自动驾驶汽车的危险动作,而在它面前的误报则会。mAP等恶意软件对两种情况的惩罚是相同的。我们没有手动设计我们直觉上认为对自动驾驶的下游任务很重要的误差函数,而是使用神经规划器为我们对物体检测器进行排名。我们的度量将上述示例列为最先进的3D对象检测器MEGVII [35]在nuScene [5]的验证集上进行的最差检测。在我的车前猛踩刹车理想情况下,我们的感知评估指标将更准确地转化为真实的下游驾驶性能。评估性能的一种方法是通过在真实世界或模拟世界中驾驶来评估整个驾驶系统收集真实的数据肯定是费时费力的:由于系统变得越来越好,为了获得精确的测量,需要收集非常大的行驶里程池的统计数据。即便如此,自动驾驶汽车每次发现自己所处的场景都不同,通常是非常稀疏的边缘情况导致失败。因此,在现实世界中的可重复性是一个主要问题,可能会导致噪声估计。当然,另一种选择是构建一个完美的驾驶模拟器,我们可以在其中采样现实和具有挑战性的场景,并测量不同的检测器如何虽然进展1405514056≤t已经在这个方向[12,10,1],这些模拟器目前只能提供真实世界性能的有偏估计。在本文中,我们提出了一个新的度量(PKL)的三维物体检测,对齐的性能与性能的下游任务的驾驶的感知分析PKL背后的关键思想是通过一个鲁棒规划器来评估检测,该规划器被训练成基于其语义观察来规划驾驶轨迹,即,检测。根据设计,如果感知系统是完美的,PKL会返回最佳分数。我们在nuScenes数据集上分析PKL的行为[5]。我们表明,PKL诱导一个直观的排名检测场景中的每辆车的重要性。在人类研究中,我们的指标明显优于标准指标,即使是那些精心手动设计的驾驶指标[5]。为了激发未来感知算法的发展,使其更符合自动驾驶的现实要求,我们提供了一个服务器,用于使用基于规划的方法评估竞争对象检测器2. 相关工作评估指标:训练好的神经网络的评价是一个活跃的研究领域. 最近,“平均延迟”[ 18 ]已经被提出作为对视频进行在自动驾驶车辆领域中,已经提出了诸如nuScenes检测分数[5]和“按航向加权的平均平均精度”[ 2 ]之类的度量,我们在本文中的目标是训练一个规划网络,该网络可以学习检测的哪些方面对于驾驶任务是重要的,然后使用该网络来测量上游检测器的性能。3D物体检测:3D对象检测的任务是识别场景中的所有对象以及它们的6自由度姿态。与车道检测或SLAM不同,虽然3D物体检测可以通过高清地图和GPS来引导,但3D物体检测在很大程度上依赖于实时计算机视觉。因此,最近的工业级数据集主要集中在解决3D对象检测问题[5,6,14,2]。当代物体检测器的主要特征在于它们作为输入的数据 类 型在 仅 将 LiDAR 作 为 输 入 的 检 测 器 中 ,PointPillars [16,27]和PIXOR [28]代表两种架构变体;基于PointPillars的模型在其第一层中应用浅PointNet[ 20 ],而基于PIXOR的模型离散化高度维度[35,29,32]。仅相机3D对象检测器使用投影到相机平面中的3D锚点[22,7]或使用单独的深度预测网络将图像平面中的2D对象检测提升到3D [23]。尝试使用LiDAR和摄像机模式的方法[17]在性能上缺乏它们所需要的性能。图2. 我们对pθ(xt)进行建模|o≤t)在每辆车的局部框架中使用CNN(绿色)。o≤t包括前2秒的所有地图数据和检测到的对象。对于检测器A(red),我们的度量定义为PKL(A)= DKL(pθ(xt|o||pθ(xt|A(s≤t),其中s