针对自动驾驶的未被观察到车辆的运动预测及安全感知

10 浏览量更新于2023-10-16 收藏 12.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

157310针对自动驾驶的具有未被观察到的车辆的安全感知运动预测0Xuanchi Ren 1 * Tao Yang 2 * Li Erran Li 3 Alexandre Alahi 4 Qifeng Chen 101 香港科技大学 2 西安交通大学 3 Alexa AI, 亚马逊 4 EPFL0摘要0由于复杂环境中的不确定性和遮挡以及传感器范围有限导致的有限可见性，车辆的运动预测是关键但具有挑战性的。在本文中，我们研究了一项新任务，即针对自动驾驶的具有未被观察到的车辆的安全感知运动预测。与现有的针对已被观察到的车辆的轨迹预测任务不同，我们的目标是预测一个占据地图，指示每个位置可以被已被观察到的车辆或未被观察到的车辆占据的最早时间。预测未被观察到的车辆对于自动驾驶的安全性至关重要。为了解决这个具有挑战性的任务，我们提出了一个安全感知的深度学习模型，使用三个新的损失函数来预测最早的占据地图。在大规模自动驾驶nuScenes数据集上的实验证明，我们提出的模型在安全感知运动预测任务上显著优于现有的基线模型。据我们所知，我们的方法是第一个在大多数情况下可以预测到未被观察到的车辆存在的方法。项目页面位于https://github.com/xrenaa/Safety-Aware-Motion-Prediction。01. 引言0每年有超过100万人死于车祸，其中高达94%的事故是由人为错误引起的[42]。自动驾驶系统有潜力拯救数十万人的生命[4]。自动驾驶的关键是运动预测，即预测周围的交通参与者[55]。以往的运动预测工作可以广泛分为两种方法。第一种方法是预测交通参与者的未来轨迹。提出了判别模型[17,49, 30, 34, 52]和生成模型[57, 14, 33, 35, 11,46]。第二种方法将这个问题定义为占据地图预测问题[18,23, 37, 31,39]。这些以前的工作很少明确地建模安全性，并且难以预测未被观察到的车辆。0* 同等贡献0自动驾驶车辆0关键区域0≈0X0X0未被观察到的车辆0可能的预测0GT0规划的轨迹0遮挡0碰撞点0图1.我们的目标是预测车辆或者未被观察到的车辆将会在多早的时间占据空间，即安全感知运动预测。由于遮挡或传感器范围有限，未被观察到的车辆是指过去的自动驾驶车辆无法观察到的车辆。忽视未来未被观察到的车辆的运动可能导致碰撞。在这个图中，可能的预测（灰色部分）可以帮助规划者过滤掉可能导致碰撞的风险轨迹。安全规划应该给自动驾驶车辆留下更大的响应余地。0在实际驾驶场景中，由于遮挡和传感器范围有限，未被观察到的车辆非常常见。未被观察到的车辆是指目前或历史上没有出现但将会出现并影响规划决策的车辆。图1中展示了一个未被观察到的车辆的例子。错过对未被观察到的车辆的预测会威胁到规划决策的安全性，甚至导致碰撞。为了实现以安全为先的自动驾驶，我们分析了晚一点／早一点预测的可能后果，即在特定驾驶场景中预测车辆到达（占据）某个位置的时间晚于／早于真实情况。如图1所示，周围车辆（蓝色汽车）的真实情况（GT）以蓝色虚线绘制。由于不确定性，很难做出完美的预测。在这种情况下，较早预测比GT更安全，即任何位置的预测到达／占据时间早于GT。当我们做出比GT更早的预测（灰色线）时，会发生碰撞。157320候选轨迹。尽管GT轨迹实际上与该候选轨迹没有碰撞，但对于规划者来说，过滤掉这条轨迹是安全的。相反，如果预测晚于GT，则规划者可能选择一个冒险的候选轨迹。基于以上观察，我们提出了安全感知运动预测任务，包括以下两个方面：01.为了安全起见，每个位置的预测占用时间应早于地面真实情况，但尽可能准确。02. 预测未知车辆的情况应该被包括在内。0为了解决所提出的安全感知运动预测任务，我们提出了一种称为最早占用地图的新表示，用于描述车辆的未来运动（通常在3到5秒内）。最早占用地图在每个位置上包含一个值，指示该位置首次被占用的时间。为了估计最早占用地图，我们可以制定一个回归问题，其中包含三个新的损失函数。其中两个损失函数鼓励早期预测而不是晚期预测。第三个损失函数优化未知车辆的预测。此外，我们提出了一种使用栅格图像[12]作为输入和最早占用地图作为输出的新网络架构，该架构使用具有扩张瓶颈和未知感知自注意单元的定制U-Net[38]。我们的架构利用图像到图像翻译网络来建模复杂的运动预测任务。我们的主要贡献总结如下：0•我们提出了一种安全感知运动预测任务，用于自动驾驶。该任务预测了包括已知车辆和未知车辆在内的周围车辆的最早占用地图。0•我们提出了一种定制的U-Net[38]架构，具有扩张瓶颈和未知感知自注意单元，以获得最早占用地图。因此，我们引入了三个特定的损失函数来有效训练我们的模型。0•我们引入了新的评估指标，如缺失率、攻击性和未知召回率，以评估我们的模型和基线。在大规模nuScene数据集上的实验结果表明，我们的模型在安全感知运动预测方面优于最先进的方法。02. 相关工作0运动预测。准确的运动预测对于自动驾驶至关重要[9，58]。深度学习方法现在是最先进的方法。它们有三个关键组成部分，即输入表示，输出表示和模型。0对于输入表示，研究人员提出使用基于图的表示[19，7，15，32，41，27，43，53]或基于栅格化的表示[10，2，6，20，1]。Homayounfar等人[19]提出使用有向无环图（DAG）来建模车道图，Chu等人[7]使用无向图来建模道路布局。Djuric等人[12]将地图元素（例如，道路，人行横道）栅格化为图层，并使用不同颜色对车道和车辆进行编码。与图表示相比，栅格地图为运动预测提供了更丰富的几何和语义信息[32]。对于输出表示，先前的工作集中在轨迹[10，41，6]或占用地图[18，23，37，31，39]。值得注意的是，P3[39]最近提出了一种语义占用地图，以丰富传统的占用地图[13]。先前的工作利用鉴别模型[17，049，30，34，52]或生成模型[22，56，16，40，26，28]。鉴别模型通过监督回归[6]通常预测每个代理的单个最可能轨迹，或者使用多模态损失函数（例如专家混合损失[10]）预测多个可能的轨迹。生成模型[41，45，29]通过利用潜在变量生成模型来明确处理多模态性，在训练和推断过程中进行随机采样以捕捉未来的不确定性。然而，关于运动预测的先前工作并未明确考虑安全性和未知车辆。在本文中，我们提出最早的占用地图作为输出表示，以辅助自动驾驶系统进行对未知车辆的安全感知运动预测。安全性和不确定性感知。关于安全性和不确定性感知的自动驾驶系统的先前工作主要集中在不确定性估计[51，3，44，8]和具有碰撞回避保证的规划[57，14，33，35，11，46]。然而，将这些方法扩展为对未知车辆感知并不直接。据我们所知，很少有研究考虑自动驾驶系统中的未知车辆。唯一的例外是Tas和Stiller[46]，他们提出了一种在规划过程中考虑未知车辆的无碰撞方法。然而，他们的方法是基于每个场景的手工规则（例如，交叉口穿越，礼让操纵）的，并且无法很好地推广到复杂的城市环境。03.安全感知的运动预测03.1. 问题定义0运动预测是自动驾驶规划中的必要组成部分[43]。我们将自车规划器选择安全轨迹所需的运动预测区域称为关键区域，也假设它比可见区域与自车传感器一起更大。在理想情况下，对于给定场景中的所有代理车辆都需要进行预测，使关键区域成为整个场景。然而，由于传感器的感知范围有限且遮挡很常见[52]，我们只能假设关键区域是自车周围的邻域边界框，以简化问题。在这种情况下，如图2所示，有一些车辆在当前或历史上无法被自车观察到，但将在未来进入关键区域并影响规划器的决策。此外，如第1节所介绍的，在现实世界中，预测晚于实际情况也是不安全的。因此，安全感知的运动预测被定义为预测最早占用地图，该地图比实际情况更早但尽可能准确，同时也考虑了未被观察到的车辆的预测。我们在补充材料中提供了更详细的问题定义。Ot(x, y) =Lh =�(x,y)∈I1(P(x, y) > E(x, y)).(3)Ls = −�(x,y)∈IP(x, y).(4)Lu =�(x,y)∈IM(x, y)1((P(x, y) > E(x, y))).(5)157330历史未来未被观察到的掩码0图2.带有未被观察到的车辆的场景示例。历史由光栅图像表示[12]。自车为红色，其他车辆为黄色，行人为橙色。每个代理车辆的历史多边形使用相同的颜色表示，但随着时间的推移亮度降低。未来由最早占用地图表示，其中每个位置的值表示最早被占用的时间（较暗表示较小的值）。未被观察到的掩码表示未来被未被观察到的车辆占用的位置。0在给定场景中，需要考虑所有代理车辆，使关键区域成为整个场景。然而，由于传感器的感知范围有限且遮挡很常见[52]，我们只能假设关键区域是自车周围的邻域边界框，以简化问题。在这种情况下，如图1所示，有一辆车在当前或历史上无法被自车观察到，但将在未来进入关键区域并影响规划器的决策。此外，如第1节所介绍的，在现实世界中，预测晚于实际情况也是不安全的。因此，安全感知的运动预测被定义为预测最早占用地图，该地图比实际情况更早但尽可能准确，同时也考虑了未被观察到的车辆的预测。我们在补充材料中提供了更详细的问题定义。03.2. 问题建模0给定一个场景 s，如第3.1节所假设的，关键区域 I是自车周围的邻域边界框，以简化问题，即 I = { ( x, y ) | l≤ x ≤ p, m ≤ y ≤ k, x, y ∈ Z }，其中自车的中心位置为 (0,0)。在当前时间 t，考虑关键区域 I中代理车辆的历史运动和场景 s的几何语义地图，我们的目标是预测未来 T个时间步长内所有代理车辆的运动，其中也包括未被观察到的车辆。未被观察到的车辆指的是在时间 t之前或之后未在关键区域 I 中的车辆，但会在未来的 T个时间步长内进入该区域。占用地图。时间 t的占用地图指示关键区域中每个位置的占用状态。设 B t表示时间 t 时场景中代理车辆的占用像素集合，D t表示可行驶区域的像素集合。0我们将时间 t 的占用地图 O t 定义如下，0� 1 , ( x, y ) ∈ B t �00 , 否则 , � ( x, y ) ∈ I, (1)0其中“overline”表示补集。最早占用地图。最早占用地图表示位置首次被占用的时间戳。因此，我们将最早占用地图E ( x, y ) 定义为0E ( x, y ) = min( { ∆ t | O t +∆ t ( x, y ) = 1 }∪{ T } ) , � ( x, y ) ∈ I,0(2)其中 t +∆ t 是 t 和 t + T之间的时间步长。回顾我们在第3.1节中的定义，我们的目标是推导出一个比实际情况 E ( x, y )更早但尽可能准确的预测 P ( x, y)。我们通过定义硬损失（用于安全性）和软损失（用于速度）来实现。我们使用硬损失来惩罚晚于实际情况的预测：0硬损失约束预测P(x, y)的上限为真实值E(x,y)。只有硬损失会导致平凡解，即所有值都为零。我们添加一个软损失使得预测接近真实值。软损失定义如下：0未见过掩码。对于未见过车辆的预测，我们在预测的最早占用地图上应用未见过车辆损失。我们首先引入一个未见过掩码，使我们的模型专注于未见过车辆的预测，其中未见过掩码覆盖了未来任何未见过车辆占据的所有位置，如图2所示。通过这个未见过掩码M，未见过车辆损失定义如下：0注意上述定义的损失Lh，Ls和Lu是针对单个场景s的。04. 方法0在本节中，我们介绍了我们框架的技术组件，如图3所示。04.1. 栅格图像0对于输入表示，我们使用鸟瞰图的栅格化图像[12]，如图2所示。为了更详细地讨论这个问题，场景s的地图可以表示为一个包括道路几何、可行驶区域、车道结构和每个车道上的交通方向、人行道和人行横道的栅格地图。历史上连续时间步长内交通参与者的边界框以颜色逐渐消失的效果栅格化在地图上，形成一个栅格图像。此外，栅格图像被旋转，使得自车的航向指向上方。在这项工作中，我们栅格化关键区域，如第3.2节所定义的，作为输入。在这里，我们不使用任何原始传感器数据（即相机、激光雷达或雷达）作为额外的输入。BottleneckSelf-attention UnitRaster ImageEarliest Occupancy Mapby a raster map which includes the geometry of the road,drivable area, lane structure and direction of traffic alongeach lane, locations of sidewalks, and crosswalks.Thebounding boxes of traffic agents at consecutive timestepsin history are rasterized on top of the map in a color fadingeffect to form a raster image. Furthermore, the raster imageis rotated such that the ego vehicle’s heading points up. Inthis work, we raster the critical region, as defined in Sec-tion 3.2, as input. Here, we do not use any raw sensor data(i.e., camera, LiDAR, or RaDAR) as an additional input.𝐹CNNCNN𝐾𝑄Softmax𝐹′𝑊Wi,j =exp(Ki,j · Qi,j)hi=1wj=1 exp (Ki,j · Qi,j),(6)F ′ = W × F + F.(7)157340扩张0未见过感知0跳跃连接0图3. 提出框架的概述。栅格图像经过U-Net处理，生成最早的占用地图。在U-Net内部，使用扩张瓶颈来扩大感受野。对于未见过的车辆，我们设计了一个未见过感知自注意力单元。04.2. 扩张瓶颈0通过将栅格图像作为输入和最早的占用地图作为输出，运动预测任务可以直接建模为图像到图像的转换问题。因此，我们定制了一个U-Net[38]来解决这个问题，并通过转换过程学习不同参与者运动的联合分布。然而，传统U-Net架构的最底层具有相对较小的感受野，这限制了网络只能提取局部特征，即模型仅依赖于关键区域的一部分来预测车辆的运动，这可能导致碰撞。为了扩大感受野并利用非局部的上下文信息，我们在U-Net内部采用了扩张卷积[54,48]。扩张卷积通过将标准卷积层中的卷积核替换为具有扩张率的稀疏卷积核，扩张率定义了卷积核中权重之间的间隔。通过这种方式，使用扩张率为2，3×3卷积核的感受野大小等于7×7卷积核的感受野大小，而不增加复杂性。因此，在U-Net架构中，我们引入了一个由三个扩张卷积组成的扩张瓶颈，以融合局部和全局的上下文信息。04.3. 未见过感知自注意力单元0为了使网络专注于未见车辆，我们在扩张瓶颈之后设计了一个自注意单元[47]。其架构如图4所示。自注意单元可以对特征图上的有意义的空间重要性进行编码，从而促进对未见车辆的预测。给定一个编码的特征图F ∈ Rh × w ×n，其中n0图4.未见感知自注意单元的示意图。输入特征图F被送入两个分支的CNN，生成键K和查询Q。然后，我们将生成的注意力掩码W放在F上，并使用跳跃连接生成最终输出F′。�表示逐元素乘法，�表示逐元素加法。注意力掩码的可视化结果如图6所示。0其中n是通道数，h和w表示高度和宽度，我们分别将其输入到两个CNN中，以生成查询Q ∈ Rh × w × n和键K ∈ Rh× w × n。然后，注意力掩码W定义为0其中W i,j表示在(i,j)位置的特征对于预测未见车辆的重要性。总体上，我们观察到交叉点、边界和历史占用区域对特征图的贡献更大。我们探索了这个自注意单元的设计，并经验性地发现非局部[50]或仅有一个CNN分支的设计效果不如我们的设计，这在补充材料中有介绍。此外，为了聚合未见车辆的掩码特征和原始特征，我们在自注意单元内采用了跳跃连接。因此，最终输出F′的定义如下：0最终输出具有未见感知的几何和上下文信息以及原始特征，提高了目标任务的性能。04.4. 学习0我们以端到端的方式训练我们的模型。我们的目标是进行安全感知的预测。首先，我们使用γ h L h + L sL = Lrec + γhLh + Ls + γuLu,(8)Lh =�(x,y)∈Isigmoid (β(P(x, y) − E(x, y))) ,(9)Lrec =�(x,y)∈I∥P(x, y) − E(x, y)∥2.(10)MR =.(11)�s∈S�I,̸̸,(13)�| |,(14)157350作为优化目标之一，其中γ h是一个大的常数，用作损失权重。对于未见车辆，我们使用L u监督未见车辆的预测。因此，我们通过利用这些损失函数来学习模型参数：0其中L h ，L s和L u在第3节中介绍。请注意，我们计算这些损失在数据集S = {si } N i =1 的所有场景中的平均值。请注意，L h的原始方程（方程3）不可微分，因此我们使用以下方程来近似它：0其中β是一个大的常数。类似地，我们对L u使用相同的近似。为了稳定训练，我们使用常用的像素均方误差（MSE）函数作为重构项。单个场景的重构损失为05. 实验05.1. 基线0我们与以下不同类型方法的基线进行比较：物理模型：物理模型是由nuScenes数据集[5]提供的。有四种设置：1）CV：速度恒定；2）CA：加速度和航向恒定；3）CM：速度和偏航角的变化率恒定；4）CY：速度和偏航角速率（标量）恒定。MTP：MTP[10]将光栅图像和目标车辆状态作为输入，并预测轨迹。Trajectron++：Trajectron++[41]是一个图结构的循环模型，将代理的过去轨迹作为输入来预测未来轨迹。由于它在设计中没有考虑未见车辆，我们还使用手工协议辅助Trajectron++形成一个强基线：Trajectron++*。我们使用泊松分布和超参数λ来模拟下一个T时间步内未见车辆的数量，并在临界区域边界上的随机时间步上随机放置采样的未见车辆。P3：P3[39]从融合的LiDAR和地图特征中预测一系列占用地图。我们将P3修改为我们的设置，将光栅图像作为输入。为了评估基线，我们将它们的输出转换为最早的占用地图。对于物理模型，MTP0对于 Trajectron++ 和 Trajectron++，我们在预测的轨迹上拟合样条并获取偏航角，将轨迹转换为最早占用图。对于 P3，我们将预测的占用图序列转换为最早占用图，如等式 2中所定义的。05.2. 指标0为了评估我们模型的性能，我们使用常见的 MSE指标，并设计了三个指标来从不同的角度评估安全感知运动预测。我们介绍下面的指标。缺失率（MR）。对于安全性而言，较晚的预测是不可容忍的。缺失率表示预测的最早占用图中晚于真实值的百分比。对于 s ∈ S，给定预测的最早占用图 P 和相应的真实值 E，缺失率可以定义为：0� s ∈ S � ( x,y ) ∈ I s 1 ( P s ( x, y ) > E s (x, y ))0攻击性。安全感知运动预测的平凡解决方案是场景中的所有汽车都保持静止。在这种情况下，最早占用图的值将为零。然而，这是不可取的。因此，我们使用攻击性指标来评估模型是否有平凡解决方案。给定预测的最早占用图 P，该指标定义为：0攻击性 =0( x,y ) ∈ ˆ I s ( C - P s ( x, y))0(12) 其中 ˆ I s 是 I s 的子集，包含符合 E s ( x, y ) ≠ 0的坐标，即 ˆ I s = { ( x, y ) | ( x, y ) ∈ I s ，s.t.E s ( x, y ) ≠0 } ，C是一个常数，使指标的值为正。未见回忆（UR）。为了评估模型捕捉未见车辆的能力，我们选择计算对未见车辆的预测的召回率。给定未见掩码 M，未见车辆的占用位置集合为 ˆ M = { ( x, y ) | M ( x, y ) =1 } ，未见车辆的 IoU 定义为：0IoU = | ˆ M ∩ ˆP |0其中 ˆ P 是预测运动位置的集合，即 ˆ P = { ( x, y ) | t < P (x, y ) < t + T } 。然后，未见回忆（UR）定义为：0UR α =0s ∈ ˆ S 1 ( IoU s >α )0其中 ˆ S 是包含未见车辆的 S的子集。在这里，我们考虑阈值 α 为 0.3 ，0.5 和 0.7 。PhPhysical-CA6.392.8211.544.911.5326.75Physical-CM6.362.8611.474.521.4326.19Physical-CY6.482.8110.954.391.4325.89MTP6.412.397.382.140.5520.46Trajectron++8.931.7120.409.333.4515.38Trajectron++*8.971.8020.989.363.4815.99P36.782.6612.121.720.1213.18P39.201.482.760.240.0028.54157360方法 MR (%) ↓ 攻击性 ↓ UR 0 . 3 (%) ↑ UR 0 . 5 (%) ↑ UR 0 . 7 (%) ↑ MSE ↓0我们的方法 1.37 2.48 63.28 43.48 18.85 10.610表1. nuScenes数据集上的安全感知运动预测性能定量比较。粗体表示最佳。0方法 MR (%) ↓ 攻击性 ↓ UR 0 . 3 (%) ↑ UR 0 . 5 (%) ↑ UR 0 . 7 (%) ↑ MSE ↓0我们的方法 3.97 3.55 88.81 80.22 30.48 18.300表2. Lyft数据集上的安全感知运动预测性能定量比较。粗体表示最佳。0MSE。为了评估运动预测模型的性能，通常使用平均位移误差（ADE）[16]。由于我们方法的输出占用图是图像级别的，因此我们使用预测和真实值之间的 MSE指标来评估预测的准确性。注意，MSE 仅用作参考。05.3. 实现细节0我们的模型使用Pytorch[36]实现，并在NVIDIA V100GPU上进行训练，大约需要24小时。我们使用批量大小为32，并使用Adam优化器[24]进行训练，学习率为1×10-4。我们的工作中使用的关键区域大小为50米×50米。自车前方的范围为40米，后方范围为10米。左右两侧的范围相同，均为25米。栅格图像的像素分辨率为1:10。因此，m =-100，k = 400，l = -250，p =250。对于所有模型，我们只在当前和历史时刻内的关键区域内提供代理。对于使用手工制作的协议的泊松分布，我们使用λ =2。对于超参数，我们使用过去2秒的信息来预测未来3秒。因此，以10Hz的频率，历史时间步数H的总数为20，未来时间步数T为30。nuScenes数据集提供的数据为2Hz，因此我们将其插值为10Hz，以使最早的占用地图平滑。考虑到T= 30，我们设置C = 31。对于损失函数，我们设置β =100和γh = γu =1000。扩张瓶颈中使用的扩张率分别为2、4和8。01对于输入的栅格图像，我们只使用2Hz的数据。05.4. 在nuScenes数据集上的评估0我们在公共nuScenes数据集[5]上评估我们的方法。这是一个包含1000个场景的大规模自动驾驶数据集，位于波士顿和新加坡。每个场景以2Hz的频率进行注释，时长为20秒，包含多达23个语义对象类别，以及11个注释图层的高清地图。我们遵循nuScenes预测挑战的官方基准来划分数据集。训练集中有32,186个预测场景，验证集中有8,560个场景。由于无法访问测试集的真实值，我们使用验证集来评估安全感知预测模型。0为了了解未知车辆的普遍性，我们计算了当关键区域限制为50米×50米时，在nuScenes数据集中包含未知车辆的场景数量。训练集中约有47%的场景包含未知车辆，验证集中约有32%的场景包含未知车辆。这表明未知车辆在现实世界的情景中很常见。0定量比较。我们根据上述四个指标对基线和我们的模型进行定量比较。由于基线不考虑未知车辆，为了说明我们方法的有效性，我们将Trajectron++修改为Trajectron++*，采用手工制作的未知车辆预测协议。结果总结如表1所示。通过显式建模安全感知预测并使用最早的占用地图作为表示，我们的模型在除了Aggressiveness之外的各个方面均优于现有模型和传统物理模型。然而，需要注意的是，Aggressiveness指标评估模型是否具有平凡解。因此，157370方法MR (%) ↓ Aggressiveness ↓ UR 0.3 (%) ↑ UR 0.5 (%) ↑ UR 0.7 (%) ↑ MSE ↓0我们 w/o L h 18.00 1.39 36.98 20.73 6.76 6.55 我们 w/o L s 5.85 3.53 46.31 26.36 9.91 10.76 我们 w/o L u 6.60 2.47 49.78 29.89 10.36 6.53 我们 w/o Attention 5.66 2.65 39.97 22.00 6.79 6.91 我们 1.372.48 63.28 43.48 18.85 10.610表3. 对提出的损失和模块进行消融研究。0输入GT Ours图5.我们方法的多模态预测。使用最早的占用地图，我们可以实现多模态的未来预测，而无需采用显式的概率方法。0这不是安全感知预测的一个重要指标。我们可以观察到我们的模型具有最小的MR和MSE，这表明我们的模型具有最少的预测晚于真实值的情况，并符合安全感知预测的定义：尽早但尽可能准确。UR衡量模型是否能够在不遗漏的情况下预测未知车辆。我们的模型在不同阈值下实现了最高的召回率，表明它能够有效地预测未知车辆。需要注意的是，手工制作的协议对于未知车辆预测帮助不大，说明对于未知车辆的预测应考虑上下文信息。此外，基于深度学习的基线方法在物理方法上并没有显著优势。定性比较。我们展示了在不同交通场景下的预测结果，并与基于深度学习的基线方法进行了一些代表性比较（见图7）。更多结果请参考补充材料。注意力图的可视化。我们将运动预测问题形式化为图像到图像的转换问题，并使用输入-输出图像对训练我们的模型。因此，对于未知车辆的预测依赖于数据分布，特别是代理的密度和入口位置。为了了解未知感知自注意单元的机制，我们可视化了空间注意力图。0通过将注意力图叠加在输入图像上，我们可以在图6中观察到，空间注意力有助于我们的模型定位未知车辆和可行驶区域，这表明我们的模型学习了数据的模式，特别是对于未知车辆。多模态。多模态在运动预测中近年来变得流行。我们提供了一种替代方法，即使用最早的占用图。如图5所示，通过我们提出的公式和损失，最早的占用图能够在单个输出中表示多模态的预测运动。此外，如图7所示，我们方法预测的运动倾向于具有稍大的范围，并使系统具有安全感知性。对于未来的工作，层次概率U-Net[25]可能进一步提高多模态预测的能力。05.5. Lyft数据集上的评估0在本节中，我们进一步在Lyft数据集上评估了我们的模型。Lyft数据集[21]在加利福尼亚州帕洛阿尔托拥有超过1,000小时的驾驶数据。它包含170,000个场景，每个场景长25秒。它还提供了一个具有15,242个标记元素的高清语义地图。我们遵循Kaggle挑战的官方指南来划分数据集。训练集中有4,009,980个预测场景。对于验证集，我们使用20,000个场景，这是官方验证集的一个子集。由于缺乏对Lyft数据集的最先进方法的支持，我们只选择MTP [10]和P3[39]作为基线方法，以在上述四个指标上进行比较。结果总结在表2中。与基线方法相比，我们的方法在MR、UR和MSE方面取得了最佳结果，这表明我们的模型预测是安全和准确的。我们检测未知车辆的方法依赖于当前帧；然而，在Lyft数据集中，代理车辆的许多帧都是缺失的，这导致检测到更多的未知车辆。05.6. 消融研究0为了了解哪个模型组件影响性能，我们在nuScenes数据集上进行了消融研究，对提出的损失和注意力模块进行了实验。结果总结在表3中。我们有三个关键观察结果。1）硬损失对于6. Conclusiontask requires the predicted event (arrival time at a location)to be earlier than the actual event in the future while as ac-curate as possible. We introduce a novel safety-aware rep-resentation called the earliest occupancy map that charac-terizes the vehicles’ future motion. With this representa-tion, we formulate the safety-aware motion prediction asan image-to-image translation problem. To solve the prob-lem, we present a customized U-Net architecture with a di-lated bottleneck to enlarge the receptive field and an unseen-aware self-attention unit to facilitate the prediction of un-seen vehicles. Our model is trained effectively with threenovel loss functions. Experimental results on a large-scaleautonomous-driving dataset show that the proposed frame-work significantly outperforms state-of-the-art baselines onthe safety-aware motion prediction task. As for the limita-tion, our method may have some false positive predictionsfor the unseen vehicles. Though the false positives do notcompromise the safety, they may introduce more constraintsfor the planner.157380输入 GT 我们的未知掩码注意力图图6.注意力掩码的可视化。对于注意力图，图像中较亮的区域表示更显著的响应。注意力图在未知掩码周围具有更高的响应，从而帮助模型预测未知车辆的运动。0输入 GT MTP Trajectron++ P3 我们的0图7.nuScenes数据集上我们的方法与其他基线方法的视觉比较。所有预测结果都使用最早的占用图进行可视化。未知车辆用红色边界框标注。我们展示了基线方法的常见失败，包括对未知车辆的缺失预测和对已知车辆的较晚预测。这样的不安全预测可能会误导自车做出糟糕的规划决策。相比之下，我们方法预测的未来运动更早但尽可能准确，并包括未知车辆。0安全感知预测。第一行显示，如果我们的模型没有使用硬损失进行训练，MR和UR会显著下降。2）未知损失、软损失和未知感知自注意力单元是我们模型的必要组成部分。缺少其中任何一个都会对MR和UR的性能造成损害。3）不出所料，未知感知自注意力单元对于学习预测未知车辆比其他组件更重要。即使没有未知损失作为监督，我们的方法仍然可以胜过预测未知车辆的基线方法。请注意，没有硬损失，软损失已经得到充分优化。因此，“Ours w/ohard”实现了最低的攻击性，但这并不意味着它比其他方法更安全。最终模型的MSE轻微下降是由于对未知车辆的错误预测（假阳性）造成的。总体而言，硬损失和未知感知自注意力单元是主要的性能改进组件。0157390参考文献0[1] Mohammadhossein Bahari, Nejjar Ismail, and AlexandreAlahi. 在数据驱动的车辆轨迹预测中注入知识. 交通研究C部分,2021. 20[2] Mayank Bansal, Alex Krizhevsky, and Abhijit Ogale.Chauf- feurnet: 通过模仿最好的和合成最差的方式学习驾驶.arXiv预印本arXiv:1812.03079, 2018. 20[3] Adam Berthelot, Andreas Tamke, Thao Dang, and GabiBreuel. 一种概率计算碰撞时间的新方法. 在IV, 2012. 20[4] Lawrence Blincoe, Ted R Miller, Eduard Zaloshnja, andBruce A Lawrence. 机动车事故的经济和社会影响, 2010.技术报告, 2015. 10[5] Holger Caesar, Varun Bankiti, Alex H. Lang, Sourabh Vora,Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan,Giancarlo Baldan, and Oscar Beijbom. nuscenes:用于自动驾驶的多模态数据集. arXiv预印本arXiv:1903.11027,2019. 5, 60[6] Yuning Chai, Benjamin Sapp, Mayank Bansal, andDragomir Anguelov.多路径：行为预测的多个概率锚定轨迹假设. 在CoRL, 2019. 20[7] Hang Chu, Daiqing Li, David Acuna, Amlan Kar, MariaShugrina, Xinkai Wei, Ming-Yu Liu, Antonio Torralba, andSanja Fidler. 用于建模城市道路布局的神经海龟图形. 在ICCV,2019. 20[8] Alexandre Constantin, Junghee Park, and Karl Iagnemma.用于自动公路导航的基于边界的威胁评估方法. 在IV, 2014. 20[9] Akansel Cosgun, Lichao Ma, Jimmy Chiu, Jiawei Huang,Mahmut Demir, Alexandre Miranda Anon, Thang Lian, HasanTafish, and Samir Al-Stouhi. 迈向城市环境中的全自动驾驶:在加利福尼亚州的Gomentum站进行演示. 在IV, 2017. 20[10] Henggang Cui, Vladan Radosavljevic, Fang-Chieh Chou,Tsung-Han Lin, Thi Nguyen, Tzu-Kuo Huang, Jeff Schnei- der,and Nemanja Djuric.使用深度卷积网络进行自动驾驶的多模态轨迹预测. 在ICRA, 2019.2, 5, 70[11] Wenchao Ding, Lu Zhang, Jing Chen, and Shaojie She

下载后可阅读完整内容，剩余1页未读，立即下载