神经运动规划器中的可解释性和学习成本优化方法

171 浏览量更新于2023-10-19 收藏 1.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8660端到端可解释的神经运动规划器曾文媛1，2罗文杰1，2罗Simon Suo1，2Abbas Sadat1Bin Yang1，2Sergio Casas1，2Raquel Urtasun1，21 Uber Advanced Technologies Group2多伦多大学{wenyuan，wenjie，suo，abbas，byang10，sergio. casas，urtasun}@ uber.com摘要在本文中，我们提出了一种神经运动规划器，用于学习在复杂的城市场景中自主驾驶，包括交通灯处理，屈服和与多个道路用户的交互为了实现这一目标，我们设计了一个整体模型，该模型将原始LIDAR数据和高清地图作为输入，并以3D检测及其未来轨迹的形式产生可解释的中间然后，我们采样一组不同的物理可能的轨迹，并选择一个最小的学习成本。重要的是，我们的成本量能够自然地捕获多模态。我们证明了我们的方法在现实世界中的驾驶数据captured在北美的几个城市的有效性。我们的实验表明，学习的成本量可以生成比所有基线更安全的计划。1. 介绍自动驾驶汽车（SDV）将彻底改变我们的生活方式。然而，大规模构建可靠的SDV并不是一个解决的问题。与许多应用领域一样，自动驾驶领域在过去几年中因深度学习的成功而发生了变化。利用该技术的现有方法可以分为两个主要框架：端到端驱动和传统工程堆栈。端到端驱动方法[3，24]采用传感器的输出LiDAR、图像）并将其用作输出控制信号的神经网络的输入，转向指令和加速。该框架的主要优点是其简单性，因为只有几行代码可以构建模型，并且可以通过在SDV平台下记录人类驾驶来在实践中，这种方法遭受复合误差*表示同等贡献。由于自动驾驶控制的性质是顺序决策问题，并且需要大量数据来概括。此外，分析网络的错误很难获得可解释性。还难以结合关于场景的复杂先验知识，例如车辆不应该相撞。相比之下，大多数自动驾驶汽车公司使用传统的工程堆栈，其中问题被划分为子任务：感知、预测、运动规划和控制。知觉负责根据当前和过去的证据估计所有行动者这涉及解决诸如3D对象检测和跟踪之类的任务另一方面，预测1解决了估计所有参与者的未来位置以及他们的意图的问题（例如，改变车道、停车）。最后，运动规划需要从以前的堆栈输出，并生成一个安全的轨迹SDV通过控制系统执行该框架通过构造具有可解释的中间表示，并且可以容易地利用先验知识，例如以高清晰度地图（HD地图）的形式。然而，解决这些子任务中的每一个不仅是困难的，而且可能导致次优的整体系统性能。大多数自动驾驶公司都有大型的工程师团队，他们孤立地处理每个子问题，并用特定的任务目标来训练每个子系统。因此，一个子系统的进步不容易转化为整体系统性能的提高。例如，3D检测试图最大化AP，其中每个演员具有相同的权重。然而，在驾驶场景中，可能影响SDV运动的近距离行为者的高精度检测，例如，通过相互作用（切入、突然停止），更关键。此外，不确定性估计难以传播，并且计算在不同的子系统之间不共享这导致SDV的反应时间更长，并使整个系统的可靠性降低。在本文中，我们弥合了这两个框架之间的差距为了实现这一目标，我们提出了第一个端到-1我们8661骨干网感知成本量轨迹采样器+轨迹样本+Argmin轨迹图1.我们的端到端可解释的神经运动规划器。骨干网络将LiDAR数据和地图作为输入，并输出未来时间步（感知）的其他参与者的边界框，以及使用T过滤器进行规划的成本量。接下来，对于来自采样器的每个轨迹建议，其成本从成本量的不同过滤器索引并加在一起。成本最小的轨迹将是我们最终的规划。最终可学习和可解释的运动规划器。我们的模型将LiDAR点云和高清地图作为输入，并以3D检测及其未来轨迹的形式产生可解释的中间表示我们的最终输出表示是一个时空成本量，它表示SDV在规划范围内可以采取的每个位置的然后，我们的规划器对一组不同的可行轨迹进行采样，并选择具有最小学习成本的轨迹执行重要的是，非参数成本量能够捕获可能的SDV轨迹中的不确定性和多模态，例如改变车道与保持车道。我们证明了我们的方法在北美几个城市捕获的真实驾驶数据的有效性。实验结果表明，该模型具有良好的可解释性，具有较好的性能.特别是对于检测和运动预测，我们的模型优于最近的神经架构专门设计的这些任务。对于运动规划，与基线相比，我们的模型生成更安全的规划。2. 相关工作模仿学习：模仿学习（IL）使用专家演示来直接学习将状态映射到动作的策略。在[24]的开创性工作中引入了用于自动驾驶车辆的IL，其中学习了从传感器数据到转向角和加速度的直接映射。[3]这是一种类似的哲学。相比之下，在高端驾驶模拟器的帮助下[9]，Codevilla等人。[8]使用额外的高级命令开发条件模型例如继续、左转、右转。Muller等人[21]将道路分段作为中间表示，然后将其转换为转向命令。在实践中，IL方法由于自动驾驶控制的性质是顺序决策问题而遭受复合误差。此外，这些方法需要大量数据，并且概括性差，例如，到偏离车道的情况。&强化学习（RL）是顺序决策问题的自然选择，因为它考虑了环境和智能体（在这种情况下是自动驾驶汽车）之间的相互作用。继Alpha GO [29]的成功之后，RL已在[15，23]中应用于自动驾驶。另一方面，逆强化学习（IRL）着眼于学习给定任务的奖励函数。[31，35]开发IRL算法来学习自动驾驶汽车的可驾驶区域。[25]进一步推断具有对称交叉熵损失的可能轨迹。然而，所有这些方法都只在模拟数据集或小型真实世界数据集上进行了测试，目前还不清楚RL和IRL是否此外，这些方法不产生可解释的表示，这在安全关键应用中是期望的。基于优化的计划器：长期以来，运动规划一直被视为一项独立的任务，它使用感知和预测模块的输出来制定优化问题，通常通过手动设计成本函数[4，10，20，36]。然后通过最小化该成本函数来生成优选轨迹在实践中，为了简化优化问题，许多方法，如-8662步骤1：回旋曲线步骤2：速度曲线步骤3：轨迹图2.轨迹表示。我们首先对回旋曲线的一组参数进行采样，以确定轨迹的形状。然后，我们对速度剖面进行采样，以确定SDV沿着该轨迹的速度。把这两者结合起来，我们就能得到一个时空轨迹。将目标设为二次[7]，将横向和纵向规划分解为两个任务[1，10]，或者将搜索空间表示为速度和路径[11，14]。在文献[1]中，A* 用于搜索可能运动的空间。类似地，百度运动规划器[10]使用动态规划来找到近似路径和速度曲线。在[36]中，轨迹规划问题被公式化为连续优化，并在实践中用于演示100公里的自动驾驶。在基于采样的方法中，生成一组轨迹并针对预定义的成本进行评估，其中选择具有最小成本的轨迹[27，30]。这种方法是有吸引力的，因为它们是高度并行化的[19]。所有这些手工设计的方法的缺点是它们对于现实世界的驾驶场景不鲁棒，因此需要巨大的工程努力来对其进行微调。不确定性下的规划：还探索了在存在不确定性的情况下稳健和安全驾驶的规划方法[2，12，33]。其他行动者意图的不确定性是[2，33]的主要焦点在[12]中，其他车辆未来可能的动作和碰撞概率被用来解释障碍物位置的不确定性。与这些方法相比，我们的规划者自然地通过学习非参数成本函数来处理不确定性整体模型：这些模型提供了可解释性。Chen等人[6]建议学习从传感器数据到示能表示的映射，例如到左边界/领先车辆的距离。然后，这被馈送到控制器中，该控制器生成转向命令和加速度。 Sauer等人[26]还提出了以方向命令为条件的变型另一方面，Luoet al.[18]建议联合在这项工作中，我们采取了一种整体模型方法，并通过设计一个单一的神经网络，将原始传感器和动态地图数据作为输入，并预测规划的成本地图，从而更进一步。与直接回归转向角（来自原始数据）的模仿学习方法[3，8，24与传统的规划者相比，传统的规划者使用人工设计的成本函数建立在感知和预测系统之上，我们的模型具有联合训练的优势，从而学习对最终任务最优的表示。此外，我们的模型可以自然地处理不确定性（因为这在成本中表示），并且不需要昂贵的参数调整。3. 深度结构化可解释规划器我们提出了一个端到端的可学习的运动规划器，在几秒钟的规划范围内生成准确的时空轨迹。重要的是，我们的模型将LiDAR点云和高清地图作为输入，并以3D检测的形式产生可解释的中间表示，并预测其在规划范围内的未来运动。我们的最终输出表示是一个时空成本量，它代表SDV在规划范围内可以采取的每个可能位置的然后，我们的计划者使用学习到的成本量对一系列的路线方案进行评分，并选择成本最低的方案。我们用多任务对象端到端地训练我们的模型。我们的计划损失鼓励最低成本计划类似于人类恶魔的轨迹。请注意，这种损失是稀疏的，因为地面实况轨迹只占用一小部分空间。因此，仅仅从这种损失中学习是缓慢而困难的。为了缓解这个问题，我们引入了另一种压缩损失，鼓励中间表示产生准确的3D检测和运动预测。这确保了中间表示的可解释性，并实现了更快的学习。3.1. 深度结构化规划更正式地说，让s={s0，s1，···，sT−1}是跨越T个时间步到未来的轨迹，其中st 是在时间步t的鸟瞰图（BEV）中的我们将规划问题表述为深层结构化的最小化问题，如下所示Σ从原始LiDAR数据[5]将其扩展到预测每辆车的意图。上述所有方法都是针对提供交互的任务进行训练的s*= argminSct（st）（1）不可预测的感知/预测输出将用于运动规划。然而，没有反馈从运动规划模块反向传播。其中ct是我们在时间步t索引的学习成本体积，它是一个与我们的感兴趣区域大小相同的2D张量。这种最小化近似于采样8663i、ji、j罪i、j一组物理上有效的轨迹s，并在每个位置选择一个，具有不同的大小，长宽比和方向，以最小的成本。我们的模型采用卷积选项。分类分支输出得分pk为每个网络骨干来计算这个成本量。它首先从LiDAR和地图中提取要素，然后将锚指示车辆在每个锚的位置处的概率。回归分支还输出回归-该特征映射到卷积层的两个分支中，每个锚点的选择目标在不同的时间步骤。这输出3D检测和运动预测以及包括定位偏移Lt，Lt，大小ST，ST和航向XywH计划成本量分别。在本节中，我们-角度attcos. 上标t代表时间范围，详细描述我们的输入表示和网络。输入表示：我们的方法将原始点云作为输入，由安装在SDV顶部的LiDAR捕获。我们采用T ′= 10次连续扫描作为观测，以推断所有参与者的运动。对于这些扫描，我们校正自我运动，并将过去10帧的点云带到以SDV当前位置为中心的相同坐标为了使输入数据符合标准卷积，我们遵循[5]并将空间光栅化为3D占用网格，其中每个体素具有指示其是否包含LiDAR 点的二进制值。这导致大小为 H x W x（ZT ′）的3D张量，其中Z、H、W分别表示高度和x-y空间维度。请注意，我们沿着Z维有协调的时间步长，从而避免了内存和计算密集型的3D卷积对地图的访问也是准确运动规划的关键，因为我们需要根据交通规则（例如，遇红灯停车、沿行车线行驶、只在许可的情况下才转线）。为了实现这一目标，我们利用包含有关场景语义的信息的HD地图，实线，虚线）和停车标志的位置。与[5]类似，我们对地图进行光栅化以形成M通道张量，其中每个通道表示不同的地图元素，包括道路，交叉路口，车道，车道边界，交通灯等。因此，我们的最终输入张量的大小为HxW x（ZT′+M）。主干：我们的主干是从[32]的检测网络改编而来的，由五个模块组成。每个块具有{2，2，3，6，5}Conv 2D图层，过滤器编号为{32，64，128. 256，256}，滤波器大小3 × 3和步幅1。有最大池层后的每一个前3块。多尺度在前4个块之后如下生成特征图。我们将前4个块中的每个块的特征图调整为输入大小的1/4，并将它们连接在一起，类似于[34]，以增加有效的感受野[17]。然后将这些多尺度特征馈送到第5块中。整个主干具有4的下采样率。感知标题：感知报头具有由卷积层形成的两个组件，一个用于分类，一个用于回归。为了减少回归目标的方差，我们遵循SSD [16]并在每个特征图位置处采用多个预定义的锚框ak，其中下标i，j表示特征图上的位置，k表示锚点上的索引。总共有12个锚点，从0（现在）到未来的T-1。回想-在每一个时间步上都要执行一次操作，从而产生运动预测每辆车。成本体积头：成本体积头由几个卷积和反卷积层组成。为了以与我们的鸟瞰图（BEV）输入相同的分辨率产生成本体积c每个去卷积层之后还跟随具有滤波器编号{128，64}、滤波器大小3x 3和步幅1的卷积层。然后，我们应用滤波器编号为T的最终卷积层，这是我们的规划范围。每个过滤器生成未来时间步的成本量ctt.这允许我们通过简单地索引成本体积c来评估任何轨迹s的成本。在我们的实验中，我们还削减成本体积值在-1000到+1000网络后。应用这样的边界可以防止成本值任意移动，并使调整超参数更容易。我们接下来描述我们的输出轨迹参数化。3.2. 有效推断给定输入LiDAR扫描和HD地图，我们可以通过如上所述的前馈卷积运算来计算对应的成本体积c最后的轨迹可以通过最小化方程来计算。（一）.然而，请注意，这种优化是NP难2的。因此，我们依赖于采样来获得低成本轨迹。为了实现这一目标，我们对SDV可以执行的各种轨迹进行采样，并根据我们学到的成本量生成具有最小成本的轨迹作为最终输出。在本节中，我们将描述如何在推理过程中有效地对物理上可能的轨迹进行采样。由于轨迹的成本是通过从成本量索引来计算的，因此我们的规划器对于实时推理来说足够快。输出参数化：的轨迹可以由空间路径（2D平面中的曲线）和速度剖面（我们沿着该路径走得有多快）的组合来定义。将轨迹采样为（x，y）∈ N2中的一组点空间不是一个好主意，因为车辆不能执行所有位置，一个空间中的点的集合。这是由于例如速度、加速度和速度的物理限制。[2]我们期望规划器的输出轨迹在物理上是可行的。这会对解集引入约束。在这些物理约束下，优化是NP难的。得双曲余切值.8664i、j转向角考虑到这些现实世界的限制，我们强加的车辆应该遵循的动力学模型。在本文中，我们采用了自行车模型[22]，该模型广泛用于自动驾驶汽车的规划。该模型意味着车辆路径的曲率κ前轮和车辆）：κ=2tan（φ）/L<$2φ/L，式中，L是前轴和后轴之间的距离，SDV。这是一个很好的近似，因为φ通常很小。然后，我们利用回旋曲线，也称为欧拉螺旋或Cornu螺旋，来表示SDV的2D路径[28]。我们请读者参看图1。2作说明。该曲线上的点的曲率κ与其沿曲线到参考点的距离κ成比例，即，κ（π）=π考虑到自行车模型，该线性曲率特性对应于以恒定角速度转向前轮角度的标准形式回旋曲线可以定义为短期规划。此外，我们对恒定加速度进行采样，范围为−5m/s2至5m/s2，这指定了SDV合并采样曲线和速度剖面，我们可以将时间序列投影到离散时间步，并获得相应的路点（见图2），以评估学习成本。3.3. 端到端学习我们的最终目标是在遵守交通规则的同时规划一条安全的我们希望模型能够了解障碍物的位置以及它们未来的位置，以避免碰撞。因此，我们使用多任务训练，并监督检测，运动预测以及人类驱动的自我车轨迹。请注意，我们没有对成本量的监督。因此，我们采用最大边际损失来推动网络学习区分好的和坏的轨迹。则总损失函数为：Σs（n）= s0+aC.Σ联系我们一.ΣΣ联系我们一（二）L=L感知+ βL规划。（5）这种多任务损失不仅指挥网络提取S（）=C（）=∫ξ罪0∫ξcos0.πu2π2.πu2π2中文（简体）中文（简体）有用的功能，而且还使网络输出间-预期结果。这对自动驾驶至关重要，因为它有助于理解故障情况并改进系统。在下文中，我们将更详细地描述每种损失。感知损失：我们的感知损失包括分类损失，用于区分车辆和背景，在这里，s（m）定义了2D平面上的回旋曲线，由到参考点s0的距离m索引，a是缩放因子，T0和N0是该曲线在点s0处的切线和法向量。S（λ）和C（λ）被称为菲涅耳积分，可以有效地计算。为了充分定义速度因子y，我们还需要一个纵向速度因子（速度和回归损失，用于生成精确的对象边界框。对于每个预定义的锚框，网络输出分类分数以及几个回归目标。该分类分数pk指示车辆在该锚点处存在我们采用交叉熵损失的分类定义为profile），它指定沿路径s（s）：s的SDV运动。Σstec（t）=是SDVL类=qklogpk+（1−qk）log（1−pk）、（6）0 0i，ji、ji、ji、j是恒定的向前加速度。结合这一点和（2），我们可以得到方程中的轨迹点s。（一）.i，j，k其中qk 是该锚的类标签（即，QK =1i，j i，j采样：由于我们利用回旋曲线，因此对路径进行采样对应于对等式中的缩放因子a进行（二）、考虑到15米/秒的城市行驶速度限制，我们认为-对于车辆和0对于背景）。回归输出包括位置、形状和航向角信息，每个时间帧t，即在6 ~ 80 m范围内均匀地施加a一旦a被采样，曲线的形状就固定了。3然后，我们使用初始SDVlx= xa−xlwlly=Waya−ylH1，Ha在曲线上的位置请注意，回旋曲线可以-不能很好地处理圆和直线轨迹，因此我们分别对它们进行采样。采用直线、圆、回旋曲线的概率分别为0.5，0.25，0.25.此外，我们只使用一个回旋曲线段来指定SDV的路径，我们认为这对于sw=logwlsh=loghl，asin=sin（θa−θl）acos=cos（θa−θl），其中上标a表示锚，l表示标记。我们在所有这些输出上使用加权平滑L1损失。整体感知损失为3我们还对一个二进制随机变量进行采样，表明它是一个典型的回旋曲线或垂直翻转的镜子。它们分别对应于左转或右转。L感知=.ΣL类+α ΣTt=0ΣTreg.（七）L8665我我我方法L2（m）碰撞率（%）车道违规（%）1.0s2.0s3.0s0.5s1.0s1.5s2.0s2.5s3.0s1.0s2.0s3.0s自我运动0.2810.9002.0250.000.010.200.541.041.810.512.726.73IL0.2310.8391.9230.000.010.190.551.041.720.442.635.38ACC0.4031.3352.7970.050.120.270.531.182.390.240.460.64人工成本0.4021.4322.9900.000.020.090.220.792.210.392.735.02我们的（3s）0.3141.0872.3530.000.010.040.090.330.780.350.772.99表1.规划度量请注意，回归损失是在所有车辆相关锚点上求和的，从当前时间范围到我们的预测范围T。因此，它教导模型预测车辆在每个时间帧的位置。为了找到每个锚点的训练标签，我们将它与其相邻的地面实况边界框，类似tory样本，这是每时间步损失的总和。[]+表示ReLU函数。这被设计为在总和内部而不是外部，因为它可以防止一个时间步长的成本量主导整个损失。dt是负弹道和地面实况之间的距离轨迹||（xt，yt）−（xt，yt）||2、用于鼓励我我至[16，18]。特别是，对于每个锚，我们发现所有具有大于0的交集大于并集（IoU）的地面实况框。4.第一章我们将其中最高的一个与这个锚点相关联，并相应地计算类标签和回归目标。我们还将任何未分配的地面实况框与其最近的邻居相关联。其余锚点被视为背景，不计入回归损失。注意，一个地面实况框可以与多个锚点相关联，但是一个锚点最多可以与一个地面实况框相关联在训练过程中，我们还采用了硬否定挖掘来克服正负样本之间的不平衡。计划损失：学习合理的成本量是具有挑战性的，因为我们没有地面真相。为了克服这个困难，我们最大限度地减少最大利润损失，我们使用地面实况轨迹作为一个积极的例子，随机采样的轨迹作为负面的例子。背后的直觉是鼓励地面实况轨迹具有最小的成本，而其他人具有更高的成本。更具体地说，假设我们有接下来T个时间步的地面实况轨迹{（xt，yt）}，其中（xt，yt）是我们的车辆在t个时间步的位置将此时的成本值定义为（xt，yt）。然后，我们取样N个负轨迹，其中第i个是{（xt，yt）}负轨迹远离地面实况轨迹，成本更高。γt是交通规则违反成本，当且仅当负轨迹t在时间t违反交通规则（例如，在红灯前移动、与其他车辆碰撞等）时，γ t是常数这是用来确定如何在计算地面实况轨迹和每个负样本之间的差异之后，我们仅通过最大操作优化最坏情况。这鼓励模型学习成本量，以区分好的轨迹和坏的轨迹。4. 实验在本节中，我们将在大规模真实驾驶数据集上评估我们的方法该数据集是在北美多个城市收集的。它由大约140万帧的6,500个场景组成，训练集由5,000个场景组成，而验证和测试分别有500和1,000个场景。我们的数据集每100毫秒就有对于所有实验，我们利用相同的空间区域，我i以SDV为中心，前面和后面都有70.4米，在这些点的成本体积值是CT。负轨迹的取样程序与我们在第1.1节中描述的相似3.2，除了有0.8的概率，负样本不服从SDV的初始状态，例如。我们随机抽取一个速度来代替SDV的初始速度。这将提供更容易的负面例子，模型开始。定义了总体最大边际损失背部，左右各40米，高度从-2米到3.4米。这对应于704x400x27张量。我们的输入序列是10帧，10 Hz，而输出是7帧，2 Hz，因此导致3秒的规划范围在下文中，我们首先对作为L规划=..ΣΣTMaxΣΣΣ Σct−ct+dt+γt规划各种度量碰撞的指标，与人类轨迹和交通规则违反的相似性。接下来，我们展示了我们的方法的可解释性{（xt，yt）}1≤i≤Nt=1我我我+（八）通过检测和运动预测的定量分析，以及学习成本量的可视化。最内部的总和表示地面实况轨迹和一个负轨迹之间的差异。最后，我们提供了一个烧蚀研究，以显示不同的损失函数和不同的时间历史长度的影响8666方法L2沿着轨迹（m）L2穿过轨迹（m）L1（m）L2（m）0s1s2s3s0s1s2s3s0s1s2s3s0s1s2s3s[18]第十八话0.290.490.871.520.160.230.390.580.450.721.312.140.370.601.111.82IntentNet[5]0.230.420.791.270.160.210.320.480.390.611.091.790.320.510.931.52我们0.210.370.691.150.120.160.250.370.340.540.941.520.280.450.801.31表2.运动预测度量ID丢失输入惩罚mAP@IoU预测L2（m）碰撞率（%）交通违规（%）Det计划5100.50.71s2s3s1s2s3s1s2s3s1CC94.181.30.480.841.34------2CC-----0.010.231.420.371.063.853CCCC93.680.10.460.831.350.010.150.930.360.863.094CCC94.281.10.450.801.300.010.291.400.361.023.265CCCC94.281.10.450.801.310.010.090.780.350.772.99表3.消融研究。我们比较了不同的监督，不同的输入视野和不同的培训损失的效果。ID表示模型ID，我们使用它是为了清晰和简洁。4.1. 规划成果我们评估各种各样的规划指标。L2与实际轨迹的距离：评估计划轨迹与实际执行轨迹的距离。请注意，真实轨迹只是人类可以做的许多可能轨迹之一，因此该度量并不完美。未来潜在碰撞率（Future PotentialCollision Rate）：用于查看计划轨迹是否会在未来与其他车辆重叠对于给定的时间步长t，我们计算直到时间t的碰撞发生的百分比，因此优选较低的数字。车道违规：此指标计算计划轨迹穿过黄色实线的百分比。请注意，越低越好，如果SDV接触线，则定义交叉我们实施了许多比较基准，包括：自我运动预测（自我运动）：自我运动提供了SDV未来如何移动的强烈线索。该基线仅将SDV的过去位置作为输入，并使用4层MLP来预测未来位置。模仿学习（IL）：我们遵循模仿学习框架[3，8，24]，并利用深度网络从原始LiDAR数据和栅格化地图中提取特征。为了公平比较，我们使用相同的骨干描述（节。3.1）和相同的输入参数化（第3.1我们的方法此外，使用来自自我运动预测基线的相同MLP来从自我运动提取特征。然后将这两个特征连接并馈送到3层MLP中以计算最终预测。自适应巡航控制（ACC）：该基线实现跟随领先车辆的简单行为车辆跟随车道中心线，同时自适应地调整其速度以与前车保持安全距离当没有领头车辆时，遵循安全速度限制交通管制（交通灯、停车标志）被视为一个静止的障碍物，类似于一辆停下来的领头车。计划w/人工成本（手动）：此基线使用与我们的approach.然而，它利用人工设计的成本使用感知和运动预测输出。详细地说，我们将SDV可以前进的所有可能的道路进行排序，并将其设置为0的低成本;所有检测到的对象的边界框定义了设置为255的高成本区域;任何其它区域的成本被设置为默认值100。这个基线的设计是为了显示我们学习的成本量的有效性，因为它使用与我们的方法相同的抽样程序，但只是不同的成本量。如Tab.所示1，我们的方法具有较低的未来碰撞率在所有的时间步大幅度。请注意，自我运动和IL基线给出了较低的L2数字，因为它们直接针对该度量进行了优化，然而，从规划的角度来看，它们并不好，因为它们难以推理其他参与者，并且经常与他们发生冲突。与人工成本基线和ACC相比，我们实现了更好的回归数和更好的碰撞率，显示了我们学习的成本量超过人工设计成本的优势。对于车道违规，ACC被设计为遵循车道，因此根据定义，它大约有0次违规。与其他基线相比，我们实现了更小的违规数量，表明我们的模型能够从地图中推理和学习。4.2. 解释性可解释性对于自动驾驶至关重要，因为它可以帮助理解失败案例。我们展示了我们的方法的可解释性，通过显示3D检测和运动预测的定量结果和可视化我们学到的成本图到未来的所有时间步。检测：我们与几个最先进的实时检测器进行比较，验证我们的整体模型能够理解环境。我们的基线包括改编自 [13] ， FaF[18] ， IntentNet[5] 和 Pixor[32] 的MobileNet，这些都是专门为基于LiDAR的3D物体检测而设计的。度量是具有不同IoU阈值的mAP，并且不考虑没有LiDAR点的车辆8667图3. 我们以红色显示计划轨迹，以蓝色显示地面实况。我们使用不同的颜色（由图例表示）在同一图中覆盖不同时间步的较低成本区域。检测和相应的预测结果为青色。(best彩色视图）方法检测mAP @ IoU（pts ≥1）0.50.60.70.80.9[13]第十三话86.178.360.427.51.1[18]第十八话89.882.568.135.82.5IntentNet[5]94.489.475.443.53.9皮克斯[32]93.489.478.852.27.6我们94.290.881.153.77.1表4.检测mAP结果如Tab.所示。4、我们的模型在0.7 IoU阈值上取得了最佳结果，这是自动驾驶的首选指标定性结果也可以在图中找到。3 .第三章。运动预测：选项卡. 图2示出了定量运动预测结果，包括到地面实况位置的L1和L2我们还提供了从我们的预测到地面实况位置的L2距离，该距离沿着地面实况轨迹并垂直于地面实况轨迹。这些有助于解释错误是否是由于错误的速度或方向估计。我们使用[5，18]中的基线，这些基线旨在使用原始LiDAR数据进行运动预测。我们的模型在所有的度量和所有的时间步长上都表现得更好。注意，IntentNet使用高级意图作为训练的附加信息。定性结果见图。3 .第三章。成本图可视化：在图3中，我们可视化了几种不同的驾驶场景。每个图都给出了场景的自上而下视图，显示了地图、LiDAR点云、检测、运动预测和规划结果，包括学习的成本地图。每个图代表一个示例，其中我们覆盖来自不同时间步的成本图我们使用不同的颜色来表示不同时间步长的较低成本区域（由颜色图例表示）。我们可以看到我们的模型学习产生时间依赖的成本图。特别是，第一列展示了多模态，第二列显示了在交通繁忙时的车道跟随，最后一列显示了碰撞避免。4.3. 消融研究我们进行了消融研究，结果见表3。我们的最佳模型是模型5，与仅针对检测和运动预测进行优化的模型1相比，它在检测和运动预测方面实现了类似的性能。模型2只使用规划损失直接训练，没有对象边界框的监督，性能较差。模型3利用不同的输入长度，其中较长的输入序列给出更好的结果。模型4在没有等式（1）中的交通规则惩罚γ的情况下被训练8.它在规划方面表现较差，因为它没有避免碰撞的先验5. 结论我们提出了一个神经运动规划器，它可以学习在遵守交通规则的同时安全驾驶我们设计了一个整体模型，该模型采用LiDAR数据和高清地图，并以3D检测及其未来轨迹的形式产生可解释的中间表示，以及定义自动驾驶汽车在规划范围内可以采取的每个位置的优点的成本图。然后，我们的规划器对一组物理上可能的轨迹进行采样，并选择具有最小学习成本的轨迹。我们已经在北美几个城市的非常复杂的现实场景中证明了我们方法的有效性，并展示了我们如何学习准确驾驶8668引用[1] Zlatan Ajanovic 、 Bakir Lacevic 、 Barys Shyrokau 、Michael Stolz和Martin Horn。基于搜索的最优模型规划自动驾驶。arXiv预印本arXiv：1803.04868，2018。3[2] Tirthankar Bandyopadhyay ， Kok Sung Won ， EmilioFraz- zoli，David Hsu，Wee Sun Lee，and Daniela Rus.意图感知运动规划。在机器人学基础X，第475-491页。Springer，2013. 3[3] MariuszBojarski ， DavideDelTesta ， DanielDworakowski ， Bernhard Firner ， Beat Flepp ， PrasoonGoyal ， Lawrence D Jackel ， Mathew Monfort ， UrsMuller，Jiakai Zhang，et al.自动驾驶汽车的端到端学习。arXiv预印本arXiv：1604.07316，2016。一、二、三、七[4] Martin Buehler ， Karl Iagnemma ， and Sanjiv Singh.DARPA城市挑战：城市交通中的自动驾驶汽车，第56卷。Springer，2009. 2[5] Sergio Casas ， Wenjie Luo ， and Raquel Urtasun.Intentnet：学习从原始传感器数据预测意图。在AudeBillard、Anca Dragan、Jan Peters和Jun Morimoto编辑的Proceedings of The 2nd Conference on Robot Learning，Proceedings of Machine Learning Research 第87 卷，第947-956页中PMLR，2018年10月29日至31日。三、四、七、八[6] Chenyi Chen ， Ari Seff ， Alain Kornhauser ， andJianxiong Xiao.深度驾驶：自动驾驶中直接感知的学习启示。2015年IEEE国际计算机视觉会议（ICCV），第2722IEEE，2015年。3[7] 陈建，W. Zhan和M.富冢用于道路自动驾驶运动规划的约束迭代lqr。2017年IEEE第20届智能交通系统国际会议（ITSC），第1-7页，2017年10月。3[8] 费利佩·科德·维拉，马蒂亚斯·米耶，安东尼奥·洛佩斯，弗拉德连·科尔通和阿列克谢·多索维茨基。通过条件模仿学习实现端到端驾驶。2018年IEEE机器人与自动化国际会议（ICRA），第1IEEE，2018年。二、三、七[9] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉：一个开放式的城市驾驶模拟器。arXiv预印本arXiv：1711.03938，2017。2[10] Haoyang Fan ， Fan Zhu ， Changchun Liu ， LiangliangZhang，Li Zhuang，Dong Li，Weicheng Zhu，JiangtaoHu，Hongye Li，and Qi Kong.百度阿波罗运动规划器。arXiv预印本arXiv：1807.08048，2018。二、三[11] Thierry Fraichard和Christian Laugier。路径-速度分解法重新研究并应用于动态轨迹规划。机器人与自动化，1993年。诉讼程序1993年IEEE国际会议，第40-45页。IEEE，1993年。3[12] 杰森·哈迪和马克·坎贝尔自主道路车辆概率障碍预测的应急规划。IEEE Transactions on Robotics，29（4）：913-929，2013. 3[13] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko ， Weijun Wang ， Tobias Weyand ， MarcoAn- dreetto，and Hartwig Adam. Mobilenets：高效卷积8669移动视觉应用的神经网络。 arXiv 预印本 arXiv ：1704.04861，2017。七、八[14] Kamal Kant和Steven W Zucker。实现有效的轨迹规划：路径速度分解国际机器人研究杂志，5（3）：72-89，1986. 3[15] AlexKendall 、 JeffreyHawke 、 DavidJanz 、Przemyslaw Mazur、Daniele Reda、John-Mark Allen、Vinh-Dieu Lam、Alex Bewley和Amar Shah。一天学会开车。arXiv预印本arXiv：1807.00412，2018。2[16] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy，Scott Reed，Cheng-Yang Fu，andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。四、六[17] Wenjie Luo，Yujia Li，Raquel Urtasun，and RichardZemel.理解深度卷积神经网络中的有效感受野。神经信息处理系统的进展，第4898-4906页，2016年。4[18] Wenjie Luo，BinYang，and Raquel Urtasun.快速和狂热：利用单个卷积网络进行实时端到端3d检测、跟踪和运动预测。三六七八[19] 马修·麦克诺顿实时运动规划的并行算法2011. 3[20] Michael Montemerlo ， Jan Becker ， Suhrid Bhat ，Hendrik Dahlkamp ，Dmitri Dolgov，Scott Ettinger，Dirk Haehnel ， Tim Hilden ， Gabe Hoffmann ，Burkhard Huhnke，et al.朱尼尔：斯坦福大学参加城市挑战赛. Journal of field Robotics，25（9）：569-597，2008. 2[21] MatthiasMuüller，AlexeyDosovitskiy，BernardGhanem，andV

下载后可阅读完整内容，剩余1页未读，立即下载