NEAT:神经注意力场中的自动驾驶模型

174 浏览量更新于2023-10-14 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15793CixytMLP注意力图2D图像特征N次迭代NEAT：端到端自动驾驶的神经注意力场Kashyap Chitta*1，2Aditya Prakash*1Andreas Geiger1，21德国图宾根马克斯·普朗克智能系统研究所2图宾根{firstname.lastname}@ tue.mpg.de摘要关于场景的语义、空间和时间结构的高效推理我们提出神经注意力领域（NEAT），一种新的表示，使这样的推理端到端模仿学习模型。NEAT是连续函数，其将鸟瞰图（BEV）场景坐标中的位置映射这允许我们的模型选择性地关注输入中的相关区域，同时忽略与驾驶任务无关的信息，从而有效地将图像与BEV表示相关联。在新的评估环境中，NEAT在恶劣的环境条件和具有挑战性的场景中，表现优于几个强大的基线，并获得了与用于生成其训练数据的特权CARLA专家相当的驾驶分数。此外，用NEAT中间表示可视化模型的注意力图提供了改进的可解释性。1. 介绍导航用于自主驾驶的大型动态场景需要场景的空间和时间方面的有意义的表示。通过行为克隆的模仿学习（IL）已经成为这项任务的一种有前途的方法[5，10，16，53，78]。给定专家轨迹的数据集，通过监督学习来训练行为克隆代理，其中目标是在给定关于场景的一些感官输入的情况下预测专家的动作[48]。考虑到在自动驾驶中遇到的复杂的空间和时间场景结构，在基于IL的驾驶代理中使用的训练目标已经通过并入辅助任务而演变。诸如CILRS [16]的开创性方法使用预测自我车辆速度的简单的自我监督辅助训练目标从那时起，更复杂的训练信号瞄准*表示同等贡献不yX语义图1：神经注意力场。我们使用MLP来基于BEV查询位置（x，y，t）将高维输入迭代地压缩成紧凑的低维表示。我们的模型输出的路径点偏移和辅助语义从Ci连续和低内存占用。这两项任务的培训共同提高了CARLA的驾驶性能。重建场景已经变得普遍，例如图像自动编码[47]、2D语义分割[29]、鸟瞰图（BEV）语义分割[ 37 ]、2D语义预测[ 27 ]和BEV语义预测[ 58 ]。执行诸如BEV语义预测之类的辅助任务，其要求模型在观察到的和未来的时间步长处输出场景的BEV语义分段，将时空结构并入到由代理学习的中间表示这已被证明会导致更可解释和更强大的模型[58]。然而，到目前为止，这只能通过昂贵的LiDAR和基于HD地图的网络输入来实现，这些输入可以很容易地投影到BEV坐标系中。阻碍从相机输入进行BEV语义预测的关键挑战是关联之一：给定场景中的BEV空间时间查询位置（x，y，t）（例如，车辆前方2米、右侧5米、未来2秒），难以识别哪些图像像素与该位置相关联，因为这需要推理3D几何形状、场景运动、自我运动和注意力以及场景元素之间的交互。在本文中，我们提出了神经注意力场（NEAT），一个不yX航路点偏移15794灵活且有效的特征表示，旨在应对这一挑战。受隐式形状表示[39，50]的启发，NEAT使用多层感知器（MLP）查询函数表示具有固定内存占用的大型动态场景。核心思想是学习从任何查询位置（x，y，t）到通过编码输入图像获得的特征的注意力图NEAT将高维图像特征压缩为与查询位置（x，y，t）相关的紧凑低维表示，并提供可解释的注意力地图作为该过程的一部分，而无需注意力监督[79]。如图1，该学习的MLP的输出可以用于空间和时间上的密集预测。我们的端到端方法预测路点偏移以解决主要的轨迹规划任务（在第3节中详细描述），并且使用BEV语义预测作为辅助任务。使用NEAT中间表示，我们为CARLA驾驶模拟器训练了几个自动驾驶模型[20]。我们考虑了一个比现有工作更具挑战性的评估环境，该工作基于新的CARLA排行榜[1]（CARLA版本0.9.10），涉及多个评估城镇、新的环境条件和具有挑战性的碰撞前交通场景。我们的表现超过了几个强大的基线，并在我们的内部评估路线上与特权专家的表现相匹配。在CARLA排行榜的秘密路线上，NEAT获得了有竞争力的驾驶分数，同时比现有方法的违规行为少得多。贡献：（1）我们提出了一种将我们的新型NEAT特征表示与隐式解码器[39]相结合的架构，用于自动驾驶车辆中的联合轨迹规划和BEV语义预测。(2)我们在CARLA设计了一个由6个城镇和42个环境条件组成的具有挑战性的新评价环境，并进行了详细的实证分析，以证明NEAT的驾驶性能。(3)我们可视化注意力地图和se-mantic场景插值从我们的可解释的模型，产生洞察到学习的驾驶行为。我们的代码可在https://github.com/autonomousvision/neat上获得。2. 相关工作隐式场景表示：几何深度学习社区已经开创了使用场景几何的神经隐式表示的想法。这些方法将表面表示为神经分类器的边界[12，13，35，39，59]或符号距离的零级集场回归函数[36，40，50，62，63，77]。它们已被应用于表示对象纹理[44，45，64]，动力学[43]和照明属性[41，46，61]。最近，在应用这些表示来从图元组成对象[11，18，19，24]以及表示更大的场景（静态[8，31，51]和动态[8，31，51]）方面namic [21，33，34，74].这些方法获得高分辨率的场景表示，同时保持紧凑，由于恒定的内存足迹的神经函数逼近器。虽然NEAT的动机是相同的属性，但我们使用神经逼近器的紧凑性来学习更好的中间特征，以用于下游驾驶任务。端到端自动驾驶：基于学习的自动驾驶是一个活跃的研究领域[30，65]。用于驾驶的IL已经显著进步[5，15，42，53，72，78]，并且目前在几种最先进的方法中使用，其中一些预测路点[7，10，23]，而其他直接预测车辆控制[4，6，16，29，47，54，75，80]。虽然其他基于学习的驾驶方法，如自动驾驶[60，76]和强化学习[9，66，70]也可以从基于NEAT的编码器中受益，但在这项工作中，我们应用NEAT来改善基于IL的自动驾驶。用于驾驶的BEV语义：街道场景的自顶向下视图对于学习驾驶任务是强大的，因为它包含关于3D场景布局的信息，对象不会彼此遮挡，并且它表示物理3D空间的正交投影，其比投影2D图像域更好地与车辆运动学相关。LBC [10]在教师-学生方法中利用了这种表示。在给定BEV语义输入的情况下学习驾驶的教师用于监督旨在仅从图像执行相同任务的学生。通过这样做，LBC在之前的CARLA版本0.9.6上实现了最先进的性能，展示了BEV表示的优势。NEAT与LBC的不同之处在于直接在BEV空间中学习，而不像LBC学生模型学习经典的图像到轨迹映射。其他作品涉及BEV场景，例如，从图像获得BEV投影[2，81]或BEV语义预测[26，28，38，49，56最近，LSS [52]和OGM [37]展示了联合BEV语义重建和来自相机输入的驱动这两种方法都涉及基于相机内在的显式投影，不像我们学习的基于注意力的特征关联。他们只预测静态场景的语义，而我们的模型包括一个时间组件，执行预测到一个固定的地平线。此外，不像我们，他们只使用离线指标进行评估，这些指标不一定与实际的下游驾驶性能很好地相关[14]。另一个相关的工作是P3 [58]，它联合执行BEV语义预测和驾驶。与使用昂贵的Li-DAR和HD地图输入的P3相比，我们专注于图像模态。3. 方法从专家演示学习驾驶任务的常见方法是端到端轨迹规划，其使用路径点wt作为输出。定义一个航路点15795--XX∈联系我们×个联系我们作为车辆在专家演示中在时间步t处的位置，在车辆的本地坐标系的BEV投影坐标轴是固定的，使得车辆在当前时间步长t=T处位于（x，y）=（0，0）处，并且车辆的前部沿着正y轴对准来自未来时间步长序列t=T+1，…T+Z形成可以用于控制车辆的轨迹，其中Z是固定的预测范围。当我们的代理开车通过场景时，我们将传感器数据收集到T时间步长的固定长度缓冲区中，=xs，ts=1：S，t=1：T其中每个xs，t来自S个传感器之一。缓冲器中的最后一帧始终是当前时间步长（t=T）。在实践中，S传感器是RGB相机，这是CARLA [10]上现有工作中的标准输入模态。默认情况下，我们使用S=3个摄像机，一个向前定向，其他的向左和向右60度。在裁剪这些摄像机图像以消除径向失真之后，这些S=3的图像一起提供了车辆前方场景的完整180°虽然NEAT可以应用于不同的缓冲区大小，但我们的实验集中在输入为单帧（T=1）的设置上，因为几项研究表明，使用历史观察结果可能对驾驶任务不利[69，73]。除了路点之外，我们使用BEV语义预测作为辅助任务来提高驾驶性能。与数量较少的航点不同（例如：Z=4）并且可以被离散地预测，BEV语义预测是密集预测任务，旨在预测被限制到某个空间范围和时间间隔1的任何时空查询位置（x，y，t）处的语义标签。不T+Z预测观察到的（1吨T<）和未来（T吨T<+Z）的语义提供了一个整体的理解场景动力学。从单个输入帧进行动态预测是可能的，因为车辆的方向和位置对关于其运动的信息进行编码[68]。用于BEV语义预测的坐标系与用于航路点的坐标系相同因此，如果我们将路点预测框定为密集预测任务，则可以使用所提出的NEAT作为共享表示与BEV语义预测同时解决它。因此，我们提出了一个密集的偏移预测任务，以定位航路点，如图1所示2使用标准光流色轮[3]。目标是学习从查询位置（x，y，t）到航路点w，t的2维偏移向量o的场（例如，当（x，y）= w，T且t = T时，o=（0，0））。在某些情况下，沿着不同轨迹的未来航路点是合理的（例如，在不同的轨迹上的未来航路点）。在交叉路口左转或右转），因此基于驾驶员意图调整O是重要的我们通过使用提供的目标位置（x′，y′）作为输入来实现这一点。目标位置是由导航系统沿着要遵循的路线提供的GPS坐标它们在用作输入之前被转换到与航路点相同的坐标系这些（（（WWwT+2不T+1(a)场景BEV(b)t = T（c）t = T + 1（d）t = T +2图2：密集偏移预测。我们在三个时刻可视化场景的目标位置（x’，y’）（蓝点）、航路点wt（红点）和航路点偏移o（箭头）。偏移0表示在时间t从任何查询位置（x，y）到航路点wt的2D向量，并且因此隐式地表示航路点。箭头示出了四个不同查询位置（x，y）的〇。我们还显示了基于颜色编码的可视化的稠密流场的学习，我们的模型，表示从任何（x，y）的位置在场景中。目标位置是稀疏的并且可以相隔数百米。在图2中，交叉路口右侧的目标位置有助于模型决定右转而不是直行。我们选择目标位置作为指定驾驶员意图的方法，因为它们是自0.9.9版以来CARLA模拟器中的默认意图信号。总之，密集偏移预测的目标是针对任何5维查询点p=（x，y，t，x’，y’）输出〇。3.1. 架构如示于图在图3中，我们的架构由三个神经网络组成，它们被联合训练用于BEV语义预测和密集偏移预测任务：编码器eθ、神经注意力场a和解码器dψ。在下文中，我们将详细介绍这三个组件中的每一个。编码器：我们的编码器eθ将传感器数据缓冲器和标量v作为输入，标量v是当前时间步长T处的车辆速度。形式上，它表示为eθ：RS×T ×W ×H×3×R →R（S *T*P）×C（1）其中θ表示编码器参数。每个图像xs，tRW×H×3由ResNet [25]处理，以提供大小为RP×C的倒数第二层的特征网格，其中P是每个图像的空间特征数量，C是特征维度。对于我们考虑的256 256像素输入分辨率，我们从默认ResNet架构获得P=64个补丁。这些特征由Transformer进一步处理 [67]。Transformer的目标是全局地整合特征，将上下文线索添加到具有自我注意机制的每个这使得跨不同图像和在大空间范围内的特征之间能够交互。请注意，Transformer可以从我们的编码器中移除，而不改变输出维度，但我们包括它，因为它根据我们的消融研究提供了改进。在输入到变压器之前，每个面片要素都被合并（通过加法）15796∈∈∈∈∈X采样和控制wT+1，w T+2… w横向PIDONR纵向PIDSN神经注意力场解码器Cici-1xytx你们x偏移o我y偏移L1损失a我xytx你们没有一道路S 红灯我绿灯CE损失N次迭代编码器CResNetResNet位置嵌入vResNetTransformer图3：模型概述。在编码器中，图像块特征、速度特征和学习的位置嵌入被求和并馈送到Transformer中。我们用每个图像2个特征来说明这一点，尽管我们的模型在实践中使用64个特征NEAT针对N次迭代循环地更新针对编码特征c的注意力图ai NEAT的输入是查询点p =（x，y，t，x’，y’）和特征ci。对于初始迭代，c。被设置为c的平均值。虚线箭头示出了在后续迭代之间的特征的递归在每次迭代中，解码器预测任何给定查询p的路点偏移〇i和语义类si，其使用损失函数进行监督。在测试时间，我们从oN和sN上的网格中采样预测，以获得每个时间步长wt和红灯指示器r的航路点，PID控制器将其用于驾驶。其中（1）通过将v线性投影到R_C并广播到所有时间步长处的所有传感器的所有片块而获得的速度特征，以及（2）学习的位置嵌入，这是一个可训练的参数，大小为（S*T*P）×C。Transformer输出补丁特征c∈R（S*T*P）×C。神经注意力领域：当Transformer全局地聚合特征时，它不被查询和目标位置所通知。因此，我们引入NEAT（图）。1），其识别来自编码器的与做出关于场景p=（x，y，t，x’，y’）中的任何查询点的预测相关的块特征。它在网络中引入了一个瓶颈，并提高了可解释性（图1）。（六）。其操作可以正式描述为a：R5×RC→RSTP（2）请注意，输入到NEAT的目标位置（x′，y′）在图中被省略。1为清晰度。虽然NEAT原则上可以直接将p和c作为输入，但由于c R（S*T*P）×C的高维性，这将是低效的。相反，我们使用一个简单的迭代注意力过程与N次迭代。在迭代i，输出aiRS*T*P 用于通过ai和c之间的软最大缩放点积来获得特定于查询点p的特征ciRCci=softmax（ai）·c（3）在下一次注意力迭代中，特征ci与p一起用作的输入，从而实现递归注意力循环（参见图1B）。（3）第三章。注意，C1的维度显著小于Transformer输出c的维度，因为C1聚合信息（经由等式（1））。（3））。对于初始迭代，c0被设置为c的平均值（相当于假设均匀的初始注意力）。我们实现了一个完全连接的MLP具有5个ResNet块，每个ResNet块具有128个隐藏单元，使用条件批量归一化以ci为条件[17，22]（补充中的细节）。我们在所有迭代中共享的权重，这在实践中效果很好。解码器：我们模型中的最终网络是解码器：dψ：R5×RC→RK×R2（4）它是一个MLP，具有与类似的结构，但在输出层方面有所不同给定P和Ci，解码器预测在N个注意迭代中的每一个处的语义类和路点偏移。虽然在中间迭代（

下载后可阅读完整内容，剩余1页未读，立即下载