学习情境驾驶的混合模型及其驾驶性能

27 浏览量更新于2023-10-23 收藏 612KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1学习情境驾驶Eshed Ohn-Bar1，3Aditya Prakash1Aseem Behl1，2Kashyap Chitta1，2Andreas Geiger1，21马克斯普朗克智能系统研究所，图宾根2图宾根大学3波士顿大学{firstname.lastname}@ tue.mpg.de摘要人类驾驶员具有在各种视觉条件和情况下驾驶的非凡能力，例如，从在没有车道标记的雨天、能见度有限的情况下的机动，到在繁忙的十字路口转弯时向行人让行。相比之下，我们发现，最先进的感觉运动驱动模型遇到不同的设置时，观察和行动之间的关系为了在不同的条件下做出决策时进行概括出于这种观察，我们开发了一个框架，学习情境驾驶政策，有效地捕捉推理下不同类型的场景。我们的核心思想是学习一个混合模型，其中包含一组可以捕获多种驾驶模式的策略我们首先通过行为克隆优化混合模型，并显示它在不同条件下的驾驶性能方面产生了显着的收益然后，我们通过直接优化驾驶任务本身来改进模型有导航任务奖励的监督我们的方法比假定访问特权信息的方法更具可扩展性，例如，感知标签，因为它只假设示范和奖励为基础的监督。我们在CARLA驾驶基准测试中实现了超过98%的成功率，并在新推出的泛化基准测试中实现了最先进的性能。1. 介绍几十年来，研究人员一直面临着实现高度准确和故障安全的自动驾驶车辆的挑战，这些车辆可以处理驾驶的各种感知和情景复杂性例如，系统的感知到动作推理必须灵活地为了在这种不同的场景中驾驶，人类利用不同类型的特定情况策略和上下文线索[11]，例如，如果车道信息图1：情境驾驶。为了解决学习感知到行动驱动模型的复杂性，我们引入了一个使用行为模块的情景框架当在不同的驾驶场景下组成一组学习到的行为策略时，该模块对当前的道路场景上下文进行推理。我们的方法是用来改善过行为的响应和特权的方法在鲁棒性和可扩展性。不可用.此外，驾驶员利用驾驶策略的组合我们如何赋予机器类似的推理和学习能力，这对于在所有可能的视觉、规划和控制场景的巨大多样性下运行至关重要为了解决这个问题，以前已经提出了几种学习范式。一方面，将视觉观察映射到控制动作的复杂任务可以使用专用辅助损失函数分解成模块或子任务将感知和动作任务作为两个模块来处理（例如，[4，28，37]）。通过手工设计的模块化结构利用先验知识和领域知识可以在某些条件下提高泛化能力[40]，但训练需要额外的注释，并且当没有学习实际导航任务时，表示可能不是最佳的。另一方面，学习感觉运动11296感知模块视觉观察(e.g.、分段）行动行为反射行为模块（我们的）（行动建议）11297直接从视觉观察（例如，随着被复制或克隆[8，33]）最近再次出现作为自动驾驶的令人信服的解决方案，因为它可以杠杆化灵活学习的表示并容易地扩展到大的数据语料库。然而，即使有大量的数据，学习的表示也可能无法推广到训练集之外，部分原因是最小的结构先验[50，52]。此外，常用的行为克隆技术[52]优化了驾驶任务的替代损失，而任务驱动的强化学习技术很难使用，例如，由于样本效率低下[10，13]。我们试图以最有利于泛化的方式分解感知-动作学习任务，例如，在不同的情况下，和可扩展性，即，以最小的监视。由于观察到上述感知-动作框架可能在某种程度上被视为正交，我们提出了一个模块，试图利用合并组合结构的好处，并且这样做不需要除了演示和奖励之外的额外注释。为了实现这一目标，我们做出了以下三个贡献：（1）为了提高行为克隆模型的建模能力，我们开发了一个混合专家（MoE）框架，用于组成一组专用于驾驶任务的不同组件的特定于情境的策略预测器，（2）我们进一步分析了情境策略的好处，通过改进任务驱动的优化，即，关于驾驶任务奖励，以及（3）我们在CARLA基准测试中展示了基于视觉的单帧驾驶的最新性能[10]。2. 相关工作我们建议学习一种可以有效利用不同类型的感知-行动策略的驱动策略，即，一种混合模型，它被学习以结合专门的专家模型的预测。因此，我们的工作涉及通过行为克隆、强化学习和历史技术来学习感觉运动策略的研究。感觉运动导航：Pomerleau [33]认识到手动结构和固定表示的灵活性的基础，探索了用于感觉运动驱动的端到端神经网络，这是一种模仿学习技术，后来被称为行为反射。该方法通过来自驾驶员演示的监督学习来学习感知到动作映射，即，使用克隆或克隆[22，29，30，49]。由于易于培训，它被用于开源CARLA模拟器上的几种最先进的方法[8，10，25]，如表1所示然而，根据我们的实验，通过引入在训练过程中，观察和控制之间的多重关系导致模型泛化能力差。我们的MoE框架旨在解决模型容量和优化方面的问题。行为克隆的问题：最近，Codevilla et al.[8]证明了行为克隆在CARLA [10]基准上达到了最先进的性能。然而，即使有足够的数据，从高维视觉数据中学习表示，以用于感知，规划和行动，使用单个端到端网络也很难优化。一些数据集现象的存在，如偏差[8]，缺乏政策经验[5，35]，多种数据模式或难以模仿的专家[5，15]都可能导致建模和泛化性能差[12，40，46，50]。任务驱动的策略优化：的优化关于任务的替代模仿损失可能导致几种不希望的学习驾驶行为。例如，Codevilla et al.[8]讨论一个“惯性问题”，其中模仿代理被卡住，永远不会恢复。由于模型没有关于驾驶任务本身进行训练，即，及时到达目的地，不存在阻止学习这种错误的超级信号。除了模仿学习之外，我们还采用了一种明确的基于任务的优化过程，因为它可以缓解这种建模问题。Liang等人[25]提出了一种通过强化学习学习的驱动代理，其权重通过行为克隆初始化。我们的模型显著优于[25]，并且架构完全不同，因为我们学习了一种分层策略，其中只有组合模块以任务驱动的方式学习，而模仿学习代理保持冻结。这个过程大大提高了采样效率，因为它只更新了学习策略的组成。除了优化训练外，我们的方法还有助于鼓励学习过的智能体遵守交通规则，这对现实世界的驾驶至关重要。驱动政策的结构和模块化：几项研究证明了在计算机视觉中结合层次、情境推理的好处，例如，边界检测[47]和静态环境中的室内导航[42，53]。该层次结构能够有效地将整体学习任务分解为可管理的组件，这些组件可以潜在地组合在一起，以提高新环境中的表现[42]。先前已经提出了几个分层策略学习框架，例如。选项学习[32，41，45]和动作原语[9，45]。Li等人。[24]从不完美教学驱动程序的集合中学习最优策略，但它们不采用MoE目标。一个密切的研究，我们是由Kipf等人。[20]，展示了分层推理，以实现模仿学习模型，这些模型使用网格世界导航和到达任务来推广到新的环境和任务。然而，[20]11298Kφ表1：与代表性相关工作的比较。对于每种方法，我们显示了数据类型和假设的监督。控制是指代理是否直接输出控制命令，例如，PID控制器的航路点输入输出监督方法图像速度视频控制图像注释重建示范按政策奖励CIL [7]··-·-- ---卡尔[37]···-·- ---CIRL [25]··-·-- -··CILRS [8]··-·-- ---LBC [5]··--·- -·-LSD（本作品）··-·-··--LSD+（本作品）··-·-····不采用混合密度网络，也不采用任务驱动的优化过程。此外，上述研究集中于高度简化的视觉和情境环境。相比之下，我们的驾驶任务涉及各种天气和动态障碍的现实场景。杠杆化监管：自动驾驶的相关研究通过以明确的识别标签和更结构化的表示（例如，affor-舞蹈[4，37]和感知模块[2，23，28，38，48，51，52]）。Sauer等[37]学习一组低维的可供性的中间表示，然后将其输入到PID控制器。然而，该方法不是端到端训练最近，Chen et al.[5]利用环境布局和交通参与者注释来训练特权代理以指导非特权感知代理，即，[15]第15话：相比之下，我们的方法假设无法访问如此广泛的特权信息，同时还执行任务驱动的优化。此外，我们直接学习映射到控制命令，而[5]依赖于手动调整，在CARLA模拟器中找到[10]。驱动代理的目标是产生一个序列及时到达预定目的地的控制动作。环境提供当前观测值ot=[It，vt]∈ O，包括来自前置摄像头的图像和自我车辆速度在当前时间步长t。此外，它还提供了一个定义高级导航命令c t∈ C={left，right，straight，follow}的类别变量，该命令确定了下一个交叉口的车辆路径。作用空间A =[-1，1]2定义了连续的纵向和横向控制值。我们的目标是学习由Θ参数化的策略πΘ：O × C → A，其确定在每个时间步采取哪个动作。选择操作后，环境将提供下一个观测值o t+1p（o t+1|o t，a t）。3.1. 情境驾驶模型我们现在描述我们的情景驾驶模型，该模型有助于有效学习各种驾驶行为，例如，在空旷的道路上快速行驶在密集的城市环境中谨慎驾驶我们的政策采取以下形式独立的控制模块。尽管如此，我们还是探索了视觉这些表征可以在没有这种明确的Σk k（I）⎣ ⎦π Θ（α|o，c）=αθ（o，c）πθ（a|o，c）+bv（一）监督，即变分自动编码器[13，19]（VAE）。k=1` ˛¸x`XC与此相关的是斯利瓦斯塔瓦的一项研究等人[44]，表明图像重建和预测任务提高了分类性能。此外，委员会认为，混合物权重专家模型`联系我们上下文嵌入我们的MoE方法是对特许方法的补充，例如，在具有MoE目标的中间表示上训练行为克隆模型。包括两个主要部分：• 概率专家策略的混合模型Π ={π1，...，πK}，权重为αk，用于合并θ θ θ3. 方法在本节中，我们制定了学习情景驾驶模型的方法，该模型可容纳多种类型的道路推理和决策过程。问题定义：目标导向的驾驶任务被制定为一个顺序决策问题，定义为：多种多样的驾驶行为• 上下文嵌入qφ，在模型优化期间和回归最终动作时提供额外的基于图像的上下文。我们分别用具有可训练参数θ和φ的神经网络实现了专家混合模型和此外，我们还了解到，11299θk2k2θ2θ环境上下文嵌入qz专家政策任务驱动优化1/1/2/4Kμμ：：：μ示威图2：方法概述。智能体学习以上下文相关的、任务优化的方式组合一组专家策略，以在不同的场景中稳健地驾驶。将上下文特征投影到二维动作空间A中的矩阵A。我们的框架概述通过行为克隆[1，33]，其使用监督学习解决感知-动作映射，假设访问专家驾驶演示的离线集合。鉴于其样本效率，该技术是许多最先进的感觉运动驾驶模型的主要主力[7，8，25]，但现有方法无法使用混合模型学习我们制定了以下损失函数，用于从演示中训练LMoE=β0LI+β1LV+β2LR（2）其中βi是权衡该损失函数的三个分量模仿损失被定义为混合密度网络的负对数似然[3，13]在图中提供。2，与我们的架构细节发现在补充。我们现在讨论如何分解学习问题-L= −logΣΣKΣα k（o，c）π k（a|o、c）（三）lem以数据有效的方式学习模型参数Θ={θ，φ，θ}3.2. 培训Iθ θk=1其中，我们将每个概率专家策略πk建模为高斯分布，其平均值和标准差由具有参数θ的神经网络确定：针对驱动策略πΘ的参数的优化为：一个艰难的学习任务[21]。特别是，培训需要π k（a|o，c）= N. -是的Σa. μ（o，c），diag（σ（o，c））（四）学习将高维视觉观测映射到θ二维控制输出，即，隐式地和联合地学习用于执行感知、规划和控制的表示。此外，理想情况下，该策略应该直接针对手头的任务进行优化，即，及时到达地图中的目的地，同时通过与环境的交互来最小化违规。然而，由于仿真中的长的推出时间和必须优化的大量参数，以这种方式学习策略是低效因此，我们建议分三步学习我们的策略πΘ1. 通过模仿学习专家策略{αk，πk}行为克隆通过优化替代实际驾驶任务的模仿损失，为训练初始驾驶模型提供了一种样本有效的方法。然而，模仿目标只是隐含地编码任务目标[15，35]。这是一个重要的问题，可以通过任务驱动的策略改进（参见我们学习课程的第3步）以及辅助损失来解决[2，8]。根据Codevilla et al.[8]，我们在这个阶段引入了一个速度预测分支和一个额外的损失项，除了模仿损失之外，还用于正则化学习：θ θ LV为||vθ -v||2（五）2. 学习上下文嵌入qφ。3. 任务驱动的学习/优化学习和{αk}。虽然第一步使用专家演示超级，我们还添加了一个重建分支和损失，这对于学习通用功能很有用[13，44]：视觉，第二步只需要原始图像序列。相反，第三步是对模型wrt进行细化。AC-LR=||ˆIθ-我||2（六）使用进化优化的实际驾驶任务。我们现在详细描述这三个步骤中的每一个。学习混合专家模型：的关键部分所提出的模型是专家模型πK的学习。这些模型可以专门用于某些场景，因此与必须学习使用单个预测分支处理所有数据模式的整体策略相比，可以提高这些场景中的鲁棒性。由于专家网络θ的参数集较大，这里，vθ，vIθ是网络预测，v，I表示测量的速度和观察，分别。学习上下文嵌入：Eq. （1）使得能够集成与所学习的专家策略互补的上下文信息，因为它是使用与混合模型训练不同的目标独立于专家训练的浅网络此外，由于多步策略优化过程，上下文嵌入项可以提供机会113002使用附加上下文从次优解决方案中恢复[27，43]。由于CARLA上已知的偏差和泛化挑战，例如，过度拟合某些动作和由于对CARLA的评估具有培训中未见过的各种天气，例如，从下雨到日落天气，在训练期间学习的大量有用的、特定于任务的视觉场景信息在测试中变得不可靠。因此，这样的嵌入为学习通用策略提供了额外的多样性在Ha和Schmidhuber [13]之后，我们用编码器qφ和解码器dφ训练浅VAE [19，34，39]以产生紧凑的动作不可知上下文嵌入z。虽然[13]采用VAE对高度简化的驾驶环境进行编码，但我们分析了其在更复杂环境中的效用，即，纹理真实感绘制的网络架构。πΘ中的其余参数保持冻结。请注意，与以前通过微调感觉运动控制策略的整个感知堆栈来训练CARLA上的强化学习代理的方法不同[25]，这里我们只更新预训练模型提供的预测这种专家级优化有助于样本有效的训练过程（例如，与Dosovitskiy et al.[10]即使在数百万个交互步骤之后也会实现较差的性能），因为专家的预测可以指导探索[42]。我们通过实验证明，专家的重新组合确实会导致更稳健的最终政策。更正式地说，我们的任务驱动优化步骤在T个时间步长上顺序地遵循策略πΘ时最自动驾驶场景。我们最小化变分下界JTASK（θ，θ）=EπΘΣΣTΣRt（八）LVAE =βKL（qφ（z|I）p0（z））+d φ（z）−Ik2（七）t=0β-VAE [17]中p0（z）= N（z|0，I）表示标准正态分布，KL表示Kullback-Leibler发散，z从后验分布q φ（z）中采样|I）和超参数β之间提供了一个折衷。建设损失和KL分歧。注意，我们将分布q φ（z）缩写为|（I）在等式（I）中，(1)以避免符号中的混乱。在推理时，我们从这个分布中抽取一个样本，并将其与当前分布相结合。租金速度和控制命令作为上下文嵌入，见方程的右部分。（一）.任务驱动的政策完善：在最后一步中，我们相对于我们根据奖励函数定义的实际驾驶任务来优化驾驶策略πΘ。奖励考虑了序列完成、碰撞避免和交通违规。与前两个步骤相比，这种改进使策略能够与模拟交互，并以基于策略的方式收集经验，进一步减少了专家演示训练集的剩余协变量偏移特别是，这一步骤有助于鼓励学习的智能体遵守交通规则和安全，这是现实世界驾驶的重要组成部分。与CARLA的当前最先进方法不同[5，8]，优化wrt。该任务使得代理能够超越驾驶专家的模仿，以生成更鲁棒和安全的驾驶行为的方式来组成专家模型和上下文嵌入。为了提高效率，我们只更新了预测混合权重αθ的专家网络的参数αθ和头部。直观地说，这一步结合了预先培训的专家以及上下文嵌入，其目的是改进实际驱动任务的轮询。我们将用θθ表示属于这部分的参数θ的子集最近的工作报告了在各种任务中成功学习鲁棒策略的动机[13，36]，我们优化了对象iv ewrt。使用基于进化策略的算法[14]计算θθ和θ3.3. 实现细节我们使用ResNet-50 [16]作为混合模型的主干，使用Adam [18]从头开始训练，初始学习率为0。0001我们使用256×256图像分辨率，因为我们发现与[8]相比，增加输入分辨率会略微提高性能我们采用基于[7]的几种数据增强技术，如像素丢失和颜色扰动。对于验证，我们遵循[6]中的程序。我们为MoE模型实现了两种体系结构在实验中，被称为MoE分支（专家共享骨干网络）和MoE（每个专家具有单独的骨干网络）。在这两种情况下，模型架构扩展了CIL [7]和CILRS [8，25]方法。主要的区别是，我们不采用硬门控基于c的专家，但取代它与MoE头。相反，我们将高级命令c编码为one-hot向量并将其输入到网络，也在[7]中介绍。这种架构修改允许我们分析组合一组学习的策略预测头的好处。其他架构组件，例如，用于速度测量的MLPMLP将测量值映射到非线性嵌入，这提高了性能，如[7]所示。对于策略细化步骤，我们遵循[13]的公开可用实现和超参数设置，用于β-VAE和CMA-ES [14]。113014. 实验评价评价程序：我们用的是卡拉0。8. 4基准[10]，因为它为分析情景推理提供了不同的天气，城镇和动态障碍。环境包含两个城镇，一个用于训练（城镇1），一个用于测试（城镇2）。总共有14种天气类型，其中4种用于训练1号城镇的模型。这些天气是晴朗的中午，潮湿的中午（雨后水坑），大雨中午和晴朗的日落（由于照明条件而具有挑战性）。在本文中，我们专注于评价镇2，因为它需要代理推广到新的条件。在2号镇的标准评估中，要求代理人在之前看到的四种天气以及训练时间没有看到的两种天气，潮湿的多云中午和柔和的雨日落中驾驶评估性能度量涉及在分配的时间量内到达目标，超过25条路线，为每个weathers。在最初的CARLA基准上，允许碰撞与其他类型的违规一起发生[10]，以便事件仍然可以成功完成。为了进行评估，在四种驾驶条件下报告了五次测试运行中的最佳结果：直线行驶、短转弯路线、长导航路线和具有动态障碍物的长导航路线。在最后一种情况下，Town 02上的汽车和行人数量分别设置为15和50总体而言，每次测试运行需要600次发作。我们还采用了最近的NoCrash[8]评估程序，该程序涉及对原始基准的几项修改驾驶条件分为空旷道路、常规交通和密集环境，其中最后一个条件涉及2号镇的汽车和行人数量较高，分别为70和150。除了这些明显更具挑战性的设置外，与行人、汽车或静态障碍物的任何类型的碰撞都会导致事件终止。因此，该评估程序为整体驾驶性能提供了更好的衡量标准报告了使用三次总体测试运行获得的平均值和标准差（由于模拟器随机性，实验不完全确定）。为了充分分析模型在训练设置之外推广到不同条件的能力，我们还引入了一个新的基准，我们称之为Any- Weather基准。我们遵循原来的卡拉0。8. 4个基准，但增加新天气的类型，以包括与训练条件截然不同的天气，例如，有大雨的日落在这个评估过程中，智能体在测试城镇（城镇2）上驾驶，其中所有新的天气类型在训练中是看不见的AnyWeather基准包含10种新天气，其中一些在能见度和天气人工因素方面具有特别的挑战性。考虑到泛化能力对于在现实世界的自动驾驶中，使用该基准测试是为了突出现有模型的局限性。基线：最接近我们的基线是最近的CILRS行为克隆模型[8]。CILRS使用演示作为监督，因此可以直接与我们的混合模型进行比较对于K=1的单片情况。我们通过重新运行[8]提供的公开可用模型来报告CILRS导航性能数据最近提出的LBC模型[5]是我们的一项共同工作.然而，这项工作雇用了一个高度特权的代理人，即，假设能接触到一个受过大量3D注释训练的特工为了确保与我们的方法进行有意义的比较，我们的方法不假设可以访问这些信息，LBC可以被视为性能的上限。实验：我们通过四个主要实验证明了所提出的情境驾驶框架的好处。首先，我们通过训练行为克隆模型来激励这种方法其次，我们对模型选择进行了消融分析，包括MoE政策修正的任务驱动优化阶段。第三，我们讨论了我们的方法与CARLA基准上的几个基线相比的性能。第四，我们探索了情景模型在训练中看不到的各种条件下4.1. 结果混合模型性能：如表2所示，该初始实验的目标是激发使用混合模型来学习更灵活的感觉运动驱动模型的需要。具体来说，我们演示了如何训练CILRS [8]基线中的整体行为克隆策略会导致导航任务中的决策和泛化性能这个问题可以通过改变训练数据来分析，以引入额外的感知-动作模态，从而分析每个数据模态内的模型性能。如表2所示，我们训练了三个不同的模型。我们专注于MoE培训，但不包括改进步骤，因为其可显著改善驾驶表现。首先，在不包含动态障碍物的场景上训练整体策略，称为Nav。静态. 值得注意的是，该模型学习解决静态场景导航任务，即使在新的城市和新的天气条件下驾驶，也比基线模型更好。然而，该模型无法安全地绕过动态障碍物，因为这些障碍物在训练中没有观察到。尽管如此，这个实验显示了学习情境专门化政策模型的强大优势。第二个模型是类似的整体行为克隆策略，但有一个区别。该模型现在使用还包含动态障碍物的数据集进行训练，11302被称为Nav。动态（K=1）。动态障碍物的存在要求智能体学会适当地减速和刹车。如表2所示，该模型可以更好地处理此类设置中的导航，但这不...表2：单片与混合物.我们分析了在训练城镇（城镇1）中引入动态障碍物时，新城镇（城镇2）新天气&证明伴随着泛化性能的权衡，管理设置和天气，即，动态与静态场景。例如，静态导航任务的性能从96%降低到78%。最后，我们训练了一个MoE模型，该模型具有相同数据集的三个组件，称为Nav。动态（K=3）。该模型在静态场景中导航成功率为98%，在动态场景中为92%。学习混合模型有效地解决了上述问题-训练数据和模型任务导航静态（K=1）导航动态（K=1）导航动态（K=3）直9964100一匝9874100导航967898导航动态407892表3：消融分析。展示新市镇及动态障碍物的表现（Nav.动态）设置。提到的问题，同时实现最先进的性能-不利用策略上的数据或特权信息（例如，[5]）。因为在所分析的动态和静态场景两者上存在驾驶行为的共享元素（例如，在车道跟随和转弯期间），情境推理改善了每个驾驶场景内以及跨场景的性能。消融：表3显示了情境模型中不同训练步骤对整体导航成功率的影响。我们的基线单片模型已经改善了CILRS [8]的性能。动态任务。然后，我们训练MoE架构的两个变体，由于采用了K= 3分量模型，因此获得了最大收益。将混合物组分添加到K=5导致轻微的改进，并提供了经验丰富的专家的示例在图中可视化。3.分支架构，这是更有效的计算，由于共享的背部，专家1专家2专家3骨网络，显示出超过整体基线的14%的绝对改善我们可以看到专家们是如何- 一零一刹车/油门- 一零一刹车/油门- 一零一刹车/油门针对油门和刹车控制，将其转化为驾驶任务的不同组成部分。由于专家之间的多样性增加（也在[31]中讨论），通过培训不共享骨干网络的专家观察到了进一步的认知增益我们还在表3中分析了使用行为克隆学习MoE策略的局限性具体而言，我们可以看到如何通过与环境的互动来完善MoE政策，从而进一步提高驾驶性能。虽然我们只更新了预测混合系数的最后一层改进步骤主要导致动态场景中驾驶性能的改善，如表3所示。与最新技术水平的比较：我们现在将我们的完整模型性能与之前提出的几种方法在表4中的原始CARLA基准和表5中的NoCrash基准上进行比较。结果显示了没有和有任务驱动的细化阶段，分别称为LSD和LSD+。我们提出的图3：专家的统计数据。加速度是-在测试过程中三个不同专家的分配在新市镇及新市镇两种新天气的测试条件下，该型号的驾驶表现均较最先进的车辆有显著改善。如前所述，我们可以看到，在某些情况下，最先进的模型无法很好地导航空道路状况，例如，CILRS的成功率为65%，见表5。相比之下，我们的模型能够学习一个可以处理这种不同的sce- narios的策略，实现专家级的行为。此外，MoE方法还通过结合特定于情况的策略来提高驾驶任务中的性能。我们的多阶段学习策略也优于CIRL [25]，这是另一种结合强化学习以优化驾驶任务的方法。我们发现，使模型能够通过交互经验和碰撞进行学习，有助于在密集交通条件下实现更好的行为然而，在NoCrash上，由于各种无关的原因，即使是提供的专家也无法解决驾驶问题。频率频率频率模型成功率（%）单片（K=1）75MoE分支（K=3）89MoE分支（K=5）90MoE分支（K=8）87MoE（K=3）94MoE（K=5）93MoE（K=8）93MoE+细化（K=3）9811303表4：与原始CARLA 0最新技术水平的成功率（%）比较。8. 4基准。"新城新城天气任务CIRL [25]CILRS [8]CILRS*LSDLSD+LBC [5]CIRL [25]CILRS [8]CILRS*LSDLSD+LBC [5]直1009696100100100989678100100100一匝7184869999100809296100100100导航536967999910068929698100100导航动态4166649498996290949298100表5：与NoCrash CARLA 0最新技术水平的成功率（%）比较。8. 4基准。显示了三次运行的平均值和标准差。新城新城天气任务CILRS [8]CILRS*LSDLSD+专家CILRS [8]CILRS*LSDLSD+专家空66 ±265 ±293 ±294 ±196 ±090 ±271 ±296 ±195 ±196 ±2定期49 ±546 ±266 ±268 ±291 ±156 ±259 ±461 ±165 ±492 ±1密集23 ±120 ±127 ±230 ±441 ±224 ±831 ±329 ±432 ±343 ±2那个特工例如，在密集的环境中，行人和其他汽车可能会撞上自我车辆，或者在没有自我车辆的故障的情况下无限期地阻塞交叉路口，从而导致不成功的情节完成。AnyWeather基准：作为最终实验，我们表6：AnyWeather基准测试中恶劣环境的泛化。在CARLA 0.8.4基准测试中，新城镇（镇2）和所有10种训练中未见过的天气的成功率（%）新城天气试图量化我们的模型在以下条件下运行的能力在现实驾驶中至关重要的视觉条件。虽然学习专门的政策可以在不同的环境下提供一定的灵活性，但对10种看不见的天气的分析进一步突出了我们方法的好处和局限性。表6显示了该挑战性设置中总计1000次发作（每种条件250次）的结果总结。由于这个庞大的数字即使是成功率的微小改善也是非常重要的。结果应直接与表4中的结果进行比较。在这里，即使是简单的任务，如驾驶直线在静态场景不再解决由于恶劣的天气条件。令人惊讶的是，一些新的weathers是如此困难，他们导致零成功率的国家的最先进的方法（CILRS和LSD），推动未来的研究这一具有挑战性的基准。5. 结论我们提出了一个情景策略模型，在不同的情况下驾驶。根据我们的实验，在学习感觉运动驾驶时采用混合模型可以显著改善不同驾驶任务的建模能力。此外，直接优化驾驶任务可以提供额外的性能增益，在CARLA、NoCrash和AnyWeather基准测试中实现最先进的性能。虽然我们的方法不需要访问图像级通过使用注释，情境模型也可以通过感知模块来学习，从而提供更强的视觉先验并进一步提高泛化能力。此外，情境公式提供了一些可解释性，因为特定情境的预测可以在测试时进行检查。另一个未来的方向是评估模型推广到新交通场景的能力，即，通过专家政策的组成。考虑到我们的工作朝着学习鲁棒的、广义的驾驶策略迈出了一步，重要的下一步将是进一步分析MoE模型对具有挑战性的广义设置的影响，例如，真实世界数据集和Sim2Real [28]。鸣谢：这项工作得到了BMBF通过TubingenAI中心（FKZ：01IS18039B）的支持。作者感谢国际马克斯·普朗克智能系统研究学院（IMPRS- IS）对Kashyap Chitta的支持和洪堡基金会对Eshed Ohn-Bar的支持。任务CILRS*LSDLSD+直83岁2八十五285.6一匝78岁4八十481.611304引用[1] M. Bain和C.萨姆特行为克隆的框架。机器智能15，1996年。[2] M.班萨尔A。Krizhevsky和A.奥加尔司机网：通过模仿最好的和综合最坏的来学习驾驶。在RSS，2019.[3] C. M.主教混合密度网络一九九四年[4] C. Chen，中国山核桃A. Seff，A. L. Kornhauser和J.萧深-驾驶：学习自动驾驶中的直接感知启示。在ICCV，2015年。[5] D.陈湾，澳-地Zhou和V.科尔顿。通过作弊来学习。在CoRL，2019年。[6] F.科德维拉A. M. Lopez，V. Koltun，and A.多索维茨基基于视觉的驾驶模型的性能评价研究。在ECCV，2018。[7] F. Cod e villa，M. Miille r，A. 洛佩斯，维。 Koltun，和A. 多索-维茨基。通过有条件模仿学习实现端到端驱动。在ICRA。[8] F. Cod e villa，E. Santana，A. M. L o’pez和A. 盖顿探索行为克隆用于自动驾驶的局限性。ICCV，2019。[9] P. Dayan和G.E. 辛顿封建强化学习在神经信息处理系统进展，1993年。[10] A. 多索维茨基 G. 罗斯 F. 科德维拉， A. Lopez和V. Koltun. 卡拉：一个开放的城市驾驶模拟器。在CoRL，2017年。[22] J. 库特尼克湾Cuccu，J.Schmidhuber和F.戈麦斯进化大规模神经网络用于基于视觉的强化学习。在遗传和进化计算，2013年。[23] D. Kuan，G.菲普斯，A.-C. Hsueh等人自主机器人车辆道路跟踪。IEEE Transactions on Pattern Analysis andMachine Intelligence（PAMI），10（5）：648[24] G. Li，M.Mueller，V.Casser，N.史密斯，D.L. 米歇尔斯，B.加尼姆Oil：观察模仿学习。RSS，2019.[25] X. Liang，T.王湖，加-地Yang和E.邢CIRL：用于基于视觉的自动驾驶的可控模拟强化学习。在ECCV，2018。[26] C. C.碎石理解和建模人类驾驶员。车辆系统动力学，40（1-3），2003年。[27] D. Q. Mayne，M. M. Seron和S. Rak o vi c'.有界扰动约束线性系统的鲁棒模型预测控制。Automatica ，41（2）：219[28] M. Müller，A. 两个维茨基湾。 Ghanem和V. 科尔顿通过模块化和抽象来实现策略迁移。CoRL，2018年。[29] 联合Muller，J. Ben，E.科萨托湾Flepp，和Y. L.寸。通过端到端学习实现越野避障。神经信息处理系统的进展，2006年。[30] T. Osa，J. Pajarinen，G.诺伊曼Bagnell，P. 阿比尔J. Peters等人从算法的角度看模仿学习-[11] M. R. Endsley，D. J. Garland等人理论基础-形势意识的本质：一个批判性的评论。情况ing. 基础和Tr端2018.in Robotics，7（1-2）：1-179，《认识分析和衡量》，2000年1月[12] S. Gupta，J. Davidson，S.莱文河Sukthankar和J.马力。视觉导航的认知绘图与规划。在CVPR，2017年。[13] D. Ha和J. Schmidhuber。循环的世界模型促进了政策的演变。在神经信息处理系统的进展，2018年。[14] N. Hansen和A.奥斯特迈尔进化策略中完全去随机化的自适应。演化计算，9（2）：159[15] H. 他，J.Reynner和H.多姆通过指导进行模仿学习《神经信息处理系统》，2012年。[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[17] I. 希金斯湖，澳-地 Matthey，A. 帕尔角 Burgess，X.格洛特M. Botvinick，S. Mohamed和A. Lerchner beta-VAE：使用受约束的变分框架学习基本视觉概念ICLR，2017年。[18] D. P. Kingma和J. BA. Adam：随机最佳化的方法。2015年，国际会议[19] D. P.Kingma和M.威林自动编码变分贝叶斯。2014年[20] T. Kipf，Y. Li，H. Dai，V. Zambaldi，A.桑切斯-冈萨雷斯E. Grefenstette，P. Kohli和P.巴塔利亚CompILE：组合式模仿学习和执行.在ICML，2019。[21] J. Kober，J.A. Bagnell和J.彼得斯机器人中的强化学习：一个调查。国际机器人研究，32（11）：1238[31] I.奥斯班德角Blundell，A. Pritzel，and B.范·罗伊通过自举dqn进行深度探索。神经信息处理系统进展，2016。[32] X. B.彭，M. Chang、G. Zhang，P. Abbeel，and S.莱文MCP：学习具有多重合成策略的可合成递阶控制.在神经信息处理系统的进展，2019。[33] D. A.波默洛ALVINN：神经网络中的自主陆地车辆。神经信息处理系统的进展，1989年。[34] D. J. Rezende，S. Mohamed和D.维尔斯特拉深层生成模型中的随机反向传播和近似推理。InICML，2014.[35] S.罗斯，G. Gordon和D.巴涅尔将模仿学习和结构化预测简化为无遗憾在线学习。载于AISTATS，2011年。[36] T. Salimans，J.Ho，X.Chen，S.Sidor和我Sutskever 进化策略作为强化学习的可扩展替代方案。 arXiv ，1703.03864，2017。[37] A. Sauer，N.Savinov和A.盖革城市环境中驾驶的有条件InCoRL，2018.[38] A.萨克斯湾Emi、A. R.扎米尔湖Guibas，S. Savarese，和J·马利克中级视觉表征提高了学习主动任务的泛化和采样效率。在CoRL，2019年。[39] E. Schonfeld，S.Ebrahimi，S.Sinha，T.Darrell和Z.赤田通过对齐的变分自动编码器进行广义零次和少次学习。在CVPR，2019年。11305[40] S. Shalev-Shwartz和A.Shashua 端到端培训与语义抽象训练arXiv，1807.01622，2016。[41] A.夏尔马，M。夏尔马 Rhinehart和K. M. 奇谷。定向信息GAIL：使用定向信息从未分割的演示中学习分层策略。ICLR，2019。[42] W. B. Shen，D. Xu，Y.朱湖，加-地吉巴斯湖飞飞，还有S. Savarese用于视觉导航的视觉表示的情境融合。ICCV，2019。[43] T.银K。Allen，J. Tenenbaum，and L.凯布林剩余政策学习。在ICRA，2019年。[44] N. Srivastava、E.Mansimov和R.萨拉赫丁诺夫使用lstms的视频表示的无监督学习ICML，2015。[45] R. S.萨顿，D。Preup和S. P. Singh关于时间抽象动作的选项内学习。载于ICML，1998年

下载后可阅读完整内容，剩余1页未读，立即下载