行为克隆方法的局限性研究-驾驶行为克隆的挑战

38 浏览量更新于2023-10-12 收藏 1.62MB PDF 举报

自动驾驶

行为克隆

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9329探索自动驾驶行为克隆的局限性费利佩·科德维拉计算机视觉中心（CVC）Campus UAB，巴塞罗那，西班牙fcodevilla@cvc.uab.es安东尼奥·M 洛佩斯计算机视觉中心（CVC）Campus UAB，巴塞罗那，西班牙antonio@cvc.uab.es埃德·桑塔纳丰田研究所（TRI）美国加利福尼亚州洛斯阿尔托斯。edercsjr@gmail.com阿德里安·盖东丰田研究所（TRI）美国加利福尼亚州洛斯阿尔托斯。aidon@tri.global图1.驾驶场景来自我们的新基准，基于CARLA模拟器，智能体需要对环境中的动态变化做出反应，处理混乱（只有部分环境是因果相关的），并预测复杂的感觉运动控制（横向和纵向）。我们表明，行为克隆产生国家的最先进的政策，在这些复杂的情况下，并调查其局限性。摘要驾驶需要对各种复杂的环境条件和代理行为做出反应。对每个可能的场景进行显式建模是不现实的。相比之下特别是行为克隆在本文中，我们提出了一个新的基准实验研究行为克隆的可扩展性和局限性。我们表明，行为克隆导致国家的最先进的结果，执行复杂的横向和纵向机动，即使在看不见的环境中，没有明确的编程这样做然而，我们确认了行为克隆方法的一些局限性：一些众所周知的限制（例如，数据集偏差和过拟合），新的泛化问题（例如，动态对象和缺乏因果建模），以及训练不稳定性，所有这些都需要进一步的研究，然后才能将行为克隆应用于现实世界的驾驶。本文中研究的代码、数据集、基准和代理可以在github.com/felipecode/coiltraine/blob/master/docs/exploring_limitations.md上找到在TRI实习期间完成的工作1. 介绍自动驾驶的端到端行为克隆最近重新引起了人们的兴趣[10，8，12，43，30]，作为工业中使用的传统模块化方法的简单替代方案[13，24]。在这种范式中，感知和控制是使用深度神经网络同时学习的显式子任务没有定义，但可以从数据中隐式学习。这些感觉运动控制器通常是通过从人类示范中模仿学习获得的[2，33，1，39]。深度神经网络在没有被明确编程的情况下学习识别与感觉输入相关联的模式（例如，单个RGB图像）与车辆控制参数方面的期望反应产生目标机动。行为克隆可以直接从大量的人类驾驶车辆中学习，而不需要固定的本体和额外的手动标记数据。最后，端到端模仿系统可以以安全的方式离线学习，而强化学习方法通常需要在目标环境中进行数百万次试错[25]或忠实的模拟。端到端模仿系统可能会在离线培训体验和在线培训体验之间发生域转移[35]。然而，这个问题可以通过数据扩充在实践中部分解决[8，12]。尽管端到端驱动的行为克隆在早期和最近取得了成功[32，23，10，8，12]，但它并没有9330i=1但已被证明可扩展到驾驶行为的全部范围，例如对多个动态对象作出反应。在本文中，我们提出了一个新的基准，称为NoCrash，并在复杂的驾驶条件下进行大规模的端到端的行为克隆系统的分析，在这种情况下没有研究过。我们使用基于开源CARLA模拟器[14]的高保真模拟环境，在几种不同条件下超过80小时的驾驶中实现可再现的大规模离线培训和在线评估。我们描述了一个强大的条件模仿学习基线，来自[12]，它显着改进了最先进的模块化[26]，基于启示[37]和强化学习[27]方法，无论是在训练环境中的泛化性能还是看不见的。尽管其积极的表现，我们确定的限制，阻止行为克隆成功毕业到现实世界中的应用。首先，尽管泛化性能应该随着训练数据的变化而变化，但泛化到复杂条件仍然是一个开放的问题，有很大的改进空间。特别是，我们表明，没有可靠的方法处理密集的交通场景与许多动态代理。其次，我们报告了由于数据集偏差和缺乏因果模型而导致的泛化问题。我们确实观察到一定数量的演示后收益递减，甚至在看不见的环境中表现出性能下降的特征。第三，当改变初始化或训练样本顺序时，我们观察到泛化性能的显著变化，类似于策略RL问题[19]。我们进行了实验，估计ImageNet预训练的影响，并表明它无法完全降低方差。这表明训练样本的顺序对于非策略模仿学习很重要，类似于策略情况[46]。我们的论文组织如下。第2节描述了相关的工作，第3节我们的强行为克隆基线，第4节我们的评估协议，包括我们新的NoCrash基准，第5节我们的实验结果，第6节我们的结论。2. 相关工作驾驶行为克隆可以追溯到Pomerleau [32]关于车道跟随的工作，后来又有其他方法[23]，包括超越驾驶[1，40]。训练和测试分布之间的分布变化是这种方法的主要已知限制，这可能需要由学习代理获得的策略数据收集[34，35尽管如此，最近的工作已经提出了有效的非策略解决方案，例如通过使用噪声[22，12]，额外的传感器[8]或模块化[37，26，5]来扩展图像/动作对的空间。然而，我们发现，在复杂的驾驶场景中，还有其他重要的限制需要考虑，特别是较大数据集偏差和高方差，这两者都损害了训练数据的缩放泛化性能。数据集偏差是现实世界机器学习应用程序的核心问题[42，6]，在自动驾驶等安全关键应用程序启发式学习方法对此特别敏感问题，因为学习目标可能由训练数据中的主要模式主导。超越原始的CARLA 基准[14]，我们使用新的NoCrash基准来定量评估泛化性能问题的严重性，以获得更真实和更有挑战性的驾驶行为。高方差是强大的深度神经网络中的一个关键问题，我们发现高性能行为克隆模型尤其受此影响这问题与对初始化和采样顺序的敏感性[31]、强化学习中的再现性问题[19，29]以及超越i.i.d.数据假设对课程学习[7]的感觉运动控制[46，4]。驾驶基准分为两大类：离线数据集，例如，[15，36，44，18]，或在线环境。在这里，我们重点关注在线基准测试，作为可视化模块-在基于网络的评估中表现良好的ELS不一定转化为良好的驾驶策略[11]。驱动显然是一个安全关键的机器人应用。因此，为了安全性和可再现性，研究人员专注于使用照片般逼真的模拟环境。特别是，CARLA开源驾驶模拟器[14]正在成为驾驶研究的标准平台，用于[12，30，37，27，26]。然而，请注意，从模拟到现实世界的转移环策略是本文范围之外的一个开放问题[28]，尽管最近的工作已经显示出令人鼓舞的结果[30，45]。3. 行为克隆在本节中，我们首先描述我们使用的行为克隆框架，它的局限性，以及试图解决这些问题的鲁棒基线。3.1. 条件模仿学习行为克隆[32，38，35，25]是一种监督学习的形式唯一的要求是与专家动作相关的成对输入感官观察我们对自动驾驶汽车使用了一种扩展的公式，称为条件模仿学习（ConditionalImitation Learning， CIL）。它使用高级导航系统igational命令c消除了模仿的歧义，多种类型的交叉口。鉴于专家政策通过访问环境状态x，我们可以执行此策略以产生数据集D={oi，ci，ai}N，其中oi是传感器数据观测，ci是高级命令（例如，在下一个路口右转、左转或保持车道行驶）9331θ和ai=ππ（xi）是所得到的车辆动作（10 w-1 ev el控制）。观测值oi={i，vm}包含单个图像i和为系统添加的自我汽车速度vm[12]，对道路上的动态物体做出正确的反应。如果没有速度上下文，模型就无法学习是否以及何时应该加速或刹车以达到期望的速度或停止。我们想学习一个由θ参数化的策略π，以仅基于观察o和高级命令c产生与π π类似的动作。最佳参数θθ=使模仿成本最小化：θθ=arg minθ.Σα π（oi，ci;θ），ai.（一）图2.我们提出的网络架构，称为CILRS，i基于CIL的端到端城市驾驶[12]。一个ResNet感知为了在测试时在线评估学习策略π（oi，ci;θ）的性能，我们假设访问给出表示性能的数值的得分函数在给定基准上的政策π（参见第4节）。3.2. 限制除了分布转移问题[35]之外，复制或克隆还存在一些关键限制。自然主义驾驶数据集的偏见。行为克隆的吸引力在于它的简单性和理论上的可扩展性，因为它确实可以通过模仿从大型离线收集的示范中学习（例如，使用驾驶日志，手动驱动的生产车辆）。然而，它像所有学习方法一样容易受到数据集偏差的影响。在驾驶策略的模仿学习中，这种情况会加剧，因为大多数现实世界的驾驶都包含一些简单的行为，或者对罕见事件的复杂反应。因此，随着收集更多数据，这可能导致性能下降，因为数据的多样性降低了。模块将输入图像处理到潜在空间，随后是两个预测头：一个用于控制，一个用于速度。受约束的环境，因为不是所有的原因都可以被建模（例如，一些潜在的障碍）和感知层的错误（例如，遗漏的检测）是不可恢复的。高方差。对于固定的非策略训练数据集，人们会期望CIL在训练阶段的不同运行然而，成本函数通过随机梯度下降（SGD）进行优化，该方法假设数据是独立同分布的[9]。当在训练数据中包括的较长的人类演示的快照上训练反应性策略时，i.i.d.假设不成立。因此，我们可能会观察到对初始化和在训练期间看到样本的顺序的高度敏感性。我们在实验中证实了这一点，发现由于初始化和采样顺序导致的总体高方差，遵循[31]中的分解：与演示的主要模式相比，数据集的增长速度不够快这一现象以前没有得到明确的测量。使用我们新的NoCrash基准测试（秒-Var（π）=EΣΣDV arI（π|D）+V arD.ΣEI[π|D]，（2）第四，我们确认在实践中可能会发生这种情况。因果混淆。与数据集偏差相关，端到端行为克隆可能会遭受因果混淆[16]：除非使用明确的因果模型或策略演示，否则无法在观察到的训练演示模式中区分虚假相关性和真实原因。我们新的NoCrash基准测试证实了[16]在现实驾驶条件下的特别是，我们确定了一个典型的故障模式，由于一个微妙的数据集偏差：惯性问题。当本车辆停止时（例如，在红色交通灯处），其保持静态的概率在训练数据中确实是压倒性的。这在低速和不加速之间产生了虚假的相关性尽管中介感知方法明确地对交通信号灯等因果信号进行建模，但它们不受这种理论限制，但它们仍然在联合国系统中执行端到端学习。其中I表示初始化中的随机性。因为在模拟环境中在线评估策略π，我们在实践中评估测试基准上的分数的方差，并且在冻结初始化和/或改变不同训练数据集D（包括不同大小的数据集）的采样顺序3.3. 模型为了探索上述被克隆或克隆的局限性，我们提出了一个鲁棒的CIL模型，旨在改进[12]，同时保持严格的非策略。我们的网络架构称为CILRS，如图2所示。我们在下面描述我们的增强功能。更深的残留结构。我们使用ResNet34架构[17]用于感知骨干P（i）。在存在大量数据的情况下，使用更深层次的体系结构可能是提高性能的有效策略[17]。特别是，它可以减少两种偏见，9332和方差，特别是由于具有网络宽度和深度的训练集采样而保持恒定的方差[31]。对于端到端驱动，到目前为止，架构的选择主要限于小型网络[8，12，37]，以避免在有限的数据集上过度拟合。相比之下，我们注意到，在复杂的城市环境中，更大的模型在学习对动态物体和交通灯的反应方面具有更好的泛化性能。速度预测正则化。为了在没有明确映射潜在原因或政策干预的情况下应对惯性问题，我们联合训练了一个具有预测自我车辆速度的网络的传感器控制器。这两个神经网络通过我们的ResNet感知骨干共享相同的表示。直观地，所发生的是，这种联合优化强制感知模块将速度相关特征纳入学习的表示中。这减少了对作为获得场景动态的唯一方式的输入速度的依赖性，而是利用预测汽车速度的视觉线索自由空间、曲线、交通灯状态等）。其他变化。我们使用L1作为损失函数均方误差（MSE），因为它与驾驶性能更相关[11]。由于我们的NoCrash基准测试由存在动态代理的复杂现实驾驶条件组成，因此我们从专家游戏AI收集了使用特权信息正确驾驶的演示（即，总是遵守交通规则，不撞到任何障碍物）。在演示中对强噪声的鲁棒性超出了我们的工作范围，因为我们的目标是探索行为克隆方法的局限性，尽管有很好的演示。最后，我们在ImageNet上预训练了我们的学习骨干，以减少初始化方差并受益于通用迁移学习，这是深度学习中很少探索行为克隆的标准实践。4. 评价在本节中，我们将讨论我们使用的模拟环境CARLA，并回顾最初的CARLA基准测试。由于它的局限性，我们提出了一个新的基准，称为NoCrash，试图更好地评估驾驶控制器对动态对象的反应。这一新的基准，由于其复杂性，允许进一步分析的限制，被克隆或其他政策学习方法。4.1. 模拟环境我们使用CARLA模拟器[14] 0.8.4版。卡拉的环境分为两个不同的城镇。Town 01在郊区环境中包含2.9公里的可驾驶道路。02镇是大约1.4公里的可驾驶道路，也在郊区环境中。CARLA环境可能包含与自我汽车交互的动态障碍物。例如，行人可能会在没有任何明显的事先通知的情况下随意过马路。这个动作迫使自我汽车迅速作出反应。CARLA环境还包含以不同速度巡航的各种汽车品牌总的来说，它提供了一个多样化的，照片般逼真的，动态的环境，具有挑战性的驾驶条件（参见。图1）。最初的CARLA基准[14]评估了驾驶控制器在几个目标导向的任务增加的难度。其中三个任务包括在一个空的城镇中导航，其中一个任务是在一个有少量动态对象的城镇中导航。每个任务都在四种不同的条件下进行测试，这些条件是：与训练相同，新的天气条件是从训练期间所看到的天气条件衍生而来的，以及具有不同建筑物和不同阴影图案的新城镇。请注意，最大的泛化测试是新天气和新城的结合目标导向任务是基于成功率进行评估的。如果代理人达到了目标，而不管在事件发生期间发生了什么，则该事件被认为是成功的。考虑碰撞和其他违规行为，并测量违规行为之间的平均公里数。这种评估导致基准主要集中在静态性质的问题上。这些问题考虑了环境条件和世界上的静态物体，如建筑物和树木。因此，最初的CARLA基准主要评估车道保持和90度转弯等技能4.2. 无崩溃基准我们提出了一个新的更大规模的CARLA驾驶基准，称为NoCrash，旨在测试自我车辆处理由不断变化的交通条件（例如，交通灯）和场景中的动态代理对于这个基准，我们提出了与原始CARLA基准不同的任务和指标[14]，以精确地测量我们知道优秀驾驶员在城市条件下必须掌握的特定反应模式我们提出了三个不同的任务，每一个对应于25个目标导向的情节。在每一集中，智能体从一个随机的位置开始，并由一个高级计划者指导到达某个目标位置。这三个任务具有相同的开始和结束位置，以及如下增加的难度：1. 空城：没有动态对象。2. 常规交通：汽车和行人数量适中。3. 密集交通：大量行人和繁忙的交通（密集的城市场景）。与CARLA基准类似，NoCrash有六种不同的天气条件，其中四种是在火车上看到9333两个留着测试。它也有两个不同的城镇，一个是在训练期间看到的，另一个是为测试保留的。有关基准配置的更多详细信息，请参阅补充材料。如上所述，事件成功的度量应该更能代表智能体对动态对象做出反应的能力。最初的CARLA基准[14]有一个目标条件成功率指标，该指标与违规之间的公里数指标分开计算。后一个指标被提议与现实世界驾驶评估中常用的指标类似，其中计算每公里的人为干预次数[20]。这些干预通常发生在安全驾驶员注意到可能导致车辆处于危险状态的一些不一致在潜在的不一致行为上，人类干预将使车辆回到安全状态。然而，在CARLA基准分析中，当违规发生时，违规事件在违规后继续发生，导致违规计数的一些不准确性。不准确的一个例子包括离开道路后的碰撞是否被算作一次或两次违规。在NoCrash中，我们不计算每公里的碰撞次数，而是在发生任何大于固定量级的碰撞时以失败结束有了这个限制，我们设定了一个下限，并根据测量的成功百分比此外，这使得评估更加类似于现实世界中使用的km/干预评估总之，我们认为如果智能体在时间限制内达到某个目标而不与任何物体发生碰撞，则情节是成功的。我们还关心智能体遵守交通规则的能力。特别是，我们在补充材料中测量并报告交通灯违规的百分比请注意，当交通灯违规发生时，情节不会终止，除非随后发生碰撞。5. 实验在本节中，我们将详细介绍我们的模型训练协议，并简要说明它与最先进的技术相比具有竞争力。我们还探讨了几个角落的情况下，探索行为克隆方法的局限性。5.1. 培训详细信息首先，我们使用超过200个GPU天从CARLA环境的一个城镇收集了超过400小时的真实模拟驾驶数据。我们使用了一个专家驾驶AI代理，它利用有关场景的特权信息，在复杂的条件下自然驾驶。在使用简单规则自动过滤模拟失败、重复和边缘情况的数据后，建立了一个100小时驾驶的数据集，称为CARLA100。为了能够运行广泛的实验，我们默认使用10小时的专家演示子集来训练所有方法。我们还在第5.3节和补充材料中报告了更大规模的训练实验和可扩展性分析。与CIL相比，训练数据集的主要差异之一是在演示数据上考虑了红灯有关数据集的更多详细信息，请参阅文档材料。在这个数据集上训练控制器，我们发现增强并不像以前的工作那样重要[12，26]。我们发现对性能重要的唯一正则化是在最后一个卷积层之后使用50%的丢弃率[41任何较大的脱落都会导致我们的模型拟合不足。所有模型都使用Adam [21]进行训练，小批量为120个样本，初始学习率为0。0002.在每次迭代中，从整个数据集中随机采样一个小批量，并将其提交给网络进行训练。如果我们检测到训练误差在超过1000次迭代中没有减少，我们将学习率除以10。我们使用了2小时的验证数据集来确定何时停止训练过程。我们每20k次迭代验证一次，如果验证错误增加了三次迭代，我们停止训练过程，并使用这个检查点在CARLA和NoCrash的基准上进行测试。我们构建了一个验证数据集，如[11]所述。5.2. 与最新技术水平的比较我们使用来自[14]的原始CARLA基准和我们提出的NoCrash基准来比较我们的结果。我们比较了我们方法的两个版本：“CILRS”（我们的CIL扩展，具有ResNet架构和速度预测，如第3节所述），以及没有速度预测分支的版本，标记为“CILR”。我们将我们的方法与[ 12 ]中的原始CIL和三种最先进的方法进行比较：[27][28][29]与端到端行为克隆相比，这些方法强制执行一些在训练时需要额外信息的模块化，例如启示（CAL）、语义分段（MT）或与环境的额外策略交互（CIRL）。我们的方法只需要一个固定的非政策数据集的演示。我们在表1中显示了原始CARLA基准[14]的结果，在表2中显示了我们提出的NoCrash基准的结果。虽然大多数方法在原始CARLA基准测试的大多数条件下都表现良好，但它们在NoCrash上的表现都要差得多，特别是在尝试推广到新条件时。这证实了NoCrash在探索驾驶策略学习的局限性方面的有用性，因为它更具挑战性。此外，我们提出的CILRS模型显著地改进了现有技术，例如，+9%和+26%9334训练条件新城天气任务CIL[12]CIRL[27]卡尔[37][第26话]CILRCILRSCIL[12]CIRL[27]卡尔[37][第26话]CILRCILRS直9898100969496809894969296一匝899797879292488072829292导航869392818895446868788892导航动态838283818592426264628290表1.与原始CARLA基准上的最新技术水平进行比较。“CILRS”版本对应于我们使用速度预测分支的基于CIL的ResNet，而“CILR”没有这种速度预测。这两个模型和CIL是唯一在训练期间不使用任何额外监督或与环境进行在线交互的模型。该表报告了在每种条件下成功完成的事件的百分比，从五次运行中选择最佳种子。新城天气预报任务CIL[12]卡尔[37][第26话]CILRCILRSCIL[12]卡尔[37][第26话]CILRCILRS空79 ±181 ±184 ±192 ±197 ±224 ±125 ±357 ±066 ±290 ±2定期60 ±173 ±254 ±272 ±583 ±013 ±214 ±232 ±254 ±256 ±2密集21 ±242 ±313 ±428 ±142 ±22 ±010 ±014 ±213 ±424 ±8表2.我们的NoCrash基准测试结果三次运行的平均值和标准差，因为CARLA 0.8.4具有显著的非确定性。卡拉“Nav.在训练和新的推广条件的显着改善，无论是w.r.t. CIL和介导的方法，证实了我们改进的端到端行为克隆架构可以有效地学习复杂的一般政策，从示范单独。此外，我们的烧蚀分析表明，速度预测是有帮助的：CILR确实比NoCrash上的CILRS差-14%。5.3. 局限性分析虽然明显高于最先进的水平，但我们改进的CILRS架构在具有挑战性的驾驶条件下，与所有其他方法类似，性能会大幅下降。我们通过使用NoCrash基准来研究这种退化与第3.2节中提到的行为克隆的限制之间的关系，特别是为了更好地评估代理与动态对象的交互。在动态对象的存在下的泛化。以前报告了端到端驾驶方法的有限推广[14]。在我们的实验中，我们观察到额外的，更突出的，泛化是，当控制策略必须处理动态对象。表2确实显示了当我们切换到具有更多流量的任务时性能的大幅下降，例如，-55%，- 在NoCrash训练/新条件下，从空流量到密集流量分别为66%。相比之下，在Empty town中，当改变到一个新的环境和天气时，结果只会下降-7%。因此，学习策略很难稳健地处理大量车辆和行人。此外，这影响到所有政策学习方法，包括那些使用额外的监督或对政策的演示，往往甚至超过我们提出的CILRS方法。驱动数据集偏差。图3评估了学习策略的培训演示次数。在这里，我们比较了经过2、10、50和100小时演示训练的模型图显示了具有不同随机种子的四个不同训练周期的平均成功率和标准偏差。我们在大多数场景下的最佳结果都是通过仅使用10小时的训练数据获得的，特别是在“密集交通”任务和新天气和新城镇等新条件下这些结果量化了第3.2节中描述的限制：对缺乏多样性的数据过度拟合的风险。我们环境的有限空间范围和视觉多样性，包括动态对象，加剧了这种情况。我们确实观察到，某些类型的车辆往往比其他车辆更容易引起政策的反应。车辆型号和颜色越常见，经过训练的代理对它的反应就越好。这引发了自动驾驶的道德挑战，需要进一步研究决策系统的公平机器学习[6]。因果混淆和惯性问题。我们观察到的由偏差引起的主要问题是由因果混淆引起的惯性问题，详见3.2节。图4显示了超时前至少8秒内，由于代理保持静止而不打算使用节流阀而失败的事件百分比我们的结果显示，由于惯性问题而失败的事件百分比随着用于训练的数据量而增加。我们建议使用速度预测分支作为我们的CILRS模型的一部分（参见图2）为了缓解这一问题，9335图3.由于数据中的偏差，随着训练数据量的增加，结果可能会变得饱和或更糟莱姆图5显示了在有速度预测和没有速度预测的情况下，不同任务在New Weather Town条件下的成功百分比。我们观察到，由于其正则化效应，速度预测分支可以大大提高成功然而，它不是这个问题的最终解决方案，因为我们仍然观察到惯性问题后使用这种方法的实例高变异。培训过程的可重复性是CILRSCILRS（ImageNet）任务差异空23%经常预算26%密集型42%空4%常规12%密集型38%对于增强端到端模型的信任至关重要。不幸的是当然，由于由初始化和数据采样引起的变化，我们仍然可以看到学习策略性能第3.2节）。图6比较了两个模型的事件终止原因，其中唯一的型号S1有一个更高的机会结束插曲，由于车辆碰撞。从质量上讲，它似乎学会了一种不太通用的制动策略，更容易与其他车辆发生追尾碰撞另一方面，Model S2能够完成更多的剧集，并且不太可能因车辆碰撞而失败。然而，我们可以看到，它的时间更长，显示出一种倾向，停止了很多，即使在非威胁性的情况下。这可以通过分析基准测试期间两个模型应用的节流直方图来看出，如图7所示。我们可以看到一个趋势，油门的更高幅度的模型S1。由于非策略模仿学习使用静态数据集进行训练，所以这种随机性来自训练数据的采样顺序和随机权重的初始化这可能定义了模型收敛到哪个最小值。表3通过计算公式2中表示的变化来量化初始化对驾驶任务成功率的影响。通过平均12次不同的训练运行来计算预期策略得分。我们还考虑了有和没有ImageNet初始化的方差。我们可以看到，对于具有动态对象的任务，成功率可以改变高达42%ImageNet初始化倾向于减少训练变异性，主要是这是由于初始化时的随机性较小，而且还由于更稳定的学习策略。表3.通过使用不同的随机种子训练12次相同的模型，计算出NoCrash上CILRS成功率的估计方差通过使用ImageNet预训练固定部分初始权重6. 结论我们的新驾驶数据集（ CARLA100 ）、基准（NoCrash）和端到端感觉运动架构（CILRS）表明，在大规模非策略演示数据集上的行为克隆可以在泛化性能方面大大改善现有技术，包括与具有额外监督的介导感知方法相比时。这要归功于使用更深的残差架构，具有额外的速度预测目标和良好的正则化。尽管如此，我们广泛的实验分析表明，一些重大挑战仍然存在。首先，场景中动态对象的数量直接损害了所有的策略学习方法，因为多智能体动态不是直接捕获的。其次，行为克隆的自我监督性质使其能够扩展到大型演示数据集，但由于需要明确处理的驾驶特定数据集偏差，特别是造成因果混淆的偏差（例如，惯性问题）。现有的缓解策略目前需要更多信息的中间表示，无论是学习[3]还是使用强大的领域知识[5]。第三，初始化和采样顺序导致的大方差表明，在同一关闭条件下进行多次运行9336图4.由于惯性问题而失败的事件百分比我们可以看到，通过增加数据量，这种偏差可能会进一步降低模型的泛化能力。图5.比较有无速度预测和不同训练量的结果。我们只报告了需要最高泛化的情况下的结果（新天气和城镇）。政策数据是确定最佳政策的关键这是关于非凸性和初始化、课程学习和训练稳定性的更广泛的深度学习挑战的一部分。鸣谢。费利佩科德维利亚是部分由FI资助2017FI-B1 -00162支持。安东尼奥·M 洛佩斯感谢ICREA在ICREA学术计划下提供的财政支持费利佩和安东尼奥感谢西班牙TIN2017-88709-R（MINECO/AEI/FEDER，UE）的财政支持。作为CVC/UAB 的研究人员，他们也承认一般 - itat deCatalunya CERCA计划及其ACCIO机构。所有作者都感谢AWS实例中的TRI支持，以便在Felipe实习后运行额外的实验。特别感谢CVC图6.两个CILRS模型（使用ImageNet初始化训练10小时）的NoCrash事件终止原因本集是在“密集交通”任务的“新气象城镇”条件下运行的图7.具有特定节流值的概率分布比较具有两个不同随机种子但使用相同超参数和数据训练的模型。我们可以看到，S1（红色）更有可能具有更高的油门值。引用[1] Pieter Abbeel，Adam Coates，Morgan Quigley，and Andrew Y.Ng. 强化学习的一个应用9337直升机特技飞行。在NIPS，2006年。一、二[2] 作者：Peter Abbeel，Andrew Y. Ng.通过反向强化学习的学徒学习。ICML，2004年。1[3] AlexanderAmini 、 WilkoSchwarting 、 GuyRosman 、 Brandon Araki 、 Sertac Karaman 和Daniela Rus。可变自动编码器，用于自动驾驶的端到端控制，具有新颖性检测和训练去偏置功能。在IROS，2018年。7[4] Marcin Andrychowicz，Filip Wolski，Alex Ray，Jonas Schneider，Rachel Fong，Peter Welinder，Bob Mc- Grew ， Josh Tobin ， Pieter Abbeel 和Wojciech Zaremba 。后见之明体验回放。在NIPS，2017年。2[5] MayankBansal 、 AlexKrizhevsky 和 AbhijitOgale。Chauffeurnet：通过模仿最好的和综合最坏的来学习驾驶。在RSS，2019. 二、七[6] 梭伦·巴罗卡斯、莫里茨·哈特和阿尔温德·纳拉亚南。机器学习中的公平性二、六[7] 你是本吉奥，我是卢尔，罗南·科洛伯特，杰森·韦斯顿。课程学习。InICML，2009. 2[8] 作者： Mariusz Bojarski ， Davide Del Testa ，Daniel Dworakowski ， Bernhard Firner ， BeatFlepp ， Pra- soon Goyal ， Lawrence D. Jackel ，Mathew Monfort，Urs Muller，Jiakai Zhang，XinZhang，Jake Zhao，and Karol Zieba.自动驾驶汽车的端到端学习arXiv：1604.07316，2016。一、二、四[9] 我在Bottou和Ol i vierBousquet。大规模学习的交易NIPS，2008年。3[10] 陈晨毅，阿里·谢夫，阿兰·科恩豪泽，肖建雄.深度驾驶：学习自动驾驶中直接感知的启示。在ICCV，2015年。1[11] Felipe Codevilla ， Antonio M Lopez ， VladlenKoltun，and Alexey Dosovitskiy.基于视觉的驾驶模型的离线评估。在ECCV，2018。二、四、五[12] FelipeCodevilla，MatthiasMüller，AntonioLo'pez ， Vladlen Koltun ， andAlexeyDosovitskiy.通过条件模仿学习实现端到端驾驶。在ICRA，2018年。一、二、三、四、五、六[13] Ernst D Dickmanns近十年来道路车辆机械视觉的发展。智能车辆研讨会，2002年。 IEEE，第1卷，第268-281页。IEEE，2002年。1[14] 阿列克谢·多索维茨基，德国人罗斯，费利佩·科德维拉，安东尼奥·洛佩斯和弗拉德伦·科尔通。卡拉：一个开放的城市驾驶模拟器。在CoRL，2017年。二、四、五、六9338[15] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准套件。计算机视觉和模式识别（CVPR），2012年。2[16] P. Hamm，D. Jayaraman和S.莱文模仿学习中的因果混淆。在3[17] Kaiming He ， Xiangyu Zhang ， Shaoying Ren ，and Jian Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集，第770-778页，2016年。3[18] Simon Hecker，Dengxin Dai，and Luc Van Gool.使用全景摄像头和路线规划器对驾驶模型进行端到端学习。在欧洲计算机视觉会议（ECCV）上，2018年9月。2[19] PeterHenderson ， RiashatIslam ， PhilipBachman ， Joelle Pineau ， Doina Precup ， andDavid Meger.深度强化学习很重要。第三十二届AAAI人工智能会议，2018。2[20] 作者声明：David M.帕多克安全驾驶：需要行驶多少英里才能证明自动驾驶汽车的运输研究A部分：政策与实践，94：182 - 193，2016。5[21] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。国际学习表征会议（InternationalConferenceonLearningRepresentation，ICLR），2015。5[22] 迈克尔·拉斯基、安卡·德拉甘、乔纳森·李、肯·戈德堡和罗伊·福克斯。Dart：优化模仿学习中的噪声注入。机器人学习会议（CoRL），2017年。2[23] Yann LeCun ， Urs Muller ， Jan Ben ， EricCosatto，and Beat Flepp.通过端到端学习避免越野障碍。神经信息处理系统（NIPS），2005年。一、二[24] John Leonard，Jonathan How，Seth Teller，MitchBerger ， Stefan Campbell ， Gaston Fiore ， LukeFletcher，Emilio Frazzoli，Albert Huang，SertacKaraman ， et al. A perception-driven autonomousurban vehicle.Journal of Field Robotics ， 25（10）：727-774，2008. 1[25] Sergey Levine，Peter Pastor，Alex Krizhevsky，and Deirdre Quillen.大规模数据采集下机器人抓取的手眼协调学习。2017年国际实验机器人研讨会（ISER）。一、二[26] 李志浩，本吉俊之，佐佐木和马，绪方哲也，菅野茂树.重新思考自动驾驶：多任务知识，更好地概括-9339事故和事故解释能力。 arXiv 预印本 arXiv ：1809.11100，2018。二、五、六[27] Xiaodan Liang，Tairui Wang，Luona Yang，andEric Xing. Cirl：可控模仿强化学习，用于基于视觉的自动驾驶。在ECCV，2018。二、五、六[28] A. M. Lopez，G.比利亚隆加湖Sellart，G. Ros，D.Vzquez，J. Xu，J. Marin和A.莫扎法里训练我的车使用虚拟世界。2[29] Marlos C Machado ， Marc G Bellemare ， ErikTalvi-tie，Joel Veness，Matthew Hausknecht，andMichael Bowling.重温街机学习环境：总代理的评估协议和开放问题。人工智能研究杂志，61：523-562，2018。2[30] MatthiasMüller ，Alexe y两个人，BernardGhanem和Vladen Koltun通过模块化和抽象来驱动策略转移。 arXiv 预印本 arXiv ：1804.09364，2018。一、二[31] Brady Neal 、 Sarthak Mittal 、 Aristide Baratin 、VinayakTantia 、 MatthewScicluna 、 SimonLacoste-Julien和Ioannis Mitliagkas。神经网络中偏差-方差权衡的现代观点。arXiv预印本arXiv：1810.08591，2018。二、三、四[32] 波莫洛院长ALVINN：神经网络中的自主陆地车辆。神经信息处理系统（NIPS），1988年。一、二[33] 内森·D作者：James A. Bagnell和Sid- dhartha S.斯里尼瓦萨模仿学习，以掌握动作和操作。2007年，国际人形机器人会议。1[34] 圣·伊法·罗斯和伊·W·巴内尔博士。模仿学习的有效约简第十三届人工智能和统计国际会议论文集，第661-668页，2010年2[35] 斯蒂芬·罗斯，乔治·弗里尔·J。戈登和J。安德鲁·W·巴涅尔。将模仿学习和结构化预测简化为无遗憾在线学习。在AIS中-TATS，2011年。一、二、三[36

下载后可阅读完整内容，剩余1页未读，立即下载