基于模型的视觉交互驾驶策略的学习与预测

95 浏览量更新于2023-10-15 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15590？？从铁轨陈典UT奥斯汀VladlenKoltun IntelLabsPhilippKraühenbuühlUT Austin摘要我们通过基于模型的方法从预先记录的驾驶日志中学习基于视觉的交互式驾驶策略世界的前向模型监督预测任何潜在驾驶轨迹的结果的驾驶策略。为了支持从预先记录的日志中学习，我们假设世界是在轨道上的，这意味着智能体及其行为都不会影响环境。该假设极大地简化了学习问题，将动态分解为非反应世界模型和自我车辆的低维和紧凑的前向模型。我们的方法使用Bellman方程的表格动态编程评估来计算每个训练轨迹的动作值;这些动作值反过来监督最终的基于视觉的驾驶策略。尽管存在世界在轨道上的假设，但最终驾驶策略在动态和反应性世界中表现良好它在具有挑战性的CARLA NoCrash基准测试中优于模仿学习以及基于模型和无模型的强化学习。在ProcGen基准测试中，这也是比最先进的无模型强化学习技术在导航任务上的样本效率更高的量级。1. 介绍基于视觉的自动驾驶很难。智能体需要从不完整和部分的经验中感知、理解并与环境交互。大多数成功的驾驶方法[5，27，33，34]将自主导航简化为模仿专家，通常是人类演员。专家行动充当强监督的来源，专家轨迹的感官输入探索世界，并且策略学习简化为由强大的深度网络支持的监督学习。然而，专家的轨迹往往是严重的偏见，安全关键的意见是罕见的。毕竟，人类操作员在观察交通事故之前行驶了数十万英里[39]。安全关键训练数据的这种稀疏性使得行为克隆代理难以学习并从错误中恢复。无模型强化学习[25，40]提供了一种解决方案，？图1：我们学习了一种反应性视觉运动驾驶策略，该策略在训练时探索其自身行为的影响该策略使用预先记录的驾驶日志中的前向模型来然后，它学会选择安全的行动，而无需明确经历不安全的驾驶行为。图片选自Waymo开放数据集[37]。允许代理主动探索其环境并从中学习。然而，这种探索甚至比行为克隆的数据效率更低，因为它需要经历错误来避免它们。对于强化学习，安全驾驶所需的样本复杂性非常大，即使在模拟中也是如此[40]。在本文中，我们提出了一种学习导航策略的方法，该策略可以从错误中恢复，而不会犯错误，如图1所示。我们首先在静态预记录轨迹上学习这个世界模型能够模拟代理的动作，而无需执行它们。接下来，我们估计所有预先记录的轨迹的动作值函数。最后，我们训练了一个反应性视觉运动策略，该策略可以观察其所有动作的影响，如动作值函数所预测的那样。政策学会避免代价高昂的错误，或从错误中恢复。我们使用驾驶日志、记录的车道地图和交通参与者的位置来训练世界模型并计算动作值函数。然而，我们的视觉运动策略仅使用原始传感器输入，即RGB图像和速度读数。图2显示了一个概览。我们方法的核心挑战是构建一个充分表达和准确的世界模型，允许15591转×个π0.170.25（，）(a) 正向模型。(b) 贝尔曼更新。……(c) 精馏图2：我们的方法概述给定传感器读数、驾驶状态和动作的离线驾驶轨迹的数据集使用离线驾驶轨迹，我们然后在预定义的奖励和学习的前向模型下使用动态编程和对Bellman方程（b）的反向归纳来最后，动作值然后通过策略蒸馏（c）监督反应性视觉运动驱动策略对于单个图像，我们监督针对所有车辆速度和动作的策略，以获得更丰富的监督信号。agent探索其环境及其行为的影响对于自动驾驶，这涉及对自动驾驶车辆和所有其他交通参与者进行建模，即：其他车辆、行人、交通灯等。在它的原始形态下，代理在其中操作的状态空间太高维而不能有效地探索。因此，我们做了一个简化的假设：代理人的行为只影响自己的状态，而不能直接影响周围的环境。换句话说：世界是“在轨道上”。这自然地将世界模型分解为对代理的命令做出反应的代理特定对于代理，我们学习一个动作条件前向模型。对于环境，我们简单地从训练数据中重放世界模型的因式分解本身通过动态规划和逆向归纳法对贝尔曼方程进行对于每个驾驶轨迹，我们计算一个表格近似的值函数在所有潜在的代理状态。我们使用这个价值函数和代理动作值用作更密集的监控信号。对于一个单一的训练例子，我们监督所有代理状态的视觉运动策略，包括相机的角度，车辆速度，或高级别的命令的我们在CARLA模拟器中评估我们的方法[13]。在CARLA排行榜1上，我们在使用少40个训练数据。值得注意的是，我们的方法使用仅限相机的传感器，而一些先前的工作依赖于激光雷达。我们在NoCrash基准上的表现也优于所有现有方法[10]。最后，我们证明了我们的方法可以推广到使用ProcGen平台的其他环境[7]。我们的方法成功地学习导航政策，在迷宫和抢劫代码和数据可用2.1https://leaderboard.carla.org/leaderboard/2https://dotchen.github.io/world_on_rails2. 相关工作模仿学习是基于视觉的驾驶和导航的最早和最成功的方法之一。Pomerleau [31]与ALVINN一起开创了这一方向。最近的工作将模仿学习扩展到在复杂环境中挑战城市驾驶和导航[28，30，1，9，10，34，25]。模仿学习算法在由人类专家[9，13，31]收集的轨迹上进行训练，或由具有丰富感官数据的特权专家[5，30]构建。这些方法仅限于专家的观察和行动。相比之下，我们的工作从被动驾驶日志中学习驾驶，并将心理探索整合到学习过程中，以便从收集日志时没有经历过的场景中想象和学习。基于模型的强化学习构建了一个前向模型来帮助训练策略。 Sutton [38] ， Gu et al.[15] ， Kalweit andBoedecker [21]，Kurutach et al. [22]使用前向世界模型来生成想象的轨迹以改进样本复杂度。世界模型[29，16，18，35]使用前向模型提供额外的上下文来支持学习代理Feinberg等人[14]，Buckman et al. [3]推出短期的正演模型，以提高其Q或值函数近似的保真度在我们的工作中，我们因式分解的前向世界模型为可控的自我代理和被动移动的环境。这种因式分解大大简化了策略学习，并允许Q和值函数的表格评估。我们对代理和环境进行因子分解的想法类似于政策学习中的外源事件的想法[2]。最近，Dietterich et al.[12]，Chitnis 和Lozano-Pe'rez[6]考虑找到最小因子化的MDP。相比之下，我们明确地分解环境，并专注于利用分解的规划和监督的视觉运动的政策。策略蒸馏将特权代理的输出重新映射到视觉运动代理[5，24，30，23]。Levine等[24]使用最优控制方法来学习机器人操作任务的本地控制器，并使用它们来监督视觉运动策略。Pan等人[30]训练视觉运动驾驶密集报酬⇢Vt+1⇢max QtVtQt15592不--不∈∈A转不不不∈A不→T| |·0电话+1不不不自我电话+1不电话+1不1不2不--自我通过模仿可以访问昂贵的传感器的MPC控制器来执行策略Lee等人[23]首先使用无模型RL学习特权Chen等人[5]从通过模仿特权模拟器状态学习的策略中提取视觉运动代理我们的方法使用类似的特权模拟器状态来推断动作值函数来监督最终的视觉运动策略。虽然以前的工作使用一个政策，以监督另一个，在我们的工作中，一个表格的动作值函数监督的政策。只有经过蒸馏后才存在反应式驱动策略。基于成本量的计划者[41，33，4]对未来的自我车辆轨迹进行评分和排名。在表格形式中，它们非常类似于我们的行动价值估计。然而，我们的行动价值估计有两个优点。首先，它在离线过程中的训练时间监督策略，同时需要预测成本量以进行推断[41，33，4]。第二，我们使用地面实况状态，而成本卷使用模仿[41]或来自部分观察的启示[33，43. 方法我们的目标是学习一种反应性视觉运动策略π（I），它为感觉输入I产生一个动作a。在训练时，我们给出一组轨迹τ D。每个轨迹τ=（I1，L1，a1），（I2，L2，a2），. . .包含传感器读数It、相应的驱动日志Lt和执行的操作at的流。帽子符号表示来自dri v的数据在对数中，规则符号表示自由变量或随机变量。驾驶日志记录自我车辆和所有其他交通参与者的状态（位置、速度和取向）我们使用驾驶日志来计算世界的for-ward模型和来自标量奖励的动作价值函数Q。前向模型采用驾驶状态Lt和智能体我们使用混合半参数模型来估计T，如第3.1节所述。具体来说，我们分解成一个自我车辆组件T自我和世界组件T世界的前向模型。我们近似于自我载体算法一：在世界轨道上学习数据：训练轨迹D结果：策略π（I）//前向模型拟合§3.1功能FitForward（D）自我：最小化等式（1）;返回自我-车辆正向模型T自我;端//动作值估计§3.2函数估计Q（D，Tego）→Q：对于τ∈Ddo初始化V| τ|return 0;对于t=τ。. . 1.使用时根据公式（2）计算Qt;结束结束返回存储的Q值;端//策略蒸馏§3.3函数DistillPolicy（D，Q）π：最小化等式（3）;返回视觉运动策略π;端学习前向模型ego=FitForward（D）;估计动作值Q=EstimateQ（D，ego）;3.1. 一种因子化正演模型在其原始形式的正演模型太com-复杂，以有效地预测和模拟。毕竟，整个驾驶模拟器的设计只是为了预测许多可能的未来驾驶状态之一。因此，我们将驾驶状态Lt和前向模型分解为两部分：仅考虑受控车辆的部分Lego=Tego（Lego，Lworld，at）和对其余部分建模的部分使用简单的深度网络的前向模型，而col-选择的轨迹被非参数化地用于世界前向模型。这种分解允许我们使用Bellman方程的表格近似来估计行动价值函数，如3.2节所述。最后，我们使用估计的动作值Q来提取视觉运动策略π。该策略π在我们的远期模型和表格行动价值近似下最大化预期收益在训练时，我们的算法使用特权信息，即驱动日志，以监督策略学习，但最终策略π（It）仅从传感器输入驱动。算法1和图2总结了整个训练过程。世界L世界=world（Lt，Lworld，at）.这里我们仅考虑确定性转换。此外，我们作为─假设世界是在轨道，不能对代理人的命令或自我交通工具的状态做出反应特别地，世界状态的转变仅取决于先前的世界状态本身：L世界=世界（L世界）。因此，世界的初始状态L世界决定了世界的整个世界，世界，这使我们能够直接使用所收集的轨迹τ来对世界过渡进行建模。因此，我们仅需要针对任何自我车辆状态L和动作a t对自我车辆的前向模型T ego进行建模我们使用L1在收集的轨迹上训练Tego15593不不不不不·T··不不不Lt：t+T，atπ（α|It）Qt（Lt，a）+ αHπ（·|It）不不电话+1H[17]鼓励更多样化的产出政策，其中电话+1.Σ不t t t t ttttt tt回归ΣΣT.不∆=1奖励函数r，而不仅仅是由环境提供的标量奖励信号。有关奖励的详细讨论，请参见第4节。t+∆动态编程自我载体Lego的状态是Eego. Te go∆（Le go，at+∆−1）−Lego.、（1）我们使用逆向归纳和dy来求解方程（2）其中，我们将T=10步的正演模型展开为获得更稳健的回归目标。我们使用一个简单参数自行车模型，可以轻松地推广到训练状态L∈ go之外，如第4节所述。轨道上的世界假设显然不成立，无论是在模拟器中还是在现实世界中。世界上的其他代理人将对自我载体及其行为做出反应。然而，这并不意味着轨道上的世界不能为代理提供强大而有用的监督我们的实验表明，在世界上的轨道上训练的代理显着优于与世界的完整的前向模型训练的代理。轨道上的世界假设大大简化了3.2节中行动价值函数的估计和3.3节中随后的政策学习。3.2. 一个因式分解的Bellman方程我们的目标是估计作用值函数Q（Lt，a）对于训练轨迹和动作a的每个状态Lt。我们使用贝尔曼方程和表格离散的价值函数在这里。回想一下 γ- 折扣的贝尔曼方程： V （ Lt ）=maxaQ（Lt，a）且Q（Lt，a）=compact（位置、方向和速度）。这允许我们来计算一个表格近似值函数Vt（Lego），在批处理操作中有效评估。具体地，我们将Vt（Lego）离散成对应于自我车辆的位置、取向和速度的箱。当评估时，如果所请求的值落在bin之间，则我们使用线性插值此外，动作空间也很小，允许在值更新中离散化max运算符。在逆向归纳法中，我们暗示-用Vt+1表示作用价值函数Qt，并建立了相应的边界模型例如我们只离散化Qt（Lgo，）来监督时间步t上的视觉运动策略。算法1总结了逆向归纳法。补充资料中提供了更多详细信息，以供参考。3.3. 政策蒸馏我们使用自我-车辆状态Qt（Lgo，）的行动价值函数来监督视觉运动策略πy（It）。行动值Qt（L∈g，）表示每个车辆状态下最优策略的预期回报我们直接优化我们保单γV（（Lt，a））+r（Lt，a）对于任意状态Lt，作用a，和reward r.通常情况下，人们需要求助于贝尔曼迭代以估计V和Q。然而，我们的分解联系我们自我.Σ Σ前向模型简化了这一点：V（Lego，Lworld）=maxQ（Lego，Lworld，a）一Q（Lego，Lworld，at）=r（Lego，Lworld，at）+t t一（三）由于行动价值函数是密集计算的，因此只需要记录环境，而不是自我状态。我们因此可以用表示r-的增广It来监督t t t t t t我是个混蛋。我们另外添加一个熵正则化器γV（Te go（Le go，Lworld，a），Lworld）.不所有的自我载体α是温度超参数。在实践中，我们...我声明，但只记录了世界各国L？wo rld.它将行动价值观和视觉运动策略都视为描述在第4节。对于所有电子车辆状态，足以在刚刚记录的世界状态上评估动作值函数：Vt（Lego）=V（Lego，Lworld），Qt（Lego，at）=V（Lego，Lworld，at）.福-4. 执行t t t t t t此外，世界状态在时间上严格有序，因此Bellman方程简化为Vt（Lego）=maxQt（Lego，a）（2）一Qt（Lego，at）=r（Lego，Lworld，at）+γV（Te go（Le go，a））。这里的价值和行动价值函数只考虑记录的世界状态，但所有可能的自我车辆状态。因此，该模型能够为了从这些“想象”状态中收集奖励，我们需要一个明确的ELworld，.15594不我们以严格离线的方式在CARLA模拟器[13]中实现我们的方法。我们首先通过推出行为代理πb来收集静态数据集;除非另有说明，否则我们使用CARLA自动驾驶仪。我们使用自动驾驶仪的嘈杂驾驶动作来学习前向模型，但不使用自动驾驶仪作为监督。正向模型。我们在一小部分轨迹上训练自我车辆前向模型自我我们收集轨迹的子集以跨越自我车辆的整个动作空间：转向S∈[−1，1]和节气门t∈[0，1]是均匀采样，其中制动器b∈ {0，1}从a采样15595不不不×个不--×个3·3×个伯努利分布前向模型ego将当前自我车辆状态作为2D位置Xt、yt、取向0t、速度Vt作为输入，并且预测下一个自我车辆状态Xt+1、yt+1、0t+1、Vt+1。我们使用一个参数化的自行车模型作为自我的结构先验。特别地，我们仅学习车辆轴距fb、rb、从用户转向s到车轮转向的映射以及从油门和制动到加速度a的映射。补充资料中描述了自行车模型的运动学，我们使用L1损失和随机梯度下降以自回归的方式训练自我Bellman方程评估。对于每个时间步长t，我们将值函数Vt表示为离散为NHNW位置箱、Nv速度箱和Nθ方向箱的 4D 张量。我们使用 NH=NW=96 ， Nv=4 ，Nθ=5。每个bin的物理大小为11米2和对应到2m/s速度范围和38°方向范围。电子车辆状态Le go=（xt，yt，v，θ）在该离散化中是居中的。自我交通工具（xt，yt）的位置在空间离散化的中心。我们只代表-在范围[95◦，95◦]中的相对于自我载体的重新定向当计算动作值函数时，使用线性内插在其2 -4个相邻仓之间内插不位于仓的中心的任何值Vt。线性内插一次在所有状态上计算，并且在自我状态维度（位置、速度和方向）上因式分解，因此它是有效的。落在离散化之外的值为0。我们离散行动到MSMT箱转向和油门分别，和一个额外的箱制动。我们在刹车时不转向或油门对于总共9个3+1=28个离散动作，我们使用Ms = 9和Mt = 3。政策网络。策略网络使用ResNet34 [19]主干来解析RGB输入。我们使用全局平均池来扁平化ResNet特征，然后将它们与自我车辆速度连接起来并将其馈送到完全连接的网络。该网络在离散化的动作空间上产生分类分布。在CARLA中，代理接收每个时间步长的高级导航命令Ct我们在所有高级命令上同时监督visuomo- tor代理[5]。此外，我们的任务代理预测语义分割作为辅助损失。这可以持续提高智能体奖励设计。打赏功能r（Lego，Lworld，at，ct）考虑自我-车辆状态，世界计算所述自我车辆的目标车道。智能体以期望的位置、方向和速度停留在目标车道上会收到+1的奖励，并且如果偏离车道下降到0值，如果代理位于红灯区或靠近其他交通参与者），则无论方向如何，对于零速度都给予奖励，并且除了红灯区之外，否则给予惩罚所有“零速度”奖励都由r_stop = 0缩放。01，以避免座席忽视目标通道。如果它在零速度区刹车，代理会收到贪婪的奖励rbrake=+5。为了避免代理追逐制动区域，不能累积制动奖励所有奖励都是附加的。我们发现，零速区和刹车奖励，没有必要明确惩罚碰撞。我们计算每个时间步的所有高级命令的动作值，并在提取视觉运动代理时使用多分支监督[5]。5. 实验数据集。我们在开源CARLA模拟器上评估了我们的方法[13]。我们在由2400个收集的帧组成的一小部分轨迹上训练我们的自我车辆前向模型。它从随机行为中学习。我们的训练集的大部分仅使用被动传感器信息I和训练日志L。我们建议读者参阅补充资料以了解更多详细信息。实验装置。我们在CARLA排行榜和NoCrash基准上评估我们的方法。对于两个基准，在每一帧，代理接收RGB相机读数I、速度读数V和高级命令c以计算转向S、油门t和制动b。NoCrash基准测试包括三种驾驶条件;每个驾驶条件包含50条预定义路线：25个用于训练城镇（Town 01），25个用于测试城镇（Town 02）。我们建议读者参阅补充资料以了解更多详细信息。与最先进的技术相比。表1比较了所提出的方法在CARLA排行榜上的性能。我们从排行榜中列出了三个关键指标：驾驶分数（用于对排行榜上的条目进行排名的主要汇总度量）、路线完成和违规分数。我们比较CILRS [10]、LBC [5]、Transfuser [32]和IA [40]。LBC是NoCrash基准测试的最新技术，Transfuser是一种利用传感器融合的最新方法。LBC和Transfuser都基于模仿学习。IA是获胜的参赛作品t t状态、动作和高级命令，并且在每个时间步从驾驶日志计算。我们利用全世界的车道信息和高层指挥首先在2020年CARLA挑战赛中，以及之前在CARLA排行榜上的领先参赛者。IA基于Rainbow [20]和IQN [11]的无模型强化学习。15596×个×−取向取向取向转向-1.0-0.75-0.5-0.250.00.250.50.751.0制动转向-1.0-0.75-0.5-0.250.00.250.50.751.0制动转向-1.0-0.75-0.5-0.250.00.250.50.751.0制动1.00.50.01.01.00.50.01.01.00.50.02.001.751.501.251.000.750.500.25(a) RGB camera（b）Map(c) 值映射(d) 动作值1.00.00图3：当前帧的计算值函数和动作值函数的可视化。RGB相机图像（a）和鸟瞰值图（c）示出了针对4个速度箱和5个取向箱的离散化表格值估计。方向箱从左到右为95◦到95◦，速度箱从上到下为0m/s到8每张地图的分辨率为96 -96，对应于车辆周围24平方米的区域我们裁剪自我载体后面的区域以进行可视化。价值地图使用5个贝尔曼更新，并看到1.25秒的未来。（d）示出了基于当前自我车辆状态的动作值具有最高值的操作用红框突出显示这些动作值监督将相机RGB图像作为输入的视觉运动策略补充中提供了更多的方法DS↑ RC↑ IS↑数据激光雷达CILRS [10]五、37十四岁400的情况。55- -- -150K40米×个✓××个LBC [5]8. 94十七岁540的情况。73Transfuser [32]十六岁9351岁820的情况。42IA [40]二十四岁98四十六岁。970的情况。52我们31岁37五十七650的情况。561M×个表1：CARLA排行榜上驾驶分数（DS，主要指标）、路线完成（RC）和违规分数（IS）对于这三个指标，越高越好。我们的方法提高了25%的驾驶分数相对于现有技术[40]，同时使用少40倍的数据。表2比较了CARLA NoCrash基准测试的性能。我们在CARLA 0.9.10上重新训练LBC（NoCrash的现有技术），使用与我们方法中相同的训练数据和增强的相机视图。为了帮助LBC推广，我们发现使用附加的语义分割监督进行训练很重要CARLA 0.9.10具有更复杂的视觉效果，并且更难推广到新的天气条件。IA具有两个模型，一个是在CARLA 0.9.6 Town1上单独训练的已发布模型，另一个是更强大的CARLA Challenge模型（在速度速度速度节流节流节流15597不模型然而，该模型在更多的城镇上进行了训练，并且在训练和测试天气条件下进行。因此，它没有保持出测试天气。我们的方法优于LBC和IA的所有12个任务和条件。此外，与LBC不同，我们的方法在训练管道中的任何地方都不需要专家操作。我们在两个城镇的所有交通场景中的表现都优于IA，即使我们只在Town1上训练。消融研究。表3将我们的视觉运动代理与其他基于模型的方法进行了比较。所有基线优化了第4节中描述的相同奖励函数。Dreamer（DM）[18]训练了一个成熟的基于嵌入的世界模型，并在推出期间使用它将分析梯度反向传播到为我们的驾驶场景构建一个完整的正向模型可能具有挑战性。为了帮助这个基线，我们在训练和测试期间都允许它访问驾驶日志。我们还构建了一个变体，F-DM，它利用了我们的因式分解世界模型。F-DM用我们的自我前向模型自我取代了完全基于嵌入的世界模型。相当于我们的方法，它观察到预先记录的世界状态，因此不能反向传播通过一个for-ward模型的世界。F-DM仍然以与DM相同的方式训练策略，使用假想的可微分展开。由于梦想家是关闭的政策，我们实现了DM和CARLA 0.9.10）。我们以离线RL方式与更强的挑战F-DM进行比较，并在相同15598不任务镇天气 IA LBC我们的空858998定期火车火车8587100密集637596空778694定期测试火车667989密集335374空规则密集火车测试- -- -- -606054909084是一个MPC基线，它对世界进行因子分解，并使用交叉熵方法[26]来搜索最佳行动。它使用我们的前向模型，但不能模拟环境在测试时前进它假设一个静态的世界。像Dreamer一样，CEM可以访问当前时间步的测试时间的驾驶日志。它在最近的驾驶日志上的每个时间步重新执行。所有的基线使用特权信息（驾驶日志），而我们的方法只需要传感器输入我们使用训练天气来评估我们的方法，因为基线的驾驶日志是天气不可知的3。我们发现NoCrash基准测试对梦想家来说太难了空定期测试测试-3678-3682基线，因此在更容易的CoRL17基准上进行额外测试[13]。类似于NoCrash，密集-1266表2：所提出的方法（我们的）与NoCrash（LBC）的最新技术的成功率比较，以及2020年CARLA挑战赛（IA）的获奖作品。所有这三种方法都在CARLA上进行了训练和评估0.9.10. IA利用所有城镇和所有天气进行训练。因此，它没有测试天气。斜体数字表示该策略是在测试城镇上训练的补充中提供了有关路由完成和随机种子的其他因式分解世界任务镇D×M✓ ✓F-DM CEM✓我们直3744100100反过来火车0088100直4452100100反过来测试0097100空008898定期火车0086100密集007296空009794定期测试008489密集004774表3：在训练天气下CoRL17和NoCrash基准的成功率的比较。我们比较我们的完整的视觉运动代理与基于模型的基线。Dreamer（DM）[18]训练全世界模型，而其他人遵循我们的因式分解，并使用与我们的方法相同的前向模型自我斜体数字表示在测试时使用特权信息（如驾驶日志）我们的方法仅使用传感器读数然而，我们的方法优于所有基线。数据集，我们用它来监督我们的视觉运动代理。CEMCoRL17基准包含50个预定义路由：25个是训练镇，25个是看不见的测试镇。与NoCrash相比，它在空旷的道路上行驶，路线更简单我们的方法优于所有其他基于模型的基线的利润率，尽管使用传感器输入，而不是驾驶日志。具有因子分解世界模型的梦想家比完整世界模型表现更好，但仍然无法超越直线驾驶。Dreamer表现不佳的一个原因可能是训练集中的偏差。汽车大多是直线行驶。梦想家可能只是看到太少的转弯场景相比，无尽的直线驾驶。交通灯违规分析。我们还分析了NoCrash基准上的交通灯违规行为。表4比较了NoCrash基准中所有试验我们的方法在训练天气下的所有六个任务上比强化学习基线（IA）具有更少的交通灯违规可视化。图3示出了针对各种驾驶场景的计算值和动作值函数的可视化。这些动作值函数中的每一个都密集地监视用于所显示的图像的策略。ProcGen导航。为了证明我们的方法的广泛适用性，我们还在ProcGen基准[ 7 ]中对导航任务（迷宫和抢劫）进行了评估。在这两种环境中，智能体都因导航到所需位置而获得奖励Maze的特点是在复杂环境中执行简单的导航任务。抢劫还需要代理人收集钥匙和解锁门之前导航到目标。在ProcGen中，动作空间是离散的，因此我们只离散自我代理的状态。我们忽略速度。代理的前向动力学模型在ProcGen是不可知的为了解决这个问题，我们使用一个小型的ConvNet来提取周围3卡拉的物理学不随天气而变化。只有传感器读数会随着不同的天气状况而15599不×× ×(a)迷宫2000训练等级（b）迷宫10000训练等级（c）海斯特2000训练等级（d）海斯特10000训练等级图4：我们的方法与最先进的无模型强化学习在ProcGen基准测试的导航任务上的比较。所有图测量测试水平上的平均事件返回。PPO w/ priv是一个定制的PPO实现，在训练过程中，它还将我们的方法用于计算奖励和训练代理正向模型的相同特权信息作为输入。所提出的方法是一个数量级更采样效率。ego-agent前向模型ego为了评估样本的效率，我们实现了我们的方法在ProcGen的离线政策强化学习的方式。我们在训练或微调政策和前瞻性模型以及在当前政策下推出新轨迹之间进行切换。与无模型基线相比，我们的方法需要访问密集的奖励函数，而不仅仅是环境的标量奖励信号。我们使用通过Proc- Gen渲染器获得的语义标签来计算此奖励函数对于迷宫，奖励函数对目标位置奖励+1，而不考虑方向。对于Heist，奖励功能对钥匙和可解锁门的位置奖励+1，无论方向如何。此外，我们屏蔽所有unachievable自我状态值为0的贝尔曼方程evalu- ation期间我们在action-value中使用此特权信息Oracle操作✓任务镇天气IA LBCOurs空3 .第三章。341 .一、350的情况。00定期火车火车六、711 .一、890的情况。43密集十五岁413 .第三章。27二、61空62.188. 4510个。68定期测试火车五十三288. 22六、95密集五十四947 .第一次会议。2612个。90空规则密集火车测试- -- -- -0的情况。360的0的情况。000的情况。情况。810的情况。52004.第一章29空规则密集测试测试- -- -- -8. 178. 614.第一章87十四岁4611个国家。30十三岁28表4：在NoCrash基准上每小时试验的平均交通灯违规次数的比较。我们将我们的方法与LBC（NoCrash的现有技术）和IA（2020年CARLA挑战赛的获奖作品）进行了比较。LBC从oracle轨迹进行训练，而IA和我们的则不是。15600仅计算，并且在我们的算法中没有其他地方。图4比较了我们的方法与无模型强化学习基线PPO [36]和PPG [8]的性能和样本效率。PPG是ProcGen基准的最新技术水平。此外，我们比较了一个定制的PPO实现，在训练过程中也需要作为输入的相同的特权信息，在我们的方法中使用。我们的方法收敛在3M帧内，而无模型基线需要25M帧。对于迷宫和抢劫环境，我们在两种不同的条件下训练所有代理：2000和10000（程序生成）培训级别。对于这两种环境，试剂在完全随机的程序生成的水平上进行测试。培训水平的平均发作回报率比较见补充资料，我们的方法比所有无模型RL基线的样本效率高出一个数量级，即使这些方法被赋予我们的奖励计算所使用的相同特权信息。6. 结论我们表明，假设代理和环境之间的独立性，我们称之为轨道上的世界，显着简化了现代强化学习。虽然真正的独立性很难保持，但训练效果的收益超过了建模的限制。即使有一个简单的奖励函数，在轨道上的世界中训练的智能体在标准基准上学习驾驶的能力也比最先进的模仿学习智能体更好。此外，所提出的政策学习框架是一个数量级的样本效率比国家的最先进的强化学习具有挑战性的ProcGen导航任务。确认我们感谢Yuke Zhu的宝贵反馈。我们感谢TianweiYin对图1的帮助。这项工作得到了NSF Institute forFoundations of Machine Learning和NSF award #1845485的支持。15601引用[1] Mayank Bansal 、 Alex Krizhevsky 和 Abhijit Ogale 。Chauf- feurnet：通过模仿最好的和合成最差的来学习驾驶在RSS，2019. 二个[2] Craig Boutilier Thomas Dean和Steve Hanks 决定-理论规划：结构假设和计算杠杆。载于JAIR，1999年。二个[3] Jacob Buckman Danijar Hafner George Tucker EugeneBrevdo和Honglak Lee。随机集成值扩展的样本有效强化学习。NeurIPS，2018。二个[4] Sergio Casas Abbas Sadat和Raquel Urtasun Mp3：A统一的模型来映射、感知、预测和规划。计算机视觉与模式识别会议（CVPR），2021年。3[5] 陈典布雷迪·周弗拉德伦·科尔顿和PhilippKr aühenbuühl。通过作弊来学习。在CoRL，2019年。一二三五六[6] Rohan Chitnis和Tomma的Lozano-Pe'rez。学习契约外生过程规划模型。在CoRL，2020年。二个[7] Karl Cobbe，Christopher Hesse，Jacob Hilton，and JohnSchul-人。利用程序生成基准再学习。InarXiv preprint，2019.二、七[8] Karl Cobbe，Jacob Hilton，Oleg Klimov，and JohnSchulman.阶段性政策梯度。在arXiv预印本，2020年。八个[9] FelipeCode villa ， MatthiasMüller ， AntonioLo'pez ，VladlenKoltun，and Alexey Dosovitskiy.通过条件模仿学习实现端到端驾驶。在ICRA，2018年。二个[10] 费利佩·科德·维拉、埃德·桑塔纳、安东尼奥·洛佩斯和阿德里安·盖顿探索自动驾驶行为克隆的局限性在ICCV，2019年。二、五、六[11] WillDabney、Geor gOstr ovski、Da vidSilv e r和Re'mi穆诺斯用于分布强化学习的隐式分位数网络。在ICML，2018。五个[12] Thomas Dietterich、George Trimponias和Zhitang Chen。发现和去除外生状态变量以及强化学习的奖励。在ICML，2018。二个[13] Alexey Dosovitskiy，German Ros，Felipe Codevilla，AntonioLopez和Vladlen Koltun卡拉：一个开放的城市驾驶模拟器。在CoRL，2017年。二四五七[14] 弗拉基米尔·范伯格，阿尔文·万，扬·斯托伊卡，迈克尔·乔丹，Joseph E Gonzalez和Sergey Levine。基于模型的值估计，用于高效的无模型强化学习。InarXiv preprint，2018. 二个[15] Shixiang Gu、Timothy Lillicrap、Ilya Sutskever和Sergey莱文具有基于模型的加速的持续深度Q学习InICML，2016. 二个[16] Da vid Ha和Jür gen Schmidhuber.回归世界模型促进政策演变。NeurIPS，2018。二个[17] Tuomas Haarnoja、Aurick Zhou、Pieter Abbeel和SergeyLevine。温和的演员评论家：具有随机行为者的离线最大熵深度强化学习。在ICML，2018。4[18] Danijar Hafner Timothy Lillicrap Jimmy Ba和Moham疯狂的诺鲁兹梦控制：通过潜在的想象力学习行为2019年，在ICLR。二六七[19]Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在CVPR，2016年。156025[20] Matteo Hessel ，Joseph Modayil ， Hado Van Hasselt，Tom Schaul ， Georg Ostrovski ， Will Dabney ， DanHorgan，Bilal Piot，Mohammad Azar和David Silver。Rainbow ：深度强化学习的组合改进。在 AAAI ，2018。五个[21] Gabriel Kalweit和Joschka Boedecker 不确定性驱动持续深度强化学习的想象力在CoRL，2017年。二个[22] Thanard Kurutach ， Ignasi Clavera ， Yan Duan ， AvivTamar，and Pieter Abbeel.模型集成信赖域策略优化。在ICLR，2018年。二个[23] Joonho Lee ， Jemin Hwangbo ， Lorenz Wellhausen ，VladlenKoltun和Marco Hutter。学习在具有挑战性的地形上的四足在科学机器人，2020年。二、三[24] Sergey Levine，Chelsea Finn，Trevor Darrell和Pieter阿比尔深度视觉运动策略的端到端培训。InJMLR，2016. 二个[25] Xiaodan Liang，Tairui Wang，Luona Yang，and EricXing. Cirl：用于基于视觉的自动驾驶的可控模仿强化学习在ECCV，2018。一、二[26] Shie Mannor，Reuven Y Rubinstein，and Yohai Gat.十字架用于快速策略搜索的熵方

下载后可阅读完整内容，剩余1页未读，立即下载