基于视觉的自动驾驶中的CIRL方法及其在模拟器中的优越性能

145 浏览量更新于2023-10-13 收藏 770KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

CIRL：用于基于视觉的自动驾驶的梁晓丹1，2，王泰瑞1，杨罗娜2，邢伟1，21PetuumInc，www.example.comtairui.wang @ petuum.com2卡内基梅隆大学，{luonay 1，xiaodan 1，epxing}@ cs.cmu.edu抽象。由于学习最佳驾驶策略的困难，具有复杂多智能体动力学的自主城市驾驶导航尚未得到充分探索传统的模块化流水线严重依赖于手工设计的规则和预处理感知系统，而基于监督学习的模型受到广泛人类经验的可访问性的限制我们提出了一个一般的和原则的可控模拟强化学习（CIRL）的方法，成功地使驾驶代理实现更高的成功率的基础上，只有视觉输入在高保真汽车模拟器。为了缓解大型连续动作空间的低探索效率，通常禁止在具有挑战性的真实任务中使用经典RL，我们的CIRL探索了一个合理约束的动作空间，由模仿人类演示的编码经验指导，建立在深度确定性策略梯度（DDPG）上。此外，我们提出专门的自适应政策和转向角奖励设计不同的控制信号（即，跟随、直行、右转、左转）以提高模型处理不同情况的能力。CARLA驾驶基准的大量实验表明，CIRL在各种目标导向的驾驶任务上成功完成情节的百分比方面大大优于所有以前的方法。我们还显示了其优越的泛化能力，在看不见的环境。据我们所知，这是第一个成功的案例学习驾驶策略的高保真模拟器强化学习，其表现优于监督模仿学习。保留字：模仿强化学习，自动驾驶1介绍城市自动驾驶是一项长期研究但仍未充分探索的任务[27，31]，特别是在拥挤的城市环境中[25]。需要期望的系统能够解决所有视觉感知任务（例如，视觉感知任务）。目标和车道定位、可驾驶路径）以及确定长期驾驶策略，称为尽管视觉感知任务已经通过在大规模数据集上采用监督学习得到了很好的研究[39，20]，但是通过模块化流水线中手动设计的规则的简单化驱动策略远远不足以处理如[30，28]中所讨论的各种现实世界学习模仿人类驾驶员的最佳驾驶策略的探索较少，但在复杂环境中导航的关键，需要了解多智能体动态，规定的交通规则，左转弯的谈判技巧2X. Liang，T.王湖，加-地Yang和E.邢Fig. 1. 可控模仿强化学习（CIRL）的概述，包括可控模仿阶段和通过深度确定性策略梯度（DDPG）优化的强化学习阶段模仿阶段首先通过监督学习来训练网络，使用来自记录的人类驾驶视频的地面实况动作。然后，我们将学习到的权重共享到参与者网络中，并通过与模拟器交互，利用来自奖励模块的反馈来优化参与者和评论者。右转和非结构化道路。这些挑战自然地引导人们使用机器学习方法来自动地发现丰富且鲁棒的规划策略。学习策略的一系列研究[2，35，15，4，24，13]遵循端到端的模仿学习，通过对大量人类驾驶数据的监督训练，直接将传感器输入映射到车辆控制命令。然而，这些系统不能推广到看不见的场景，并且它们的性能受到人类驾驶数据的覆盖的严重限制。例如，Bojarski et al.[2]接受过道路跟踪训练的人无法右/左转弯。此外，很难将具有长期目标导向导航的自动驾驶作为监督学习问题，因为自动驾驶车辆需要与包括其他车辆、行人和道路在内的环境进行大量交互。因此，期望具有更丰富的控制策略，其考虑来自环境的大量反馈，包括用于自主驾驶的自身状态、碰撞和越野条件。深度强化学习（RL）原则上提供了一个合理的系统来从探索中学习这些策略[33]。然而，大动作空间（例如连续转向角度、制动和速度的序列）所需的探索量已经禁止其在实际应用中的使用，导致最近在复杂的现实世界任务中对基于RL的驾驶策略学习的努力[6，30]的结果不令人在本文中，我们解决了这一具有挑战性的规划任务，我们的新可控模仿强化学习（CIRL），促进了连续可控深度RL通过利用从人类专家的演示学习的知识。整个架构如图所示。1.我们的CIRL基于深度确定性策略梯度（DDPG）[21]，这是一种基于策略外重放存储器的演员-评论家算法。传统的DDPG在大的行动空间下，由于失败的探索太多，往往陷入局部最优我们的CIRL解决了这个问题，通过提供- ING更好的探索种子搜索的行动空间的演员网络。具体而言，演员网络首先通过模仿学习到的知识来预热用于自动驾驶的3动作学习使用人类示范，以便在合理的空间中初始化动作探索。然后，我们的CIRL结合DDPG，以逐步提高学习驾驶策略的通用化能力，由从环境中发送回来的连续奖励信号指导此外，为了支持目标导向的导航，我们引入了一个可控的门控机制，以选择性地激活不同的分支四个不同的控制信号（即跟随、直行、右转、左转）。这种门控机制不仅允许模型由中央计划者或驾驶员的意图控制，而且还通过为每个命令情况提供定制的策略功能和奖励设计来增强模型的能力。此外，进一步提出了不同的异常转向角奖励作为辅助聚合奖励，以更好地引导每个控制信号的策略。我们的主要贡献可概括为：1）我们提出了第一个成功的基于视觉的自动驾驶深度强化管道，在高保真CARLA基准测试中，它在不同的驾驶任务上优于以前的模块管道和其他模仿学习; 2）我们提出了一种新的可控模仿强化学习方法，有效地缓解了大规模连续动作空间的低效探索; 3）引入可控选通机制，以允许模型是可控的，并在不同的异常转向角奖励的指导下为每个控制信号学习专门的策略; 4）公共CARLA基准测试的综合结果表明，我们的CIRL在各种驾驶场景中实现了最先进的性能，并通过将相同的代理应用到未知环境中来实现卓越的泛化能力。更多成功的驾驶视频在补充中介绍。2相关工作自动驾驶最近吸引了广泛的研究兴趣[25]。通常，现有方法可以基于模块化水平被分类为两个不同的流水线第一种类型是高度调谐的系统，其组装了一堆视觉感知算法，然后使用基于模型的规划和控制[8]。最近，更多的努力致力于第二种类型，即学习将感官输入映射到控制命令的端到端方法[35，2，27，38，4，36]。我们的方法属于第二光谱。端到端监督学习。自动驾驶的关键是学习驾驶策略的能力，该驾驶策略自动输出用于方向盘、油门、制动器等的控制信号基于观察。作为一个简单的想法，通过对人类驾驶数据进行监督训练来学习策略的模仿学习已被应用于各种任务，包括建模导航行为[41]，越野驾驶[24，31]和道路跟随[35，2，27，38，4]。这些作品在几个方面有所不同：输入表示（原始感官输入或预处理信号），预测不同的控制信号，对模拟或真实数据进行实验。其中，[27，24，4，2]还研究了用于将视觉输入直接映射到控制信号的训练网络最近的工作[4]涉及我们的CIRL将控制信号纳入网络。然而，监督方法通常需要大量数据来训练可以推广到不同环境的模型获取所有城市的海量数据，sce-4X. Liang，T.王湖，加-地Yang和E.邢图二. CIRL的Actor网络体系结构。门控功能选择性地激活不同的分支，以预测“直行”、“左转”、“右转”和“跟随”命令的三个动作。narios和dynamic需要大量的人的参与，并且是不切实际的，因为我们不能覆盖可能发生的所有可能的情况。从技术方面来看，与这些作品不同，我们的CIRL旨在学习先进的政策，通过与模拟器的交互，由模仿学习引导，面向更多和一般复杂的城市驾驶场景。此外，不同的异常转向角奖励定义为每个控制信号，使模型学习连贯的专门政策与人类常识。自动驾驶的强化学习。强化学习通过试错的方式学习，不需要人类的明确监督。Deep-RL或RL算法已被应用于各种各样的任务，例如ob-RL。物体识别[19，14，9，3，18]，计算机游戏[23]，机器人运动[7]，场景导航[40]和模拟器中的自动驾驶[1，30，37]。现实世界应用中最关键的学习使用这样的穷举探索的最优策略往往是非常耗时的，并且容易陷入局部最优后，许多事件。因此，期望找到可以帮助加速探索的可行的行动空间我们的CIRL解决了这个问题，利用模仿学习的经验来指导强化驱动代理。有一些以前的工作也研究了模仿学习的力量。生成对抗模仿学习（GAIL[12]）构建了一个生成模型，这是一种随机策略，产生与专家演示类似的行为。In-foGAIL [17]将GAIL扩展为一种策略，其中可以通过更抽象的高级潜变量来控制低级操作。与我们最相似的工作是DQfD [11]，[16]和DDPGfD [34]，它们结合了Deep Q Networks（DQN）和从演示中学习。然而，DQfD仅限于具有离散动作空间的域，DQfD [16]和DDPGfD不适用于具有显著不同的行动者-批评者、动作空间和奖励定义的自动驾驶。此外，与将演示转换加载到重放缓冲区的DDPGfD不同，我们直接使用演示中的知识来指导强化探索，通过模仿学习用预训练的模型参数初始化演员网络。实验结果表明，该策略在自动驾驶模拟器中的应用效果优于DDPGfD。用于自动驾驶的5i，t3可控模拟强化学习我们说明了我们的CIRL方法的整个架构。为了解决强化学习应用于复杂任务时的样本不足问题，我们的CIRL采用了模仿阶段和强化学习阶段。首先，给定一组人类驾驶视频，我们首先使用监督地面实况确定性动作来预训练网络。命令门控机制被并入以赋予中央计划者或驾驶员意图的模型可控能力其次，为了进一步增强策略的泛化能力和鲁棒性，采用强化学习优化方法来提高行动者网络的能力。我们首先使用来自模仿阶段的预训练权重初始化演员网络，然后通过与模拟器交互的奖励模块对其进行优化由于其在探索连续动作空间上的优越性能，我们使用深度确定性策略梯度（DDPG）作为RL优化。受益于使用人类驾驶演示来初始化行动者网络，样本复杂度可以显著降低，以使得能够在相当于数小时的探索和与环境的交互内进行学习3.1可控模仿学习给定N个人类驾驶视频序列vi，i ∈（1，. . . ，N）与观察框架Ii，t，控制指令ci，t，速度si，t，动作ai，t在每一个时间步t，我们可以学习a确定性策略网络F经由基本模仿学习来模仿人类专家。F的详细网络架构如图所示。2.引入控制命令ci，t以处理复杂的场景，其中除了观察之外，后续动作还取决于驾驶员的意图[4]。动作空间ai，t包含三个连续动作，即转向角αs、加速度αa和i，t i，t制动作用ab.命令ci，t是控制选择的分类变量通过门控函数G（ci，t）的主动分支激活，其中ci，t可以是四个不同命令之一，即沿着车道行驶（Follow），在下一个交叉路口直行（Straight），在下一个交叉路口左转（TurnLeft），在下一个交叉路口右转（TurnRight）。四个策略分支专门学习编码不同的门控功能G是系统的内部方向指示器。可控模仿学习目标是最小化策略网络FI的参数θI，定义为：ΣNminθI我ΣTi不L（F（Ii，t，G（ci，t），si，t），ai，t）， ⑴其中，损失函数L被定义为三个预测动作的L2损失的加权和：L（a i，t，a i，t）=||as-as||2个以上||a-aa||2个以上||ab-ab||2,(2)i，ti，ti，ti，ti，ti，t为了在我们的CIRL和模仿学习之间进行公平比较，我们使用与[6]相同的实验设置来验证通过我们的模仿强化学习提升驱动策略的有效性。感官输入是来自面向前方的6X. Liang，T.王湖，加-地Yang和E.邢t=0图三. CIRL的关键网络体系结构。将参与者网络的动作输出输入批评者网络，得到估计值。摄像机、来自模拟器的速度测量和由导航计划器生成的控制命令。3.2模仿强化学习我们的CIRL使用从条件模仿学习预训练的策略网络F，以提高强化学习的样本效率，以获得更一般和更稳健的策略。我们首先提出的底层优化技术，然后奖励设计。马尔可夫决策过程通过与汽车模拟器交互，驾驶代理可以基于环境提供的奖励信号进行优化，而无需人类驾驶干预，这可以定义为马尔可夫决策过程（MDP）[32]。在自主驾驶场景中，MDP由∈O中，主体采取一个动作a∈A。在采取该动作并与环境交互之后，智能体接收到R（o，a）的更新，并根据概率分布P（o′）到达新状态o ′。|o，a）。为了使驾驶策略更符合实际，我们着重于目标导向导航，即车辆必须沿着拓扑规划器生成的路径到达预定目标。因此，通过下式更新新观测值0′：模拟器观察和朝向目标的命令序列。这一集当车辆到达目标时，当车辆与障碍物碰撞时，或者当时间预算耗尽时，终止。一个确定性的和稳定的策略π指定了给定每个状态代理将采取的动作。驱动代理的目标是找到映射状态的策略π最大化预期折扣dΣ总收益的行动可以这样学习通过使用动作值函数：Q π（o，a）= Eπ[+∞γ t R（o t，at）]，其中Eπ是期望在可容许轨迹（〇〇，a〇，. . .，〇 t，at）。模仿深度决定性政策梯度。由于自动驾驶系统需要预测连续的动作（转向角、制动和加速），因此我们采用Actor-Critic方法来解决连续控制问题，并且Actor和Critic都通过深度网络进行参数化。将策略网络的参数表示为θ，μ表示初始状态分布，行动者-批评者方法旨在最大化用于自动驾驶的7oµ见图4。不同环境设置的观察示例。训练条件用于训练，其余设置用于测试。除了评估的设置（第一行）之外在[6]中，这项工作进一步验证了模型在四个新设置（第二行）上的泛化能力。平均值J（θ）=E[Q（π|θ）（o，π（o|其中θ可以通过梯度下降更新为：θ + α<$θJ（θ）→ θ。在这项工作中，我们采用了深度确定性策略梯度[21]，因为它在连续控制问题上具有良好的性能，这直接利用Q函数关于动作的梯度进行策略训练。对一个参数为θπ的策略网络Fπ（actor）和一个参数为θQ的行动-价值函数网络FQ（critic）进行了联合优化。F π和F Q的详细网络架构如图所示。2和图3.第三章。与随机地训练θπ的传统DDPG不同，我们的模拟DDPG提出在等式中加载预训练的θI(1)通过模仿学习转换成θπ，获得作为参数初始化的新wθ¯π因此，它能够产生可靠新跃迁e=（o，a，r=R（o，a），o′P（|通过基于a =π（o，a））起作用|θ¯π）+N，其中NOU（μ，σ2）是一个全作用扩展的随机过程。OU（·）表示Ornstein-Uhlenbeck过程。这种进一步嘈杂的探索确保代理行为不会过早地收敛到局部最优。的我们的模拟DDPG的关键优势在于通过从人类期望中学习来更好地初始化探索起点，这可以帮助显著减少在DDPG的早期阶段可能花费几天的详尽探索，如在先前的工作中所讨论的那样从一个更好的状态开始，随机动作探索允许RL根据来自模拟器的反馈进一步细化动作，并导致更通用和鲁棒的驾驶策略。评论家网络通过一步脱离策略评估进行优化：L（θ Q）= E（o，a，r，o′）D[R − Q（o，a|θ Q）]2，（3）其中D是重放缓冲器中的转变e上的分布，并且单步返回R=r+γQ′（（o′，π′（o′））|θ¯π′）|θQ′）。θ¯π′和θQ ′是相应目标的参数Fπ和FQ的网络，用于稳定学习。另一方面，从可控模仿学习的起始状态进一步更新行动者网络：θ¯πJ （ θ¯π ） ≈Eo ， a|θQ ） |a=π （ o ， θQ ） θππ （ o|θ¯π ） ] 。（4）奖励模块。我们CIRL的另一个贡献是我们为自动驾驶场景量身定制的奖励模块。奖励是根据五个条件的总和8X. Liang，T.王湖，加-地Yang和E.邢来自模拟器的测量：负加权的异常转向角Rs、正加权的以km/h为单位的速度RV、以及负加权的碰撞损伤RD、与人行道重叠的RR、以及与相对车道重叠的RO。在对代理采取行动后，根据模拟器测量结果计算奖励。首先，针对每个命令控制的异常转向角的回报rs被定义为：.rs（c）=-15，如果s与turnLeft和turnRight-20如果|S|>0。2，c为直。（五）第二，在模拟器上相对于每个公共控制执行动作之后的速度测量的回报rv被定义为：min(25,v)ifcforFollo w如果c为直线，则取最小值（35，v）rv（c）=v，如果v≤20，则c表示左转和右转（六）40−v（如果v >20），c用于TurnLeft和TurnRight最后，rr和ro都被设置为-100，以分别与人行道和对向车道重叠。与其他车辆和行人碰撞时的碰撞损伤r d为-100，与其他物体（例如：树和杆）。对不同命令控制的最终奖励r调节计算为：r= R（o，a）= rs（c）+rv（c）+rr +ro + rd.（七）请注意，根据其特定限制（例如速度和角度），我们的基准测试中的所有实验都应用了精确的惩罚值[6]。4实验4.1实验设置评价基准。我们对最近发布的CARLA汽车模拟器基准测试[6]进行了广泛的实验，因为与其他模拟器相比，它具有出色的高保真模拟环境和开源可访问性为CARLA制作了各种各样的资产，包括汽车和行人。卡拉提供两个城镇：镇1和镇2。为了与其他最先进的策略学习方法[6，4]进行公平比较，Town 1用于训练，Town 2专门用于测试，如图所示。4.天气条件分为三组，包括训练天气集、新天气集和新天气2集。训练天气集用于训练，包含晴天、雨天、雨后。新天气集和新天气2集不会在训练和测试泛化时使用。新天气集包括白天多云和日落时有小雨，新天气集包括中午多云、中午中雨、多云日落、傍晚日落。除了[6]中评估的三个测试设置之外，我们还评估了Town 2中更多路径的四个新设置，如图1中第一行所示的New weather2设置。4.第一章用于自动驾驶的9直线一转导航导航动态图五、在鸟瞰图中对四个不同任务进行了图解观察。最先进的管道我们将我们的CIRL模型与CARLA基准测试中的三种最先进的流水线进行了比较，即模块化流水线（MP）[6]、模仿学习（IL）[6]和强化学习（RL）[6]，并在四个日益困难的驾驶任务上与它们进行了公平竞争，即：直，一个转弯，导航和导航与动态障碍，如图所示. 5.特别地，基线MP [6]将驾驶任务分解为以下子系统，包括感知、规划和连续控制，并且其局部规划采用完全基于规则的预定义策略，这些策略完全依赖于由感知模块估计的场景布局。基线IL [6]将来自前向摄像头和命令控件的图像作为输入，并使用人类驾驶视频通过监督学习直接训练模型。请注意，为了公平比较，我们在可控模仿阶段采用与其模型相同的网络体系结构和设置。RL [6]也是一种深度强化学习管道，使用异步优势Actor-Criteria（A3 C）算法[22]。不同于他们使用的五个奖励条款，我们empiically删除的距离奖励朝着目标，因为用于估计距离的路点太稀疏，在探索过程中给出有效的反馈此外，我们建议使用可控的异常转向角奖励惩罚意外的角度预测。请注意，对于所有方法，在所有四个任务上使用一个相同的代理，并且不能针对每个场景单独任务被设置为目标导向的导航：一个代理在城镇的某个地方随机初始化，并必须到达目的地点。对于任务、城镇和天气设置的每个组合，路径在25集内执行在每一个情节中，驾驶智能体的目标是到达一个给定的目标位置。如果智能体在时间预算内达到目标，则情节被认为是成功的，该时间预算被设置为以10 km/h的速度沿着最佳路径到达目标。实施设置。在可控模仿阶段，为了公平地证明我们的模仿强化学习的有效性，我们使用[4]中完全相同的从CARLA收集的14小时驾驶数据用于训练，并且使用Adam opti- mizer训练网络。更多细节参见[4]。在模拟强化学习阶段，就OU探索参数而言，我们根据经验分别将转向角、速度和制动动作的μ设置为0、0.15和0.5，σ设置为0.02、0.05和0贴现因子γ设定为0.9。演员网络的初始学习率设置为0.00001，因为它使用来自可控模仿学习的共享权重，而评论者网络的学习率设置为0.001。学习和探索率在训练过程中线性下降到零演员-评论家网络用大约30万个模拟步骤10X. Liang，T.王湖，加-地Yang和E.邢表1. 与其他最先进的自动驾驶系统在四个目标导向导航任务上的定量比较。该表报告了每种情况下成功完成发作的百分比（%）。越高越好。检测方法为：模块化管道（MP）[6]，模仿学习（IL）[6]和强化学习（RL）[6]以及我们的CIRL模型。任务训练条件新城新气象新城/天气MP IL RLCirlMP IL RL CIRL MP IL RL CIRL MP IL RLCirl直98 95 899892 97 74 100 100 98 86 10050 80 6898一匝82 89 349761 59 12719590 169450 48 2082导航80 86 149324 40 3539484 28647 44 668导航动态77 83 78224 38 2418982 28044 42 462以每秒10帧的速度连续行驶12小时相比之下，[6]中提供的现有我们的CIRL可以在几个小时后以良好的样本效率获得高百分比的成功完成的片段，这得益于由可控制标记的模仿阶段推动的良好的探索开始该方法在TensorFlow框架上实现所有模型都在四个NVIDIA GeForce GTX1080 GPU上训练。4.2与最新技术水平的表1报告了在四种不同条件下成功完成的事件百分比方面与CARLA基准上最先进管道的比较。MP、IL和RL的所有结果均来自[6]。对于进行其余测试设置以评估更积极的泛化，即，适应先前未见过的城镇2和来自新天气和新天气2的先前未遇到的天气我们可以观察到，我们的CIRL在所有条件下都大大优于所有基线方法此外，我们的CIRL在其余三个看不见的设置（例如）中显示出优越的泛化能力。看不见的新城），其获得不完美的结果，但比其他方法（例如，71%的CIRL与IL和RL分别为59%和12%。更多定性结果如图所示。7，其中提供了IL模型遭受的一些违规示例，并且我们的CIRL成功地避免了。同样有趣的是，这两种基于学习的方法（IL和我们的CIRL）都比模块化管道实现了相当和更好的性能，尽管MP采用了复杂的感知步骤（分割和分类）来识别环境中的关键一个例外是，模块化流水线在“新天气”条件下的性能优于训练条件下的性能，IL和CIRL都略逊于它。但是MP算法在导航任务中的性能较差，在不可见的“新城”和“新城/天气”条件下，其性能明显下降。原因是MP严重依赖于用于自动驾驶的11表2.在四个新设置上成功完成CIRL发作的百分比（%），用于进一步评估泛化。任务New town/path2 New town/weather2 New path New weather2导航50589587导航动态38478786表3. 在不同天气情况下成功完成本公司CIRL在训练城及新市镇导航任务的百分比。导航任务云正午MidRainyNoon 多云日落湿云日落大雨日落CIRL（Town1）CIRL（新市镇）9295965296856490565在新环境的背景下在复杂天气条件下系统地失败的感知阶段，以及对于远程目标驱动的导航可能失败的基于规则的策略我们可以得出结论，MP比基于端到端学习的模型更容易受到未知环境的影响，因为感知部分本身很难适应各种未知场景。另一方面，传统的强化学习[6]比所有其他方法表现得更差，即使训练时间要长得多：在模拟器中驾驶12天。原因是众所周知RL itelf是brit- tle [10]，需要非常耗时的探索才能获得合理的结果。与Atari [23]中的视频游戏和迷宫导航[5]不同，像自动驾驶这样的现实世界任务需要复杂的决策来利用视觉线索，导致严重的样本效率低下和不可行的参数搜索。相比之下，所提出的CIRL有效地受益于模仿学习的两个优点（即快速收敛）和传统的强化学习（即稳健的长期决策）。我们的CIRL，提高了政策，只有粗略的12小时的驾驶探索在汽车模拟器可以实现显着更好的性能比最好的MP和IL方法的所有任务与以往的强化学习模型在一开始就进行过多的随机和无意义的探索不同，CIRL中的行动者网络可以通过从第一个可控模仿阶段转移知识，在一个好的和合理的点上开始探索。通过驱动和与模拟器中的复杂动态交互的奖励反馈可以进一步促进具有更好的鲁棒性和泛化能力的4.3泛化能力在测试期间不能重复训练期间的精确驾驶轨迹。因此，在CARLA基准上完美地执行需要鲁棒的泛化，这对于现有的深度学习方法来说是具有挑战性的。如表1中所报告的，明显的是，在“新天气”设置下，所有方法的性能接近于“训练条件”中的那些。然而，他们的表演在“新城”的背景下戏剧性地下降。例如，在最具挑战性的导航任务12X. Liang，T.王湖，加-地Yang和E.邢表4. 四种不同情境下单回合任务的消融研究。方法（一转）训练条件新城新气象新城/天气CIRL，不带转向奖励91659676CIRL，带重播96719482CIRL更多模拟步骤95689880我们的CIRL97719482表5. comma.ai数据集上的结果，以平均绝对误差（MAE）表示。模型PilotNet [2] CIRL（卡拉）CIRL从布拉赫CIRL微调转向角MAE1.2082.9391.1861.168多云中午中雨中午多云日落潮湿多云日落大雨日落见图6。不同天气条件下的示例观测。更好地查看放大。与我们的CIRL的62%相比，完全成功的发作总的来说，我们的CIRL比其他方法表现出更好的泛化能力，但仍需要进一步的改进。除了前两种类型的泛化（即看不见的天气条件和看不见的新城），我们进一步在两个另外的新条件（即，更多的路径轨迹和新的天气2设置），以进一步评估更一般的情况，从而在表2中产生四个新的设置我们可以看到，我们的模型显示出合理的鲁棒性和良好的性能在不同的导航路径和天气设置。调整我们的CIRL在看不见的城镇导航可以通过在更广泛的不同场景的训练这进一步很好地证明了将可控模仿学习和DDPG算法集成在一起以促进针对更具挑战性的任务的驱动策略的优势。我们还深入研究了不同天气条件对驾驶泛化能力的影响驾驶行为在五种天气条件下的不同程度的困难进行了评估，既看到的城市和看不见的城市。我们可以观察到在能见度良好的天气下获得的有希望的结果，例如CloudyNoon，CloudySunset。但对于更具挑战性的多雨天气，模型的成功完成率很低。一个主要原因是，道路和周围的动态是非常难以被感知的大雨的结果，如图所示。六、4.4真实场景的比较我们报告的结果，应用我们的CIRL 训练CARLA 到实际场景中的Ta-在Comma.ai [29]数据集上的表5为了在Comma.ai上进行微调，我们使用预训练的网络-用于自动驾驶的13表6. 新城区单回合任务的成功率（即验证镇）奖励我们的奖励我们的奖励×10我们的奖励/10无速度不带越野学院旧天气百分之七十一百分之七十百分之五十二百分之二十百分之三十一新气象百分之八十二百分之八十二百分之六十八百分之十四百分之二十八在CARLA上的方向分支之前工作参数，并初始化3个堆叠的fc层（256，256，1）以预测一个转向角。学习率设置为1 e-3。我们训练了18个epoch，批量大小为256。“ CIRL (CARLA)” denotes directly applying model trained 我们可以看到，comma.ai上的微调预训练CIRL模型（它很好地验证了我们从高质量的CARLA模拟器中学习的CIRL模型可以很容易地转移到真实场景中，以增强真实自动驾驶汽车的驾驶策略学习。4.5消融研究我们还进行了全面的实验，以验证我们的模型的每个关键组成部分的影响，如表4所示在四种不同的环境中进行了具有挑战性的单回合任务的实验使用演示的不同策略。为了验证我们的模仿强化学习的有效性，我们将我们的CIRL与DDPGfD [34]进行了比较，后者从机器人操作问题的演示中进行学习。与我们提供更好的探索开始的策略相反，DDPGfD将演示转换加载到重放缓冲区中，并永久保留所有转换。因此，我们实现并将演示重放缓冲区纳入我们的CIRL，我们可以看到“CIRL w/ add reply”和我们的CIRL之间没有明显的性能差异这充分说明，有了一个良好的探索起点，就足以有效地学习合理的政策我们还在我们的任务上尝试了纯DDPGfD的性能，而没有使用模仿学习来初始化演员网络，由于需要详尽的探索，经过几天的驾驶模拟，这是相当糟糕的，因此我们没有列出他们的结果。注意，为了证明优化步骤，我们保持所有变体的所有实验设置相同，例如奖励设计不正常转向角奖励的影响。与[6]中的奖励条款不同，我们建议针对每个命令控制采用专门的转向角奖励我们在“CIRL w/o steer reward”和“CIRL”之间的比较进一步通过提供更明确的反馈来说明合并这种奖励以稳定动作探索的有效性。模拟步数的影响。我们的CIRL提出的一个问题是，是否可以通过执行RL策略学习更多的模拟步骤，进一步提高性能。我们发现，完全成功的情节的百分比方面没有显着的改善，此操作验证14X. Liang，T.王湖，加-地Yang和E.邢模仿学习（IL）我们的CIRL碰撞（静态对象）与人行道重叠对向车道与人行道重叠见图7。模仿学习基线[6]和我们的CIRL模型之间的可视化比较。我们举例说明了直线和一转任务的一些驾驶案例，并显示IL基线在某些类型的违规（例如，与静态物体碰撞，与人行道重叠超过30%对于每种情况，示出了两个连续帧。我们的模型可以通过有效的样本探索以可接受的计算成本来实现良好的策略另一方面，这可能促使我们从其他方面进一步提高模型能力，例如探索更多的环境和视频动态以提高泛化能力。奖励功能。根据使用的Coach RL框架3设置奖励值的等级在CARLA环境中。表6报告了所有奖励的不同奖励量表的消融研究我们可以观察到，移除速度或越野碰撞奖励显著降低了成功率。此外，使用10倍更大的奖励值ob-获得较小的性能差异，而10倍较小的奖励会导致更差的结果。5结论在本文中，我们提出了一种新的CIRL模型，以解决具有挑战性的问题，基于视觉的自动驾驶在高保真汽车模拟器。我们的CIRL将可控模仿学习与DDPG策略学习相结合，以解决强化学习研究中众所周知的样本效率低下问题此外，还设计了特定的转向角奖励，以加强我们的政策网络的优化基于可控模仿学习。我们的CIRL在CARLA基准上实现了最先进的它进一步证明了优越的泛化能力，在各种不同的环境和条件。3https://nervanasystems.github.io/coach/用于自动驾驶的15引用1. Abbeel，P.，Coates，A. Quigley，M.，Ng，A.Y.：强化学习在直升机特技飞行中的应用。在：神经信息处理系统的进展。pp.第一至第八届会议（2007年）2. Bojarski，M.，Del Testa，D.Dworakowski，D.，Firner，B.，弗莱普湾Goyal，P.，Jackel，L.D.蒙福特，M.穆勒大学张杰，等：自动驾驶汽车的端到端学习。arXiv预印本arXiv：1604.07316（2016）3. 曹Q.林，L.，施，Y.，梁湘，李，G.：通过深度强化学习实现注意感知的人脸幻觉。arXiv预印本arXiv：1708.03132（2017）4. Cod evilla，F.， Mülle r，M.，两个人在一起A. Lopez，A.， Koltun，V.：通过条件模仿学习的端到端驱动arXiv预印本arXiv：1710.02410（2017）5. Dosovitskiy，A.，Koltun，V.：通过预测未来来学习行动。arXiv预印本arXiv：1611.01779（2016）6. 两个人在一起A. Ros，G.， Cod e villa，F.， Lopez，A.， Koltun，V.：卡拉：一个开放式的城市驾驶模拟器。arXiv预印本arXiv：1711.03938（2017）7. Endo，G.，Morimoto，J.，Matsubara，T.，Nakanishi，J.，Cheng，G.：使用策略梯度方法学习基于cpg的移动：应用于人形机器人。国际机器人研究杂志27（2），2138. Franke，U.：自动驾驶。汽车技术中的计算机视觉（2017）9. 汉，J.，杨湖，Zhang，D.，中国农业科学院农业研究所所长，张，X.，梁X：增强切割--用于视频对象分割的智能体学习IEEE计算机视觉和模式识别会议论文集pp.908010. Henderson，P.，伊斯兰河Bachman，P.，Pineau，J.，普雷卡普，D.，Meger，D.：深度强化学习很重要。arXiv预印本arXiv：1709.06560（2017）11. Hester，T.，Vecerik，M.，Pietquin，O.，Lanctot，M.，Schaul，T.，Piot，B.，Sendonaris，A.，Dulac-Arnold，G.，奥斯班岛Agapiou，J.，等：从现实世界的强化学习演示中学习。arXiv预印本arXiv：1704.03732（2017）12. Ho，J.，Ermon，S.：生成对抗模仿学习。在：神经信息处理系统进展。pp. 456513. 侯，Y.，Hornauer，S.，Zipser，K.：用于自动驾驶中直接感知的快速递归全卷积网络arXiv预印本arXiv：1711.06459（2017）14. 杰，Z.梁湘，冯杰，Jin X卢伟，Yan，S.：用于顺序对象定位的树结构强化学习。在：神经信息处理系统的进展。pp. 12715. 金，J.，坎尼，J：通过可视化因果注意力实现自动驾驶汽车的可解释学习ICCV（2017）16. Latzke，T.，Behnke，S.，Bennewitz，M.：足球机器人的模仿强化学习。机器人足球世界杯pp. 47-58. 03 The Dog（2006）17. 李，Y.，宋杰Ermon，S.：Infogail：可解释的模仿学习从视觉演示。在：神经信息处理系统的进展。pp. 381518. 梁湘，Hu，Z.，张洪，Gan，C.，Xing，E.P.：用于可视段落生成的循环主题转换gan。In：ICCV（2017）19. 梁湘，李湖Xing，E.P.：用于视觉关系和属性检测的深度变分结构强化学习。在：计算机视觉和模式识别（CVPR），2017年IEEE会议上。pp. 4408-4417. IEEE（2017）20. 梁湘，周，H.，Xing，E.：动态结构语义传播网络。在：IEEE计算机视觉和模式识别会议的pp. 752-761（2018年）16X. Liang，T.王湖，加-地Yang和E.邢21. Lillicrap，T.P.，Hunt，J.J.，Pritzel，A.，Heess，N.Erez，T.，Tassa，Y.Silver，D.，Wierstra，D.：通过深度强化学习实现持续控制。ICLR（2016）22. Mnih，V.，Badia，A.P.，Mirza，M.，格雷夫斯，A.，Lillicrap，T. Harley，T.Silver，D.，Kavukcuoglu，K.：深度强化学习的异步方法。国际机器学习会议（pp.192823. Mnih，V.，Kavukcuoglu，K.，Silver，D.，Rusu，A.A.，Veness，J.，Bellemare，M.G.格雷夫斯，A.，Riedmiller，M.，Fidjeland，A.K.，Ostrovski，G.，等：通过深度强化学习实现人级控制。Nature518（7540），529（2015）24. 穆勒大学Ben，J. Cosatto，E.，弗莱普湾Cun，Y.L.：越野避障通过端到端学习在：神经信息处理系统的进展。pp. 739-746（2006年）25. Paden，B.，C. M.，容，S.Z.，Yershov，D.，Frazzoli，E.：运动规划和自动驾驶城市车辆的控制技术IEEE智能车辆汇刊1（1），3326. Plappert，M.，Houthooft河Dhariwal，P.Sidor，S.，Chen，R.Y.，陈旭，Asfour，T.Abbeel，P.，Andrychowicz，M.：用于探

下载后可阅读完整内容，剩余1页未读，立即下载