模拟强化学习教练的端到端城市驾驶

70 浏览量更新于2023-10-13 收藏 1023KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15222模拟强化学习教练的端到端城市驾驶Zhejun Zhang1，Alexander Liniger1，Dengxin Dai1，2，Fisher Yu1 and Luc VanGool1，31ComputerVisionLab，ETHZürich，2MPIforInformatics，3PSI，KULeuven{zhejun.zhang，alex.liniger，dai，vangool} @ vision.ee.ethz.ch，i@yf.io摘要自动驾驶的端到端方法通常依赖于专家演示。虽然人类是很好的驾驶员，但对于需要密集的策略监督的端到端算法来说，他们不是很好的教练。相反，利用特权信息的自动化专家可以有效地生成大规模的政策上和政策外的演示。然而，现有的用于城市驾驶的自动化为了解决这些问题，我们训练了一个强化学习专家，该专家将鸟瞰模拟地面实况强导师行动在CARLA上设置新的性能上限的同时，我们的专家也是一个更好的教练，为模仿学习代理提供信息化的监督信号。在我们的强化学习教练的监督下，具有单眼相机输入的基线端到端代理我们的端到端代理实现了78%的成功率，同时在NoCrash密集基准上推广到新的城镇和新的天气，并在更具挑战性的CARLA排行榜上表现出最先进的性能。1. 介绍尽管如今，大多数自动驾驶（AD）堆栈[30，48]使用单独的模块进行感知，规划和控制，但自80年代以来已经提出了端到端的方法许多工作已经研究了用于此任务的不同网络架构[3，16，52]，但这些方法中的大多数使用具有专家演示的监督学习，已知其遭受协变量移位[36，40]。虽然基于视图合成的数据增强[2，5，35]可以部分缓解这个问题，但在本文中，我们从专家演示的角度解决了这个问题。专家演示对于端到端AD算法至关重要。而模仿学习（IL）方法直接图1：Roach：RL教练允许IL代理从密集和信息丰富的策略监督中受益。为了模仿专家一般来说，专家演示可分为两类：（i）离线策略，其中专家直接控制系统，并且状态/观察分布跟随专家。AD的非政策数据包括例如公共驾驶数据集[6，22，51]。（ii）按策略，其中系统由期望的代理控制，并且专家在这种情况下，状态/观察分布遵循代理，但可以访问专家演示。政策上的数据是根本的，以减轻协变量的转变，因为它允许代理从自己的错误中学习，这是专家在政策外的数据不显示。然而，从人类收集足够的关于策略的演示是不平凡的。虽然人类专家采取的轨迹和行动可以在非策略数据收集期间直接记录，但在给定传感器测量的情况下标记这些目标对人类来说是一项具有挑战性的任务在实践中，只记录像人类干预这样的稀疏事件，由于它包含的信息有限，很难用于训练，并且更适合RL [2，23，24]而不是IL方法。在这项工作中，我们专注于自动化专家，这在司机IL代理行动RL教练行动专家15223相比之下，专家可以生成具有密集标签的大规模数据集，而不管它们是在策略上还是在策略上。为了实现专家级性能，自动化专家可能依赖于详尽的计算、昂贵的传感器或甚至地面实况信息，因此不希望直接部署它们。即使一些IL方法不需要在策略上进行标记，例如GAIL[20]和逆RL [1]，这些方法在与环境的策略交互方面效率不高。相反，自动化专家可以减少昂贵的策略交互。这使得IL能够成功地将自动化专家完全应用于AD的不同方面。作为现实世界的例子，Pan et al.[34]通过模仿模型预测控制专家使用昂贵的传感器，用单目摄像机演示了端到端的越野赛车。在城市驾驶的背景下，[36]表明类似的概念可以应用于驾驶模拟器CARLA [12]。驾驶模拟器是这种方法的理想试验场，因为它们本质上是安全的，并且可以提供地面真实状态。不过，有两点需要注意。第一个是CARLA中的“专家”，通常被称为自动驾驶仪（或漫游代理）。Autopilot可以访问地面真实模拟状态，但由于使用手工制定的规则，其驾驶技能无法与人类专家相比第二，大多数自动化专家提供的事实上，IL问题可以被看作是一个知识转移问题，仅仅从专家行为中学习是低效的。为了解决这两个缺点，并受到Atari游戏[18]和连续控制[14]中无模型RL的成功的激励，我们提出了Roach（RL教练），一位将鸟瞰图（BEV）图像映射到连续动作的RL专家（图14）。1底部）。在从头开始训练了1000万步之后，Roach通过超越Autopilot为CARLA设定了新的性能上限。然后，我们训练IL代理，并研究更有效的训练技术时，从我们的罗奇专家学习。鉴于Roach使用神经网络策略，它可以作为也基于神经网络的IL代理的更好教练Roach为IL代理提供了许多可在这里，我们证明了使用动作分布，价值估计和潜在的功能作为监督的有效性。图1示出了从CARLA上由Roach标记的策略上的超视学习的方案。我们还通过使用Roach的输出在CARLA上驾驶车辆来记录Roach的政策外数据。利用3D检测算法[26，49]和额外的传感器来合成BEV，Roach还可以解决现实世界中缺乏政策监督的问题。这是可行的，因为一方面，BEV作为一个强大的抽象减少了模拟到真实的差距[31]，另一方面，策略上的标签不必实时甚至机载发生因此3D de-在给定完整序列的情况下，保护变得更容易[37]。总之，本文介绍了罗奇，RL专家，设置一个新的性能上限CARLA。此外，我们使用基于单个摄像头的端到端IL代理在CARLA LeaderBoard和CARLA NoCrash基准测试上展示了最先进的性能，Roach使用我们改进的训练方案监督该代理。我们的存储库可在https://github.com/zhejz/carla-roach上公开获取2. 相关工作由于我们的方法是在CARLA上进行训练和评估的，因此我们主要关注在CARLA上进行的相关工作。端到端IL：Dosovitskiy等人[12]介绍了CARLA驾驶模拟器，并证明了具有单个摄像机输入的基线端到端IL方法可以实现与模块化管道相当的性能。在此之后，CIL[10]和CILRS [11]通过使用分支动作头部来解决AD中的定向多模态，其中分支由高级定向命令选择。虽然上述方法通过行为克隆进行训练，但DA-RB [36]将具有临界状态采样的DAGER [40]应用于CILRS。最近，LSD [32]通过学习专家的混合物并使用进化优化改进混合系数来增加CILRS的模型容量。在这里，我们使用DA-RB作为基线IL代理由罗奇监督。中到X IL：直接将相机图像映射到低级别动作需要大量数据，特别是如果想要概括各种天气条件。Mid-to-X方法通过使用更结构化的中间表示作为输入和/或输出来缓解这个问题。在[4]中研究了以粗分割掩模作为输入的CILRS。CAL [41]结合了CIL和直接感知[7]通过将相机图像映射到可由基于规则的低级控制器直接使用的驾驶示能表示。LBC [8]通过模仿类似于Chauffeurnet [3]的特权中到中IL代理将相机图像映射到航点，该代理将BEV作为输入并输出未来的航点。类似地，SAM [53]通过模仿特权CILRS代理来训练视觉运动代理，该代理将分割和启示作为输入。我们的Roach采用BEV作为输入表示，并预测连续的低级动作。RL：作为CARLA上的第一个RL代理，在[12]中证明了A3C代理[29]，但其性能低于同一论文中提出的其他方法Cirl[27]提出了一种端到端DDPG [28]代理，其代理网络通过行为克隆进行预训练，以加速在线训练。为了降低问题的复杂性，Chen等人。[9]研究了DDQN [15]，TD3 [13]和SAC[14]使用BEV作为输入，并使用变分自动编码器[25]在专家训练上预训练图像编码器。15224|∈×∈B∈ −∈ − ∈∈喷射物在[47]中使用Rainbow-IQN [46]实现了最先进的性能。为了减少在线训练期间可训练参数的数量，其图像编码器被预训练以预测非策略数据集上的分割和示能表示。IL与RL组合在[39]中，并且在[33]中讨论了CARLA上的多药剂RL。与这些RL方法相比，Roach在不使用任何专家演示的情况下实现了高采样效率。自动化专家：自动专家的有效性在[ 34 ]中被证明用于现实世界的越野赛车，其中视觉运动代理通过模仿由配备昂贵传感器的模型预测控制专家标记的策略动作来训练。尽管CARLA已经配备了自动驾驶仪，但基于深度神经网络训练代理专家仍然是有益的，如LBC [8]和SAM [53]所示。通过代理专家，解决端到端问题的复杂性被分解成两个简单的阶段。在第一阶段，培训代理专家更容易制定一个中期到X IL的问题，从规划分离的看法。在第二阶段，端到端IL代理可以更有效地从代理专家那里学习，给出它提供的信息目标为了提供强监督信号，LBC查询代理专家的所有分支，并且在给定一个数据样本的情况下反向传播IL代理的所有分支，而SAM匹配代理专家和端到端IL代理的潜在特征。当代理专家处理规划时，也可以在第一阶段处理感知，如FM-Net [21]所示。总的来说，两阶段方法实现比直接IL更好的性能，但是使用代理专家不可避免地降低了性能上限，因为经由IL训练的代理专家不能超过它模仿的专家这对Roach来说不是问题，它通过RL进行训练，性能优于Autopilot。3. 方法在本节中，我们将介绍罗奇以及IL代理如何从罗奇提供的各种监督中受益。3.1. RL教练我们的蟑螂有三个特点。首先，与以前的RL代理相比，Roach不依赖于来自其他专家的数据其次，与基于规则的自动驾驶仪不同，Roach是端到端可训练的，因此它可以通过较小的工程努力推广到新的场景。第三，采样效率高。使用我们提出的输入/输出表示和探索损失，从头开始训练Roach在六个LeaderBoard地图上达到顶级专家性能，在单个GPU机器上花费不到一周的时间。Roach由一个以θ为参数的策略网络πθ（aiRL，mRL）和一个以θ为参数的价值网络Vθ（iRL，mRL）组成. 策略网络将BEV映像映射到RL并且将测量向量m_RL映射到动作a.最后，价值网络估计标量值v，同时采用与策略网络相同的输入。输入表示：我们使用BEV语义分割图像iRL[0，1]W×H×C来降低问题复杂度，类似于[3，8，9]中使用的。它是使用地面实况模拟状态渲染的，并且由大小为W H的C灰度图像组成。自我交通工具正朝上，并且在底部上方的D像素处的所有图像中居中，但是其未被渲染。图2示出了RL的每个信道。可行驶区域和预定路线分别在图中呈现。2a和2b在图2c中，实线是白色，虚线是灰色。图2d是K灰度图像的时间序列，其中骑自行车的人和车辆被渲染为白色边界框。图2e与图相同。2D行人类似地，交通灯处的停车线和停车标志的触发区域在图中呈现。2楼红灯和停车标志由最亮的水平着色，黄灯由中间水平着色，绿灯由较暗的水平着色。如果停车标志是活动的，则呈现停车标志，即自我车辆进入其附近，并且一旦自我车辆完全停止就消失。通过让BEV表示记忆自我交通工具是否已经停止，我们可以使用没有回流结构的网络架构，并且因此减小Roach的模型大小所有通道的彩色组合如图所示。1. 我们还向Roach馈送测量向量mRLR6包含未在BEV中表示的自我车辆的状态，这些包括转向、油门、制动、档位、横向和水平速度的地面实况测量输出表示：CARLA的低级操作是转向[1，1]，节流阀[0，1]和制动器[0，1]。降低问题复杂性的一种有效方法是预测航路点计划，然后由PID控制器跟踪以产生低级动作[8，39]。然而，PID控制器对于轨迹跟踪是不可靠的，并且需要过多的参数调整。基于模型的控制器是更好的解决方案，但CARLA为了避免参数调整和系统识别，Roach直接预测动作分布。其转向和加速的作用空间为a[1，1]2，正加速对应油门，负加速对应刹车。为了描述作用，我们使用Beta分布（α，β），其中α，β >0分别是1和0上的浓度。与无模型RL中常用的高斯分布相比，Beta分布的支持度是有界的，因此避免了这导致表现更好的学习问题，因为不需要tanh层，并且可以显式地计算熵和KL散度此外，Beta分布的模态也适合于驾驶、15225--B∈ZLLLZZLLk=0∈ ZBB(a) 可行驶区域（b）所需路线（c）车道边界（d）车辆（e）行人（f）信号灯和停车位图2：Roach使用的BEV表示在这种情况下，经常会采取极端的机动动作，例如紧急制动或急转弯。训练：我们使用具有裁剪的邻近策略优化（PPO）[43]来训练策略网络π θ和价值网络V。为了更新这两个网络，我们通过在CARLA 上执行πθk 来轨迹τ =（iRL，k，mRL，k，ak，r k）T，z包括BEV图像iRL、测量向量mRL、动作a、奖励r和触发发作终止的终止事件z。价值网络被训练以回归预期回报，而策略网络通过以下方式更新：z与碰撞或运行的交通灯/标志有关，我们应用pz=（1，2. 5）在不影响转向的情况下，在加速上鼓励罗奇减速。相反，如果汽车被阻挡，我们使用加速先验（2.5、1）。对于路线偏差，在转向上应用统一的先验（1，1）。尽管在这种情况下等同于最大化熵，但是探索损失进一步鼓励在路线偏离之前的最后10秒期间对转向角的探索。实施详情：我们的PP 0-剪辑的实现基于[38]，并且网络架构如图所示。3a. 我们使用六个卷积层来编码BEVθk+1=argmaxθτ Eπθk[Lppo+ Lent+ Lexp]。（一）以及两个全连接（FC）层来编码测量向量。两个编码器的输出被级联并且第一个目标ppo是具有使用广义优势估计[42]估计的优势的裁剪策略梯度损失。第二个目标是最大熵损失，通常用于鼓励探索Lent=−λent·H（πθ（·|iR L，mR L））。（二）然后由另外两个FC层处理以产生潜在特征jRL，然后将其馈送到值头和策略头，每个值头和策略头具有两个FC隐藏层。轨迹以10 FPS的速度从六台CARLA服务器收集，每个服务器对应六个排行榜地图中的一个。在每一集的开始，一对开始和目标位置-直观Lent 将动作分布推向统一将随机选择一条路径并计算所需路径使用A*算法。一旦达到目标，新形式先验，因为最大化熵等效于最小化均匀分布的KL散度，H（πθ）=−KL（πθ U（−1，1）），（3）如果两个分布共享相同的支持。这启发我们提出了一种广义的ent形式，它鼓励在符合基本交通规则的合理方向上进行探索。我们称之为勘探损失并将其定义为随机目标将被选择，因此情节是无休止的，除非满足中的一个终端条件。我们使用[46]的奖励，并额外惩罚大转向变化以防止振荡机动。为了避免高速时的红外线，我们增加了一个额外的惩罚成比例的自我车辆更多细节在补充。3.2. 由Roach为了让IL代理商受益于信息丰富的超级L exp =λ exp·1{T-Nz +1，…，T}（k）·KL（πθ（·|iRL，k，mRL，k）pz），（四）罗奇产生的愿景，我们制定了每个监督的损失我们使用罗奇的训练方案可以其中，1是指示函数，z是结束发作的事件。终端条件集包括碰撞、运行交通灯/标志、路线偏离和被阻挡。与在所有时间步处对动作施加统一先验而不管哪个z被触发的ent不同，exp将情节的最后N z步内的动作移向预定义的探索先验p z，其对“建议”进行编码以防止触发的事件z被触发。再次发生实际上，我们使用Nz=100，nz∈ Z。如果应用于改善现有IL试剂的性能。这里我们使用DA-RB[36]（CILRS [11]+ DAGGER [40]）作为一个例子来证明它的有效性。CILRS：CILRS的网络架构如图所示。如图3b所示，其包括对相机图像iIL进行编码的感知模块和对测量向量mIL进行编码的测量模块。两个模块的输出由FC层级联和处理以生成瓶颈潜在特征jIL。给出了导航指令15226L22∈∈(a) Roach（b）CILRS图3：Roach（RL专家）和CILRS（IL代理）的网络架构。作为离散的高级命令，并且为每种命令构造一个分支。所有分支共享相同的架构，而每个分支包含预测连续动作a的动作头部和预测自我车辆的当前速度s的速度头部潜在特征jIL由命令选择的分支处理。CILRS的激励目标包括L1动作损失LA=a−a1（5）以及速度预测正则化LS=λS·|s−s|、（6）其中λs是标量权重，a是专家的动作，s是测量的速度，a和s是由CILRS预测的动作和速度。专家动作a可以来自自动驾驶仪，其直接输出确定性动作，或者来自Roach，其中分布模式被视为确定性输出。除了确定性动作，罗奇还预测动作分布，值和潜在特征。接下来，我们将为它们中的每一个制定损失函数。动作分布损失：受[19]的启发，[19 ]建议软目标可以提供每个样本比硬目标更多的信息，我们提出了一种基于动作分布的新动作损失，作为A的替代。通过修正CILRS的作用水头来预测分布参数，并将损失表示为KL散度LK=KL（ππ）（7）由Roach专家预测的动作分布与由CILRS代理预测的π之间特征损失：特征匹配是在网络之间传递知识的有效方式，并且在[ 21，53 ]中证明了其在监督IL驱动代理中的有效性。Roach的潜在特征jRL图3a）。此外，JRL对于渲染和天气是不变的，因为Roach使用BEV表示。学习将相机图像嵌入到潜在空间应帮助IL代理推广到新的天气和新的情况。因此，我们提出了特征损失LF=λF·jRL− jIL2。（八）价值损失：具有驾驶相关副任务的多任务学习也可以提高端到端IL驾驶代理的性能，如[50]所示，其使用场景分割作为副任务。直观上，Roach预测的值包含驱动相关信息，因为它估计了预期的未来回报，这与情况的危险程度有关。因此，我们增加了CILRS与价值头和回归价值作为一个副任务。价值损失是Roach估计的值v和 CILRS预测的值v之间的均方误差LV=λV·（v−v）。（九）实现细节：我们的实现遵循DA-RB [36]。我们选择在ImageNet上预训练的Resnet-34作为图像编码器，以生成给定iRL[0，1]900×256×3的1000维特征，这是一个具有100◦水平FOV的广角相机图像。图像和测量编码器的输出被级联并由三个FC层处理以生成j_IL_R256，其与j_RL共享相同的大小。更多细节见补充。4. 实验基准：所有评价均在CARLA上完成0.9.11.我们在NoCrash [11]和最新的LeaderBoard基准1[45]上评估我们的方法。每个基准指定其训练城镇和天气，其中允许代理收集数据，并在新的城镇和天气中评估代理NoCrash基准考虑从Town 1（仅由单车道道路和T形交叉口组成的欧洲城镇）到Town 2（具有不同纹理的Town 1的较小版本）的一般化。相比之下，LeaderBoard在六个地图中考虑了一个更困难的综合任务，这些地图涵盖了不同的交通情况，包括高速公路、美国式交叉口、环形交叉口、停车标志、车道1我们使用50条公共训练路线和26条公共测试路线。图像编码器动作头测量编码器值头命令图像编码器动作头速度头测量编码器动作头速度头FC层FC层15227图4：在CARLA Town 1-6培训的RL专家的学习曲线。实线显示了平均值，阴影区域显示了3个种子的事件回报的标准差。虚线显示折叠的离群值运行变化和融合。在NoCrash基准测试之后但为了节省计算资源，只对四种训练天气类型中的两种进行了评估。NoCrash基准测试提供了三个级别的交通密度（空的，常规的和密集的），它定义了每个地图中的行人和车辆的数量我们专注于NoCrash-density，并在常规和密集流量之间引入一个新的级别，NoCrash-繁忙，以避免拥挤，经常出现在密集流量设置。对于CARLA排行榜，每个地图中的交通密度被调整为与繁忙交通设置相当。指标：我们的结果以成功率（NoCrash提出的指标）和驾驶分数（CARLA LeaderBoard引入的新指标）报告。成功率是完成路由而没有冲突或阻塞的百分比。驾驶分数被定义为路线完成、路线距离完成百分比和违规处罚的乘积，违规处罚是一个将所有触发的违规行为加在一起的折扣因子。例如，如果座席在一条路线上闯了两个红灯，而闯一个红灯的惩罚系数为0。7，则违规处罚为0。72 =0。四十九与成功率相比，驾驶分数是细粒度的度量，其考虑更多种类的违规，并且其更适合于评估长距离路线。有关基准和完整结果的更多细节见补充。4.1. 专家业绩我们使用CARLA 0.9.10.1来培训RL专家并微调我们的自动驾驶仪，但所有评估仍在0.9.11上。样品效率：为了提高PPO的采样效率，我们提出了使用BEV代替相机图像，Beta代替高斯分布，并在熵损失之外增加探索损失。由于使用BEV表示的好处是显而易见的，因此在这里我们仅消除Beta分布和探索损失。如图所示在图4中，具有高斯分布和熵损失的基线PPO被困在局部最小值中，其中保持静止是最有价值的策略。利用勘探损失，PPO+exp可以成功地训练，尽管相对高的方差和低的样本效率。Beta分布有很大的帮助，但在没有探索损失的情况下，由于探索不足，训练在某些情况下仍然崩溃（参见。图中的蓝色虚线4）. 我们的Roach（PPO+beta+exp）使用Beta分布和探索损失来确保稳定和样本有效的训练。在六台CARLA服务器中，每台服务器的训练大约需要170万步，总共需要1000万步，在AWS EC2 g4dn.4xlarge上大约需要一周时间，在12核的2080 Ti机器上大约需要4天时间。驾驶性能：表1比较了在交通繁忙的动态天气下，不同专家对无碰撞密集和所有76条LeaderBoard路线的评价。我们的Autopilot是一个强大的基线专家，其成功率高于LBC和DA-RB中使用的Autopilot。我们评估了三个RL专家-（1）罗奇，建议RL教练使用Beta分布和探索先验。(2)PPO+beta，RL教练在没有使用探索之前进行训练。(3)PPO+exp，RL教练在没有使用Beta分布的情况下进行训练。总的来说，我们的RL专家取得了与Autopilots相当的成功率和更高的驾驶分数，因为RL专家以更好的方式处理交通信号灯（参见表3）。两辆Autopilot经常闯红灯，因为他们驾驶过于保守，在路口等待时间过长，错过了绿灯。在 RL 专家中，PPO+beta和Roach，这两个RL专家使用Beta分布，实现了最好的性能，而两者之间的差异PPO+exp的表现稍差，但它仍然比我们的Autopilot获得了更好的驾驶分数4.2. IL试剂IL代理的性能受到它所模仿的专家的性能的限制。如果专家表现不佳，则比较模仿该专家的IL代理是不明智的。如表1所示，这个问题在交通密集的NoCrash新城中很明显，自动驾驶仪在那里为了确保高性能上限，从而进行公平的比较，我们进行了消融研究（图1）。图5和表3），使得我们的自动驾驶仪可以实现80%的驾驶分数和90%的成功率。为了与最新技术水平进行比较，消融研究中的最佳模型仍在表2中的NoCrash上进行了评估。对于NoCrash和对于LeaderBoard，输入测量向量mIL对于NoCrash，mIL只是速度。对于LeaderBoard，mIL另外包含指向下一个期望的航路点的2D向量该向量是从有噪声的GPS测量值计算的，并且期望的路线被指定为稀疏的GPS位置。排行榜15228LLLLLLLLLLLLLL LLLLLLL LLL L LLS uc.速率% ↑NCd-tt NCd-tn NCd-nt NCd-nn LB-allPPO+exp86±6 86±6 79±6 77±5 67 ±3PPO+ β95±395±3 83±5 87±6 72 ±5蟑螂91±4 90±783±3 83±3 72 ±6AP（我们的） 95±395±3 83±5 81±275± 8AP-lbc[8]86±3 83±6 60±3 59± 8N/AAP-darb [36]71±4 72±3 41±2 43± 2N/AD ri.评分%↑ NCd-tt NCd-tn NCd-nt NCd-nn LB-allPPO+exp92±2 92±2 88±3 86±1 83 ±0PPO+ β98±298±2 90±392±286±2蟑螂95±2 95±391±3 90±2 85 ±3AP（我们的） 86±2 86±2 70±2 70±1 78 ±3表1：专家的成功率和驾驶评分。3个评价种子的平均值和标准差。NCd：无碰撞密集。火车城天气火车城新气象新城火车天气预报。新城天气 LB-all ：LeaderBoard的所有76条路线，包括动态天气。美联社：卡拉自动驾驶仪。对于RL专家，使用所有训练种子和运行中的最佳检查点。成功率% ↑NCd-tt NCd-tn NCd-nt NCd-nnLBC [8]（0.9.6）71±5 63±3 51± 339 ±6SAM[53]（0.8.4）54±3 47±5 29± 329 ±2LSD [32]（0.8.4）不适用不适用30±4 32 ±3DA-RB+（E）[36]66±5 56±1 36± 335 ±2DA-RB +[36]（0.8.4）62±160±1 34± 225 ±1LA（AP）88±4.29±3.32±11 28 ±4我们的最佳值为：LK+LF86±5.82±2.78±5.78±0.01表2：基于摄像头的端到端IL代理在NoCrash-dense上的成功率。3粒种子的平均值和标准差。我们的模型来自DAGGER迭代5。对于DA-RB，+意味着三角扰动被添加到偏离策略数据集，（E）意味着所有迭代的集合。该指令表明它用于消除由于所考虑的映射的复杂性而导致左和右的语义不清楚的情况的歧义消融：图 5 示出了在具有繁忙流量的 NoCrash 和LeaderBoard上的每个DAGGER迭代处的专家和IL代理的驾驶分数。基线A（AP）是我们在自动驾驶仪的监督下实现的DA-RB+。鉴于我们改进的自动驾驶仪，预计A（AP）可以实现比DA-RB论文中报告的更高的成功率，但这在表2中没有观察到。Autopilot和A（AP）之间的巨大性能差距（参见图5），特别是在推广到一个新的城镇和新的天气时，表明了这个基线的局限性。通过用Roach取代Autopilot，LA的整体表现优于LA（AP）。从行动中进一步学习分布，K在NoCrash上比A更好地推广，但在LeaderBoard上不是。特征匹配仅在jIL被提供有再现jRL所需的必要信息时才有帮助。在我们的情况下，jRL包含导航信息，因为期望的路线在BEV输入中被渲染对于LeaderBoard，导航信息被部分地编码在mIL中，其包括到下一个期望的航路点的向量，因此通过使用F观察到更好的性能。但是对于NoCrash，由于m_IL只是速度，因此缺少该信息，因此j_IL模仿j_RL是不切实际的，并且这导致K+F和K+F+V的较差性能。为了确认该假设，我们评估单分支网络架构，其中测量向量m/L由编码为独热向量的命令增强使用与该架构的特征匹配，K+F（c）和K+V+F（c）在NoCrash新城天气下，在IL代理中获得最佳驾驶分数通用化测试，甚至优于自动驾驶仪。除了特征匹配之外，还使用值监督有助于DAGGER过程更快地收敛，如K+V+F和K+V+F（c）。然而，在没有特征匹配的情况下，单独使用值监督K+V不会表现出优越的性能。这表明特征匹配和值估计之间的潜在协同作用。直观地，Roach的潜在特征对值估计所需的信息进行编码，因此模仿该特征应该有助于预测值，而值估计可以有助于正则化特征匹配。与最新技术水平的比较：在表2中，我们将基线 A（AP）和我们的最佳性能代理K+F（c）与NoCrash-dense基准上的最新技术进行比较。我们的A（AP）表现与 DA-RB+ 相当，除了在推广到新天气时，在CARLA 0.9.11上有一个不正确的雨后水坑渲染（见可视化补充）。由于Roach的更强的监督，这个问题不会影响我们最好的方法K+F（c）。通过模仿天气不可知的罗奇，我们的IL代理的性能下降不到10%，而推广到新的城镇和天气。因此，如果Autopilot被认为是性能上限，则可以公平地声称我们的方法满足NoCrash基准。然而，如图5，与Roach相比，NoCrash仍有改进的空间，LeaderBoard上的性能差距突出了这个新基准的重要性。性能和违规分析：表3提供了在新市镇天气设置中具有繁忙交通的NoCrash基准的详细性能和违规分析&。最值得注意的是，我们的基线A（AP）的极高的这个问题在很大程度上缓解了模仿罗奇，驾驶更自然，和LA显示15229LLL自动驾驶罗奇A（AP）一KK+ VK+ FK +V+ FK+F（c）K+V+F（c）1.0NoCrash busy：火车镇火车天气1.0专辑中文名：New Town New Weather0.8 0.80.6 0.60.4 0.40.2iter 0 iter 2 iter 3 iter 4 iter 5标签：Train Town Train Weather0.2iter 0 iter 2 iter 3 iter 4 iter 5专辑中文名：New Town New Weather0.8 0.80.6 0.60.4 0.40.2 0.2iter 0 iter 1 iter 2 iter 3 iter 4 iter 5 iter 0 iter 1 iter 2 iter 3 iter 4 iter 5图5：专家和IL代理的驾驶评分。所有IL代理（虚线）都由Roach监督，除了A（AP），它由我们的Autopilot监督。对于NoCrash上第5次迭代的IL代理和所有专家，结果报告为3个评估种子的平均值。其他代理仅使用一个种子进行评估。成功率驾驶成绩路线完成皮下处罚碰撞他人碰撞行人碰撞车辆闯红灯代理被阻止Iter5%，↑#/Km，↓ #/Km，↓ #/Km，↓ #/Km，↓#/Km，↓#/Km，↓ LA（AP） 31 ± 743 ± 262 ± 677±4 0的情况。54± 0。530 ± 00。63±0。50 3 .第三章。33±0。5819号。4 ±14。4LA57 ± 766 ± 384 ± 376±1 二、07± 1。37 0 ± 01。36± 1。101. 4± 0. 2个2. 82 ±1。45LK74 ± 379 ± 091 ± 286±1 0的情况。50± 0。250 ± 0 0。53±0。18 0的情况。68±0。083 .第三章。39 ±0。20LK+LF（c）87± 5 88 ± 3 96 ± 0 91 ±30。08± 0. 040. 01± 0. 020. 23± 0。080 61± 0。23084± 0。04蟑螂95 ± 296±3100±0 96± 30 ± 00。11±0。070的情况。04±0. 050的情况。16±0。20 0 ±0自动驾驶仪 91 ± 179 ± 298 ± 180 ± 20 ± 00 ± 00。18±0。081 .一、93±0。230的情况。18 ±0。08表3：IL代理在NoCrash繁忙、新城&新天气上的驾驶性能和违规分析。3个评价种子的平均值和标准差。在驾驶分数方面绝对提高了23%。换句话说，这是通过使用更好的专家，但相同的模仿学习方法所获得的收益。进一步使用来自软目标和潜在特征的改进的监督产生我们的最佳模型K+F（c），其展示了另外22%的绝对改进。通过以更好的方式处理红灯，该代理使用单个摄像机图像作为输入，实现了88%5. 结论我们提出了罗奇，RL专家，并提出了一种有效的方法来模仿这个专家。使用BEV表示，Beta分布和探索损失，Roach在CARLA上设置了新的性能上限，同时展示了高样本效率。为了更有效地模仿...在此基础上，我们提出从Roach生成的软目标、值和潜在特征中学习在这些信息目标的监督下，使用单个摄像头图像作为输入的基线端到端IL代理可以实现最先进的性能，甚至在NoCrash密集基准上达到专家级性能。未来的工作包括性能改进的模拟基准和现实世界的部署。为了使排行榜饱和，应增加模型容量[3，17，32]。为了将Roach应用于标签真实世界的策略数据，除了通过BEV部分缓解的照片真实性之外，还必须解决几个模拟到真实的差距对于城市驾驶模拟器，道路使用者的现实行为至关重要[44]。鸣谢：这项工作是由丰田摩托车欧洲通过研究项目跟踪苏黎世资助驾驶分数驾驶分数15230引用[1] 彼得·阿比尔和安德鲁Y Ng。通过反向强化学习的学徒制学习。在国际机器学习会议（ICML）中，第1页，2004年。2[2] Alexander Amini、 Igor Gilitschenski 、 Jacob Phillips 、Julia Moseyko 、 Rohan Banerjee 、 Sertac Karaman 和Daniela Rus。从数据驱动的仿真中学习端到端自动驾驶的鲁棒控制策略。IEEE Robotics and Automation Letters（RA-L），5（2）：1143-1150，2020。1[3] Mayank Bansal 、 Alex Krizhevsky 和 Abhijit S. 奥加尔Chauffeurnet：通过模仿最好的和综合最坏的来学习驾驶。在机器人：科学与系统XV，2019年。一二三八[4] Aseem Behl，Kashyap Chitta， Aditya Prakash ，EshedOhn-Bar，and Andreas Geiger.为自动驾驶标注高效的视觉抽象。在智能机器人和系统国际会议（IROS），2020年。2[5] MariuszBojarski ， DavideDelTesta ， DanielDworakowski ， Bernhard Firner ， Beat Flepp ， PrasoonGoyal ， Lawrence D Jackel ， Mathew Monfort ， UrsMuller，Jiakai Zhang，et al.自动驾驶汽车的端到端学习。arXiv预印本arXiv：1604.07316，2016。1[6] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan，Giancarlo Baldan，and OscarBeijbom.nuScenes：用于自动驾驶的多模态数据集。arXiv预印本arXiv：1903.11027，2019。1[7] Chenyi Chen ， Ari Seff ， Alain Kornhauser ， andJianxiong Xiao.深度驾驶：自动驾驶中直接感知的学习启示。在2015年IEEE国际计算机视觉会议（ICCV）的会议记录中，第2722-2730页。2[8] Dian Chen，Brady Zhou，Vladlen Koltun，and Philipp Kr？ henb？ hl. 通过作弊来学习。在机器人学习会议（CoRL）中，第66-75页二、三、七[9] Jianyu Chen，Bodi Yuan，Masayoshi Tomizuka. 城市自动驾驶的无模型深度强化学习在2019年IEEE智能交通系统会议（ITSC），第2765-2771页，2019年。二、三[10] Feli peCode villa ， MatthiasMüller ， AntonioLo' pez ，VladlenKoltun，and Alexey Dosovitskiy.通过条件模仿学习实现端到端驱动在IEEE机器人与自动化国际会议（ICRA）中，第4693一、二[11] 费利佩·科德·维拉、埃德·桑塔纳、安东尼奥·M·洛佩斯和阿德里安·盖东。探索自动驾驶行为克隆的局限性。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第9329-9338页二、四

下载后可阅读完整内容，剩余1页未读，立即下载