没有合适的资源?快使用搜索试试~ 我知道了~
9793学会比赛:一种用于自主赛车的多模态控制环境James Herman1*Jonathan Francis1,2 * Siddha Ganju3Bingqing Chen1AnirudhKoul4 Abhinav Gupta1Alexey Skabelkin5Ivan Zhukov5Max Kumskoy5Eric Nyberg1美国宾夕法尼亚州匹兹堡卡内基梅隆大学计算机科学学院2人机协作,博世研究院,匹兹堡,宾夕法尼亚州,美国3NVIDIA,美国4Pinterest,San Francisco,CA,美国5自动驾驶,抵达,伦敦,英国{jamesher,jmf1,bingqinc,agupta6,ehn} @ cs.cmu.edu,{sganju1,akoul} @ alumni.cmu.edu,{skabelkin,zhukov,kumskoy} @ arrival.com摘要现有的自动驾驶研究主要集中在城市驾驶上,这不足以描述高速赛车背后的复杂驾驶行为。与此同时,现有的赛车模拟框架在捕获现实主义方面挣扎,关于视觉渲染、车辆动力学和任务对象,抑制了学习代理向现实世界环境的转移。我们引入了一个新的环境,代理学习比赛(L2R)在模拟的竞争风格的赛车,使用多模态信息,从虚拟相机的惯性测量传感器的全面阵列。我们的环境,其中包括一个模拟器和一个接口的培训框架,准确地模拟车辆动力学和赛车条件。在本文中,我们发布了自主赛车的到达模拟器。接下来,我们提出了具有挑战性指标的L2R任务,其灵感来自于学习驾驶挑战、方程式赛车和用于自动驾驶的多模式轨迹预测。此外,我们还提供L2R框架套件,便于在真实赛道的高精度模型上进行模拟赛车。最后,我们提供了一个官方的L2R任务数据集的专家演示,以及一系列的基线实验和参考实现。我们提供所有 代 码 : https : //github.com/learn-to-race/l2r.1. 介绍自动驾驶领域的进步依赖于具有挑战性的任务和明确的评估。*同等贡献。图1:赛车模拟器的学习赛车界面,其中包含许多真实世界的赛道,如Thrux- ton Circuit(左上)和Las Vegas MotorSpeedway(右上)。模拟赛车(底部)被赋予学习代理,任务是学习比赛的挑战,以获得最快的单圈时间和最佳指标。度量,使研究人员能够有效地评估和改进算法。在学习驾驶设置中开发的模型继续与样本中的问题-复杂性,安全性和不可见的泛化-进行斗争,需要9794更合适的基准[9,16,28]。我们假设高保真的仿真环境,连同定义良好的度量和评估程序,有利于开发更复杂的代理;并且反过来,这样的代理将更适合于现实世界的部署。模拟自动驾驶赛车在以下几个因素上表现出任务复杂性:(i)代理必须执行实时决策,需要计算高效的策略更新以及对等待时间的鲁棒性;(ii)代理必须能够处理现实的车辆和环境动态(而在不太现实的环境中的代理已经能够实现超人的性能);(iii)代理必须利用能够复制类似人类的驾驶行为的更多信息的内在奖励方案,例如,权衡安全性和性能;以及(iv)代理必须有效地使用离线演示,而不过度拟合,并且必须有效地利用与环境样本的交互。我们强调模拟赛车(图1)作为一个机会,制定学习策略,能够满足这些严格的要求。在这项工作中,我们发布了到达自主驾驶模拟器,其中包括模拟和真实车辆仪表的众多接口此外,我们介绍了学习比赛(L2R),一个多模态和连续的控制环境,用于训练和评估自主赛车代理。通过L2R环境,我们模拟了基于现实世界对应物的竞赛式赛道,我们提供了用于完全表征现实赛车代理的机制(例如,灵活的传感器布置、多模式摄像机、以及各种车辆动态特性曲线),并且我们提供了用于细粒度代理评估的多种工具(例如,随机和固定的产卵位置、定制的比赛地图构造、以及外部干扰的注入)。使用这些设施,我们使研究的问题,需要代理作出安全关键,亚秒级的决定,在动态不稳定的情况下,如自动赛车,实时不确定性分析在高速公路驾驶,轨迹预测。在本文中,我们举例说明了算法的开发和基准测试的方法下学习的demonstrations,强化学习和模型预测控制。具体而言,我们的贡献包括:(i)到达Au-赛车模拟器,它模拟高保真的比赛风格的轨道,车辆和各种传感器信号;(ii)Learn-to-Race(L2 R)框架,即插即用环境,其定义用于各种传感器模态的接口,并为基于学习的代理提供OpenAI-gym兼容的训练和测试环境;(iii)具有专家演示、度量和参考评估过程的官方L2 R任务和数据集;以及(iv)模拟器的学术发布、L2 R框架的代码以及基线代理的实现,以促进完全的可再现性和扩展。2. 相关工作2.1. 强化学习环境强化学习(RL),规划和控制领域的研究进展依赖于各种模拟环境,用于对游戏和机器人控制任务的代理性能进行基准测试[32,8,33,18,30]。这些任务需要顺序决策以完成目标并且通常由它们的状态维度、它们的动作空间的性质(例如,离散的或连续的),代理基数(即,单智能体或多智能体),以及底层模拟器捕获真实世界物理动力学的能力[18]。而绝大多数的任务提供,例如,DeepMind Control Suite[32]、OpenAI Gym [8]和MuJoCo物理引擎[33]已经解决了--智能体经常实现超人的性能--没有现有的环境专注于在动态不稳定的环境中对高速驾驶的高保真模拟2.2. 自动驾驶城市驾驶。CARLA [14]是用于自动驾驶的开源模拟器,其中已经定义了各种任务来挑战代理Duckietown[29,10]为城市自动驾驶提供了一个可定制的在本文中,我们主要关注自动驾驶赛车环境,这是传统城市和公路驾驶范围之外的挑战。径赛。在自主赛车中,代理必须在不稳定的物理动力学机制中做出亚秒级的决定,其中控制动作的衍生物可 以 根 据 车 辆 和 环 境 状 态 而 非 线 性 地 被 放 大 或CarRacing-v0,一个OpenAI健身房环境[8],是一个简单的赛车环境,它只使用鸟瞰在[17]中,研究人员训练代理人在视频游戏Gran Turismo Sport中比赛,但尚未发布他们的环境。此外,代替使用感官知觉,代理被直接提供特权信息,例如,距离障碍物和道路边界。TORCS [3]是一个开源模拟器,被模拟赛车锦标赛[27]使用,尽管它具有类似游戏的品质。由于模拟器的目标应该是准确地模拟真实世界的动态,我们断言,从这些框架模型转移的潜力仍然有限。2.3. 学习范例我们讨论了各种学习范式,使自动驾驶的模拟。9795赛车模拟器学习竞赛(L2R)任务框架剂传感器型号+放置信号命令OBS.行动奖励图2:Learn-to-Race允许代理通过一系列用于观察、动作和模拟器控制的接口与赛车模拟器进行交互。模 拟 到 真 实 的 转 换 。 DeepRacer [5] 由 Amazon WebServices开发,提供了一个端到端的框架,用于训练和部 署 1/18 规 模 的 自 动 驾 驶 赛 车 。 Indy AutonomousChallenge [1]鼓励机构创造自动驾驶汽车技术;向参与者提供了专有的VRXPERIENCE驾驶模拟器,该模拟器在情景高速公路驾驶的背景下更侧重于优化车辆内的人机交互,这与我们在自主赛车方面的工作重点形成对比。Roborace [2]是第一个全尺寸、真实世界自动驾驶赛车的国际锦标赛在这里,团队开发自动驾驶软件,并在挑战中竞争,使用Roborace拥有的车辆。Roborace为团队提供专有的软件在环(SIL)和硬件在环(HIL)仿真器以及基础驱动堆栈。然而,这些模拟器主要用于开发经典控制方法,并且不包括用于训练基于学习的代理的设施[7,22,23,31]。 作者在Thruxton Circuit(英国)的Season Beta Rob- orace比赛(2020-2021)中获得了领奖台,我们现在希望通过开源我们的自主赛车研究来实现新技术:据我们所知,我们公开发布了第一个环境,该环境专门用于模拟自主竞争式赛道赛车,并用于将基于学习的代理转移到现实世界。安全有效的学习。在以下方面施加安全约束:RL算法,已经变得流行,因为它有可能减少模拟到真实传输设置中的故障,并使代理对环境随机性具有鲁棒性[20]。目标是在策略中嵌入安全保证,而不会影响其性能或采样效率。虽然有一些工作考虑检测和避免不安全状态,但在城市驾驶[13]和人类辅助机器人[19]中,没有现有的工作专注于安全学习和控制,用于动态不稳定环境中的自主赛车流行的Safe-RL基准测试(例如,OpenAISafety Gym)缺乏真实的动力学,并且它们以低得多的速度评估代理;因此不能全面地研究现有方法的许多局限性。我们断言,L2R提供的物理现实主义,促进这些基本方法的改进。3. 仿真环境3.1. 到达自主赛车模拟器Arrival模拟器是开发和测试自动驾驶汽车的强大工具。它基于虚幻引擎4,包括以下功能:(i)车辆原型框架;(ii)完整的软件在环(SIL)仿真,以模拟所有车辆控制装置;(iii)控制器局域网(CAN)总线接口;(iv)相机、惯性测量单元(IMU)、光检测和测距(LiDAR)、超声波和雷达传感器模型;(v)语义分节;(vi)传感器放置和配置设施;(vii)V2 V/V2 I接口子系统;(vii)动态赛车场景创建;(viii)从扫描数据集生成赛道;(ix)支持与CARLA模拟器的完全集成[14];以及(x)基于C++代码分析自动生成的应用程序编程接口(API)。详情见补充资料。3.2. 学习竞赛环境Learn-to-Race(L2 R)是一种多模式控制环境,它为智能体提供了一系列与赛车模拟器交互的接口,包括发送控制命令以及通过不同传感器观察环境和车辆状态的能力(图2)。L2R被实现为Gym环境[8],支持控制策略的快速原型。虽然我们发布了L2R环境和任务(第4节)以及Arrival模拟器,但我们注意到其他模拟器可以与L2R一起使用,包括[2]提供的模拟器。政策相机界面跟踪器+指标IMU接口本地化接口动作界面奖励函数模拟器控制健身房环境/地图车辆制造+配置API9796←←←·|←--代理-模拟器交互。在每一步t,智能体基于其当前观察st使用其策略πθ选择动作at:at πθ(st)。 中的控制操作 代理作为UDP消息被转发到模拟器。L2R从模拟器接收更新,即,通过TCP和UDP套接字连接,从虚拟摄像头获取图像和/或从其他车辆传感器获取测量值。如在现实中,跨各种传感器模态的更新频率是不相等的,因此L2 R通过向代理提供来自每个传感器模态的最新数据来同步观察(A1-m 1)。环境的step方法返回新的 观测 值 st+1 , 连同 计算出 的 rew (rt=R(st,at,st+1))和布尔终端状态标志一起返回给代理奖励函数和评价指标在第4.3节中定义。算法1代理-模拟器交互2:数据初始值第 三 章 :函数GETDATA 4:返回数据第 五 章 :而 未 终 止 do6 :data接收数据7:第八章: 函数STEP(at)第九章:以UDP消息形式发送t10:st+1←获取数据传感器读数十一:RtR(st,at,st+1)十二:做是终端(st,st+1)十三:返回nst+1,rt,完成情节控制。控制界面与模拟器通信L2R方便地允许在一个命令中启动训练,因为赛车模拟器和学习环境的所有方面都是参数化的。如果所有圈都成功-完全完成,如果车辆的车轮中至少有2个超出可驾驶区域,或者如果进度最低限度不足,则认为状态是终端情节开始于将车辆重置到站立开始位置,在参数化位置处连同配置的传感器接口和初始化的奖励功能。代理采取离散步骤,直到满足上述发作终止标准之一。4. 任务:学会比赛学习比赛(L2R)任务测试代理的能力,以执行必要的行为的竞争风格的在本节中,我们将提供任务概述并描述任务属性、数据集特征和指标。4.1. 任务概述L2R提供了一个OpenAI Gym [8]兼容的学习环境,研究人员可以在可用的传感器模式中灵活选择。这个早期版本的环境,使单代理赛车在三个赛道(自定义赛道建设设施),mod-eled后,他们的现实世界的同行。其中包括英国的Thruxton Circuit(Track 01:Thruxton ) 和 Anglesey National Circuit ( Track02:Anglesey),以及位于美国的Las Ve- gas MotorSpeedway ( Track03 : Vegas ) 的 North RoadTrack。类似于在其他模拟环境中具有单独的城镇地图用于训练和测试,例如,CARLA [14],我们使用Track01和Track02进行训练,使用Track03进行测试。因此,我们从训练轨迹中生成专家轨迹,以包含在我们的初始数据集发布中(参见第4.2节)。在L2 R中可以探索许多研究途径,包括各种学习范式,例如:(受约束的)强化学习、从演示中学习、多任务学习、迁移学习和域适应、模拟到真实迁移、快速决策、经典/神经混合建模等。不管选择的方法如何,智能体的多模态感知能力-即,它们融合和排列感觉信息的能力是至关重要的。4.2. 学会比赛数据集我 们 从 训 练 轨 道 Track01 : Thruxton 和Track02:Anglesey生成丰富的专家演示的多模式数据集,以便通过例如模仿学习(IL)。L2R数据集包含100毫秒分辨率的多感官输入,包括观察和动作空间。根据所选择的模拟器感知模式,代理可以访问一个(仅视觉模式)或所有模态(多模态模式)。有关可用模态的完整列表,请参见表1。动作空间由加速度和转向的连续值定义,在范围[ 1. 0,1。0],其中负加速度值将使车辆减速到停止位置。请注意,齿轮是一个可控的行动,但固定驱动在我们所有的实验。使用模型预测控制器(MPC)(第5节)收集专家演示,该控制器第一个版本的数据集包含每个传感器和动作维度的10,600个未来版本的L2 R将包括访问新的模拟轨道(在世界各地的其他真实轨道之后建模)以及从这些额外的轨道生成的专家轨迹-跨越各种天气条件,在具有挑战性的多智能体设置中,以及在危险的避障场景中。9797.- -2表1:学习比赛任务的观察和连续动作空间的总结。当模拟器在仅视觉模式下初始化时,观察空间仅由来自自我车辆的前置摄像头的图像组成。额外的观测数据,所有这些都是现实的真实赛车上访问,可在多模式。* 虽然齿轮被允许作为可控参数,但我们在实验中不使用它。信号描述尺寸[-1.0,1.0]R1中的动作加速[-1.0,1.0]R1中的转向档位{驻车、前进、空档、倒档} -图像RGB图像RW×H×3转向观察转向方向R1档位{驻车、前进、空档、倒档} -模式车辆模式R1ENU坐标中的速度(m/s)R3观察ENU坐标中的加速度(m/s2)R3偏航,俯仰,滚转方向的汽车(rad)R3角速度方向的变化率(rad/s)R3位置车辆中心在ENU(m)R3每轮车轮转速(RPM)R4制动每轮制动压力(Pa)R4Ttorqueperwheel(Nm)R44.3. 任务指征L2R任务的主要目标是最小化智能体成功完成赛车圈所需的时间,并对智能体的驾驶质量提出额外要求我们不限制代理的学习范例,例如,IL或RL;相反,我们可以设想大量适用于该任务的组合策略和其他方法。虽然我们不包括与官方L2R任务一致的仅规划方法,但(i)我们环境因素,如车轮打滑和天气影响的任务成熟。平均位移误差(ADE)是轨迹预测[28]中的一个常用度量,它测量智能体与参考路径(在本例中为轨迹中心线)的平均偏差。轨迹容许性(TrA)是在等式1中定义的无量纲度量α,其中te是事件的持续时间,并且tu是在恰好一个车轮在可驾驶区域之外的情况下不安全驾驶所花费的累积时间。鼓励混合或基于模型的学习方法;(二)鼓励使用模拟器和α=1tute(一)L2R接口的使用有待于进一步的研究,在这些领域中更具有普遍性。不知道所使用的学习范式,并受到高速驾驶,机器人导航[18]和轨迹预测[28]的概念的启发,我们定义了用于训练L2R代理并评估其性能的核心模式,指标和目标。我们在表1中总结了代理我们还利用衡量代理行为平滑度的指标:轨迹效率(TrE)测量轨迹曲率与代理轨迹曲率的比率,即,在代理航向偏差方面;移动平滑度(MS)量化了智能体的加速度曲线的平滑度,针对重力进行了调整,使用等式2中的否定的对数无量纲加加速度η 1 d j,其受[6]启发:.(t2−t)3∫t2。d2v.Σ我们定义成功完成一集L2R的任务是3个完成圈,从一个站立ηldj=ln2峰值t. dt2.(二)发作完成百分比(ECP)测量已完成的发作的量,并且发作持续时间(ED)测量座席在整个发作中进展到其最大程度所花费的最小时间量。我们将平均调整赛道速度(AATS)定义为测量在事件的所有三圈中代理的平均速度的度量。度量还可以包括调整-而不是限制代理预定义的激励政策,cies,输入尺寸,甚至输入方式,L2R允许和鼓励灵活性,使代理可以学习有效地比赛。L2R的默认奖励函数受[17]启发:该策略为前进提供了与最小化单圈时间的目标一致的密集奖励,并且为出界提供了负奖励。1v1DT9798×个2Σ4.4. 任务评估程序座席评估通过排行榜竞赛进行,分为两个不同的阶段:(1)预评价和(2)评价。根据行业标准,我们采用了以比赛为中心的预评估步骤,用于评估代理人的性能,在正式评估之前,让代理人在测试轨道上有一个温暖的开始。就像人类赛车手被允许熟悉新的赛道一样,在比赛之前,我们对模型进行了预评估,解冻权重,允许一些初始(尽管受到限制)的探索。在此预评估阶段,代理可以探索环境60分钟的固定时间,其定义在来自L2R框架的离散观察的时间步长的数量中。在预评估中 对于Las Ve-gas Motor Speedway的North Road赛道,唯一的能力检查是座席能够在预评估期间成功完成一圈,加速度上限为动作空间中允许的最一个成功的插曲被定义为从站着开始完成3圈,并且代理人没有走出赛道的可驾驶区域。如果座席在预评估阶段不成功,则将取消其资格,不再对其进行进一步评估。随着我们继续为新赛道提供支持(需要更新颖的驾驶操作),我们还将继续增加和执行驾驶能力检查,以保持这些赛道上评估的公平性。成功完成预评估阶段后,进入最终测试阶段:代理被提供了所有不同的输入模式,并且必须在定义的度量上进行竞争4.3. 当代理成功通过预-在评估阶段,不向用户提供评估的结果。的L2R通过经典的控制方法。该MPC最小化的跟踪误差相对于赛道的中心线我们使用[26]中提出的迭代线性二次调节器(iLQR),其沿着轨迹的当前估计迭代地线性化非线性动态,基于线性化动态求解线性二次调节器问题,并重复该过程直到收敛。具体来说,我们使用了[4]中的iLQR实现。我们采用kine- matic自行车模型[25]来表征车辆动力学。补充资料中提供了更多MPC详细信息虽然MPC意味着最佳的控制性能,我们要指出我们目前的实施的局限性首先,我们不知道地面真实车辆参数,我们使用估计值。其次,我们要求MPC沿着赛道的中心线行驶,这不是专家驾驶员会采取的轨迹,特别是在转弯时。最后,我们预先指定MPC以保守速度(12.5m/s)驾驶,这使得专家演示更容易学习。条件模仿学习。我们采用了与[11]相同的神经架构,除了在我们的情况下没有不同的命令,例如,向左拐,向右拐,直走,然后停下来。因此,我们使用单个分支来解码动作。我们假设前视图图像和传感器测量结果都可用于IL试剂。在每个样本中,输入由512384图像和30传感器测量,输出为2个动作(如表1)。CIL的实现基于指定的输入-输出维度自动调整神经网络架构。模仿损失(公式3)是预测行为at和专家采取的行为at之间的均方误差。n能力检查,而是能够查看重新L=Σ||ai−a||2(三)直接在排行榜上的完整评估结果5. 基线药物我们定义了一系列免学习(例如,随机、MPC)和基于学习(例如,强化学习、模仿学习)基线,以说明各种算法类在L2R任务上的性能。我们还通过一系列专家试验来衡量人类的表现。随机该随机代理主要是作为一个简单的演示如何与L2R环境接口。随机代理在轨道的开始处产生,并且均匀地采样动作,即,转向和加速,从动作空间。然后,代理继续执行这些随机动作。MPC。MPC用于生成专家演示(第4.2节),并用作参考解决方案i=1软演员评论家。我们提供了软演员评论(SAC)[12,21]的参考实现,其通常是性能良好的并且已知是鲁棒的[15]。SAC属于最大熵强化学习(RL)算法家族,其中代理最大化预期回报,服从熵正则化项(等式4),作为权衡探索和利用的原则性方式。不J(θ)= Eπθ [R(s t,a t)− H(π θ(a t|(4)t=1我们的RL-SAC代理在环境中演示了几个功能:它在仅视觉模式下操作,但不是直接从像素学习,我们预先训练了在样本相机图像上制作的卷积、变分自动编码器[24]。因此,我们的代理只需要学习使用多层9799↑↓表2:Learn-to-Race定义了用于评估代理性能的多个度量。这些度量度量总体成功,例如,任务是否完成以及完成的速度有多快-以及更具体的属性,例如轨迹可接受性和平滑性。度量定义发作完成百分比3圈发作完成发作持续时间发作的持续时间(秒)平均调整后赛道速度所有三圈的平均速度,根据环境条件进行调整,单位为km/h距(未观测)轨道中心线的平均位移误差欧几里德位移,单位:米轨迹容许性不安全时间累积比例平方根的补码轨迹效率轨迹曲率与轨迹曲率之比(即,在座席标题中)记录基于加速度计数据的无量纲加加速度,并针对重力进行表3:关于表2中的任务度量,在Thruxton赛道上训练时关于学习竞赛任务的基线代理结果:事件完成百分比(ECP)、事件持续时间(ED)、平均调整的轨迹速度(AATS)、平均位移误差(ADE)、轨迹容许性(TrA)、轨迹效率(TrE)和运动平滑度(MS)。箭头()表示性能更好的方向。表3和表4中的星号(*)表示对于不完整的比赛片段可能具有误导性的度量代理ECP(↑)ED(↓)AATS(↑)ADE(↓)TrA(↑)TrE(↑)MS(↑)100. biggest biggest biggest 0(±0. 0) 235。8(±1. 7)171. 2(±3. 4)2. 4(±0. 1)0。93(±0. 01)1. 00(±0. 02)11. 7(±0. 第一章随机0。5(±0. 3)14. 0(±5. 5)11. 9(±3. 8)1. 5(±0. 6)0。81(±0. 04)0. 33(±0.6. 7(±1. 第一章MPC100。0(±0. 0)904。2(±0. 7)45. 1(±0. 0)0。9(±0. 1) 0。98(±0. 01)0. 85(±0. 03)10. 4(±0. 六、第三十一章. 1(±0. 0)251。2(±1. 4)50。5(±0. 3)0。5(±0. 0)0。97(±0. 0)0。48(±0. (0)*11. 1(±0. 四、表4:在拉斯维加斯赛道上测试时,学习比赛任务的基线代理结果。随机1. 0(±0. 6) 21. 9(±9. 6) 9. 2(±1. 5)1. 4(±0. 3) 0。74(±0. 01)0. 18(±0. (05)*8. 4(±1. 0个)MPC69. 5(±10. 7)353. 2(±54. 8)40。5(±0. 1)0。8(±0. 1)0。91(±0. 02)1. 07(±0. 01)*10. 4(±0. (二)RL-SAC11. 8(±0. 1)109. 9(±7. 5)22. 1(±1. 5)1. 3(±0. 1)0。95(±0. 01)0. 58(±0. 01)※9. 9(±0. (二)具有两个隐藏层的感知器,每个隐藏层有64个隐藏单元。我们的代理人类我们还建立了一个人类的性能基线,通过收集模拟比赛的结果,从人类专家的球员。收集程序涉及一个私人众包事件,分为两个独立的阶段-实践/培训和记录/测试。在参加比赛之前,前选手已经熟悉了模拟器,任务和目标。在训练阶段,运动员被指示参与比赛,直到完成的单圈时间的变化,对于三个连续的运行,低于一定的阈值。在这个训练阶段之后,球员被允许进入测试阶段,记录他们的前3圈。我们平均了测试阶段所有专家对每条赛道的前3名成绩;丢弃训练结果。6. 实验和结果我们评估了每个基线代理人-人类,随机,MPC和RL-SAC-在L2 R任务,目标是在最短的时间内完成连续3圈。对于所有方法,代理在Track01:Thruxton上完成模型训练和调整。我们在表3中列出了3个连续事件中每个指标的平均值。然后,在第4.4节所述的1小时预评估期后,根据座席在Track03:Vegas无学习代理,随机和MPC,只是在测试环境中执行推理。RL-SAC代理是一种基于学习的方法,以仅视觉模式操作,并利用预评估阶段来执行对新赛道的简单迁移学习。代理以下剂ECP(↑)ED(↓)AATS(↑)ADE(↓)TrA(↑)TrE(↑)MS(↑)人类一百块0(± 0. 0个)一百七十六2(± 3.四、一百一十四2(± 2.第三章1 .一、7(± 0.第一章0的情况。88(± 0.01)1 .一、09(± 0.02)10个。1(± 0. 第三章9800在预评估阶段,代理商完成了3个连续的事件,我们在表4中给出了度量平均值。人类专家。在训练和测试过程中,人类专家的表现都强于其他人,这表明他们对赛车有着普遍的理解:它们可以快速适应新的轨道,尽管具有不同的特征,包括频繁和严重的转弯。人类专家以接近车辆物理极限的速度完全完成3圈,并估计其单圈时间性能在最佳的10%以内。我们期望强大的代理执行比赛道中心线曲率更低的轨迹,或至少1.0的TrE,允许车辆保持更高的只有人类专家才能做到这一点,因为没有完成一集会扭曲指标。然而,这样的轨迹是侵略性的和危险的,因为它们十之八九涉及在车轮几乎在可驾驶区域之外的情况下偷工减料;这通过较高的ADE值和相对较低的TrA是明显的。此外,人类专家相对于MS的其他代理而言表现良好,证明了预测加速需求和应用平滑控制的能力。基线药剂。 有几个值得注意的结论,我们作出的基础上,我们不声称是最先进的基线代理的性能。第一个是任务确实具有挑战性,因为即使是具有近似汽车模型的MPC代理也未能在测试轨道上一致地完成圈数。即使在训练跑道上超过100万步的环境步数后,RL-SAC代理也只完成了大约90%的一圈,这是由于在Thruxton终点线附近的具有挑战性的速度陷阱。然而,RL-SAC试剂在ADE和MS的训练中表现出比MPC更好的控制。其次,我们注意到RL-SAC代理的泛化能力和样本效率差,其性能在沿着轨道ECP前进的能力方面显着下降,并且保持在中心线ADE附近,尽管被直接激励这样做。智能体学会简单地完全停止,以避免在测试轨道的1/3处出界。我们注意到,模仿学习有可能提供强大的先验代理。然而,在我们的实验中,[14]建议的基于输入/输出维度和单独的逐步监督的自动网络大小调整并没有产生良好的性能。这证明了L2R对这一系列方法提出的挑战,需要考虑例如联合IL/RL策略。7. 讨论我们相信,智能体可以在任何给定的轨道上实现超人的性能,因为(1)它们足够复杂,(2)它们与环境交互目前尚不清楚的是,智能体在现实的模拟环境中如何推广到新的赛道我们认为学习比赛任务将基于对车辆动力学、高速和高风险控制、赛道感知和智能赛车战术的全面理解,有效地评估模型。为了挑战最先进的学习方法,这些方法在简单的环境中继续表现出超人的表现,我们认为未来任务的方向必须朝着更高的复杂性和现实主义发展。我们的赛车模拟器已被用作自主代理的主要建模工具,这些代理已展示了超过200公里/小时的真实赛车速度,比可比环境快一个数量级我们的模拟环境的限制,相对于竞争的模拟器,包括多智能体赛车和(目前)有限的赛道供应,但是,多智能体赛车和额外的轨道将遵循。未来的增强功能还包括额外的车辆传感器、域随机化以及对基于学习的方法中的分布式训练的支持我们相信,这些增强功能是现实世界迁移和安全学习的先驱。8. 结论我们介绍了:(i)用于自主赛车的开发和测试的高保真模拟器,(ii)能够在该模拟环境中快速原型化、训练和测试的Learn-to-Race环境,以及(iii)定义数据集特征和具体驾驶启发指标以用于评估的L2 R任务。L2R解决了缺乏复杂学习环境的问题,并引入了模拟高性能赛车的挑战性任务。虽然人类专家已经在这项任务上展示了强大的成果,无论是使用L2R框架还是在竞赛中,学习代理都没有。我们已经为经典控制、RL和IL代理以及人类专家提供了相关的竞赛指标和基线结果,并且我们正在发布参考实现和模型检查点以进一步推进研究。L2R的任务和指标套件将在未来继续扩展,包括引入多智能体赛车。我们希望有一天能看到智能体在自动赛车中达到超人的、真实世界的表现。确认有许多人帮助创建了这个任务环境。我们非常感谢RoboRace社区,特别是Hive团队开发了模拟赛道地图 。 我 们 感 谢 开 发 人 员 方 博 辉 、 Ignacio MaronnaMusetti、Jikai Lu、Zihang Zhang和Xinnan Du的支持。我们还要感谢Maxim Integrated Products对我们的支持。这项工作得到了博世匹兹堡研究所的部分支持。9801引用[1] Indy自主挑战。网址://www.indyautonomouschallenge.com/ 的 网 站 。上次访问日期:2021年1月30日。[2] Roborace https://roborace.com/ 网 站 。 上次访问日期:2021年1月30日。[3] torcs 的 开放 赛车 车 模拟器网址://torcs.sourceforge.net/index.php?name=Sections op=viewarticle artid=19号。 最后访问:2021-01-30.[4] 布兰登·阿莫斯,伊万·达里奥·希门尼斯·罗德里格斯,贾科布·萨克斯,拜伦·布茨和J·济科·科尔特。用于端到端规划和控制的可区分mpc。arXiv预印本arXiv:1810.13400,2018。[5] B. Balaji、S.Mallya,S.Genc,S.古普塔湖狄拉克V. Khare , G. Roy , T. 太 阳 , Y 。 陶 湾 汤 森 E.Calleja , S. Muralidhara 和 D. 卡 鲁 帕 萨 米 Deep-racer:用于sim 2 real强化学习实验的自主赛车平台。 在2020 年IEEE机器 人和 自动化 国际 会议(ICRA),第2746-2754页[6] S. Balasubramanian、A. Melendez-Calderon和E.伯德特用于量化运动平滑度的稳健且灵敏的度量。IEEE Transactions on Biomedical Engineering,59(8):2126[7] J. Betz,A. Wischnewski,A. Heilmeier,F. 诺比斯T.斯塔尔湖Hermansdorfer和M.林坎普一种自动驾驶赛车的软件架构。2019年IEEE第89届车辆技术会议(VTC 2019-Spring),第1-6页[8] G.布罗克曼张湖彼得森,J. 施耐德J. Schulman,J. Tang和W.扎伦巴Openai健身房,2016年。[9] Dian Chen , Brady Zhou , Vladlen Koltun , andPhilipp K r?henb?hl. 通过作弊来学习。机器人学习会议,第66-75页PMLR,2020年。[10] M. Chevalier-Boisvert,F. Golemo,Y.曹湾,澳-地 Mehta 和 L. 保 罗 开 放 式 健 身 房 的 环 境 。https://github.com/duckietown/gym-duckietown,2018.[11] Felipe Codevilla , Matthias M“uller , AntonioL'opez,Vladlen Koltun,and Alexey Dosovitskiy.通过条件模仿学习实现端到端驾驶。在2018年IEEE机器人和自动化国际会议(ICRA),第4693-4700页。IEEE,2018年。[12] P. 达里瓦尔角黑森岛O.克利莫夫,A。Nichol,M.Plap- pert,A.Radford,J.Schulman,S.Sidor,Y.Wu 和 P. Zhokhov.Openai 基 线 。 https ://github. com/openai/baselines,2017.9802[13] Wenhao Ding , Baiming Chen , Bo Li , Kim JiEun,and Ding Zhao.用于决策算法评估的多模态安全关键场景生成IEEE Robotics and AutomationLetters,6(2):1551[14] AlexeyDosovitskiy 、 GermanRos 、 FelipeCodevilla、Antonio Lopez和Vladlen Koltun。卡拉:一个开放的城市驾驶模拟器。在第一届机器人学习年会论文集,第1- 16页[15] Benjamin Eysenbach和Sergey Levine最大熵rl(可证明地)解决了一些鲁棒rl问题。arXiv预印本arXiv:2103.06257,2021。[16] AngelosFilos 、 PanagiotisTigas 、 RowanMcAllister、Nicholas Rhinehart、Sergey Levine和Yarin Gal。自动驾驶汽车能否识别、恢复和适应配送班次?在国际机器学习会议(ICML),2020年。[17] F. Florian,S.云龙E.Kaufmann,D.Scaramuzza,和P.杜尔使用深度强化学习的Gran Tur-Ismo运动中的超人表现,2020。[18] JonathanFrancis , NariakiKitamura , FelixLabelle,Xiaopeng Lu,Ingrid Navarro,and JeanOh.具身视觉语言规划的核心arXiv预印本arXiv:2106.13948,2021。[19] David Fridovich-Keil , Andrea Bajcsy , Jaime FFisac,Sylvia L Herbert,Steven Wang,Anca DDragan,and Claire J Tomlin.用于实时避免碰撞的置信度感知运动国际机器人研究,39(2-3):250[20] 我是维耶·加西亚和费尔南多·费尔南德斯。安全强 化 学 习 综 述 Journal of Machine LearningResearch,16(1):1437[21] T. Haarnoja,A. Zhou,P. Abbeel,and S.莱文温和的演员评论家:随机参与者的离线最大熵深度强化学习。在Jennifer Dy和Andreas Krause,编辑,第35届国际机器学习会议论文集,机器学习研究论文集第80卷,第1861-PMLR。[22] T. Herrmann,F.Passigato,J.Betz和M.林坎普最小竞赛时间规划--一辆高级电动赛车的策略。2020 IEEE 第 23 届 智 能 交 通 系 统 国 际 会 议(ITSC),2020年9月。[23] T. Herrmann,A.维施纽斯基湖Hermansdorfer,J.Betz和M.林坎普自动驾驶电动汽车在操纵极限下的 实 时 自 适 应 速 度 优 化 IEEE Transactions onIntelligent Vehicles,第1-1页9803[24] D. P.Kingma和M.威林自动编码变分贝叶斯。在2014年4月14日至16日在加拿大AB省班夫举行的第二届学习表征国际会议
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功