基于代理人的强化学习算法来解决嵌入式AI环境中的任务，但对于只有终端奖励的情况下，成形奖励训练的效果显著下降

16 浏览量更新于2023-10-14 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

GridToPixGridToPixGridToPix1GRID TO PIX：用最少的监督训练具身代理人Unnat Jain1Iou-Jen Liu1Svetlana Lazebnik1AniruddhaKembhavi2LucaWeihs2Ale xanderSchwingg11伊利诺伊大学厄巴纳-香槟分校艾伦人工智能研究所Allen Institute for AIhttps://unnat.github.io/gridtopix/摘要虽然深度强化学习（RL）承诺从手动标记的数据中获得自由，但巨大的成功，特别是对于Embodied AI来说，需要通过精心设计的奖励来创建实际上，如果没有成形的奖励，即在只有终端奖励的情况下，当前的Em- bodiedAI结果在Embodied AI问题上显著下降，从基于单智能体Habitat的PointGoal导航（SPL从55下降到0）和基于双智能体AI 2-THOR的家具移动（成功率从58%下降到1%）到基于三智能体Google Football的3vs.1与守门员（游戏分数从0.6下降到0.1）。由于从成形奖励中进行的培训为此，我们提出GRIDTOPIX：1）在网格世界中训练具有终端奖励的代理，该网格世界一般反映了嵌入式AI环境，即它们独立于任务; 2）将学习到的策略提取为驻留在复杂视觉世界中的代理。尽管仅从具有相同模型和RL算法的终端奖励中学习，但GRIDTOPIX显著改善了跨任务的结果：从PointGoal导航（SPL从0提高到64）和家具移动（成功率从1%提高到25%）到足球游戏（游戏得分从0.1提高到0.6）。GRID T O P IX甚至有助于改善成形奖励训练的结果。1. 介绍Embodied AI研究社区开发了一系列有能力的模拟环境，专注于导航[58，78]，交互[35，77，24]，操纵[79，32，81]和模拟到真实的转换[21，50，34]。在过去几年中，在这些环境中取得了快速进展，特别是在导航繁重任务中，如PointGoal导航[58，75]。家具移动3与1个Keeper（AI 2-THOR）（谷歌足球）成功游戏分数58620.60.650.57251DirectPix0.07GridToPixDirectPixGridToPix（我们的）（我们的）PointGoal导航（生境+吉布森）SPL六九六四550.1DirectPixGridToPix（我们的）形状奖励终端奖励图1. 形状与终极奖励在三个任务中，尽管在给予精心塑造的奖励时取得了高性能，但实体AI代理无法使用标准RL方法从终端奖励中学习当使用我们的GRIDTO PIX方法时，具体化的AI代理成功地从终端奖励中学习，有时甚至优于接受成形奖励的DirectPix训练的代理奖励1[84]，追求越来越有能力的代理已经引导我们采用大量的人类监督[60，2，65，28，37]，奖励塑造[75，67]和特定任务的架构[12，54]。今天在训练Embodied AI代理时手动调整的众多奖励和辅助超参数让人想起多年前计算机视觉中的仔细特征工程[44，17，39]虽然这些设计选择已经让我们的领域（和代理）离开了地面，但很难相信这种方法-随着任务的复杂性和物理性的增加，科学也会随之扩展。深度RL在Embodied AI集沿着更具挑战性的道路从终端学习表示LW和AS的平等指导1即，奖励结构，其中在情节结束时给出唯一的目标相关奖励。目标独立奖励，例如，可以在每一步给出时间步惩罚。1514115142图2. GRIDTOPIX方法将知识从网格世界转移到可视化代理。我们建议在网格世界环境中训练代理，其中感知被简化，模拟速度快，反映了嵌入式AI研究中使用的视觉环境。学习的gridworld政策，然后可以通过模仿学习提炼到视觉代理。参见第3.3详细说明卡尔现实主义相反，我们必须借鉴游戏中强化学习的显着成功[62，61]，其中复杂的代理人在终端奖励形式的最小监督下进行训练作为实现这一目标的第一步，我们根据经验分析了现代久经考验的 Embodied AI 算法仅从视觉环境（DirectPix）中的终端奖励中学习高质量策略的能力。我们在三个不同的模拟器中考虑各种具有挑战性的任务-1在Google Research Football Environment中使用Keeper[38]（游戏得分从0.6下降到0.1）。仅给予终端奖励，我们发现这些现代方法的性能急剧下降，如图所示。1.一、通常，尽管训练了数百万个步骤，但没有学到任何有意义的策略这些结果令人大开眼界，并提醒我们，在追求可以在最小监督下学习技能的嵌入式代理方面，我们还有很长的路要走，即，以终端奖励的形式进行监督。如果当今的强化学习算法在其他领域取得了成功（特别是那些需要较少视觉处理的领域[62，61，16]），为什么他们要为体现AI而奋斗？我们的假设：这种困难是由于需要具体化的代理学习同时计划和感知。这将“非平稳性”引入到学习中-规划模块必须不断适应感知推理的变化。虽然学习中的非平稳性也是RL方法克服的过去挑战中的一个问题，但由于存在丰富多样的视觉观察，长期规划，协作需求以及推广到看不见的测试世界的要求，体现AI任务加剧了这个问题。在这个假设的驱使下我们学习GRID TO PIX，a训练例程的体现代理解耦的联合目标的规划从视觉输入成两个可管理的部分。具体来说，使用通用gridworldenvi- ronments，一般反映体现的环境的利益，我们首先训练一个gridworld代理所需的任务。在网格世界中，智能体具有完美的视觉能力，允许学习算法专注于长期规划，仅给予终端奖励。接下来，这个gridworld代理监督一个代理，该代理仅在复杂的视觉观察上操作（在测试时不需要gridworld重要的是，我们对“网格世界”的概念化并不局限于自上而下的占用地图。正如我们在SEC中详细介绍的那样。3.2，网格世界是完美感知环境，即，语义对于代理是明确可用的。在任务之间，如图所示。 1 ，我们观察到，GRIDTOPIIX显着优于直接可比2方法时，训练视觉代理使用终端回报：对于PointGoal导航的SPL指标从0提高到64;家具搬运的成功率从1%提高到25%; 3 vs. 1与守门员的比赛得分提高- proves从0.1到0.6。此外，GRID TOPIX甚至在经过精心设计的奖励培训后改进了基准。这一发现类似于弱监督计算机视觉方法所取得的进展，这些方法逐渐接近完全监督方法所设定的基准。2. 为什么要学习终端奖励？人类监督，手写和基于规则的专家教师，形奖励，自定义架构是常见的，当开发越来越有能力的体现代理。当开发只有最少监督的代理时，自然会出现几个问题。由于基于规则的优化专家经常在-2即，使用相同的模型架构。环境中的Agent轨迹...摆脱绅士（perfectperception）模仿1...第九章绅士(RGB意见）1step=12步骤=2不步长=T215143不不⇠2≥不不一天的模拟环境和任务，为什么不使用它们在每一步进行密集的监督？诚然，许多当今的具体化任务是导航的，这允许使用最短路径算法容易地计算最优动作。然而，社区正在迅速转向更复杂和基于物理的任务，其中基于规则的专家在计算上昂贵或不可行。例如，考虑围棋、花火和足球游戏，或者帮助老人和救灾的现实任务。要为这些例子中的任何一个设计一个启发式专家都是极其困难的，更不用说最佳专家了。在这些环境中，创造启发式专家与我们希望避免的奖励塑造一样，即使不是更多，也是劳动密集型的考虑到这些长期的追求，我们认为研究和开发以最小的监督学习的方法是很重要的，包括今天流行的任务。在这项工作中，可以很容易地计算出流行的点导航任务的最佳行动[58]。但是对于我们考虑的其他两个任务[38]第38话–如果不是基于规则的专家，收集人类注释怎么样？深度模型需要相当于多年的专家监督，即使是完美感知任务[16]。3嵌入式AI无疑需要类似（如果不是更多）数量的注释。收集这些人类注释是劳动密集型的，并且必须为我们希望我们的代理完成的每一个新任务和行为而做这对于更复杂的行为是极其昂贵和棘手的。相比之下，终端奖励很容易提供，并允许多年的模拟自我游戏（在挂钟时间内易于处理）。这一目标与人工智能社区的追求密切相关--为什么我们应该期望计算终端奖励比计算成形奖励更容易？虽然我们3. GRID TO PIX我们感兴趣的是仅从终端奖励中学习高性能策略V，其作用于现实的（例如视觉）观察，以下称为视觉环境。然而，从经验上讲，无论任务和环境如何，我们发现联合学习的感知和规划从终端rewards（DirectPix）是非常具有挑战性的，总结在图。1.一、相比之下，由于它们的感知简单性，网格世界通常非常快地模拟，并且学习是样本高效的，因为网格世界策略G需要投入很少的精力来学习准确的感知。这使得网格世界的代理能够快速地从只有终极奖励。Gridworlds的这个优势是一个减少劳动密集型奖励形成工作的机会：我们是否可以首先从网格世界中的终端奖励中学习策略，这些策略复制了视觉环境的动态，然后有效地将这些策略传递给视觉代理？我们指的是设计用于实现这种转移的方法，该方法在图1中绘出。2作为G RID T O P IX，并在下面讨论。特别是，SEC。3.1形式化终端和成形奖励，Sec.3.2描述了我们如何设计网格世界，复制视觉环境3.3详细介绍了我们如何训练网格世界代理，以及如何使用模仿学习将网格世界策略转移到视觉代理。3.1. 终端vs.成形的奖励结构训练过程中使用的奖励结构对学习策略的样本效率、稳定性和质量有实质性影响本文中考虑的任务的大多数先前工作使用成形的奖励结构，即，代理在时间步t获得的奖励可以分解为我们相信有很好的证据表明r形=r成功+r进步+r？？.（一）一般来说是这样的。成形奖励经常被设计成在每一步都向智能体提供关于其实现目标的进展的反馈。计算这样的奖励，因此需要近似一个t t t t t t这里，rsuccess是一个稀疏的终端奖励，除了最后一个时间步之外，其余时间步都等于0;对于我们考虑的任务，tance,’ in terms of agent actions, between an arbitrary stateand 在计算机上构建任务并不困难r成功=（r成功·（1-·T）如果目标实现，（二）计算这样的距离是NP完全的（使用已知算法的指数时间）。相比之下，验证智能体是否达到了目标（因此应该得到最终奖励）不需要这样的搜索，这在原则上是一个更容易的问题。43BabyAI gridworld [16]研究表明，需要21M个专家动作来训练智能体以高性能完成指令遵循任务。如果人类每秒产生1个动作，则需要246天的标记。4. NP完全问题的整个类别是一个验证否则，其中T1是最大允许的片段长度，并且r成功>0，[0，1]是任务特定的常数。5此外，r进步是一种密集的、依赖于目标的奖励，通常等于解决方案是容易的（多项式时间），但在其中找到这些解决方案是从根本上更难（除非P= NP）。5在终端奖励中包括参数允许编码一个更细致的衡量成功的标准。请注意，当>0时，当代理以更少的步骤完成任务时，r成功15144不V距离目标的变化。最后，是吗？？是一种可能密集但与目标无关的奖励，旨在鼓励通常被认为是“好”的行为任务的执行，例如， rt？？通常包括一个小的n个步骤惩罚，温和地鼓励智能体快速完成任务。如前所述，目标相关的成形奖励或进度必须手动设计，可能在计算上是昂贵的，并且通常需要对环境状态的特权访问。正因为如此，我们通常的目标是训练具有简单奖励结构rterminal=rsuccess+r？？.（三）t t t事实上，对于我们的终端奖励实验，我们让图3. 模型概述。自上而下的网格和视觉观测如何由各自的网络处理的示意图。gridworld代理是通过actor-critic损失来训练的，并且subsert？？ 0，但FurnMove任务除外，我们保持优先quently监督视觉代理通过交叉熵损失。工作3.2. 网格世界视觉环境之镜为了使从网格世界训练中获得的策略能够成功地转移到视觉代理，我们需要这些网格世界成为其视觉对应物的镜像：网格世界中的步骤应该可转换为视觉世界中的步骤。我们现在将描述我们实验中使用的三个网格世界，反映 AIHABITAT ， AI 2-THOR 和 GoogleFootball环境。虽然这些gridworlds工作以及考虑的任务，他们也适用于其他任务在这些环境中训练。我们希望鼓励当前和未来的Embodied AI环境开发人员提供与其环境相对应的全面通用G RID-HABITAT。我们扩展了AIHABITAT平台的现有功能，首次允许培训网格世界代理。具体来说，我们生成一个自我中心的，自上而下的，观察与代理位于底部面向中心（见图）。2）的情况。这种自上而下的观察包含关于发生率的传感器信息（即，自由空间和墙壁）和目标位置。该传感器信息对于PointNav是足够的并且可以容易地被丰富用于其它任务（例如，通过为ObjectNav添加语义通道）。我们的网格世界的观察是从自上而下的可视化工具提供的AIHABI-TAT，这是allocentric和缩放不同的场景不同。我们称这个新的网格世界为GRID-HABITAT。GRID-AI2-THOR。对于多代理FurnMove任务，我们遵循Jain等人。[29]并在AI 2-THOR镜像自上而下的网格世界上进行研究。考虑到FurnMove的复杂性，我们将信息包括在自顶向下张量的单独通道中，每个通道对应于不同传感器的输出。这些传感器指定单元格是否可以被家具物品占用、单元格是否可由代理到达、单元格先前是否被访问过、家具物品的位置以及单元格的位置。另一个探员。我们把这个网格世界称为 GRID-AI2-THOR。GRID-GOOGLE-FOOTBALL。对于Kurach等人创建的多智能体Google足球环境。[38]，我们构建了一个总结重要游戏状态信息的观察具体地，对于每个受控玩家，网格世界观察是包含所有其他玩家、球和相对于受控玩家的位置的对手球门的位置的1D向量最重要的是，如SEC所示。1，我们对网格世界的概念化超越了空间自上而下的发生率地图。虽然GRID-HABITAT的观察捕获占用和目标信息，但GRID-AI 2-THOR的观察是包含环境的显式语义此外，如在GRID-GOOGLE-FOOTBALL中，网格世界观测不需要被限制为具有空间结构。在这里，正如RL文献中常见的那样，网格世界代理接收捕获完美感知观察的1D向量3.3. 通过Gridworlds我们现在描述我们如何训练网格世界代理和子-使用模仿学习，将他们学到的政策，以视觉代理。图1给出了概述。3 .第三章。在Gridworlds中训练。作为RL中的标准，我们训练网格世界代理以最大化其行为的预期ц-折扣累积奖励。任务特定细节（例如，算法和超参数）节中4.第一章只要有可能，我们就遵循先前工作制定的协议。提炼政策。我们如何才能有效地训练参数的可视化代理政策V给定的政策G训练在一个网格世界？要回答这个问题，请回忆一下，视觉代理是与视觉环境交互的，对于视觉环境，每一步都可以转换到网格世界。关于VI-步骤1：由RL训练并冻结的RL损失CNN政策RNN值Neg.树人损失演员流失临界损失第2步：使用冻结的网格世界专家由IL训练的可视化代理CNNGridToPix政策RNNCE损失样品15145GV不不G不不不不⇠L-|因此，可以由网格世界代理来监督sual代理.可视化代理可以使用自己的策略V或采用探索策略μ。这导致了在政策和奖励r进步（参见等式①①）。计算它需要访问全场景图和最短路径规划器。这里，成功奖励r成功被选择为如等式（1）中所示。（2）与模仿学习（IL）的非策略变体。为了说明这一点，让我们展示可视化代理V和网格世界r成功=10且=0。最后，是吗？？是恒定步长罚分-0。01.剂是（aV1，aV2， . ...... 你好。， aVt）和（ aG1，aG2， . ...... 你好。，atG）。为了通过GRIDTOPIX训练视觉策略V的参数，我们采用交叉熵损失。从形式上讲，假设Oµ是一个随机变量，对应于一个代理在遵循策略µ时所看到的观察结果;假设Hµ是一个随机变量，对在获得观察结果Oµ之前所看到的所有观察结果的历史进行编码。GRID TO PIX损失则为GRIDTOPIX=E[EaG（·|Oµ，Hµ）[logV（a Oµ，Hµ）]]。（四）探索性策略μ的选择导致三种变体，每种变体都广泛用于IL任务：学生强迫，教师强迫，和退火教师强迫或Dagger（详情见附录）。在我们的实验中，我们主要使用Dagger。重要的是，无论在开发过程中使用什么策略，训练时，在测试时部署可视化代理的策略V，4. 任务、模型和评估我们使用三个任务来评估GRIDTO PIX。我们选择这些任务，因为它们（a）跨越单智能体和多智能体设置，（b）包括不容易构建基于规则的专家的任务（FurnMove和3vs. 1与Keeper Football）以及可以从最短路径计算（PointNav）计算最佳动作的任务，（c）提供跨各种不同的奖励结构和模型架构测试GRIDTOPIX的机会，以及（d）采用三种不同的Em- bodied AI环境。此外，在附录中，我们包括一个完美的奖励塑造是棘手的任务的实验-在所有实验结果中，我们在完成10%和100%的训练后提供标准评估指标（以了解样本效率和渐近结果）。4.1. PointGoal导航PointGoal导航（PointNav）是为AIHABITAT模拟器指定的单智能体导航任务。代理在场景中的随机位置产生，并且必须导航到由相对于代理的当前位置的坐标指定的目标位置相对目标位置终极奖励。在这里，我们使用Eq.（3）从Eq.（2）其中r 成功= 10且=0。9 .第九条。我们准备好了吗？？=0。模型架构。为了公平比较，我们使用标准CNN-GRU架构[58，75，14，9，11，69]。我们采用官方实现6并使用PPO [59]进行训练，这是PointNav的事实上的标准RL算法。评价PointNav代理主要通过路径长度（SPL）[1]和成功发作百分比（成功）加权的成功进行我们设定了5000万个环境步骤7的预算，并报告了Gibson验证集的14个看不见的场景和994集的结果4.2. 家具移动FurnMove是AI 2-THOR模拟器中具有挑战性的双智能体家具移动任务集[29]。两个智能体协作移动对象通过场景，并将其放置在视觉上不同的目标上方。代理可以使用低带宽通信信道在每个时间步长与其他代理通信。每个代理可以从13个操作中进行选择。具体地，除了普通导航之外，代理可以与提升的对象一起移动，仅移动对象，并且旋转对象。此外，由于两个代理，联合行动空间包含169个行动。形的奖励。这里，到目标8的曼哈顿距离的变化被用作目标相关奖励r进展。[29]中建议了三种目标独立奖励，以帮助学习这种多智能体系统的协调策略透射电镜特别是r，rt？？包括一个步骤penalt、一个联合通行证(or不做任何事）的处罚，以及失败的行动处罚。终极奖励。为了与[29]进行正面比较，我们简单地删除rprogress。与先前的工作[29]一样，成功奖励r成功由等式（1）获得。（2）使用r成功=1，并且= 0 。所有FurnMove 结果都基于此。其他结果与rt？？ =0。01都包含在附录中。模型架构。我们利用SYNC，这是先前工作中性能最好的架构[29]。为了公平起见，我们使用与先前工作相同的RL算法（A3C [47]）。评价FurnMove代理主要经由两个度量-成功发作%（成功）和基于曼哈顿距离的SPL（MD-SPL）来评估附加度量在附录中报告。与[29]一致，我们训练在每个时间步长都可用，并且座席通过在每一步中选择四个动作之一。形的奖励。传统上使用成形奖励[58，75，80]进行训练，选择到目标的最短测地线路径距离的变化作为目标相关进展6github.com/facebookresearch/habitat-lab七点二使用配置有4个NVIDIA T4 GPU、48个CPU和192 GB内存的g4dn.12xlarge AWS实例进行5天的培训。8在FurnMove中，计算最短测地线路径是棘手的，因为家具的每个位置对应于超过400k个状态[29]。15146100 ·SPL100 ·MD-SPL不任务！培训程序#PointGoal导航SPL成功@10%@100%@10%@100%家具移动MD-SPL成功@10%@100%@10%@100%3对1个Keeper游戏分数@10%@100%DirectPix0.00.10.00.20.00.00.80.80.030.07GRID TO PIX45.463.863.581.81.64.016.424.60.330.63G RID T O P IX！DirectPix44.659.762.177.72.73.119.814.50.350.6Gridworld专家（上限）78.8 94.219.2 560.9表1. 定量结果（终端奖励结构）。PointNav、FurnMove和3vs. 1，Keeper任务在其各自的评估集上报告（请参见4）.在所有三个任务中，GRIDTO PIX代理的性能都优于其DirectPix代理。为便于阅读，SPL按100缩放，并报告成功%。为了量化学习的效率，在完成10%和100%的训练最后一行是分开的，以强调gridworld experts用作GRIDTO PIX代理性能的宽松上限，否则不应直接进行比较。DirectPix GRIDTOPIX（ours）GRIDTOPIXDirectPix（ours）60402000 10 20 30 4050RGB帧（百万）86420电话：+86-0512 - 8888888传真：+86-0512-88888888培训集（千）0的情况。750的情况。500的情况。250的情况。000 2 4 6 8RGB帧（百万）(a) PointGoal导航（b）家具移动（c）足球1与Keeper图4。验证集上的学习曲线（终端奖励结构）。绘制了主要指标与培训步骤/事件，遵循相应任务的标准协议（参见第4）. (a)细线标记由1Mn帧均匀间隔的检查点。大胆线条和阴影标记滚动平均值（窗口大小为2）和相应的标准偏差。(b)在[29]中，我们记录通过运行在线验证过程来获取信息，并采用具有95%置信区间的局部二次回归平滑(c)该图显示了平均游戏得分和标准差。检查点由200K帧均匀间隔。尽管付出了相当大的努力，DirectPix方法未能学习有意义的政策与终端奖励。50万集的视频代理。测试集和验证学习曲线上报告了9个4.3. 足球1个Keeper3对1与Keeper是由Kurach等人引入的任务。[38]第30段。在这个多智能体任务中，三个智能体合作来对抗基于规则的防御者。一名队员从罚球弧后开始，另外两名队员从禁区两侧开始。有两个对手基于规则的防守者，包括一个守门员。在每一集的开始，中心代理人拥有球并面对防守队员。当达到受控座席评分或最大发作长度时，发作终止。形的奖励。我们使用具体地说，中心智能体的初始位置和对手的目标之间的区域被划分为三个检查点区域，根据到对手的目标的距离。进度奖励+0。1被接收到。9使用g4dn.12xlargeAWS实例进行2-4天的培训游戏分数15147终极奖励。在[38]之后，r成功=1且= 0。模型架构。为了公平比较，我们使用[38，42]使用的CNN架构和并行PPO算法[42]来训练代理。评价使用在测试事件中获得的平均分数来评估代理。与Liuet al.[42]，我们设定了800万个环境步骤的培训预算。训练曲线和最终指标报告测试事件。5. 实验现在，我们提供了一个概述的培训例程employed训练我们的视觉和网格世界代理，其次是三个任务的结果。5.1. 训练视觉代理对于每个任务（在终端奖励和成形奖励设置中），我们以三种方式训练视觉代理：DirectPix 我们只使用PPO或A3C）。GridToPix。我们提出的常规训练视觉代理模仿相应的gridworld专家（我们训练）。如前所述，专家仅在培训时间可用15148100 ·MD-SPL100 ·SPL！！！任务！培训程序#PointGoal导航SPL成功@10%@100%@10%@100%家具移动MD-SPL成功@10%@100%@10%@100%3对1个Keeper游戏分数@10%@100%DirectPix35.954.760.579.02.811.222.558.40.00.6GRID TO PIX57.669.077.586.48.49.757.762.00.370.65G RID T O P IX！DirectPix53.669.171.984.97.115.355.368.60.380.61Gridworld专家（上限）85.3 97.522.2 76.30.95表2. 量化结果（形成奖励结构）。与Tab相同。但所有的方法都是经过训练的，而不是最终的奖励。即使有这种更密集的监督形式，基于GRIDTO PIX的训练例程也可以提高三个任务中所有指标的性能。DirectPix GRIDTOPIX（ours）GRIDTOPIXDirectPix（ours）六十十五1 .一、0四零一零0的情况。52000 10 20 30 4050RGB帧（百万）50电话：+86-0512 - 8888888传真：+86-0512-88888888培训集（千）0的情况。00 2 4 6 8RGB帧（百万）(a) PointGoal导航（b）家具移动（c）足球图5. 验证集上的学习曲线（形状奖励结构）。跟随图4.第一章如所预期的，利用该附加的监督，GRIDTOPIX和DirectPix方法之间的性能差距变窄，但是仍然可能是实质性的（例如，在PointNav任务中）。图例和绘图细节见图4重量是固定的。更多详情见附录。GridToPixDirectPix。这是上述两个例程的混合，并且遵循具有监督/模仿学习的“热启动”代理策略的常见实践，然后利用强化学习进行微调。10附加细节见附录。5.2. 培训Gridworld专家对于每个任务，网格世界专家利用与DirectPix相同的训练例程。Gridworld专家观察语义自上而下的张量或1D状态信息，这与从原始像素学习的架构不同。因此，我们对CNN进行了最小的编辑，对观察结果进行了编码（详见附录）。如第3、在gridworlds中训练非常快。此外，原则上，网格世界可以被优化以加速环境转换。因此，对于三个任务中每一个的网格世界变体，我们将模型训练到接近饱和。重要的是，由于状态空间、模型和训练时间的差异，Tab.1和Tab。2他们作为一个松散的上限为视觉代理的性能与GRID TO PIX培训。10例如，先前的工作使用IL RL来训练智能体进行视觉对话[20]，具体的问题回答[19]，视觉和语言导航[68，67，31]和紧急通信[45]。5.3. 结果我们报告三个任务的标准评估指标为了研究样本效率，我们还显示了学习曲线。终端奖励（参见表图1和图4）。有了完美的感知，网格世界专家可以训练到高性能（例如，PointNav中94%的成功率），并指导视觉代理的学习。与此形成鲜明对比的是，DirectPix我们的GRID TO PIX变体的性能明显更好。例如，在PointNav，GRIDTOPIX获得了0.638的可观SPL，接近网格世界专家获得的0.788。GRID TOPIX DIRECT PIX有时会产生超出GRID TO PIX的小增益。如学习曲线所证明的，GRIDTO PIX学习也是高效的PointNav仅需500万步即可实现最终性能的70%）。在其他任务中也出现了类似的模式-11我们定性地研究了PointNav任务中的学习策略，发现DirectPix代理学习了执行STOP作为其第一个操作的（局部最优）策略。我们通过改变熵系数、PPO训练器的数量和随机种子，在训练超过15个配置（每个配置20M步对于3vs. 1有了守门员，DirectPix代理直接向球门射门，被守门员拦截，有时会传给另一名未能接球的球员。游戏分数15149！！⇥3对1，分别与Keeper我们的训练程序实现最佳性能。除了这些改进的终端奖励结构，我们还调查了培训程序（更传统的）设置与形奖励。形状奖励（见表图2和图5）。正如在过去的作品中所看到的，DirectPix在提供形状奖励时表现良好有趣的是，GRIDTO PIX DIRECT PIX在前两个任务中在该奖励设置中的表现也优于DirectPix，并且在第三个任务中表现大致相同 -SPL （ PointNav ）的相对增益超过25%，MD-SPL（FurnMove）的相对增益用G RID T O PIX学习效率也高在PointNav任务中，DIRECTPIX仅用5M步就达到其最终SPL的83%。由于PointNav是单智能体导航，我们通过IL使用最佳最短路径动作训练了智能体GRID TO PIX凭借（非常）密集的监管优于此基准。12在三个模拟器中运行的三个任务的这些结果证明了GRID TO PIX的潜力，因为我们正在走向具有终端奖励的训练。此外，GRID TO PIX还在我们目前采用成形奖励的Embodied AI培训设置中提供了有意义的收益。6. 相关工作具体任务完成。视觉现实模拟器的发展[10，35，4，77，58]导致了体现代理的巨大进步。智能体被训练用于各种任务，包括室内导航[21，58，77，73，82，70，64]、问题回答[18，26，74]、指令遵循[2，23，67，36，37，63]、对抗性游戏[72，13]和多智能体协作[30，29，38]的多种变体，40，52]。在这项工作中，我们有-三个不同的任务，特别是，PointNav[58]，FurnMove [29]和3vs.1、与守护者[38]。在过去的作品，一般旨在最大限度地提高成功率，在这些任务中使用任何和所有可能的监督，我们专注于实现高性能，同时只使用终端奖励。稀疏的奖励。从稀疏奖励中学习长期以来一直是RL社区的兴趣所在，其中的研究在很大程度上集中在视觉简单的环境中。已经提出了一些方法：好奇心作为探索不同状态的内在动机[53]，使用后见之明重新解释“失败”的轨迹[ 3 ]，课程学习[ 8，22 ]，自我游戏[ 62，6 ]，以及学习塑造奖励[ 66，51，25 ]。与这些方法不同，我们感兴趣的是使模型能够在视觉复杂的环境中从终端奖励中学习。我们的GRID TO PIX方法可以通过结合上述12通过模仿最佳动作，视觉智能体可以在（10%，100%）=（0.301，0.687）时达到SPL，并在（10%，100%）=（35.5，76.7）时成功。想法：与其使用标准RL来训练我们的网格世界专家，我们可以使用上述方法之一，并可能获得更好的结果。由于我们的gridworld experts已经学会了高质量的政策，没有这些方法，我们把这个留给未来的工作。加速视觉强化学习。已经提出了几种方法来提高RL在具体任务中的样本和挂钟效率。对于样本效率，代理通常使用附加的辅助自我监督任务进行优化[83，80]。为了更快的训练，已经提出了PPO的分布式和分散式扩展的进步[75，42]。与我们的工作相关，Jain等人。[29]开发了一个AI 2-THOR对齐的网格世界（比AI 2-THOR快16[35]）来原型化他们的实验并将他们的任务扩展到更多的代理。模仿学习。基于奖励的代理培训的替代方案是通过行为克隆模仿监督策略或演示[57，5]。例如，数据聚集（DAGGER）[55，56]减轻了困扰经典行为克隆方法的协变量偏移。这已被应用于通过基于规则的最短路径专家训练可视化代理[27，19，30，71]。对于指令遵循任务[60]，用于感知和行动的独立神经模块已经证明可以通过模仿人类注释的数据来改进学习策略[63]。Chen等人[15]训练网格世界代理来预测AI驾驶的路点他们的特权代理是通过离线行为克隆人类标记的轨迹（数据增强）来训练的。获得用于序列预测的密集监督的人类标记的数据相比之下，我们使用来自网格世界的自监督标签来由于这些专家通过对终端奖励的最小监督在网格世界中进行交互来学习，因此不需要人类标记的数据。7. 结论人工智能的进展因人工调整模型架构、收集人类注释和/或形成奖励函数的劳动密集型工作而放缓我们研究如何显著减少这种努力：对于感兴趣的具体化环境，创建一个通用的网格世界镜像，其在视觉上是简洁的并且能够快速模拟。使用GRID T O P IX的网格世界镜像，可以避免许多任务特定的干预，并允许仅从终端奖励中学习：这是在物理现实环境中复杂任务的关键步骤，在物理现实环境中生成成形奖励很快变得不可行。鸣谢：这项工作部分由 NSF 在 Grant #1718221 ，2008387，2045586，MRI下支持#1725729和NIFA奖2020-67021-32799。我们感谢阿南德·巴塔德，天使X。Chang、Manolis Savva、MartinLohmann和Tanmay Gupta进行了深思熟虑的讨论并提供了宝贵的意见。15150引用[1] PeterAnderson ， AngelChang ， DevendraSinghChaplot，Alexey Dosovitskiy，Saurabh Gupta，VladlenKoltun ， Jana Kosecka ， Jitendra Malik ， RoozbehMottaghi，Manolis Savva，et al.嵌入式导航代理的评价。arXiv预印本arXiv：1807.06757，2018。五个[2] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，MarkJohnson，NikoSünderhauf，IanReid，StephenGould，and Anton van den Hengel.视觉和语言导航：在真实环境中解释视觉基础的导航指令。在CVPR，2018年。1、8[3] Marcin Andrychowicz、Filip Wolski、Alex Ray、JonasSchneider 、 Rachel Fong 、 Peter Welinder 、 BobMcGrew、Josh Tobin、OpenAI Pieter Abbeel和WojciechZaremba 。后见之明体验回放。在重症盖永 V.LuxbuAndrychowiczrg，S. Bengio，H.瓦拉赫河费格斯S. Vishwanathan和R. Garnett，editors，NeurIPS，2017.八个[4] Iro Armeni ， Sasha Sax ， Amir R Zamir ， and SilvioSavarese.用于室内场景理解的联合2d-3d语义数据。arXiv预印本arXiv：1702.01105，2017。八个[5] Michael Bain和Claude Sammut行为克隆的框架。机器智能，1995年。八个[6] Bowen Baker，Ingmar Kanitscheider，Todor Markov，YiWu ， GlennPowell ， BobMcGrew ， andIgorMordatch.Emer- gent工具使用多代理自动课程。arXiv预印本arXiv：1909.07528，2019。八个[7] S. Bengio ，Oriol Vinyals ，Navdeep Jaitly ， and NoamShazeer. 循环神经网络序列预测的计划采样。InNeu

下载后可阅读完整内容，剩余1页未读，立即下载