多模态Transformer用于视觉和语言导航

127 浏览量更新于2023-10-13 收藏 907KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15942用于视觉和语言导航的Alexander Pashevich1*Cordelia Schmid2Chen Sun2，31 Inria2 Google Research3布朗大学摘要在动态环境中由自然语言指令定义的交互和导航对神经代理提出了重大本文重点讨论两个挑战：处理长序列的子任务，并理解复杂的人工指令。我们提出了情节Transformer（E.T.），多模态Transformer，其对语言输入以及视觉观察和动作的完整情节历史进行编码。为了改进训练，我们利用合成指令作为中间表示，其将对环境的视觉外观的理解与自然语言指令的变化解耦。我们证明了用Transformer编码历史我们的方法在具有挑战性的ALFRED基准上设定了一个新的艺术状态，达到38。4%和8。5%的任务成功率在可见和不可见的测试分裂。1. 介绍让自主智能体执行各种家务任务是研究社区的长期目标。为了对研究进展进行基准测试，最近出现了几种模拟环境[3，53，56]，其中智能体遵循自然语言指令与环境进行导航和交互。解决视觉和语言导航（VLN）的任务需要代理地面人类指令在其体现的感知和行动空间。在实践中，代理通常需要执行长的合成任务，同时从以自我为中心的角度观察环境的一小部分。用人工指令手动注释的演示通常用于教代理完成指定的任务。本文试图解决VLN的两个主要挑战：（1）处理由许多子任务和动作组成的高度组合任务;（2）理解用于指定任务的复杂的人类指令。图1*在Google Research担任实习生。图1：ALFRED数据集[56]中的合成任务的示例，其中代理被要求将两个花瓶带到cab-inet。我们展示了来自专家演示的几个框架，并提供了相应的分步说明。指令期望代理能够导航到在其当前自我中心视图中不可见的壁炉，并且通过将其称为显示了说明这两个挑战的示例任务。我们从53个动作的演示中展示了六个关键步骤。为了完成任务，智能体被期望在t=0时记住壁炉的位置，并在很久以后（在t=31时）使用该知识。它还需要解决对象-（例如“an-other vase”) and location-grounded ( “where you werestanding解决第一个挑战需要智能体回忆它过去的动作和观察。最新的VLN方法依赖于循环架构[39，60，68，73]，其中内部状态预计将保留有关先前动作和观察的信息。然而，已知回流网络在捕获长期依赖性方面效率低下[66]，并且可能无法执行长动作序列[25，56]。受基于注意力的Transformer架构[65]在语言理解[9，17]和多模态学习[18，59]方面的成功的启发，我们提出使用转换器编码器来组合多个15943模态输入，包括摄像机观察、语言指令和先前动作。Transformer编码器可以访问整个情节的历史，以允许长期记忆，并输出下一步要采取的行动。我们将我们提出的架构命名为Episodic Transformer（E.T.）.解决第二个挑战需要重新审视不同的方式来为自治代理指定任务。我们观察到，域特定语言[22]和时序逻辑[24，43]可以明确地指定目标状态和（可选地）它们的时间依赖性，同时与特定环境的视觉外观和人类指令的变化解耦。我们假设使用这些合成指令作为人类和智能体之间的中间接口将有助于模型更容易学习和更好地泛化为此，我们建议在E.T.中预训练基于变换器的语言编码器通过从人类指令中预测合成指令我们还探讨了联合训练，其中人类指令和合成指令被映射到一个共享的潜在空间。为了评估外星人的表现我们使用AL-FRED数据集[56]，其由比其他视觉和语言导航数据集[3，13，53]更长的片段组成，并且还需要对象交互。我们的实验表明，E.T.受益于完整的情节记忆，并且在解决具有长视野的任务时比复发模型更好。我们还观察到通过用合成指令预训练语言编码器的显著收益。此外，我们还表明，当与自然语言联合用于训练时，这种中间表示优于用于视觉和语言导航的传统数据增强技术[20]，并且比基于图像的注释[37]更好总之，我们的两个主要贡献如下。首先，我们提出了情节Transformer（E.T.），一个基于注意力的视觉和语言导航架构，并证明其优势，经常性的模型。其次，我们建议使用合成指令作为人与代理之间的这两个贡献相结合，使我们能够实现一个新的国家的最先进的具有挑战性的ALFRED数据集。代码和模型可在项目页面1上找到。2. 相关工作指示如下代理。构建理解和执行人类指令的系统已经是许多先前工作的主题[7，8，10，12，37，41，46，47，52，62]。指令类型包括结构化命令或逻辑程序[22，43，53]、自然语言[12，61]、目标状态图像[37]或混合[38]。虽然早期的工作集中于将指令和结构化世界状态映射到ac-1 https://github.com/alexpashevich/E.T。在[4，45，51]中，期望代理能够来处理原始的感官输入，例如图像或视频。为了解决这个问题，提出了视觉和语言导航（VLN）任务，以引入丰富和非结构化的视觉环境，供智能体探索，感知和执行[3，13，32，33，44]。智能体被请求基于人类指令和真实或照片般逼真的图像输入导航到目标位置，所述图像输入被实现为导航图[3，13]或模拟器[16，31，55，63]中的连续环境[32]最近，ALFRED环境[56]引入了对象交互组件来补充视觉语言导航。这是一个更具挑战性的设置，因为序列比其他视觉语言导航数据集更长，并且序列的所有步骤都必须正确执行才能成功。我们专注于ALFRED环境及其定义的任务。训练VLN的神经代理语言基础导航中最先进的模型是使用模仿学习[20]，强化学习[34]或两者的组合[60，68]训练的神经代理。此外，辅助任务，如进度估计[39，40]，回溯[30]，说话者驱动的路线选择[20]，跨模态匹配[29，68]，反向翻译[60]，子任务的预训练[74]和基于文本的预训练[14，57]被提出来提高可见和不可见神经代理的性能和泛化能力。环境.这些方法中的大多数使用递归神经网络，并将先前的观察和动作编码为隐藏状态。我们的工作建议利用转换器[65]，其能够编码历史的完整情节以进行长期导航和交互。与我们的方法最相关的是 VLN-BERT [42] 和递归VLBERT [28]，它们也使用VLN的变压器。与我们的方法不同，VLN- BERT [42]训练Transformer来测量指令和一组已经生成的trajec-tory 的兼容性。同时，Recurrent VLBERT [28]使用外显式递归状态和预训练的VLBERT来处理每个时间步的一个观察，这可能很难解决长期任务[66]，如ALFRED。与此相反，我们不引入任何递归，并一次处理所有的历史观察多模式变压器。变形金刚[65]已经成功地完成了广泛的分类和生成任务，从语言[9，17，65]到图像[11，19]和视频[23，67]。在[48]中，作者表明，使用RL训练变压器进行长时间规划具有挑战性，并提出了解决方案。不同问题域的Transformer架构的收敛也导致了多模态转换器，其中统一的转换器模型的任务是解决需要多模态信息的问题，例如视觉问题回答[36]，视频字幕和时间预测 [59] 或检索 [21] 。我们的情节Transformer可以考虑1594422个⇥2图2：情节Transformer（E.T.）架构为了预测下一次行动，外星人。模型被给予自然语言指令x1：L、自剧集开始以来的视觉观察v1：t以及先前采取的动作a1：t-1。在这里，我们展示了一个对应于一个情节的第6个时间步长的示例：t=6.在使用基于转换器的语言编码器处理x1：L，使用ResNet- 50主干嵌入v1：t并通过查找表传递1：t-1之后，代理输出t个动作。在训练过程中，我们将所有预测的动作用于梯度下降步骤。在测试时，我们将最后一个操作应用于环境。多模态Transformer，其中输入是语言（指令）、视觉（图像）和动作。人类指令的语义解析。语义分析的重点是将自然语言转换成可以由机器解释的逻辑它在问答中有应用[6，70，71]，可以通过配对监督[6，69，72]或弱监督[5，50]来学习对于指令遵循，语义解析已被应用于将自然语言映射到lambda 演算表达式[5]或线性时态逻辑[50]。我们表明，而不是直接使用的语义解析输出，它是更有益的预训练的语言编码器转移到下游的VLN任务。3. 方法我们首先在3.1节中定义视觉和语言导航任务，并描述情节Transformer（E.T.）模型在3.2节。然后，我们将介绍合成语言，并在3.3节中解释如何利用它进行预训练和联合训练。3.1. VLN背景视觉和语言导航任务要求智能体在环境中导航并达到由自然语言指令指定的目标。每个演示是自然语言指令、专家视觉观察和专家动作的元组（x1：L，v1：T，a1：T）。指令Xl：L是L个字令牌XiR的序列。视觉观察v1：T是T个相机im的序列。年龄vtRWH 3，其中T是演示长度，WH是图像大小。 Expert 操作 a1 ： T 是 T 个操作类型标签的序列1、. ..，一A是专家使用的动作类型的数量，A是动作类型的数量。我们的目标是学习一个代理函数f，近似的专家政策。在递归架构的情况下，智能体预测下一个动作atgivenalan。语言指令x1：L，视觉观察vt，先前采取的行动at-1，并使用其隐藏状态ht-1来跟踪历史：at，ht=f（x1：L，vt，at-1，ht-1）.（一）对于具有完整情节可观察性的智能体，所有先前的视觉观察v1：t和所有先前的动作a（1：t-1）被直接提供给智能体，并且不需要隐藏状态：at=f（x1：L，v1：t，a1：t-1）.（二）3.2. 情景Transformer模型我们的Episodic Transformer（E.T.）图2所示的模型依赖于基于注意力的多层Transformer器编码器[65]。它没有隐藏状态，并观察视觉观察和先前动作的完整为了注入有关单词、帧和动作序列的顺序的信息，我们将正弦编码应用于Transformer输入。我们将这种编码称为语言标记的位置编码和专家观察和动作的时间编码15945不1：T1：L1：T图3：使用自然语言和合成语言进行训练。左：我们预训练模型的语言编码器，将自然语言指令翻译为合成语言。由于更面向任务的合成表示，语言编码器可以学习更好的表示。我们使用语言编码器权重来初始化代理的语言编码器（以黄色显示）。右：我们联合使用用自然语言注释的演示和用合成语言注释的演示来训练代理。由于合成语言数据集的大小较大，即使在自然语言注释上进行评估时，所产生的代理也具有更好的性能我们的外星人体系结构由四个编码器组成：语言编码器、视觉编码器、动作编码器和多模式编码器。图2左下角所示的语言编码器获取指令标记x1：L作为输入。它由一个查找表和一个多层Transformer编码器组成，并输出一个上下文化的语言嵌入序列3.3. 综合语言为了提高对呈现大范围可变性的人类指令的理解，我们建议通过翻译成合成语言来预训练代理语言编码器，参见图3（左）。我们也会产生广告-X1：L. 底部中间部分显示的视觉编码器其他演示，用合成语言注释它们-使用合成和图2的是ResNet-50骨干[27]，后面是2个卷积层和1个全连接层。视觉编码器将视觉观察Vt投影到其嵌入hv中。使用相同的编码器独立地投影所有片段视觉观察vl：T动作编码器是在图2的右下部分中示出的查找表，其将动作类型a1：T映射到动作嵌入ha。多模式编码器是图2的中间所示的多层Transformer编码器。给定特定于模态的编码器自然语言演示，见图3（右）。合成语言和相应的自然语言指令的示例在图 3（左）中示出。使用专家路径规划器参数为每个专家演示生成合成注释在ALFRED中，每个专家路径都是用计划任务定义语言（PDDL）[22]定义的，它由几个子目标动作组成。每个子目标动作都有一个类型和一个目标类，例如：把苹果放在桌子上或上床睡觉X1：Lv1：T一1：T），则多模态编码器返回输出我们用它作为这个子目标的综合注释嵌入（zxv1：T一1：T）的情况。多模式编码器第请注意，这样的注释只定义了一个类，而不采用因果注意[65]来防止视觉和动作嵌入参与后续的时间步。我们取输出嵌入z v，并添加一个完全连接的层来预测智能体动作a1：T。在E.T.在训练中，我们利用了Transformer架构的顺序性质。我们输入语言指令x1：L以及所有视觉观察值v1：T和所有操作均为1：T的专家模型演示。急诊T. 如图2顶部所示，模型一次预测所有动作a？1：T。我们计算并最小化预测动作a（1：T）和期望动作a（1：T）之间的交叉项损失。在时间步t处的测试期间，我们输入视觉观察值v1：t直到当前时间步和代理所采取的先前动作a1：t-1。我们选择预测的操作最后t i mestepat，ct，并将其应用于生成下一个视觉观察vt+1的环境。在图2中，我们显示了一个示例，该示例对应于情节的第6个时间步长，其中接下来将采取动作Left目标的实例。我们用按时间顺序连接的子目标动作注释来注释每个专家演示，以产生合成注释y1：M。我们使用合成语言预训练的语言编码器的代理序列到序列（seq2seq）的翻译任务。翻译数据集由天然和合成指令的对应对（x1：L，y1：M）选项。翻译模型由语言编码器以及如图3（左）所示的语言解码器。语言编码器与第3.2节中描述的代理语言编码器相同。语言解码器是具有位置编码和与编码器相同的超参数的多层Transformer解码器。给定一个自然语言注释x1：L，我们使用语言编码器来产生嵌入h1：L。嵌入被传递到语言解码器，该语言解码器预测N个翻译为k ensyi。我们通过最小化预测y1：N和合成注释y1：M之间的交叉熵损失来训练模型。H（h，h，h，z，z15946⇥⇥2个⇥ ⇥一旦训练收敛，我们使用翻译器语言编码器的权重来初始化代理的语言编码器。我们还通过生成一个附加的专家演示数据集（用合成语言注释）来探索联合训练。我们使用AI 2-THOR模拟器[31]和Shridhar等人提供的脚本。[56]。除了注释之外，合成数据集在对象配置和代理初始位置方面与原始数据集不同。我们训练智能体使用自然语言和合成语言数据集来预测动作，如图3中右侧所示。我们对两个数据集使用相同的语言，视觉和动作编码器，但对自然和合成语言标记使用两个不同的查找表，我们发现这在实验中效果最好对于这两个数据集，我们对相同大小的批次进行采样，计算两个损失并执行单个梯度下降步骤。经过固定数量的训练，ING时代，我们评估的代理自然和合成语言分别使用相同的一组验证任务。4. 结果在本节中，我们消融E.T.的不同组件。并比较E.T.用最先进的方法首先，我们在第4.1节中描述了实验装置和数据集。接下来，我们将我们的方法与经常性基线进行比较，并在第4.2节中强调了完整事件可观察性的重要性。然后，我们在第4.3节中研究了联合训练和预训练与合成指令的影响，并在第4.4节中与ALFRED数据集上的先前最先进的方法进行了比较。4.1. 实验装置数据集。ALFRED数据集[56]由一个代理执行家庭任务的演示组成，这些任务遵循用自然语言定义的目标。任务是compo- sitional与不可逆的状态变化。该数据集包括8055个用25743条自然语言指令x1：L标注的专家轨迹（v1：T，a1：T）. 它分为21，023个训练、1，641个验证和3，062个测试注释。验证和测试折叠分为可见的拆分和不可见的拆分，可见的拆分包含来自训练折叠的环境，不可见的拆分包含新环境。为了利用合成指令来预训练语言编码器，我们将每个带注释的指令x1 ：L与其对应的合成指令y1：M在训练折叠中配对。对于联合训练，我们从自动标注了合成指令的训练环境中生成了44，996个演示（y1：M，v1：T，a1：T）对于第4.2节和第4.3节中的消融研究，我们仅使用验证折叠。为了与第4.4节中的最新技术水平进行比较，我们报告了验证和测试折叠的结果基线。在第4.2节中，我们将我们的模型与基于双向LSTM的模型进行了比较[56]。我们用的是同样的-如Shridharet al. [56]并将语言编码器隐藏大小设置为100，将动作解码器隐藏大小设置为512，将视觉嵌入大小设置为2500，并使用0。3dropout为解码器隐藏状态。我们通过实验发现亚当优化器没有重量衰减和重量系数为0。1对于目标类交叉熵损失效果最好。LSTM模型使用与E.T.模型在第4.4节中，我们还将我们的模型与MOCA[58]和Nguyen等人的模型进行了比较。[64]第一章。评估指标。对于章节4.2和4.3，我们报告代理成功率。了解在4.2节中，我们讨论了与基于递归的体系结构的性能差异，同时也报告了各个子目标的成功率该度量对应于在专家演示之后直到子目标开始并且以整个语言教学为条件完成的子目标任务的比例。我们注意到平均任务长度是50个时间步，而子目标的平均长度是7个时间步。实作详细数据。在13种可能的动作类型中，7种动作涉及与环境中的目标对象进行交互。动作at的目标对象是用二进制掩码mt0，1W*H选择的，该掩码指定属于目标对象的视觉观察vt的总共有119个对象类像素掩模mt在培训期间提供了专家演示。我们遵循Singhet al.[58]并要求我们的代理预测目标对象类CT，然后将其用于检索由预训练的实例分割模型生成的对应像素掩模M_CT。分割模型将vt作为输入和输出（ct，mt）。座席观察的大小调整为224 224。掩模生成器接收大小为300 300的图像，遵循Singh等人的方法。[58]。视觉编码器和掩模生成器都在来自训练折叠和相应的类分割掩模的325K帧专家演示的数据集上进行预训练。我们使用ResNet-50 Faster R-CNN [54]进行视觉编码器预训练，使用ResNet-50 Mask R-CNN [26]进行掩码生成器。我们在代理训练期间不更新掩码生成器和视觉编码器ResNet主干。在视觉编码器中，ResNet特征被平均汇集4次以减小它们的大小和0。3dropout应用。得到的512_7_7的特征图被馈送到具有大小为1乘1的256和64个滤波器的2个卷积层中，并且被映射到具有全连接层的大小为768E.T.的两个Transformer编码器有2块，12个自我注意力头，隐藏大小为768。我们使用 0。1Transformer编码器内部的压差。我们使用AdamW优化器[35]，其中0。33权重解码并训练模型20个时期。每个历元包括3，750批，每批8个在联合训练中，每批包括4个人工指令演示和4个合成指令演示15947任务子目标看到看不见看不见的LSTM23岁2二、475. 5五十八7LSTM + E.T 桨编码器二十七岁83.3七十六。6五十九5E.T.三十三点八3 .第三章。2七十七点三59.6表1：E.T. LSTM架构：（1）基于LSTM的模型[56]，（2）用E.T.模型，（3）E.T.，我们的变压器模型所有模型仅使用自然语言数据集进行训练，并在验证折叠上进行表格的两个部分显示了任务（平均长度50）和子目标（平均长度7）的成功率。虽然所有模型的子目标成功率相对接近，但E.T.在全部任务上优于两个再流代理，这突出了全部情节可观察性的重要性框架动作看到看不见看不见的没有一 0的情况。50的情况。223岁71 .一、71上一28岁9二、2三十三点八3.24最后31岁5二、0三十二0二、416最后三十三岁。5二、931岁1二、8所有33.83.2二十七岁1二、2表2：E.T.的可访问历史长度上的消融，在视觉框架（左两列）和动作（右两列）方面。结构。对于所有实验，我们在前10个epoch期间使用10-4的学习率，在最后10个epoch期间使用10- 5 的学习根据Shridharet al. [56]，我们使用辅助损失用于总体和子目标进展[39]，我们将其求和为权重为0的模型交叉熵损失。1.一、所有的超参数选择都是使用中等大小的网格搜索一旦训练完成，我们就在验证折叠上评估每一个第2个时期。根据Singhet al. [58]，我们在评估期间使用时间和障碍检测模块中的实例关联。4.2. 模型分析与循环模型的比较。为了验证情景记忆带来的增益，我们将E.T.基于递归LSTM架构的模型。我们只使用带有自然语言注释的数据集来训练这两个模型。如表1所示，重复模型在23中成功。2%的任务在可见的环境和2. 4%的任务在看不见的环境中。E.T. 成功33 8%和3.2%的任务，这是一个相对的改善45。6%，33。3%，与基于 LSTM 的代理相比。然而，计算的成功率为individual子目标显示只有2。3%和1. E.T.相对改善5%。在可见和不可见的环境中的复发性代理。我们注意到，一项任务-模型可见15948平均为6。5个子目标，这使得长期记忆对于解决全部任务更加重要。为了理解性能差异，我们使用E.T.语言编码器考虑到LSTM和E.T.代理接收由冻结的ResNet-50主干处理的相同视觉特征，并且具有相同的语言编码器架构，两个模型之间的主要差异是对先前观察的处理。当外星人当智能体使用注意力机制观察所有先前的帧时，基于LSTM的模型依赖于其循环状态并且仅显式地观察最后的视觉帧。表1的第2行中所示的循环模型性能类似于表1的第2行中所示的循环模型性能。E.T.在看不见的环境中的性能，但17。少7%比E.T.成功in seen看见environments环境.该比较强调了注意机制和完整情节可观察性的重要性。我们注意到E.T.对于完整片段上的梯度下降更新，仅需要一次前向传递相比之下，LSTM模型需要为每个情节时间步进行单独的向前传递，这显著增加了它们相对于E.T.的训练时间。模型我们进一步比较E.T.和LSTM模型的规模与第4.3节中的其他演示。可访问的历史记录长度。我们训练外星人使用代理在视觉帧和先前动作方面观察到的不同长度的发作历史，并在表2中显示结果。表2的前两列比较了从没有过去帧到整个事件的视觉观察历史的不同长度。结果表明，访问所有的视觉观察是重要的模型性能。我们注意到，具有16个输入帧的模型的性能接近于完整情节记忆代理的性能，这可以通过50个时间步的平均任务长度来解释。表2的最后两列显示，智能体不能从访问多个过去的动作中获益。这种行为可以用“因果错误识别”现象来解释：获取更多的信息可能会导致更差的性能[15]。这也可以解释为由于模型对专家演示的过度拟合而导致的泛化能力差我们还注意到，没有观察到先前动作的模型是29。8%，46。8%，在可见和不可见的环境中比观察最后一个动作的代理相对较不成功。因此，我们将内存大小固定为不受视觉观察的限制，并且对于先前的动作为1模型容量。基于变换器的模型被认为是有表现力的，但容易过拟合。我们研究了在原始ALFRED数据集上训练时模型容量如何影响性能。我们改变语言编码器和多模态编码器中的Transformer块的数量，并在表3中报告结果。结果表明，具有单个Transformer块的模型是15949块数看到看不见1二十五01 .一、62三十三点八3.2328岁6二、2419号。81 .一、1表3：E.T.消融示范能力。我们把外星人在语言和多模式编码器中具有不同数量的Transformer块的模式。人体合成试验看到看不见看不见的专家框架 54.06.128岁53 .第三章。4第36章. 33 .第三章。1三十七43 .第三章。9次级目标行动47. 2五、9三十八点五5.4不是合成的--三十三岁。83 .第三章。2表4：用于联合训练的不同合成指令的比较。我们共同训练外星人使用具有人工注释的演示和具有不同类型的合成指令的演示在前两列中，我们使用与训练期间使用的相同类型的合成注释来评估结果模型。在最后两列中，模型根据人工注释的指令进行评估。E.T.看到看不见看不见的人工注释23岁2二、4三十三岁。83 .第三章。2人+合成二十五2二、9三十八点五5.4表5：基于LSTM的模型和E.T. 与次级目标行动说明的示范联合培训。结果表明，E.T.与基于LSTM的代理相比，可以更好地扩展附加数据没有足够的表现力，并且具有3个和4个块的模型过拟合训练数据。具有2个块的模型表示欠拟合和过拟合之间的权衡，因此，我们为所有实验保持该值。注意力可视化。我们在[49]的附录A.4和A.5中可视化文本和视觉4.3. 使用合成注释进行联合训练。我们训练外星人模型使用21，023个用自然语言注释的专家演示的原始数据集和另外生成的44，996个用合成注释的专家演示的数据集。我们比较了三种类型的合成注释：（1）直接使用来自专家演示框架的可视嵌入，不生成语言指令。类似的方法可以在 Lynch 和Sermanet [38]中找到(2)训练模型以生成指令，例如，使用扬声器模型[20]，其中输入是来自合成仪器列车数据15950专家演示框架，目标是人工注释的指令;和（3）子目标行动和对象注释，如3.3节所述。对于（1），我们在实验上发现使用来自演示的所有专家帧比帧的子集明显更好地工作。（1）和（2）中使用的视觉嵌入是从第4.1节中描述的预训练的冻结ResNet-50中提取的。为了生成说话者注释，我们使用基于变换器的seq2seq模型（第3.3节），不同之处在于输入是视觉嵌入而不是文本。我们在表4中报告了联合训练和独立评估合成和人工注释指令的模型的成功率。结果报告在验证折叠上。在专家框架上训练的模型在合成指令上评估时达到最高性能。然而，当对人类指令进行评估时，该模型具有15。6%的相对较低的成功率，在看到的环境比基线没有联合训练。这表明，接受专家框架作为指令的智能体不能很好地推广人类指令。使用说话者翻译注释比无联合训练基线提高了10。6%和21. 8%，在可见和不可见的环境中分别。此外，我们提出的子目标注释带来了更大的相对改善，13。9%，68。7%，在可见和不可见的环境中，突出了以子目标行动形式进行合成指令的联合训练的好处最后，我们研究了经常性基线是否也受益于与合成数据的联合训练。表5示出了联合训练的相对增益为2。3和4E.T.高4倍比基于LSTM的代理分别在可见和不可见的环境。这些数字清楚地表明E.T.受益于更多的额外数据和确认我们的模型的优势，基于LSTM的代理。语言编码器预训练。合成指令的另一个应用是将它们用作中间表示，其将环境的视觉外观与人类注释的指令的变化解耦。为此，我们对E.T.进行预训练。语言编码器与合成指令。特别地，我们预训练seq2seq模型以将人类指令映射到合成指令，如第3.3节所述，并研究显式地传输“翻译”文本或隐式地传输由模型权重编码的表示是否更有益我们的预训练是在原始的火车折叠上完成的，没有额外生成的轨迹。seq2seq的翻译性能非常有竞争力，达到97。1%的F1分数。显式转移翻译的（合成的）指令，我们首先训练一个E.T.代理遵循训练折叠上的合成指令，然后通过使用我们预先训练的seq2seq模型将这些指令翻译成合成指令来评估代理遵循人类15951目的转移看到看不见联合训练看到看不见没有一-三十三岁。83 .第三章。2三十三岁。83 .第三章。2表6：具有不同语言编码器预训练策略的模型的比较我们预训练一个seq2seq模型，将人类指令映射成合成指令，并传输其输出文本（第三行）或其学习的权重（第四行）。为了完整起见，我们还比较了没有预训练（第一行）和BERT预训练（第二行）。表6比较了这两种预训练策略。我们可以看到，这两种策略的性能都明显优于无预训练基线（第一行），并且传输编码器比显式翻译效果更好。为了完整性，我们还报告了BERT预训练的结果[17]（第二行）。 BERT 模型是在通用文本数据（例如Wikipedia）。我们使用BERT基础模型，其权重由作者发布。我们提取它的输出上下文的词嵌入，并使用它们作为语言编码器的输入词嵌入令我们惊讶的是，与无预训练基线相比，BERT预训练将可见环境中的性能降低了4。4%，并带来6. 2%相对于看不见的环境。我们推测，特定领域的语言预训练是很重要的ALFRED基准。总的来说，这些实验显示了所提出的合成注释的其他优点，并突出了中间语言表示的重要性，以更好地训练指令遵循代理。最后，我们将语言编码器预训练和联合训练目标相结合，并在表7中呈现结果。我们观察到这两种策略是互补的：与基线E.T.相比，纳入合成数据的总体相对改善。模型三十七8%，228。在可见和不可见环境中分别为1%。我们的结论是，合成数据是特别重要的推广看不见的环境。性能改进的完整分解可以见[49]的附录A.24.4. 与最新技术水平的我们把外星人具有模型的代理与公共排行榜上的相关联的技术报告2.验证和检测倍数的结果见表8。完整的表与解决的目标条件和路径长度加权得分[2]在[49]的附录A.1中给出。外星人在没有合成数据预训练和联合训练的情况下训练的模型在可见环境中设置了新的最先进技术（行2https://leaderboard.allenai.org/alfred ，结果于2021年2月22日提交。表7：用合成数据对联合训练和语言编码器预训练我们展示了没有利用合成数据的基线结果（第一行），预训练（第二行）和联合训练（第三行）的独立性能，以及它们的综合性能（第四行）。确认测试看到看不见看不见的Shridhar等人[56个]3 .第三章。700的情况。003 .第三章。980的情况。39Nguyen等人[64个]N/AN/A12个。394.第一章45Singh等人[58个]19号。153 .第三章。78二十二岁05五、30E.T.三十三岁。783 .第三章。1728岁77五、04E.T. （pretr.）三十七633 .第三章。76三十三岁。46五、56E.T.（pretr. &（jointtr.）46.597.3238.428.57人类表现---91. 00表8：与提交给公共排行榜的模型在验证和测试折叠方面的比较。每折叠的最高值以蓝色显示。我们的方法在所有指标上设置了4）.通过利用预训练的合成指令，我们的方法优于以前的方法[56，58，64]，并在所有指标上设置了新的最先进的技术（第5行）。考虑到联合训练的额外45K模型进一步改进了结果（行6）。5. 结论模型伯特文本嵌入三十二33 .第三章。4Seq2seq翻译文本三十五23 .第三章。63三十七6 3 .第三章。815952我们提议外星人一个基于转换器的架构，用于视觉和语言导航任务。E.T. 观察视觉、语言和动作输入的完整情节历史，并使用多模态Transformer对其进行在ALFRED基准上性能优于竞争对手的经常性基线，并在可见环境中实现最先进的性能。我们还建议使用合成指令进行预训练和与人类注释指令的联合训练。在给定合成指令的情况下，性能在可见的环境中并且尤其是在不可见的环境中得到进一步改善。在未来，我们希望探索其他形式的合成注释和自动构建它们的技术，例如使用对象检测器。鸣谢：我们感谢 Peter Anderson 、 Ellie Pavlick 和Dylan Ebert对草案的有益反馈。15953引用[1] Samira Abnar和Willem Zuidema。量化变压器中的注意力流。在ACL，2020年。12[2] 彼得·安德森天使X Chang，Devendra Singh Chaplot，Alexey Dosovitskiy，Saurabh Gupta，Vladlen Koltun，Jana Kosecka ， Jitendra Malik ， Roozbeh Mottaghi ，Manolis Savva，and Amir Roshan Zamir.论具身导航代理人的评价。arXiv预印本arXiv：1807.06757，2018。八、十二[3] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，MarkJohnson，NikoSünderhauf，IanReid，StephenGould，and Anton van den Hengel.视觉和语言导航：在真实环境中解释基于视觉的导航指令。在CVPR，2018年。一、二[4] 雅各布·安德烈亚斯和丹·克莱因。用于指令跟随的基于对齐的组合语义在EMNLP，2015年。2[5] Yoav Artzi和Luke Zettlemoyer。弱监督学习语义解析器，用于将指令映射到动作。TACL，2013年。3[6] Jonathan Berant ， Andrew Chou ， Roy Frostig ， PercyLiang.基于Freebase的问答对语义分析。载于EMNLP，2013年。3[7] Mario Bollini ， Stefanie Tellex ， Tyler Thompson ，Nicholas Roy和Daniela Rus。用烹饪机器人解释和执行食谱。实验机器人，2013年。2[8] Satchuthananthavale RK Branavan，Harr Chen，Luke SZettlemoyer，and Regina Barzilay.将指令映射到动作的强化学习。在ACL，2009年。2[9] 汤姆湾Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan-tan ， Pranav Shyam ， Girish Sastry ， AmandaAskell ， Sand- hini Agarwal ， Ariel Herbert-Voss ，Gretchen Krueger ， Tom Henighan ， Rewon Child ，Aditya Ramesh ， Daniel M.Ziegler 、 Jeffrey Wu 、Clemens Winter、Christopher Hesse、Mark Chen、EricSigler、Mateusz Litwin、Scott Gray、Benjamin Chess、Jack Clark、Christopher Berner、Sam McCandlish、AlecRadford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。在NeurIPS，2020年。一、二[10] GuidoBugmann 、 StanislaoLauria 、 TheocharisKyriacou、Ewan Klein、Johan Bos和Kenny Coventry。使用口头指令进行路线学习：指令分析Proc.Textworld：一个基于文本的游戏学习环境。在计算机游戏工作坊，2018年。2[15] Pim de Haan、Dinesh Jayaraman和Sergey Levine。模仿学习中的因果混淆。NeurIPS，2019。6[16] Matt Deitke、Winson Han、Alvaro Herrasti、AniruddhaKembhavi 、 Eric Kolve 、 Roozbeh Mottaghi 、 JordiSalvador 、 Dustin Schwenk 、 Eli VanderBilt 、 MatthewWallingford、Luca Weihs、Mark Yatskar和Ali Farhadi。Robothor：一个开放的模拟到真实的嵌入式人工智能平台。在CVPR，2020年。2[17] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert

下载后可阅读完整内容，剩余1页未读，立即下载