基于里程碑的长期任务跟踪在自主代理中的应用

41 浏览量更新于2023-10-25 收藏 934KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15482一步一步：具有里程碑意义的长期视觉和语言导航1潘泰宇1BrianM.赵伟伦1俞苏11俄亥俄州立大学2美国陆军研究实验室{song.1855，kil.5，pan.667，chao.209，su.809} @osu.eduarmy.mil摘要我们研究的问题，开发自主代理，可以按照人类的指示推断和执行一系列的行动，以完成底层任务。近年来取得了重大进展，特别是在短期任务方面。但涉及目标：“把一个烫手山芋放在水槽右边的柜台1导航：冰箱3导航：微波对于具有扩展的动作序列的长时间任务，智能体可以容易地忽略一些指令或者卡在长指令的中间，并且最终使任务失败。为了解决这个问题，我们提出了一个模型无关的基于里程碑的任务跟踪器（M-T RACK），以指导代理和监控其进度。具体来说，我们提出了一个里程碑建设者，标记的指示与导航-代理需要的启动和交互里程碑，“转身面对冰箱““从冰箱里拿出一个冷土豆“4相互作用：微波5导航：柜台“用微波炉煮土豆”“向左转，去柜台。在水槽的右边”“把土豆放到微波炉里“6交互：计数器“把煮好的土豆放在柜台上“完成一步一步，和一个里程碑检查，系统地检查代理在挑战ALFRED数据集上，我们的M-T RACK在两个竞争性基础模型上的不可见成功率方面有33%和52%的相对改善。1. 介绍作为自主代理（例如，随着机器人越来越多地融入我们的日常生活，开发能够理解自然语言命令并执行相应任务的自主智能体变得越来越重要。为了促进这样的目标，在机器人指令遵循的领域中已经提出了各种基准，例如视觉和语言导航（VLN）[1，3，4，9，13，28，29，38，44]，以及一些新颖的算法，这些算法一致地推动了现有技术的发展[20，21，34，37]。具体地说，要在VLN中取得成功，智能体必须理解语言指令，将其置于仅具有视觉感知的部分可观察环境中，并计划和执行图1. 我们的M-T RACK方法的插图。我们展示了一个ALFRED任务[30]，它由一个总体目标（顶部的文本）和六个子任务（每个图像下面的文本）组成。每个图像中的蓝色/红色文本框是我们从子任务指令中提取的导航/交互代理需要到达当前子任务的里程碑（例如，对于导航里程碑，接近所述目标对象，或者对于交互里程碑，已经与所述目标对象交互;目标对象的绿色遮罩），然后才能继续下一个子任务。环境，完成任务。VLN中的一个关键挑战出现在任务水平区域变得相当长时[30]。也就是说，一个任务是如此复杂，以至于它本质上由多个“子任务”组成例如，在图1中，任务而且，子任务这种顺序依赖性要求智能体密切监控其进度，并确保在执行长期任务时保持在正确的轨道上。15483乍一看，如果语言指令足够详细（如图1所示），比如它已经定义了子任务及其顺序，那么这个挑战似乎微不足道然而，如文献[2，14，20，31，37，42]和我们的实验所示，一个被喂以详细指令的智能体仍然经常跳过子任务，或者在一个子任务中徘徊，即使它已经完成。从本质上讲，智能体真正要解决的问题是，它不知道自己目前在长子任务序列中的位置，以及它在子任务。为了解决这个问题，我们建议配备一个明确的任务跟踪器，跟踪代理具体地说，我们提出了里程碑的概念，它提供了完成子任务的必要条件。也就是说，子任务必须达到里程碑，才能被视为以图1中的子任务要完成它，必要条件是智能体必须看到土豆和冰箱，离它们足够近，并与土豆执行交互动作我们认为，通过明确地从指令中提取这样的里程碑，并将它们与环境状态联系起来，我们可以系统地确定智能体是否应该继续处理当前的子任务或继续进行下一个任务。为此，我们提出了基于里程碑的任务跟踪器（M-TRACK），它由两个组件组成：里程碑生成器和里程碑检查器。里程碑生成器提取里程碑（即，必要的完成条件）。我们将其建模为命名实体识别问题，并训练BERT-CRF标记器[6，32]以准确提取目标对象及其动作类型（即，导航或交互）。里程碑检查器然后尝试接地（即，使用对象检测模型[ 10 ]识别和定位）感知环境中提取的目标对象，并检查代理是否足够接近它们和/或即将与它们交互-以决定代理是否正在完成当前子任务并准备继续前进。值得注意的是，我们的M-TRACK只需要访问语言指令、对agent的视觉输入以及agent的动作，而不需要访问agent的任何内部状态。因此，它是模型不可知的，可以很容易地与任何代理模型集成，只需最小的更改。M-T RACK如何与代理交互以影响其行为（例如，不跳过子任务）？我们提出了两个简单而有效的方法。首先，在任何时间步，我们只向智能体提供与里程碑跟踪器确定的当前子任务相对应的部分指令。这明确地引导智能体专注于当前的子任务。其次，更重要的是，我们主动应用里程碑检查器-在代理执行其预测的操作之前-拒绝将导致子事件的操作任务失败。例如，我们拒绝采取行动，“sponge”我们在ALFRED [30]上验证了M-TRACK，ALFRED是最近发布的用于常见家务任务的大规模VLN数据集。ALFRED中的任务被认为是长期的，因为平均每个任务需要50个动作来完成。相比之下，另一个流行的数据集R2R [1]只需要5个。我们将M-TRACK集成到两个基线VLN模型 LSTM [30]和VLN BLEBERT[12]中，并展示了显着且一致的性能增益。在可见环境中测试时，M-TRACK导致成功率相对提高16%在更具挑战性的未知环境中，相对增益增加到33%我们的消融研究和定性结果进一步证实，改善确实来自能够更好地遵循子任务序列并保持在正确轨道上的代理。2. 相关工作VLN数据集。大量的努力已经投入到创建VLN的模拟环境和数据集，其中虚拟代理具有对环境的自我中心感知并采取行动在其中导航[1，3，4，9，13，28，29，38，44]。然而，大多数数据集不考虑与对象的交互操作，这大大限制了代理可以执行的任务的复杂性。最近的ALFRED数据集[30]是第一个提供涉及导航和交互操作的任务的数据集，提供了一个更具挑战性的基准，任务范围更长。VLN模型。大多数早期的VLN模型遵循基于LSTM的序列到序列架构，将语言和视觉序列作为输入并预测动作序列 [1 ， 8 ， 16 ， 20 ， 30 ， 34] 。由于最近Transformer [35] 在视觉任务中的成功，基于Transformer的模型越来越多地被用于VLN [12，17，22，27，33]。我们的M-TRACK与型号无关，兼容两种型号（参见§4.3）。自然语言指令ALFRED为每个任务提供高级（即，目标）指令和更详细的低级指令。大多数以前的研究训练代理与整个指令（即，高级和低级指令的级联）在每个时间步[15，27，30，31，33]。然而，对于像ALFRED中的长时间任务，低级指令可能会很长（平均六句话）。因此，一个被输入了完整指令的智能体可能很难消化长指令，并且很容易忘记进度。M-TRACK帮助代理商将注意力集中在最相关的指令上，减少分心。逐步语言指导。为了解决长指令的问题，在之前的几项研究中已经探索了逐步学习低级指令[5，11，23，42，43]。BabyWalk [43]学习低级指令步骤15484关于我们t=8 t=10 t=12 t=13t=14标签：sinkReachability：False标签：sink可达性：错误标签：水槽可达性：True可达性：True标签：fork......标签：海绵可达性：真标签：fork可达性：True预测动作关于我们关于我们RotateRight（皮卡，海绵）（皮卡，叉子）里程碑检查Military低级指令图2. 里程碑检查过程概述。里程碑是通过我们的里程碑建造者（§4.1.1）。在预测到一个动作之后，我们的里程碑检查器（第4.1.2节）根据来自其对象检测器的具有可达性信息（图像中的文本）的对象来检查只有当满足里程碑时，才向代理提供通过我们的主动检查（第4.2节），可以防止代理拾取错误的对象（海绵）逐步使用课程学习。HiTUT [42]将整个指令分解为分层子问题，并使用分层任务网络顺序学习。与此同时，FILM [23]将指令分解为子任务，并在语义映射的帮助下顺序学习它们M-TRACK也有类似的原理。然而，M-TRACK与现有的方法明显不同，特别是关于在测试期间何时馈送下一个低级指令。首先，M-TRACK明确和系统地检查代理每个子任务的里程碑，以及2）通过经由视觉对象检测器将里程碑接地到环境中来验证里程碑。相比之下，现有方法要么训练二元分类器来确定子任务完成[4]，要么简单地为每个子任务内执行的动作数量设置上限[42，43]，或者只检查代理是否需要使用单独的模块[40]停止。正如在第5节中所看到的，M-TRACK在跟踪代理的进度和提供正确的指令方面明显优于这些方法。第二，M-TRACK还主动引导智能体进行更好的动作预测，从而在性能上获得另一个收益（参见§4.2）。最后，M-TRACK不嵌入任何特定的VLN模型中;它是模型不可知的，可以很容易地集成到不同的VLN模型中（参见。§4.3）。3. VLN背景VLN任务通常定义如下：给定语言指令I，代理需要在环境E中推断并执行动作序列a0、a1、…、at，以完成任务。在像ALFRED [30]这样的数据集中，指令I由高级指令I H和低级指令I L的列表组成，如图1所示。因此，VLN任务可以由元组（I，E，G）表示，其中G是任务的目标测试对于执行任务的代理，它将被放置在环境E中，并且在时间步t处具有特定姿势，它可以从该姿势接收视觉输入vt。基于vt和指令I，代理然后预测动作at，其可以是改变代理的姿势的导航动作MoveAhead）或与环境交互的交互动作（例如，PickupObject）。如果智能体预测交互动作，它还需要预测目标对象的二进制掩码。这两种类型的动作都可能改变下一个时间步的视觉输入vt+1当代理认为任务已完成时，它将停止然后将环境的最终状态与目标状态G进行比较以确定任务完成。在ALFRED之后，我们将智能体的动作空间离散代理模型。不失一般性，我们将代理模型定义为at=f（vt，It，ht），其中ht是来自先前时间步的参数（例如，LSTM的隐藏状态t是一个元组（action，object mask）;对于停止和导航操作，mask为nullIt是在时间t输入的指令，它可以是整个I或它的一部分4. 基于里程碑的任务跟踪器（M-TRACK）对于长视野VLN任务，一个Agent需要完成多个子任务，通常以特定的顺序，以完成整个任务。更具体地说，在IL中的每个低级别指令可以被看作是一个子任务。然后，智能体必须确定，通常是隐式的，它在每个时间步正在做哪个子任务，为了解决这个问题，我们引入了一个辅助模块，基于里程碑的任务跟踪器“转身去水池边”（导航，水槽）假假真“从水槽里拿起叉子，在绿色海绵的右边”（interaction，假真15485(M-TRACK），以显式地和交互式地指导代理做出这样的决策（参见图2的概述）。接下来，我们首先介绍M-TRACK的设计（§4.1），然后介绍如何将其与代理模型集成（§4.2）。然后，我们将介绍两个基本代理模型（§4.3）以及如何使用强化学习训练基本模型（§4.4）。4.1. M-T货架的设计M-TRACK的核心功能是决定代理何时从表面上看，这可以简单地通过训练（二元）分类器来完成，该分类器将所有语言/视觉信号作为输入。然而，这样做并没有利用（子）任务是由实体组成的事实（例如，对象），这些对象在环境和指令中都是可识别和可本地化的利用（子）任务的组合性质具有多个优点。首先，它将决策的输入空间从语言/视觉信号的空间减少到离散实体的空间。其次，它使决策规则系统化和可解释性：我们可以通过直接比较两种模式中检测到的实体来做出决策。这两种方法都能提高决策函数的泛化能力。我们设计的M-TRACK明确考虑（子）任务的compo-sitional性质。具体来说，我们引入了里程碑的概念，它是完成一个子任务的必要条件，即，代理必须到达里程碑，以便认为相应的子任务已完成。例如，如果子任务是“move to the mug”，则智能体必须导航到mug，看到它，并且足够接近它。如果子任务是“pickup the mug”，则智能体必须看到mug，足够接近它，以便它可以与它交互。这两个示例呈现里程碑的关键成分，即其目标实体和其类型（导航或相互作用）。与此同时，我们说一个智能体只有在它能够感知（看到）目标实体，已经接近它们，并且正在对它们做正确类型的动作时，才达到了一个里程碑。为此，我们用一个元组（类型，目标）表示一个里程碑，并将我们的M-TRACK分解为两个组件：1）里程碑构建器，其从低级指令11构建里程碑，以及2）里程碑检查器，其检查代理是否已经到达里程碑。4.1.1里程碑生成器我们使用命名实体识别[6]，根据子任务在IL中对应的低级指令生成子任务的里程碑例如，给定一个指令对于指令目标类型确认未确认导航90.1690.62相互作用96.8597.17表1.ALFRED验证中里程碑构建者的F1评分。对于交互里程碑，它应该包含代理在当前子任务中将要与之进行新交互的目标对象。例如，如果子任务是因此，对于一个有多个要交互的对象的子任务，构建器被设计为标记所有对象。例如，在子任务“从冰箱里拿一个土豆”（图1）中在本例中，构建器将土豆和冰箱标记为交互里程碑的目标。如果构建器没有从当前子任务中提取任何目标，它会将当前子任务与下一个子任务合并，并使用从下一个子任务中提取的里程碑。不失一般性，我们采用BERT-CRF模型[6，32]作为里程碑构建器，并使用来自ALFRED训练数据的数据对其进行训练。使用来自ALFRED模拟器的元数据准备训练数据。更多细节在补充材料中。我们表明，我们的里程碑建设者达到了相当高的F1分数（见表1）。更多分析将在§5.3.2中讨论。4.1.2公司简介我们引入了一个里程碑检查器，它可以确定代理是否已经到达里程碑（参见图2）。具体来说，我们将其设计为显式的：我们直接从视觉输入中估计代理/环境的状态，并将其与里程碑进行比较。如果在视觉输入中检测到目标对象并且目标对象位于到代理的可到达距离内，则到达导航里程碑（1. 5米在AL- FRED）。达到交互里程碑时有一个额外的条件：代理人必须与目标进行交互。状态估计我们使用来自ALFRED模拟器的数据训练对象检测器，该对象检测器不仅可以定位和识别所有116个ALFRED对象类，还可以估计它们的可达性（即，在1. 5米或不）。我们建立在Mask R-CNN模型[10]的基础上，并为每个检测对象的可达性引入了一个额外的二进制分类头。可达性的地面实况标签是从ALFRED模拟器中获得的。里程碑检查。如前所述，要到达导航或交互里程碑，必须检测目标对象并将其定位在可到达的距离内。为了检查这一点，我们比较目标对象名称，15486[CLS]把切片...[SEP]拿起苹果....多层Transformer掩码R-CNNSt-1x1X2...X t国家背景v1… …v 8o1...o n场景对象产品特点多层TransformerS Tx1X2……Xt指针网络更新状态上下文对象/场景嵌入MLP导航zt行动相互作用预计作用：（PickupObject，apple）M-Track里程碑（互动，里程碑生成器苹果）从语言指令中提取（例如，“kitchen island”台面）的Mask R-CNN检测到的对象，本质上是一个符号接地任务。我们只考虑检测到的对象，估计是可达的。我们应用基于Wordnet [7]的现成单词相似性工具，其中WUP [39]来自NLTK [19]的相似性将目标名称与对象标签匹配。其标签与里程碑目标具有最高相似性（高于阈值）的可达对象被视为该目标的接地实例;然后将目标标记为成功。对于交互里程碑，我们需要进一步检查智能体是否正在/已经与目标交互。如§3中所定义的，交互动作是（动作，对象掩码）的元组;对象掩码只是输入图像上的二进制映射。为了确定智能体的动作是否针对里程碑目标，我们计算对象掩码和里程碑目标之间的交集（IoU）得分（由Mask R-CNN提供）：如果IoU得分超过某个阈值（0. 5），则认为与里程碑的目标对象匹配。对于具有多个目标的交互里程碑，代理必须执行多个交互动作以与所有目标交互。我们继续所有里程碑目标的清单。在与所有目标进行交互后，达到里程碑。4.2. 使用M-TRACK进行到目前为止，对M-TRACK的讨论与代理无关。下一个问题是，M-T RACK如何影响智能体的行为，例如，来防止它跳过子任务我们提出了两个简单而有效的方法。首先，在任何时间步，我们只向代理提供由M-TRACK确定的当前子任务的指令。这会显式地引导代理专注于当前的子任务。特别是在ALFRED中，我们为当前子任务提供I H和I L中的一个句子的连接，而不是整个I L。我们从任务的开头开始这样做，当IL的第一个句子保证是第一个子任务时。只有在当前子任务被M-TRACK标记为已完成后，我们才继续下一个句子。M-TRACK的使用使智能体从仅仅依赖其内部机制（如注意力和隐藏状态）来决定子任务切换中解放出来。第二，我们应用里程碑检查积极互动里程碑-在代理执行其预测的行动。这可以防止代理与错误的对象交互，而不是在错误发生后尝试纠正例如，如果里程碑是（interaction，fork），但智能体这使代理不必生成全景观测（True，PickupObject，apple）图3. 带M-T RACK的VLN BROBERT的体系结构。用于恢复的动作序列，例如，将不正确拾取的物体放回原处。在我们的实现中，如果第一个交互动作被拒绝，我们将继续执行代理的前N个列表中的下一个动作从softmax分类器）。我们遍历N个动作，直到找到一个掩码与里程碑目标匹配的交互动作，或者找到一个导航动作（例如，当正确的对象不在视线中时）。如果这些都没有发生，代理将采取其排名第一的导航操作。我们在实验中将N设为54.3. Agent模型4.3.1VLN BERT基线最近，基于Transformer的模型在VLN任务中越来越受欢迎[27，27，33，42]。遵循这条工作路线，我们建立在VLN BERBERT [12]模型的基础上，该模型将递归状态向量的概念引入到Transformer架构中。由于VLN BLEBERT是为R2R数据集设计的，其中主要包含短视野导航任务，因此我们对其进行了一系列修改以适应ALFRED。在输入方面，我们利用预先训练的视觉编码器1从8个全景视图中提取场景特征，并且还从每个视图中提取对象特征作为我们的视觉输入。对于动作预测，与仅处理导航动作的VLN BERT不同，我们采用指针网络[36]来选择导航，交互和停止动作：如果指针网络选择场景特征，代理输出导航到该场景所需的导航动作;如果它选择了一个对象特征，则代理输出该对象的掩码，并另外使用MLP来预处理1为了简单起见，我们使用与里程碑检查器中使用的相同的MaskR-CNN模型，但这不是必要的。VLN模型15487判断交互动作类型;如果它选择停止特征（作为全零向量添加到视觉特征列表），则代理输出Stop。MLP将所选择的对象特征和更新的状态嵌入的级联作为输入。该架构及其与M-TRACK的集成如图3所示，补充资料中提供了更多的实现细节。4.3.2LSTM基线为了进一步展示我们的M-T RACK的模型不可知性，我们使用了ALFRED [ 30 ]中引入的LSTM基线，并使用VLN RAMBERT中使用的相同预训练视觉编码器扩展了架构。此外，为了利用预先训练的视觉编码器的能力，我们遵循[27，31]并要求我们的代理从检测到的对象中选择一个对象，而不是直接预测二进制掩码。从所选对象检索相应的像素掩码详见补充资料。4.4. 学习如ALFRED论文[30]所示，当使用行为克隆进行简单训练时，像LSTM这样的基础模型在ALFRED上的表现相当差。之前对其他VLN任务的研究已经证明了强化学习（RL）的重要性[12，34，43]，但其有效性尚未在ALFRED上得到验证。我们使用行为克隆（使用预测动作序列和地面事实之间的交叉熵损失），对象特征选择损失（用于交互动作）和RL的组合来训练模型。我们应用A2C算法[24]，该算法在时间t根据代理的预测日志概率分布log（pa）对动作at训练/验证/测试分割分别包含21023/1641/3062个示例验证集和测试集进一步分为1）在训练期间已经看到环境的可见集和2）包含新环境的不可见验证/测试集分别包括820/1533个可见和821/1529个未见示例评估指标。我们报告了ALFRED排行榜使用的三个主要指标。成功率（SR）：是否完成所有子任务的二进制指示器。路径长度加权成功率（PLWSR）：SR由（专家演示路径长度）/（代理路径长度）加权。目标条件成功率（GC）：完成目标条件的比率。2我们注意到，在看不见的测试集上的成功率被认为是排名的主要指标，因为模型倾向于记住看不见的环境，并且通常无法推广到看不见的环境。模型进行比较。我们将第4.3.1节和第4.3.2节中描述的基本模型表示为VLN BERRT和LSTM，re-boundary。为了提高他们在ALFRED上的能力，我们进一步增强了他们的能力：1）在ALFRED图像上预训练他们的视觉编码器，2）强化学习（§4.4）。我们将增强的模型表示为VLN BLENBERT-L和LSTM-L，表明它们对长期任务的改进能力最后，将它们分别与M-TRACK进行集成.尽管我们评估的重点是测试M-TRACK在改进不同基础模型上的有效性，但我们仍然将我们的结果与已经发表的其他方法进行了具体实施详见补充资料。5.2.主要结果我们总结了ALFRED测试集为那次行动付出不有一个评论家网络和一个重新-表2中首先，结果表明，我们的两个基本型号具有很强的竞争力，病房我们考虑四种不同类型的奖励：1）智能体与当前导航/交互目标之间的直线距离，2）与我们可以从环境状态计算的地面实况交互动作相匹配的交互动作，3）目标的可见性，即，目标是否可达（在ALFRED中在1.5m内）并且在智能体的视线内，以及4）最终任务成功。在VLNBERT [12]之后，我们在所有训练迭代期间将行为克隆损失、对象选择的对象特征选择损失和RL损失相结合。5. 评价5.1. 实验装置阿尔弗雷德我们在ALFRED [30]数据集上验证了我们的方法，该数据集评估了智能体ALFRED由8055个专家演示和25743条自然语言指令组成。标准优于许多最近的VLN模型，如E.T.，LWIT和HiTUT。最重要的是，M-T RACK在改进两种基本型号方面非常有效：它使LSTM-L和VLN BLERT-L的不可见SR分别提高了4.6%和4.1%（相对提高了53%和33%）。最后，VLN BERT-L+M-TRACK在看不见的SR（主要度量）上与最佳公布方法（HLSM）一样多，在看不见的PLWSR上更好，在看不见的SR上类似较高的可见和不可见PLWSR表明，我们的方法通过专注于当前子任务来完成任务，成功地减少了路径长度。5.3. 细粒度分析5.3.1什么时候使用M-TRACK？M-TRACK的灵活性使得它可以在训练时间，测试时间或两者兼而有之。在表3中，我们表明，2例如，在图1、有3个目标条件：土豆被加热，土豆在柜台上，加热的土豆在柜台上。15488−模型测试看不见的测试看不见的SR PLWSR GC香港艺术馆[31] 5.30 2.72 14.28 22.05 15.10 28.29LAV [26] 6.38 3.12 17.27 13.35 6.31 23.21EmBERT [33] 7.52 3.58 16.33 31.77 23.41 39.27E.T. [27] 8.57 4.10 18.5638.4227.78LWIT [25] 9.42 5.60 20.91 30.9225.90 40.53澳门银河[42] 13.87 5.86 20.31 21.27 11.10 29.97ABP [15]15.43 1.0824.7644.553.8851.13HLSM [2]16.294.3427.2425.11 6.69 35.79LSTM-L 8.70 4.05 16.97 14.04 7.20 21.73LSTM-L + M-T机架13.286.25 20.20 22.05 12.83 30.48VLN双头电动机-L 12.23 5.60 19.64 21.46 11.56 28.99VLN型双排机-L+ M-T机架16.29 7.6622.60 24.79 13.88 33.35表2. ALFRED测试集上的性能。我们在LSTM-L和VLN EQUIPBERT-L上评估了M-T RACK。M-TRACK显着改善了测试看不见和可见分割的所有评估指标。注意，使用VLN_BERT-L（或LSTM-L）的M-T RACK实现了与其他现有方法相当的增益。粗体表示最高分，下划线表示第二高分。LSTM-L型VLN型电液伺服马达培训/测试−+−+9.37 10.48 10.3512.2015.83表3. 在训练和/或测试期间，ALFRED验证集上的不可见SR（+）或不含（）M-TRACK。例如，17。29单元指示在训练和测试期间何时将M-T RACK集成到VLN RAMBERT-L中。M-TRACK在仅在训练或测试期间应用时已经是有益的，但是当在训练和测试期间应用时，增益是最显著的，这表明M-TRACK可能在不同阶段以不同的方式帮助基础模型。目标：“把一个鸡蛋加热，然后放回冰箱”目标：“把一个杯子和一支钢笔放在桌子上”无M-Track错对象关于M-Track拿起铅笔而不是钢笔拾笔（互动，笔）拿起桌子上的钢笔，在钟和铅笔之间5.3.2消融研究表4显示了不同组件的有效性强化学习。我们表明，RL，与我们的reward设计，显着提高了性能的基础模型，特别是在看不见的环境。这清楚地表明了RL对于长期VLN任务的重要性虽然类似的研究结果已经讨论了像R2R [12，34，43]这样的较短视野的任务，但我们是第一批验证其在ALFRED上的重要性的人。在ALFRED上预训练对象检测器。默认的Mask R-CNN模型是在COCO上预先训练的[18]。我们继续在ALFRED（ALFRED-OD）上对其进行预训练，这进一步提高了性能。不同的里程碑检查策略。对于里程碑检查，我们比较了第4.1.2节中讨论的被动检查和主动检查策略。如图所示在表4中，主动检查比被动检查执行得更好，这表明防止错误操作发生比纠正错误操作更可取图4. M-T RACK的案例研究。之后拿。与我们的里程碑检查相反，先前的工作[4]提出了一个二元分类器来检查当前指令的完整性。为了与之比较，我们使用基于隐藏状态的MLP（LSTM-L）或状态编码（VLN BLETBERT-L）实现了一个二元分类器，该分类器预测当前里程碑是否已经达到。虽然它也有帮助，但我们的里程碑检查策略仍然具有很大的优势。最后，我们还使用来自环境的地面实况里程碑而不是我们的里程碑构建器来估计M-TRACK虽然结果仍然显示出相当大的改进空间，但差距并不明显，这表明我们的里程碑构建器相当准确，与表1相呼应。5.4. 案例研究我们将VLN BERBERT-L（顶部）与VLN BERBERT-L进行+ M-TRACK (bottom) on two validation examples (leftand right) to show the importance of M-TRACK (see Fig-ure 4). 首先，VLN BLEBERT-L（左上角）跳过当前的-无M-Track路径偏差跳过捡鸡蛋然后走到微波炉带M-Track开放式冰箱（navigation，fridge）（interaction，{egg，fridge}）“打开冰箱把鸡蛋拿出来然后关上门”+−15489模型组件确认未观察到确认已观察到表4. 确认集的消融研究。RL：强化学习。ALFRED-OD：在ALFRED训练图像上预训练的Mask R-CNN对象检测器。Binary：二进制里程碑分类器。被动：在动作执行后进行主动：在执行操作之前进行里程碑检查。GT：带有地面实况里程碑（上限）的M-TRACK这相比之下，VLN BLEBERT-L + M-TRACK（左下）完成所有子任务并最终完成整个任务。第二，VLNBERT-L（右上）选择了错误的对象铅笔，而不是正确的对象笔。代理可能在两个对象之间混淆，因为相比之下，VLN BERT-L+ M-TRACK（右下角）由于主动里程碑检查而正确执行交互任务。6. 讨论和结论我们介绍了一种新的基于里程碑的任务跟踪器（M-TRACK）用于视觉和语言导航（VLN），并表明显式里程碑检测和检查显着有益于长期VLN任务，如AL-FRED [30]中的任务我们的实证结果表明，M-TRACK与两个强基线模型的有效性总之，这项工作清楚地表明了明确的进度监控的重要性（相对于，例如，采用单个策略网络进行规划和隐式进度监控），特别是对于长期任务。为了说明这一点，我们提出了一个参考ALFRED中的条件的实例化，并且将来可以探索不同条件的不同（或更通用）的实例化。我们注意到当前设计的以下局限性，需要进一步开发：里程碑构建器中的假设。我们当前的实例假设对应于子任务的可分割语言指令。值得一提的是，先前的工作（例如，BabyWalk [43]）确实在R2 R数据集上尝试了类似的任务分解思想，并显示了有希望的结果，我们相信M-Track也可以类似地进行调整，尽管它是一个由于视野较短，因此对我们的目的来说，设置不太有趣。尽管如此，在更一般的现实环境中，准确的里程碑构建可能会更具挑战性，特别是当里程碑是隐含的（例如，“fetch a cold beer”一个有趣的方向是通过对训练实例的归纳推理来发现里程碑，而不是仅仅从语言指令中发现。事件过程挖掘技术[41]可以潜在地被利用来发现“beer”里程碑检查器中的假设。到目前为止，大多数VLN任务都是声明式的。因此，里程碑/目标检查可以通过仅针对环境状态进行检查来完成。对于程序指令（例如，“turn around twice”非唯一的金色轨迹。虽然在ALFRED中不常见，但在更复杂的任务和/或环境中，可能存在多个可行轨迹（例如，导致相同目标状态的子任务的不同执行顺序目前，里程碑被认为是硬约束，一个代理必须达到，以proceed。这可能有助于（学习）软化里程碑所施加的约束，以提供更多的灵活性。确认作者要感谢OSU NLP小组的同事们提出的深思熟虑的意见。这项研究得到了NSF OAC 2118240和NSFOAC 2112606的部分支持。J. Kil，T. Pan和W. Chao还得到了 NSF IIS 2107077 、 OSU GI 发展基金和 OSUCCTS试点基金的部分支持。RL阿尔弗雷德-OD二进制被动积极主动GTSrGCSrGCLSTM1.823.099.2611.09✓8.039.8311.8817.75LSTM-L系列9.3712.5615.0018.37✓ ✓ ✓10.8313.3917.6820.46✓ ✓ ✓15.2218.8820.9724.73LSTM-L + M-T机架15.8320.3421.7025.45✓ ✓ ✓20.3630.7925.1231.41VLNBERT3.667.1914.5120.11✓9.3716.4216.8323.12VLN BERT-L贝尔特10.3518.9421.3225.67✓ ✓ ✓14.8522.1322.9228.90✓ ✓ ✓17.0527.3725.4832.07VLN系列BERT-L+ M-T齿条式升降机17.2928.9826.7033.21✓ ✓ ✓24.3839.3431.9546.2715490引用[1] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，MarkJohnson，NikoSünderhauf，IanReid，StephenGould，and Anton Van Den Hengel.视觉和语言导航：在真实环境中解释基于视觉的导航指令。在CVPR，2018年。一、二[2] Valts Blukis ， Chris Paxton ， Dieter Fox ， AnimeshGarg，and Yoav Artzi. 用于高级自然语言指令执行的持久空间语义表示。arXiv预印本arXiv：2107.05612，2021。二、七[3] Howard Chen ， Alane Suhr ， Dipendra Misra ， NoahSnavely，and Yoav Artzi.着陆：视觉街道环境中的自然语言导航和空间推理在CVPR，2019年。一、二[4] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。具身问答。在CVPR，2018年。一、二、三、七[5] Abhishek Das 、 Georgia Gkioxari 、 Stefan Lee 、 DeviParikh和Dhruv Batra。具身问答的神经模组控制。在机器人学习会议上，2018年。2[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。二、四[7] 克里斯蒂安·费尔鲍姆WordNet：一个电子词汇数据库。Bradford Books，1998. 5[8] Daniel Fried 、 Ronghang Hu 、 Volkan Cirik 、 AnnaRohrbach 、 Jacob Andreas 、 Louis-Philippe Morency 、Taylor Berg- Kirkpatrick 、 Kate Saenko 、 Dan Klein 和Trevor Darrell。用于视觉和语言导航的说话者跟随者模型。arXiv预印本arXiv：1806.02724，2018。2[9] Daniel Gordon ， Aniruddha Kembhavi ， MohammadRaste-gari，Joseph Redmon，Dieter Fox，and Ali Farhadi.Iqa：交互式环境中的可视化问答。在CVPR，2018年。一、二[10] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017. 二、四[11] Yicong Hong，Cristian Rodriguez-Opazo，Qi Wu，andStephen Gould.子指令感知视觉和语言导航。arXiv预印本arXiv：2004.02707，2020。2[12] Yicong Hong，Qi Wu，Yuankai Qi，Cristian Rodriguez-Opazo，and Stephen Gould.一种用于导航的反复出现的在CVPR，2021年。二五六七[13] Vihan Jain、Gabriel Magalhaes、Alexander Ku、AshishVaswani、Eugene Ie和Jason Baldridge。保持在路上：视觉和语言导航中的教学保真度。arXiv预印本arXiv：1905.12255，2019。一、二[14] 李一鸣，李秀君，Yonatan Bisk，阿里·霍尔茨曼，甘哲，刘晶晶，高建峰，蔡业进，和 Sid- dharthaSrinivasa。战术倒带：通过视觉和语言导航中的回溯进行自我纠正在CVPR，2019年。2[15] Byeonghwi Kim ， Suvaansh Bhambri ， Kunal PratapSingh，Rooghh

下载后可阅读完整内容，剩余1页未读，立即下载