交互式指令跟随：分解感知和策略的模块化物体中心方法（MOCA）

185 浏览量更新于2023-10-13 收藏 17.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

PICKOBJECTPICKOBJECTPICKOBJECT18880分解感知和策略以进行交互式指令跟随0https://github.com/gistvision/moca0Kunal Pratap Singh �, 2, § Suvaansh Bhambri �, 1 Byeonghwi Kim �, 1 Roozbeh Mottaghi 2 Jonghyun Choi 1, †01 GIST，韩国 2 Allen Institute for AI0kunals@allenai.org, suvaansh2008bhambri@gmail.com, byeonghwikim@gm.gist.ac.kr0roozbehm@allenai.org, jhc@gist.ac.kr0摘要0根据语言指令执行简单的家务任务对人类来说非常自然，但对于AI代理来说仍然是一个开放的挑战。'交互式指令跟随'任务试图在每一步中在环境中共同导航、交互和推理，以取得进展。为了解决这个多方面的问题，我们提出了一种将任务分解为交互感知和动作策略流的模型，增强了组件，并将其命名为MOCA，即模块化物体中心方法。我们通过实验证明，MOCA在ALFRED基准测试中的性能优于以前的方法，并且具有改进的泛化能力。01. 引言0拥有能够根据语言指令执行日常任务的机器人助手的前景是一个遥远的梦想，几十年来一直使研究界望而却步。在计算机视觉、自然语言处理和具体化方面取得的最新进展，已经开发了几个基准测试，鼓励对这些指令跟随代理的各个组成部分进行研究，包括导航[2, 6, 8, 23]、物体交互[30,41]和交互推理[11, 15]在视觉丰富的3D环境中[5, 22,33]。然而，为了朝着构建真实的助手迈进，代理应该具备所有这些能力。迈出一步，我们解决了更全面的交互式指令跟随任务[15, 30, 34,41]，这需要代理在环境中导航，与物体交互，并完成长期任务，根据自然语言指令进行自我中心的视觉。为了完成交互式指令跟随任务的目标，代理应该推断出一系列的动作和物体交互。虽然动作预测需要全局语义线索，但物体定位需要像素级0�：相等贡献。§：在GIST期间完成的工作。†：通讯作者。0提出的因子化模型0"蜡烛"0单通路0策略0感知感知0和策略0动作预测0当前帧0文本0指令0物体定位0任务：将蜡烛放在马桶的后面0成功0失败0图1：我们将交互式指令跟随分解为感知和策略。每个热图表示一个流在给定的视觉观察中关注的位置。单个流利用相同的特征进行像素级和全局理解，因此无法与物体交互，而我们的因子化方法将感知和策略分开处理，并成功进行交互。0对环境的理解和语义上的不同任务使它们在神经科学文献[14]中有两个通路：腹侧通路（与物体感知有关）和背侧通路（与动作控制有关）。受到这些启发，我们提出了一种模块化的物体中心方法（MOCA），将交互感知和动作策略因子化为单独的通路，在一个统一的端到端框架中构建交互式指令跟随代理。具体而言，我们的代理有动作策略模块（APM），负责顺序动作预测，以及交互感知模块（IPM），用于定位要交互的物体。图1显示了我们的双通路模型比单通路模型更有益处。热图表示模型的视觉注意力。对于“拿起蜡烛”的动作，我们提出的因子化模型在两个通路中都关注蜡烛，并成功进行交互。相反，单通路模型不关注蜡烛，暗示了在单个通路中处理两个不同的预测的挑战。在IPM中，我们提出了对物体类别进行推理的方法18890为了更好地定位，我们将其命名为以物体为中心的定位（OCL）。我们进一步通过使用连续时间步骤上与之交互的物体之间的空间关系来提高定位能力。为了使视觉特征与文本指令更好地关联，我们提出使用动态滤波器[20,24]来实现跨模态嵌入的有效性。我们还表明，当在分解感知和策略的模型中使用这些组件时，它们更加有效。我们使用模仿学习，具体来说是行为克隆，来训练我们的代理。然而，当训练代理的路径被墙壁、桌子、厨房柜台等不可移动的物体阻挡时，在推理过程中，它很可能无法避开这些障碍物，因为真实路径只包含完成任务的完美专家轨迹，没有任何错误。为了避免这种错误，我们在APM中进一步提出了一种避障机制。最后，我们采用数据增强来解决模仿学习样本不足的问题。我们在最近提出的ALFRED基准测试[34]上对我们提出的方法进行了实证验证，并观察到在所有评估指标上，它在文献中以很大的优势超过了之前的工作。我们总结我们的贡献如下：•我们提出将感知和策略分解为具身交互式指令遵循任务。0• 我们还为该任务提供了一种以物体为中心的定位和避障机制。0•我们展示了该代理在所有指标上都比之前的方法有很大的优势。0• 我们提供定性和定量分析来证明我们方法的有效性。02. 相关工作0具身化指令遵循。视觉和语言导航任务要求代理根据模拟环境中的视觉观察通过遵循自然或模板化的语言指令来达到目标[2, 6, 8,29]。[2]在Room2Room（R2R）基准测试中提出了视觉与语言导航（VLN）任务，其中代理根据自然语言指令在固定的底层导航图上导航。通过各种提议，如进展监控[27]，轨迹增强[13]和环境丢失[37]，在这个基准测试上取得了实质性的改进[13, 21, 24, 25, 28,40]。连续环境中的视觉和语言导航（VLN-CE）[23]消除了对已知导航图和完美代理定位的假设[2]。最近，[35]提出了ALFWorld，其中包含与[34]中的TextWorld[10]环境相对应的抽象空间中的学习，允许代理在实际具身环境中进行转移之前进行学习。交互式指令遵循是一种将任务的导航方面结合在一起的更复杂的范式0如VLN与操作代理的交互能力相结合[3]。最近引入的ALFRED[34]基准测试是这个任务的一个合适的测试平台。它要求代理通过自我中心的视觉观察进行导航，并通过生成像素级掩码与对象进行交互，以完成具身环境中的任务。Shridhar等人[34]针对这个任务提出了一个带有进展监控[27]的单流Seq-to-Seq模型。尽管类似的模型在VLN [2,27]上表现良好，但在具身交互式指令遵循任务中无法推广到未见过的环境，表明其困难性和需要进行广泛研究以开发出表现良好的代理。[32]提出了一种基于规划器的几何感知方法。然而，他们将训练数据本身分割为训练、验证和测试集，并且没有任何开源代码或分割，因此我们在比较中省略了它们。最近，Nguyen等人[31]提出了一种方法，通过收集每个时间步的多个视图来放松任务的自我中心视觉约束，从本质上使其类似于VLN[2]中的全景视图。他们通过指令对这些视觉特征进行分层注意。在这里，我们提出将任务分解为感知和策略，以有效地学习这个任务的代理。请注意，我们没有放松原始ALFRED基准测试的任何约束集，仍然在所有指标上优于之前的方法[31, 34]。0双流架构。[4, 12, 36,38]已经证明了多流架构在捕捉给定输入的不同特征方面的成功。受到这些工作的启发，我们也提出了一个双流架构。与这些工作相反，我们不将流合并为单个输出，而是执行两个语义上不同的任务，即交互感知和动作策略。最近的研究[7,19]将学习具体化的任务分解为两个部分。首先，使用网格世界[19]训练完美的感知策略，或者直接访问环境的状态[7]。然后，在视觉逼真的环境中训练智能体通过模仿完美的感知策略来观察。0视觉定位。之前的视觉定位方法利用预训练的分割模型[9,16-18, 39,42]生成一组候选区域，然后预测与语言查询相对应的最佳候选提案。然而，这些方法用于在给定语言描述的一张图像中定位单个对象。我们将其扩展到具体化领域，并在连续的视觉观察流中定位多个对象，给定一组指令。我们将物体定位分为两个阶段：物体类别预测和掩码生成（第3.2.2节），并利用预训练的实例分割模型[16]。这与[34]不同，后者通过反卷积层上采样视觉-语言-动作嵌入来生成无类别的掩码。正如我们在后续章节中所展示的，这个方法PICKOBJECTLSTMaGoal: Examine an empty boxby the light of a floor lamp.Instruction: ... box on thetable. Pick up the box fromthe table. Turn right and walkforward to ...attnFCLSTMmconcatattnconcatFCaconcatconcatconcatFCmLSTMmDynamic FiltersClass DecoderLanguage EncoderAction DecoderLSTMaFCFCFCFCFCDynamic FiltersAttnMapAttnMapAttnMapAttnMapAttnMapAttnMapMaskGeneratorObject-Centric LocalizationObstruction EvasionDistanceROTATELEFTPICKOBJECTTOGGLEOFFTOGGLEONMOVEAHEADLanguage Encoder18900Bi0动作策略模块0交互感知模块0预测的动作0Bi0预测的掩码0ResNet0M OVE A HEAD0实例0关联0"盒子"0图2：模型架构。时间步骤t的输入帧和语言指令分别表示为It和x。蓝色虚线表示上一个时间步骤的动作路径。下标m和a分别表示组件属于IPM或APM。ResNet-18对It进行编码，表示为vt。动态滤波器在视觉特征vt上卷积，得到注意力视觉特征ˆvt,m和ˆvt,a。ht,m和ht,a表示类别和动作解码器的隐藏状态。基于注意力视觉和语言特征以及上一个动作预测目标类别ct和动作at。组件中的“lock”符号表示仅在推理时使用。0导致定位不准确的掩码。之前的研究[34]使用串联来组合视觉和语言嵌入。然而，这种方法无法完全捕捉到跨模态的对应关系。[24]产生了动态卷积滤波器，这些滤波器应用于全景视觉特征，以为VLN在R2R基准上产生动作输出。受到他们的工作的启发，我们使用动态滤波器将语言特征与自我中心视觉特征进行关联，用于交互式指令跟随。03. 方法0交互式指令跟随智能体根据从环境中接收到的自我中心视觉观察执行一系列导航步骤和物体交互。这些动作和交互基于智能体必须遵循的自然语言指令来完成任务。我们通过将模型分解为两个流，即交互感知和动作策略，以及以端到端的方式训练整个架构来解决这个问题。图2详细介绍了MOCA的概述。03.1. 分解感知和策略0动作预测需要对视觉观察进行全局场景级的理解，以将其抽象为结果动作。另一方面，对于物体交互，智能体需要同时关注场景级和物体特定的特征以实现精确的定位[4, 26,36]。鉴于这两个任务的对比性质，MOCA为动作预测和物体定位设置了单独的流。这两个流分别是交互感知模块（IPM）和动作策略模块（APM）。下标a0以下方程中的m表示组件属于APM还是IPM。APM负责顺序动作预测。它接收指令以利用详细的面向动作的信息。IPM在处理操作动作时，每当智能体需要与对象进行交互时，会定位像素级的掩码。IPM试图在定位和交互的指令中更加关注以对象为中心的信息。IPM和APM都在每个时间步骤接收以自我为中心的视觉观察特征。03.2. 交互感知模块（IPM）0与环境中的物体进行交互的能力对于交互式指令跟随至关重要，因为完成每个任务都需要多次交互。交互感知模块（IPM）通过预测像素级的掩码来定位与之交互的对象，从而实现了这一点。首先，IPM中的语言编码器对语言指令进行编码并生成关注的语言特征。为了将视觉特征与语言特征进行关联，我们使用语言引导的动态滤波器来生成关注的视觉特征（第3.2.1节）。然后，为了在语言输入中的现有对象中将正确的对象与其相应的交互动作进行时间上的对齐，我们使用先前的动作嵌入以及视觉和语言输入。例如，在语句“洗铲子，将其放在第一个抽屉中”中，智能体首先需要在水槽中洗铲子，我们有两个对象类别，即铲子和水槽，智能体需要与之交互。但这必须按照特定的顺序进行。如果动作是PUT OBJECT，智能体需要预测水槽的掩码，而如果是PICKOBJECT，它需要预测ht,m = LSTMm([ˆvt,m; ˆxt,m; at−1])(1)wi = fDF i(x), i ∈ [1, NDF ],t1,t. ; ˆvNDF ,t],(2)ct = argmaxkFCm(ht,m),k ∈ [1, Nclass],(3)ˆi =��̸18910如图2所示，类别解码器LSTM m 的隐藏状态h t,m的更新是通过连接三个不同的输入来实现的，其中包括铲子的掩码。0其中[;]表示连接。ˆ x t,m 和 ˆ v t,m分别是所关注的语言和视觉特征。最后，类别解码器的当前隐藏状态h t,m 用于预测掩码m t。这是通过调用面向对象的定位（第3.2.2节）来实现的，它帮助智能体准确地定位感兴趣的对象。03.2.1 语言引导的动态滤波器0视觉定位帮助智能体利用语言和视觉特征之间的关系。这减少了智能体对任何特定模态的依赖，同时遇到未知情况。通常的做法是将平坦的视觉和语言特征进行连接[17，18，34]。然而，这可能无法完全捕捉到视觉和文本嵌入之间的关系，导致交互式指令跟随智能体的性能不佳[34]。动态滤波器是基于语言特征进行调节的，使其对不同的输入更具适应性。这与传统的卷积不同，传统卷积在训练后具有固定的权重，无法适应多样的指令。因此，我们提出在交互式指令跟随任务中使用动态滤波器。具体来说，我们使用由全连接层组成的滤波器生成器网络来生成动态滤波器，该网络试图从关注的语言特征中捕捉到语言的各个方面。具体而言，滤波器生成器网络f DF 以语言特征x作为输入，并生成N DF个动态滤波器。这些滤波器与视觉特征v t卷积，以输出多个联合嵌入，即ˆ v t = DF(v t ,x)，如下所示：0ˆ v i,t = v t * wi ,0其中，N DF 、�和[ ;]分别表示动态滤波器的数量、卷积和连接操作。我们在第4.2节中经验性地研究了使用语言引导的动态滤波器的好处。03.2.2 以对象为中心的定位0IPM通过预测感兴趣对象的像素级交互掩膜来执行对象交互。我们将掩膜预测任务分为两个部分：目标类别预测和0实例关联。这种分流使我们能够利用预训练的实例分割模型的质量，同时确保准确的定位。我们将这种机制称为“以对象为中心的定位（OCL）”。我们在第4.2节和4.3节中经验性地验证了OCL。0目标类别预测。作为OCL的第一步，我们采用以对象为中心的视角来进行交互，明确地编码了代理的关于对象类别推理的能力。为了实现这一点，MOCA首先预测当前时间步 t上代理打算与之交互的目标对象类别 c t 。具体来说，FC m以类别解码器的隐藏状态 h t,m 作为输入，并输出时间步 t上的目标对象类别 c t ，如公式 3所示。然后，使用预测的类别从掩膜生成器中获取与预测类别对应的一组实例掩膜。0其中，FC m ( ∙ ) 是一个全连接层，N class表示目标对象的类别数。目标对象预测网络作为IPM的一部分进行训练，使用交叉熵损失和真实的对象类别。0实例关联。在推理过程中，给定预测的对象类别，我们现在需要选择所需对象的正确掩膜实例。我们使用预训练的掩膜生成器获取实例掩膜和置信度分数。一个直接的解决方案是选择置信度最高的实例，因为它提供了该对象的最佳质量掩膜。当代理与对象首次交互时，这种方法效果很好。然而，当代理在一段时间内与同一对象进行交互时，更重要的是“记住”代理已经与之交互的对象，因为由于多次交互，其外观可能发生巨大变化。因此，仅基于置信度的预测可能导致交互失败，因为它缺乏记忆。为了解决所有情况，我们提出了一个双向选择最佳实例掩膜的标准，即“基于置信度”和“基于关联”。具体来说，代理预测当前时间步的交互掩膜m t = m ˆ i,c t ，其中中心坐标为 d � t = d ˆ i,c t ，其中 ˆi 的计算方式如下：0argmax i s i,c t , 如果 c t � = c t − 1 ,0argmin i || d i,c t − d � t − 1 || 2 , 如果 c t =c t − 1 , (4)0其中，c t 是预测的目标对象类别，d i,c t是预测类别的掩膜实例 m i,c t 的中心。图 3是一个示例，代理试图打开抽屉并将刀放入其中，同一个抽屉在多个时间步骤中进行交互。第4.2节的表 4展示了我们的实例关联方案的消融研究。0.9120.9080.0810.1340.7600.910ConfidenceConfidenceConfidence18920目标陈述：将一个清洁的刀放入抽屉中。0基于关联的基于置信度的0基于关联的基于置信度的0图3：实例关联（IA）的定性说明。抽屉的掩膜以置信度进行着色。�表示该时间步交互的对象。×表示通过IA替换的对象。使用单一的基于置信度的方法可能会使代理与不同的抽屉进行交互，因为关闭的抽屉具有更高的置信度。IA帮助代理与同一个抽屉进行交互并放置刀。03.3. 动作策略模块（APM）0动作策略模块（APM）是图2中下方的模块，负责预测动作序列。它以视觉特征和指令作为输入。APM中的语言特征由APM中的语言编码器生成。与IPM一样，我们使用语言引导的动态滤波器生成关注的视觉特征（第3.2.1节）。尽管我们为IPM使用了类似的架构，但由于用于两者的语言编码的差异，动态滤波器捕捉到的信息与APM的不同。然后，动作解码器以关注的视觉和语言特征以及先前的动作嵌入作为输入，输出动作解码器的隐藏状态ht,a。最后，使用全连接层预测下一个动作a t，如下所示：0u a = [ˆ v t,a ; ˆ x t,a ; a t − 1]，h t,a = LSTM a (u a)0a t = argmax k (FC a ([u a ; h t,a]), k ∈ [1, N action](5)0其中ˆ v t,a，ˆ x t,a和a t −1分别表示关注的视觉特征、关注的语言特征和先前的动作嵌入。FC a以ˆ v t,a，ˆ x t,a，a t − 1和ht,a作为输入，并预测下一个动作a t。注意Naction表示动作的数量。我们保持与[34]相同的动作空间。APM的目标函数是交叉熵，其以专家在每个时间步骤的视觉观察中采取的动作作为基准。0避障。在训练过程中，智能体根据专家的真实动作避免遇到任何障碍物。然而，在推理过程中，智能体会在无法移动的物体周围陷入困境。为了解决这种未预料到的情况，我们在APM中提出了一种“避障”机制，以在推理时避免障碍物。在环境中导航时，智能体在每个时间步骤计算当前时间步骤v t和上一个时间步骤v t −1之间的距离，使用容差超参数ϵ，如下所示：0左前右0左前右0左前右0可导航0障碍物0通过"前"遇到障碍物，改为选择"右"0图4：避障。每个图中包含具有前三个概率的动作。�表示在该时间步骤采取的动作。带×的头部表示我们的智能体通过方程6的标准在时间步骤t检测到障碍物。因此，我们的智能体预测第二个最佳动作RIGHT，通过从动作空间中移除AHEAD来逃脱。0我们在APM中提出了一种“避障”机制，以在推理时避免障碍物。在环境中导航时，智能体在每个时间步骤计算当前时间步骤v t和上一个时间步骤v t −1之间的距离，使用容差超参数ϵ，如下所示：0d ( v t − 1 , v t ) < ϵ, (6)0其中d(v t − 1, v t) = ||v t − 1 − vt||�²。当满足此方程时，智能体从动作空间中移除导致障碍物的动作，以便逃脱：0a t = argmax k FC a ([ u a ; h t,a ]) , k ∈ [1, N action ] - { k ′0(7)其中k′是a t − 1的索引。u a和FCa与方程5相同。我们在第4.2节中进行了实证研究。04. 实验0我们进行了定量比较，并展示了我们在先前的工作[31,34]上取得了很大的优势。我们还进行了大量的消融研究和额外的分析，以探讨MOCA各个组件的经验显著性，并通过定性示例来突出我们设计选择的重要性。0数据集。为了训练和评估交互式指令跟随任务，我们使用了最近提出的在AI2-THOR[22]中运行的ALFRED基准测试。ALFRED中的场景被分为“训练”、“验证”和“测试”集。为了评估泛化能力，验证和测试场景被分为两个部分：已见和未见的折叠。验证和测试数据中已见折叠的场景是训练折叠中场景的子集。验证和测试未见折叠中的场景与训练折叠中的场景不同。18930模型验证测试已见未见已见未见0任务目标条件任务目标条件任务目标条件任务目标条件0Shridhar等人[34] 3.70（2.10）10.00（7.00）0.00（0.00）6.90（5.10）3.98（2.02）9.42（6.27）0.39（0.80）7.03（4.26）Nguyen等人[31] N/A N/A N/A N/A12.39（8.20）20.68（18.79）4.45（2.24）12.34（9.44）MOCA（我们的方法）25.85（18.95）34.92（26.44）5.36（3.19）16.18（10.44）26.81（19.52）33.20（26.33）7.65（4.21）15.73（11.24）0输入消融实验无语言 2.00（1.59）10.85（5.69）0.00（0.00）4.11（1.60）0.59（0.29）6.37（4.24）0.20（0.03）6.82（3.43）无视觉0.12（0.05）6.16（5.11）0.00（0.00）7.26（6.41）0.07（0.03）4.31（3.34）0.20（0.07）6.92（4.72）仅目标3.90（2.59）11.43（8.65）0.49（0.12）8.40（4.66）3.59（2.39）10.03（7.47）1.11（0.40）8.70（4.96）仅指令5.98（4.52）14.56（11.16）0.49（0.27）7.97（5.09）6.20（3.96）12.44（9.45）0.85（0.36）7.84（4.62）0人类 - - - - - - 91.00（85.80）94.50（87.60）0表1：任务和目标条件成功率。对于每个指标，相应的路径加权指标在括号中给出。每个折叠和指标的最高值以蓝色显示。‘N/A’表示‘不可用’，因为得分未在排行榜中报告。0彼此之间。该数据集提供了高级目标陈述和低级逐步说明。有关ALFRED基准和我们的实现细节的详细描述，请参见补充材料。0评估指标。我们遵循[34]中提出的评估指标，即任务成功率（Task）和目标条件成功率（Goal-Cond）。此外，为了衡量代理的效率，上述指标通过路径长度进行惩罚，计算每个指标的路径长度加权（PLW）得分[1]。有关评估指标的更多细节，请参阅[34]。04.1. 定量分析0我们首先对任务成功率（Task）和目标条件成功率（Goal-Cond）进行定量分析，并在表1中总结了与先前方法的结果。如图所示，MOCA在所有指标上都比之前的方法[31,34]有显著改进。在未见过的场景中更高的成功率表明它能够在新环境中进行泛化。我们在Seen和Unseen TaskSR上相对于Nguyen等人[31]（他们在ECCV2020的ALFRED挑战赛中获胜）分别提高了14.42％和3.20％。请注意，Nguyen等人[31]是挑战赛的参赛作品，他们既没有报告验证集的结果，也没有发布代码，因此省略了比较。MOCA在Seen和Unseen“Goal-Condition”指标上都优于他们，并分别提高了12.52％和3.39％。MOCA在整体任务成功率和目标条件上的卓越表现表明它理解了短期子任务以及长期全任务。[34]在任务成功率上的表现较差，表明它缺乏长期任务完成能力。如表1中的括号所示，MOCA为所有指标提供了更好的路径长度加权结果，这显示了我们代理的效率。我们还要注意，在ALFRED公共排行榜1中，最高分是9.42。01 https://leaderboard.allenai.org/alfred/submissions/public0看到成功率，但它只是一个匿名的排行榜条目，没有手稿或代码，因此我们在比较中省略了它。我们在补充材料中提供了子目标和任务类型的消融实验。04.2. 消融研究0输入消融。我们在表1中消融了我们模型的输入，以研究MOCA的视觉和语言偏差。当只给予代理器视觉输入（无语言）即将语言输入归零时，我们观察到它能够通过记忆熟悉的视觉序列在已知环境中执行一些任务，但在未知环境中无法泛化。没有视觉设置能够通过遵循导航指令完成一些目标条件，但缺乏视觉输入削弱了代理器的交互能力，因此在已知和未知环境中都严重失败。仅目标设置突出了MOCA相对于Shridhar等人的更好目标陈述利用能力。由于我们的行动策略模块（APM）不利用目标陈述，因为它缺乏行动特定信息，所以这种设置的行动预测能力等同于无语言设置。然而，由于目标陈述在交互感知模块（IPM）中使用，它允许代理器执行准确的物体交互，因此比无语言设置实现了更好的性能。这个结果是第3.1节讨论的感知和策略分解的直接好处。表1中的仅指令消融表明了代理器在不接收目标陈述时的性能。指令大大提高了行动预测能力，超过了仅目标设置，因为APM现在可以利用详细的行动信息。然而，IPM被剥夺了语言输入，这使得目标类别预测能力（第3.2.2节）的物体中心定位减弱。这导致许多交互失败，因此它的表现比我们的完整模型和仅目标设置更差。值得注意的是，对于输入消融，代理器被剥夺了APM或IPM的动态滤波器，GI25.85 (18.95)34.92 (26.44)5.36 (3.19)16.18 (10.44)G,II29.76 (22.33)39.40 (30.58)5.97 (3.52)18.25 (11.78)GG,I28.05 (20.96)35.89 (28.24)5.36 (3.21)17.26 (10.56)G,IG,I26.34 (18.20)34.28 (25.68)5.36 (2.72)16.23 (9.28)(a)25.85 (18.95)5.36 (3.19)(b)22.32 (16.17)4.51 (2.59)(c)15.85 (10.02)2.92 (1.35)(d)12.56 (7.05)2.68 (1.32)(e)14.63 (9.80)2.19 (1.23)(f)11.71 (5.42)1.83 (0.82)(g)3.90 (2.40)0.50 (0.30)(h)3.30 (1.70)0.40 (0.20)18940输入 Val-Seen Val-Unseen0IPM APM 任务 Goal-Cond. 任务 Goal-Cond.0表2：交互感知模块（IPM）和行动策略模块（APM）的流输入消融。对于每个指标，我们报告相应的路径加权分数（括号中）。每个“G”和“I”表示目标陈述和逐步说明，而“G,I”表示它们的连接。0# FPP OCL DF DA Val-Seen 任务 Val-Unseen 任务0表3：所提出模型的每个组件的消融研究。FPP表示感知和策略的分解。OCL表示物体中心定位。DF表示语言引导的动态滤波器。DA表示数据增强。对于每个指标，我们报告任务成功率和相应的路径加权分数（括号中）。缺少勾号表示相应的组件被移除。0由于这个原因，它在所有输入消融设置中都无法在未知环境中表现良好。0流输入消融。如前所述，我们在实验中将目标陈述作为IPM的输入，将指令作为APM的输入。然而，我们进行了一项实证研究，以显示我们的框架对于这个特定选择并不敏感，并且可以在此之外进行泛化。我们在表2中研究了具有不同目标和指令组合的语言输入。我们将APM和/或IPM的输入替换为目标和指令的连接，类似于[34]，并报告在生成的组合上的任务成功率。如表2所示，我们没有观察到任何性能下降，这表明我们的方法对于语言输入的选择并不敏感。请注意，可以优化语言输入的选择以获得微小的性能提升，但为了便于分析，我们保持当前的组合。此外，我们的目标是为互动式指令遵循任务贡献一个通用框架，它对语言指令类型不敏感，并且可以超越ALFRED [34]。0模型消融。为了通过实证研究探究每个组件的重要性，我们对MOCA进行了一系列的消融实验，并在表3中总结了结果。由于篇幅限制，我们只提供了任务成功率。0模型验证-已见数据验证-未见0任务目标-条件任务目标-条件0MOCA 25.85 (18.95) 34.92 (26.44) 5.36 (3.19) 16.18 (10.44)0- w/o I.A. 23.66 (17.47) 32.48 (25.18) 5.12 (3.04) 15.85 (10.32) - w/o O.E.20.00 (15.08) 28.26 (22.67) 3.53 (2.38) 14.25 (10.53)0表4：实例关联和避障的消融实验。这两个组件都在验证集上进行了消融实验。0约束条件。我们在补充材料中展示了完整的表格。#(a)代表我们的完整模型。我们首先展示了分解对于模型的重要性，包括有数据增强(# (a) vs. (b))和没有数据增强(# (c)vs.(d))的模型。对于这个消融实验，我们将目标和指令的拼接作为语言输入，并从单个流中进行动作和掩码预测，类似于[34]，同时保持其他模块不变。注意，'FPP'列中的(�)表示模型是双流(�)还是单流(无�)。我们还发现数据增强对于训练一个更好、更具泛化性的任务代理非常重要(# (a) vs.(c))。接下来，我们对语言引导的动态滤波器(Sec.3.2.1)进行消融实验。去除它们会导致已见和未见指标都下降(# (c) vs.(e))。这种下降可以归因于视觉和语言输入之间缺乏跨模态的对应关系。我们还展示了没有分解的情况下动态滤波器的效果较差(# (g) vs.(h))。这进一步证实了我们对于交互式指令跟随更适合使用双流架构的理解。最后，我们对面向对象的局部化(OCL)(Sec.3.2.2)进行消融实验。我们观察到性能在已见和未见数据集上都大幅下降(# (c) vs.(g))，这是由于局部化不佳所致，突出了我们面向对象的设计的有效性。需要注意的是，大幅下降也表明了对象定位的重要性，因此也表明了任务中的交互的重要性。此外，我们还展示了分解对于OCL的效果更好(# (e) vs.(f))，进一步凸显了分解对于我们代理的卓越性能的重要性。对于这个消融实验，为了去除OCL，我们使用反卷积层直接上采样联合的视觉-语言-动作嵌入，以预测掩码，类似于[34]。表4对来自Sec.3.3的避障进行了消融实验。性能下降表明它能够帮助代理有效地避开障碍物。我们还对Sec.3.2.2中的实例关联(IA)进行了消融实验。在这种设置下，我们不是使用IAT选择预测目标类别的掩码实例，而是随机选择该类别的一个实例。这种设置的性能几乎只有MOCA的一半，这意味着仅仅预测正确的对象类别是不够的，还必须选择正确的实例。04.3. 定性分析0分解感知和策略。我们以定性的例子展示了分解感知和策略的好处。189500图5：单流和双流模型的语言注意力。框架边框和单词的颜色表示代理在特定框架上关注的单词。a t表示在时间步骤t上采取的动作。(a)没有分解时，语言注意力始终关注苹果，无论采取的动作如何。(b)有分解时，语言注意力关注与该时间步骤采取的动作相对应的单词。0策略。在图5a中，对于单流模型，即没有因子分解的模型，语言注意力集中在目标陈述中提到的对象上，例如在所有显示的三个时间步骤中都是苹果，即使它与当前动作无关，忽略了指令中的所有其他动作特定信息。然而，当感知和策略被分解并且我们使用双流模型时，它可以有效地编码交互感知和策略的表示。因此，注意机制会同时关注导航和交互动作的正确单词。图5b定性地说明了这个结果。例如，在t =20时，当MOCA预测R O - TATE R IGHT时，它会关注turnright。在t =26时，当我们的代理打算切割苹果时，它会关注Cut。请注意，模型之间唯一的区别是感知和策略的因子分解。0面向对象的定位。我们还对MOCA的对象定位能力（第3.2.2节）进行了定性分析。面向对象的定位（OCL）允许我们的方法推理对象类别（第3.2.2节），从而确保与正确的对象进行交互。这与[34]不同，[34]通过反卷积网络上采样线性嵌入并预测类别无关的掩码，因此不保留任何关于对象类别的信息。在图6a中，对于没有OCL的设置，我们用类似于[34]的反卷积层替换了OCL。由于它缺乏关于对象类别的推理能力，即使对象完全可见，它也会预测不准确的掩码。相比之下，在图6b中，我们的完整方法成功地预测了它打算与之交互的对象（即手机）。识别出正确的对象使其能够在掩码生成器的帮助下预测出准确的定位掩码。我们在补充材料中提供了MOCA任务完成能力的更多定性示例视频。0类别：手机0类别：手机0（a）没有OCL的MOCA（b）MOCA0图6：对象定位的定性比较。绿色区域表示模型预测的掩码。需要代理与之交互的真实对象类别显示在左上角。OCL表示面向对象的定位。05. 结论0我们探索了交互式指令遵循的问题。为了解决这个组合任务，我们提出了一个将任务分解为交互感知和动作策略的模型。我们还提出了改进的对象定位和障碍物避免组件。我们的方法提供了一个框架，可以被ALFRED和其他未来的研究所采用。我们的方法通过更好的泛化性能显著超过了所有先前的方法。我们提供了广泛的分析和见解，可以有益于指令遵循的一般范式。0致谢。本研究部分得到了韩国国家研究基金会（NRF）的支持，该基金会由韩国政府（MSIT）资助（编号：2019R1C1C1009283），以及由韩国政府（MSIT）资助的信息与通信技术规划与评估研究所（IITP）资助（编号：2019-0-01842，人工智能研究生院项目（GIST）），（编号：2019-0-01351，开发超低功耗移动深度学习半导体，压缩/解压激活/内核数据，25%）和（编号：2021-0-02068，人工智能创新中心）。[15] Daniel Gordon, Aniruddha Kembhavi, Mohammad Raste-gari, Joseph Redmon, Dieter Fox, and Ali Farhadi.Iqa:[16] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Gir-shick. Mask r-cnn. In ICCV, 2017. 218960参考文献0[1] Peter Anderson, Angel X. Chang, Devendra SinghChaplot, Alexey Dosovitskiy, Saurabh Gupta, Vladlen Koltun,Jana Kosecka, Jitendra Malik, Roozbeh Mottaghi, ManolisSavva, and Amir R. Zamir.对具身导航代理的评估。arXiv:1807.06757, 2018. 60[2] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, MarkJohnson, Niko S¨underhauf, Ian Reid, Stephen Gould, andAnton van den Hengel.视觉与语言导航：在真实环境中解释基于视觉的导航指令。在CVPR，2018年。1，20[3] Dhruv Batra, Angel X. Chang, Sonia Chernova, Andrew J.Davison, Jia Deng, Vladlen Koltun, Sergey Levine, JitendraMalik

下载后可阅读完整内容，剩余1页未读，立即下载