神经任务图：单视频演示泛化到未知任务的策略

136 浏览量更新于2023-10-18 收藏 19.15MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

85650神经任务图：从单个视频演示中泛化到未知任务0黄德安*，Suraj Nair*，徐丹飞*，朱宇珂，AnimeshGarg，李飞飞，Silvio Savarese，Juan CarlosNiebles，斯坦福大学计算机科学系0摘要0我们的目标是仅通过给定领域中的单个视频演示来生成完成未知任务的策略。我们假设为了成功地从单个视频演示中泛化到未知的复杂任务，有必要将任务的组合结构明确地纳入模型中。为此，我们提出了神经任务图（NTG）网络，它使用共轭任务图作为中间表示，将视频演示和派生策略模块化。我们通过实验证明，NTG在两个复杂任务上实现了任务间泛化：BulletPhysics中的块堆叠和AI2-THOR中的物体收集。NTG在视觉输入方面提高了数据效率，并在不需要密集的分层监督的情况下实现了强大的泛化能力。我们进一步证明了类似的性能趋势在应用于真实世界数据时也成立。我们展示了NTG可以在JIGSAWS手术数据集上有效预测任务结构并泛化到未知任务。01. 引言0学习顺序决策并在测试时适应新的任务目标是人工智能领域长期存在的挑战[5,9]。在丰富的真实领域中，自主代理需要在最少的监督下获得新的技能。最近的研究已经解决了一次性模仿学习的问题[8, 11, 40,41]，即从单个演示中学习。在这项工作中，我们进一步推进，解决了直接在视频上进行一次性视觉模仿学习的问题。我们首先在一组已知的领域内任务上训练模型。然后，该模型可以应用于单个视频演示，以获得新的未知任务的执行策略。直接从视频中学习对于推动现有的模仿学习方法适应真实世界场景至关重要，因为在每个视频中注释状态（如物体轨迹）是不可行的。我们专注于长期任务，如烹饪或装配等真实世界任务，因为它们本质上是长期和分层的。最近的研究已经尝试从像素空间学习[11, 27, 35,42]，但在一次性设置中从视频学习长期任务仍然是一个挑战，因为视觉学习和任务复杂性都加剧了对更好数据效率的需求。我们的解决方案明确地模拟了任务结构和策略中的组合性，使我们能够将一次性视觉模仿扩展到复杂任务。这与以前使用非结构化任务表示和策略的工作[8, 11]形成对比。组合性的使用已经在视觉问答[17,20, 24]和策略学习[3, 7,38]中带来了更好的泛化效果。我们提出了神经任务图（NTG）网络，这是一个新颖的框架，它使用任务图作为中间表示，明确地模块化视觉演示和派生策略。NTG由生成器和执行引擎组成，其中生成器从任务演示视频中构建任务图以捕捉任务的结构，执行引擎与环境交互，根据推断的任务图执行任务。图1显示了NTG网络的概述。使用图形任务表示的主要技术挑战是未知的演示可能会引入在训练过程中从未观察到的状态。例如，0* 表示相等的贡献0NTG生成器0NTG执行引擎0环境0共轭任务图0单个视频演示任务完成0视觉观察0动作0图1.我们的目标是从单个视频演示中执行一个未知任务。我们提出了神经任务图网络，通过使用任务图作为中间表示来利用组合性，从而实现强大的任务间泛化。0因为真实世界的任务，如烹饪或装配，本质上是长期和分层的，所以学习来自视频的长期任务在一次性设置中仍然是一个挑战，因为视觉学习和任务复杂性都加剧了对更好数据效率的需求。我们的解决方案明确地模拟了任务结构和策略中的组合性，使我们能够将一次性视觉模仿扩展到复杂任务。这与以前使用非结构化任务表示和策略的工作形成对比。使用组合性在视觉问答[17, 20, 24]和策略学习[3, 7,38]中已经带来了更好的泛化效果。我们提出了神经任务图（NTG）网络，这是一个新颖的框架，它使用任务图作为中间表示，明确地模块化视觉演示和派生策略。NTG由生成器和执行引擎组成，其中生成器从任务演示视频中构建任务图以捕捉任务的结构，执行引擎与环境交互，根据推断的任务图执行任务。图1显示了NTG网络的概述。使用图形任务表示的主要技术挑战是未知的演示可能会引入在训练过程中从未观察到的状态。例如，𝜋"(𝑎|𝑜)𝜋((𝑎|𝑜)𝜑𝜑icy. The most similar to ours is NTP [41] that also learnslong-horizon tasks. However, NTP (1) uses strong hierar-chical frame label supervision and (2) suffers from a no-ticeable drop in performance with visual state. Our methodreduces the need for this strong supervision, requiring onlythe demonstration action sequence during training, whileachieving a performance boost of over 25% in success rates.85660未知的堆叠任务的目标状态[8,41]是在训练过程中从未出现的块配置。这个挑战在我们从视觉观察中学习而不需要强监督的目标下被放大，这使得状态结构变得模糊，并阻止了直接的状态空间分解，就像之前的工作[8]所做的那样。我们的关键观察是，虽然可能存在无数种可能的状态，但在某个领域中可能的动作数量往往是有限的。我们利用状态和动作之间的这种共轭关系，并提出在共轭任务图(CTG)[16]上学习NTG，其中节点是动作，状态由边捕获。这使我们能够模块化策略并解决未知数量的新状态的挑战。在视觉空间中操作时，这一点至关重要，因为状态是高维图像，并且在组合状态空间上建模是不可行的。此外，CTG中间表示可以产生替代的动作序列来完成任务，这对于在具有随机动力学的未知场景中进行泛化是至关重要的。这使得NTG与直接从单个演示中输出策略的先前工作[41]或动作[8]的方法有所不同。我们在两个领域中评估NTG网络的一次性视觉模仿学习：机器人模拟器中的块堆叠[6]和AI2-THOR中的物体收集[23]。这两个领域都涉及到多步计划的交互，并且本质上是组合的。我们表明，NTG在这些复杂任务上显著提高了数据效率，通过明确地结合组合性来进行直接从视频进行模仿。我们还表明，通过数据驱动的任务结构，NTG优于学习非结构化任务表示的方法[8]和使用强层次结构监督的方法[41]，尽管不需要详细的监督。此外，我们还在真实世界的视频上评估了NTG。我们展示了NTG可以在JIGSAWS[12]手术数据集上有效地预测任务图结构，并推广到未见的人类演示。总之，我们的工作的主要贡献是：(1)在任务和策略表示中引入组合性，以实现一次性视觉模仿学习长期任务；(2)提出神经任务图(NTG)网络，一种使用任务图来捕捉任务的结构和目标的新框架；(3)通过共轭任务图(CTG)公式解决了新的视觉状态分解的挑战。02. 相关工作0模仿学习。传统的模仿学习方法使用物理引导[1,31]或远程操作[39,43]作为演示。而第三人称模仿学习使用其他代理或视角的数据[27, 35]。最近的一次性模仿学习方法[8, 11, 13, 40,41, 42]可以将单个演示转化为可执行的策略0任务演示0任务10任务20监督损失0用于训练的已知任务 ( � *++, )0用于测试的未知任务 ( � -,*0任务30� / (�|�) 环境0观察0单视频演示动作0模型0图2. 一次性视觉模仿学习设置的概述。已知任务(Task1和2)用于训练模型φ以实例化策略πi从演示中。在测试过程中，φ应用于来自未知任务3的单个视频演示，生成策略π3与环境进行交互。0任务规划和表示。传统上，任务规划侧重于高级计划和低级状态空间[10,36]。最近的工作通过深度学习将感知集成到其中[15, 32,44]。HTN将低级子任务组合成更高级的抽象，以减少规划复杂性[29,33]。其他表示包括：集成任务和运动规划[21]和基于行为的系统[30]。在视觉方面，And-Or图捕捉分层结构，并用于解析视频演示[26]。与以前的方法不同，我们的任务图表示是数据驱动的和领域无关的：我们直接从任务演示中生成节点和边。0结构化视频理解。从演示中生成任务图与视频理解相关。在视频中进行注释很难。一种解决方案是使用语言作为监督。这包括教学视频[2, 18, 34]，电影剧本[37,45]和字幕注释[14,25]。我们关注结构对任务学习的帮助，并假设已经对已见任务进行了注释。0视觉和机器人中的组合模型。最近的工作利用组合性来提高模型的泛化能力，包括视觉问答[4, 17,20]和策略学习[3]。我们展示了相同的原则可以显著提高模仿学习的数据效率，以实现对复杂任务的视觉学习。85670环境0NTG生成器0演示解释器0图补全网络0NTG执行引擎0共轭任务图0视觉观察 (�)0节点定位器0边缘分类器0动作 (�)0演示0图3.我们神经任务图（NTG）网络的概述。NTG网络包括一个生成器，将共轭任务图作为中间表示生成，并且一个执行引擎，根据当前的视觉观察在任务图中定位节点并决定边的转换。03. 问题形式化0我们的目标是从单个视频演示中学习执行以前未见过的任务。我们将其称为一次性视觉模仿，模型直接从视觉输入中学习。设 T 为感兴趣领域中的所有任务集合，A为高级动作集合，O 为视觉观察空间。任务 τ 的视频演示 d定义为完成任务的视频，d τ = [ o 1 , . . . , o T]。如图2所示，T 被分为两个集合：Tseen，其中有大量演示和训练的监督，以及Tunseen，其中只有任务演示用于评估。目标是从 T seen学习一个模型 φ ( ∙ )，该模型可以从 d 实例化一个策略 π d( a | o )，使用视觉观察来执行 T unseen中的任务。学习问题被规定为学习一个将演示 d 映射到策略φ ( d ) = π d ( a | o ) 的模型 φ ( ∙ )。T seen用于训练该模型，使用演示和可能的额外监督。在测试时，给定一个来自未见任务的演示 d，希望在 T unseen 中，φ (∙ ) 在 T seen上训练后能够推广到新的任务实例，并生成一个能够完成由视觉演示所示的新任务的策略。04. 神经任务图网络0我们将一次性视觉模仿定义为学习将视频演示映射到策略的模型 φ ( ∙)。如图1所示，我们的主要贡献是明确地将组合性纳入其中，以提高泛化的数据效率。我们将 φ ( ∙ )分解为两个组件：一个图生成器 φ gen ( ∙)，从演示中生成任务图 G ( G = φ gen ( d ))，以及一个图执行引擎 φ exe ( ∙ )，执行任务图并充当策略( π d = φ exe ( G ) )。任务图 G的结构将演示和策略模块化。这导致更强的泛化数据效率。概述如图3所示。04.1.神经任务图生成器0NTG生成器从单个视频演示中生成一个捕捉未见任务结构的任务图。0这是具有挑战性的，因为未见任务的视频演示引入了在已见任务中未观察到的新视觉状态。由于我们的目标是从视觉观察中学习，这使得直接对状态空间进行分解变得困难。在这种情况下，由于节点数量爆炸式增长，生成传统的任务图是不适用的。我们通过利用状态和动作之间的共轭关系，并使用共轭任务图[16]来解决这个问题，其中节点是动作，边缘隐含地依赖于当前状态。在实验中，我们展示了这种方案显著简化了（共轭）任务图生成问题。0共轭任务图（CTG）。任务图¯G={¯V,¯E}包含节点¯V作为状态和有向边缘¯E作为它们之间的转换或动作。任务的成功执行等价于图中到达目标节点的路径。任务图捕捉了任务的结构和每个动作的效果。然而，为未见任务生成这个图是极具挑战性的，因为每个未见状态都将被映射到一个新节点。这在视觉任务中尤其如此，因为状态空间是高维的。因此，我们使用共轭任务图（CTG）[16]G={V,E}，其中动作现在是节点V，状态变成了边缘E，这隐含地编码了动作的前提条件。这使我们能够绕过显式的状态建模，同时仍能通过遍历共轭任务图来执行任务。0我们假设在训练过程中观察到了来自已见任务的所有动作，这对于同一领域的任务是合理的。这给了CTG中的所有节点，目标是推断出正确的边缘。这可以被视为理解每个动作的前提条件。我们提出了两个步骤来生成边缘：(i)演示解释：首先，通过观察演示中的动作顺序，我们获得一个遍历共轭任务图的有效路径；(ii)图形完成：第二步是添加在演示中未观察到的边缘。可能有一些动作的顺序可以互换而不影响最终结果。由于我们只有一个演示，这种互换性在前一步骤中没有被捕捉到。我们𝐴%𝐴&𝑑%𝑑&………ǫ(a|n, o) ∝ (Wǫ[Enc(o), NEgcn(n)])T NEloc(na),(3)85680学习图完成网络，它添加了在步骤（i）初始化的边缘之外的更多边缘。演示解释器。给定d=[o1,...,oT]，我们的目标是输出A=[a1,...,aK]，即演示中执行的动作序列，作为CTG中初始边缘，如图4所示。首先，将视觉观察o t通过CNN编码为Enc(ot)。然后，我们采用seq2seq模型[28]作为我们的演示解释器，将Enc(ot)作为输入并生成A。我们不使用基于帧的分类器，因为我们不需要准确的逐帧动作分类。关键在于动作序列A提供了合理的初始动作顺序约束（边缘）给我们的共轭任务图。我们假设训练演示中的T seen带有动作序列A作为演示解释器的监督。与之前的工作[41]使用的强层次监督相比，我们只需要对T seen进行这种“平坦”的监督。图完成网络（GCN）。给定演示解释器的有效路径（动作序列），目标是完成演示中未观察到的边缘。我们将其制定为学习图状态转换[19,22]。我们的GCN在两个步骤之间迭代：（i）边缘更新和（ii）传播。给定每个节点n i 的节点嵌入NE gcn (n i)，边缘强度更新为：0C t +1 ij = (1 − C t ij ) ∙ f set ( N t i , N t j ) + C t ij ∙ f reset ( N t i , N t j )，(1)0其中 C t ij 是上一次迭代的邻接矩阵，f set 和 f reset是用于设置和重置边的多层感知机，N i = NE gcn ( n i )是节点 i 的节点嵌入。给定 C t 和当前节点嵌入 Nt，传播步骤更新节点嵌入为：0N t +1 i = rnn ( a i , N t i )，a= �0j C t ij f f ( N t j ) + C t ji f b ( Nt j )，(2)0其中 rnn ( a i , N t i ) 接收来自其他节点的消息 a i作为输入，并更新隐藏状态 N t i 到 N t +1 i。04.2. 神经任务图执行0我们已经讨论了NTG如何生成CTG作为任务演示的组合表示。接下来，我们展示如何从这个任务图实例化一个策略。我们提出了与环境交互的NTG执行引擎，通过执行任务图与环境交互。执行引擎分为两个步骤执行任务图：(i)节点定位：执行引擎首先根据视觉观察在图中定位当前节点。(ii)边分类：对于给定的节点，可能有多个出边用于转换到不同的动作。边分类器检查每个可能的下一个动作的（潜在）前提条件，并选择最适合的动作。这两个步骤使执行引擎能够使用生成的共轭任务图作为一种反应性策略，根据观察完成任务。形式上，我们将这个策略分解为：0学习图完成网络0开始 A&->&B C&->&D0开始 C&->&D A&->&B0演示1演示20共轭任务图(�)0(a) 学习图生成0学习演示解释器0开始0A&->&B0C&->&D0开始 C&->&D A&->&B0学习节点本地化器0(b) 学习图执行0开始 A&->&B 开始 C&->&D0与0学习边分类器0图4.以堆叠方块任务为例的学习设置示意图。已见任务中的视频演示 d i仅需要相应的动作序列 Ai。我们从同一任务的所有演示中聚合数据，并将其用作我们模型的每个组件的监督。这种方法使我们能够绕过以前的工作中需要强监督的需求。0π ( a | o ) ∝ � ( a | n, o ) ℓ ( n | o ) ，其中本地化器 ℓ ( n |o ) 根据视觉观察 o 对当前节点 n 进行本地化，边分类器 � (a | n, o ) 对从节点 n 和 o进行的边转换进行分类。根据节点决定边转换等价于选择下一个动作 a。节点本地化器。我们将本地化器定义为：ℓ ( n |o ) ∝ Enc ( o ) T NE loc (n)，其中节点的概率与编码视觉观察 Enc ( o )和节点的节点嵌入 NE loc ( n )的内积成正比。由于我们的节点是已经在已见任务中观察到的动作，我们可以有效地学习节点嵌入。这显示了模块化策略的好处，其中子模块更具通用性。边分类器。边分类器是NTG泛化到未见任务的关键。与本地化器不同，本地化器在已见和未见任务中近似不变，决定正确的边需要边分类器能够从视觉观察中正确推断出潜在状态。以堆叠方块为例。对于一个以按顺序堆叠方块 A、B 和 C为目标的任务，机器人在 B 已经在 A 上时不应该选择 C进行拾取和放置。因此，边分类器需要识别涉及方块 C的动作的先决条件。0其中 n a 是动作 a 的节点，NE gcn ( ∙ )是我们在第4.1节中的GCN的最终节点嵌入。由于GCN节点嵌入用于生成共轭任务图中的边。………85690移动 B 拾取 B 移动 F0移动 B 放置 D0...视觉观察0动作0视觉观察0动作0共轭任务图移动 B0拾取 B 移动 F0放置 D0完成0图5. 基于共轭任务图的NTG执行。尽管执行引擎两次访问了(MoveB)节点，但它能够通过理解第二次访问需要(PlaceD)来正确决定下一步动作，这是通过边分类器实现的。0任务图捕捉了任务结构。我们从定位中使用 NE loc作为目标节点。04.3. 学习NTG网络0我们已经描述了如何将 φ ( ∙ )分解为生成器和执行引擎。如第3节所讨论的，我们在 Tseen 上训练这两者。与之前需要在 T seen上进行强监督（状态-动作对[8]或层次监督[41]）的方法不同，NTG只需要原始视觉观察以及平坦动作序列（[41]中的最低级程序，无需手动定义动作层次结构）。NTG不同组件的学习概览如图4所示。0学习图生成。对于每个任务 τ 的演示 d τ i，我们有相应的执行动作 A τ i = [ a 1 , . . . , a K ]。首先，我们将 A i 转换为路径 { P τ i = ( ˜ V , ˜ E τ i ) }，其中将所有动作作为节点 ˜ V ，并将 A i中的转换添加为边到 ˜ E i 。对于单个任务 τ ，我们将 τ0i ˜ E τ i 是真实共轭任务图 g τ = ( V, E t )的估计。在这种情况下，GCN的目标是通过完成 P τ i中的缺失边来将每个 P τ i 转换为 g τ。我们使用二元交叉熵损失来训练GCN，其中输入是 P τ i，目标是生成 g τ 。0学习图执行。给定生成器生成的任务图，我们学习一个执行引擎来推导策略。如第4.2节所讨论的，我们将策略分解为节点定位器和边分类器。对于定位器，我们使用视频帧作为输入，并使用演示中的相应动作标签作为目标。对于边分类器，我们收集由转换连接的所有源-目标节点对，并使用演示中的动作标签作为目标。此外，边分类器使用我们的图补全网络中的节点嵌入。其思想是GCN的嵌入可以向边分类器提供关于应该对哪种视觉状态进行分类和学习以推广到未见任务的信息。0(a) 使用完整状态的堆叠方块结果0(b) 使用视觉状态的堆叠方块结果0图6. 推广到未见过目标配置的堆叠方块结果。 (a)使用块位置作为输入的结果，以及 (b)使用原始视频作为输入的结果。尽管只使用了平坦监督，我们的NTG模型在性能上明显优于基线模型。0作为目标，边分类器使用了我们的图补全网络中的节点嵌入。其思想是GCN的嵌入可以向边分类器提供关于应该对哪种视觉状态进行分类和学习以推广到未见任务的信息。05. 实验0我们的实验旨在回答以下问题：(1)单个视频演示情况下，NTG如何推广到未见任务，并与不使用组合性的基线模型进行比较？(2)NTG的每个组件对其性能有何贡献？(3)NTG是否适用于真实世界数据？对于前两个问题，我们在两个具有挑战性的任务领域中评估和进行NTG的消融研究：使用BulletPhysics [6]的Block Stacking [41]和AI2-THOR[46]中的ObjectCollection任务。对于最后一个问题，我们在真实世界的外科手术数据上评估NTG，并检查其对图预测和未见任务在JIGSAWS [12]数据集上的评估。05.1. 在BulletPhysics中评估Block Stacking0我们评估NTG对未见过的目标配置的推广能力。BlockStacking的分层结构提供了大量独特的任务，非常适合分析显式引入组合性的效果。Baselines. We compare to the following models:- Neural Task Programming (NTP) [41] learns to synthe-size policy from demonstration by decomposing a demon-stration recursively. In contrast to ours, NTP assumes strongstructural supervision: both the program hierarchy and thedemonstration decomposition are required at training. Weuse NTP as an example of methods that encourage compo-sitionality via strong structural supervision.- NTP Flat is an ablation of NTP, which only uses the samesupervision as our NTG model (lowest level program).- NTP (Detector) ﬁrst detects the block and feeds that intothe model as the approximated full state. The detector istrained separately with additional supervision.85700（a）Block Stacking消融研究0（b）Object Sorting消融研究0图7. NTG的消融研究。（a）Demo Int.和NodeLoc.几乎是不可或缺的。（b）GCN和EdgeCls都需要能够推广到与演示不同的执行顺序。0实验设置。BlockStacking的目标是将方块堆叠成目标配置。我们遵循Xu等人的设置。我们使用八个带有不同颜色和编号的5厘米立方体。如果最终配置与任务演示相匹配，则任务被认为是成功的。我们使用2000个不同的BlockStacking任务，并按照Xu等人的训练/测试划分进行实验。0结果。结果如图6所示。x轴是训练过的任务数量。我们将具有完整状态（State）和视觉状态（Vid）作为输入的模型进行比较。完整状态使用3D块的位置，而视觉状态使用64×64的RGB帧。对于这两种输入模式，NTG能够捕捉到任务的结构，并且相对于基线模型更好地推广到未见过的目标配置。使用原始视觉输入的NTG（Ours(Vid)）与使用完整状态的NTP（NTP(State)）性能相当。当训练数据不足（50个任务）时，NTP（NTP (State)）和NTP（NTP(Detector)）能够胜过NTG，因为它们具有额外的监督（NTP (State)具有分层监督，NTP (Detector)具有检测监督）。0Pick_Place(绿色, 绿色)0Pick_Place (蓝色,青色)0Pick_Place(红色, 红色)0Pick_Place (青色,蓝色)0Pick_Place (蓝色,青色)0Pick_Place(红色, 红色)0Pick_Place(绿色, 绿色)0Pick_Place (青色,蓝色)0P(0.40)0P(0.23)0P(0.32)0T = 1 T = 2 T = 3 T = 40P(0.62)0P(0.33) P(0.81)0演示路径0P(0.05)0P(0.02)0P(0.03) P(0.07)0P(0.06)0P(0.06)0Pick_Place(红色, 红色)0Pick_Place(绿色, 绿色)0Pick_Place (青色,蓝色)0Pick_Place (蓝色,青色)0执行路径0Pick_Place (青色,蓝色)0Pick_Place (蓝色,青色)0Pick_Place(绿色, 绿色)0Pick_Place(红色, 红色)0使用GCN，我们的策略能够以不同的顺序解决一个未见过的排序任务。0然而，一旦NTG训练了超过100个任务，它就能够快速解释新任务，并且明显优于基准模型。图5显示了NTG的执行轨迹。尽管执行引擎两次访问了(MoveB)节点，但它能够根据视觉观察正确地决定下一步的动作，并从视觉观察中解释出底层状态。05.2. NTG模型组件的消融分析0在评估其他环境之前，我们分析了我们模型的每个组件的重要性。有些子系统几乎是不可或缺的。例如，没有演示解释器，就没有来自视频演示的信息，策略也不再是任务条件的。我们使用1000个训练任务进行消融研究，具体如下：对于演示解释器，我们将CTG初始化为一个没有来自演示的顺序约束的全连接图。对于节点定位器和边缘分类器，我们将策略π(a|o)∝�(a|n,o)ℓ(n|o)中的相应项替换为一个常数。对于GCN，我们跳过图完成步骤。如图7(a)所示，没有演示解释器或节点定位器，策略无法完成任何任务。虽然我们的完整模型仍然表现最好，但删除边缘分类器或GCN并没有给出如此大的性能差距。这是因为[41]中的堆叠方块任务并不都需要任务结构的理解。任务的替代解决方案。GCN在需要替代执行顺序的情况下尤为重要。例如，“将红球放入红色垃圾桶，将蓝球放入蓝色垃圾桶”的任务。我们很明显可以先放红球，也可以先放蓝球。Search PotatoPickup PotatoPlace TableSearch BowlPickup BowlPlace TableSearch PotatoPickup PotatoPickup Potato85710演示0平坦0我们的0任务描述：找到土豆并放在桌子上，找到碗并放在桌子上0视觉观察0动作0（b）对象收集结果（a）将我们的执行与平坦策略进行比较的示例任务0图9.（a）对象收集结果。边界框仅用于可视化，不在我们的模型中使用。物体可能出现在与演示不同的位置，这导致了具有挑战性和多样化的视觉状态。NTG能够从视觉输入中理解底层状态（例如是否找到物体）并成功完成任务。（b）在不同步数上的对象收集结果。NTG模型仅在6和12个步骤上进行训练，并能够很好地推广到其他步数。0这种对替代执行顺序的泛化能力正是我们希望通过GCN捕捉到的。没有GCN，策略很容易陷入看不见的执行顺序（即不理解物体排序顺序可以交换）。因此，我们在“对象排序”任务上分析GCN（详见[41]的第VI节），但将场景初始化为需要与演示不同的执行顺序。当策略需要从失败中恢复或完成部分完成的任务时，这种情况经常发生。这是具有挑战性的，因为：（i）GCN必须泛化并引入演示之外的替代执行顺序。（ii）边缘分类器需要从GCN引入的新边缘中正确选择动作。如图7(b)所示，由于完成的任务图中存在的不确定性，策略在没有边缘分类器的情况下无法完成任何任务。图8展示了我们的方法如何使用GCN学习完成具有与演示不同顺序的“对象排序”的定性示例。这显示了边缘分类器和GCN的重要性，这两者都需要完成这个具有挑战性的任务。05.3. 在AI2-THOR中评估对象收集0在这个实验中，我们评估了对象收集任务，其中一个代理从各种具有不同视觉外观的位置收集和放置物体。我们使用AI2-THOR[46]作为环境，允许代理通过语义动作（例如打开）在场景中导航和与物体交互。这个任务比堆叠方块更复杂，因为：首先，代理在场景中导航，因此只能有部分观察。其次，逼真的模拟使得可以产生各种视觉外观组合。为了完成任务，模型需要理解物体和位置组合的各种外观。0实验设置。对象收集任务涉及访问M个随机选择的搜索位置，以获取C个类别中的N个目标对象。在拾取目标对象后，代理人会访问并将对象放置在K个指定的放置接收器之一。如果在任务结束时所有目标对象都放置在其指定的接收器上，则任务被视为成功。可用的语义动作包括搜索，拾取(对象)，放置(接收器)。搜索动作以随机顺序访问每个搜索位置。拾取(对象)选择一个对象并拾取，如果代理人看不见所选对象，则该动作将失败。放置(接收器)将代理人传送到选定的放置接收器(桌面、柜子等)并放下。我们使用N = [1,5]个对象(3-15步)中的C = 8个类别，M = N +3个搜索位置和K = 5个放置接收器。0基线。我们与[8]中的“平坦策略”基线进行比较，以显示将组合性纳入策略的重要性。在每个步骤中，平坦策略使用注意力从演示中提取相关信息，并将其与观察结果结合起来决定动作。为了公平比较，我们使用与我们的演示解释器相同的架构实现了平坦策略。请注意，对象收集领域没有手工设计的层次结构。因此，NTP[41]被简化为类似的平坦策略模型。0结果。对象收集的结果如图9(b)所示。模型仅在2个和4个对象上进行训练，并推广到1个、3个和5个对象。NTG在所有对象数量上都明显优于平坦策略。这表明明确地纳入组合性的重要性。图9(a)显示了定性比较。边界框仅用于可视化，不用于模型。在评估过程中，感兴趣的对象可能出现在与演示不同的位置，因此具有多样且具有挑战性的视觉外观。因此，了解演示的结构而不是简单的外观匹配非常重要。我们对任务结构的明确建模使NTG与平坦策略有所不同，并且在面对未见任务时具有更强的泛化能力。85720用左手预测图中的缝合(缝合(拉拔(0视频0用左手预测图中的缝合(缝合(拉拔(0图10. JIGSAWS数据集上一个未见任务的单个演示的预测图的一部分。我们的方法能够学习到在针头穿过任务中，如果在这个子任务的任何步骤中失败，代理人应该通过重新定向针头来重新开始。0图11.JIGSAWS数据集上专家演示的负对数似然(NLL)。我们的完整模型生成的策略能够最好地捕捉人类演示中执行的动作。0在与演示不同的位置上，并因此具有多样且具有挑战性的视觉外观。因此，了解演示的结构而不是简单的外观匹配非常重要。我们对任务结构的明确建模使NTG与平坦策略有所不同，并且在面对未见任务时具有更强的泛化能力。05.4. 评估真实世界的手术数据0我们已经证明NTG通过明确地纳入组合性显著改进了一次性视觉模仿学习。现在我们评估这种结构方法是否可以扩展到来自JIGSAWS数据集[12]的具有挑战性的真实世界手术数据，该数据集包含手术任务的视频和状态，以及相关的原子动作标签。在这种情况下，我们的目标是评估NTG在“针头穿过”任务上的泛化能力，该任务在训练时只使用“打结”和“缝合”两种任务进行训练。这是非常具有挑战性的，因为它需要在仅有2种训练任务的情况下对具有显著结构和视觉差异的新任务进行泛化。由于没有手术环境，我们无法直接评估NTG在JIGSAWS数据集上学到的策略。因此，我们评估NTG策略能够多好地预测人类在其他演示中的行为。这意味着生成一个以“针头穿过”单个演示为条件的策略，并使用它来评估“针头穿过”任务中所有其他演示的负对数似然(NLL)。较低的负对数似然对应于生成的策略更好地解释其他演示，进而更好地捕捉到其他演示的行为。0我们在图11中展示了任务结构的结果。我们将其与我们模型的无图变体以及均匀策略的下界进行比较。不出所料，均匀策略在没有从示范中捕捉到任何内容时表现最差。无图变体能够捕捉到一些专家策略的部分内容，并更好地捕捉到专家示范。然而，完整的NTG模型生成的策略显著改善了NLL，并且与专家示范最一致。此外，我们在图10中展示了我们在JIGSAWS数据集上部分任务图预测的定性结果。我们再次在“KnotTying”和“Suturing”上进行训练，并在“NeedlePassing”上进行评估。通过比较预测路径和最终预测的图，我们可以看到我们的模型能够引入几条返回到“Orienting Needle”动作的新边。这捕捉到了当在“NeedlePassing”的这个子任务中的任何一步执行失败时，代理应该返回到“OrientingNeedle”并重新调整针来重新开始子任务的行为。这与我们的直觉和真实图一致。06. 结论0我们提出了神经任务图（NTG）网络，这是一种一次性的视觉模仿学习方法，明确地将任务组合性纳入中间任务表示和策略中。我们的新颖的共轭任务图（CTG）公式有效地处理了未见过的视觉状态，并作为一种反应性和可执行的策略。我们证明了NTG能够在各种任务上胜过既没有结构化表示的方法[8]，也胜过手动设计的分层结构的方法[41]，包括具有照片逼真渲染的模拟环境和真实世界数据集。0致谢。丰田研究所（“TRI”）提供资金支持作者的研究，但本文仅反映作者的意见和结论，不代表TRI或任何其他丰田实体的观点。此研究也得到了NSF研究生研究奖学金的部分赞助。85730参考文献0[1] Baris Akgun, Maya Cakmak, Karl Jiang, and Andrea LThomaz. 基于关键帧的示教学习。《国际社交机器人杂志》，4(4):343–355, 2012. [2] Jean-BaptisteAlayrac, Piotr Bojanowski, Nishant Agrawal, Ivan Laptev, JosefSivic, and Simon Lacoste-Julien.无监督学习从叙述指令视频中。在 CVPR ，2016. [3] JacobAndreas, Dan Klein, and Sergey Levine.带有策略草图的模块化多任务强化学习。在 ICML ，2017. [4]Jacob Andreas, Marcus Rohrbach, Trevor Darrell, and DanKlein. 使用神经模块网络进行深度组合问答。在 CVPR ，2016. [5]Rodney Brooks. 用于移动机器人的稳健分层控制系统。《IEEE机器人与自动化杂志》，1986. [6] Erwin Coumans andYunfei Bai.pybullet，用于物理模拟、游戏、机器人和机器学习的Python模块。 http://pybullet.org/ ，2016–2017. [7] Coline Devin,Abhishek Gupta, Trevor Darrell, Pieter Abbeel, and SergeyLevine.为多任务和多机器人转移学习学习模块化神经网络策略。arXiv预印本arXiv:1609.07088 ，2017. [8] Yan Duan, MarcinAndrychowicz, Bradly C. Stadie, Jonathan Ho, JonasSchneider, Ilya Sutskever, Pieter Abbeel, and WojciechZaremba. 一次性模仿学习。在NIPS ，2017. [9] Richard E Fikes,Peter E Hart, and Nils J Nilsson. 学习和执行广义机器人计划。《人工智能杂志》，1972. [10] Richard E Fikes and Nils JNilsson. Strips:一种将定理证明应用于问题解决的新方法。人工智能，2(3-4):189–208, 1971. [11] Chel

下载后可阅读完整内容，剩余1页未读，立即下载