教学视频中的过程规划：利用弱监督方法基于Transformer模型实现程序规划

127 浏览量更新于2023-10-25 收藏 989KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2938123$添加开放式牛排季节盖烧烤P3IV：从教学视频中规划可能的程序，监督较何钊1、2伊斯玛·哈吉1 尼基塔·德沃尔尼克1康斯坦丁诺斯G.1，2Richard P.Wildes1，2Allan D. Jepson11多伦多三星人工智能中心，2约克大学{zhufl，kosta，wildes}@ eecs.yorku.ca，{isma.hadji，n.dvornik，allan.jepson}@samsung.com摘要本文研究了教学视频中的过程规划问题。在这里，一个代理必须产生一个合理的行动序列，可以将环境从一个给定的开始到一个期望的目标状态。当从教学视频中学习程序规划时，最近的工作利用中间视觉观察作为监督，这需要昂贵的注释努力来精确地定位培训视频中的所有教学相比之下，我们删除了昂贵的时间视频注释的需要，并提出了一个弱监督的方法，从自然语言的指令学习我们的模型是基于一个Transformer，由语言指导监督（我们的）123具有存储器模块，该存储器模块将开始和目标观测映射到一系列看似合理的动作。此外，我们增加了我们的模型与概率生成模块，以捕捉固有的不确定性程序规划，宁，一个方面很大程度上被以前的工作忽视。我们在三个数据集上评估了我们的模型，并表明我们的弱监督方法在多个指标上优于以前的完全1. 介绍程序规划是人类的一项自然任务对人类来说毫不费力，但程序规划对人工智能体来说是出了名的困难。然而，解决程序规划对于构建能够分析和模仿人类行为的下一级人工智能系统非常重要，并最终帮助人类解决目标导向的问题，例如，烹饪，组装家具或任务，可以表示为一个明确的指令集。传统上，程序规划已经在结构化环境中得到了解决，例如在工作台表面上的对象操作[13，43]。虽然限制环境有助于改善规划，但它也限制了可能的应用范围。图1.程序规划语言监督不力的例证。完全监督方法（底行）在T个有限步骤上从步骤标签ai和中间视觉表示vi学习模型。该策略需要知道每个中间步骤的开始时间戳si和结束时间戳ei。相比之下，我们的方法（顶行）利用中间标签a i的自然语言表示li作为代理监督，它只需要标记事件的顺序。注意，动作标签ai是离散变量，而动作语言表示li是预先训练的连续嵌入。选项。在这里，我们遵循最近的工作[8]，并解决教学视频领域的课程规划[46，54]。给定开始和目标状态的视觉观察，任务是预测实现目标所需的一系列高级动作;见图1。这项任务特别艰巨，因为它需要解析非结构化环境，重新识别人类活动并理解人与物体的交互。然而，这种规划器的应用范围是广泛的，这激发了对这个问题的研究工作。目前用于从指导视频进行手术规划的方法具体而言，所有这些方法都需要访问（i）用于从开始状态转换到目标状态的动作标签列表，以及（ii）通过目视观察进行监督123$1：24 -1：43 - 2：07 2：56 - 2：1122下午3：58 - 4：1533下午5：2939→−→−→−→−中间状态的视觉表示。使用这种中间视觉表示需要非常昂贵的注释每个中间教学步骤的开始和结束时间;见图1（底部）。相比之下，我们的工作在训练过程中消除了对中间视觉状态的需要，而是使用它们的语言表示进行监督。依靠语言表征使我们能够更好地利用教学视频，并显著减少标记工作;见图1（顶部）。例如，用于中间指令步骤的语言注释可以从食谱或网站中可用的一般程序说明中提取，例如，维基百科[21].相反，为了获得中间教学步骤的时间戳，必须观看整个教学视频。此外，语言表示可以是更稳定的监督信号[40]，因为给定步骤的描述（例如，添加调味料）保持不变，而其视觉观察在不同的视频中有所不同。先前关于视频手术规划的工作依赖于两分支自回归方法，同时采用不同的架构来对这些分支进行建模[6，8，45]。在这样的模型中，一个分支专用于基于先前的观察来预测动作，而另一个分支以逐步的方式近似于给定先前动作的观察这样的模型是繁琐的和复合错误，特别是对于较长的序列。相比之下，我们依赖于一个单分支非自回归模型，作为一个Transformer[47]来实现，它根据起始和目标观测值并行生成所有中间步骤程序规划中的另一个重要因素是对预测任务固有的不确定性进行建模。例如，给定一组配料和制作煎饼的目标，中间步骤可以是（i）[添加湿配料加入干料搅拌混合物]或(ii)[添加干成分添加湿成分搅拌混合物]。这个例子表明，在现实的情况下，即使在共同的共同目标下，一些计划也会有所不同。这种观察通常在物理路径规划任务（例如，允许机器人臂遵循多个可行的轨迹[43]）;然而，缺乏对来自教学视频的过程规划的概率建模的努力。虽然以前的工作包括训练时的概率成分[6]，但我们是第一个在推理时使用多个合理计划并从中受益的我们明确地处理程序规划中的不确定性，并使用专用的生成模块，可以生成多个可行的计划。捐款. 总之，我们工作的主要技术贡献有三个方面。(i)我们引入了一种弱监督的程序规划方法，该方法利用了从预训练的文本视频嵌入中提取的强大的语言表示(ii)我们用一个更简单的单分支模型来处理这个任务，它可以并行地生成所有中间步骤，而不是依赖于在以前的工作中使用的双支自回归方法。(iii)我们提出了一个生成对抗框架，用额外的对抗目标进行训练，以捕获计划程序的随机属性我们在三个广泛使用的教学视频数据集上评估了我们的方法我们还展示了建模不确定性的优势.我们的代码可以在：https：//github上找到。com/SamsungLabs/procedure-planning.2. 相关工作程序规划。传统上，目标制约规划主要是在物理环境中研究的，机器人运动规划[14，16，23]和人类足轨迹规划[33]。最近，引入了从教学视频中进行过程规划的任务[8]。各种方法都使用了递归神经网络（RNN）[8]，变压器[45]和对抗策略规划[6];所有方法都使用了双分支和强大的视觉监督。相比之下，我们直接使用非自回归变换器为基础的架构模型的行动。更重要的是，我们以语言指令的形式使用低预算的弱监督，而不是像所有的ex-programming方法那样用“昂贵的”视觉观察来监督用自然语言监督。使用手动定义的标签集训练视觉模型的一个常见替代方法是利用自然语言的语义监督。使用自然语言作为监督有几个优点：（i）语言注释可以自动收集[37];（ii）建模语言和视觉联合可以产生更强的表示[10];（iii）这种监督可以更好地推广到看不见的领域[40]。这些好处导致人们对使用语言作为各种任务的监督越来越感兴趣，例如，图像分类[10，17，22]，表示学习[36，50]，视频检索[15，37]，步骤定位[11，36]和导航与指令遵循[38]。我们使用先进的联合视频和语言建模程序规划。我们使用预先训练的特征[36]将语言和视频映射到一个公共空间，并用现成的语言指令使用transformers进行序列建模。程序规划是条件序列预测的任务，因此它直接受益于序列建模的最新进展。最近最强有力的序列建模方法之一是Transformer架构[47]，它已被广泛用于各种任务，例如，图像[26]、视频[4]和多模态数据[31，32，50]任务。最近的工作采用了Transformer解码器架构，通过可学习输入进行固定大小的集合预测2940∼查询[7，52]。我们建立在类似的想法，通过设置第一个和最后一个查询，以对应于开始和目标观测，同时使中间查询可学习。为了改善长程序列建模并帮助整体序列一致性，最近的工作增加了具有显式外部存储器的变压器[29，49]。出于同样的原因，我们还集成了一个可学习的记忆模块。未来预测。程序规划的任务与未来预测密切相关，其中仅提供过去的观察结果作为输入。未来预测的一个关键考虑因素建模不确定性的一种常见方法是变分自动编码器（VAE）[25]，它捕获未来动作的分布。另一种方法是使用生成对抗网络（GAN）来预测多个，不同的和高质量的未来活动[39，53]。在这项工作中，我们采用生成式建模框架来对可能的计划进行分布建模。3. 技术途径在这里，我们提出了我们的方法，程序规划，依赖于三个主要组成部分。首先，我们使用非自回归Transformer解码器并行预测计划中的所有步骤。为了获得连贯的计划预测，我们的Transformer使用在给定数据集中的所有可能任务之间共享的学习记忆来增强3.2）。其次，为了对任务固有的不确定性进行建模，我们包括一个用对抗性损失训练的生成组件。因此，我们可以推断出多个可行的计划，条件是开始和目标观测（第二节）。3.3）。第三，为了监督Transformer的输出，我们在动作预测上使用交叉熵损失，并使用对比损失将视觉状态预测与相应的语言描述相匹配（第12节）。第3.4段）。图2提供了我们的方法的概述，我们将在下面详细介绍。3.1. 问题公式化强大的预先训练的视觉语言编码器[36]，将视觉活动及其描述映射到公共空间中，从而使视觉VT和语言LT特征对应于相同的活动，可互换用于训练。相比之下，以前的工作假设访问中间动作观察对的集合（即，a1：T，v1：T）[6，8，45]，因此需要强有力的监督，以识别所有中间目视观察结果。在推理时，我们只使用开始和目标观测值，来预测给定时间范围T的计划，π=a1：T。3.2. 存储器扩充的Transformer解码器为了实现我们的规划器，我们使用非自回归Transformer解码器架构[7，52]。我们的Transformer解码器采用两种输入类型;即，用开始和目标观察和学习记忆组件增强的可学习查询，并输出动作和中间状态预测，如图所示。二、条件学习查询输入。第一个输入是查询集，Q=[qstat，q1，. -是的-是的，qT-1，qgoa l]，其中第一个和最后一个输入分别对应于我们的初始和目标视觉观察的表示，v start和v goal，而q1：T-1是一组学习的查询。 [q1，. -是的-是的，qg〇 a 1]与我们希望预测的动作标签s，a1：T相关联。为了向解码器传达有关元素顺序的信息，我们向每个查询添加一个固定的余弦位置嵌入[5]，pt，如下所示Q=[qstart+p0，. -是的-是的，qt+ptn，. -是的-是的，qgoal+pT]，（一）其中Qt和Pt都被编码为D维嵌入，（即， qt，pt ∈ Rd）和t = 1，. - 是的- 是的，T − 1。学习记忆输入。我们的transformer解码器的第二个输入是一个学习记忆组件，它在给定数据集中的所有示例中都是存储器被定义为一组d维向量给定开始视觉观察，v开始一个愿望，M=[m1，m2，. - 是的- 是的，mn] ∈ Rd×n，（2）我们的任务是预测一个计划，该计划定义为T个中间行动步骤的序列，π=a1：T，taken从v开始过渡到v目标。我们通过过度评分来表示我们的预测，而缺乏这种过度评分则表示地面实况（GT）。在训练时，给定vstart和vgoal，我们预测一个plan，πn和相应的视觉观测值。vations，v. 我们使用中间动作标签，1：T，以训练计划预测πι和对应的语言描述（嵌入有预训练的文本编码器）l1：T，以监督中间视觉观测v 1：T。也就是说，我们用中间指令步骤v1：T的语言对应部分l1：T替代视觉信息，以训练计划者;见图2。我们认为这种监督替代是有意义的，因为我们使用的是其中，n是存储体中可学习向量的数量。值得注意的是，存储器的大小（即，存储器中的条目数N）是独立于预测时间范围的超参数。我们使用只读存储器[34]并在所有层之间共享以简化。内存增强型Transformer解码器。我们的架构是标准Transformer解码器块的堆栈[47]（见图3），其中每个这样的块都可以访问全局可学习内存（2）。具体来说，内存扩充的Transformer块由两个关键操作组成.首先，用自注意操作处理输入。第二，交叉注意模块关注可学习记忆以生成输出。的输入2941TTN∈不行动督查国家监管国家对抗性监督Transformer解码器解码器块1…解码器块Na！1a！$的1赛季1998年，一联系我们$一个3一打开盖放入烧烤切牛排（）*评论0/1真实数据全局存储器v01（+2分4秒vst（/t3.计算全损2.生成计划1.构造输入查询图2.概述我们的程序规划方法。首先，我们嵌入开始和目标状态的视觉观察（即，黑色节点），将它们附加到学习查询的序列（即，着色节点），并将随机噪声添加到所得到的输入序列。其次，我们将输入传递到Transformer解码器，该解码器与全局存储器交互以生成可行的过程计划。第三，我们生成状态和动作向量{vi，ai}，并使用损失数L（在3.4节中描述）来监督我们的架构。在输入上，我们通过连接用随机噪声向量z（ 0 ，1），zRd′来增加整个查询输入（1）我们的转换器T的新查询输入序列因此变为Qz={[qt;z]|qt∈Q}。（4）我们采用对抗训练，其中生成器，G被训练来产生逼真的动作序列，而批评者C为训练G提供监督信号[3]。在我们的例子中，我们处理内存增强的Transformer，作为生成器，G（即， G = hv（（Qz，M），而批评者则由一个简单的MLP模型来建模. 更准确地说，我们通过图3.带有自注意和带记忆的交叉注意学习的记忆，M，作为一个外部的记忆银行，是全球共享的所有变压器块。K、V和Q分别代表键、值和查询。第一个Transformer块中的自注意对应于查询Q。所有的交叉注意区块都访问同一个记忆，M。直观地说，内存模块可以被看作是整个数据集共享的可学习计划嵌入的集合。经验上，我们表明，内存模块在我们的框架中起着关键作用。我们的Transformer解码器由N个这样的内存扩充块的堆栈组成。我们在最终解码层添加两个输出头（实现为多层感知器（MLP））。一个头，ha，产生中间预测的行动，aa at，而第二个，hv，产生相应的-使用中间视觉表示，根据a1：T=ha（T（Q，M）），v1：T=hv（T（Q，M）），（3）3.3. 对抗生成建模为了捕捉预测中的不确定性，其中从v开始到v目标的多个计划是合理的，我们使用生成对抗学习[18]使用随机组件来为了使生成过程条件-我们的transformerr的输出，v1：T，沿着时间维度连接到critic，C，其输出0和1之间的值，指示其区分预测序列和地面实况序列的能力，如图所示。二、值得注意的是，为了避免与训练GAN相关的模式崩溃的臭名昭著的问题[44]（即，不管随机潜在噪声z）的变化如何，我们遵循了大量的工作[30，51，53]，并包括在补充中定义的归一化距离正则化损失Lreg3.4. 培训为了监督我们的Transformer，我们依赖于两个复杂的损失函数，它们强制我们的Transformer对过程中正确的动作标签集以及相应的视觉表示进行解码。我们还使用对抗性损失来训练我们模型的随机组件。目视步骤监督。我们的模型在训练时的输出之一是视觉特征的序列，对应于程序步骤v1：T。为了用相应的语言特征来监督视觉特征，l1：T，我们采用对比学习[19]。对于由Transformer的头部h v预测的每个特征vt，我们使用相应的添加规范项目多头交叉注意学习记忆MK V Q添加规范多头自注意KV项目Q输入2942--K·t=1不z----z∼∼1：T不Kt=1jexp（lj·vt）[1]。-是的-是的，a.（十）Σ肯定的例子和语言词汇中的所有其他嵌入，lj，作为否定的例子。对比损失计算为为了获得我们的模型给出的计划的每个时间步t的动作的概率分布，我们计算动作频率如下：Ll=−T对数对数xp（lt·vt）Σ，（5）1克朗kKk=1其中（）表示点积运算符。注意，我们使用语言词汇表中的所有例子都是否定的，因为我们的词汇表通常很小（1K个元素），并且这样做与每批否定采样相比允许更好的训练，例如，<[20 ]第20段。行动计划监督。我们还强制执行动作预测头h a，以输出动作概率序列at，对应于地面实况独热标签at。为此，我们使用交叉熵损失La=−Tatlogat。（六）对抗式监督。为了对不确定性进行建模，我们对视觉状态预测使用了adversarial训练，v1：T。目标是使预测的视觉观察序列与由地面真值语言步骤描述l1：T组成的特征序列不可区分。我们使用对抗损失优化生成器G（我们的Transformer）和评论器C（MLP）[3]Ladv=min maxV（G，C，Q，M），（7）假设ak是独热向量，每个at导致特定时间步长t的动作的边际分布。大多数用于程序计划的标准基准度量，如成功率、准确性或交集对并集（IoU），都需要单个动作序列输出，评价（见第4.1节）。为了计算由我们的动作分布引起的最可能的动作序列，我们使用维特比算法[48]，如序列中常见的那样最终标记工作[27，28，41，42]。更具体地说，我们使用Viterbi公式中的发射矩阵，而转移矩阵是从动作共现估计的训练集中的频率（详见补充资料）。我们的维特比后处理步骤可以被视为偏差-在行动转移的一阶模型下，从πkkKk= 1中选择样本，以获得更有可能的计划。选择可能动作序列的另一种方法是简单地从集合πkK= 1中选择模式。我们的员工-证明了维特比方法的优越这被证明对较小的数据集特别有用。3.6.实现细节G C我们的策划人在视频和语言功能上运作其中V是标准GAN目标，定义为通过为联合视频-文本EM训练的模型预提取埃勒普数据 [logC（l）]+Ezp[log（1−C（hv（T（Qz，M））））]，[37]第37话：你的未来是什么？其中L p数据和z pz分别表示语言表示和随机噪声的数据分布。完全失去了。总的来说，我们的全损失函数定义为：L（θ）=λ1L1+λ2La+λ3Ladv+λ4Lreg，（8）其中θ是指与所有可学习模块相关联的参数，即，查询、存储器模块、以及Transformer解码器和SNR参数和λ1：4是根据经验确定的损失权重。3.5. 推理在推理时，我们使用我们的Transformer作为生成模型，对相同的输入开始和目标观测值采样多个程序计划，πk=ak该操作是通过绘制潜在噪声向量zk并通过我们的Transformer将它们转换为，以单个开始目标观测为条件，如下所示监管我们使用了一个内存增强的Transformer，它有两层和八个头，并在单个V100 GPU上使用ADAM [24补充资料中提供了其他培训和体系结构的详细信息4. 实验在本节中，我们评估每个模块在我们的方法中的作用（第二节）。4.2），并在三个不同的数据集上展示其性能我们包括对最大的标记教学视频数据集的评估，由于在以前的工作中需要强有力的监督，该数据集以前没有4.3）。最后，我们首次在项目规划中提供了预测不确定性评估，这揭示了我们的方法和规划本身的任务（第二节）。4.4）。4.1. 评价方案数据集。为了进行评估，我们使用了三种不同的指令视频数据集，即CrossTask [54]、Narratedπk=ha（T对于k =1，. -是的- 是的、K.（Qzk<$=a<$1：T=2943，M）），zkN（0，1），（9）[2]《明史》卷146 ：“明者，明者也。CrossTask包含2750个视频，描述了 18个不同的过程，平均每个视频7.6 个动作 ;NIV数据集2944--∼K--内存大小SR↑ mAcc↑mIoU ↑0 7.49 22.7631.33表1.我们的模型在三个数据集上用不同的损失函数训练的性能。每个块的最后一行表示总损失的结果，但没有维特比算法。小得多，有150个视频，5个程序，平均每个视频9.5个动作。COIN是我们评估中最大的数据集它包含11827个视频，778个程序和3.6行动/视频。所描述的过程变化很大，做玉米卷沙拉和换轮胎。我们遵循以前的工作[8]，采用70%/30%来创建我们的训练/测试分割，我们使用20%的训练数据进行验证。我们还遵循原始程序计划文件[8]中概述的数据预处理步骤，以选择开始、目标观察结果并将数据集整理成涵盖不同时间范围的计划。更多细节在补充。指标. 根据以前的工作[6，8，45]，我们使用三个越来越严格的指标来评估性能。(i)mean Intersection overUnion（mIoU）将预测动作序列和地面实况动作序列视为集合，并测量这些集合之间的重叠。mIoU与操作顺序无关，仅指示模型是否包含完成计划所需的正确步骤集(ii)平均准确度（mAcc）在预测的和地面实况动作序列之间执行逐元素比较，从而将动作的顺序考虑为6416.3043.6255.6612823.3449.9673.8925620.8144.6159.70表2.外部记忆大小对预测范围的影响的消融研究，T=3，使用CrossTask。所有结果都是使用我们的Transformer获得的，有两层和八个头。4.2. 消融研究不同损失函数的影响。我们通过逐步引入每个目标来评估每个损耗分量的作用。表1中的结果显示了基于语言的监督的关键作用，所有指标的绩效提高以及三个目标的互补性都证明了这一点值得注意的是，对抗性损失的改善似乎是微不足道的（例如，1%），如度量仅将单个预测与单个基本事实计划进行比较。我们表明其严格的优越性，以deterministic模型建模分布的程序在第二节。4.4Viterbi后处理的影响在整个实验结果中，我们在预处理的基础上使用了Viterbi算法。指令动作概率，即10，以产生最佳的在推理时间计划值得注意的是，维特比后处理是可选的，并且可以通过简单地选择集合中的模式来直接使用集合πk来产生比较表1的每个块中的最后两行示出了使用维特比来对最优在程序计划中明确列出所有数据集的行动顺序。值得注意的是，Viterbi后处理对NIV数据集特别有帮助我们假设NIV中的数据稀缺性导致训练时的预测模型较弱;因此，在这种情况下，使用Viterbi显式地建模动作之间的最佳转换起着更重要的作用。好. （iii）成功率（SR）认为计划成功只有当它完全符合地面真相。我们还通过测量以下概率度量来评估我们的模型的随机性质：（i）我们预测的计划分布和地面实况之间的Kull-backLeibler（KL）发散;（ii）地面实况模式被我们的结果覆盖的程度（模式召回）;（iii）我们的计划对应于地面实况模式的频率（模式精度）。为此，对于每个开始目标，我们从我们的生成模型中抽取（=1500）个样本，并显式地近似一个分布，如第2节所述。三点五为了完整性，我们还使用了更多标准的概率预测指标进行评估，包括负对数似然（NLL）和余弦距离[9，35，53]。基线。我们比较了所有以前的方法，从教学视频[6，8，45]以及其他完全监督的规划方法[1，12，43]的预防规划。模型配置的影响。我们还包括一个评估所采用的内存增强Transformer解码器的消融。表2显示内存的大小在我们的架构中起事实上，排除内存组件会产生最坏的结果，而太大的内存会降低性能。这些结果表明，内存组件有助于捕获数据集内容，当内存条目的数量足够大以正确地跨越整个数据集中存在的动作时，它会产生更强的结果。值得注意的是，虽然调整每个数据集的内存大小可能会产生更好的结果，但为了简单起见，我们选择对所有数据集使用CrossTask的最佳设置。4.3. 与替代方法的CrossTask（短期任务）。表3比较了我们的弱监督方法与许多替代方案，包括完全监督的最新技术，跨越本任务中通常报告的两个预测范围。我们的结果是数据集损失目标SR↑mAcc↑mIoU↑CrossTaskLaLa+LlLa+Ll+Ladv无Viterbi16.9022.1223.3422.6644.2045.5749.9645.9557.5667.4073.8967.52硬币LaLa+LlLa+Ll+Ladv无Viterbi8.4814.4115.4014.1812.1920.2521.6721.0168.1573.4976.3175.62和合LaLa+LlLa+Ll+Ladv无Viterbi17.8124.0524.6820.1842.3546.6749.0147.7369.4273.8974.2973.092945联系我们∈--联系我们T=3T=4模型监督SR↑mAcc↑mIoU↑SR↑mAcc↑mIoU↑随机-<0.010.941.66<0.010.831.66基于检索-8.0523.3032.063.9522.2236.97WLTDO [12]-1.8721.6431.700.7717.9226.43UAAA [1]-2.1520.2130.870.9819.8627.09UPN [43]V2.8924.3931.561.1921.5927.85DDN [8]V12.1831.2947.485.9727.1048.46Ext-GAILw/o Aug. [6]美国V18.0143.8657.16---Ext-GAIL [6]V21.2749.4661.7016.4143.0560.93我们L23.3449.9673.8913.4044.1670.01表3.评估CrossTask上预测范围T3、4的手术计划结果。列名监督表示在训练中应用的状态监督的类型，其中V和L分别表示视觉和语言状态表示。NIV硬币视野方法Sup.SR ↑mAcc ↑mIoU ↑SR ↑mAcc ↑mIoU↑随机-2.21 4.07 6.09 0.010.01 2.47表4.CrossTask [54]上手术计划结果的成功率评价，扩展到更长的预测范围，T。除了在T=4时的成功率（SR），我们是第二好的方法。SR的性能改善在短期范围T=3时尤其显著，在该时间点，我们的表现优于之前的最佳表现（即，Ext-GAIL [6]）超过2%，同时使用较弱的监督。值得注意的是，Ext-GAIL通过数据增强来实现其性能水平，这使得它可以拥有30%以上的训练数据。在更类似的设置中（即，当Ext-GAIL不使用数据增强时），我们的方法相对于“Ext-GAIL w/o Aug”的平均增益为5。百分之三。重要的是，我们的结果是在较弱的监督下获得的，这决定性地支持了我们的方法。我们还注意到，与先前的工作相比，mIoU有更大的增益，即，七十三。89%vs.61. T=3和70时为70%。01%对60. T=4时为93%。这一结果表明，我们的方法比其他方法更能捕捉可行的行动步骤（例如，当输入观察与制作沙拉有关时，从不产生倒水）。我们假设这种表现是由基于语言的对比学习实现的，它比视觉学习更有效地聚集潜在表征。例如，虽然某些视觉观察可能看起来相似（例如，倒水和加油），两者之间的区别在自然语言中更清楚。值得注意的是，mIoU和mAcc的改善水平通常高于SR的增益。我们将这一结果归因于任务固有的不确定性（即，对于相同的开始和目标观测的多个可行计划我们将在第二节中更详细地探讨这方面的问题。4.4最后，由于非自回归性质，我们在推理时快了4倍，例如，6.75毫秒（我们的）与表5. NIV [2]和COIN [46]的预测范围T的程序规划结果三四列Sup。表示在培训中应用的国家监督类型。T = 3时，CrossTask为27.34 ms（DDN [8]）。CrossTask（long-horizon）。我们现在评估我们的模型预测更长时间范围计划的能力（即，不3、。. .，6）。我们比较以前的方法，报告结果在这样的视野。这些设置有两种不同的协议（一）议定书1[8]和（二）议定书2 [45];详见补编。为了公平比较我们在表4中给出了使用这两种协议的结果，并表明我们的方法对这两种协议都是最有效的。NIV. 根据以前的工作[6]，我们还在较小的NIV数据集上评估了我们的模型。表 5 中的结果与我们在CrossTask上的结果一致。再一次，我们的方法在所有指标中表现最好。这个结果表明我们的语言监督也适用于较小的数据集。硬币为了显示我们的方法的扩展能力，我们在最大的标记教学视频数据集上评估我们的方法（即，硬币）。由于我们是第一个在如此大规模的数据集上进行手术规划的人，因此缺乏比较方法。因此，我们遵循实验工作[8]并包括三个基线：（i）随机选择;（ii）基于检索;（iii）使用我们的视频功能重新实现DDN模型[8三点六表5显示，我们配备语言监督的模型始终优于基线，即使是强监督的模型。T=3T=4T=5T=6模型SR↑SR↑SR↑SR↑基于检索8.053.952.401.10DDN [8]12.185.973.101.20我们的（第一议定书）23.3413.407.214.40[45]第四十五话18.514.010.07.5我们的（第二号议 24.415.811.88.3检索----4.3817.4032.06T=3DDN [8]V18.4132.5456.5613.920.1964.78Ext-GAIL [6]V22.1142.2065.93---我们L24.6849.0174.2915.421.6776.31随机-1.122.735.84<0.01<0.012.32检索----2.7114.2936.97T=4DDN [8]V15.9727.0953.8411.1317.7168.06Ext-GAIL [6]V19.9136.3153.84---我们L20.1438.3667.2911.3218.8570.532946KK公制↓方法T=3T=4T=5T=6KL-DivOurs-deterministic 2.31 4.47 6.30 8.81我们的-概率2.11 3.50 4.26 6.89我们的NLL-确定性5.13 6.25 6.688.49倒果汁倒酒精倒酒精我们的-概率4.89 5.48 6.24 7.67表6.评估我们的概率方法与确定性变量产生的计划分布4.4. 评估概率建模为了评估我们的概率建模，我们将我们的模型产生的计划分布与可行计划的地面真实分布进行比较。我们将概率建模的评估集中在CrossTask上，因为就可行计划集的变化而言，它是最合适的数据集，正如我们在补充中所展示的那样。计划分布建模。我们的方法是概率的设计中所描述的Secs。3.3和3.5。为了建立一个确定性的基线，我们在没有对抗性损失的情况下训练我们的模型，并在训练和测试期间固定潜在噪声向量z=0。为了在目标条件计划上构建地面真值分布，我们检索测试集中共享给定开始和目标状态的长度为T的所有我们的概率模型的计划分布（以起始和目标观测值为条件）是通过采样=1500个不同的动作序列获得的，如第2节所述。三点五对于确定性基线，模型只产生一个计划（即， =1）的值。在所有情况下，计划的概率被定义为它在所获得的样本集中的频率。为了评估预测计划的质量，我们测量每个模型产生的计划分布之间的（分布）相似性（即，我们的vs.决定性变体）和使用KL分歧和NLL的地面实况的。表6显示了我们的概率方法更好地匹配了地面真实计划分布（即，它具有较低的 KL 和NLL）。这些结果是因为我们的模型能够对测试集分布的多个有效计划进行采样，而不是考虑单个可行计划的确定性模型。样本多样性和模式覆盖率。对于给定的开始和目标观测，我们的方法产生多个计划假设，使用第二节中描述的概率抽样3.5（如图4所示）。在本节中，我们测量样本的多样性及其与地面实况计划分布的关系。为了表征地面真值分布，我们将地面真值模式定义为测试集中共享相同开始和目标状态的唯一动作序列的集合。为了计算我们的样本与地面实况模式的关系，我们定义了两个度量，模式召回（ModeRec）和模式精度（ModePrec）。Mod- eRec反映了GT模式被我们的模型覆盖的程度，并被计算为从我们的模型中至少一个样本捕获的GT模式的平均数量在com-图4.对于相同的{start，goal}观测，我们的概率模型生成的样本合理计划（在测试集中可见）公制↑方法T=3T=4T=5T=6我们的-决定论27.6117.217.414.97ModePrec我们的-概率36.6118.5512.486.58我们的-决定论56.2437.3318.388.85ModeRecOurs -概率66.1346.5626.4612.67CosDist Ours -概率0.3840.3020.24710.1658表7.评估我们样本的多样性和准确性。我们的方法改进了ModePrec和ModeRec指标。我们进一步提供平均成对余弦距离作为多样性的另一个指标。不提供确定性模型的CosDist，因为它只生成一个结果，没有要比较的对。作为补充，ModePrec根据测试数据测量采样计划可行的频率;它被计算为匹配至少一个GT模式的样本的平均数量。直观地说，ModeRec和ModeRec不仅测量来自我们模型的样本的多样性，而且还测量这种多样性对于GT的有用性。Cos- Dist -GAN文献中广泛使用的度量-我们还表明，我们的样本对数据分布是不同的不可知论。表7中的结果表明，我们的概率方法可以产生多样化和准确的计划，在所有指标上都是优越的。5. 结论我们已经介绍了一种弱监督的方法，使用教学视频的概率程序规划与以前的工作不同，我们通过利用预先训练的文本视频嵌入，从而减少了对昂贵的视觉监督的需求，从而有利于更便宜的语言监督，这显著地提高了规划性能。我们发现，逐步模拟中间视觉状态和动作之间的相互作用并不是程序规划的必要条件相反，我们有效地解决了“一次”的Transformer解码器架构的问题此外，我们展示了建模的不确定性在获得的计划，以产生一个原则性的方法来规划从视频中的关键作用。我们介绍了一种方法来评估这种不确定性的测试集，并表明它是一个强大的度量，以更好地理解模型和规划本身的任务。希望未来的工作不仅在培训中而且在评估中采用教学视频中关于程序规划的概率观点，以便下一代规划者可以自信地预测多个可行计划以实现预期目标。搅拌倒粉倒果汁搅拌倒粉倒水搅拌倒水倒粉2947引用[1] Yazan Abu Farha和Juergen Gall。活动的不确定性感知参与。在2019年国际计算机视觉会议（ICCV）的会议记录中。六、七[2] Jean-Baptiste Alayrac ， Piotr Bojanowski ， NishantAgrawal，Josef Sivic，Ivan Laptev，and Simon Lacoste-Julien.从叙述式教学视频中进行非监督式学习。在2016年IEEE计算机视觉和模式识别会议（CVPR）上。五、七[3] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络2017年国际机器学习会议（ICML）。四、五[4] Anurag Arnab ， Mostafa Dehghani ， Georg Heigold ，Chen Sun，MarioL ucˇ i c´，andCordeliaSchmid. ViV it：一款视频视觉 Transformer 。 arXiv 预印本 arXiv ：2103.15691，2021。2[5] Irwan Bello ，Barret Zoph，Ashish Vaswani，JonathonShlens，and Quoc V Le.注意力增强卷积网络。在2019年国际计算机视觉会议（ICCV）的会议记录中。3[6] 毕静，罗杰波，徐晨亮。通过情境建模和基于模型的策略学习在教学视频中进行程序规划。在2021年国际计算机视觉会议（ICCV）的会议记录中。一二三六七[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测欧洲计算机视觉会议（ECCV），2020年。3[8] Chien-Yi Chang ， De-An Huang ， Danfei Xu ， EhsanAdelli，Li Fei-Fei，and Juan Carlos Niebles.教学视频

下载后可阅读完整内容，剩余1页未读，立即下载