如何训练机器人预测未来步骤：一个层次化模型的研究

124 浏览量更新于2023-10-12 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

教学活动德国波恩FadimeSener大学sener@cs.uni-bonn.de姚颖新加坡国立大学ayao@comp.nus.edu.sg图1：我们从大型文本语料库中学习程序知识，并将其转移到视觉领域以预测未来。我们的系统由四个RNN组成：句子编码器和解码器、视频编码器和菜谱网络。摘要我们如何教机器人预测它从未见过的活动接下来会发生什么？我们提出了一个层次化的模型，从大规模的文本语料库中概括教学知识，并将知识转移到视觉领域，从而解决了零射击预期的问题。给定教学视频的一部分，我们的模型预测未来多个步骤的连贯和合理的动作，所有这些都是用丰富的自然语言。为了展示我们模型的预测能力，我们引入了Tasty Videos数据集，这是一个包含2511个零触发学习、识别和预测的食谱的集合。1. 介绍想象一下，在不远的未来，你的厨房将由机器人厨师1来服务。如何教机器人做饭？通过阅读网上所有的食谱？通过看YouTube上的烹饪视频从一组指令中学习和概括的能力，无论是文本、图像还是视频形式，都是机器学习和机器人技术工作者面临的一个极具挑战性和开放性的问题在这项工作中，我们将训练下一个机器人厨师的范围限制在预测随后的步骤，因为它观看了人类烹饪从未见过的菜肴。我们将我们的问题框架为零和/或少数镜头学习场景中的未来动作预测之一。这最好地反映了服务机器人将被引入的情况[18，49]。机器人经过广泛的预训练，但不一定具有与部署环境完全匹配的知识，从而迫使它从先验知识中进行归纳在1机器人烹饪特定食谱[3，9，51]已经存在！与此同时，机器人预测未来会发生什么，以确保与人类的安全和顺利的合作体验也很重要[28，56]。教学数据，特别是烹饪食谱可以很容易地在网上找到[1，2]。最丰富的形式是多模态的，例如。图片加文字，或者视频加旁白。这些数据非常适合我们的场景，在我们的场景中，服务机器人视觉识别当前上下文并做出未来预测。然而，学习复杂的，多步骤的活动需要大量的数据，尽管他们在网上丰富，它仍然很难找到足够的例子，在多模式的形式。此外，学习特定步骤的视觉外观将需要节奏对齐的数据，这是较不常见和/或获得昂贵的。因此，我们的策略是将程序学习与视觉外观学习分开。程序知识是从文本中学习的，这些文本在数百万规模的大型语料库中很容易获得然后将这些知识转移到视频中，这样视觉感知的学习就可以简化为通过对齐的视频和文本完成的基础模型（图1）。①的人。更具体地说，我们将文本和/或视频编码为上下文向量。上下文被馈送到食谱网络，该食谱网络对食谱的顺序结构进行建模，并以向量形式进行后续步骤预测，然后将其解码回句子。我们的工作在两个关键方面非常新颖。首先，我们在半监督设置下使用零射击动作预测，因为我们的目标是预测从未见过的菜肴。我们通过从大规模文本语料库中生成烹饪知识，然后将知识转移到视觉领域来实现这一点。这减轻了我们的负担和不切实际的提供-862863为一个领域添加注释，其中实际上有无限数量的类别（菜肴）和子类别（指导步骤）。我们是第一个用这种方式解决这个问题的;先前在复杂活动识别方面的工作在类别和步骤的数量上受到严重限制[6，29，30，43]，而在行动预测方面的工作则依赖于强有力的监督[5，31，61]。第二，我们不使用从单词标签派生的封闭类别;相反，我们使用并预测完整句子，例如，将鸡翅煎至两面金黄即可。vs.这种设计选择使我们的问题更具挑战性，但也提供了几个优点。首先，它增加了指令的丰富性，因为自然语言比简单的文本标签传达更多的信息[32，59]。它不仅允许对动作的预期，还允许对物体和贡献的预期。最后，作为副产品，它促进了数据收集，因为基于类的注释的数量随着动作、对象和属性的数量呈指数增长，并导致非常长尾的分布[16]。当将知识从文本食谱转移到视频时，我们需要将这两个领域与具有时间对齐标题的视频据我们所知，YoucookII [59]是目前唯一具有此类标签的数据集。然而，它缺乏多样性的菜肴数量，因此独特的食谱步骤。因此，我们收集并呈现了我们新的Tasty Videos数据集，这是一组2511种不同的烹饪食谱2，并附有视频、输入列表和时间对齐的食谱步骤。视频片段是从固定的鸟瞰图拍摄的，几乎完全集中在烹饪说明上，使其非常适合理解程序步骤。我们将主要贡献总结如下：• 我们是第一个探索零镜头动作预期的知识，从大规模的文本语料库，并将其转移到视觉领域。• 我们提出了一个模块化的层次模型，学习多步骤的程序与文本和视觉环境。• 我们的模型概括了烹饪知识，并能够预测未来多个步骤的连贯和合理的指令。预测，在丰富的nat-在标准的NLP指标中，口语的得分高于视频字幕方法，后者实际上观察了 YouCookII 和 TastyVideos上的视觉数据。• 我们演示了如何提出的方法可以是有用的，使未来的步骤预测在一个零杆与监督设置相比。• 我们提出了一个新的和高度多样化的数据集2511烹饪食谱，将公开提供，并为那些在预期的工作感兴趣复杂活动识别和视频字幕。2从网站https://tasty.co/2. 相关作品理解复杂活动及其子活动通常作为有监督的视频分割和识别问题来解决[29，40，43]。较新的作品是弱监督的，使用来自叙事的线索[34，48，6]或接收视频中的动作的有序序列[11，24，41]，或完全无监督[47]。我们的工作类似于那些使用文本提示;然而，我们不依赖对齐的视觉-文本数据来学习活动模型[6，48]，而是为视觉数据打下基础。行为预测是一个新兴且快速发展的领域。用于早期事件识别的方法[45，23，57]有时（令人困惑地）也被称为动作预测，但它们是不完整的推理方法，因为一部分的动作预测是基于动作的。已经观察到。在进行任何观察之前，预测活动的先前工作仅限于简单的运动原语[28]或个人互动[31，55]。进行单个预测，并且预期的动作通常在几秒钟的时间范围内发生。最近，[5]预测了未来的多个行动;我们的方法也预测多个步骤，但与[5]不同，我们不需要重复训练活动序列。烹饪领域在NLP研究中很受欢迎，因为食谱包含丰富的自然语言，但范围有限。对文本的程序方面进行建模并生成连贯的配方跨越了几十年的工作[15，19，25，36，37]。在多媒体中，食谱涉及食物识别[21]，推荐系统[35]以及索引和检索[12，46]等任务在计算机视觉中，烹饪已经被很好地探索用于复杂和细粒度的活动识别[30，43，17，42，16，59]，时间分割[30，59]和字幕[44，39，60]。已经提出了几个烹饪和厨房相关的数据集两个[34，59]与我们的新数据集相似，因为它们包括食谱文本和附带视频。然而，YouCookII [59]的活动多样性有限，只有89道菜;[34]规模更大，但缺乏文本和视频之间的时间对齐。3. 顺序指令建模序列到序列学习[50]使成功生成连续文本和构建对话系统成为递归神经网络（RNN）用于以无监督的方式学习句子的丰富表示[22，7，27]，使用书籍和网络语料库中存在的大量文本。然而，对于诸如烹饪食谱的指导文本，这样的表示往往做得不好，并且从一个时间步到下一个时间步遭受一致性，因为它们没有完全捕获指令集的潜在顺序性质。因此，我们提出了一个具有四个组成部分的分层模型，其中的句子和食谱的步骤是864JJMtJJJJj jjJ图2：左：我们的视觉模型，由视频编码器，句子解码器和食谱RNN组成给定初始输入的成分，在视觉形式的上下文中，食谱RNN预测解码回自然语言的未来步骤。右：我们的视觉模型的下一步预测。蓝色的句子是我们模型请注意，我们的模型在看到这些片段之前预测了接下来的步骤由两个专用RNN表示：句子编码器和食谱RNN。第三个RNN将预测的食谱步骤解码回人类可解释结果的句子形式（句子解码器）。这三个RNN在初始训练步骤中作为自动编码器联合学习。然后在后续步骤中学习第四个RNN编码视觉证据（视频编码器），以取代句子编码器，从而能够从视频中进行解释和未来图1示出了概述。1，而RNN的细节在3.1到3.3节中给出。3.1. 句子编码器和解码器句子编码器产生每个配方步骤的固定长度向量表示。我们使用双向LSTM，然后[14]我们在隐藏单元的每个维度上应用最大池化。更正式地说，让句子sj从步骤j的食谱（我们假设每一个步骤是一个句子）由M个词表示，即。 sj={w t}t=1. M和xt是词w t的词嵌入。对于每个句子j，在每个（词）步骤t，双向LSTMse输出yt，其中表示具有N个步骤的配方的步骤，其中j指示步骤索引。在每个（配方）步骤，配方RNN hj的隐藏状态可以被认为是固定长度的所有配方步骤{S1，...，s j}看到了步骤j;我们直接使用这个隐藏状态向量作为步骤j+1的句子表示，即，rj+1=hj=LSTM r（{r0，.， rj}）。（四）最后步骤hN的隐藏状态可以被认为是整个配方的表示。由于LSTMr中隐藏状态的标准递归，每个隐藏状态向量以及因此每个未来步骤预测都以先前步骤为条件。这允许预测相对于先前步骤合理且一致的配方步骤食谱通常包括一个成分表，这是一个丰富的信息来源，也可以作为一个强大的调制提示[25，46]。为了合并配料，我们以在配料词汇表上的独热编码的形式为每个食谱形成配料向量I然后，I被转换为一个单独的完全连接层，JΣ。Σ。将配方RNN作为初始输入，即r0= f（I）.yt= LSTM se{x1，.，xt}，LSTMse{xM，.， xt} （1）j j jJ J3.3.视频编码器这是一个隐藏状态的串联，LSTMse的前后传递。整个句子表示rj由时间步长上的维度无关的最大池化确定，即，对于推理，我们希望RNN能够从文本输入和视觉证据中解释句子。由于我们提出的模型的模块化性质，我们可以-（rj）d= maxt ∈{1，…M}（yt）d，（2）用类似的视频编码器替换句子编码器假设第j个视频片段cj是com-L-框架的定态，即 c j={f t}t=1，.，L. 每个帧f t是其中（·）d，d∈{1，.，D}表示第j个元素D维双向LSTM输出yt。解码器是基于LSTM的神经语言模型，其将步骤的固定长度表示转换回句子。更具体地说，giv en来自步骤j的配方RNN的预测rj，它解码句子srj表示为高级CNN特征向量ResNet-50 [20]在softmax层之前的最后一个全连接层输出类似于等式中的句子编码rj。在图1和图2中，我们通过在时间步长z t上应用维度无关的最大池化来确定视频编码向量vj，其中：Mjsj=LSTMd（rj）={wj，.， wj}。（三）3.2. 食谱RNNzt=ΣLSTMve.1吨{f，.，f}，LSTMve.ΣΣ{f、...、f} .（五）865我们使用LSTM对配方步骤的顺序排序进行建模，LSTM将{rj}j=1，.，N，即固定长度视频编码LSTM ve被训练，使得vj可以直接替换rj，如下面详细描述的。8663.4. 模型学习与推理完整的模型分两个阶段学习。首先，句子编码器（ LSTMse ）、配方 RNN （ LSTMr ）和句子解码器（LSTMd）是端到端联合训练的。给定N个步骤的配方，损失可以定义为每个重建单词的负对数概率：4. 美味视频数据集我们新的Tasty Videos Dataset拥有从Buzzfeed网站https://tasty.co收集的2511种独特的食谱。每个食谱都有一个配料清单，逐步说明和一个视频演示的准备。食谱包括早餐，晚餐，甜点和饮料，共185个类别ΣNL（s1，.， s N）=−Mj llogP（wt|wt′

下载后可阅读完整内容，剩余1页未读，立即下载