模块化动作概念基于语义视频预测的新模型

17 浏览量更新于2023-10-25 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3605语义视频预测中的模块化动作概念基础Wei Yu1，2，Wenxin Chen1，2，Songheng Yin1，2，Steve Easterbrook1，AnimeshGarg1，2，31多伦多大学、2Vector Institute、3Nvidia摘要最近的视频预测工作主要集中在被动预测和低层次的动作条件预测，回避了智能体和对象之间的交互学习。我们介绍了语义动作条件视频预测的任务这个新任务的挑战主要在于如何有效地通知模型的语义动作信息。受混合专家思想的启发，我们将每个抽象标签通过各种视觉概念学习器的结构化组合来体现，并提出了一种新的视频预测模型--模块化的自适应网络（MAC）。我们的方法在两个新设计的合成数据集，CLEVR-Building- Blocks和Sapien-Kitchen，以及一个名为Tower-Creation的真实世界数据集上进行了评估。大量的实验表明，MAC可以正确地条件给定的指令，并产生相应的未来帧，而不需要绑定盒。我们进一步表明，训练后的模型可以进行分布外泛化，快速适应新的对象类别，并利用其学习的特征进行对象检测，显示出向更高层次认知能力的发展。更多的可视化可以在www.example.com上http://www.pair.toronto.edu/mac/。1. 介绍最近，视频预测由于其通过自我监督捕获有意义的表示的能力而引起了很多关注[37，42]。尽管现代视频预测方法在提高预测精度方面取得了重大进展，但其大多数应用局限于被动预测场景[5，18，33，36]，这意味着模型只能被动地观察短时间的动态，并相应地进行短期外推。这样的设置忽略了这样一个事实，即观察者也可以成为环境中的积极参与者。为了对主动操纵器的运动进行建模，在社区中已经提出了几种低级动作条件视频预测模型[2，8，15，25，26，27]。在图1.语义视频预测中的概念基础。在观察场景之后，代理预测未来的帧，其条件是描述代理-对象交互的一系列语义动作既不提供边界框也不提供关键点对不同行动标签的制约导致反事实的世代。在这项工作中，我们通过引入语义动作条件视频预测的任务更进一步，该任务强调代理和环境之间的交互的建模。我们的新任务不是使用低级别的单实体动作，如在以前的工作中所做的机器人手臂的动作向量[9，22]，而是提供交互动作的语义描述，例如。“打开门”，并要求模型以未来帧的形式想象“如果我打开门会怎么样”。这个任务要求模型识别对象身份，为对象分配正确的启示，并通过规划一个合理的目标轨迹来设想长期预期预测正确且语义一致的未来感知信息的能力指示动作的概念基础，其方式类似于基于图像的检测和生成任务中的对象基础动作条件视频预测的挑战主要在于如何正确地将更抽象的语义动作信息告知模型。现有的低级别对应物通常通过使用每个时间步的动作向量的朴素连接[2，9]来实现这一点虽然这种实现可能使模型能够移动所需的对象，但它无法产生一致的长期预测3606PEE DCD因为它最初被设计为仅对单个实体的运动信息进行编码。如果我们以“把A放在B上“为例，结果证明很难让模型学习B是什么以及在哪里，因为在视频预测框架中的主要自我监督信号是像素变化，而在这种情况下B为了区分和定位场景中的实例，其他相关工作严重依赖于预先训练的对象检测器或地面实况边界框[3，14，17，40]。然而，我们认为，利用预先训练的检测器实际上简化了任务，因为这样的检测器已经通过将高维输入映射到低维接地来解决了主要困难。然而，边界框不能有效地描述复杂的视觉变化，包括旋转和遮挡。因此，需要一种更灵活的方式来表示对象和动作。本文提出了一种新的视频预测模型MAC，简称模块化动作概念网络。受混合专家思想的启发，MAC通过各种概念槽的结构化组合来体现每个语义标签，每个概念槽编码特定概念的空间表示。这种设计允许MAC重用和整合从不同场景中学到的知识，以便它能够感知静止物体的位置，并外推到看不见的情况，显示出向更高层次认知能力的进展。这项工作的贡献总结如下：1. 我们引入了一个新的任务，语义动作条件视频预测，如图1所示，它可以被视为动作识别的逆问题。2. 我们创建了两个新的合成视频数据集，CLEVR-积木和Sapien-Kitchen，并将一个真实世界的数据集标记为Tower-Creation进行评估。3. 我们提出了一种新的视频预测模型，模块化的动作概念网络，其中的视觉概念槽的聚合我们表明，MAC可以成功地描绘长期的反事实的演变，而不需要边界框。4. 我们证明了训练的MAC可以使分布外的泛化，适用于新的对象类别与少量的样本，并利用其学习功能进行检测。2. 方法我们从定义语义动作条件视频预测的任务开始。给定初始帧x0和动作标签序列a1：T，模型需要预测相应的未来帧x1：T。每个动作标签是时空移动的预定义语义描述，该时空移动涉及场景中的多个对象，跨越多个帧，例如从t= 0到t= 10的“把黄色杯子放在桌子上“。因此，从技术上讲，我们可以把这个任务看作是动作识别的逆问题。还应该指出的是，我们的语义任务与常见的密集视频预测和生成任务不同，因为它专注于预测时间不可知的事件。因此，我们将相应的数据集设计为捕获整个动作的足够关键帧的视频。在未来的实践中，如果需要，我们可以进一步应用CV中的视频插值方法或RL中的运动规划算法来弥补中间过程。2.1. 动机我们的新任务的设计是必要的研究合成泛化，因为它分离的对象的定义从它的具体位置。然而，它也需要一个成功的模型，通过利用抽象标签来找出所需对象的位置。我们的主要思想是为动作标签字典中的每个单词创建大量小的、专门的和相对独立的学习器，称为概念槽，以从观察中捕获它们在训练过程中，动作标签将被转换为选区树，以控制所有相关概念槽的激活，并为下一帧预测组装给定动作的表示因此，这种语言引导的门控机制将句法结构嵌入到学习系统中，并使所提出的模型能够动态地重组其学习的概念，以便它能够理解世界的组合复杂性。在本文中，我们证明了我们的方法具有系统2学习的许多关键特征[10，11]，包括概念基础，样本效率，反事实生成，分布外泛化和快速转移。2.2. 模块化行动概念网络MAC模型由编码器、解码器、概念时隙模块和递归预测器4个模块组成。我们模型的目标是学习以下映射：xt=D（P（C（E（xt−1）|at）|ht−1））（1）其中Xt、at和ht是时间t处的视频帧、动作标签和隐藏状态。我们的方法的整体架构如图2所示。在随机视频生成的情况下，将添加另外两个模块，先验p（z）和后验q（z），以帮助估计轨迹的潜在分布。编码器和解码器：在每个时间步t-1，编码器接收视觉输入xt-1并提取一组多尺度特征图。在确定性设置中，我们采用了一个卷积神经网络，其架构类似于DCGAN [28]。匹配解码器是具有下采样操作的编码器的镜像版本3607CKKK图2. MAC的流水线，其中详细说明了概念槽模块的计算（更好地查看颜色）。由编码器提取的特征映射到概念槽张量。概念槽模块接收控制概念槽张量的集合的动作标签，并输出封装该动作的表示递归预测器在将表示发送到解码器以预测下一帧之前更新表示替换为空间上采样和附加的S形输出层。它聚合由预测器和来自编码器的多尺度特征图产生的更新的潜在表示以预测下一帧xt。在随机设置中，我们使用CrevNet [42]中介绍的可逆自动编码器，因为我们发现这种信息保留架构可以更好地保留随机移动对象的属性。对应的解码器是反向传递，即，逆计算，编码器的相同网络。读者可以在附录B中找到关于可逆自动编码器和耦合层的更多细节概念槽模块：概念槽模块是MAC的核心模块。它类似于专家的混合物，因为每个槽只关注动作标签空间中的一个概念，并且将被激活和组装以通过语言引导的门控功能来表示给定的动作每个原子动作标签将首先被分解成句子的几个组成部分。成分是动词或者宾语短语，比如“ 由于我们主要处理的是操纵视频，原子动作通常分为3个成分，动词，对象1，对象2，更复杂的多实体动作可以扩展为几个原子两对象动作的时间序列。对于单实体动作，对象2将被全零张量填充。每个成分将具有其自己的字典，该字典记录所有预定义的词或概念，并且可以基于这些字典从概念位置开始建立自下而上的联系。概念槽模块的计算如下：wi=φi（f），cj=Φj （Concat（{wi|i，δj （i）=1}））（2）其中w和c是概念和成分表示，δj是第j个成分的gating函数的指示函数更具体地，在从输入图像中提取特征图f之后，将它们馈送到卷积单元i，即概念槽层中，以创建维度Nd的概念槽张量。这里，是我们在动作标签字典中预定义的可能概念由于动词可以被解释为对象之间的关系的时空变化，不仅对象的槽，而且动词的槽，如接下来，门控函数将收集所有涉及的概念槽张量，并创建一个集合作为每个组成的输入。该组装过程模拟了简化的组成解析树的形成。组成槽层Φj可以是分辨率保持或上采样算子，因为空间信息对于我们的新任务很重要最后，所有组成槽的输出被逐像素地连接以在将它们发送到预测器之前获得动作的表示。值得注意的是，MAC被允许在推理时在场景中具有多个并发动作。在这种情况下，我们复制额外的训练组成槽组来表示其他动作。3608P||图3. 学会了。两个经常性的推理模块部署估计的潜在分布的轨迹。后验推理网络q（z）可以访问目标帧的表示，以估计我们期望其先前对应p（z）在测试时模仿的真实分布。学习先验：我们利用SVG [7]中的一种称为学习先验（图3）的技术来对视频中的随机移动进行建模。特别是，我们建立了两个额外的回流推理网络，先验和后验，分别捕捉运动的随机性。在训练期间，后验推理网络q（z）可以访问目标帧的表示，以估计我们期望其先前对应物p（z）在测试时间模仿的轨迹的真实分布。然后，在发送到预测器之前，由训练期间的后验估计（或由测试期间的先验估计）的运动zt的代码将与潜在表示连接Predictor：递归预测器实现为剩余ConvLSTM层的堆栈[31]，分别计算每个动作标签的时空演化。ConvLSTM的记忆机制对于MAC记住其先前的动作并恢复被遮挡的对象至关重要为了防止并发操作之间的干扰，隐藏状态不会在操作之间共享所有动作标签的预测器的输出被逐点添加。训练：在确定性设置中，我们通过最小化目标帧和预测之间的均方误差来训练我们的在随机设置中，我们使用重新参数化技巧优化以下变分下限（ELBO）[21]：Σ因此，采用称为预定采样的训练策略[4]来减轻训练和推理之间的差异。3. 数据集在这项研究中，我们创建了两个新的合成数据集，CLEVR-Building-blocks和Sapien-Kitchen，并标记了一个来自Roboturk的名为Tower-Creation的真实世界数据集[24]进行评估。这是因为大多数现有的视频数据集要么虽然有几个候选数据集，如Penn Action [44]，BAIR[9]和KTH [30]用于多模态学习，但它们都采用相同的单实体设置，这实际上表明它们可以通过更简单的模型来解决。为了解决上述问题，我们将数据集中的每个视频设计为对代理执行的某些原子动作的描述，这些动作在起始帧中可以观察到此外，我们添加了函数来为两个合成数据集生成所有对象的边界框，以便训练AG2Vid。值得注意的是，所有这三个域都表现出一个关键的属性，称为组合爆炸，导致在空间和时间维度上的阶乘复杂性增长，即使是一个小的对象集。例如，一个包含6个（32个中的）对象和6个动作的序列可以有333，396，000个可能性，而不考虑任何连续因素。Hence, our model only sees a small fraction of thesepotential scenarios during training.3.1. CLEVR-Building-blocks数据集CLEVR-构建块数据集建立在CLEVR基础上[19]。对于每个视频，数据生成器使用4 - 6个随机定位和视觉上不同的对象来模拟场景。共有32种物体的形状、颜色和材料的组合，每个组合最多允许出现在视频序列中。代理可以对对象OA和OB执行以下8个动作之一：拾取OA，拾取并旋转OAtrans-OLθ，λ，λ（x1：T）=t=1[Eq（z1：t|x1：t）logpθ（xt|z1：t，x1：t−1）纵向，把OA放在OB上，把OA放在左边，把OA放在OB的前面/后面。每个-βDKL（q）（zt|x1：t）||pψ（zt|x1：t−1）]（3）其中pθ是未来帧生成器，zt表示运动的潜在代码，p（ztx1：t−1）是先验分布，q（ztx1：t）是后验分布，DKL表示由于pθ是由条件高斯建模的，因此似然项减少为地面真值框架和预测之间ELBO的完整推导见附录A。在推理阶段，模型将使用其先前的预测作为视觉输入，除了第一遍。训练样本包含三个连续的Pick-和Put-动作对的视频和每个帧的语义动作标签序列。3.2. 智人厨房数据集Sapien-Kitchen Dataset描述了一个更复杂的环境，在这个意义上：（a）。它包含可变形的动作，如“打开”和“关闭”;（b）。 The structures of different objects inthe same category are highly diverse; (c). 对象可以用随机分配的相对位置初始化，比如“沿着墙”和“在洗碗机上”。我们共收集了3大类21种小型可移动物体不3609O O o o oOO ooO o o oOO图4. CLEVR积木与Sapien厨房的定性比较。每个图的第一行是地面实况序列。红色和绿色框突出了每种方法的预测质量。与MAC的成功相比，基于拼接的方法无法找到正确的目的地或保留移动对象的属性此外，AG2Vid中使用的边界框无法正确描绘旋转等视觉变化瓶，水壶和厨房锅，以及19种大型家用电器在另3类，烤箱，冰箱和洗碗机，从Sapien发动机[41]。代理可以对小对象s和大设备l执行以下6个原子动作之一：将s放在l上、将s放在l中、将 s放在l中、打开l和关闭l。复合动作序列定义如下：“Take_on-Put_on”，“Take_3.3. 塔创建数据集Tower-Creation Dataset中的每个视频都描述了一个机器人手臂正在用桌子上的餐具建造一座塔由于没有提供语义描述，我们总共标记了524个视频，并产生了1867个样本，包括两个动作：Pick Aand Put A On（选A，放A）B. 我们使用1536个视频片段进行训练，331个用于评估。应该指出的是，与通常使用的数据集（如BAIR [9 ]）相比，Tower-Creation数据集的大小很小，BAIR [ 9 ]总共有59 k个视频。因此，我们的实验也可以判断评估的方法是否是数据有效的。4. 实验评价4.1. 非条件视频预测基线和设置：我们在 CLEVR-Building-blocks 和Sapien-Kitchen数据集上评估所提出的模型。AG2Vid [3]被重新实现为基线模型，因为它是最相关的工作。AG2Vid中使用的每个动作图都可以等效地转换为我们的案例，因为AG2Vd中的每个原子动作图也最多涉及两个对象。但与我们的方法只需要视觉输入和动作序列不同，AG2Vid还需要所有对象的边界框进行训练和测试，并且它只能处理确定性预测。此外，我们通过将概念槽模块替换为特征和平铺动作向量的级联来进行消融研究，这通常用于低级动作条件视频预测[9]，以显示我们的模块的有效性。为了估计动作条件视频预测的保真度，在预测和地面实况之间计算 MSE ， SSIM [38] ， PSNR 和 LPIPS[43]FID[13]和FVD [32]不适合这项任务，因为它们不能告诉模型如何忠实地遵守给定的指令。然而，由于移动对象的小尺寸，这些度量仍然不能有效地因此，我们还进行了一项人体研究，以评估在为每个模型生成的视频中执行正确动作的准确性人类判断该模型是否可以识别所需的对象，执行由动作标签指定的动作，并保持其各代中所有对象的一致视觉外观此外，我们发现这是技术上不可行的训练一个动作识别模型来估计的准确性，由于无数的动作标签所造成的属性组合爆炸。结果：所有方法的定量比较总结见表1。MAC在所有指标上都获得了最好的分数，而无需访问边界框等额外信息，这表明我们的概念插槽模块具有卓越的性能。图4中的定性分析进一步揭示了其他基线的缺点。对于CLEVR-构建块，基于拼接的变体由于其有限的归纳偏差而无法识别正确的对象。虽然AG2Vid在识别所需对象方面没有困难，但流扭曲所做的假设太强，无法处理旋转和遮挡。因此，对抗性损失迫使AG2Vid通过将它们转换为错误的姿势或颜色来修复这些错误AG2 Vid的这些局限性将在更复杂的环境中进一步放大，即Sapien-Kitchen。用于CLEVR的相同架构只能学习从Sapien-Kitchen中的起始位置删除移动对象，因为旋转和遮挡更频繁地发生。串联基线执行bet-3610SSIMCLEVR型积木↑MSE↓LPIPS↓准确度↑智人厨房SSIM↑MSE↓LPIPS↓准确度↑复制第一帧0.962251.38 0.1320-0.951152.87 0.0393-串联基线0.961226.53 0.1301百分之五十点八0.96223.13 0.023252.4%AG2Vid0.9560.039978.8%0.947270.87 0.0684百分之五点二Mac0.98343.52 0.030395.2%0.97111.16 0.0178百分之八十六点四表1.对CLEVR积木和Sapien厨房的定量评价除准确度外，所有指标均按帧平均图5. 反事实视频生成：在相同的初始帧和不同的动作标签的条件下，MAC可以生成反事实未来的高质量想象。最终帧中出现的各种视觉结果用红框突出显示，并在最后一列中放大。上图：CLEVR构建块的生成结果。生成34帧下图： Sapien-Kitchen 数据集的生成结果。生成35帧通过显示在大型器具上正确产生打开和关闭动作来命名然而，随着移动物体的视觉外观发生变化，它仍然无法产生长期一致的预测。相反，MAC可以真实地描述由两个数据集上的动作标签指定的正确动作。4.2. 反事实生成反事实生成：MAC最有趣的应用是反事实生成。更具体地说，反事实生成意味着我们的模型将观察相同的起始帧，但接收不同的有效动作标签以生成相应的未来帧。结果：每个数据集上的反事实生成的视觉结果显示在图5中。我们可以看到我们的模型成功地识别出所需的对象，规划出正确的轨迹，并产生高质量的想象力。还值得注意的是，所有显示的世代都是长期世代，即。对于每个序列预测多于30个帧。我们的递归预测器在维持时空一致性和重建完全遮挡对象方面起着非常重要的作用。4.3. 随机视频生成基线和设置：我们继续在Tower-Creation数据集上评估SVG-LP在[34]中被扩展为动作条件版本，因此我们可以将其作为基线模型来证明概念槽模块的有效性。结果：图6提供了sMAC和动作条件SVG-LP之间的定性和逐帧定量比较。虽然SVG-LP可以部分理解给定的动作标签，但它往往无法定位和操作所需的对象。因此，它会产生- erate的移动对象无处不在，往往把它放在一个错误的目标对象。相比之下，sMAC可以成功地完全模拟机器人手臂的轨迹，并正确地动画的“选择”和“把”的行动感谢的概念插槽模块。图6中的第3行和第5行显示，sMAC还能够产生不同的未来帧，并预测不同动作指令后的反事实结果通过人类研究估计的sMAC对塔创建的总体准确性为65.3%，而SVG-LP为31.8%4.4. 合成泛化我们将进一步探索我们的MAC的其他有趣功能我们首先证明，MAC是能够使出分布的推广，通过设计两个实验。我们评估我们的模型可以多快适应新的3611图6. 左：sMAC和SVG-LP在塔创建上的视觉比较。在最终帧中的Pick和Put的假定完成由红色和黄色框突出显示，而SVG-LP代中的不正确完成由灰色框标记。最后两行是反事实生成，其中模型被赋予不同的动作标签。右：每帧的定量较高的SSIM和PSNR表示更好的性能。图7. 组合的一般化和特征重用。上图：未观察到的场景。所有的红色立方体都从训练数据中删除，但训练后的模型仍然可以在测试时操作红色立方体。中：并发操作。同时输入两个动作序列。这两个动作都被正确地描述了。左下角：新对象自适应。即使有一些训练样本，MAC也可以快速适应新对象的生成。红色箭头指向图像中存在的新对象右下角：对象检测。学习的特征可以直接用于检测。对象事实证明，对于每个新对象，经过训练的MAC只需要几个训练视频示例就可以生成不错的结果。最后，为了验证我们的模型对空间信息进行编码，我们在冻结编码器和概念槽层之后添加SSD [23]头来进行对象检测。未观察到的场景：我们设计了一个有趣的实验，其中只使用CLEVR构建块数据的一个子集进行训练，并检查如果我们将未观察到的动作标签输入到训练模型中会发生什么更多前-准确地说，我们排除了训练集中所有操纵红色立方体的视频，并在测试时发送涉及红色立方体的指令请注意，我们只删除一个对象，以避免概念槽之间的高度相关性，否则将违反相对独立性假设。因为失败的情况下将无法操作正确的对象，并会产生非常大的像素损失。我们可以设置一个MSE阈值来计算执行正确动作的准确率，该阈值为75.6%。这个实验的可视化可以在3612在图7中。正如我们所看到的，MAC仍然可以正确地识别和操作红色立方体，显示出其重组学习概念以理解新对象的能力并发操作：并发操作意味着同时输入多个操作它可以被认为是分布外泛化，因为我们的模型在训练过程中只观察单个动作视频生成并发动作视频需要采用复制的组成槽和并行的隐藏状态。如图7所示，MAC可以线性地整合潜在空间中的动作信息，并正确地描绘同一场景中的2个并发动作适应：我们在Sapien-Kitchen中添加了一个新的安全类别“safe”和一个新的可移动类别“dispenser”，并为每个新对象生成100个视频序列，显示其与其他对象的交互。大约，有大约5个新的序列创建2个对象之间的每个新的动作对。新类别的空白概念插槽被附加到训练过的MAC，我们在这个小的新训练集上对其进行微调图7中的可视化显示，即使有几个训练样本，MAC也能准确地适应新对象的视频生成。这是因为，在概念槽的帮助下，MAC可以将动作分解为相对独立的基础概念。当它学习新概念时，MAC重用并整合从不同案例中学习到的先验知识。目标检测：目标检测和更多可视化的定量结果可参见附录D.我们观察到，通过MAC学习的特征可以容易地转移用于检测，因为我们的视频预测任务高度依赖于位置。这一结果表明，利用边界框对于某些视频任务可能有点多余，因为视频已经提供了丰富的运动信息，可用于显著对象检测。5. 相关工作视频预测：ConvLSTM [31]是第一个采用卷积和递归单元混合进行被动视频预测的深度学习模型这种建筑设计很快就被研究类似的问题[25，35，37，42]。然而，被动视频预测框架的能力是非常有限的，因为模型通常它还防止模型与环境交互。另一方面，低级动作条件视频预测任务在每个时间步提供动作向量作为附加输入以指导预测[2，6，27，39]。CDNA [9]是这类模型的代表。在CDNA中，机器人操作器的状态和动作向量首先在空间上平铺，并通过级联集成到模型中。SVG [7]最初被提出用于随机视频生成，但后来在[34]中扩展到动作条件版本SVG还使用串联来合并动作信息。这种实现在低级预测中很普遍，因为动作向量只编码单个实体的空间信息，通常是机器人操纵器[9]或人手。此类模型的一个常见故障情况是存在多个实体[20]，这是我们的任务定义和数据集关注的场景。模块化：专家混合是指一种经典的机器学习技术，其中采用了各种学习器，每个学习器专门用于一个特定的功能，并且通过门控功能聚合它们的输出。这种模块化设计使每个子模块相对独立，从而导致更好的概括性和对成分变化的鲁棒性，这已经在几项工作中进行了研究[1，11，12，29]。在这项工作中，我们假设语义标签的潜在句法结构可以告诉如何聚合的表征个人的概念学习者。通过将标签翻译成选区树，动作图被嵌入到学习系统中，以获得正在进行的活动的整体视角，而每个概念学习者可以专注于其特定的子任务。6. 限制虽然MAC的结果非常令人印象深刻，但这项工作仍有一些限制，包括（a）。唯一性：我们没有设计特定的机制，使MAC随机选择一个重复的对象。我们认为每个物体在场景中都是独一无二的.（b）. 更灵活的语义指令：在这项工作中，我们使用以相对固定的格式预定义的语义标签。因此，我们可以将每个标签转换为选区树，而无需使用任何可学习的函数。（c）。自我运动：我们评估的所有视频都是由固定摄像机拍摄的具有自我运动的视频可以提供更丰富的训练数据源。7. 结论在这项工作中，我们提出了语义动作-条件视频预测的新任务利用MoE的思想，设计了一种新的视频预测模型MAC，将动作概念用于视频生成。我们提出的模型可以生成替代的未来，而不需要额外的辅助数据，如边界框，并被证明是快速扩展和适应新的场景和实体。我们希望我们的贡献将在这个新的任务空间内推进进展和理解，并且一个足够强大的模型用于现实世界的应用（即，在机器人系统中）在控制中将最终被提议作为这项工作的后代。鸣谢这项工作得到了国际难民研究中心的支持AI主席，NSERC发现奖，多伦多大学XSeed奖，以及LG的礼物。3613引用[1] ParnianAfshar ， FarnooshNaderkhani ， AnastasiaOikonomou，MoezedinJavadRafiee，ArashMohammadi，and Konstanti- nos N Plataniotis.Mixcaps：一个基于胶囊网络的专家混合体，用于肺结节恶性肿瘤预测。模式识别，116：107942，2021。8[2] MohammadBabaeizadeh 、 ChelseaFinn 、 DumitruErhan、Roy H Campbell和Sergey Levine。随机变分视频预测。arXiv预印本arXiv：1710.11252，2017。一、四、八[3] Amir Bar，Roei Herzig，Xiaolong Wang，Gal Zahik，Trevor Darrell，and Amir Globerson.具有动作图的合成视频arXiv预印本arXiv：2006.15327，2020。二、五[4] Samy Bengio 、 Oriol Vinyals 、 Navdeep Jaitly 和 NoamShazeer。循环神经网络序列预测的计划采样。在神经信息处理系统的进展，pp。1171-1179，2015. 4[5] Wonmin Byeon，Qin Wang，Rupesh Kumar Srivastava，and Petros Koumoutsakos.Contextvp：完全上下文感知的视频预测。在欧洲计算机视觉会议（ECCV）的会议记录中，pp. 753-769，2018年。1[6] Silvia Chiappa、 Sébastien Racaniere 、Daan Wierstra 和Shakir Mohamed 。循环环境模拟器。 arXiv 预印本arXiv：1704.02254，2017。8[7] 艾米丽·丹顿和罗伯·费格斯具有学习先验的随机视频生成。arXiv预印本arXiv：1802.07687，2018。四、八[8] Frederik Ebert，Chelsea Finn，Alex X Lee，and SergeyLevine.具有时间跳跃连接的自监督视觉规划。arXiv预印本arXiv：1710.05268，2017。1[9] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。在神经信息处理系统的进展，页。64-72，2016. 一、四、五、八[10] 阿尼鲁德·戈亚尔和约瑟芬·本吉奥。对更高层次认知的深度学习的归纳偏见。 arXiv 预印本 arXiv ：2011.15091，2020。2[11] Anirudh Goyal、Alex Lamb、Jordan Hoffmann、ShagunSodhani 、 Sergey Levine 、 Yoelman Bengio 和 BernhardSchölkopf 。复发性独立机制。 arXiv 预印本 arXiv ：1909.10893，2019。二、八[12] Mikael Henaff，Jason Weston，Arthur Szlam，AntoineBordes，and Yann LeCun.使用循环实体网络跟踪世界状态。arXiv预印本arXiv：1612.03969，2016。8[13] Martin Heusel，Hubert Ramsauer，Thomas Unterthiner，Bern-hard Nessler，and Sepp Hochreiter.两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，30，2017。5[14] De-An Huang ， Shyamal Buch ， Lucio Dery ， AnimeshGarg，Li Fei-Fei，and Juan Carlos Niebles.找到“它”：教学视频中的弱监督参考感知视觉基础。在IEEE计算机视觉和模式识别会议论文集，pp。5948-5957，2018年。2[15] 黄家辉，金裕和，邝武义，李奥尼德.分层可控视频生成。arXiv预印本arXiv：2111.12747，2021。1[16] Andrew Hundt ， Varun Jain ， Chia-Hung Lin ， ChrisPaxton ， and Gregory D Hager.The costar block stackingdataset：Learning with workspace constraints.arXiv预印本arXiv：1810.11714，2018。4[17] Jingwei Ji，Ranjay Krishna，Li Fei-Fei，and Juan CarlosNiebles.动作基因组：动作作为时空场景图的合成.IEEE/CVF计算机视觉和模式识别，pp.10236-10247，2020。2[18] Beijing Jin ， Yu Hu ， Qiankun Tang ， Jingyu Niu ，Zhiping Shi，Yinhe Han，and Xiaowei Li.探索用于高保真度和时间一致性视频预测的时空多频率分析IEEE/CVF计算机视觉和模式识别会议论文集，pp.4554-4563，2020。1[19] Justin Johnson ， Bharath Hariharan ， Laurens van derMaaten ， Li Fei-Fei ， C Lawrence Zitnick ， and RossGirshick.Clevr：一个用于组合语言和基本视觉推理的诊断数据集在IEEE计算机视觉和模式识别会议论文集，pp。2901-2910，2017。4[20] Yunji Kim ， Seonghyeon Nam ，In Cho， and Seon JooKim.用于指导类条件视频预测的无监督关键点学习在神经信息处理系统的进展，pp。3814-3824，2019年。8[21] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。4[22] Thanard Kurutach ， Aviv Tamar ， Ge Yang ， Stuart JRussell，and Pieter Abbeel.用因果信息源学习可计划的表达。在神经信息处理系统的进展，pp。8733-8744，2018年。1[23] Wei Liu，Dragomir Anguelov，Dumitru Erhan，ChristianSzegedy，Scott Reed，Cheng-Yang Fu，and Alexander CBerg.Ssd：单发多盒探测器。在欧洲计算机视觉会议上，pp。21-37.施普林格，2016年。7[24] AjayMandlekar ， Yuke Zhu ， Animesh Garg ， JonathanBooher， Max Spero ， Albert Tung ， Julian Gao ， JohnEmmons ， An- chit Gupta ， Emre Orbay ， et al.Roboturk：通过模仿进行机器人技能学习的众包平台。在机器人学习会议上，pp。879-893. PMLR，2018。4[25] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测arXiv预印本arXiv：1511.05440，2015。1、83614[26] WilliMenapace， StéphaneLathuilière ，SergeyTulyakov，Ali- aksandr Siarohin，and Elisa Ricci.可播放视频生成。IEEE/CVF计算机视觉和模式识别会议论文集，pp. 10061-10070，2021。1[27] Junhyuk Oh ， Xiaoxiao Guo ，Honglak Lee ， Richard LLewis，and Satinder Singh. Atari游戏中使用深度网络的动作条件视频预测。在神经信息处理系统的进展，页。2863-2871，2015。1、8[28] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。2[29] Sara Sabour，Nicholas Frosst，and Geoffrey E Hinton.胶囊之间的动态路由在神经信息处理系统的进展，pp。3856-3866，2017。8[30] Christian Schuldt，Ivan Laptev，and Barbara Caputo.识别人类行为：局部SVM方法。模式识别，2004年。2004年国际公民权利和政治权利委员会。第17届国际会议论文集，第3卷，pp。32比36 IEEE，2004年。4[31] Shi XingShi ， Zhourong Chen ， Hao Wang ， Dit-YanYeung，Wai-Kin Wong，and Wang-chun Woo.卷积lstm网络：降水临近预报的机器学习方法在神经信息处理系统的进展，页。802-810，2015。四、八[32] Thomas Unterthiner ， Sjoerd van Steenkiste ， KarolKurach ， Raphael Marinier ， Marcin Michalski ， andSylvain Gelly.为了准确的视频生成模型：新的度量&挑战。arXiv预印本arXiv：1812.01717，2018。5[33] Ruben Villegas，Jimei Yang，Seunhoon Hong，XunyuLin，and Honglak Lee. 分解运动和内容的自然视频序列预测。arXiv预印本arXiv：1706.08033，2017。1[34] Ruben Villegas 、 Arkanath Pathak 、 Harini Kannan 、Dumitru Erhan、Quoc V Le和Honglak Lee。使用大型随机递归神经网络进行高保真视频预测。在神经信息处理系统的进展，pp。81-91，2019年。六、八[35] Yunbo Wang，Mingsheng Long，Jianmin Wang，

下载后可阅读完整内容，剩余1页未读，立即下载