像素级未来预测方法

162 浏览量更新于2023-10-16 收藏 1.84MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1合成视频预测叶宇飞1Maneesh Singh2 Abhinav Gupta13* Shubham Tulsiani3*1卡内基梅隆大学2Verisk Analytics3 Facebook AI Research{yufeiy2，abhinavg}@ cs.cmu.edumaneesh. verisk.comshubtuls@fb.comhttps://judyye.github.io/CVP/摘要我们提出了一个像素级的未来预测给定的场景的输入图像的方法。我们观察到，一个场景是由不同的实体，经历运动，并提出了一种方法，操作化这一见解。我们隐式地预测独立实体的未来状态，同时推理它们的相互作用，并使用这些预测的状态组成未来的视频帧。我们克服了固有的多模态的任务，使用一个全球性的概率水平的潜在随机变量，并表明，这使我们能够样本多样化和合理的未来。我们emperically验证我们的方法对替代表示和方式纳入多模态。我们检查了两个数据集，一个包含可能会掉落的堆叠对象，另一个包含人类在健身房进行活动的视频，并表明我们的方法允许在这些不同的设置中进行逼真的随机视频预测。视频预测见项目网站1. 介绍一个场景的单一图像让我们人类对底层世界做出数量可观的判断例如，考虑图1中左侧的两个图像。我们可以很容易地推断出，上面的图像描绘了一些堆叠的块，底部显示了一个举起手臂的人虽然这些推论展示了我们理解现状的能力，但更值得注意的是，我们能够预测接下来会发生什么。例如，我们不仅知道顶部图像中有堆叠的块，我们还知道蓝色和黄色的块将倾倒并向左掉落。同样地，我们知道下面图片中的人会抬起他的躯干，同时保持他的在这项工作中，我们的目标是建立一个模型，– from a* 最后两位作者同样没有参与。图1.给定具有实体（对象或关节）位置的静止图像，我们预测未来帧的序列。我们从给定输入的预测序列中可视化两帧。做出这些预测的能力的一个关键因素是，我们从“实体”的角度来理解场景，这些实体可以移动和交互，例如。这些块是移动的独立物体;人体的运动可以类似地根据肢体的相关运动来理解。我们操作化这种思想，并提出了一种方法，而不是直接预测未来的帧，学习预测未来的位置和外观的实体在场景中，并通过这些组成的未来帧的预测外观和学习的组成的建模允许我们的方法利用独立的每个实体表示的好处，同时允许在像素空间中的姿势变化或重叠/遮挡的虽然我们提出的因式分解允许学习模型能够经由基于实体的推理来预测未来帧，但是从单个输入图像推断未来帧的任务从根本上来说是不适定的。为了允许预测空间的固有多模态，我们建议使用一个模糊级别的潜在随机变量，该变量直接捕获整个视频上的模糊性，1035310354nn训练以该潜在变量为条件的未来预测器。我们证明，使用这个单一的潜在变量，而不是每一个时间步的随机变量建模的模糊性，使我们能够作出更现实的预测，以及样本不同的合理的未来。我们使用两个数据集来验证我们的方法，其中“实体”代表不同的对象或人体关节，并证明相同的方法可以在这些不同的设置中预测未来的帧。我们演示：（a）我们提出的实体级分解的好处;（b）对应的学习的解码器生成未来帧的能力;（c）对不同未来进行抽样的能力。2. 相关工作模拟物理交互。最近的许多作品[36，21，2，28，4，15]研究物理系统中的多个对象建模。与我们类似，它们利用物体之间的关系进行推理，并且可以预测长时间范围内的轨迹。然而，这些方法通常在简单的视觉（或仅基于状态）输入下对确定性过程进行建模，同时通常依赖于观察到的序列而不是单个帧。虽然最近的一些作品将原始图像作为输入[36，10]，但它们也只在状态中进行预测，而不是像素空间。与这些方法相反，虽然我们也使用基于建模以对象为中心的视频预测。一条工作线明确列举了每个对象的状态，如位置、速度、质量等，然后应用规划算法在奖励下展开运动[22，16]，或利用牛顿动力学[40，37]。然而，这些基于显式表示的方法在状态空间难以定义时可能不适用，或者在给定这样的状态的情况下不容易推断逐像素预测，例如，复杂背景下的人体运动。随机预测预测未来本质上是一项多模态任务。给定一个静止图像或一系列帧，有多种可能发生的未来。不确定性通常被编码为一系列潜在变量，然后将其用于生成模型，例如基于GAN [12]的[27，33，5，30]，或者类似于我们的，[ 20 ][22][23][24]这些方法[11，6，39]通常利用输入序列而不是单个帧，这有助于减少模糊性。此外，潜变量是按时间步[6]或全局[1，39]的，而我们的模型利用了全局潜变量，这反过来又引入了按时间步变量。3. 方法给定输入图像以及存在的实体的（已知或检测到的）位置，我们的目标是预测未来帧的序列形式上，给定起始帧f0和N个实体{b0}N的位置，我们的目标是生成-物理相互作用，我们显示视频帧生成的结果，n1 2Tn=1在随机设置中进行推理，因此还需要（实现）推理其他属性，例如形状、照明、颜色。最后，一个相关的工作是预测构型的稳定性[25，13，24，19，23]。我们的视频预测任务也需要这种理解，但我们不追求这作为最终目标。视频分解。由于预测空间的高维性，直接预测像素是具有挑战性的，并且已经使用了几种方法来因式分解该输出erateT未来帧f，f，...， F. 这个任务是一个很大的挑战-主要有两个原因：a）场景可以包括多个实体，使得有必要考虑它们的不同动态和交互，以及b）预测任务的固有多模态性质。为了克服第一个挑战，我们的见解是，我们应该通过对实体如何变化进行建模来进行预测，而不是对场景如何整体变化进行建模。我们使用实体预测-预测每个实体表示的tor： {xt}Nn n=1空间[33，31，30，7]。其主要思想是将动态{（bt，at）}N，其中bt表示预测位置，n nn=1N前景从静态背景和生成像素的核心，响应。虽然这些方法显示出有希望的结果，有效地建模一个对象的运动，我们展示了建模多个实体及其相互作用的好处。另一个见解是以不同的方式对输出空间进行建模，例如。光流[34，26]或运动变换[38，5，18，9]。这使得能够为较短的序列生成更逼真的图像，但可能不适用于较长的生成，因为新的内容变得可见，因此我们追求直接像素生成。另一条工作线提出在预定义的结构化表示空间中预测未来，例如人类姿势[35，32]。虽然我们的方法也从预测中间结构化表示中受益，但这不是我们的目的。目标，因为我们的目标是从这个表示中生成像素。T表示隐含地捕获每个实体的外观的预测特征虽然这种因式分解使我们能够有效地预测这些实体的未来，但还需要一个额外的步骤来推断像素。我们使用帧解码器来这样做，该帧解码器能够保留每个实体的属性，尊重预测的位置，同时还解决冲突，例如，在合成图像时的遮挡。为了解释任务中的基本多模态，我们引入了一个全局随机潜在变量u，它隐式地捕获整个视频的模糊性。该潜在变量u又确定性地（经由学习的网络）产生每时间步潜在变量zt，其有助于每时间步的未来预测。具体地说，预测器P将每个实体的表示{xt}以及潜在变量zt作为输入，并预测10355nnnn=1nn图2.我们的模型将具有已知/检测到的实体位置的图像作为输入。每个实体都表示为它的位置和隐式特征。给定当前实体表示和采样的潜在变量，我们的预测模块预测下一个时间步的表示。我们学习的解码器将预测的表示组成一个表示预测未来的图像。在训练期间，使用潜在编码器模块来使用初始帧和最终帧推断潜在变量的分布在下一个时间步{xt+1}的实体表示<$P（{xt}，zt）。解码器D使用这些预测（以及初始帧f 0以允许对背景进行建模），对预测帧ft= fD（{xt}，f0）进行定位。G=（V，E）与每个节点的相关联的特征，并通过迭代消息传递和消息聚集来更新这些特征。看到[3]更详细的评论。我们的前-从（{xt}，zt）推断{xt+1}的指示器P包括：n n n我们训练我们的模型，以最大限度地提高训练序列，包括两个帧的项4个交互块，其中第一个块作为输入与潜在功能：连接的实体编码和实体位置。就像optimize一样，{xt N{\displaystylen}. 这些块中的每一个都执行一个消息在具有未观测潜变量模型的模型中计算似然性，例如VAE [20]，直接最大化可能性是使用底层图传递迭代，最后一个块输出下一个实体特征的预测难以处理，因此我们最大化一个变低的时间步长{xt}N <${（bt，at）}N. 这张图可以是nn =1nn =1绑定为此，我们训练了另一个模块，一个潜在的en-编码器，其使用目标视频预测潜在变量u请注意，未来帧/位置的注释以及潜在编码器都仅在训练期间使用。然而，在推理期间，如图2所示，我们仅输入单个帧以及存在的实体的（预测/已知）位置，并且可以生成多个看似合理的未来帧。我们首先详细描述预测器、解码器和编码器模块，并给出整体训练目标。3.1. 实体预测器给定每个实体的位置和隐式外观fea，就像我们的合成数据实验一样，或者更结构化，例如，人类视频预测实验中的骨架。有关消息传递操作的更多详细信息，请参见附录。虽然我们的预测模块与交互网络（IN）[2]属于同一个保护伞，而交互网络又与图卷积网络（GCN）[21]相关，但在架构和应用方面都存在细微的差异。虽然[2]使用单个交互块来更新节点功能，但我们发现为每个时间步堆叠多个交互块特别有用。与使用预定义机制来计算边权重并对消息使用线性运算的tures{xt}N{（bt，at）}N，预测器输出我们发现，使用非线性函数作为消息，nn =1nn =1使用潜在变量zt预测下一个时间步。因此，该预测器的迭代应用允许我们使用来自初始帧的编码来预测整个序列的未来帧为了获得预测器的初始输入，实体在第一时间步编码{x0}N，我们使用已知/检测到的实体位置{b0}，更好的性能。最后，虽然现有的方法将GNN的变体应用于未来预测，这些变体被限制到与像素相反的预定义状态空间，并且不考虑使用潜在变量的不确定性。3.2. 帧解码器n n=1n并使用标准ResNet-18 CNN [14]在f 0的裁剪区域上提取外观特征{ a 0 }。虽然预测器P推断每个实体的特征，但是预测机制还应该允许这些实体之间的交互，而不是独立地预测它们中的每一个，例如，一个块可以落在或不落在它周围的其它块上。为了实现这一点，我们利用了图神经网络家族中的一个模型，特别是基于“交互网络”的模型，该模型采用了图解码器旨在从一组预测的实体表示生成帧的像素虽然实体表示捕捉场景的移动方面，但我们还需要结合静态背景，并且另外使用初始帧f0来这样做我们的解码器D如图3所示，因此预测ft D（{x t}，f0）。为了从这个分解的输入表示组成帧我们的解码器必须考虑几个方面：a）应尊重实体的预测位置，10356n=1t=1图3.我们的帧解码器接收初始帧f0和时间t的预测实体表示，并输出与预测的未来ft相对应的帧。b）每实体表示可能需要被融合，例如，当实体彼此遮挡时，以及c）背景的不同部分可以随着对象移动而变得可见。为了在生成图像时考虑实体的预测位置，我们建议对每个实体的归一化空间表示进行解码为了允许实体之间的遮挡，我们为每个实体预测一个额外的软遮罩通道，其中遮罩的值应该捕获实体的可见性。最后，我们将通过实体预测的（掩蔽的）空间特征覆盖到包含来自初始帧f0的特征的画布上，然后使用该组合特征预测未来帧像素。更正式地，让我们用φbg表示空间特征从帧f0预测（使用具有类似于UNet的架构的CNN），并令{（φn，M<$n）=g（ann）}N表示使用上卷积解码器网络G.我们首先使用预测的位置bn将这些特征和掩模扭曲到与φbg相同分辨率的图像坐标中。用W表示可微翘曲函数，例如在空间Transformer网络[17]中，我们可以获得图像空间中的实体特征和掩码：φn=W（φn，bn）;Mn=W（Mn，bn）（1）注意，每个实体的变形掩码和特征（φn，Mn）在预测的边界框bn之外为零，并且掩码Mn还可以在该重新定义的边界框bn内具有可变值gion。使用这些独立的背景和实体特征，我们通过经由加权平均组合这些特征来组成帧级空间特征φ。用Mbg表示恒定空间掩模（具有值0.1），我们获得合成特征为：图4.我们的编码器（a）和基线编码器（b-d）。在测试时，蓝色的变量是随机抽样的。在训练时，编码器通过用虚线连接的所有x使用预测的掩模进行推断，并结合来自背景的信息。然后，我们从这些组合特征中解码未来帧的像素。请注意，人们可以选择这种特征组合发生的空间级别，例如。它可以在特征空间中以接近图像分辨率（后期融合）发生，或者甚至直接在像素级（其中变量φ都表示像素）发生，或者可选地以较低分辨率（中期/早期融合）发生。我们发现，在隐式（而不是像素）空间后期融合产生最有前途的结果，也发现推断的面具最终对应于实例分割。3.3. 潜在表示我们在第3.1节中描述了我们的预测模块是如何以潜变量u为条件的，潜变量u又会生成每个时间步的条件变量zt，用于每个预测步骤直观地，全局潜在变量将捕获视频级模糊，例如，在块落入的地方，变量zt解决了每时间步运动中的相应模糊性。虽然先前用于未来预测的方法类似地使用潜变量来解决模糊性（参见图4（c-d）），但典型的想法是使用独立的每时间步随机变量，而在我们的模型中，zt在训练过程中，我们不是将潜在变量u的所有可能值上的序列的似然性边缘化，而是最小化对数似然目标的变分下界。这是通过训练一个其他模块，一个潜在的编码器，它（仅在训练期间）预测一个分布在u上的地面实况视频的条件。在实践中，我们发现，视频的第一帧和最后一帧（使用前馈神经网络）是足够的，并且用q（u）表示|f 0，f<$T）的分布预测。给定一个特定的u，这个分布，我们通过一个单层LSTM恢复{zt}，使用u作为细胞状态，预测序列的每个时间步变量。3.4. 培养目标φ=φbgBgΣnφnMn（二）总的来说，我们的训练目标可以被视为最大化地面实况帧的对数似然性，MbgnMn序列{f<$t}T. 此外，我们还使用培训时间监督-这些组合特征φ包含来自以下的信息：对于实体{{N}N的位置，}T. 而n n =1 t =1在适当的空间位置的所有实体，允许oc-该目标具有对数似然最大值的解释，10357nnn为了简单起见，它被描述为具有不同项的损失L，其中第一个Lpred鼓励帧和位置预测与地面实况匹配：ΣTLpred=ΣN（D（{xt}，f0）−f<$t<$1+λ1bt−nt=1n nn=1第二个组成部分对应于对潜变量分布施加信息瓶颈：Lenc=KL[q（u）<$N（0，I）]最后，为了进一步确保解码器生成真实的复合帧，我们添加了一个自动编码损失，强制它在给定实体时生成正确的帧。表示{x<$t}e从f<$t中导出（而不是预测）作为输入。ΣT图5.使用我们的实体预测器和基线进行位置（左）和帧（右）预测的错误。对于每个序列，抽取100个随机样本的最佳得分。假设已知位置并非不切实际--在训练和测试中使用现成的检测器[8]。在这两种情况下，我们训练我们的模型，以生成给定初始帧的1秒视频序列，尽管有两种不同的情况，但使用完全相同的架构Ldec=t=0D（{x<$t}，f0）−f<$t <$1在宾州行动评估指标。在这两种情况下，我们评估-因此，总损耗为L=Ldec+Lpred+λ2Lenc，其中超参数λ2确定accu之间的权衡随机变量中的速率预测和信息瓶颈更多详细信息见附录。我们将发布我们的代码以供复制。4. 实验我们的目标是显示定性和定量的结果，突出我们的方法中各种组件（预测器，解码器和潜在表示）的好处，并旨在强调我们的方法是通用的，以适应各种情况。参见补充资料中生成的视频。4.1. 实验装置数据集。我们在合成（ ShapeStacks [13] ）和真实（Penn Action [42]）数据集上展示了我们的结果。Shapestacks是一个合成数据集，由在重力作用下具有不同块和配置的堆叠对象组成。块可以是立方体，圆柱体或具有不同颜色的球。除了评估泛化能力外，我们还使用由4、5或6个块组成的视频进行了类似设置的进一步测试。Penn Action [42]是人们进行各种室内和室外运动的真实视频数据集，带有人体关节位置的注释。PennAction数据集是复杂的，因为a）不同的背景、视角、人类姿势和尺度b）注释中的噪声，以及c）具有不同动态的多我们使用与健身房活动相关的类别的子集，因为这些类别中的大多数我们采用了[42]中推荐的列车/测试划分除此之外，我们认为使用平均均方来计算预测的实体位置使用学习感知图像块相似性（LPIPS）[41]度量生成的帧的质量和错误评估中的一个微妙细节是，在推理时，预测取决于随机变量u，虽然只观察到一个地面实况，但可能有多个预测。为了说明这一点，我们抽取了100个样本，并记录了最好的分数，如[6]所示。当我们消融非随机模块（例如，解码器），我们使用潜在编码器预测的平均值u（在看到“地面实况”视频之后）。在没有进一步说明的情况下，曲线是在“100个最佳”设置中绘制的;定性结果可视化了LPIPS方面的最佳预测。基线。在我们的模型中有三个关键组成部分，即实体预测器、帧解码器和潜在表示器，sentation.提供了各种基线，以突出我们在每个组件中的选择。其中，一些变体特别指出以前的方法如下：• No-Factor [23]仅预测帧的水平。在这里，我们提供了实体位置和像素的监督，而不是分割掩码;• LP [6]实现了SVG-LP中的随机编码器模块，以比较潜变量的不同依赖性;• Pose Knows [35] 与我们的 Penn Action 设置最相关，该设置也预测姿势作为中间表示，但它联合预测位置并以不同的方式生成视频。除了上述与隐蔽工程密切相关的基线外，我们还提供了其他基线，其详细信息将在第4.2节中讨论。10358图6.使用我们的预测器进行视频预测，与基线进行比较我们在每3个时间步之后可视化生成的序列输出被解码为前景应用和掩码的全局特征。为了利用与框位置相同的监督，它还将每个实体的边界框作为输入（和输出）。No-Edge在预测未来时不允许实体之间的交互。NN使用CNN计算初始帧的特征在推理过程中，它检索在这些特征方面最相似的训练视频。详见附录。图6显示了使用我们的模型和基线进行的预测。No-Factor在开始时生成合理的帧，并且对于静态实体表现良好。然而，在稍后的时间步长处，具有大运动范围的实体由于不确定性而扩散。相比之下，由我们生成的实体随着时间的推移有更清晰的边界No-Edge不能准确预测块方向，因为它需要图7.上图：当推广到不同数量的块时，实体预测器的定量评估。括号中的数字表示子集中的块数。下一篇：视频预测中间和最后一步是可视化的。4.2. 使用Shapestacks进行我们使用Shapestacks来验证所提出的方法的不同组成部分，即。实体预测器、帧解码器和用于潜在变量的建模选择。实体预测器。我们的目标是证明我们提出的预测器，它能够分解每个实体位置和外观的预测，以及允许通过GNN进行推理，提高预测。为此，我们比较了三种替代模型：a）无因子[23]，b）无边缘和c）最近邻（NN）。无因子模型并不预测每个实体的外观，而是简单地有关相对配置的更多信息，并随着时间的推移进一步改变颜色。相比之下，我们的方法生成的块逐渐旋转和倒下，并学会保留颜色。NN基线表明我们的模型并不是简单地记住训练集。图5报告了定量评估，并类似地观察了我们的方法的好处。图7显示了模型在测试时推广到不同数量的实体（4、5和6）No-Factor使用完全连接的层来预测哪些层不能直接适应可变数量的块。我们展示了能够适应实体数量变化的方法，即。无刃和我们的我们的方法预测的位置更接近真相，更现实的出现，安斯，并能够保持块的颜色随着时间的推移。请注意，我们只使用三个块来训练所有模型。10359图8.将实体表示组合到框架中的定性结果。我们将来自解码器的变体的输出可视化，该第一行描绘了初始表示的解码;第二行描绘了在稍后的时间步长处的预测实体的解码图9.左：通过解码器变体预测帧的平均感知误差。右图：为实体预测的前景蒙版组成的可视化原始解码器。虽然无因子基线显示了在考虑其预测空间位置的同时为每个实体组合特征的益处，但我们在这里消除了这种组合是否应该直接在像素级或在一些隐式特征级（早期、中期或晚期）。在所有这些消融中，解码器中的层数保持相同;仅组成实体特征的级别不同。定性结果在图8中示出，其中第一行可视化来自初始帧的解码，并且第二行展示来自稍后时间步长的预测特征的解码虽然后期/像素级融合忠实地重建初始帧，但是像素级融合为未来帧引入伪影。中期/早期融合交替不能很好地捕捉细节我们还观察到图9中可视化的定量结果中的类似趋势。注意，潜在u由地面实况视频编码。为了进一步分析解码器，我们在图9中可视化生成的软掩码。值指示像素属于实体的前景注意，尽管没有直接的监督，但这种分割出现，而只有位置和帧级像素。潜在代表。我们在预测模型中对潜在变量的选择不同于使用每时间步随机变量zt的常见选择。我们将我们的方法（图4a）与其他替代方法（图4b-e）进行比较。No-Z基线（图4b）直接图10.使用我们的编码器和基线进行位置（左）和帧（右）预测的误差。对于每个序列，抽取100个随机样本的最佳图11.通过我们的方法和其他基线可视化五个随机采样的预测。随着时间的推移，实体的预测中心覆盖在初始帧的顶部。在固定先验（FP）和学习先验（LP）[6]基线中，随机变量在每个时间步进行采样，或者独立（FP），或者取决于先前的预测（LP）。在训练期间，FP和LP模型都使用与我们类似的编码器进行训练，但是该编码器使用帧ft和ft+1预测zt（而不是我们使用f0和ft来预测u的方法）。我们使用图11中实体位置的投影形式的五个随机样本进行可视化。我们注意到No-Z模型的轨迹方向在样本之间没有变化。FP模型具有跨时间步长维持一致运动的问题，因为在每个时间步长期间，对独立的潜在变量进行采样。与FP相比，LP方法表现良好，但仍然存在类似的问题。与基线相比，全局潜在变量的使用使我们能够在视频序列中进行采样并产生一致的运动，同时还允许在样本中进行不同的预测。图10中的定量评估显示了类似的好处，其中我们的方法随着时间的推移对于位置误差和帧感知距离都表现良好。4.3. 宾州行动我们在这个数据集中使用的模型与Shapestacks中的模型完全相同。只有预测器中的图是基于人类骨架的，而不是完全连接的。查看项目页面以获取生成的视频。10360图12.与基线相比，使用我们的方法获得的视频预测结果具有最佳LPIPS潜伏期。最后一列显示了在训练和测试中实体（关节）位置被检测替换时的结果。视频是补充。图13.通过我们的方法在三个随机采样的预测中可视化关节位置。初始骨架以白色绘制。时间0.25s、0.5s和1s的光子分别绘制为黄色、橙色和红色。图14.使用我们的模型和基线方法进行位置（左）和帧（右）预测的误差。对于每个序列，得出100个样品的最佳分数。我们与Pose-Knows [35]进行比较，后者利用实体作为中间表示并生成像素级预测。然而，它们a）不预测外观特征，而仅预测每个实体（关节）的位置;b）不涉及交互机制; c）采用不同的生成方法（GAN），其中它们将渲染姿态图的序列粘贴到初始帧，并通过时空3D卷积网络融合它们[29]。在他们的论文中，对抗性损失是为了提高现实性。我们提出，我们的方法也受益于对抗性损失（Ours+Adv）。图12和图14显示了使用100个样本中的最佳潜在变量的定性和定量结果例。无因子不能生成合理的前景，而无边缘不能很好地合成。如果增加对抗性损失（Ours+Adv），我们的结果会更清晰我们还可视化预测时，在这两个训练和推理，注释的关键点被替换为de-使用[8]检测关键点。我们注意到，性能与使用注释关键点位置的设置具有竞争力，这表明我们的方法对注释噪声具有鲁棒性。这也表明实体位置的要求不是一个瓶颈，因为自动推断的位置在我们的实验中已经足够了。图13使用预测的关节位置随时间可视化不同的样本期货。我们的模型学习人体在背景下的边界，以及实体如何组成人体，即使它们严重重叠。更有趣的是，该模型为不同的运动学习不同类型的动力学。例如，在引体向上时，腿移动得更多，而手静止不动;在挺举时，腿几乎保持在同一个地方。5. 讨论在这项工作中，我们提出了一种方法，利用组合跨实体的视频预测。然而，在一般情况下，视频预测的任务远未得到解决，仍然存在许多挑战。特别是，我们依赖于实体位置的监督，无论是从人类或自动注释。放松这一要求并允许实体出现，就像最近的一些作品[4，15]中所追求的那样，尽管是在更简单的环境中，这将是有趣的此外，基于GAN的辅助损失已被证明可以提高图像合成质量，这些可以与我们的模型结合起来探索。最后，由于任务的多模态性质，开发评估预测多样性和准确性的指标也具有挑战性，我们希望未来的一些努力也将集中在这方面。鸣谢。本研究部分由ONR MURI N 000141612007和ARO W 911 NF-18-1- 0019申办。10361引用[1] MohammadBabaeizadeh 、 Chelsea Finn 、 DumitruErhan、Roy H Campbell和Sergey Levine。随机变分视频预测。ICLR，2017年。2[2] 彼得巴塔利亚Razvan 帕斯卡努马修 Lai，DaniloJimenez Rezende，等. 交互网络，用于学习物体，关系和物理。InNeurIPS，2016. 二、三[3] Peter W Battaglia，Jessica B Hamrick，Victor Bapst，Al-varo Sanchez-Gonzalez ， Vinicius Zambaldi ， MateuszMa- linowski，Andrea Tacchetti，David Raposo，AdamSantoro，Ryan Faulkner，et al.关系归纳偏差、深度学习和图网络。arXiv预印本arXiv：1806.01261，2018。3[4] Michael B Chang、Tomer Ullman、Antonio Torralba和Joshua B Tenenbaum。一个基于组合对象的方法来学习物理动力学。ICLR，2016. 二、八[5] 陈宝阳、王文民、王金卓。视频想象从一个单一的图像与变换generation。在ACMMM研讨会，2017年。2[6] 艾米丽·丹顿和罗伯·费格斯具有学习先验的随机视频生成。在ICML，2018。二、五、七[7] Emily L Denton等.从视频中分离表示的无监督学习NeurIPS，2017。2[8] 方浩树，谢淑琴，戴玉荣，陆策武。RMPE：区域多人姿势估计。InICCV，2017. 五、八[9] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。InNeurIPS，2016. 2[10] Katerina Fragkiadaki，Pulkit Agrawal，Sergey Levine，and Jitendra Malik.学习物理学的视觉预测模型ICLR，2015年。2[11] Katerina Fragkiadaki ， Jonathan Huang ， Alex Alemi ，Sud- heendra Vijayanarasimhan ， Susanna Ricco ， andRahul Sukthankar. 运动预测下多模态条件随机网络。arXiv预印本arXiv：1705.02082，2017。2[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014。2[13] Oliver Groth，Fabian Fuchs，Ingmar Posner，and AndreaVedaldi. Shapestacks：学习基于视觉的物理直觉，用于广义对象堆叠。ECCV，2018年。二、五[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。3[15] Jun-Ting Hsieh ， Bingbin Liu ， De-An Huang ， Li Fei-Fei，and Juan Carlos Niebles.学习分解和解开视频预测的表示。NeurIPS，2018。二、八[16] De-An Huang ， Amir-massoud Farahmand ， Kris MKitani，and James Andrew Bagnell.近似最大逆最优控制及其在人类交互心理模拟中的应用。InAAAI，2015. 2[17] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。InNeurIPS，2015. 4[18] Xu Jia，Bert De Brabandere，Tinne Tuytelaars，and LucV Gool.动态过滤网络。InNeurIPS，2016. 2[19] Jia Zhaoyin Jia ， Andrew C Gallagher ， AshutoshSaxena，and Tsuhan Chen.从积木到稳定性的三维推理。IEEE Transactions on Pattern Analysis and MachineIntelligence，2015年。2[20] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。ICLR，2014年。二、三[21] Thomas Kipf、Ethan Fetaya、Kuan-Chieh Wang、MaxWelling和Richard Zemel。交互系统的神经关系推理。ICML，2019年。二、三[22] Kris M Kitani ， Brian D Ziebart ， James AndrewBagnell，and Martial Hebert.活动预测。ECCV，2012年。2[23] Adam Lerer Sam Gross 和 Rob Fergus 通过实例学习ICML，2016。二、五、六[24] Wenbin Li，Seyedmajid Azimi，Ales P. Leonardis，andMario Fritz.跌倒或不跌倒：物理稳定性预测的可视化方法。arXiv预印本arXiv：1604.00066，2016年。2[25] Wenbin Li，Ales Leonardis，and Mario Fritz.视觉稳定性预测及其在操作中的应用。AAAI，2016年。2[26] Ziwei Liu ， Raymond A Yeh ， Xiaoou Tang ， YimingLiu，and Aseem Agarwala.使用深体素流的视频帧合成。InICCV，2017. 2[27] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测。ICLR，2016. 2[28] 亚当·桑托罗，大卫·拉波索，大卫·G·巴雷特，马特乌什·马林诺夫斯基，拉兹万·帕斯卡努，彼得·巴塔利亚和蒂姆·莉莉--垃圾。一个简单的神经网络模块的关系推理。NeurIPS，2017。2[29] Du Tran 、 Lubomir Bourdev 、 Rob Fergus 、 LorenzoTorresani和Manohar Paluri。用3d卷积网络学习时空特征。在ICCV，2015年。8[30] Sergey Tulyakov，Ming-Yu Liu，Xiaodong Yang，andJan Kautz. Mocogan：分解运动和内容以生成视频。CVPR，2017年。2[31] Ruben Villegas，Jimei Yang，Seunhoon Hong，XunyuLin，and Honglak Lee.用于自然视频序列预测的分解运动和内容。ICLR，2017年。2[32] Ruben Villegas ，Jimei Yang，Yuliang Zou，SungryullSohn，Xunyu Lin，and Honglak Lee.学习通过分层预测生成长期未来。ICML，2017. 2[33] Carl Vondrick Hamed Pirsiavash和Antonio Torralba生成具有场景动态的视频。InNeurIPS，2016. 2[34] Jacob Walker ， Carl Doersch ， Abhinav Gupta ， andMartial Hebert.不确定的未来：使用变分自动编码器从静态图像进行预测。在ECCV，2016年。2[35] Jacob Walker ， Kenneth Marino， Abhinav Gupta ， andMartial Hebert.pose知道：通过生成姿势未来进行视频预测。InICCV，2017. 二、五、八[36] 尼古拉斯·沃特斯，安德里亚·塔切蒂，西奥芬·韦伯，拉10362兹·范·帕斯卡努，彼得·巴塔利亚，丹尼尔·佐兰.视觉交互网络。arXiv预印本arXiv：1706.01433，2017。210363[37] 吴嘉俊，约瑟夫J林，张弘毅，约书亚B Tenen-baum，和威廉T弗里曼。物理101：从未标记的视频中学习物理对象属性在BMVC，2016年。2[38] 薛天凡，吴嘉俊，凯瑟琳·布曼，比尔·弗里曼.视觉动态：通过交叉卷积网络的概率未来帧合成。InNeurIPS，2016. 2[39] Xinchen Yan，Akash Rastogi，Ruben Villegas，KalyanSunkavalli ， Eli Shechtman ， Sunil Hadap ， ErsinYumer，and Honglak Lee. MT-VAE：学习运动变换以生成多模态人体动力学。在ECCV，2018。2[40] Tian Ye ， Xiaolong Wang ， James Davidson ， andAbhinav Gupta.可解释的直观物理模型。ECCV，2018年。2[41] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShechtman和Oliver Wang。深度特征作为感知度量的不合理有效性。在CVPR，2018年。5[42] 张伟宇，朱梦龙，康斯坦丁诺斯·G·德尔帕尼斯。从行为到行动：用于详细动作理解的强监督表示。InICCV，2013. 5

下载后可阅读完整内容，剩余1页未读，立即下载