没有合适的资源?快使用搜索试试~ 我知道了~
静态图像戳产生的受控随机视频合成及其运动学的研究
14707iPOKE:戳静态图像用于受控随机视频合成AndreasBlattmann1,2TimoMilbich1,2MichaelDork enw ald2BjoürnOmmer1,21慕尼黑路德维希马克西米利安大学2IWR,海德堡大学,德国摘要一个静态的场景会对一个局部的戳有什么反应?如果你能局部地推动一个物体,它的其他部分会有什么影响?尽管我们世界的随机性造成了明显的变化,但仍会有独特的运动。这些结果由对象的特性运动学支配,该特性运动学支配由局部相互作用引起的它们的整体运动。相反,物体的运动提供了关于其潜在的独特运动学及其部件之间的相互依赖性的关键信息。这种双向关系促使学习对象运动学与合理的未来图像序列之间的双向映射因此,我们提出了iPOKE -对象运动学的与以前的作品相比,我们不生成任意逼真的视频,但提供有效的运动控制,同时仍然捕捉我们的环境的随机性和它所带来的合理结果的多样性此外,我们的方法可以转移到新的对象实例的运动学,并不局限 于 特 定 的 对 象 类 。 我 们 的 项 目 页 面 可 以 在https://bit.ly/3dJN4Lf上找到。1. 介绍想象一下,一个3岁的孩子站在商店里一堆金字塔形的眼镜旁边。你能感觉到想要拿出一个杯子的冲动吗?只是为了观察会发生什么我们有一种与生俱来的好奇心,想要了解我们周围的世界对我们的行为是如何反应的,所以我们最终可以提前想象和预测它们的结果。这种预测能力是与我们的世界进行有针对性的、以目标为导向的互动的先决条件,而不是随机操纵我们的环境。一旦我们长大了,我们也学会了概括和预测以前看不见的物体被拉或戳时的动态;而那些不那么大胆的人已经明白,让别人做上面这样大胆的实验(并买单),而他们只是通过观察结果来学习,往往会更有效。虽然这样的实验图1. iPOKE:在一个本地戳控制所需的对象运动的静态图像的条件下,我们的可逆模型学习的任意对象类的剩余对象运动学的表示。一旦学习,我们的框架允许用户本地控制预期的运动,同时采样不同的现实运动的对象的其余部分,甚至转移运动学看不见的对象实例。不仅是有趣的观看,他们也有助于想象许多可能的结果所造成的随机性质的许多因素超出了我们的控制。给定单个静态图像,人工视觉系统如何能够想象,即合成,许多可能的结果时,局部操纵场景?它需要了解局部戳如何影响对象的不同部分以及由此产生的运动学[49]。仅以起始帧和单个像素的位移为条件,我们希望合成多个视频,每个视频显示不同的合理未来动态。为了使这种生成的随机方法广泛适用,训练应该只需要运动中的对象的视频,而不需要关于作用在诸如局部戳的对象上的力的地面实况信息然后,运动学的表示应该推广到训练期间未看到的类似对象,与实例特定模型形成对比[15]。此外,该方法应该适用于任意对象,而不是仅针对单个类进行调整[1,21]。因此,没有先验运动模型可用,但是必须从未注释14708∈编码视频数据先前关于视频合成的工作主要探索了两个相反的研究方向:(i)不受控制的未来帧预测[24,10,53,59]基于开始帧合成视频,但不控制场景动态,以及(ii)密集控制的视频合成[50,73,77,74],其要求繁琐的、每像素的指导,例如通过要求每个像素[50,73,77]或未来帧提供对象运动,视频将如何演变。目标帧[74]。我们的稀疏控制的视频合成的基础上很少本地用户交互构成了很少调查的中间地带之间,允许特定的,但仍然有效的控制运动学。在本文中,我们提出了一个模型,行使局部控制的运动学观察到的图像中的对象。用一个简单的鼠标拖动指示单个对象部分的运动为了捕获全局对象接合中的模糊性,我们学习了一个dedicated潜在的运动学表示。合成问题,然后制定为一个可逆的映射对象的运动学和视频序列的条件下观察到的对象操作。由于其随机性质,我们的潜在表示允许采样和传输适合稀疏本地用户输入的不同的运动学实现,然后推断和合成似然视频序列,如图2所示。1.一、为了评估我们的受控随机视频合成模型,我们在四个不同的数据集上进行定量和定性实验,这些数据集表现出复杂和高度articulated的对象,如人类和植物。与最先进的随机和受控的视频预测的比较表明,我们的模型预测和合成的能力,从本地用户控制推断合理的,不同的对象关节2. 相关工作视频合成。视频合成表示生成新颖视频序列的一般任务。虽然一些工作仅关注在对象之间传输预定义的整体运动[73]或在开始帧和结束帧之间插入运动[54,79,43,4,55],但最常见的问题是视频预测。给定最初观察到的视频序列,目标是推断到未来的可能延续。为此,所提出的方法要么生成单个确定性视频序列[76,70,69,77,6],要么对分布进行建模。可能的未来序列[23,16,40,59,53,10,19]。此外,所采用的模型架构表现出很大的差异,基于潜在RNN的方法是主要的建模选择[53,24]。然而,基于变换器[75]、像素级自回归[51,40,45,16,70,10]、动态和内容的因式分解[53,24]以及使用光学的图像变形的[71,44,25]已经提出。尽管这些方法显示出有希望的结果,但它们中没有一个能够对视频生成过程进行控制。可控视频合成。 在视频合成过程中行使用户控制需要详细了解对象运动学和对象部分的相互作用。为了规避直接从数据学习对象运动学的困难任务,Davis等人。[15]采用固定的线性数学模型。因此,它们只能考虑围绕物体静止状态的约束振荡运动。相比之下,我们的模型从视频中学习自然的、不受约束的对象运动学,因此也适用于高度复杂的发音,例如人类的发音。其他作品依赖于低维的参数表示,例如关键点来在视频之间传输运动[1,5]或基于动作标签合成视频[81]。鉴于这样的假设,这些作品不能普遍适用于任意对象类别,只允许粗控制相比,我们的细粒度,本地对象的操作。通过使用估计光流矢量的局部集合迭代地扭曲单个图像,[27]迈出了针对任意对象类别的稀疏控制视频生成的第一步。然而,由于该方法的基于扭曲的性质,它仍然不能生成时间上相干的运动,并且需要针对每个单独的预测图像帧的为了克服这些限制,[6]引入了一种分层动态模型,该模型可以预测给定图像中由单个光流矢量控制的复杂对象动态,但仍然没有考虑其余不受控制的对象部分的自然运动模糊性。相比之下,我们的模型学习一个专用的,随机运动学表示建模对象的不确定性,因此,能够合成本地控制,但也不同的对象运动。可逆神经网络可逆神经网络(INN)是可学习的双射函数,通常用于在两个概率分布之间进行转换,因此是解决逆问题[3],内省和解释神经网络表示[22,32]和域转移[62,63]的自然选择通常,INN被实现为生成归一化流[60,47,37],其最近也在图像[37,58]和视频合成[39,19]中找到了应用。 在这项工作中,我们使用归一化流来学习丢失的残差信息,即。所述潜在对象运动学不是通过对所述对象运动的一部分的稀疏局部控制来确定的。3. 方法受控视频合成试图在给定初始帧x0和本地指定视频动态的一部分的用户定义的控制c的情况下生成合理的未来视频序列XRTXHXWX3(x0,c)→ X =[x1,. . . ,X T]。(一)14709∈∼|图2.我 们 提出的用于受控视频合成的框架iPOKE的概述:我们应用条件双射变换τθ来学习捕获不存在于用户控件c中的所有视频信息的残余运动学表示r,用户控件c定义图像帧X。(橙色路径)中的预期局部对象运动。为了保持可行的计算复杂度,我们预先训练视频自动编码框架(E,GRU,D)(蓝色路径),产生专用视频表示z作为τθ的训练输入。受控视频合成通过以下方式实现对残差r进行采样,从而定义不直接受c影响的剩余对象部分的似然运动,并生成视频序列从结果z=τθ(r|x0,c)使用G RU和D(黑色路径)。我们的目标是有效地控制视频合成。代替让用户繁琐地指定每个像素处的动态,例如,通过提供密集的矢量场[77],c应该仅仅是非常稀疏的信号。因此,我们假设仅提供局部戳,即在开始帧和结束帧之间的一个图像位置处的期望移动该pokecR4 con-包括一个移位,c1:2,在一个单一的像素位置,c3:4,只通过一个简单的鼠标拖动执行。显然,即使密集地定义开始帧和结束帧之间的每个像素的运动也不能完全定义之间的对象动态,甚至更少地仅定义稀疏的4Dc向量。鉴于这种高度有限的条件反射信息,我们对所有可能的未来视频3.1. 可逆控制视频合成寻求找到映射(3),我们自然地到达随机视频预测的问题。到目前为止,这些问题的主导方法是基于条件变分自动编码器(cVAE)的模型[38,61,65]。cVAE采用强正则化来从剩余数据变化中去除给定条件,因此面临合成质量和捕获所有这些变化[11,83]之间的权衡,在我们的情况下是不同的对象运动学r。为了避免这种情况,我们使用条件双射,即。一对一,在每个残差r和对应的视频r之间映射τXp(X|x0,c),(2)因此,对比以前的工作,这只会产生一些任意的,不受控制的实现[40,45,16,10]。然后,我们的主要挑战是建立对象运动学模型,该模型定义了对象的一部分的运动如何影响其余部分,从而产生整体协调的对象动态。由于X是随机变量,因此(1)中的映射实际上是非唯一的。有大量的剩余信息r超出了用户的控制范围,我们需要将(1)转化为唯一的一对一映射(x0,c,r)›→X,(3)其中残差R然后将捕获指定给定稀疏局部控制C的剩余对象部分的移动的对象运动学。X=τ(r|x0,c)(4)使得对于给定条件的所有可能的X可以被合成。此外,逆映射τ−1允许恢复任何X的残余运动学,r=τ−1(X|x0,c),(5)它可以被认为是随机变量r p(r x0,c),因为τ−1是唯一的,X是在(2)中定义为了解决有条件的视频合成任务,我们现在示出如何学习τ,使得r(i)确实包含不存在于(x0,c)中的所有视频信息,并且(ii)遵循可以容易地从中采样的分布。学习可逆映射τ。我们用参数θ来装备τ,通过使用等式(5)、可从培训视频中学习X.根据变量变换定理147100θ角|ǁ|ǁ|·|∈····θ角DDLN||θ角图3.受控随机视频合成显示了PP数据集上相同用户控件c(红色箭头)和随机采样运动学r的三个我们的模型生成多样化的,合理的对象运动,同时准确地接近目标位置(红点)的控制对象的一部分。此外,为了便于比较样本之间的运动差异,我们显示了每个序列的第一帧和最后一帧之间的光流图。最好在我们的项目页面上观看视频。概率分布,我们有p(X,x,c)=p(τθ(r|x0,c)|x0,c)| detJτθ(r|x0,c)|=p(τ−1(X|x0,c)|x0,c)·|detJ−1(X|x0,c)|.图4.受控随机视频合成显示了iPER数据集上相同用户控件c(红色箭头)和随机采样运动学r的三个我们的模型生成多样化的,合理的对象运动,同时准确地接近目标位置(红点)的控制身体部位。最好在我们的项目页面上观看视频。详细推导见附录D.2。注意,优化Eq.(8)同时确保(i)r和(x0,c)的独立性,以及(ii)产生生成概率模型,因为我们可以容易地从q(r)中提取样本并使用条件映射(4)来获得合成视频。因此,我们的模型能够以受控但随机的方式合成视频,而无需面对θτθ(六)在cVAE中遇到的权衡这里,Jt0表示变换τ0的雅可比行列式,并且det[ ]表示行列式的绝对值。 回想一下,我们必须确保学习τθ,使得r包含不存在于(x0,c)中的所有视频信息。实际上,这需要学习τθ,使得r独立于(x0,c)。这可以通过引入一些独立的先验q(r)并最小化KL[p(r x0,c)q(r)]来实现,然后构成附录D.1中导出的互信息MI[r,(x0,c)][2,62]的上界,因此实际上强制了预期的独立性。此外,通过使用Eq.在等式(5)和(6)中,我们可以将KL[p(rx0,c)q(r)]表示为训练数据X的函数,这通过最小化KL[p(r|x0,c)q(r)]∝EXΣ−log.Q. τ−1(X|x0,c)ΣΣ-日志|detJτ−1(X|x0,c)|Σ。(七)3.2. 用于可跟踪学习τθ的为了实现我们的映射τθ的条件双射性质,我们将其实现为条件可逆神经网络(cINN)[56,18,17,62,19],这需要变换后的随机变量的相等维度。因此,X将要求r是非常高维的,从而导致不可行的计算复杂度。 作为补救措施,我们用紧凑的信息保留视频编码zRh× w × d替换X,其中h w d H W3T由标准序列自动编码框架[38]学习,该框架由3D-ResNet [28]编码器E,用于在潜在空间中进行时间登记的GRU [ 12 ]和图像解码器G组成,以获得视频预测在学习τθ之前,我们训练该模型以通过使用相应的损失rec来重建训练视频X,并且另外添加静态和时间鉴别器[13,73]S和T,以增加X的视觉和时间相干性,从而导致对象ive通过选择q(r)=(r0,1)[38,80]并将其插入到等式(1)中,(7)得到简单的目标函数拉埃=Lrec 公司简介+LDT .(九)minL(τθ,X,x0,c)=EX,x,c[τ−1(X|x0,c)2有关实施和培训的详细信息,请参阅θ0θ2(八)见附录E.1。然后我们可以学习τθ从-日志|detJτ−1(X|x0,c)|]中。14711压缩潜在视频编码z=E(X)而不是高维视频X。14712∈n=1∈34∈图5.受控随机视频合成显示了Human3.6m数据集上相同用户控件c(红色箭头)和随机采样运动学r的三个我们的模型生成多样化,合理的对象运动,同时准确地接近目标位置(红点)的控制身体部位。最好在我们的项目页面上观看视频。到目前为止,对潜在表示进行操作的cINN已经被实现为一系列完全连接的层[32,62,63],从而丢弃了自然构成视觉数据的空间信息。然而,由于条件c描述了单个像素的空间移位,因此这样的架构不能有效地利用该信息。图6. iPER上的运动转移:我们从地面实况序列(顶行)中提取残差运动学,并将其与相应的控件c(红色箭头)一起使用,以动画化示出类似的初始对象姿势的图像x t(第二行)。我们还针对相同的(Xt,c)(底行)可视化来自q(r)的随机样本,指示残余运动学表示仅包含不存在于(Xt,c)中的运动信息(对于详细描述,参见图1)。秒4.2)。最好在我们的项目页面上观看视频。交互直接来自廉价可用的训练视频集合X的观察到的运动。为此,我们提取X的开始帧和结束帧x0和xT之间的密集光流图[29]FRH×W×2,其各个移位向量可以被解释为稀疏像素位移第为此,我们使用pokec来定义一个双通道c={(F1)}n,1、1η、2、1、F1n,1、1η、2,2)}Nc. 在训练中,我们跑-映射CRH× W ×2,其中C c,c,1:2=c1:2,否则为零,其中,并且相反地设计完全卷积的cINN,使得关于控制位置的关键空间信息可以尽可能地被并入。更具体地,我们的架构包括K个顺序排列的cINN子块。通过直接转发输出的部分d在呈现出可靠地对应于前景对象的足够大的运动的位置L,n处对这种模拟戳进行动态采样。与[ 6 ]相比,[6]使用类似的策略,但限制用户控制仅由单个戳定义,我们允许用户通过训练我们的模型到最终表示rK,我们减少记忆-在多达5个同时交互作用c上,即在变量上理论要求,并避免大K的消失梯度[18,48]。 在第k个块内,我们应用了一系列Nk掩蔽卷积[48],与标准流架构(如耦合层[17,18,37])相比,这些卷积已被证明可以获得改进的表现力最后,调节信息(x0,c)由两个专用编码网络Φx0和Φc单独处理,产生与流输入相同空间大小的表示,它们在每个掩码卷积之前被连接我们在Fig.中可视化架构和训练2,并在附录E.2中提供更多详细信息。3.3. 用户控制训练我们的用于受控视频合成的模型依赖于用户控件c和描述自然对象响应的对应视频序列X可用。为每个目标对象类别提供足够量的这种训练数据是繁琐且昂贵的。相反,我们采用了一种有效的自我监督策略来人工生成这样的Nc[1,5]个局部戳。请注意,为了在训练后推断用户控件,我们不需要光流估计,而是使用简单的鼠标拖动。4. 实验随后,我们评估我们的模型控制随机视频合成的四个视频数据集显示不同的和明确的对象类别的人类和植物。实施细节和视频资料可以在附录F和G以及我们的项目页面中找到。4.1. 数据集我们在以下四个数据集上评估我们理解和合成对象动态的方法:Poking-Plants(PP)[6]由13种不同类型的盆栽植物的27个视频组成考虑到植物的形状和纹理的大变化,学习所有植物的单个运动学模型是非常具有挑战性的。总的来说,PP包含43k帧,其中五分之一被用作测试集,并且14713∼θ角||∼图7. 了解对象运动学:通过采样1000个随机控制输入在位置l=c3:4为一个固定的图像x0,我们得到不同的视频序列,从其中我们计算运动相关性为l与所有剩余的像素。通过将这些相关性映射到像素空间,我们将不同对象部分的相互作用相关性可视化,从而产生关于所学习的运动学的见解。其余部分作为训练数据。iPER[42]包含30个具有不同风格的人,其执行各种简单和复杂的动作。我们遵循官方的训练/测试分割,这导致180 k帧的训练集和49 k帧的测试集。Tai-Chi-HD[64]是来自Youtube的280个野外太极视频我们遵循以前的工作[64],使用252个视频进行训练,28个视频进行测试。考虑到背景和摄像机运动的较大差异,该数据集测试了我们模型的现实世界适用性由于后续帧之间的运动通常很小,因此我们跳过每隔一帧。Human3.6m [30]是一个大规模的人体运动数据集,包含7个人类演员执行17个不同动作的视频序列。我们遵循先前的工作[76,53,24],将视频中心裁剪和下采样到6.25Hz,并使用演员S1,S5,S6,S7和S8(600个视频)进行训练,使用演员S9和S11(239个视频)进行测试。4.2. 定性评价受控随机视频合成。在图3、图4和图5中,我们示出了由我们提出的模型在PP、iPER和Human3.6m数据集上生成的受控随机视频合成的示例。对于每个数据集,我们显示了固定给定图像x0之后的地面实况帧,以及从固定用户控件c(红色箭头)和随机采样的运动学实现r q(r)生成的三个合成示例。太极数据集的示例可以在补充中找到,其中我们还显示了基于真实人类用户的控制输入的其他合成视频在附录A和B中讨论了单个视频。运动学转移。除了采样似然对象运动学之外,我们还可以应用我们的模型来传递从源序列Xs=[x s,0,. . . ,Xs,T]到新颖对象实例。 为此目的,我们提取基于X s模拟的用户控制c的对应残余运动学r s=τ−1(Xsx s , 0,c), 并使用等式(1):(4)动画化目标图像Xt示出-以类似的关节连接另一个对象实例而不是xs,0。所得到的成功传输的运动序列X(t=τθ(rsxt,c)如图所示。 6(第二行)并与Xs(顶行)进行比较。 可以看出,包含在X s中的运动被转移到Xt,而不是x 0,s中所示的对象外观,这表明我们的模型确实已经学习了仅包含运动学另外,我们基于针对相同条件(xt,c)(底行)的残余运动学的随机样本rq(r)来可视化合成的视频序列,示出除了受控身体部分之外的基本上不同的对象运动,并且由此提供r也独立于用户控制C。运动学传递的更多结果可参见附录A.2。了解对象运动学。 为了演示我们的模型如何捕捉整体对象运动学,我们分析了它对整体对象部分相互作用的理解。因此,当在固定图像X〇的固定位置l处应用1000个随机采样的用户控件c时,我们测量逐像素相关性,即仅改变移位矢量的方向和幅度 为了测量所有像素相对于固定控制位置(以及因此具有受控部分的剩余对象部分)的运动的相关性,我们首先计算所有得到的合成视频序列的开始帧x0和结束帧xT之间的光流图。接下来,我们计算所跟踪的像素位置相对于交互位置1在XT中的移位,从而获得各个移位的1000个[幅度,角度]表示为了测量像素与l的相关性,我们现在计算这些偏移的方差图图7示出了给定人类和植物两者的不同位置l的所得相关性图。对于人类,我们获得了构成特定身体部位的像素以及与l自然连接的部位的高度相关性,表明我们的模型正确理解了身体结构。对于植物,我们看到在靠近树干的位置(顶部、中部和右侧)拉动直观地影响对象的大部分。与像素相比,与单个小叶子的交互对剩余的对象几乎14714×个0.0400.0350.0300.0250.0200.0150.0100.0050.000表1.与最近的稀疏控制视频合成方法的比较[27,6]。基于L2距离,已知其可被模糊预测欺骗。运动多样性。根据先前的工作[40,85],我们通过使用LPIPS [82]度量计算不同视频样本的各个帧之间的相互距离(同时固定用户控件)来此外,我们还直接评估的多样性,在像素空间使用Hao Hao w/KP iPOKE(Ours)方法图8. 控制精度:在iPER数据集上,我们基于地面实况关键点提取控制信号c,并且还估计所得合成视频的关键点。我们仅评估关于用于定义c的那些关键点的误差。小提琴显示了所得的MSE分布。这些数字是关键点空间中的平均误差,由黑点表示。我们的模型优于Hao等人的基线。甚至接近他们在关键点上训练的模型。代表离开。4.3. 定量评价由于我们提出的控制和随机视频合成的任务,到目前为止尚未尝试,我们不能直接比较iPOKE以前的工作。然而,为了定量地证明我们的模型可靠地实现这一任务,我们分别与当前最先进的随机视频预测模型[40,10,24]和稀疏控制的视频合成方法[27,6]进行比较。对于所有竞争对手,我们使用提供的预训练模型(如果可用)或使用官方代码训练模型。评估指标。运 动 一 致 性 。 我 们 通 过 使 用 Fre'chetVideoDistance[68](FVD,lo wer-is-better)来评估合成质量,该距离对视觉和时间相干性做出响应,并使用在Kinetics [34]数据集上训练的I3 D网络[67Unterthiner等人[68]表明该指标与人类判断相关。我们报告的FVD分数从长度为10的视频中获得。合成质量。 由于我们没有直接的手段来评估iPOKE如何建模对象运动学,我们使用两个常用的逐帧度量将其合成的视频与地面实况进行比较,因为产生不正确的运动学将导致单独生成的帧与地面实况帧之间的大误差。我们平均随着时间的推移和超过5个样本由于我们模型 因为它能解释-频率图像差异,并且也与人类判断良好相关,LPIPS[82](越低越好)是该任务的选择指标。此外,由于其广泛的应用,我们报告了通过SSIM测量的帧间差异[84]。然而,由于该度量比较图像块MSE,从而测量低频图像差异。可控视频合成。 我们将我们的模型与所考虑的方法进行比较,用于在所有考虑的数据集上使用LPIPS [82],SSIM [84]和FVD [68]对分辨率为128 128.请注意,两个竞争基线均为lim-其局限性在于它们不提供随机地对非受控对象部分的固有模糊性进行建模的手段。此外,[27]缺乏专用的动力学模型,如方法是基于变形技术,我们在附录F中描述,并需要一个以上的控制输入,以可靠地产生复杂的对象清晰度。由于这些限制,我们的模型表现出显著更好的时间和视觉一致性,如表中FVD和LPIPS评分的大差距所示1.一、为了提供更强的基线,我们还训练和评估了Hao等人的模型。其中输入轨迹基于地面实况关键点(Hao w/KP),其对于iPER数据集是容易获得的并且比基于估计的光流的那些轨迹可靠得多。尽管有此优势,我们在FVD中的表现也优于此基线,并生成类似清晰的图像帧,如可比较的LPIPS分数所示。接下来,我们使用测试序列的地面实况关键点之间的位移来构建针对人体的每个单独部分的目标用户通过使用这些操作作为测试时间输入并估计所得生成视频的关键点[66],我们通过仅测量与戳出的身体部位对应的那些估计关键点和地面实况关键点之间的均方误差(MSE)来评估目标控制精度。图8示出了所得到的误差分布和平均值(黑点),表明我们显著优于Hao等人。[27]并实现与其基于关键点版本相似的性能因此,我们的模型允许正确地移动到预期的目标位置的身体部位的准确控制。随机视频合成。为了评估所生成的视频的视觉质量和多样性,我们将随机视频合成(SVS)的最新技术方法进行比较[40,53,24],它们中的每一个都基于变分自动编码器(VAE)。我们采用SVS评估协议并生成空间大小为64×64的视频。 选项卡. 二个0.00160.00120.0138均方KP误差方法FVD↓PP[6]LPIPS↓SSIM↑FVD↓iPER[42]LPIPS↓SSIM↑FVD↓太极LPIPS[64个]↓SSIM↑嗡嗡声FVD↓an3.6mLPIPS↓[30个]SSIM ↑郝[27]361.510.160.72235.080.110.88341.790.120.78259.920.100.93Hao [27] w/KP---141.070.040.93------II2V [6]174.180.100.78220.340.070.89167.940.120.78129.620.080.91iPOKE(我们的)63.060.060.6977.500.060.87100.690.080.74119.770.060.9314715表2.与随机视频预测的最新技术水平的比较由于我们的模型不面临可变性和合成质量之间的权衡t:由于由两个涉及的鉴别器网络引起的训练不稳定性,SAVP面临模式崩溃。因此,他们的模型在采样时产生完全相等的输出因此,我们无法报告该基线的多样性评分‡:报告数量乘以1e4。总结了视频质量(以FVD分数衡量)和样本多样性(使用LPIPS和像素空间MSE衡量)的比较。如果没有另外说明,则所有SVS方法都以直接在预测序列之前的两个图像帧为条件培训和评估方案的详细信息可参见附录F和G。我们的方法优于所有竞争的方法大马-PP数据集平均LPIStd-50 sPS1 2 3 4 5穿刺次数iPER数据集平均MSEStd-50 s1 2 3 4 5穿刺次数在视频质量和多样性方面都有优势。此外,Tab。2揭示了实现与我们的FVD评分相当的竞争方法,即类似视觉质量的视频合成在生成不同样本时失败,反之亦然。我们将这些模型的有限性能归因于所讨论的合成质量和捕获基于VAE的方法的数据变化的权衡(参见图10)。秒第3.1节)。控制未来的模糊性。现在,我们评估我们的模型的能力,通过改变本地戳的数量来控制随机对象的自由度。直观地,由于未来模糊性的减少,越来越多的用户控件应该导致更准确的预测和降低的样本间方差。我们通过比较固定数量对于增加数量的用户控件,从q(r)中提取样本更具体地,我们报告了1000个输入图像和戳中的每一个的50个样本(Std-50 s)的平均预测误差和标准偏差在iPER数据集上完成此操作通过测量估计[66]和地面实况关键点之间的MSE。 对于PP数据集,由于关键点不可用,因此我们采用LPIPS度量。 所得曲线描绘于图1中。9 .第九条。 正如预期的那样,预测误差和样本间方差的下降表明,我们的模型利用了由增加的戳数提供的额外的未来信息。因此,我们的模型不仅生成不同的预测,而且还提供了通过选择适当数量的输入戳来控制其不确定性的方法。消融研究。 由于SVS的竞争VAE接地基线都以观察到的过去帧而不是专用的本地用户控制形式的观察到的运动为条件,因此我们进一步将我们的模型方法与本地控制视频合成的cVAE基线(我们的cVAE)进行比较。因此,我们使用我们的视频自动编码框架的确切架构(参见图1)。秒3.2),除了我们的潜在cINN模型。为了实现采样,我们将潜在视频表示z实现为高斯分布,并将其正则化为标准的正态先验。从控件c和源图像x0获得的编码与z和图9. 控制未来的模糊性:在PP(左)和iPER(右)数据集上,我们的模型降低了平均预测误差(蓝色)和50个残差样本的标准偏差,对于增加数量的控制输入,给定相同的(x0,c)。因此,我们的方法使用户能够通过选择控制输入的数量来控制未来的模糊度。方法FVD↓PPDIV MSE↑LPIPS↑FVD↓Human3.6mDIV MSE↑[30个]LPIPS司↑我们的cVAE70.93.377.59269.683.17210.39iPOKE(我们的)56.59133.37275.04111.55124.25309.06表3. 消融术与我们的基于cINN的受控视频合成模型的cVAE对应物的比较,表明其由于可变性而具有优异的性能。cVAE中的质量权衡。构成了潜伏的格鲁乌的隐藏状态基线的详细架构和培训描述见附录F。因此,该基线是我们模型的精确变分对应物。我们使用PP和Human3.6m数据集对所有考虑的对象类别进行消融实验。选项卡. 3,其总结了结果,再次表明我们的可逆模型相比变分方法的改进性能5. 结论我们提出了一种新的模型,用于控制和合成任意对象类别的对象运动学,通过使用简单的鼠标拖动局部操纵对象关节。我们的模型是基于一个可逆的映射之间生成的视频序列和一个专用的运动学representation只从训练视频学习。考虑到在给定局部移位确定仅对象部分的运动的全局对象接合中的模糊性,学习是基于概率公式的,从而允许我们对不同的运动学实现进行采样和合成。确认这项研究部分由德国联邦储备委员会资助-- 德国经济事务和能源部在自动驾驶项目KI-Absicherung Safe AI中以及德国研究基金会(DFG)在项目421703927中提供了支持。4.9e-026.7e-025.8e-021.2e-021.1e-031.0e-021.1e-031.3e-021.2e-035.3e-047.5e-049.7e-04方法FVD ↓PPMSE部‡ ↑LPIPS‡↑FVD ↓IPERMSE部‡[第四十二届]↑LPIPS‡↑FVD ↓太极拳[64]DIV MSE ‡↑LPIPS‡↑FVD ↓人类3.6MSE部‡M↑[30个]LPIPS‡↑SAVP [40]†92.2-92.8-236.8-131.7-14716引用[1] Kfir Aberman , Yijia Weng , Dani Lischinski , DanielCohen- Or,and Baoquan Chen.从视频到动画的不配对运动样式转换。ACM Transactions on Graphics(TOG),39(4):64,2020。一、二[2] Alexander A.放大图片作者:Joshua V.狄龙和凯文·墨菲深层次的变信息瓶颈。CoRR,2016年。四十六十七[3] LyntonArdizzone,Jakob Kruse,Carsten Rother和UllrichK ¨the。用非线性神经网络分析非线性问题在国际会议学习中。代表。,2019年。二个[4] Wenbo Bao , Wei-Sheng Lai , Chao Ma , XiaoyunZhang,Zhiyong Gao,and Ming-Hsuan Yang.深度感知视频帧插值。在IEEE Conf. Comput.目视模式识别,第3703-3712页,2019年。二个[5] AndreasBlattmann,TimoMilbich,MichaelDorkenwald,and Bjorn Ommer.行为驱动的人类动力学合成在IEEE/CVF计算机视觉和模式识别会议(CVPR)集,第12236二零二一年六月。二个[6] AndreasBlattmann,TimoMilbich,MichaelDorkenwald,and Bjorn Ommer.了解交互式图像到视频合成的对象动态在IEEE/CVF计算机视觉和模式识别会议(CVPR)的会议记录中,第5171-5181页,2021年6月。二五七十九[7] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在国际会议学习中。代表。,2019年。十七个[8] J. Carreira和A.齐瑟曼。你好,动作识别?新模型和动力学数据集。2017年20[9] Jo aoCarreira和Andr e wZisserman 。Quovadis,动作识别?新模型和动力学数据集。在IEEE Conf. Comput.目视模式识别,第4724-4733页,2017。20[10] L. Castrejon,N. Ballas,和A.考维尔用于视频预测的改进的条件vrnn2019年IEEE/CVF国际计算机视觉会议(ICCV),2019年。二三七八十五十九[11] 作 者 : Chen Xi , P. Kingma , Tim Salimans , YanDuan , Prafulla Dhariwal , John Schulman , IlyaSutskever,and Pieter Abbeel.变分有损自动编码器。在国际会议中学习.代表。,2017年。三、二十[12] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。 门控递归神经网络对序列建模的实证评估,2014年。cite arxiv:1412.3555评论:NIPS 2014Deep Learning and Representation Learning Workshop 。4、17[13] 艾丹·克拉克杰夫·多纳休凯伦·西蒙尼安复杂数据集上的对抗视频生成,2019年。4、17[14] Djork-Arne 'Clevert , Thomas Unterthiner , and SeppHochre- iter.通过指数线性单元(elus)进行快速准确的深度网络学习。在第四届国际学习表征会议上,ICLR2016年,波多黎各圣胡安,2016年5月2日至4日,会议记录,2016年。十八个[15] 放大图片作者:JustinG. Chen和Fre'doDurand。视频中对象的合理操作的图像空间模态基ACM事务处理图表,2015年。一、二[16] 艾米丽·丹顿和罗伯·费格斯随机视频生成与学习的先验。在Jennifer G. Dy和Andreas Krause,编辑,国际机器学习会议,第1182-1191页二、三[17] Laurent Dinh , David Krueger , and Yoshua Bengio.NICE:非线性独立分量估计。在Yoshua Bengio和YannLeCun,编辑,Int. Conf. 学习. 代表。,2015年。四五十八[18] Laurent Dinh,Jascha Sohl-Dickstein,and Samy Bengio.使用实NVP的密度估计。在国际会议学习中。代表。,2017年。四五十八[19] MichaelDorkenwald,TimoMilbich,AndreasBlattmann,Robin Rombach,Konstantinos G. Derpanis和Bjorn Om- mer。使用cinns的随机图像到视频合成。在IEEE/CVF计算机视觉和模式识别会议(CVPR)中,第3742二、四[20] Alexey Dosovitskiy和Thomas Brox基于深度网络生成具有感知相似性度量的图像。在Daniel D. Lee,MasashiSugiyama , Ulrike von Luxburg , Isabelle Guyon , andRoman Garnett,editors,Adv. Neural Inform.过程系统,第658-666页,2016年。十七个[21] PatrickEsser,JohannesHaux,TimoMilbich,andBjoürnOm-mer.学习如何逼真地表现人类行为。在ECCV研讨会,第409-425页,2018年。一个[22] PatrickEsse r,RobinRombach,andB joürnOmme r. 用于解释潜在表征的分解可逆解释网络在IEEE Conf. Comput.目视模式
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功