没有合适的资源?快使用搜索试试~ 我知道了~
10491点对点视频生成陈焕宗,王俊轩,郑燕琪,林杰,陈焕宗,国立清华大学{johnsonwang0810,charlescheng0117,hubert052702}@gmail.comhtchen@cs.nthu.edu.tw,sunmin@ee.nthu.edu.tw图1:点对点(P2P)视频生成。给定视频和3D骨架域中的一对(橙色)开始帧和(红色)结束帧,我们的方法生成具有各种长度的平滑过渡帧的视频P2P生成的卓越可控性自然促进了现代视频编辑过程。摘要虽然图像合成实现了巨大的突破(例如,生成逼真的面部),但是视频生成较少被探索并且难以控制,这限制了其在现实世界中的应用。例如,视频编辑需要跨多个剪辑的时间相干性,并且因此在视频序列内提出开始和结束约束。我们引入了点对点视频生成,它通过两个控制点控制生成过程:目标开始帧和结束帧。该任务具有挑战性,因为该模型不仅生成帧的平滑过渡,而且还提前计划,以确保生成的结束帧符合各种长度视频的目标结束帧。我们提出了在跳帧训练策略下最大化条件数据似然的修正变分下界。我们的模型可以生成端帧一致的序列,而不会损失质量和多样性。我们通过对随机移动MNIST、Weizmann动作、Hu- man3.6M和BAIR机器人在一系列场景下的推进进行了大量的实验来评估我们的方法定性结果显示了点对点生成的有效性和优点。*表示等额缴款1. 介绍深度生成模型的显著进步在图像合成、文本生成和视频预测等广泛领域带来了令人印象深刻的结果。尽管取得了巨大的成功,但无约束生成距离实际应用仍然只有几步之遥,因为它缺乏直观和方便的机制来将人类操纵纳入生成过程。鉴于这种无能,有条件的和可控的生成模式受到了越来越多的关注。大多数现有的工作通过在属性,文本,用户输入或场景图上调节生成来实现可控性[17,39,43,45]。然而,尽管在静止图像生成方面取得了相当大的进展,但可控视频生成仍有待于很好地探索。通常情况下,人类通过将整个故事分解为单独的场景,为每个场景单独拍摄,最后合并每个片段以形成最终编辑来创建视频这不仅需要跨帧而且还需要跨不同视频剪辑的平滑转换,从而对视频序列内的开始帧和结束帧两者施加约束,以便与前一上下文和后一上下文对齐。我们引入点对点视频生成器-不同长度的P2P生成下一个剪辑的目标起始帧3D骨架视频10492利用两个控制点-目标开始帧和目标结束帧-来控制生成过程的操作在两个控制点上强制执行一致性允许我们正则化生成的中间帧的上下文此外,与标准视频生成设置[32](其需要初始帧的连续序列)相比,p2p生成仅需要一对单独的帧。这样的设置在真实世界的场景中更容易访问,从互联网上抓取的具有相似内容的图像生成视频。最后,对于涉及难以描述的属性的更复杂的视频生成任务,p2p生成优于基于属性的方法。基于属性的方法严重依赖于数据集中提供的可用属性,而p2p生成可以避免收集和注释细致属性的负担。点对点生成有两个主要挑战:i)控制点一致性(CPC)应在不牺牲发电质量和多样性的情况下实现。ii)各种长度的代均应满足控制点一致性。根据视频生成和未来帧预测的最新进展,我们引入了一个全局描述符,它携带有关目标结束帧的信息,以及一个时间计数器,它为动态长度生成提供时间提示,以形成一个条件变分编码器(CVAE [31])。此外,为了在生成质量、多样性和CPC之间取得平衡,我们提出了最大化条件数据似然的修正变分下界此外,我们注入对齐损失,以确保编码器和解码器中的潜在空间彼此对齐。我们进一步提出了跳帧训练策略,以加强我们的模型更具时间反意识。我们的模型相应地调整其生成过程,从而实现更好的CPC。对随机移动MNIST(或SM-MNIST)[32,3]、Weizmann人体动作[8]、Hu- man3.6M ( 3D 骨 架 数 据 ) [13] 和 BAIR RobutPushing[5]评估所提出的方法的有效性。一系列的定性结果进一步突出了p2p生成的优点和我们的模型的能力。2. 相关工作我们的问题与视频生成[29,33,35]和视频生成的可控性[9,10,12,20,24,41]最相关。它还与视频插值有关。我们将在本节中简要回顾这些主题。视频生成。许多方法在训练过程中使用GAN [1,33,35]或对抗性损失来生成视频[1,21,23,25,30,35,36]。Vondrick等人[35]使用具有两条路径的生成器来预测前景和背景,并使用过滤器来区分视频的真假。另一方面,它可以通过学习如何转换观察帧来合成未来帧来解决[6、15、22、36、40]。此外,基于将视频分解为可以一起共享的静态部分(即,内容)和变化部分(即,运动)也被提出来描述视频动态[4,11,33,34,38]。Denton等人[4]将运动和内容编码到不同的子空间中,并在运动编码器上使用对抗性损失来实现解纠缠。几种方法依赖于VAE [18]来捕获视频中的不确定性[2,3,7,10,19,21,37,42]。Babaeizadeh等人[2]用变分推理框架扩展[6],使得他们的模型可以在真实世界数据上预测多个框架的合理未来Jayaraman等人[14]首先预测最确定的帧,并分解原始问题,使得预测器可以连贯地完成语义子目标。虽然上述方法在视频预测上实现了良好的结果,但是生成过程通常是不可控的,因此导致不受约束的输出。为了保持生成多样化输出的能力,同时实现控制点的一致性,我们设法建立在VAE的点对点视频生成。视频插值(VI). p2p生成的问题设置与VI [16,26,27,28,46]有联系,但有本质区别。 VI旨在提高视频的帧速率。因此,假设插入帧的数量和内插的时间间隔都很小,而p2p生成涉及中间帧的长期得多的合成,这构成了不同的挑战。此外,VI方法通常是确定性的(即,仅产生一个内插结果)。相反,我们的工作类似于视频生成,其中合成的帧需要在上下文中具有时间上的连贯性和多样性最后,自动循环(即,在给定相同的开始帧和结束帧的情况下生成循环视频)可以通过P2P生成而不是通过VI来实现(参见第2.1节)。4.8详细分析)。视频生成的可控性。 提出了几种方法来指导视频生成过程。Hu等人[12]使用图像和运动笔划来合成视频。Hao等人[9]开始帧上的条件和由用户提供的轨迹,以操纵下一帧的运动和He等人[10]提出一种基于属性的方法用于通过利用属性(例如,identity,action)在数据集中。文本或语言特征也可用作控制指令[20,24,41]。虽然现有的方法都提供了控制发电的自由度,但它们都有一些局限性。对语言的制约会受到其模糊性的影响,这不允许精确控制[24]。属性控制取决于数据标签,在无监督设置中不可用。用户提供的输入是直观的,但需要在培训期间进行注释相反,我们的方法i)只对目标施加条件10493ψψtii)可以包含控制点的详细描述(例如,人的精确外观和动作,或骨架的关节)以提供精确的控制,以及iii)可以以完全无人监督的方式训练。与以前的方法相比,在开始帧和目标帧的可控性方面的优势激励了我们的点对点生成。3. 方法给定一对控制点(目标开始帧和结束帧{x1,xT})和生成长度T,我们的目标是生成具有指定长度的序列x1:T,使得它们的开始帧和结束帧{x1,xT}与控制点一致为了保持P2P Gen的质量和多样性因此,我们提出了一个有条件的视频生成模型(Sec.3.2)最大化修改的变分下限(Sec. 3.3)。为了进一步提高不同长度下的CPC,我们提出了一种新的跳帧训练策略(Sec. 3.4)和潜在的对准损失(Sec. 3.5)。3.1. VAE和视频生成变分自动编码器(VAE)利用简单的先验pθ(z)(例如,高斯)和复似然pθ(x|z)(例如,一个神经网络)上的潜在变量z,以最大化数据li k el i hoodpθ(x),其中x=[x1,x2,. . . ,XT]。 变分神经网络qφ(z|x)被引入到约-模拟难处理的潜在后pθ(z|x),允许接头在θr和φ上的优化,qφ(z1:t|x1:t),其条件是直到当前帧的数据。后一项确保先验p∈(zt|x1:t-1)的条件下,直到前一帧的数据不偏离从后面。同时,它也是后验学习的一种本文继承并改进了文献[3]中的网络结构,使Lθ,φ,φ(x1:T)适合于p2p的生成。3.2. 全局描述符和时间计数器对于在不同长度下实现p2p生成的深度网络,i)模型应该知道控制点的信息,以及ii)模型应该能够感知时间流逝并在指定的时间步长生成目标结束帧。虽然目标开始帧已经作为初始帧被馈送,但我们采用一种简单的策略,通过将从目标结束帧hT编码的特征馈送到我们的模型,在每个时间步将控制点并入模型中。此外,为了强制我们的模型知道在给定生成长度T的情况下何时生成目标结束帧,我们引入了时间计数器τt∈[0,1],其中τt= 0。0表示开始的序列和τt= 1。0表示达到目标端帧。如图在图2(a)中,qφ和pθ由共享权重编码器和两个不同的LSTM建模,pθ由第三个LSTM建模,以及解码器将潜在向量映射到图像空间。在时间步t处的训练期间的推理过程被示出为hT=Enc(xT),τt=t/T,log pθ(x)= log pθ(x|z)p(z)dzz(一)µt,σt= LSTMφ(ht,hT,τt),ht=Enc(xt),≥Eq(z|x)logpθ(x|z)−DK L(qφ(z|x)||p(z))。φ φzt<$N(µt,σt),(三)φ φ不等式背后的直觉是用从后验qφ(z)采样的潜在变量z来重建数据x|x),同时最小化先验p(z)和后验qφ(z)之间的KL-发散|X)。视频生成一般采用VAE框架,伴随着循环模型(例如,LSTM),其中VAE处理生成过程,而递归模型捕获顺序生成中的动态依赖关系。 然而,在VAE中,先验p(z)例如固定的高斯N(0,I)被限制为在每个时间步随机地绘制样本,而不管时间跨框架的依赖关系。因此,现有的作品诉诸于参数化的先验知识与一个可学习的功能pψ(zt|x1:t−1),条件是前一帧x1:t−1。的整个序列的变分下界是gt=LS TMθ(ht−1,zt,τt),ht−1=Enc(xt−1),xt=Dec(gt).在测试期间,由于我们无法访问当前xt,因此潜变量zt是从先验分布p,μt,σt=LSTM(ht−1,hT,τt)中采样的,z<$N(µt,σt)。(四)回想一下,(2)中的KL散度强制qφ和pφ之间的对齐,允许pφ在测试时充当qφ的代理此外,通过引入全局描述子hT和时间计数器τt,将(2)推广到条件数据似然Lθ,φ,τ(x1:T)的变分下界|c),其中c是对目标结束帧和时间的调节柜台此外,我们还提出了一种潜在的空间对齐-Lθ,φ,φ(x1:T)=ΣTt=1ΣEq φ(z1:t|x1:t)logpθ(xt|x1:t−1,z1:t)Σ如(6)中所示,Ht和Gt内的分段损失以减轻编码和解码过程之间的失配3.3. 控制点一致性−DK L(qφ(z1:t|x1:t)||pψ(zt|x1:t−1))。(二)虽然引入时间计数器和控制点的全局描述符为模型提供了capaφ10494与标准VAE相比,前一项描述了从后向实现CPC的能力,我们无法进一步加强生成的端帧,以符合目标10495132������−���图2:p2p生成的新组件概述。(a)我们的模型是一个VAE,由后验qφ、先验pφ和生成器pθ组成(所有这些都具有用于时间相干性的LSTM我们使用KL散度来鼓励p相似qφ。为了控制生成,我们将目标结束帧xT编码到全局描述符中。 qφ和pφ的计算不仅要考虑输入帧(xt或xt−1),还要考虑“全局描述符”和“时间计数器”。我们进一步使用“对齐损失”来对齐编码器和解码器的(b)我们的跳帧训练具有跳过每个时间戳中的输入帧的概率,其中输入将被完全忽略并且隐藏状态将根本不被传播(参见虚线)。(c)控制点的一致性是通过在pφ上设置CPC损失来实现的,而不会损害qφ的重建目标(以粗体突出显示)。端帧。而条件恰好是重建目标的一部分,在(2)的重建项中,在时间步T处天真地增加权重αcpc,即,更注意计时器基本上,我们在计算重建损失和KL发散((5)中的前两项)时随机丢弃帧LSTMT−1Elogp(x)+αElogp(x),结果是,因此被迫考虑时间计数器,t=1qφ θ t中共q φθT稳定的训练行为和代质量和多样性的退化为了解决这个问题,我们建议从后验概率的重构损失中分离出CPC,并将其置于前验概率中。给出了先验概率可学习的条件数据似然估计的修正下界,以处理递归中的随机跳过等后验极大似然估计的自适应qφ进一步将CPC纳入后验学习3.5.最终目标总而言之,我们的最终目标是最大化P2pθ,φ,ψΣT(x1:T|c)=Σ在跳帧训练策略下,t=1 Eq φ(z1:t|x1:t,c)logpθ(xt|x1:t−1,z1:t,c)(五)充分θ,φ,ψ(x1:T|c)=-DKL(qφ)(z1:t|x1:t(c)||p(zt|X1:t−1(c))ΣTΣMtEqφ(z1:t|x1:t,c)logpθ(xt|x1:t−1,z1:t,c)+Ep(z T|x1:T−1,c)log pθ(xT |x1:T −1,z1:T,c).而前两项与约束相同,t=1-βDKL(qφ(z1:t|x 1:tΣ(c)||p(zt|X1:t−1(c))(六)CVVAE(CVAE),上述公式的第三项u-−αalign||ht− gt||2的行为进行更灵活的调整,额外引入的条件不会降低+αcpcEp(zT|x 1: t−1,c)logpθ(xT|x1:T−1,z1:T,c),第一项的最大似然估计。3.4.跳帧训练一个运行良好的P2P生成模型应该是意识到时间计数器,以实现CPC下的各种长度。然而,大多数视频数据集具有固定的帧速率。因此,该模型可以利用跨帧的固定频率并且忽略时间计数器。我们引入跳帧训练来进一步增强模型DE时间计数器解码器编码器后阿比·普赖尔发生器Dℒ���������ℒ���������ℒ���������������������ℒ���������刘(刘公司简介���全局描述E(刘==������−���E目标端帧E(c)控制点一致性(b)跳帧训练(a)条件视频生成模型1323=31=1������−1LLψ10496其中Mt<$Bernoulli(1−pskip),MT=1。 β、αcpc和αalign是KL项、CPC和潜在空间对齐之间平衡的超参数。常数pskip∈[0,1]确定跳帧训练的速率。4. 实验为了评估我们的方法的有效性,我们对四个数据集进行了定性和定量分析:SM-10497方法SSIM(±表示95%S-Best† S-Div(1E-3)†置信区间)S-CPC<$R-Best<$PSNR(±表示95%置信区间)S-Best<$S-Div<$S-CPC<$R-Best<$SVG [3]+ C+ C + A我们0的情况。780± 0。0060的情况。768± 0。0020的情况。755± 0。0030的情况。755± 0。004二、349± 0。076二、482± 0。048二、377± 0。085二、525± 0。0520的情况。621± 0。0040的情况。729± 0。0030的情况。735± 0。0050的情况。769± 0。0050的情况。850±0。0050的情况。840±0。0040的情况。816±0。0050的情况。832±0。005十五岁774±0. 161十五岁373±0。049十五岁117±0。103十五岁265±0。0790的情况。816±0。0190的情况。914±0。0140的情况。804±0。0140的情况。815±0。00912个。105±0。047十四岁024±0。054十四岁141±0。069十五岁185±0。096十八岁001±0。201十七岁751±0。094十六岁884±0. 147十七岁581±0。172表1.对SM-MNIST的评价(+C:仅在p<0.01时CPC丢失+C+A:CPC损失和对齐损失。Ours:我们的完整模型)。方法SSIM(±表示95%S-Best† S-Div(1E-3)†置信区间)S-CPC<$R-Best<$PSNR(±表示95%置信区间)S-Best<$S-Div<$S-CPC<$R-Best<$SVG [3]+ C+ C + A我们0的情况。819± 0。0080的情况。814± 0. 0050的情况。823± 0。0050的情况。824± 0。0041 .一、992±0。351二、574± 0.4021 .一、225±0。1781 .一、106±0。0780的情况。734± 0。0080的情况。730± 0。0040的情况。767± 0。0090的情况。783± 0。0030的情况。819±0。0090的情况。808±0。0060的情况。822±0。0050的情况。842±0。006二十五234±0。355二十四岁898±0。110二十五092±0。186二十四岁993±0。1031 .一、904± 0。357二、186±0。3461 .一、266± 0。1701 .一、039± 0. 057二十二岁236±0。242二十二岁028±0. 084二十二岁855±0。19723岁334±0。105二十五039±0. 400二十四岁624±0。211二十四岁848±0。145二十五660±0。154表2.对Weizmann(+C)的评价:仅在p<0.05时CPC丢失+C+A:CPC损失和对齐损失。Ours:我们的完整模型)。表3.对Human3.6M的评价(具有MSE)。0.800.780.760.74CPCon p(Ours)CPC on q2.82.62.42.21e 30.72100101102103CPC权重2.01.8100101102103CPC权重表4.BAIR机器人推进的评估(使用SSIM)。1412108642图4:我们显示了不同CPC权重的生成质量和多样性结果表明,基于先验的CPC比基于后验的CPC更稳定;后者对大CPC权重敏感,并且倾向于损害质量。1.61.41.21.00.80.6010.0 12.5 15.0 17.5 20.0 22.5 25.0 27.5 30.0生成序列长度0.40.2图3:不同代长的控制点一致性(CPC)显示我们的最终模型(红色)是0.00.0 0.2 0.4 0.6 0.8 1.0归一化时间步长更加稳定,可以稳定地接近目标端架。(最好用彩色来查看数字。)MNIST [3],Weizmann Action [8],Human3.6M [13]和BAIR Robut Pushing [5]来衡量CPC,质量和多样性。下面的部分组织如下:我们首先描述第二节中的数据集4.1节中的评估指标4.2;定量结果见4.3- 4.6;定性结果见第4.7;最后在4.8中讨论了与VI的比较。SVGSVG + CPCSVG + CPC +对齐我们SVGSVG + CPCSVG + CPC+对齐我们质量[SSIM]CPC [MSE]多样性[SSIM]多样性[MSE]方法S-Best↓S-Div†S-CPCR-Best↓SVG [3]± 0。31六、49± 0。050的情况。68± 0。9010个。83± 0。6512个。08± 0。82六、660的情况。72±0。06± 0。17五、75± 0。658. 25± 0。060的情况。64± 0。538. 97+ C± 0。184.第一章96± 0。030的情况。80± 0。174.第一章74+ C + A方法S-Best†S-Div(1E-3)†S-CPC†R-Best†SVG [3]0的情况。845±。0060的情况。716±。1660的情况。775±。0080的情况。926±。00310498图5:通过归一化时间步长的世代多样性显示,我们的(红色)呈现出期望的行为多样性增加,直到世代中期,然后在目标结束帧收敛(减少)4.1. 数据集我们在四个常见的测试平台上评估我们的方法:随机移动MNIST由[3]([32]的修改版本)引入。训练序列是gener-10499图6:在BAIR推送时生成各种长度。通过从MNIST的训练集中采样一个或两个数字来计算,然后通过对帧内的起始位置和初始速度向量(x,y)∈[−4,4]×[−4,4]进行采样来形成轨迹。速度矢量将每次数字到达边界时重新采样。Weiz-mann Action包含90个视频,其中9个人执行10个动作。我们对每个帧进行中间裁剪,并按照[10]中的设置来形成训练集和测试集。 人类3.6M是一个大型数据集,包含由11名专业演员拍摄的360万个3D人体姿势,提供了800多个全序列。我们使用17个关节的归一化3D骨架进行实验。在[42]之后,我们使用受试者1、5、6、7和8进行训练,受试者9和11进行测试。BAIR Robut Pushing [5]的特点是机械臂随机移动以推动不同的物体。由于其随机性大、背景复杂等特点,被广泛应用于视频预测/生成的评价。4.2. 评估指标我们测量了SM-MNIST、Weizmann和BAIR的结构相似性(SSIM)和峰值信噪比(PSNR)[2,3,6]。对 于 Human3.6M , 我 们 计 算 均 方 误 差 ( MSE ) 为[42]。为了评估pφ和qφ的学习,我们通过引入采样和重建度量(称为“S-”和“R-“)来采用[42]的概念,其中分别对于每个测试序列,我们生成100个样本,并在95%置信区间内计算以下指标• 控制点一致性(S-CPC):我们计算生成的结束帧和目标结束帧之间的平均SSIM/PSNR/MSE,因为CPC应该是所有样品均达到。以地面实况序列作为参考。对于MSE,我们计算生成序列和地面实况序列之间的差异方差,因为MSE仅测量关节之间的距离,而忽略它们的相对位置,这将导致对多样性的有偏估计。4.3. 定量结果我 们 在 表 1 、 2 、 3 中 显 示 了 对 SM-MNIST 、Weizmann、Hu-man 3.6M和BAIR的发电质量、多样性和CPC的定量分析,以及在表4中与更多基线的比较。从R-Best我们知道,后验子在所有设置中都学习得很好。在表1、2、3中,在S-CPC中,具有CPC+对齐损失(+C+A)的模型优于仅具有CPC损失(+C)的模型。这表明对准损失的有效性。从SEC召回3.2存在两个分离编码器和解码器的LSTM此外,具有跳帧训练的模型(我们的)在S-CPC中进一步改进了+C+A,其中增益主要来自于更好地使用时间计数器。最后,Weizmann 中 的 S-CPC 增 益 小 于 SM-MNIST 和Human3.6M,因为与后两者不同,其数据是在具有可见噪声的杂乱背景中捕获另一方面,当与更多的基线[2,3]相比时,我们的方法成功地对机器人的运动进行了建模在生成质量方面,所有四个表都显示了S-Best的可比结果,这意味着我们的方法能够在实现CPC的同时保持质量。此外,表3中的S-Best证明了一个有趣的发现,即我们不仅在S-CPC中实现了极其优异的性能,而且在S-Best中也实现了极其优异的性能。主要原因是,Hu-man 3. 6 M包含具有高度多样化动作的3D骨架,从而产生相当灵活的生成。长期生成可能很容易偏离其他生成,导致高S-Best误差,但我们的方法逐渐 收 敛 到 目 标 端 帧 , 限 制 S-Best 误 差 ( 参 见 第 二节)。4.5)。关于生成分集,我们的方法在表1和表2中获得了相当或更好的性能。3.这表明我们的方法在达到相同目标端帧的同时生成不同的样本。然而,我们的方法在S-Div上遭受了更大的性能下降,• 质 量 ( S-Best ) : 我 们 计 算 所 有 样 本 中 的 最 佳SSIM/PSNR/MSE为[2,3,42]。这是一种更好的方法来评估随机方法的质量,因为最佳样本• 多样性(S-Div):采用[44]中的概念,我们计算所有样本表2.这是预期的,因为魏茨曼数据经常包含具有不变动作的视频序列,例如,以固定速度行走并因此在结束帧处施加约束显著地降低了可能的发电机功率,并因此导致低分集。总的来说,我们的方法在CPC上有显著的改进,同时达到与基线相当的生成质量和多样性13011 12 13 1416 17 18 192011 12 13 1426 27 28 2930SVG11 12 13 1426 27 28 2930我们的各种长度参考文献1050012345678927282930123456789171819201234567892223242512345678927282930123456789171819201234567892223242512345678927282930图7:给定一对(橙色)开始帧和(红色)结束帧,我们显示了在Weizmann和Human3.6M上生成不同长度的结果我们的模型可以实现高中间多样性和有针对性的端帧一致性,同时意识到不同长度的生成。图8:我们将(橙色)开始帧和(红色)结束帧设置为相同的帧,以实现循环生成。我们的模型可以生成形成无限循环的视频,同时保持多样性。在补充材料中查看更多结果。4.4. 多品种CPC的生成我们在图中显示了在Human3.6M数据集上生成不同长度的所有模型的CPC性能3.第三章。这些模型在不同长度下实现了CPC,即使它们只看到了长度约为30的序列,这表明我们的模型可以很好地推广到各种长度。值得注意的是,通过跳帧训练(红线),与其他变体相比,我们的模型实现了CPC,因为它能够利用时间计数器提供的信息。然而,与更长的长度相比,我们的方法在长度为10时表现得更差,因为模型规划其轨迹的时间预算更少,并且训练数据不包含任何长度小于20的序列。4.5. 时间的多样性我们评估我们的方法的多样性,通过在图中描述其行为随时间的变化。5.下降趋势可以在绿线的末端附近观察到,这意味着它试图到达目标结束帧,计时器接近终点。然而,使用跳帧训练(红线),多样性在中间段周围变得更高,并在开始帧和结束帧附近收敛我们的完整模型知道它的精确状态,例如它离结束帧有多远或还有多少时间预算,因此可以提前计划实现CPC。由于我们的模型很好地感知了它的时间预算,它可以探索所有可能的轨迹,同时仍然能够按时返回到目标端帧。1050178921 2223 2425 123452829141516171819 12161718 12345图9:给定多对(橙色)开始帧和(红色)结束帧,我们可以将多个生成的剪辑合并为一个较长的视频,这类似于现代视频编辑过程。每个帧下面的数字表示时间戳。循环生成。 图8 - 11表明,我们的方法可以用来生成无限循环的视频,通过强制目标的开始和结束帧是相同的。4.8. 与视频插值的比较1、p2p与 vl的本质区别图10:在BAIR上生成更长时间间隔的视频。图11:BAIR Pushing上的自动循环生成4.6. 先前与后我们通过比较SSIM中的质量和多样性来评估不同CPC权重对先验pφ与后验qφ的影响(图11)。4).在不同的权重下,pφ和qφ的多样性行为是可比的。然而,与将CPC置于qφ上相比,pφ上的CPC(蓝线)不会导致所有CPC权重的退化。这表明,我们的方法是更强大的不同的CPC权重。4.7. 定性结果不同长度的世代。在图6中,我们通过在BAIR数据集上与[3]进行比较,粗略地展示了p2p生成的工作原理。图7示出了跨其他数据集的各种示例。我们的模型在产生不同结果的同时保持所有长度的高CPC。多个控制点生成。在图9中,我们显示了具有多个控制点的生成视频。第一行突出显示跨不同属性或操作的转换(即,Weizmann数据集中的“run”到“skip”)。第二行和第三行示出了具有相同的多个控制点集合的两个生成的视频(即,坐,靠,靠。请注意,这是两个独特的视频,在过渡时间戳中具有不同的帧。通过将每个控制点作为生成中的断点,我们可以直接从框架范例实现细粒度的可控性。生成,我们进行了一项任务,插入28帧之间的开始和结束帧之间的时间距离的目标开始和结束帧是大的(图。第10段)。请注意,Super SloMo [16]会产生失真或两个机械臂等伪影(由第15帧和第17帧中的红色箭头表示)。VI方法通常是决定性的方法,而P2P生成能够合成不同大小的帧(见图11)。(七).最后,自动循环可以通过p2p生成而不是通过VI来完成。给定相同的开始帧和结束帧,我们确认Su- per SloMo [16]将插入所有相同的帧,就像视频冻结一样(图17)。第11段)。5. 结论建议的点对点(P2P)生成控制生成过程中有两个控制点的目标开始和结束帧,以提供更好的可扩展性,在视频生成。为了在保证生成质量和多样性的同时实现控制点一致性(CPC),我们提出了最大化条件视频生成模型的修正变分下界,然后采用一种新的跳帧训练策略和潜在空间对齐损失来进一步增强CPC。我们通过大量的定量分析表明我们的模型的有效性。定性结果进一步突出了P2P生成的融合。然而,我们目前的模型不能处理高分辨率视频。对于现有的视频生成/预测方法来说,对高分辨率视频中的小目标或噪声背景等细节进行建模仍然是一个悬而未决的问题我们将在未来探索这一方向。总的来说,我们的工作开辟了一个新的层面,在视频生成,是有前途的进一步探索。我们 谢谢 MOST-107-2634-F-007-007,MOST-106-2221-E-007-80- MY3、MOST人工智能技术联合研究中心、All Vista医疗保健为他们的支持。端1GT215161729 301端相同开始/结束2 13 14 15 16 28 29 30超级SuperSloMo我们我们的SloMo10502引用[1] SandraAigner和M a rcoK?rne r. 未来:在逐渐增长的自动编码器gans中使用时空3d卷积预测视频序列的未来帧。arXiv预印本arXiv:1810.01325,2018。[2] MohammadBabaeizadeh 、 Chelsea Finn 、 DumitruErhan、Roy H Campbell和Sergey Levine。随机变分视频预测。在2018年国际学习表征会议论文[3] 艾米丽·丹顿和罗伯·费格斯具有学习先验的随机视频生成。在机器学习国际会议论文集,2018年。[4] 艾米莉湖丹顿和维格纳什·比罗德卡从视频中分离表示的无监督学习。神经信息处理系统的进展,第4414-4423页,2017年[5] 弗雷德里克·埃伯特,切尔西·芬恩,亚历克斯·李和谢尔盖·莱文。具有时间跳跃连接的自监督视觉规划。在CoRL,2017年。[6] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。神经信息处理系统进展,第64-72页,2016年[7] Katerina Fragkiadaki , Jonathan Huang , Alex Alemi ,Sud- heendra Vijayanarasimhan , Susanna Ricco , andRahul Sukthankar. 运动预测下多模态条件随机网络。arXiv预印本arXiv:1705.02082,2017。[8] Lena Gorelick、Moshe Blank、Eli Shechtman 、MichalIrani 和 Ronen Basri 。 作 为 时 空 形 状 的 动 作 。 Trans-actions on Pattern Analysis and Machine Intelligence,29(12):2247[9] 郝泽坤,黄勋,和Serge Belongie。具有稀疏轨迹的可控视频生成。 在IEEE计算机视觉和模式识别会议论文集,第7854-7863页[10] Jiawei He , Andreas Lehrmann , Joseph Marino , GregMori,and Leonid Sigal.使用整体属性控制的概率视频生成在欧洲计算机视觉会议(ECCV)的会议记录中,第452-467页[11] Jun-Ting Hsieh,Bingbin Liu,De-An Huang,Li F Fei-Fei,and Juan Carlos Niebles.学习分解和解开视频预测的表示。神经信息处理系统的进展,第515-524页,2018年。[12] Qiyang Hu , Adrian Waelchli , Tiziano Portenier ,Matthias Zwicker,and Paolo Favaro.视频合成从一个单一 的 图 像 和 运 动 中 风 。 arXiv 预 印 本 arXiv :1812.01874,2018。[13] Catalin Ionescu , Dragos Papava , Vlad Olaru , andCristian Sminchisescu. Human3.6m:大规模数据集和预测 方 法 , 用 于 自 然 环 境 中 的 3D 人 体 感 知 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,36(7):1325[14] 放 大 图 片作 者 : Dinesh Jayaraman ,Frederik Ebert,Alexei A. Efros和Sergey Levine。时间不可知预测:预测预-可口述的视频帧。在2019年学习代表国际会议论文集[15] Xu Jia,Bert De Brabandere,Tinne Tuytelaars,and LucV Gool.动态过滤网络。神经信息处理系统进展,第667-675页,2016年[16] Huaiizu Jiang , Deqing Sun , Varun Jampani , Ming-Hsuan Yang,Erik Learned-Miller,and Jan Kautz.超级斯洛莫:用于视频内插的多个中间帧的高质量估计。在IEEE计算机视觉和模式识别会议论文集,2018。[17] 贾斯汀·约翰逊,阿格里姆·古普塔,李飞飞。从场景图生成图像。在IEEE计算机视觉和模式识别会议论文集,第1219-1228页[18] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。在2014年学习表征国际会议上[19] Alex X Lee 、 Richard Zhang 、 Frederik Ebert 、 PieterAbbeel、Chelsea Finn和Sergey Levine。随机对抗视频预测。arXiv预印本arXiv:1804.01523,2018。[20] 李一彤,闵仁强,沈定汉,David E.卡尔森和劳伦斯·卡林 。 从 文 本 生 成 视 频 。 arXiv 预 印 本 arXiv :1710.00421,2017。[21] Xiaodan Liang,Lisa Lee,Wei Dai,and Eric P Xing.用于 未 来 流 嵌 入 式 视 频 预 测 的 双 运 动 gan 。 IEEEInternational Conference on Computer Vision , 第 1744-1752页,2017年[22] Ziwei Liu , Raymond A Yeh , Xiaoou Tang , YimingLiu,and Aseem Agarwala.使用深体素流的视频帧合成。在IEEE计算机视觉国际会议论文集,第4463-4471页[23] William Lotter,Gabriel Kreiman,and David Cox.使用预测生成网络的视觉结构的无监督学习在2016年学习代表国际会议的研讨会上[24] TanyaMarwah , GauravMittal , andVineethNBalasubrama- nian.使用字幕的注意语义视频生成。在IEEE计算机视觉国际会议论文集,第1426-1434页[25] Michael Ma
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功