没有合适的资源?快使用搜索试试~ 我知道了~
1随机潜在外观和运动预测AdilKaanAkan1ErkutErdem2AykutErdem1FatmaGuüney11Koc University Is Bank AI Center,Istanbul,Turkey2土耳其安卡拉Hacettepe大学计算机视觉实验室{kakan20,aerdem,fguney} @erkut@cs.hacettepe.edu.tr ku.edu.trhttps://kuis-ai.github.io/slamp摘要运动是视频预测的重要线索,并且通常通过将视频内容分离成静态和动态分量来利用。大多数以前的工作利用运动是确定性的,但也有随机方法,可以模拟未来的固有不确定性。现有的随机模型要么不原因明确的运动在本文中,我们的原因有关的外观和运动的视频随机预测未来的基础上的运动历史。无历史运动的显式推理运动历史通过允许预测未来若干帧的一致动态来进一步改进结果。我们的模型在通用视频预测数据集上的表现与最先进的模型相当,然而,在具有复杂运动和动态背景的两个具有挑战性的现实世界自动驾驶数据集上的表现明显优于它们。1. 介绍视频包含通过运动而丰富的视觉信息。运动是用于推理视频中的人类活动或对象之间的交互的有用线索。给定视频的几个初始帧,我们的目标是尽可能真实地预测未来的几个 通过看几帧,人类可以预测接下来会发生什么。令人惊讶的是,它们甚至可以将语义赋予随机点并识别运动模式[15]。这显示了运动对于推断视频的动态和预测未来帧的重要性在计算机视觉中,运动线索已被大量用于未来帧预测。一种常见的方法是将视频分解为静态和动态分量[30,20,22,6,9,21,14,28]。首先,以前的大多数方法都是确定性的,无法对未来的不确定性进行建模。其次,运动通常被解释为局部的图1:第一预测帧(第11个)SLAMP(左)与最先进的方法,KITTI [10](上)和Cityscapes [3](下)数据集上的SRVP [8](右我们的方法可以预测前景和背景对象比SRVP更好。完整的序列预测可以在补充中看到。从一帧到下一帧的变化。然而,当在某个时间间隔上观察时,运动的变化遵循某些模式。考虑对象以接近恒定的速度移动,或者人类在视频中重复原子动作的场景。运动中的规律性对于未来帧预测可以是非常有用的。在这项工作中,我们建议明确地模拟运动的变化,或运动的历史,预测未来的帧。已经提出了随机方法来对视频中的未来的固有不确定性进行建模。早期的方法将视频的动态编码为随机潜在变量,这些随机潜在变量以确定性的方式被解码为未来的帧[4]。我们首先假设外观和运动都被编码在随机潜变量中,并以确定性的方式将它们分别解码为外观和运动预测。受先前确定性方法[7,20,9]的启发,我们还估计了与两者相关的掩模。外观和运动解码器都被期望预测全帧,但是它们可能由于运动边界周围的遮挡而失败。直观地说,我们预测一个概率掩模的外观和运动解码器的结果,将它们组合成一个更准确的最终预测。我们的模型学习使用动态部分中的运动线索,并依赖于被遮挡区域中的外观。1472814729...图2:SLAMP的生成模型。图形化模型显示了具有运动历史的SLAMP的生成过程存在两个单独的潜变量,用于产生帧Xp和Xf(黑色)的出现zp和运动zf这些假设大多是确定性的,因此无法捕捉未来的不确定性。有几种尝试使用条件变分自动编码器[29]从单个图像学习多个未来轨迹,或者使用概率运动编码器[19]捕获后者的工作使用单独的解码器的流和帧类似于我们的方法,但是,预测他们只从潜在的我们将信息从以前的帧与额外的建模的运动历史。随机视频生成:SV2P [1]和SVG [4]是第一个使用潜变量对视频序列中的随机性进行建模的。来自过去帧的输入被编码在后验分布中以生成未来帧。在t t t t t t信息通过帧预测(蓝色)、相应的潜在变量(绿色)之间的递归在时间步长之间传播,并从帧预测传播到潜在变量(红色)。最终的预测xt是根据掩码m(xp,xf)的x p和x f的加权组合。在随机框架中,通过最大化观察数据的可能性并最小化后验分布到先验分布的距离来执行学习,先验分布是固定的[1]或从先前帧中学习的[4]。以来模型中的时间变化被证明是至关重要的t t t t t t注意,在时间步长处的预测循环地依赖于所有先前的时间步长,但是为了清楚起见,仅示出了连续时间步长之间的连接。所提出的具有确定性解码器的随机模型不能充分利用运动历史,即使当运动被显式解码时。在这项工作中,我们提出了一个模型来识别运动规律,并记住他们的运动历史,以提高未来的帧预测。我们因式分解随机潜变量作为静态和动态组件,以模拟除了外观历史的运动历史我们学习两个独立的distribu- tions表示外观和运动,然后从各自的静态和动态部分解码。我们的模型优于所有先前的工作,并且与最先进的方法SRVP [8]相比,在没有对通用视频预测数据集MNIST、KTH和BAIR上的静态分量的变化进行任何限制性假设的情况下进行了比较然而,我们的模型在两个具有动态背景和复杂物体运动的具有挑战性的真实世界自动驾驶数据集上的性能优于所有先前的工作,包括SRVP2. 相关工作外观-运动分解:先前的工作探索了用于视频生成的运动线索,无论是显式地使用光流[30,29,19,20,22,6,9]还是隐式地使用时间差[21]或像素级变换[14,28]。这些方法中有一些共同的因素,例如使用递归模型[25,21,6],动态部分的特定处理[14,19,6,9],利用掩模[7,20,9]和对抗训练[28,22]。我们还使用循环模型,预测掩模,并单独处理运动,但以随机的方式。以前的工作,探索运动的视频生成-工作时,我们在每个时间步长采样一个潜在变量[4]。采样的随机变量被馈送到使用LSTM循环建模的帧预测器我们分别对外观和运动分布进行建模,并为静态和动态部分训练两个帧预测器。通常,每个分布,包括先验和后验,都是用诸如LSTM之类的递归模型来建模的。Villegas等人[27]用卷积LSTM代替线性LSTM,代价是增加参数的数量。Castrejon等人[2]通过引入额外的复杂性,引入分层表示来在不同尺度上对潜在变量进行建模。Lee等人[17]将对抗性损失纳入随机框架,以产生更清晰的图像,代价是结果的多样性降低。我们的线性LSTM模型可以通过将运动信息成功地纳入随机框架来生成多样化和清晰的结果,而没有任何对抗性损失。最近的方法对关键点的动态进行建模,以避免像素空间中的错误并实现稳定的学习[23]。这为具有静态背景和可以用关键点表示的移动前景对象的视频提供了有趣的解决方案。我们的模型可以gener-alize视频与不断变化的背景,而不需要关键点来表示对象。在未来的预测[18,22]中,之前已经使用了光流。Li等人。[18]生成未来帧从静态图像通过使用由现成的模型生成的光流,而我们计算流作为预测的一部分Lu等人[22]使用光流进行视频外推和内插,而不对随机性建模。长期的视频外推的结果显示,这项工作的限制,在预测未来,由于相对较小的运动幅度外推。与流量不同,Xue et al.[31]使用交叉卷积将运动建模为图像14730不|不⊙||不p不不pF不状态空间模型:随机模型通常是自回归的,即基于由模型生成的帧来预测下一帧。与交织相反3.2. Slamp我们把预测的目标帧称为外观预测xp在像素空间中。除了xp,我们还估计自回归模型、状态空间模型、自回归过程将帧生成与动力学建模分离[12]。最先进的方法SRVP[8]提出了一种用于视频生成的状态空间模型,其中确定性状态转换表示帧之间的残余变化。这样,动态模型与潜在的状态从前一帧t-1到目标帧t的光流ft-1:t。 流ft-1:t表示像素从前一帧到目标帧的运动。我们通过可微分扭曲从估计的光流重建目标帧xf[13]。最后,我们从两个帧估计估计来估计掩模m(xp,xf)以组合与先前生成的t t跳转虽然独立的潜在状态在计算上是有吸引力的,但是它们不能对运动历史进行建模。最后的估计xt:xt=m(xp,xf)⊙xp+(1−m(xp,xf))⊙xf(一)视频. 此外,内容变量设计模型t t tt t t静态背景不能处理背景中的变化我们可以生成长序列的复杂运动模式- terns明确建模的运动历史,没有任何限制性的假设动态的3. 方法3.1. 随机视频预测给定前一帧x1:t−1直到时间t,我们的目标是预测目标帧xt。为此目的,我们假设我们在训练期间可以访问目标帧Xt,并且使用它来捕获随机潜在变量zt中的视频的动态。通过学习近似z t上的分布,我们可以在测试时间从zt和之前的帧x1:t−1解码未来的帧xt。使用包括目标帧在内的所有帧,我们计算后验分布q(ztx1:t),并在每个时间步长从该分布中采样潜变量zt视频的随机过程由潜在变量捕获哪里表示逐元素Hadamard乘积,并且是根据估计的流场ft-1:t将源帧扭曲到目标帧的结果。特别是在具有运动对象的动态部分中,可以利用运动信息准确地重建目标帧在在运动不可靠的被遮挡区域中,模型学习依赖于外观预测。掩模预测学习外观和运动预测之间的加权以用于组合它们。我们称该模型为SLAMP-Baseline,因为它在解码输出时仅考虑相对于前一帧的运动的意义上是有限的在SLAMP中,我们将外观空间中的随机性扩展到运动空间。通过这种方式,我们可以明确地对视频中的外观变化和运动模式进行建模,并对未来做出更好的预测。图3示出了SLAMP的图示(参见SLAMP-基线的补充)。为了表示外观和运动,我们计算两个单独的后向分布q(zp|x1:t)和q(zf|xl:t),则相对于V。我们对两个潜在变量进行抽样阿布勒河换句话说,它应该包含准确的信息从像素空间中的这些分布和在先前的帧上进行仿真,而不是仅压缩-t t读取关于当前帧的信息这是通过鼓励q(ztx1:t)在KL散度方面接近先验分布p(z)来实现的先验可以从固定的高斯或者可以从之前的帧直到目标帧pψ(ztx1:t-1)学习。我们更喜欢后者,因为通过学习随时间变化的先验知识,它可以更好地工作[4]。基于先前帧x1:t-1和潜在向量z1:t来预测目标帧x t。在实践中,我们仅使用最新帧xt−1和潜在向量zt作为输入,并依赖于进一步的预处理。流动空间这允许将视频分解成静态和动态分量。直观地,我们期望动态分量关注变化,而静态分量关注从先前帧到目标帧保持不变如果背景根据相机运动而移动,则静态组件可以对背景中的变化进行建模,假设其在整个视频中保持恒定,例如,在整个视频中保持恒定。汽车的自我运动。运动历史:潜在变量Zf应包含在先前帧上累积的运动信息,而不是最后帧与目标帧之间的局部时间变化。我们通过鼓励q(zf|x1:t)在项上接近先验分布可用递归模型来传播可见帧。f和t帧预测器的输出包含解码xt所需的信息。通常,g被解码为固定方差高斯分布。KL发散类似于[4],我们学习以先前帧为条件直到目标帧的运动先验:|x1:t−1)。我们对静态部件重复同样的操作由zp和后验q(zp)表 示|x1:t)和博学者不分布,其平均值是预测的tar get framext [4]。tp不先验pψ(zp|x1:t−1)。14731Σz1:t不z+DK L(q(zf|x1:t)||p(zf|x1:t−1))不t−1不p不F不不不p不F不FΣptft||图3:SLAMP。该图显示了我们的SLAMP模型的组件,包括预测模型,推理和像素的学习先验模型,然后从左到右流动。 观察xt被映射到潜在空间,通过使用像素编码器的外观上的每一帧和运动编码器的连续帧之间的运动。 蓝色框显示编码器,黄色和绿色框显示解码器,灰色框显示递归后验、先验和预测模型,最后红色框显示训练过程中的损失函数。注意,L2损失被应用三次,用于外观预测Xp、运动预测Xf和运动预测Xf。t t根据掩码预测m(xp,xf)的t w o x t的组合。我们只显示实际帧之间的L2丢失t txt和图中的最终预测帧xt。对于推断,仅使用预测模型和学习的先验模型3.3. 变分推理对于我们的基本公式(SLAMP-基线),导数-损失函数的定义是直接的,并且在logpθ(x)≥ Lθ,p,f,ψp,ψf(x1:T)(3)补充。 对于SLAMP,对应于图1中的图形模型的条件联合概率。2是:=Ep1:tqlogpθ(xt|x1:t−1,zp1:t)p(x1:T)=Yp(xt|x1:t−1,zp,zf)(2)tf1:tqp pt tt=1p(zp|X1:t−1)p(zf|X1:t−1,-βDK L(q(zt|x1:t)||p(zt|x1:t−1))Σ)不不潜变量zp和zf的真实分布为t t难对付我们训练时间相关推理网络q(zp|x1:T)和q(zf|x1:T)来近似真实的距离-可能性pθ可以解释为实际帧xt和估计xt之间的L2惩罚,如定义的在(1)中。我们将L损失应用于外观条件高斯分布。为了优化p(x1:T)的似然性,我们需要推断la-帐篷变量zp和zf,它们对应于2以及运动分量。不确定性的后验项估计为t t未来帧中的静态和动态部分。 我们对erq(zp)的 期望|x1:t),q(zf|x1:t)。在[4]中,我们使用变分推理模型来推断潜变量。也从先前帧向上学习先验分布由于zp和zf在时间上是独立的,因此我们可以将Kullback-Leibler项分解为各个时间步长。我们通过优化变分下限来训练模型(参见推导补充):像素解码器流译码器象素编码器象素编码器象素编码器运动编码器掩码解码器运动编码器运动编码器,z,t−114732到目标帧为pψ(zpx1:t−1),pψ(zfx1:t−1)。我们使用重新参数化技巧训练模型[16]。我们经典地选择要因式分解的高斯后验从而可以解析地计算所有的KL散度14733SVG SRVP SLAMP-基线SLAMP不F不不不不3.4. 架构我们用前馈卷积架构对帧进行编码,以获得每个时间步的外观特征在SLAMP中,我们还将连续的帧对编码为表示它们之间的运动的特征向量。然后,我们训练线性LSTM,以从编码的外观和运动特征中推断每个时间步的后验和先验分布具有学习先验的随机视频预测模型PSNR0.900.800.700.65SSIM[4]是具有单个像素解码器的基线模型的特殊情况,我们还添加了接下来,我们描述用于动态5 10 15 20 25不5 10 15 20 25不部分f图4:M N I S T 的定量结果。 这个无花果-在每个时间步长,我们将xt−1和xt编码为ht,表示从前一帧到目标的运动frame. 后验LSTM基于hf更新:f= MotionEnc(xt−1,xt)(4)ure比较了MNIST上的SLAMP与SLAMP基线、SVG [4]和SRVP [8]的PSNR(左)和SSIM(右)。SLAMP明显优于我们的基线模型和SVG,并且与SRVP表现相当竖条标记训练序列的长度。µ,σ(t) = LSTM(hf)f(t)f f t具体比较我们的基线模型(SLAMP-Baseline)对于先验,我们使用运动表示t−1 从和我们的模型(SLAMP)到SVG [4],这是我们的基线的一个特殊情况,具有单个像素解码器,SAVP [17],前一时间步长,即帧t-2的运动到帧t-1,以更新先前的LSTM:[2018 - 08 - 18][2018 - 08- 18][2018 - 08 - 18][2018 - 08 -18]我们还将我们的模型与SVG [4]和SRVP [8]在两个不同的挑战上进行了比较。hft−1= MotionEnc(xt−2,xt−1)(5)现实世界的数据集,KITTI [11,10]和Cityscapes [3],具有移动的背景和复杂的对象运动。 我们μψf(t),σψ(t)=LSTMψf(hf)t−1在[4]中引入的评估设置之后,生成在没有先前运动的第一时间步,我们通过估计从先前帧到其自身的运动来假设零运动。预测器LSTM根据编码的特征和采样的潜在变量来更新:每个测试序列100个样本,并根据帧上平均性能方面的最佳结果报告结果我们的实验设置,包括训练细节和参数设置,可以在补充中找到。我们还分享了可重复性的代码。f=LSTMθ(hft−1,zf)(6)表1:KTH和BAIR的FVD评分。该表比较了所有方法的FVD评分及其µθf=流量Dec(gf)五个不同样本的95%训练时间和推理时间在潜变量的采样分布方面存在差异。在训练时,从后验分布中对潜在变量进行采样。在测试时,它们从调节帧的后验中采样,并从后续帧的前验中采样。预测器LSTM的输出被分别解码为外观和运动①①)。4. 实验我们评估了所提出的方法的性能,并将其与三个标准视频预测数据集上的先前方法进行了比较,包括随机移动MNIST,KTH动作[24]和BAIR机器人手[5]。我们HG30252015F14734模特我们的模型是第二个最好的KTH和BAIR的前三名的方法。数据集KTH BAIRSV2P 636± 1 965± 17SAVP 374± 3152±9SVG 377± 6 255± 4SRVP222±3163± 4SLAMP-基线236± 2 245± 5SLAMP 228± 5-评估指标:我们使用三个帧的指标和视频级的性能进行比较。基于帧之间的L2距离的峰值信噪比(PSNR)越高越好,结构相似度(SSIM)14735t = 1 t = 3 t = 5 t = 6 t = 8 t = 10t = 12t = 15t = 18t = 20t = 22t = 24 t = 6 t = 8 t = 10t = 12t = 15t = 18t = 20t = 22t = 24最终预测外观预测运动预测掩码预测光流图5:SLAMP-基线(左)与在MNIST上猛击(右)。顶行示出了地面实况,随后是最终的帧预测、外观、运动,并且最后两行示出了具有错误着色的掩模和光流在具有弹跳和碰撞的这种具有挑战性的情况下,基线混淆了数字并且不能正确地预测最后的帧,而SLAMP可以通过学习运动历史中的平滑过渡来生成非常接近地面实况的预测,如可以从光流预测中看到的。0.90.80.7SSIMLPIPS0.30.20.1我们在训练期间以前5帧为条件,并学习预测接下来的10帧。在测试期间,我们再次以前5帧为条件,但预测接下来的20帧。图4示出了与对照组相比MNIST的定量结果。10 20 30 400.900.850.800.7510 20 30不10 20 30 400.100.080.060.0410 20 30不Son to SVG [4] and SRVP [8] in terms of PSNR andSSIM,omitting LPIPS as in SRVP.我们的基线模型与运动解码器(SLAMP-Baseline)已经优于SVG的两个指标。SLAMP通过利用运动历史进一步改善了结果,并且达到了与现有技术模型SRVP相当的性能。这说明SVG SAVP SV 2 P SRVP SLAMP-基线SLAMP图6:KTH和BAIR的定量结果。我们将我们的结果与以前的工作在PSNR,SSIM和LPIPS指标方面的时间步长进行比较KTH(上图)和BAIR(下图)数据集,置信区间为95%。竖条标记训练序列的长度SLAMP优于先前的工作,包括SVG [4],SAVP [17],SV2P [1],并且在两个数据集上的表现与最先进的方法SRVP [8]相当越高越好,比较局部块以测量空间结构的相似性。学习感知图像块相似性(LPIPS)[32],越低越好,测量由训练用于图像分类的CNN提取的学习特征之间的Frechet视频距离(FVD)[26],越低越好,将生成的视频的时间动态与为动作识别计算的表示方面的地面实况进行比较。随机移动MNIST:该数据集包含最多两个MNIST数字,它们以随机速度线性移动并从墙壁反弹,如[ 4 ]中所介绍的。按照与先前工作中相同的训练和评估设置在状态空间模型(SRVP)和自回归模型(我们的,SLAMP)中将视频分为静态和动态部分的好处通过这种方式,模型可以更好地处理具有挑战性的情况,例如交叉数字,如下所示。我们定性地比较SLAMP与图2中MNIST上的SLAMP基线。五、该图显示了静态和动态部件的预测作为外观和运动预测,以及最终预测作为两者的组合。根据掩模预测,最终预测主要依赖于掩模上显示为黑色的动态部分,并且仅使用运动边界附近的静态分量。此外,光流预测不适合手指的形状,而是扩展为一个区域,直到接触另一个手指的运动区域。这是由于黑色背景的一致性。随机移动背景中的黑色像素很可能导致背景中的另一个黑色像素,这意味着扭曲结果的零损失。这两种模型都能在很大程度上正确地预测光流场,并能利用遮挡区域的外观结果。然而,运动中的连续性通过具有冲突数字的SLAMP更好地捕获,而基线模型不能从中恢复,导致模糊结果,远离地面实况。请注意,我们为两者挑选最好的样本第kBair14736t = 1t = 4t = 8t = 11t = 14t = 18t = 22t = 26t = 30t = 34t = 40表2:具有移动背景的结果。 我们通过以下条件在KITTI [ 10 ]和Cityscapes [ 3 ]数据集上与SVG和SRVP进行比较来评估我们的模型SLAMP最终预测外观预测运动预测掩码预测光流图7:KTH上的定性结果我们将SLAMP在KTH数据集上的结果可视化。顶行示出了地面实况,随后是最终的帧预测、外观、运动,并且最后两行示出了掩模和光流预测。掩模预测将外观预测(白色)和运动预测(黑色)组合成最终预测。100个样本中,根据LPIPS模型。KTH行动数据集:KTH数据集包含真实视频,其中人们执行单个动作,例如步行、跑步、拳击等。在静态摄像机前[24]。我们希望我们的模型与运动历史表现得非常好,利用规律性的人类行动的KTH。遵循与先前工作中使用的相同的训练和评估设置,我们以前10帧为条件,并学习预测接下来的10帧。在测试期间,我们再次以前10帧为条件,但预测接下来的30帧。图6和表1显示了KTH的定量结果与以前的方法相比。我们的基线和SLAMP模型都优于以前的方法,并在包括FVD在内的所有指标中与SRVP表现相当。所有三个帧预测以及流和掩模的详细可视化如图所示。7.第一次会议。流预测比MNIST更细粒度,通过捕获诸如手的小对象或诸如腿的细对象的快速运动(参见补充)。掩模解码器学习识别由于遮挡而不能与流匹配的运动边界周围的区域,并将更多权重分配给这些区域中的外观预测。在KTH上,受试者可能出现在条件反射帧之后。这些具有挑战性的情况可能会对SRVP [8]中所示的一些先前工作造成问题。我们的模型可以生成接近地面实况的样本,尽管关于调节帧的信息非常少,如图所示。8.该图显示了LPIPS方面的最佳样本,请参阅补充资料,了解不同的样本集,其中各种姿势的受试者出现在不同的时间步长。10帧并预测未来的20帧。型号PSNR(↑)SSIM(↑)LPIPS(↓)SVG [4]12.70± 0.70 0.329± 0.0300.594± 0.034SRVP [8]13.41± 0.420.336±0.034 0.635 ± 0.021SLAMP13.46±0.74 0.337±0.034 0.537±0.042KITTI [11,10]型号PSNR(↑)SSIM(↑)LPIPS(↓)SVG [4]20.42± 0.630.606± 0.0230.340± 0.022SRVP [8]20.97± 0.43 0.603±0.016 0.447 ± 0.01421.73±0.76 0.649±0.025 0.2941±0.022城市景观[3]机器人手在桌子上移动和推动物体[5]。由于机器人手臂运动的不确定性,BAIR是用于评估随机视频预测模型的标准数据集。根据之前工作中使用的训练和评估设置,我们以前2帧为条件,并学习预测接下来的10帧。在测试期间,我们再次以前2帧为条件,但预测接下来的28帧。我们在图中显示了BAIR的定量结果。6和表1。我们的基线模型实现了与SRVP相当的结果,在所有指标中优于其他方法,除了PSNR中的SV2P[1]和FVD中的SAVP [17]只有2个条件帧,SLAMP不能利用运动历史,并且与BAIR上的基线模型类似地执行(参见补充)。 这仅仅是因为只有一个流场需要调节,换句话说,没有运动历史。因此,我们仅显示此数据集上基线模型的结果。真实驾驶数据集:我们在两个具有挑战性的自动驾驶数据集上进行实验:KITTI [11,10]和Cityscapes [3],具有各种挑战。这两个数据集都包含日常的真实世界场景,由于背景和前景运动而具有复杂的KITTI在德国的一个城镇录制,而Cityscapes在50个欧洲城市录制,导致更高的多样性。Cityscapes主要关注城市街道场景的语义理解,因此与KITTI相比包含了更多然而,由于较低的帧速率,运动长度在KITTI上较大在这两个数据集上,我们以10帧为条件,预测未来的10帧来训练我们的模型。然后在测试时,我们预测20帧,条件是10帧。如表2所示,SLAMP在两个数据集上的所有度量上都优于两种方法,这显示了其推广到具有向后移动的序列的BAIR Robot Hand: 该数据集包含地面的即使SVG [4]的性能也优于14737SVG [5]SRVP [9]我们t = 1 t = 4 t = 7 t = 10 t = 12 t = 15 t = 18 t = 21 t = 24 t = 27 t = 30 t = 32 t = 35 t = 38 t = 40图8:受试者在调节帧后出现。该图显示了一种情况,其中主体在KTH上调节帧后出现,具有地面实况(顶部)和我们的模型生成的样本(底部)。这表明我们的模型t = 1 t = 10 t = 11 t = 13 t = 16 t = 19 t = 21 t = 26 t = 29SVG [5]SRVP [9]我们t = 1 t = 10 t = 11 t = 13 t = 16 t = 19 t = 21 t = 26 t = 29图9:定性比较。 我们将SLAMP与SVG [4]和SRVP [8]在KITTI(顶部)和Cityscapes(底部)上进行比较。我们的模型可以更好地捕捉由于自我运动的变化,由于明确的运动历史建模。KITTI的LPIPS度量中的艺术SRVP [8]以及Cityscapes的SSIM和LPIPS上的艺术SRVP [8],其示出了SRVP在具有动态背景的场景上的限制。我们还执行了定性比较图中的这些方法。图1和图9。SLAMP可以更好地保留场景结构,这要归功于在背景中对自我运动历史的显式建模。潜在空间的可视化:与静态和SVG相比,我们在KTH上可视化动态组件的随机潜在变量(see补充。)5. 结论我们提出了一个随机视频预测框架,将视频内容分解为外观和动态成分。我们的基线模型与确定性运动和掩码解码器优于SVG,这是一个特殊的情况下,我们的基线模型。我们的模型与运动历史,SLAMP,进一步改善了结果,并达到了最先进的方法SRVP在以前使用的数据集上的性能此外,它在两个具有动态背景和复杂运动的真实自动驾驶数据集上的性能优于SVG和SRVP。我们把这个动作-tory丰富了模型我们的模型与运动历史不能实现其全部潜力在随机视频预测数据集的标准设置。由于调节帧的数量很少,BAIR在不断变化的背景下有很大的希望,但不频繁的小变化并没有反映在当前的评估指标中。一个有趣的方向是随机运动分解,可能具有分层的潜在变量,用于建模相机运动和场景中的每个对象的运动分开。鸣 谢 。 我 们 要 感 谢 Jean-Yves Franceschi 和 EdouardDelasalles为基线性能提供的技术和数字细节; DenizYuret和Salih Karagoz进行了有益的讨论和评论。K.Akan 得 到 了 KUIS AI 中 心 研 究 员 、 F. 由 TUBITAK2232InternationalFellowshipforOutstandingResearchers Programme,E.Erdem部分获得土耳其科学院2018年GEBIP奖A. Erdem获BAGEP 2021科学院奖地面实况14738引用[1] 放大图片创作者:Michael H.坎贝尔和谢尔盖·莱文。随机变分视频预测。在国际会议的程序。 关于学习表征(ICLR),2018年。二五六七[2] Lluis Castrejon , Nicolas Ballas , and AaronCourville.用于视频预测的改进的条件vrnns。在IEEE国际会议上。计算机视觉(ICCV),2019年。二个[3] Marius Cordts , Mohamed Omran , SebastianRamos , Timo Rehfeld , Markus Enzweiler ,Rodrigo Benenson,Uwe Franke,Stefan Roth,andBernt Schiele.城市场景语义理解的城市景观数据集正 在 进 行 IEEE 会 议 计 算 机 视 觉 和 模 式 识 别(CVPR),2016年。一、五、七[4] 艾米丽·丹顿和罗伯·费格斯随机视频生成与学习的先验。 在proc 国际会议。 机器学习(ICML),2018年。一二三四五六七八[5] 作 者 : Frederik Ebert Chelsea Finn Alex X.Lee 和Sergey Levine。具有时间跳跃连接的自我监督视觉规划在第一届机器人学习年会上,CoRL 2017,美国加利福尼亚州山景城2017年11月13日至15日,会议记录,2017年。五、七[6] 范呵呵,朱林超,杨毅。用于视频预测的三次最小二乘法。 在proc 的Conf.人工智能(AAAI),2019年。一、二[7] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。神经信息处理系统进展(NeurIPS),2016年。一、二[8] Jean-YvesFranceschi,EdouardDelasalles,MickaeülChen , Sylvain Lamprier , and PatrickGallinari.随机潜在残差视频预测。在国际会议的程序。机器学习(ICML),2020年。一二三五六七八[9] Hang Gao,Huazhe Xu,Qi-Zhi Cai,Ruth Wang,Fisher Yu,and Trevor Darrell.用于视频预测的分解传播在IEEE国际会议上。 计算机视觉(ICCV),2019年。一、二[10] Andreas Geiger,Philip Lenz,Christoph Stiller,and Raquel Urtasun.视觉与机器人技术的结合:KITTI 数 据 集 。 International Journal of RoboticsResearch(IJRR),2013年。一、五、七[11] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。正在进行IEEE会议计算机视觉和模式识别(CVPR),2012年。五、七[12] 卡罗尔·格雷戈尔和弗雷德里克·贝斯。时间差分变分自动编码器。在国际会议上。关于学习表征(ICLR),2018年。三个[13] MaxJaderberg , KarenSimonyan , AndrewZisserman,andkoraykavukcuoglu.空间Transformer网络。神经信息处理系统进展,2015年。三个[14] Xu Jia,Bert De Brabandere,Tinne Tuytelaars ,and Luc V Gool.动态过滤网络。神经信息处理系统进展(NeurIPS),2016年。一、二[15] 贡纳·约翰森生物运动的视觉感知及其分析模型。Perception Psychophysics,14(2 ):201-211 ,jun 1973. 一个[16] Diederik P Kingma和Max Welling。自动编码变分贝 叶 斯 。 在 国 际 会 议 上 。 关 于 学 习 表 征(ICLR),2014年。四个[17] 亚 历 克 斯 ·X Lee 、 Richard Zhang 、 FrederikEbert 、 Pieter Abbeel 、 Chelsea Finn 和 SergeyLevine 。 随机 对 抗 视频 预 测 。arXiv.org , 2018年。二五六七[18] Yijun Li , Chen Fang , Jimei Yang , ZhaowenWang,Xin Lu,and Ming-Hsuan Yang.基于流的静态图像时空视频预测。在欧洲计算机视觉会议(ECCV)的论文集,第600-615页,2018年。二个[19] 梁晓丹,李丽莎,戴伟,和埃里克P。邢未来流嵌入式视频预测的双运动gan。在IEEE国际会议上。计算机视觉(ICCV),2017年。二个[20] 作者:刘子伟Yeh,Xiaoou Tang,Yiming Liu,and Aseem Agarwala.使用深体素流的视频帧合成。在IEEE国际会议上。计算机视觉(ICCV),2017年。一、二[21] William Lotter,Gabriel Kreiman,and David Cox.用于视频预测和无监督学习的深度预测编码网络。在国际会议上。关于学习表征(ICLR),2017年。一、二[22] Chaochao Lu , Michael Hirsch , and BernhardScholkopf. 用于视频预测的灵活时空网络正在进行IEEE会议计算机视觉和模式识别(CVPR),2017年7月。一、二[23] Matthias Minderer,Chen Sun,Ruben Villegas,Forrester Cole,Kevin P Murphy,and Honglak Lee.从视频中对对象结构和动态进行无监督学习。神经信息处理系统进展(NeurIPS),2019年。二个[24] ChristianSchüldt,I v anLapt ev,andBarbaraCaputo.14739认识人类行为:局部SVM方法。正在进行IEEE 会 议 计 算 机 视 觉 和 模 式 识 别(CVPR),2004年。五、七14740[25] Shi Xiangming,Zhourong Chen,Hao Wang,Dit-Yan Yeung,Wai kin Wong,and Wang chun Woo.卷积lstm网络:降水临近预报的机器学习方法。神经信息处理系统进展(NeurIPS),2015年。二个[26] Thomas Unterthiner,Sjoerd van Steenkiste,KarolKu- rach,Raphael Marinier,Marcin Michalski,and Sylvain Gelly.迈向视频的准确生成模型:新的度量挑战。arXiv.org,2019年。六个[27] RubenVillegas 、 ArkanathPathak 、 HariniKannan、Du- mitru Erhan、Quoc V Le和HonglakLee。使用大型随机递归神经网络进行高保真视频预测神经信息处理系统进展(NeurIPS),2019年。二个[28] C. Vondrick和A.托拉尔巴用对抗性的变形金刚创造未来。正在进行IEEE会议计算机视觉和模式识别(CVPR),2017年。一、二[29] Jacob Walker,Carl Doersch,Abhinav Gupta,andMartial Hebert.不确定的未来:使用变分自动编码器从静态图像进行预测。在欧洲会议上。计算机视觉(ECCV),2016年。二个[30] Jacob Wal
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功