一种改进的条件VRNN视频预测

48 浏览量更新于2023-10-13 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7608一种改进的条件VRNN视频预测路易斯·卡斯特雷洪*米拉，我去了蒙特艾尔lluis. gmail.comNicolas BallasFacebook AIResearchnballas@fb.com阿隆·库维尔CIF AR，Mila，Uni versite'deMontre' al邮箱：aaron. umontreal.ca摘要预测视频序列的未来帧是一项具有挑战性的生成建模任务。有前途的方法包括概率潜变量模型，如变分自动编码器。虽然VAE可以处理不确定性并对多种可能的未来结果进行建模，但它们倾向于产生模糊的预测。在这项工作中，我们认为这是一个迹象不足。为了解决这个问题，我们建议增加潜在分布的表现力，并使用更高的容量似然模型。我们的方法依赖于一个层次的潜在变量，它定义了一个家庭的灵活的先验和poster- rior分布，以更好地模拟未来序列的概率我们通过一系列消融实验验证了我们的建议，并将我们的方法与当前最先进的潜变量模型进行了比较。我们的方法在三个不同的数据集的几个指标下表现良好。1. 介绍我们研究了视频预测的任务，这是自我监督的一个具体实例[7，9]，其中生成模型学习预测视频中的未来帧。训练这样的模型不需要任何注释数据，但模型需要捕捉真实世界现象（如物理相互作用）的复杂动态概念，以生成连贯的序列。不确定性是与视频预测相关的固有困难，因为对于给定的观察序列，许多未来的结果是合理的[1，5]。随着不确定性的增加，确定性模型的预测会随着时间的推移而迅速下降，收敛到未来可能结果的平均值[34]。为了解决这个问题，已经提出了用于视频预测的概率潜在变量模型，例如变分自动编码器（VAE）[19 ， 31] ，并且更具体地，变分递归神经网络（VRNN）[3]。这些模型定义了一个先验分布，在Facebook AI Research兼职时完成的工作图1：生成模型能预测未来吗？我们提出了一种改进的VAE模型用于视频预测。我们的模型使用分层潜伏期和更高容量的似然网络来改进以前的VAE方法，生成更具视觉吸引力的样本，这些样本在更长的时间范围内保持一致。在一组潜在变量上进行分配，允许来自这些潜在变量的不同样本捕获多个结果。根据经验观察到，基于VAE和VRNN的模型产生模糊的预测[21，22]。这种趋势通常归因于在像素空间中使用相似性度量[21，26]，例如均方误差（对应于完全因子化高斯分布下的对数似然损失）。这导致了诸如VAE-GAN [21，22]的替代模型，其通过对抗性损失扩展了传统的VAE目标，以获得更具视觉吸引力的世代。此外，缺乏表达性潜在分布已被证明会导致模型拟合不佳[13]。训练VAE涉及定义潜在变量的近似后验分布，其在观察到生成的数据之后对其概率进行建模。如果近似后验分布受到太多约束，它将无法匹配真实的后验分布，这将阻止模型准确拟合训练数据。另一方面，潜变量的先验分布可以解释为不确定性模型。上下文t= 2预测帧t= 3t= 5t= 10t= 20SVG-LP [5]OURSGT7609解码器或似然网络需要将潜在样本转换为覆盖所有可能结果的数据观测。给定一个简单的先验，这种转换可能非常复杂，需要高容量的网络。我们假设当前VRNN模型的表现力降低首先，我们建议扩展相似网络的容量。我们的经验表明，通过使用高容量的解码器，我们可以缓解潜在的建模问题，更好地拟合数据。其次，我们引入了更灵活的后验和先验分布[32]。当前的视频预测模型通常依赖于一个浅层次的潜在变量，并且使用对角高斯分布[1]来参数化先验和近似后验我们提出了一个分层的变体，使用多个层次的潜伏期，每一个时间步长的VRNN公式-灰扩展。已知利用潜伏期层次结构的模型难以优化，因为它们需要通过随机潜变量的堆栈反向传播，通常导致模型仅利用潜伏期的一小部分[19，25，32]。我们通过使用KL损失的预热机制[33]和输入变量和潜在变量之间的密集连接模式[14，24具体地，每个随机潜变量连接到输入和层次结构中的所有后续随机水平。我们的实证研究结果证实，只有与这些技术，我们的模型是能够利用不同的层在一个潜在的层次结构。我们在三个数据集中验证了我们的分层VRNN，这些数据集具有不同程度的未来不确定性和现实性：随机移动MNIST [5]，BAIR Push Dataset [8]和Cityscapes[4]。与当前最先进的模型[5，22]相比，我们的方法在几个指标下表现良好。特别是对于BAIR Push数据集，我们的分层VRNN显示出44%的改进，VideoFre´ chet距离（FVD）[3 6]和9。8%的条款LPIPS评分[43]超过SVG-LP [5]，之前最好的VAE-基于模型它还实现了与SAVP VAE-GAN模型类似的FVD [22]，同时显示了11. LPIPS较基线改善2%2. 相关工作最初的视频预测方法依赖于确定性模型。Ranzato等人[29]将帧划分为补丁，并在给定先前邻近补丁的情况下预测它们在时间上的演变。在[34] Srivastava et al.使用LSTM网络对预训练的图像嵌入进行预测。类似地，Oh et al.[27]使用CNN表示的LSTM来预测Atari游戏中给定玩家动作的帧。ConvLSTM [42]使LSTM方程适应空间通过用卷积代替矩阵乘法来绘制特征图。它们最初用于降水现在-铸造和通常用于视频预测。Pred-Net [23]和ContextVP [2]是使用LSTM和其他循环架构的确定性模型，已用于车载场景的视频预测。其他作品提出了解开帧的运动和上下文以生成[37，35，6]。他们假设一个场景可以分解为多个对象，这允许他们使用一个固定的背景表示。我们的方法不遵循这种建模假设，而是试图捕捉未来的不确定性。自回归模型[16，30]近似于完整的联合数据分布p（x1，x2，...，xN），这允许它们捕获复杂的像素依赖性，但代价是使它们的推理机制变慢并且不能扩展到高分辨率。潜在变量模型我们-ing GANs [10]在[39，38，35]中提出训练纯GAN视频模型仍然是一个开放的研究方向：训练不稳定，大多数模型需要辅助损失。并发工作[20]提出了一个完全可逆的视频模型。到目前为止，更成功的方法是基于 VAE [19 ，31]/VRNN [3]模型。SV2P [1]提出在单个潜在变量集合中捕获序列不确定性，对于每个预测序列保持固定。SVG [5]采用了VRNN公式[3]，引入了每步潜在变量（SVG-FP）和具有学习先验的变体（SVG-LP），这使得特定时间步长的先验成为先前帧的函数。在最近的工作中，SAVP [22]提出将VAE-GAN [21]框架用于视频，这是一种混合模型，可以在VAE和GAN之间进行权衡。我们的模型通过引入潜在层次结构来更好地近似数据可能性，从而扩展了VRNN公式。有多项工作涉及非顺序数据的分层VAE [28，25，33，18]。虽然分层VAE可以对更灵活的潜在分布进行建模，但由于多层的联系[32]，训练它们通常很困难，导致大多数潜在分布未被使用。梯形变分自动编码器[33]提出了一系列技术来部分缓解这个问题。IAF[18]使用了与Ladder VAE类似的架构，并使用新的规范化流程对其进行了扩展。最近的工作[24]已经训练了非常深的层次模型，可以产生视觉上引人注目的样本。我们将层次隐变量模型扩展到序列数据，并将其应用于视频预测。3. 预赛我们遵循以前在视频预测方面的工作[5]。给定D个上下文帧c=（c1，c2，...，cD）和未来帧x=（x1，x2，...，xT），我们的目标是学习a7610Qtt不不t85%）增加的容量流向先验和后验网络。MODEL温度参数T RAIN/T EST ELBO（↑）1166.55M-1141.85/-1536.931-8220.60M-989.39/-1313.021-8-32230.74M电话：+86-10 -8888888传真：+86-10- 888888881-8-16-32245.19M-956.63/-1256.22幼稚训练224.18M-1127.33/-1440.58BW224.18M-1101.39/-1440.627614图4：每个潜在通道的平均归一化KL。我们可视化来自表2的模型的每个潜在通道的平均归一化KL。在没有β预热和密集连接的情况下，潜伏期的层次结构未被充分利用，其中大多数信息被编码在顶级的几个潜伏期中。相比之下，具有这些技术的相同模型利用所有潜在水平。帐篷该实验的结果可以在表2的下半部分中找到。我们观察到，这些技术需要使我们的1-8-32模型利用高潜量和改进的单级模型。这在图4中进行了更详细的分析，其中我们可视化了1-8-32模型和变体的BAIR Push数据集的测试序列的先验分布和后验分布之间的KL，而没有预热或密集连接（朴素训练）。如果通道的平均KL高于[24]中的0.01，则我们认为该通道处于活动状态，并认为KL高于0.15的单元处于最大激活状态。我们观察到，如果没有这些技术，该模型仅使用高层中的少数潜伏期。然而，当使用beta预热和密集的连接性大多数潜伏期是跨级别活动的5.2. 与以前方法的比较接下来，我们在三个数据集上将我们的单潜在级别VRNN （ Ours w/o Hier ）和我们的 3 级分层 VRNN（Ours w/ Hier）与以前的方法进行比较。5.2.1评估和指标定义视频预测的评价指标是一个开放的研究问题。我们希望模型能够预测涵盖所有可能结果的现实序列。不幸的是，我们不知道有任何指标反映所有这些方面。为了测量覆盖率，我们采用[5，22]中的评估协议。对于每个地面实况测试序列，我们从模型中采样N个预测，这些预测以测试序列初始帧为条件。然后，我们根据给定的度量找到最匹配地面实况序列的样本，并报告该度量值。一些常见的度量选择是均方误差（MSE）、结构相似性（SSIM）[40]或峰值信噪比（PSNR）。在实践中，这些指标已被证明与人类判断没有很好的相关性，因为它们倾向于模糊的预测，而不是更清晰但不完美的生成[43，22，36]。另一方面，LPIPS [43]是一种比较CNN特征的感知度量，与人类判断具有更好的相关性。对于本次评估，我们MODELFVD（↓）LPIPS（↓）SSIM（↑）SVG-LP [5] 90.81 0.153±0.03 0.668 ± 0.04OURS W/O HIER63.810.102±0.04 0.763 ±0.09OURS W/HIER57.17 0.103±0.03 0.760 ±0.08表3：随机移动MNIST。我们计算来自不同模型和测试序列的样本之间的FVD度量，以及每个测试序列的最佳样本的平均LPIPS和SSIM。我们的模型在所有指标上都远远优于SVG-LP基线。虽然我们的分层潜变量模型获得了更好的FVD分数，但两种变体在这个相对简单的数据集中获得了相当的结果。根据先前的工作生成N=100个样本，并使用SSIM和LPIPS作为度量。我们经验地观察到，当使用100个样本时，度量具有小的方差我们报告测试集上的度量平均值。我们还使用最近提出的Fre′chetVideodistance（FVD）来衡量样本的真实性。FVD使用来自3D CNN的特征，并且也已被证明与人类感知良好相关[36]。FVD比较样本的总体，以判断它们是否都是由相同的分布生成的（它不直接比较地面实况/生成的帧对）。我们通过使用所有的测试序列及其上下文来形成地面真值群体。对于预测的群体，我们从针对每个测试序列生成的N个视频中我们重复该过程5次，并报告所获得的FVD评分的平均值，这些评分在各次采样中相似。5.2.2随机移动MNIST [5]随机移动MNIST是在[5]中提出的合成数据集，其由在黑色背景上移动并从帧边界反弹的MNIST数字序列组成。与具有确定性运动的原始移动MNIST数据集[34]相反，随机移动MNIST具有不确定的数字轨迹-数字以随机新轨迹从边界反弹。我们训练了我们模型的两个变体，并与SVG-LP基线[5]进行了比较，我们使用了来自官方代码库的预训练模型。所有模型都使用5个上下文帧和10个未来帧进行训练以进行预测。为了评估模型，我们遵循第5.2.1节中描述的[5]中的程序。我们在表3中报告了实验结果。我们观察到，我们的模型的两个版本（具有/不具有潜在层次结构）在所有指标上都明显优于SVG-LP基线请注意，LPIPS和FVD可能不适合此数据集，因为它们使用来自在真实世界图像上训练的CNN的特征，但我们报告了它们的完整性。从外观上看，我们的样品（见附录）描述了随时间推移降解减少的手指。我们的模型的两个版本之间存在微小的差异，这表明分层模型的额外表达能力7615SAVP [22]SVG-LP [5]OURS BASEO URS W/H IERSVG-LP [5]OURS BASEO URS W/H IER上下文预测帧t= 1t = 2t= 3t= 4t= 6t= 8t = 10t = 12t= 15t= 18t= 20t= 25图5：BAIR Push和Cityscapes的选定样本。我们展示了BAIR Push和Cityscapes的序列以及来自我们的模型和基线的随机生成。在BAIR Push上，我们观察到SAVP预测是清晰的，但有时描绘不一致的手臂-对象交互。SVG-LP在不确定的区域产生模糊的预测，例如背景的遮挡部分或显示对象交互的区域。我们的模型产生了合理的相互作用，相对于SVG-LP减少了模糊在Cityscapes上，SVG-LP基线无法对任何运动建模。我们的模型，使用层次结构的潜在，产生更直观引人注目的预测。更多的例子可以在附录中找到。在这个合成数据集中是不必要的。5.2.3BAIR推送我们将我们的VRNN模型与SVG-LP [5]和SAVP [22]进行比较。我们使用他们的官方实现和预先训练的模型来重现他们的结果。我们使用以前的作品[5，22]的实验设置，使用2个上下文帧并生成28个帧。结果见图6。当机械臂与对象交互时，SVG-LP倾向于生成以高FVD分数为特征的模糊预测。SAVP显示出较低的FVD，因为它产生更逼真的预测。然而，SAVP没有更好的覆盖-与SVG-LP相比，如通过LPIPS和SSIM测量的地面实况序列的平均值。通过检查SAVP样本，我们注意到SAVP生成倾向于更清晰，但有时它们表现出时间不一致性或不可信的相互作用（参见图5）。我们的模型获得了比SVG-LP更好的分数，SVG-LP是目前最好的VAE模型。这突出了具有高容量似然模型的重要性此外，我们的分层VRNN进一步改进了FVD和LPIPS指标，表明潜在的层次结构有助于对数据进行建模。特别是，它显示出在FVD和9. 8%的LPIPS超过SVG-LP。它还实现了与SAVP相似的FVD，同时在LPIPS方面优于SAVP 11。百分之二。GTGT7616MODELFVD（↓）LPIPS（↓）SSIM（↑）[5]第五届全国人大代表061±0。030的情况。816 ±0。07[22]第二十二话062±0. 030. 795±0。07[22]第二十二话073±0. 04 0的情况。778 ±0. 08OURS W/O HIER149.220. 058±0. 03 0.829 ±0.06O URS W/H IER143.400.055±0.03 0. 822 ±0。06图6：BAIR推送-结果。左图：我们显示了每个测试序列的最佳预测样本的平均LPIPS和SSIM随时间的演变。右：我们报告每个测试序列的最佳样本的平均FVD、SSIM和LPIPS与SVG-LP相比，我们的模型具有单一的潜伏期级别和分层模型都提高了所有指标。与SAVP相比，我们获得了更好的LPIPS和SSIM。我们的模型与一个单一的潜伏期水平在SSIM表现更好，但感知指标差。当添加潜伏期的层次结构时，我们的模型与SAVP的FVD相匹配，并改进了LPIPS，指示具有相似视觉质量和更好地覆盖地面实况序列的样本MODELFVD（↓）LPIPS（↓）SSIM（↑）SVG-LP [5] 1300.26 0的情况。549±0。06 0的情况。574±0. 08OURS W/O HIER682.080. 304±0。10 0的情况。609 ±0。11O URS W/H IER567.510.264±0.07 0.628 ±0.10图7：Cityscapes -定量结果我们在Cityscapes上以128 x128分辨率报告SVG- LP [5]基线和我们模型的两个变体的FVD、SSIM和LPIPS评分。增加似然模型的容量可以改善SVG基线上的所有指标。当添加一个潜在层次结构时，我们观察到进一步的改进，验证其有用性。即使SVG在稍后的时间步与我们在SSIM中的模型相匹配，但这与人类的判断并不相关，因为生成的SVG样本显示出更多的模糊性（见图2）。（五）。5.2.4城市景观Cityscapes数据集包含从在不同条件下在多个城市周围行驶的汽车记录的序列。Cityscapes是一个具有挑战性的数据集-虽然连续帧在局部相似，但不确定性会随着时间的推移而显着增加。与以前的数据集相比，Cityscapes中的背景不会随着时间的推移而保持不变。我们认为序列与30帧的训练集城市的1877个训练序列，并随机选择256个测试序列。我们使用2个上下文和10个预测框架来训练模型。在测试时，我们预测28帧后，BAIR推设置。我们通过采取1024x1024中心裁剪并将其调整为128x128像素来预处理视频。为了评估模型，我们使用标准设置，每个测试序列生成100个样本，并报告FVD、SSIM和LPIPS指标。由于之前实验中没有一个基线是在Cityscapes上训练的，因此我们使用官方的SVG实现（定义了128 x128输入的模型）并训练SVG-LP模型。我们训练所有模型100个epoch。结果可以在图中找到。7.第一次会议。 SVG-LP有困难产生运动，通常预测类似于最后上下文帧的静态图像。相比之下，我们的模型没有层次的潜在的是能够模拟不断变化的场景。当添加分层潜在时，我们的模型能够捕获更多细粒度的细节，因此，它产生了更具视觉吸引力的样本，所有指标都有所提升我们注意到，SVG-LP的SSIM分数与我们的模型在预测中的稍后时间步处的SSIM分数相匹配，然而，这并没有转化为更好的样本，如图2所示。5、在附录中这进一步表明SSIM不是评估视频预测模型的合适度量。6. 结论我们提出了一个分层VRNN视频预测具有改进的似然模型和层次的潜在。我们的方法在FVD，LPIPS和SSIM指标方面优于当前最先进的模型，产生视觉上吸引人和连贯的样本。我们的研究结果表明，目前的视频预测模型受益于增加的容量，并打开了大门，进一步增益与灵活的更高容量的生成模型。7617引用[1] MohammadBabaeizadeh 、 Chelsea Finn 、 DumitruErhan、Roy H Campbell和Sergey Levine。随机变分视频预测。arXiv预印本arXiv：1710.11252，2017。一、二[2] Wonmin Byeon，Qin Wang，Rupesh Kumar Srivastava，and Petros Koumoutsakos. Contextvp：完全上下文感知的视频预测。在欧洲计算机视觉会议，2018年9月。2[3] Junyoung Chung、Kyle Kastner、Laurent Dinh、KratarthGoel、Aaron C Courville和Yoshua Bengio。序列数据的递归潜变量模型神经信息处理系统的进展，第2980-2988页，2015年一二三十一[4] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 32132[5] 艾米丽·丹顿和罗伯·费格斯具有学习先验的随机视频生成。在国际机器学习会议上，第1182-1191页1、2、3、6、7、8、14、15、16、17、18、19、20、21、22、23[6] Emily L Denton等.从视频中分离表示的无监督学习神经信息处理系统进展，第4414-4423页，2017年。2[7] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。1[8] Frederik Ebert，Chelsea Finn，Alex X Lee，and SergeyLevine.具有时间跳跃连接的自我监督视觉规划。arXiv预印本arXiv：1710.05268，2017。二、五[9] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。arXiv预印本arXiv：1803.07728，2018。1[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26722[11] PriyaGo yal ， PiotrDolla´r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确、大的小批量sgd：1小时内训练imagenet。arXiv预印本arXiv：1706.02677，2017。4[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。4[13] Matthew D Hoffman 和 Matthew J Johnson 。肘关节手术：分割变分证据下限的另一种方式。近似贝叶斯推理进展研讨会，NIPS，2016年。1[14] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络-工程.在IEEE计算机视觉和模式识别集，第4700二、三[15] Michael I Jordan ， Zoubin Ghahramani ， Tommi SJaakkola，and Lawrence K Saul.图解模型的变分方法导论Machine learning，37（2）：1833[16] NalKalchbrenner ， A aéronvandenOord ， KarenSimonyan，Ivo Danihelka，Oriol Vinyals，Alex Graves，andKoray Kavukcuoglu.视频像素网络。第34届机器学习国际会议，第1771-1779页。JMLR。org，2017. 2[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。4[18] Durk P Kingma，Tim Salimans，Rafal Jozefowicz，XiChen，Ilya Sutskever，and Max Welling.用逆自回归流改进变分推断神经信息处理系统的进展，第4743-4751页，2016年2[19] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。一、二、三[20] Manoj Kumar 、 Mohammad Babaeizadeh 、 DumitruErhan、Chelsea Finn、Sergey Levine、Laurent Dinh和Durk Kingma。Videoflow：一个基于流的视频生成模型。arXiv预印本arXiv：1903.01434，2019。2[21] Anders Boesen Lindbo Larsen ，Søren Kaae Sønderby，Hugo Larochelle，and Ole Winther.使用学习的相似性度量对像素之外的像素进行自动编码。arXiv预印本arXiv：1512.09300，2015。一、二[22] Alex X Lee 、 Richard Zhang 、 Frederik Ebert 、 PieterAbbeel、Chelsea Finn和Sergey Levine。随机对抗视频预测。arXiv预印本arXiv：1804.01523

下载后可阅读完整内容，剩余1页未读，立即下载