没有合适的资源?快使用搜索试试~ 我知道了~
165230灵活的时空网络用于视频预测0Chaochao Lu 1 , 2 Michael Hirsch 2 Bernhard Sch¨olkopf 201 剑桥大学 2 马克斯∙普朗克智能系统研究所0{ clu, mhirsch, bs } @tue.mpg.de0摘要0我们描述了一个用于视频帧预测的模块化框架。我们将其称为灵活的时空网络(FSTN),因为它允许对视频序列进行外推,估计位于观察到的帧之间的合成帧,从而生成慢动作视频。通过设计一个定制的目标函数,包括解码、编码和对抗性损失,我们能够缓解模糊预测的常见问题,成功保留了相对较远的未来预测中的高频信息。我们提出并分析了不同的训练策略来优化我们的模型。在几个具有挑战性的公共数据集上进行了大量实验,证明了我们模型的多功能性和有效性。01. 引言0视频包含丰富的空间和时间结构,并捕捉对象和上下文信息以及深度、遮挡和照明等场景特征之间的复杂依赖关系。准确建模视频最终需要对三维时空信息进行高级理解,这类似于人类理解周围物理世界的能力。视频建模中的一个基本问题是预测未来的帧,涉及构建一个内部表示,以某种程度上模拟视频内容和动态。即使对于短期未来帧,视频预测仍然是一个具有挑战性的问题,这是由于视频数据固有的复杂性和模糊性。因此,视频预测仍处于起步阶段,特别是对于视频序列的长期预测。最近有一些工作预测了未来的视频帧[20, 19, 25,16]。从视频序列预测未来图像需要学习一个能够捕捉时空相关性并准确模拟图像演变的内部表示。这可能包括关于对象如何移动、变形或行为、关于遮挡和对象边界、场景深度等信息。0等等。视频预测是一项有前途的研究方向,将产生大量刺激性的应用[1, 14, 17, 13, 30, 29, 27, 5, 7, 28, 10, 23,18]。以前的方法成功的关键是使用了长短期记忆(LSTM)自编码器网络,能够捕捉时空长程依赖关系。尽管这些工作在短期预测方面取得了令人鼓舞的结果,但一个普遍的缺点是对于超过单帧的预测,模糊度增加。在本文中,我们提出了一种新的视频预测计算模型,不受这种干扰。它还可以预测整个图像序列,而不仅仅是单帧。此外,它不仅能够在时间上进行外推,还适用于相邻帧之间的时间插值。我们的网络可以在全帧图像上进行端到端训练。训练完成后,它能够几乎实时地进行预测。特别地,我们描述了两个新的网络模块,用于外推和插值,每个模块预测一个视频帧。这些模块可以连接起来,以预测任意多帧的整个视频序列。由于每个模块都是完全可微分的,即使组合在一起,它们也可以进行端到端训练。受到P˘atr˘aucean等人最近的工作的启发[19],每个模块都包括一个时空视频自编码器,由卷积图像编码器-解码器和由卷积LSTM(ConvLSTM)单元组成的嵌套内存模块。ConvLSTM具有修改过的空间变换网络(STN)层[9],通过光流估计和预测来捕捉时间上的变化和运动。我们的方法还集成了一种最近提出的名为深度感知相似度度量(DeePSiM)[4]的损失函数类型,该损失函数已被证明能更好地反映图像的感知相似性。它通过深度神经网络提取的图像特征之间的距离,并采用了Goodfellow等人的对抗网络[6]。在我们的背景下,外推和插值模块扮演生成网络的角色,而鉴别网络的角色是负责判别生成的帧是否真实。65240联合训练生成网络以引导无监督训练。虽然我们的方法导致了显著改进的结果,但模型参数的训练过程和优化并不简单。我们设计和讨论了不同的训练策略,并通过与最先进方法的全面比较展示了其优点。我们的贡献总结如下:0• 我们提出了一种多功能和灵活的视频外推和插值框架。•我们设计了一种新颖的目标函数,包括解码、编码和对抗性损失,并分析了它们的效果和贡献。•我们提出了不同的优化策略,并对其进行了详细讨论。•我们对最近的最先进视频预测方法进行了全面比较,表明我们的方法在长期视频预测方面具有优势。02. 相关工作0最近的一些工作使用神经网络进行视频预测。Ranzato等人[20]提出了一种受语言建模启发的循环卷积网络架构。它通过对图像块进行聚类获得的视觉单词来进行未来视频帧的预测和中间帧的插值。Srivastava等人[25]改编了LSTM模型[8],使用一个自编码器同时重构输入序列和预测未见的未来帧。虽然[25]使用了一个全连接的LSTM层,但Shi等人[22]使用了一个卷积LSTM,并将他们的模型应用于降水预测。为了解决先前方法普遍存在的预测模糊问题,Mathieu等人[16]提出了一个多尺度架构,结合了修订的损失函数,该损失函数还考虑了各自梯度图像的差异。此外,他们还采用了一种生成对抗训练方法[6,3]进行下一帧预测。与[16]同时,P˘atr˘aucean等人[19]描述了一个时空视频自编码器,其中包含一个嵌套的可微分短期记忆模块,该模块采用了改进的空间变换网络层[9]以提高运动估计和预测的能力。Kalchbrenner等人[11]提出了一种生成视频模型,估计视频中像素值的离散联合分布。与上述任务不同,Bhat-tacharyya等人[1]描述了一种用于预测分割视频边界帧的方法。上述工作中的一些[20, 25,16]强调了设计适当的损失函数以使预测帧更清晰、更真实的重要性和困难。在最近的一项工作中,Dosovit-skiy等人[4]提出了一类名为“深度感知相似度度量(DeePSiM)”的新型损失函数,该函数在学习特征上度量相似性。结合生成对抗训练,作者在涉及自动生成静态图像的多个应用中展示了显著的改进结果。我们的工作将最近的一些见解结合到了一个统一的框架中:它建立在改进的[19]的卷积LSTM自编码器框架的基础上,提出了一种利用[6, 16,4]的发现的新型损失函数。与只能预测一个未来帧的[19]不同,我们的模型可以预测更长期的视频序列,并在两个帧之间进行插值。0深度感知相似度度量(DeePSiM)用于在学习特征上度量相似性。结合生成对抗训练,作者在涉及自动生成静态图像的多个应用中展示了显著的改进结果。我们的工作将最近的一些见解结合到了一个统一的框架中:它建立在改进的[19]的卷积LSTM自编码器框架的基础上,提出了一种利用[6, 16,4]的发现的新型损失函数。与只能预测一个未来帧的[19]不同,我们的模型可以预测更长期的视频序列,并在两个帧之间进行插值。03. 模型描述03.1. 架构0我们模型的基本单元是最近在[19]中提出的基本单元:编码器(E),解码器(D),ConvL-STM单元,光流模块,网格生成器和采样器(S)。E和D构成了一个空间自编码器,其中E包含一个卷积层,一个非线性层和一个空间最大池化层,而D由最近邻空间上采样层和卷积层组成。ConvLSTM单元是一种特殊的LSTM单元,通过局部空间卷积替换有偏线性(全连接)变换。光流模块生成一个与ConvLSTM的内存输出大小相同的密集变换图,每个像素一个2D流向量,表示由于连续帧之间的运动而在水平和垂直方向上的位移。它集成了平滑度惩罚,以确保附近的像素遵循局部平滑运动,因此能够捕捉连续帧之间的逐像素运动。网格生成器和S是空间变换网络(STN)[9]的修改版本,它们接受每个像素的一个变换,而不是[9]中最初提出的整个图像的单一变换。由于我们专注于学习运动预测的特征,它们对光流预测模块预测的流图提供了即时反馈。与[19]不同,我们使用这些基本单元组装了两个新模块:外推模块和插值模块,如图1(a)和2所示。每个模块都可以看作是一个时空视频自编码器,由一个卷积图像编码器-解码器和由卷积LSTM(ConvLSTM)单元组成的嵌套内存模块作为时间编码器。此外,我们还加入了一个对抗网络(A),它同时接收所有生成的帧,从整体的角度指导训练。0为简单起见,光流模块和网格生成器在图中包含在ConvLSTM单元中。65250(a)0(b)0图1. 提出的外推模型。E: 编码器, D: 解码器, S: 采样器, A:对抗网络。 (a) 外推模型; (b) 两个循环步骤的外推模型展开。0每个提出的模块每次t都需要两个输入:ConvLSTM的预测光流和时间t-1时刻的编码器单元的特征。类似地,它们的两个输出分别对应于当前时间t的ConvLSTM和编码器单元的输出。外推模块和插值模块之间唯一的区别在于它们是否包含预测帧的真实值。0外推模型。我们的视频外推模型由两个ConvLSTM组成-输入ConvLSTM和外推模块,如图1(a)所示。在图1(b)中,我们通过展开两个循环序列来提供一个简单的示例,其中{Xt+1,Xt+2,Xt+3}是从视频序列中的输入帧{Xt−1,Xt}预测的一系列真实帧,{ˆXt+1,ˆXt+2,ˆXt+3}是我们模型预测的一系列帧。真实帧构成了每个层的监督信息,以指导我们模型的训练。0插值模型。我们的FSTN模型也可以用于视频插值。如图2所示,给定两个输入帧{Xt−1,Xt}和一个输出真实帧{Xt+1},我们可以在任意两个连续帧之间插入q帧插值模块(例如,Xt−1和Xt,Xt和Xt+1)来插值q帧。与外推模块不同,插值模块不需要真实帧。在图2左侧显示的FSTN插值模型是最简单的模型,但可以扩展到更复杂的情况,如图2右侧所示。在这种情况下,除了预测p个未来帧外,还希望在任意两个连续预测的未来帧之间生成q帧。这可以通过堆叠p个插值和外推模块(在图2中用黑色框标出)来轻松实现,其中每个插值模块有q个时间步。03.2. 损失函数0在本节中,我们描述了我们模型中使用的三种不同类型的损失函数。由于我们提出的插值和外推模型使用相同的损失函数进行训练,为了简单起见,我们只关注外推模型。设q为连接的外推模块的数量,X
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Qt通过QWebChannel和html交互源代码
- 六自由度机器人D-H法正逆运动学分析matlab代码
- DHTesp:使用Arduino框架为ESP32ESP8266优化的DHT库
- Flow
- BuzzBoard:开源BuzzBoard
- CS48002-Network-Science
- krad:了解极化雷达数据
- ThinkPHP内核简单员工管理系统源码
- javaDemo
- erhuo:二活字型设计语言
- Project_DSBC
- 2021-los-pepardos:los-pepardos组存储库
- pypicdownloader:轻松下载图片,用 Python 制作
- Coursera_Capstone
- thinkphp互助系统源码,三级分红,红利返点,自带5套UI风格
- nextjs-blog
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功