没有合适的资源?快使用搜索试试~ 我知道了~
基于整体属性控制的Jiawei He1岁,Andreas Lehrmann2岁,JosephMarino3岁,Greg Mori1岁,Leonid Sigal4岁1加拿大本拿比西蒙弗雷泽大学2美国匹兹堡迪斯尼研究所3美国帕萨迪纳加州理工学院4加拿大温哥华英属哥伦比亚大学抽象。视频表达视觉数据的高度结构化的时空模式。视频可以被认为是由两个因素控制的:(i)节奏不变(例如,个人身份),或缓慢变化(例如活动)、属性引起的外观、编码每个帧的持久内容,以及(ii)帧间运动或场景动态(例如,对执行动作的人的进化进行编码基于这种直觉,我们提出了一个生成框架的视频生成和未来的预测。所提出的框架生成一个视频(短剪辑),通过解码样本顺序地从潜在的空间分布到完整的视频帧。变分自动编码器(VAE)被用作将帧编码到潜在空间/从潜在空间解码帧的手段,而RNN被用作对潜在空间中的动态进行建模的方式 我们通过时间条件采样提高视频生成的一致性,并通过构造带有属性控制的潜在空间来提高质量;从而确保在学习/生成期间可以推断和调节属性。因此,给定属性和/或第一帧,我们的模型能够生成多样化但高度一致的视频序列集在三个具有挑战性的数据集上的实验结果,以及与最先进的详细比较,验证了该框架的有效性。1介绍深度生成模型,如变分自编码器(VAE)[4]和生成对抗网络(GANs)[5],最近受到了越来越多的关注[6,7,8,9],因为它们的概率和无监督性质以及它们从紧凑表示合成大量相互依赖变量的能力。在广泛的领域中已经取得了令人印象深刻的结果,包括图像生成[10],文本合成[11]和基于文本的图像合成[12,13]。尽管在更好的图像生成方面取得了令人印象深刻的进展,包括受控的基于属性的模型[13,14],但生成视频仍然是一个挑战。视频生成模型对于构建时空先验、预测[7,9,15]和无监督特征学习[16]本质上是有用的虽然视频通常在Disney Research工作2Jiawei He等属性视频属性视频(一)(b)第(1)款(e)图1:使用属性控制的视频生成。我们的框架使用了一个半监督的潜在空间包含一个固定数量的控制信号来引导一代。将属性“动作”和“身份”中的一个(a-b)或两个(c)在(d)中,对两个属性以及第一帧的调节有效地去除了生成过程中的所有不确定性(自由度)。在(e)中,在第6帧和第11帧处引起从“行走"到”跑步“并返回到”行走“的属性转变虽然图像生成被表示为时间相干图像的序列,但是从图像生成到视频生成的扩展是令人惊讶地困难的。在视频中,除了包含似乎合理的对象/场景布置的各个帧之外,那些对象和场景元素随时间的运动也需要是连贯的和似乎合理的。这是复杂的,因为一些运动可能是非常局部的(脸上的微笑),而另一些运动是全局的(海浪冲向海滩)。此外,在潜在的所得运动模式中存在固有的模糊性这意味着,给定相同的输入(例如人站立的第一帧),多个似乎合理的未来可以现实地展开(例如,他/她可以继续站立,可以开始行走,可以行走然后坐下)。然而,这些未来预测中的每一个都是自洽的。例如,一旦我们开始预测一个人正在行走,他/她就应该在转变似乎合理之前继续行走一些标称数量的帧。因此,生成视频模型应具有以下性质:(1)它应该能够模拟未来预测的多样性;(2)对应于来自生成模型的样本的每个未来预测应该是自洽的。我们介绍了一种新的框架VideoVAE变分自动编码器(VAE)的基础上。在每个时间步,VAE编码的视觉输入到一个高维的潜在分布。该分布被传递到长短期记忆(LSTM)以编码在潜在空间中表达的运动。在每个时间步长,可以对所得到的潜在分布进行采样并解码回完整图像。为了提高生成的序列内的一致性,并控制生成过程中,我们扩展的潜在空间VAE到一个结构化的潜在空间与整体属性控制。整体属性控制可以从数据中指定或推断;它可以随着时间的推移而固定,或者可以表现出稀疏的过渡(见图11)。①的人。分层条件行动(身份动作识别(行动身份动作识别行动修身份基于整体属性控制的概率视频生成3因此,在结构化潜在空间中提出的后验分布以多个关键信息源为条件进行预测。此外,提出了条件采样以利用先前样本来生成时间相干序列。在三个具有挑战性的数据集上的实验表明,这些技术有效地解决了上述标准(1)和(2),并且可以生成具有各种运动的似然对象的有希望的视频。2相关工作我们建立在风格-内容模型,深度生成模型,语义潜在表示和视频合成的研究基础上。风格-内容模型。我们的方法隐含地与丰富的关于风格-内容分离的文献(在[17]中引入的问题)相关;在我们的情况下,在每个帧中,内容上的分布由影响潜在状态的属性因子参数化,并且风格由从动态编码产生的运动模式建模。一个RNN。双线性[17],非线性[18,19]和因子模型[20]在过去已经使用过,但假设潜在空间中的确定性线性动态(例如,、GPDM [19])和相对简单的时间信号(例如,、运动捕捉序列[19,20]或前景分割[18])。深度生成模型。深度生成模型(DGMs)使用未标记的数据来学习具有紧凑特征的深度拓扑的参数。作为一个突出的成员,变分自动编码器(VAE)优化了著名的编码器-解码器架构。使用变分目标,可能以辅助输入为条件[22]。他们的原则性设计以及生成能力导致了快速采用和令人印象深刻的扩展:在[ 23 ]中提出了半监督VAE。分层版本旨在增加VAE的容量,包括[11]和[10]。近似后验的表现力可以通过归一化流[24]及其导数[25]来增加。使用VAE作为基础模型的循环框架[26]本质上接近我们的工作。然而,以前的作品没有对视频的非平凡性质进行建模:对象/场景在短视频剪辑内保持相同。此外,现有方法通常仅旨在对具有简单运动的合成对象进行建模。语义潜在表征。语义潜在空间是有趣的,有用的,并且在视觉和图形中有着悠久的历史[27]。最近,[28]利用图形代码(一组预定义的潜在代码)进行可解释的表示学习。然而,预定义的图形代码将系统约束到对象或者,[6]使用互信息来加强潜在空间和属性之间的对应关系。在无监督的努力中,[29]在变分下界中对KL散度项进行加权;当与标准因式分解高斯先验结合时,这鼓励潜在变量之间的额外独立性。类似地,[8]使用隐变量的层次结构来学习一组独立的层次特征。最后,在[13]中,使用解纠缠的潜在表示来生成以属性为条件的图像。视频合成。已经提出了几个非常近期的工作来解决视频合成。例如,[9,15]从静态图像输入预测不确定的未来帧4Jiawei He等然而,这种(极端)短期预测无法对运动进行建模。在一个稍微不同的任务中,[30]使用GAN来建模运动,[31]使用VAE来预测行人的轨迹。相关的,[32]在编码器和解码器中使用RNN,以及之前的前馈网络,对视频和其他动态数据进行建模,特别是用于反事实推理。 在[33]中,作者使用VAE对基本物理现象视频的潜在空间中的线性动力学进行编码;[34]使用一组额外的离散潜在变量来模拟潜在空间中的线性动态。最后,[35]提出了一种概率视频模型,该模型估计视频中原始像素值然而,这些模型缺乏一个自然的潜在结构来捕捉语义级信息。捐款. 我们的主要贡献是一个新的生成视频模型VideoVAE基于变分自动编码器(VAE),其提供将全帧编码成紧凑潜在状态/从紧凑潜在状态解码全帧的概率方法考虑到视频中的运动,使用LSTM对潜在空间中的结果分布的运动进行建模。在每个时间步长,结构化潜在分布可以被采样并解码回全帧。 为了提高推理和生成的质量,我们提出了一种将潜在空间分解为整体属性控制和剩余信息的方法;控制变量可以从视频的第一帧或片段中被观察(指定)或推断(允许半监督训练)。此外,由于动态和外观可以是多模态的,为了避免模式之间的跳跃,我们提出了条件采样,这有利于自洽序列生成。在三个具有挑战性的数据集上的实验表明,我们提出的模型可以生成比最先进的视频更好的可信视频。3概率视频生成我们现在将描述我们提出的模型(图1)。2)的情况。在高级别,VideoVAE通过建立在VAE作为空间模型和LSTM作为时间模型的基础上来对时空序列进行建模,即每个帧被编码成潜在分布(表示帧内的外观依赖性),该潜在分布被馈送到递归神经网络(对跨帧的运动动态进行建模)。我们将首先提供两个基本模型的简要总结(第2节)。3.1),然后讨论我们的贡献,导致连贯和可控的视频生成:具有整体属性控制的结构化潜在空间(Sec. 3.2)和条件变分后验(Sec. 3.3)。3.1背景:基础模型变分自动编码器(VAE)。 VAE [4]描述了具有简单先验pθ(z)的生成过程的实例(例如,,Gaussian)和复似然pθ(x|z)(例如神经网络),其中z是潜在变量,x是观测变量。 逼近难处理的后pθ(z|x)与变分神经网络qφ(z|x),我们可以通过最大化边缘上的变分下界L来联合优化θ和φ基于整体属性控制的概率视频生成5·p····分割/合并s层神经网络培训考试两x(t)解码器LSTMz(t)结构化潜在空间编码器x(t)ψ(t)pψ(t)dyψ(t)一的1a2an整体属性控制ψ(tQ(a) 时间t处的时间切片。(b)结构化的潜在空间。图2:概述。(a)变分自动编码器的结构化潜在表示[4])编码一个条件近似后验,该后验在以下帮助下通过时间传播:长短期记忆(LSTM;[36])。(b)图1中虚线框的详细视图。2a:在分层过程中,整体属性首先与变分近似后验合并,然后与来自LSTM的时间信息集成,有效地产生双条件动态近似后验。我们将这些分布的参数表示为ψ(t):=[μ(t),σ(t)],其中μ(t)和σ(t)是多元高斯分布的均值和方差分别仅在特定阶段可用的信息流突出显示为↑,用于培训”[10]以考之。例如,先验分布ψ(t)仅用于计算训练时的KL损失,但作为测试时z(t)的采样分布。视频帧x(t)的似然pθ(x(t)),logpθ(x(t))=KL(qφpθ)+L(θ,φ)Σqφ(z|x(t))Σθ(一)≥ L(θ,φ)=−Eqφ logp(z,x(t))。从自动编码器的角度来看,我们可以将近似后验qφ视为编码器,并将似然pθ视为解码器。生成视频帧对应于从先前解码样本。长短期记忆(LSTM)。虽然VAE是用于对静态视频帧进行建模的强大框架,但是它们不能对视频帧中的帧之间的运动动态进行建模。一段视频长短期记忆(LSTM)[36]是一种递归神经网络,能够捕获这种动态依赖关系。LSTM由两个组件组成:(1) 确定内部隐藏状态的演变的转变函数fh(2) 从内部隐藏状态到输出的映射。标准LSTM的转换函数是完全确定的,h(t)=fh(v(t),h(t−1)),(2)6Jiawei He等.Σattattatt其中v(t)和h(t)分别是时间t处的LSTM输入和隐藏状态。3.2空间模型视频中的帧通常表现出瞬态和持久特性。例如,主体的身份和动作可能在短剪辑中保持固定(持续),而人的肢体可能在他/她执行动作时移动(瞬时)使用简单的VAE+RNN [26]组合对视频进行建模可以有效地以帧的时间粒度对所有帧外观进行建模。这通常导致在生成期间的人为因素,如不期望的身份改变。为了解决这个问题,我们通过引入整体属性控制来构建潜在空间。这样的控制变量的关键益处是它们是持久的,这意味着它们相对于视频的帧速率保持固定或极不频繁地改变。以下两段更详细地描述了整体属性控制,并示出了它们与残差和时间信息的分层集成(图1)。第2b段)。整体属性控制。整体属性a=(ai)i是不随时间改变的一组预定义属性例子包括人类动作序列中的人物身份或通用视频剪辑中的场景标签这些固定属性变量对整个生成的视频序列进行投射整体控制,并且通常可以是各种类型:分类的、离散的或连续的。它们的状态可以被箝位到所需的值,从数据中推断,甚至从一些外部数据源中导出在这项工作中,控件在训练时以半监督的方式推断,并在生成期间设置为固定的。训练 由于VAE编码器φenc已经将输入图像x(1:T)映射到一组潜在特征φencx(1:T),因此我们通过下式从这些表示中推断属性ai:在编码r之后为每个属性添加小分类网络φ(i)。6这在图中由下面的橙色箭头表示。2b,可以表示为ai=φ(i)。φenc.x(1:T)ΣΣ。(三)图像编码器φenc和属性分类器φatt ={φ(i)}i是独立学习这允许属性推断的容易预训练和快速适应新属性。这种设置的另一个优点是,它使得可以利用标记的训练数据的子集来学习Φatt并推广到具有相同属性的剩余(未标记的)训练实例,从而产生半监督训练场景。一般来说,我们观察到约20%的训练数据的标签信息足以推断剩余的属性。一旦为训练集中的每个视频推断出属性,它们就在VideoVAE训练期间用作固定控件(第12节)。4).5它们不随时间而改变,除非明确要求,例如。,以控制合成剪辑的时间内容,如图所示。4.第一章6每个网络由两个完全连接的层组成,中央ReLU单元连接在LSTM中。用于属性推理的LSTM独立于主要的LSTM建模运动动力学。基于整体属性控制的概率视频生成7试验. 属性被设置为固定的,以便对生成过程进行整体控制。它们可以是单个标签(例如,“行走”)或标签序列(例如,,条件近似后验。传统的VAE将数据编码为近似的后验分布,并从之前的数据中采样以合成新的数据。这在图像生成中工作良好,因为每个合成图像可以独立地被采样。然而,在视频生成中,连续样本应当是时间上相干的。换句话说,样本的抽取应该以先前的信息为条件,而且样本的顺序也很重要。潜在代码z应该将这种类型的帧级一致性与由上述整体控制变量提供的序列级一致性基于这些观察结果,我们提出了以下结构化的潜在空间,它包括一组分层近似后验分布(图1)。2b):(1) 初始近似后验分布N(μ(t),σ(t)),概念性建模Q Q整体属性未捕获的剩余信息;(2) 一个条件近似后验,N(μ(t),σ(t)),编码的完整外观a a该框架将整体属性控制与残差后验分析相结合(3) 动态近似后验,N(µ(t),σ(t)),进一步包含运动迪迪信息并强制执行时间上相干的轨迹。请参阅Sec。第3.3节有关时间信息集成的更多详细信息。这三个分布可以用编码输入、属性和LSTM状态来表示。ψ(t)=[μ(t),σ(t)]=φτ(φenc(x(t),q q qψ(t)=[μ(t),σ(t)]=φτ(ψ(t),a),(4)阿qψ(t)=[μ(t),σ(t)]= φτ(ψ(t),φτ(h(t−1)。天天天天这里,φτ指的是一个神经网络,其架构类似于属性推理网络(两个完全连接的层,有一个中央ReLU单元,但没有LSTM)。Φ τ的单独实例(图1B中的黑框)。2b)沿着我们的结构化潜在空间的分层链共享该架构,但具有不同的权重。3.3时间模型VideoVAE在每个时间步长处包含VAE,并且利用LSTM在时间步长之间传播信息以捕获视频中的运动动态以下两段讨论了在时间t处关于VAE的编码器和解码器的该时间信息的整合。这种相互作用的图示描绘在图1中2a.译码器时间步t处的潜在变分表示以LSTM的状态变量h(t−1)为条件。这种额外的依赖性增加了视频在时间上高度一致的事实,并防止了内容和运动的在两个连续的帧之间改变得太快。作为先验分布8Jiawei He等pQψ(t)表示模型在时间步长t的预测和置信度,在所有先前信息的情况下,它不应该是固定的高斯分布[μ(t),σ(t)]=φτ(φτ(h(t−1)),a),(5)p p其中μ(t)和σ(t)表示时间步t处先验分布的参数。与p p在此设置下,假设LSTM隐藏状态h(t−1)包含来自x(
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功