属性控制的视频生成模型：一致性和多样性

26 浏览量更新于2024-06-20 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"基于整体属性控制的视频生成模型 - Jiawei He, Andreas Lehrmann, Joseph Marino, Greg Mori, Leonid Sigal - 加拿大本拿比西蒙弗雷泽大学, 美国匹兹堡迪斯尼研究所, 美国帕萨迪纳加州理工学院, 加拿大温哥华英属哥伦比亚大学" 本文探讨的是一个创新的视频生成模型，该模型侧重于整体属性控制，允许在生成视频时精确地调整和保持特定的视觉特性。视频生成是一个复杂的任务，因为它涉及到捕捉并重现视觉数据的时空结构。该模型由两个主要因素驱动：一是帧内的持久内容，包括人物的身份和活动等不变或缓慢变化的元素；二是帧间的运动和场景动态，这涉及到动作的演变。为了实现这一目标，研究人员提出了一种生成框架，该框架利用变分自动编码器（VAE）将视频帧编码到潜在空间，并使用循环神经网络（RNN）来建模潜在空间中的动态。通过时间条件采样，该模型提高了生成视频的一致性，同时通过构建具有属性控制的潜在空间，可以更好地理解和调整生成过程中的属性。这意味着，只要给出特定的属性和/或第一帧，模型就能生成一系列多样但一致的视频序列。在实际应用中，深度生成模型如VAE和生成对抗网络（GANs）因其概率特性和无监督学习能力，已经在图像生成、文本合成等领域展现出强大的潜力。然而，视频生成相比图像生成更具挑战性，因为它需要处理时空连续性和一致性问题。尽管已有研究在受控属性的图像生成上取得进步，但视频生成仍然面临困难。实验结果显示，这个新的框架在三个具有挑战性的数据集上表现出了有效性，并与现有最先进的方法进行了对比。通过属性控制，模型能够生成逼真的视频序列，无论是单一属性的控制，还是多个属性的同时控制。例如，可以独立地改变视频中的人物动作和身份，而不会影响其他视觉元素的连续性，如图1所示。这项工作为视频生成和未来预测提供了一个新的视角，它不仅能够生成多样化的内容，还能够在生成过程中实现对关键视觉属性的精确控制，这对于视频编辑、动画制作和虚拟现实等领域具有重要的理论和实践意义。通过这样的模型，未来的研究和应用有望更深入地探索视频生成的可能性，特别是在内容创造和交互式媒体体验方面。

资源详情

资源推荐

Jiawei He等

然而，这种（极端）短期预测无法对运动进行建模。在一个稍微不同的任务

中，[30]使用GAN来建模运动，[31]使用VAE来预测行人的轨迹。相关的，[32]

在编码器和解码器中使用RNN，以及之前的前馈网络，对视频和其他动态数据

进行建模，特别是用于反事实推理。在[33]中，作者使用VAE对基本物理现象

视频的潜在空间中的线性动力学进行编码;[34]使用一组额外的离散潜在变量来

模拟潜在空间中的线性动态。最后，[35]提出了一种概率视频模型，该模型估

计视频中原始像素值然而，这些模型缺乏一个自然的潜在结构来捕捉语义级信

息。

捐款. 我们的主要贡献是一个新的生成视频模型VideoVAE基于变分自动编码器

（VAE），其提供将全帧编码成紧凑潜在状态/从紧凑潜在状态解码全帧的概率

方法考虑到视频中的运动，使用LSTM对潜在空间中的结果分布的运动进行建

模。在每个时间步长，结构化潜在分布可以被采样并解码回全帧。为了提高推

理和生成的质量，我们提出了一种将潜在空间分解为整体属性控制和剩余信息

的方法;控制变量可以从视频的第一帧或片段中被观察（指定）或推断（允许半

监督训练）。此外，由于动态和外观可以是多模态的，为了避免模式之间的跳

跃，我们提出了条件采样，这有利于自洽序列生成。在三个具有挑战性的数据

集上的实验表明，我们提出的模型可以生成比最先进的视频更好的可信视频。

概率视频生成

我们现在将描述我们提出的模型（图1）。2）的情况。在高级别，VideoVAE通

过建立在VAE作为空间模型和LSTM作为时间模型的基础上来对时空序列进行

建模，

即

每个帧被编码成潜在分布（表示帧内的外观依赖性），该潜在分布被

馈送到递归神经网络（对跨帧的运动动态进行建模）。我们将首先提供两个基

本模型的简要总结（第2节）。3.1），然后讨论我们的贡献，导致连贯和可控

的视频生成：具有整体属性控制的结构化潜在空间（Sec. 3.2）和条件变分后验

（Sec. 3.3）。

3.1

背景：基础模型

变分自动编码器（VAE）。

VAE [4]

描述了具有简单先验

（

）的生成过程

的实例（

例如，

，

Gaussian

）和复似然

（

）（

例如

神经网络），其中

是潜在变量，

是观测变量。逼近难处理的后

（

）与变分神经网络

（

），我们可以通过最大化边缘上的变分下界

来联合优化

和

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

属性控制的视频生成模型：一致性和多样性

基于云模型的多属性决策分析 pdf

分别阐述基于相似性的绘图方法、基于属性的绘图方法两种方法的步骤，简述两种方法得出知觉图结果的不同点。

借助高光谱相机、激光雷达、红外相机等多种感知手段，基于几何流形研究多尺度敏感目标样本生成方法的关键科学问题

数据库表设计整体关系er图

基于MATLAB的有限元法求解MIT的正基于相关代码

3D Drawing CAD Data

freemarker/template/configuration

图神经网络处理回归问题

BIM图纸和CAD图纸的区别和关系，如何优化绘制BIM图纸和绘制CAD图纸的工作流程。

umat编写3dhashin

StackingClassifier 的coefficient 怎么画图

轨迹交叉理论与Agent仿真

循环荷载三轴 pfc5.0 PFC5.0

光伏储能同步发电机simulink仿真模型 主电路：三相全桥逆变 直流侧电压800V 光伏模块：光伏板结合Boost电路应用MP

深入剖析Oracle与MySQL在数据安全性方面的差异

深圳大学校园网自动登录脚本,适用于使用Drom客户端的校园网登录验证系统。对配置文件中的密码进行加密.zip

MATLAB直线倒立摆一阶倒立摆LQR控制仿真，小车倒立摆起摆和平衡控制，附带参考文献 三种控制方法对比 pd控制、lqr控制、

2020年计算机等级考试复习题及答案.pdf

C# winform yolov11-onnx实例分割模型部署源码.7z

技术面试必备知识点：Android、Java、C、C++、Python、Flutter、Gradle、数据结构、计算机等等

最新资源

光伏储能同步发电机simulink仿真模型主电路：三相全桥逆变直流侧电压800V 光伏模块：光伏板结合Boost电路应用MP

MATLAB直线倒立摆一阶倒立摆LQR控制仿真，小车倒立摆起摆和平衡控制，附带参考文献三种控制方法对比 pd控制、lqr控制、