文本-图像到视频生成：运动锚点的视频生成器的可控性与多样性

62 浏览量更新于2023-10-26 收藏 20.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

182190使其移动：使用文本描述的可控图像到视频生成0Yaosi Hu 1* Chong Luo 2 Zhenzhong Chen 10武汉大学1 微软亚洲研究院20ys hu@whu.edu.cn cluo@microsoft.com zzchen@whu.edu.cn0摘要0生成符合用户意图的可控视频是计算机视觉中一个有吸引力但具有挑战性的课题。为了实现与用户意图一致的可操纵性控制，提出了一种名为文本-图像到视频生成（TI2V）的新型视频生成任务。TI2V旨在通过静态图像和文本描述生成具有可控外观和动作的视频。TI2V任务的关键挑战在于对齐来自不同模态的外观和动作，并处理文本描述中的不确定性。为了解决这些挑战，我们提出了一种基于运动锚点的视频生成器（MAGE），它具有创新的运动锚点（MA）结构来存储外观-动作对齐表示。为了模拟不确定性并增加多样性，它还允许注入显式条件和隐式随机性。通过三维轴向变换器，MA与给定图像进行交互，以满足可控性和多样性生成下一帧。伴随着这个新任务，我们基于MNIST和CATER构建了两个新的视频-文本配对数据集进行评估。在这些数据集上进行的实验证实了MAGE的有效性，并展示了TI2V任务的吸引人潜力。数据集可在https://github.com/Youncy-Hu/MAGE上获得。01. 引言0视频生成在近年来经历了革命性的变化，并取得了巨大的进展。早期的无条件视频生成研究[24，26，28]侧重于如何从噪声或对齐的潜在空间中生成视频或潜在向量。最近，更多的关注点放在了可控视频生成[4，11，30]上，这允许用户表达关于场景或物体外观（外观信息）或物体移动方式（动作信息）的意图。可控视频生成具有许多潜在的应用，包括帮助设计师进行艺术创作和协助机器学习从业者进行数据增强。0* Yaosi Hu在MSRA实习期间完成了这项工作。0图1.提出的TI2V任务的示意图。图像和详细的文本描述分别提供视频生成的外观和动作信息。0现有的可控视频生成任务可以分为三类，即图像到视频生成（I2V），视频到视频生成（V2V）和文本到视频生成（T2V）。这些任务为用户提供了不同的方式来注入外观和动作信息，因此对这两个因素具有不同程度的控制。I2V和V2V对生成视频的外观具有很强的控制能力，因为通常会提供单独的图像来设置场景。至于动作，I2V的可控性有限，因为该任务只接受粗粒度的动作线索，例如预定义的动作标签或方向[4]。相比之下，V2V可以生成具有高度可控的动作的视频，因为详细的动作指导，例如轨迹[11]或动作序列[6，19]以输入视频的形式提供。但是V2V在实际使用中的一个缺点是很难获得这样的动作指导。在所有这三个任务中，T2V对生成的视频的控制最弱。用户通过文本提供外观和动作信息，这是不精确且有时模糊的。然而，动作的文本描述更符合人类习惯[35]，并为视频生成留下了很大的创作和想象空间。在本文中，我们介绍了一种新的视频生成任务，称为文本-图像到视频生成（TI2V）。它为用户提供了一种自然的表达意图的方式，使用单个静态图像来设置场景和自然文本描述。182200TI2V是一个比I2V或T2V更困难的任务。它不仅需要对文本和图像进行分别理解，还需要将视觉对象与相应的文本描述对齐，然后将暗示的对象运动转化为明确的视频。我们在TI2V任务中的目标是：i）可控性。在图像和文本的约束下，生成的视频应具有由给定图像设置的视觉一致性外观，并具有文本中描述的语义对齐运动。ii）多样性。这个目标解决了歧义问题并带来了创造力，这对于视频生成来说是重要且吸引人的特点。在图1中给出的例子中，文本描述没有指定它想要拾取哪个锥体，以及它想要将金属球滑动到“第四象限”的哪个确切位置。在这种“约束的随机性”下，我们希望生成与描述相匹配但又多样的视频。我们设计了一个名为MAGE的自回归框架来解决TI2V任务。采用VQ-VAE编码器-解码器架构进行高效的视觉令牌表示。关键挑战在于如何将文本描述的运动与视觉特征合并，以生成可控和多样的视频。为了实现可控目标，我们提出了一种空间对齐的运动锚点（MA），通过在图像和文本的共同潜空间中进行交叉注意力操作，将外观和运动信息进行整合。MA中的每个位置存储了视频生成所需的相应区域的所有必要运动信息。我们进一步在MA中引入了显式条件和隐式随机性。显式条件从显式输入（例如速度）提供了额外的约束，以改善可控性和多样性，而隐式随机性则在数据分布中引入了不确定性，使模型能够以随机的方式生成多样的视频。在提出的MAGE框架中，我们采用轴向变换器将MA注入和融合到视觉令牌中，并以自回归方式生成视频。为了评估TI2V任务和我们的生成模型，需要适当的配对视频-文本数据集。与通常在动作识别数据集（如KTH [25]）或字幕数据集（如MSR-VTT[38]）上进行实验的T2V任务不同，TI2V更注重对图像的操纵能力，并需要细粒度的文本描述。因此，我们基于MNIST[14]和CATER[10]提出了两个具有合成视频和细粒度文本描述的数据集，用于TI2V任务。通过控制描述中的不确定性，我们可以评估确定性和多样性视频生成的性能。本文的贡献总结如下：0•引入了一项新颖的文本-图像到视频生成任务（TI2V），旨在从图像和文本描述生成视觉上一致的视频。0•提出了一种基于运动锚点的视频生成器（MAGE），用于生成可控和多样的视频。核心结构运动锚点（MA）解决了图像中的外观与文本中的运动线索之间的匹配问题。0•为了评估TI2V任务，我们构建了两个基于MNIST和CATER的视频-文本配对数据集。此外，对这两个数据集进行的实验证实了MAGE的有效性。02. 相关工作0我们只考虑由人类意图引导的视频生成工作。在这个背景下，人类意图主要由场景描述（空间信息）和运动描述（时间信息）组成。根据人类意图的表达方式，我们将相关工作分为三类，即视频到视频（V2V）生成、图像到视频（I2V）生成和文本到视频（T2V）生成。需要注意的是，无条件视频生成[24, 26, 28, 32,0这里不讨论从随机变量或潜在向量生成视频的作品，因为它们不提供人类表达意图的接口。02.1. 视频到视频生成0V2V任务有两种流行的形式，即未来视频预测和视频到视频合成。它们从输入视频中检索或预测所需的运动。未来视频预测基于提供的若干过去帧预测未来帧。生成器需要检索过去的运动并预测未来[17, 29, 34,36]。由于物体运动的不可预测性，该设置中的作品仅用于预测极少量的未来帧。在视频到视频合成中，以明确的形式提供运动信息，例如一组稀疏的运动轨迹[11]，一系列人体姿势[6, 31]或一系列离散动作[9,19]。空间信息可以通过单独的图像或帧（带或不带分割掩模）[11, 19,30]或结构化数据（如3D人脸网格[41]）提供。由于丰富的输入信息，视频到视频合成可以生成具有可控运动的高质量视频。然而，运动序列通常很难获得。02.2. 图像到视频生成0图像到视频生成是指从单个图像和随机或非常粗糙的运动线索生成视频的工作。当没有提供运动线索时，视频是通过输入图像提供的空间信息以随机方式生成的[2, 5, 8, 15, 37,39, 40]。用于生成视频的模型可以是生成的182210对抗网络（GAN）[40]或变分自动编码器（VAE）[8]。这种随机视频生成只能处理分布中的短期动态模式。为了产生更可控的视频，可以提供粗粒度的运动线索，包括预定义的方向或动作标签[21]。最近，Blattmann等人提出了一种交互式I2V合成模型，允许用户通过手动触摸像素来指定所需的运动。I2V生成不需要用户提供详细的运动信息，这减轻了使用的负担，但同时不太可能用于生成具有复杂运动模式的视频。02.3. 文本到视频生成0T2V任务旨在根据文本描述生成视频，这是一项具有挑战性的任务。关于这个主题的研究相对较少。Mittal等人[20]首次介绍了这个任务，并提出了一种基于VAE的框架，称为Sync-DRAW，用于编码简单的标题并生成语义一致的视频。一项并行工作[18]通过标题生成可变长度的语义视频。该模型依赖于VAE和递归神经网络（RNN）来学习视频的长期和短期上下文。其他工作[3, 7, 16,22]也尝试根据标题和潜在噪声向量生成视频。然而，由于文本的歧义性及其在提供细粒度外观信息方面的低效性，生成的视频通常具有低分辨率或非常模糊。最近，提出了一种基于VQ-VAE的生成器GODIVA[35]，用于从文本生成开放域视频。然而，生成的视频的外观往往是训练阶段中看到的最显著的特征。它不太可能为复杂场景或未见过的外观生成视频。与I2V相比，提出的TI2V可以通过可操纵的动力学生成可控制的视频。与V2V相比，TI2V不需要复杂的辅助信息。与T2V相比，由于指定的外观和细粒度运动，TI2V可以生成更可控的视频。03. 文本-图像到视频任务的MAGE03.1. TI2V问题形式化0TI2V任务旨在从静态图像和文本描述生成视频。形式上，给定单个静态图像x1∈Rh×w×C和包含L个单词的文本描述s={s1, ...,sL}，TI2V的目标是学习一个映射函数，生成具有与x1一致外观和s指定运动的帧序列ˆx={ˆx2, ...,ˆxT}。我们通过监督学习方法来解决TI2V任务。在训练过程中，参考视频由0对于(x1, s)提供了x={x2, ...,xT}。训练目标是使得给定x1和s的条件下，ˆx的条件分布近似于x的条件分布。03.2. MAGE框架概述0MAGE采用基于VQ-VAE的编码器-解码器架构。VQ-VAE[27]是将高度冗余的视觉数据转换为简洁表示的有效工具，这是视频生成中需要进行的语义级操作的良好选择。整个框架如图2所示。当给定初始图像x1和文本描述s时，图像被传递给VQ-VAE编码器并被标记为一组（16x16）的潜在代码z1。然后，将矢量量化的图像标记以及文本嵌入传递给交叉注意力模块，以获得空间对齐的运动表示，称为运动锚（M）。明确的条件和隐含的随机性（稍后将详细介绍）也被集成到MA中。然后，通过轴向变换块将MAM与z1融合，产生ˆz2，从中VQ-VAE解码器可以解码出下一个视频帧ˆx2。一旦获得ˆzi（i≥2），它将与M和所有先前的帧一起发送回轴向变换器以生成ˆzi+1。请注意，MA是一个全局变量，包含生成整个序列所需的所有运动信息，因此只需要计算一次。当达到预定义的序列长度时，生成过程停止。MAGE框架的核心是运动锚。所有相关的网络模型，包括交叉注意力、轴向变换块、编码明确条件的函数ϕ和编码隐含随机性的函数ψ，都是一起训练以实现统一的目标。然而，VQ-VAE编码器和解码器是预先训练的外围模块。为了完整起见，我们首先介绍了如何预训练VQ-VAE。VQ-VAE模型由潜在码本C∈RK×D、编码器E和解码器D组成，具有相应的下采样和上采样比例n。输入图像x∈RH×W×C首先被编码为潜在向量ex=E(x)∈Rh×w×D，其中h=H/n，w=W/n。然后，通过在C中进行最近邻查找将ex离散化，以获得量化索引z∈Rh×w和量化向量˜ex∈Rh×w×D。解码器具有编码器的反向结构，然后从˜ex中重构图像ˆx。VQ-VAE通过图像级重构任务进行训练。训练目标包括重构损失、码本损失和承诺损失。它的写法是：0L=logP(ˆx|˜ex)+∥sg(ex)−˜ex∥22+β∥ex−sg(˜ex)∥22，其中sg表示停梯度运算符，β是加权因子。在这个预训练阶段之后，E和D中的参数被冻结。(2)182220图2.MAGE框架的示意图。黑色虚线和灰色虚线分别表示仅在训练和推理过程中涉及的操作。黑色实线表示在两个过程中都使用的操作。图中每个帧仅为可视化目的而用4×4个标记表示。0in E and D are frozen.03.3. 基于MA的视频生成0运动锚点是MAGE实现TI2V任务的核心设计。它将文本与图像对齐，并允许显式条件和隐式随机性的注入。03.3.1 图像-文本对齐0在MAGE中，我们采用交叉注意力模块实现图像内容与文本中给出的运动线索之间的对齐。我们采用可学习的文本编码器从输入文本s计算文本嵌入e s ∈ R L ×d，其中d是隐藏大小。es被用作交叉注意力模块的键和值。图像嵌入z1通过可学习的嵌入矩阵转换为与es相同的潜空间，并将转换后的嵌入表示为e z 1 ∈ R h × w×d，用作查询。交叉注意力操作定位每个视觉标记的响应词，并聚合暗示的运动信息。然后，通过前馈和归一化层将运动信息和相应的视觉信息融合，生成运动锚点M ∈ R h × w× d。该过程可以描述为：0Q = e z 1,i,j W q, K = e s W k, V = e s W v,0M i,j = FFN(e z 1,i,j, A i,j) .0其中e z 1,i,j表示第一帧中位置(i,j)处的视觉嵌入。MultiHead和FFN分别表示多头注意力和前馈网络。因此，M i,j存储了位置(i,j)处的外观和运动信息。03.3.2 显式条件和隐式随机性0我们允许MA编码一些在文本中未表达的可量化条件。在这项工作中，我们演示了一种称为运动速度的典型条件如何被纳入生成过程并在生成的视频中得到体现。简单的线性层ϕ被应用于将速度η编码为嵌入向量c ∈ R d。其表示为：0c = ϕ(η) . (3)0此外，文本描述可能存在歧义。与输入的图像-文本对应的“正确”视频可能不是唯一的。因此，模型需要适应数据分布中的现有随机性r，并随机生成与文本在语义上一致的多样化视频。我们提出使用变分信息瓶颈[1]ψ进行隐式随机性建模。ψ由几个3D卷积块和一个重参数化层组成。在训练过程中，我们将视频的随机性编码为符合标准正态分布的随机变量。在推断过程中，随机变量直接从分布中采样并合并到(7)• CATER-GEN-v1: CATER-GEN-v1 is a simpler ver-sion which is built with two objects (cone and snitch)and a large ”table” plane inherited from CATER. Thereexist four atomic actions: “rotate”, “contain”, “pick-place” and “slide”. Each video randomly contains oneor two actions. When generating descriptions, we de-sign a predefined sentence template to fill the sub-ject, action, and optional object. The final positionis also provided for actions “pick-place” and “slide”.By specifying the final position with an accurate co-ordinate or a quadrant area, explicit descriptions andambiguous descriptions are provided for deterministicand diverse video generation, respectively.The resolution of the generated video is 64 × 64 for thenew and two existing MNIST-based datasets, and 256 ×256 for two CATER-based datasets.Both Single Mov-ing MNIST and Double Moving MNIST contain 10k pairsfor training and 2k for testing following [7]. For CATER-GEN-v1, we generate 3.5k pairs for training and 1.5k pairsfor testing. For the more complicated datasets Modified-MNIST and CATER-GEN-v2, we generate 24k pairs fortraining and 6k pairs for testing. Samples from generateddatasets are shown in Fig. 3.182230MA0r � q ψ(r | e z 1 � T) . (4)0为了向MA注入随机性r，我们采用自适应实例归一化（AdaIN）层[13]。由于速度对每个动作的影响是等效的，c直接通过和通道级的加性注入到M中，以改变全局动作信息。其公式为0� M = AdaIN(M, r) + c. (5)03.3.3 外观-运动融合0获得运动锚点� M ∈ R h × w ×d后，视频生成器G共同建模MA和视觉标记嵌入。为了减少计算量，我们采用N个轴向变换器块，分别在时间、行和列上进行三维轴向注意力[12,35]。因此，注意力复杂度从O(Thw)2降低到O(Thw(T+h+w))。生成过程可以表示为0将随机性r注入MA中，应用自适应实例归一化（AdaIN）层[13]。由于速度对每个动作的影响0其中[∙]表示连接操作，PE表示位置嵌入。注意，行和列的注意力在各自的轴上具有完整的感受野。但对于时间轴的轴向注意力，我们应用因果掩码以确保视觉标记只能接收来自前一帧的信息。堆叠多个轴向变换器块后，每个视觉标记在当前和前一帧上具有完整的感受野，用于空间和时间信息。每个位置的标记不仅可以从MA中获取完整的运动信息，还可以“追踪”前一帧中的运动。通过空间对齐MA循环生成帧，确保连贯和一致的视频输出。视频生成器的训练目标包括视觉标记预测的交叉熵损失，以及显式条件c和隐式随机性qψ(r | X)的两个约束。其公式为0L = -10T0i=2zi log(P(ˆzi|z

下载后可阅读完整内容，剩余1页未读，立即下载