静止图像中流体元素的可控动画生成方法

128 浏览量更新于2023-10-25 收藏 18.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

It is widely perceived that animations capture humanimagination more than still images. The effect of this canbe seen in the proliferation of video content that is beinguploaded on social media. Studies show that video-basedads and explainers are far more likely to gain trust and en-gagement than those based on other modalities, leading to asignificant boost in sales. However, the required animationsor videos are less easily available for the users to leveragethan still images that exist in abundance in one’s collection.Hence, it is desirable to empower the practitioners with con-trollable tools to convert the still images to videos of therequired kind. This motivates us to consider the problemof animating images with user control to generate outputvideos that are generally called ‘cinemapgraphs’ in litera-ture. Similar to [11] we focus on the images that containfluid elements like water, smoke, fire that have repeatingtextures and continuous fluid motion.There has been a rich body of work [1,3,5,7,9–11,16,20,25]36670静止图像中流体元素的可控动画0Aniruddha MahapatraAdobe Research India0anmahapa@adobe.com0Kuldeep KulkarniAdobe Research India0kulkulka@adobe.com0（a）（b）（c）0图1. 我们的方法接受输入图像以及用户提供的运动提示（图a中的红色箭头）和用户提供的掩码（图b中的白色）来指示要进行动画处理的流体元素区域，并输出动画视频的帧序列。0摘要0我们提出了一种方法来交互式地控制静止图像中流体元素的动画，以生成电影图。具体而言，我们专注于对水、烟雾、火等流体元素的动画处理，这些元素具有重复纹理和连续流体运动的特性。受到之前的工作的启发，我们将图像中这些流体元素的运动表示为一个恒定的2D光流图。为此，我们允许用户提供任意数量的箭头方向和它们关联的速度，以及用户希望进行动画处理的区域的掩码。然后，将用户提供的输入箭头方向、对应的速度值和掩码转换为表示恒定光流图的密集流动图（F D）。我们观察到，使用简单的指数运算得到的 F D可以很好地近似图像中元素的运动。我们进一步使用生成对抗网络（GAN）对计算得到的密集光流图 F D进行改进，以获得更真实的光流图。我们设计了一种基于UNet的新型架构，通过在不同分辨率下前向变形输入图像特征来自回归地生成未来的帧。我们在一个公开可用的数据集上进行了大量实验，并展示了我们的方法在定性和定量指标上优于基线方法。0此外，我们展示了在训练集中不存在的方向上的对象的定性动画，并提供了一种合成在现实世界中不存在的视频的方法。项目网址：https://controllable-cinemagraphs.github.io/01. 引言36680该方法专注于从静止图像生成动画。虽然[3, 7, 11, 16, 20,25]专注于不可控的图像到视频合成，但已经尝试过使用用户提供的运动方向来进行可控的图像到视频合成[1, 2, 5, 9,10]。虽然这些方法为用户提供了一定的控制权，但它们存在某些缺点。具体而言，[1, 2,5]要么只允许用户点击单个像素位置，要么提供单个用户方向。Halperin等人[9]通过利用建筑物、楼梯等重复结构图像中存在的自相似性获得位移场。然而，这种方法不适用于我们考虑的流体对象的动画，因为这些对象没有特定的结构可以体现自相似性，从而导致错误的位移场。Hao等人[10]提出了一种方法，用户可以提供稀疏的轨迹作为输入，这些轨迹由不同位置的运动方向定义。通过无监督的方式估计出密集的光流图，并与输入图像进行变形以获得未来的帧。正如后面所示，这样估计出的密集光流是脆弱的，并且容易产生不现实的视频合成结果。受此启发，我们考虑了在给定i)单个静止图像ii)用户提供的指定要进行动画处理的区域的掩码和iii)一组称为流动提示的运动方向的情况下对图像进行动画处理的问题。为了避免直接从用户输入中获得流动图的问题，我们提出了一种两步方法来估计从稀疏的箭头方向和它们关联的速度集合中获得的流动图。首先，我们使用用户输入的运动方向和速度的简单指数运算来近似密集光流。接下来，使用基于GAN的网络[8]进一步改进了估计的近似流动图，以获得表示所需运动的恒定2D流动图的最终估计。估计的流动图与输入图像一起输入到基于GAN的图像生成器中，类似于Holynski等人[11]，以获得未来的帧。我们的论文的贡献如下。0•我们提出了一种两阶段的方法，以交互方式控制静止图像中流体元素的动画效果。0•我们提出了一种新颖的方法，通过对用户提供的速度和方向的简单指数运算来近似描述运动的恒定流场图。0•通过定性和定量实验证明，我们的方法在公开数据集中的流体运动图像上击败了所有先前的方法和其他提出的基线方法。0• 通过定性分析，我们证明了我们的方法对任意用户指令集的泛化能力。0在训练集中不存在的方向上生成流体对象的动画。02. 相关工作0视频合成工作以多种方式进行。许多工作集中在无监督和随机的视频合成上[3, 7, 16, 20, 25, 26,29]。有一些研究处理从中间表示（如语义标签映射）生成视频的问题[18, 27,28]。与本文相关的是关于单图像到视频合成的工作[1, 2,4-6, 9-11, 14, 15,29-31]。Chuang等人[4]通过允许用户将图像分解为几个层次来实现图像的动画效果，每个层次需要以不同的方式进行动画处理。Xiong等人[30]提出了一种两阶段的方法，从单个图像中合成视频，其中第一阶段使用3D-GAN生成一系列帧，第二阶段使用另一个GAN进一步优化帧序列。Li等人[14]首先从输入图像预测未来帧的光流图序列，然后使用这些光流图获取未来的RGB帧。Logacheva等人[15]提出了一种完全不同的方法，通过在StyleGAN[12]潜在空间中对视频中的景观帧序列进行建模，同时强制保持时间上的一致性。与[14]类似，Holynski等人[11]首先估计未来帧的光流，不同的是该方法假设视频中存在一个恒定的二维光流图。这些方法[4, 11, 14, 14, 15,30]可以自动从单个静止图像生成视频，因此不允许用户交互来控制动画。与上述方法不同，[1, 2, 5, 6, 9,10]允许用户以不同程度的交互来控制动画的运动，因此与本文更相关。Dorkenwald等人[5]提出了一种通过残差表示实现图像和视频之间的一对一映射的方法，允许用户为视频生成提供单一的运动方向。[1]和[2]提出了一种方法，通过在运动的起始位置和结束位置定义的特定位置上对图像的不同部分进行动画处理。然而，这些方法[1, 2,5]不适用于我们的问题，因为我们需要在任意位置使用稀疏的输入方向和速度。与我们的工作最接近的方法是[10]。该方法允许用户通过为每个帧提供稀疏轨迹来进行交互。给定特定帧的稀疏轨迹，使用单个网络来获取密集的光流图和虚构的图像。将密集的光流图与输入图像进行双线性变换，以获得对帧的估计，然后将其添加到虚构的图像中以获得最终的预测帧。我们与该方法有两个不同之处，i）我们不是直接从稀疏轨迹中获得密集的光流，而是首先通过简化的方法获得其近似值。FS(xi, yi) =36690通过对用户输入的简单指数函数进行操作，然后使用网络进行精细调整。ii）我们不再通过对输入图像进行简单的双线性插值来获得最终图像，而是采用[11]中的方法，使用一个单独的网络，该网络接收输入图像和与特定帧对应的流场图，并使用对称的特征分割来获得RGB帧。03. 方法论0给定单个输入图像 I ∈ R H × W × 3，用户想要动画化的图像区域的掩码 M ∈ R H × W × 1，K 个箭头方向 A 1 ..,K 和相应的速度值 S 1 ..,K，我们的目标是生成一个由 N 帧（ I 1 ..,N）组成的逼真动画视频。我们的方法首先将箭头方向和速度值转换为稀疏输入流图 F S ∈ R H × W × 2（第 3.2节），其中位置 i 处的流（在 F S中箭头的位置）定义了该位置像素在所有未来帧中移动到的位置。我们提出使用简单的指数函数将 F S 转换为密集流图F D （第 3.3 节）。使用 F D 和输入图像 I作为引导，我们使用流细化网络生成密集细化流图 F R D（第 3.4 节）。最后，为了生成输出视频帧，我们使用基于UNet [ 21 ] 的帧生成器在特征图的不同分辨率下使用 F R D扭曲输入图像生成视频帧（第 3.5 节）。03.1. 初步：Eulerian 流场0使用光流将单个图像扭曲为视频帧需要非常准确的光流才能获得逼真的视频。在真实世界的视频中，大多数情况下，视频中每一对帧之间的光流是时变的。根据这个原则，Endo等人[ 6]使用先前生成的帧预测光流的自回归。尽管从理论上讲，这似乎是可行的，但从长远来看，由于误差传播，会导致较大的失真。相反，Holynski 等人[ 11]假设存在一个恒定且时不变的光流场 M F ，称为 Eulerian流，它描述了视频中连续帧之间像素位置的运动，可以准确地近似逼真视频中流体元素（如水、烟、火等）的复杂运动。具体而言，对于给定的像素位置 i ，任意时间 t的视频中连续帧之间的光流 F t → t +1 如下所示：0F t → t +1 ( i ) = M F ( i ) (1)0相应地，第一帧和任意时间 t 的帧之间的光流可以通过Euler 积分 M F ，t 次得到，如下所示：0F 0 → t ( i ) = F 0 → t − 1 ( i ) + M F ( i + F 0 → t − 1 ( i )) (2)0其中 F 0 → 1 = M F。由于我们也在流体元素的领域中操作，我们采用[ 11]中提出的原则，使用恒定的光流场来模拟生成帧中元素的运动。03.2. 基准：稀疏输入流 F S → 稀疏细化流 F R S0我们将箭头方向 A 1 ..,K 和对应的速度 S 1 ..,K转换为稀疏光流图 F S 。图像中的每个箭头 A n （其中 n∈ [0 , K ] ）位于位置 i ，由箭头的起始位置 ( x i , y i )和结束位置 ( x j , y j ) 给出。稀疏光流 F S 的公式如下：0如果 A n 从 ( x i , y i ) 开始，则 � ( x j , y j ) �S n ，否则为 0 (3)0根据 Hao 等人[ 10]，从稀疏轨迹生成时变的密集流图，我们将稀疏流图 F S转换为密集光流图 F R S。然而，与他们依赖于生成时变流图的方法不同，我们生成一个恒定（Eulerian）的密集光流 F R S。为此，我们使用基于 SPADE [ 19 ] 的流细化网络 G F，使用 F S 、输入图像和掩码作为线索，在 SPADE归一化层中。我们称这种计算密集流图的基准为“Hao等人修改”。03.3. 稀疏输入流 F S → 密集流 F D0从图 3 中可以观察到使用 F S 生成的细化密集光流 F R S与真实的 Eulerian 光流非常不同。我们假设 F S不提供足够的信息给 G F以产生逼真的光流。我们建议不直接使用 F S 使用 G F生成密集光流，而是使用每个像素位置与箭头位置之间的距离的简单函数创建中间的密集光流 F D。我们计算输入图像中每个像素位置与所有 K个箭头的起始坐标之间的指数 L 2 欧氏距离（ D exp）。输入图像的位置 ( x i , y i ) 与箭头 A j 的起始位置 ( x j ,y j ) 之间的指数欧氏距离如下所示：0DijL2 = ∥(xi, yi) - (xj, yj)∥2 (4)0Dijexp = e-(DijL2/σ)2 (5)0其中DijL2是输入图像的位置(xi, yi)与箭头Aj的起始位置(xj,yj)之间的欧几里得距离，σ是一个常数。对于图像中的特定像素位置i，稠密光流FD被定义为输入掩码M中每个非零位置的流量大小的加权平均值，其中权重来自于36700SoftMax喷洒0SoftMax喷洒0UNet下采样0层（编码器部分）0UNet下采样0层（编码器部分）0对称喷洒0I00IN I00It0SPADE欧拉积分0深度特征0FS FD FRD F0→t0F0→t0F0→t-N0F0→t-N0ZZ0帧生成稠密光流预测0掩码0图2.该图显示了我们的完整流程。我们系统的输入是输入图像、用户提供的指示要进行动画处理的区域的掩码和运动提示FS。运动提示通过对FS进行简单的指数运算，将其转换为稠密流图FD，然后使用SPADE网络GF进一步细化以获得FRD。在测试时，我们不使用I0和IN，而是获取第t帧的0帧，It作为我们输入到UNet中的输出，取代了I0和IN，以及对应于该帧的欧拉积分流图，正向和反向都用于在深度特征空间中执行对称喷洒。0Dijexp，其定义如下：0FD(i) =0� 0�0∑Kj=1 Dij00 if i � M (6)03.4. 稠密光流FD → 稠密细化光流FRD0尽管FD可以适当地描述大致以相同方向移动的流体区域的运动，并且在两个不同流动区域的边界处具有平滑过渡，但直接使用FD生成通过变形的视频帧存在局限性。在图3和图5中，我们考虑了一些示例，并展示了近似的稠密流和细化的稠密流。虽然稠密流是一个很好的近似，但细化的稠密流比近似的流更接近真实的流。从图5中我们可以看到，生成的稠密流图将相同的水平流量分配给大部分瀑布和湖下方，而实际上瀑布应该是垂直向下移动的。这是因为FD仅基于特定像素位置与简单指数运算的提示点的接近程度生成。因此，与FRD不同，它无法区分对象边界（在本例中是图5中瀑布和湖之间的虚线分界线）并且天真地混合0在两个区域中的流量值。由于这个相同的缺点，它为同一个瀑布的不同区域分配非常不同的流量值，这在现实中是不合适的。因此，使用我们的流量细化网络GF，通过输入图像、掩码和FD作为线索，我们生成了密集的细化光流FRD。使用FRD作为欧拉流场，我们通过第3.5节中讨论的方法生成视频帧。03.5. 视频帧生成0从改进的稠密光流场FRD，我们使用方程2估计从输入图像到所有未来帧的光流场F0→t，其中t∈[0，N]。我们使用正向光流而不是反向光流将输入帧扭曲以生成未来帧，因为[11]观察到正向光流产生更可靠的光流估计和物体边界处更锐利的值。然而，正向扭曲（也称为喷洒）存在挑战：（i）它可能将多个源像素映射到同一目标位置，导致信息丢失和混叠，（ii）它可能不会将任何源像素映射到特定的目标位置，导致空白区域。为了减轻这些伪影，我们使用了softmax-splatting（在[17]中提出）。它通过使用softmax来缩放源像素映射到相同目标位置的分布，解决了与喷洒相关的第一个挑战。�36710输入图像0稀疏输入光流改进的稀疏光流0地面真实光流0改进的稠密光流稠密光流0图3.图中显示了输入图像，以流提示形式的稀疏输入光流以及可以获得的各种光流。可以明显看出，使用简单函数计算的稠密光流与地面真实光流非常接近，而改进的稠密光流在所有光流中最接近地面真实光流。获得的改进的稀疏光流相当差。0根据重要性度量Z∈RH×W×1，预测源像素映射到相同目标位置的分布。在我们的方法中，我们在精调期间（第3.5.3节）在G F的输出中预测Z作为附加通道。03.5.1多尺度深度特征扭曲0我们不直接在RGB空间中使用F0→t对输入图像进行喷洒以生成帧，因为这可能会在生成的帧中产生空洞，而是在图像的深度特征上执行喷洒，类似于[11]。然而，与他们的方法不同的是，我们在输入图像特征的不同分辨率上执行喷洒。使用基于UNet的图像生成器GI，我们从UNet编码器中提取不同分辨率的图像特征。我们使用softmax-splatting来扭曲不同尺度的特征并使用UNet的解码器生成图像。请注意，除了UNet的瓶颈层之外，编码器部分的所有喷洒特征都通过跳跃连接连接到解码器。对于对应于输入图像I的特征映射，分辨率为Dr0，使用F0→t的softmax-splatting输出Drt在像素位置i处给出以下公式：0Dr t(i) =0j∈X Dr0(i) eZ(j)0j∈X eZ(j) (7)0其中X包含所有在喷洒后映射到相同目标位置i的像素。03.5.2对称喷洒0即使在多尺度图像特征空间上使用softmax-splatting，我们观察到在生成的帧中存在越来越大的空洞区域（类似于[11]中观察到的情况），在像素被从区域中扭曲并且没有像素来填补它们的运动显著区域。我们假设GI可能无法为这些区域生成适当的像素值来填补这些空洞。为了解决这个问题，我们使用了[11]中提出的对称喷洒方法。在这种方法中，类似于在正向方向F0→t中生成流场，我们还通过欧拉积分- MF在反向方向F0→−t中生成流场。因此，我们不仅使用从第一帧I0获得的深度特征Dr0和通过F0→t生成的Dr0生成Drt，还使用从最后一帧IN获得的深度特征DrN和通过F0→t和F0→t−N分别喷洒的Dr0和DrN。具体来说，组合深度特征ˆDr t中的任何给定像素位置i由以下公式给出：0ˆDr t(i)=0�0j∈XαDr t(i)eZ(j)+�0j∈XˆαDr t−N(i)eZ(j)0�0j∈ˆXαeZ(j)+�0j∈ˆXˆαeZ(j)0(8)其中α和ˆα分别等于t N和(1−t)0N)，Dr t(i)和Dr t−N(i)是通过softmax-splatting D r 0，Dr N和F 0→t，F 0→t−N获得的特征图，X和ˆX分别由在D rt和D rt−N的分裂后映射到相同目标位置i的所有像素组成。这背后的直觉是，在通过F0→t将第一帧图像分裂生成时间t的帧时，出现的空白区域与通过F0→t−N将最后一帧图像分裂生成的帧中出现的空白区域互补。03.5.3 训练和推理0正如[17]所提出的，为了稳定训练，我们首先分别训练稠密光流细化和帧生成器的2个组件。在训练GF时，我们使用标准的GAN损失和鉴别器特征匹配损失[19]。在这个阶段，我们基于生成的稠密细化光流（而不是生成的Z）计算损失。在训练GI时，我们使用标准的GAN损失、VGG损失[22]、L1损失和鉴别器特征匹配损失。在进行端到端微调之前，我们冻结了细化的稠密光流图，只训练GF生成Z。此外，我们只在帧生成器部分使用鉴别器。与训练不同，我们在GI中使用第一帧和最后一帧进行对称分裂，而在测试时，由于只有一个输入静态图像，我们将同一图像用作GI中的第一帧和最后一帧。36720输入图像真实光流01个提示0精细稀疏流精细稠密流05个提示0(a)0(c)0(b)0(d)0精细稀疏流精细稠密流0图4. 该图显示了一个提示和五个提示的精细稀疏流和精细稠密流的比较。很明显，在各种提示的情况下，精细稠密流更接近于真实光流，而不是精细稀疏流。04. 实验04.1. 数据集准备0由于目前没有任何现有的人工注释的可控视频生成数据集，其中包含自然场景中的掩码、输入流动提示/箭头，我们从[11]提供的不可控视频生成数据集中策划了我们的数据集。该数据集已经包含了所有视频的真实视频、起始帧和平均光流。所有视频的帧数为60，每帧分辨率为720x1280。为了训练和测试的目的，除了输入图像和平均光流之外，我们还需要用户想要注释的区域的掩码以及箭头和相应的速度值。我们使用从真实平均光流启发式生成的掩码和流动提示点来生成用户注释掩码和箭头的替代品。掩码生成：对于数据集中的每个平均光流图F avg ，我们计算F avg的均方流值。然后，我们屏蔽所有像素均方流小于m倍均方流值的区域。根据不同m值下生成的掩码的视觉质量观察，我们将m的值设置为10。流动提示生成：使用前一步生成的掩码M，我们计算每个视频的掩码平均流F M avg，计算方法为M * F avg ，其中F avg是该视频的真实平均流图。我们对每个F M avg进行100次k-means聚类迭代，以找到基于所需提示点数量的聚类中心。0对于我们的输入稀疏光流图FS。FS由与聚类中心像素位置处的地面真实平均光流图相等的值和其他位置为零的值组成。在我们的实验中，提示点的数量选择为1、3或5。在第3.2节中，我们讨论了将用户提供的箭头和速度值转换为FS的过程，这在实际的交互式测试中是必需的。04.2. 实验设置0对于流程细化网络GF，我们使用SPADE[19]。我们在训练过程中还使用了来自[19]的多尺度鉴别器DF。我们将我们的方法的流程细化部分单独训练200个时期，生成器和鉴别器的学习率均为2×10-3，采用[19]中提出的TTUR方法更新学习率。我们在（第一帧，FS，地面真实平均光流）的三元组上进行训练，其中FS被随机选择为1、3或5个流提示。对于帧生成网络GI，我们使用UNet的修改版本（如图2所示），其中包含对称喷洒。我们在训练过程中使用了来自[19]的相同的多尺度鉴别器DI。我们在（起始帧，地面真实平均光流，中间帧，最后帧）的训练元组上单独训练帧生成部分200个时期，其中中间帧从时间[1，59]中随机选择。生成器和鉴别器的学习率均设置为2×10-3，并采用TTUR方法更新学习率。在微调期间，我们只使用GF，GI和DI。此外，我们将负责流生成的GF的值固定，并且只保留Z可训练。生成器和鉴别器的学习率都降低到1×10-3。我们训练40个时期。在训练之前，我们将所有的平均流和帧调整大小为288x512（保持原始帧的16:9宽高比）。在推断过程中，我们生成60帧。1 Hint36730输入图像0稠密光流0精细化稠密光流0地面真实光流0生成帧与稠密光流0生成帧与精细化稠密光流0图5.该图显示了一个特定示例的稠密光流和精细化稠密光流以及相应的生成帧视频。虽然稠密光流是一个很好的近似，但是运动方向更适合于与地面真实光流非常相似的精细化稠密光流视频。在稠密光流视频中，瀑布倾向于向右侧移动，而精细化稠密光流视频与地面真实视频非常相似。视频在补充材料中展示。虚线（- --）表示瀑布结束和湖泊开始的区域。0原始帧的宽高比）。在推断过程中，我们生成60帧。04.3. 基线0我们将我们的最终方法与五种不同的基线方法进行比较，其中一种是我们自己的基线方法，Endo等人[6]，Hao等人[10]和纯欧拉方法[11]。我们自己的基线方法是使用简单的指数函数计算稠密光流图，然后使用图像生成器生成图像。Endo等人在测试时提供了一个优化过程来计算方向和速度。对于Hao等人，我们重新使用他们在论文中提供的方法，进行以下修改。我们不是获取稀疏轨迹，而是使用在本节中概述的过程获得的稀疏提示。我们不是使用单个网络来转换稀疏用户输入，而是直接从稀疏提示中通过训练相同的过程（即基于GAN的网络）计算稠密光流图。一旦获得稠密光流图，我们不是像Hao等人那样使用双线性插值来扭曲输入图像，而是使用与我们的方法相同的图像生成器生成0方法FVD ↓ PSNR ↑0Endo等人 561.33 23.590Hao等人修改+帧生成器419.015 25.120我们的（FD +帧生成器）419.49 25.20我们的（FRD +帧生成器）380.475 25.0703个提示0Endo等人 526.55 23.350Hao等人修改+帧生成器375.98 25.110我们的（FD +帧生成器）331.8 25.220我们的（FRD +帧生成器）318.39 25.0905个提示0Endo等人 519.18 23.210Hao等人修改+帧生成器344.55 25.110我们的（FD +帧生成器）335.4 25.240我们的（FRD +帧生成器）315.31 25.10基本的欧拉方法 419.74 25.20表1.该表显示了使用不同数量的提示以及原始速度的基本欧拉方法的FVD和PSNR值。它清楚地显示了我们的使用精炼流和帧生成器的方法在FVD方面表现最佳，从而显示了我们的方法生成的高保真度动画。0从计算得到的密集光流和输入图像中提取帧。我们将此基线称为“Hao等人修改+帧生成器”。此外，我们还将我们的结果与基本的欧拉方法进行比较，该方法完全自动，不需要任何用户输入。04.4.指标0为了评估我们的方法与各种基线方法的比较，我们使用以下指标。Frechet VideoDistance（FVD）[24]：它是用于量化生成的视频的保真度的标准度量，提供了生成的视频与真实视频之间的距离的度量。在获取特征之前，我们将所有视频调整大小为224×224，并使用60帧。为了从视频中获取特征，我们使用在Kinematics数据集[13]上训练的预训练I3D[23]模型。PSNR：虽然FVD评估生成视频的感知质量，但我们使用PSNR评估平均像素准确性。鉴于它基于均方误差，PSNR倾向于偏向于产生略微模糊的结果的方法。04.5.结果0评估流图生成：为了展示我们的流图生成方法的有效性，我们计算生成的流图与真实流图之间的平均PSNR。表2显示了三种不同提示数量的结果。很明显，我们的方法，即在密集流上使用流精炼网络，能够生成比仅使用精炼网络的稀疏提示更好的流图，从PSNR的角度来看。这种趋势在不同数量的提示中保持一致。有趣的是，对于基本的欧拉方法，PSNR低于两种方法。这是可以预料的，因为欧拉方法是自动的，不需要任何用户输入。36740带箭头的图像精炼密集流密集流0图6.该图显示了相同输入图像的四个不同箭头方向的密集流和相应的精炼密集流图。这显示了我们的流生成方法对任意输入方向的流提示的鲁棒性。0该方法是自动的，不同于其他两种方法。同样，我们在图4中展示了各种示例和不同数量的提示，我们的方法计算得到的流图明显优于“Hao等人修改”，并更接近于真实流。0评估视频生成：表1显示了不同提示数量的两种不同指标的各种方法的比较。很明显，我们的方法在FVD方面击败了所有基线方法，而PSNR在不同方法之间是可比较的，除了Endo等人的方法最低。我们还观察到我们的方法（我们的（FD+帧生成器））优于“Hao等人修改的”方法，从而显示了近似密集流图的必要性。此外，我们的最终方法（我们的（FRD +帧生成器））优于仅仅使用（我们的（FD+帧生成器）），从而加强了对近似密集流的改进的需求。还观察到所有方法的FVD分数随着提示数量的增加而逐渐变好。0定性结果：从图3和图4可以清楚地看到，精细密集流动FRD更准确地类似于平均实际光流，而不是稀疏精细流动FRS。使用我们的方法和基线生成的视频在补充材料中提供。在图5中，我们考虑了一个特定的例子，显示了近似的密集流动、精细的密集流动和生成视频的一帧（视频在补充材料中提供）。虽然在许多情况下，密集流动是一个很好的近似，但精细的密集流动纠正了一些在密集流动图中表示不适当流动的区域（参见图5）。这直接反映在生成的动画质量中。0方法PSNR↑01个提示Hao等人修改20.480我们的（FRD）24.1503个提示Hao等人修改21.060我们的（FRD）25.5305个提示Hao等人修改21.40我们的（FRD）25.820Vanilla Eulerian 18.280表2.该表显示了地面实况流动和两个精细流动之间的平均峰值信噪比（PSNR）。精细的密集流动明显优于精细的稀疏流动，从而证实了在细化之前进行指数运算的必要性。0生成的视频中，使用密集流动的视频存在一些问题，瀑布倾向于逐渐向右移动（由于密集流动对瀑布和湖具有相同的流动值），而使用精细流动生成的视频非常逼真，类似于实际世界视频中观察到的瀑布的向下运动。0任意方向的动画：我们的方法能够根据可能不存在于训练集中的任意方向的流动提示生成流动图。图6显示了使用相同输入图像和不同箭头方向（因此不同的密集流动）生成的精细密集流动。我们可以看到GF生成的结果尊重输入箭头方向，而不仅仅基于输入图像，显示了我们方法的鲁棒性和普适性。请参阅补充材料以获取相应生成的视频。05. 结论和局限性0我们提出了一种方法，可以为包含流体元素（如水、火、烟雾）的图像提供动画效果，给定用户提供的掩码和流动提示（速度和方向）。我们提出了一种简单而强大的方法，通过对用户提供的流动提示进行简单的指数运算来近似控制运动的恒定流场，并进一步表明为了获得更好的流场，我们需要使用网络对密集流场的近似进行细化，而不仅仅是稀疏的提示。通过定量实验，我们展示了我们的方法在各种运动提示数量上的表现优于所有基线方法。我们方法的局限性之一是它仅限于图像中流体元素的运动。刚性物体的运动甚至像建筑物中的设计这样的明确结构的运动无法使用恒定的流场来建模，因此我们的方法在这种情况下不适用。我们方法的另一个潜在局限性是无法对相邻但可能属于不同对象的多个流动流进行建模。36750参考文献0[1] Andreas Blattmann, Timo Milbich, MichaelDorkenwald和BjornOmmer。ipoke：通过对静止图像进行控制性随机视频合成。在《计算机视觉国际会议论文集》中，第14707-14717页，2021年。1,20[2] Andreas Blattmann, Timo Milbich, MichaelDorkenwald和BjornOmmer。理解交互式图像到视频合成的对象动态。在《计算机视觉和模式识别会议论文集》中，第5171-5181页，2021年。20[3] Lluis Castrejon，Nicolas Ballas和AaronCourville。改进的条件VRNN用于视频预测。在IEEE/CVF国际计算机视觉会议上，页7608-7617，2019年。1，20[4] Yung-Yu Chuang，Dan B Goldman，Ke ColinZheng，Brian Curless，David H Salesin和RichardSzeliski。使用随机运动纹理为图片添加动画。在ACMSIGGRAPH 2005论文集上，页853-860。2005年。20[5] Michael Dorkenwald，Timo Milbich，AndreasBlattmann，Robin Rombach，Konstantinos GDerpanis和BjornOmmer。使用CINNs进行随机图像到视频合成。在IEEE/CVF计算机视觉和模式识别会议上，页3742-3753，2021年。1，20[6] Yuki Endo，Yoshihiro Kanamori和ShigeruKuriyama。动画化景观：自监督学习解耦运动和外观以进行单图像视频合成。ACM Transactions on Graphics（ACM SIGGRAPH Asia2019会议论文集），38（6）：175：1-175：19，2019年。2，3，4，70[7] Jean-Yves Franceschi，Edouard Delasalles，Micka¨elChen，Sylvain Lamprier和PatrickGallinari。随机潜在残差视频预测。在国际机器学习会议上，页3233-3246。PMLR，2020年。1，20[8] Ian Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，BingXu，David Warde-Farley，Sherjil Ozair，AaronCourville和YoshuaBengio。生成对抗网络。神经信息处理系统进展，27，2014年。20[9] Tavi Halperin，Hanit Hakim，Orestis Vantzos，GershonHochman，Netai Benaim，Lior Sassy，Michael Kupchik，OfirBibi和OhadFried。无尽循环：检测和动画化静止图像中的周期模式。ACMTransactions on Graphics（TOG），40（4）：1-12，2021年。1，20[10] Zekun Hao，Xun Huang和SergeBelongie。使用稀疏轨迹进行可控视频生成。在IEEE计算机视觉和模式识别会议上，页7854-7863，2018年。1，2，3，70[11] Aleksander Holynski，Brian L. Curless，Steven M.Seitz和RichardSzeliski。使用欧拉运动场为图片添加动画。在IEEE/CVF计算机视觉和模式识别（CVPR）会议论文集上，页5810-5819，2021年。1，2，3，4，5，6，70[12] Tero Karras，Samuli Laine，Miika Aittala，JanneHellsten，Jaakko Lehtinen和TimoAila。分析和改进StyleGAN的图像质量。在IEEE/CVF计算机视觉和模式识别会议上，页8110-8119，2020年。20[13] Will Kay，Joao Carreira，Karen Simonyan，BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan，FabioViola，Tim Green，Trevor Back，PaulNatsev等。动力学人类行动视频数据集。arXiv预印本arXiv:1705.06950，2017年。70[14] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，XinLu和Ming-HsuanYang。基于流的时空视频预测。在欧洲计算机视觉会议上，页600-615，2018年。20[15] Elizaveta Logacheva，Roman Suvorov，OlegKhomenko，Anton Mashikhin和VictorLempitsky。Deeplandscape：对景观视频进行对抗建模。在欧洲计算机视觉会议上，页256-272。Springer，2020年。20[16] Matthias Minderer，Chen Sun，RubenVillegas，Forrester Cole，Kevin Murphy和HonglakLee。从视频中无监督学习对象结构和动力学。arXiv预印本arXiv:1906.07889，2019年。1，20[17] Simon Niklaus和Feng Liu。视频帧插值的Softmaxsplatting。在IEEE计算机视觉和模式识别会议上，2020年。4，50[18] Junting Pan，Chengyu Wang，Xu Jia，Jing Shao，LuSheng，Junjie Yan和XiaogangWang。从单个语义标签图生成视频。在IEEE/CVF计算机视觉和模式识别会议上，页3733-3742，2019年。

下载后可阅读完整内容，剩余1页未读，立即下载