“StyleGAN-V：连续时间视频生成器”

50 浏览量更新于2023-10-25 收藏 2.12MB PDF 举报

图像质量

视频合成

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3626⇡⇡StyleGAN-V：一款价格、图像质量和StyleGAN 2Ivan SkorokhodovKAUST谢尔盖·图利亚科夫Snap公司MohamedElhoseinyKAUST摘要视频显示连续的事件，但大多数（如果不是全部）视频合成框架在时间上离散地处理它们。在这项工作中，我们认为视频应该是什么-时间连续信号，并扩展神经表示的范例，以建立一个连续时间的视频发生器。为此，我们首先通过位置嵌入的镜头设计连续运动表示然后，我们探讨了在非常稀疏的视频上训练的问题，并证明了一个好的生成器可以通过每个剪辑使用2帧来学习在此基础上，我们重新思考了传统的图像+视频鉴别器对，并设计了一个整体的鉴别器，通过简单的连接帧这降低了训练成本，并为生成器提供了更丰富的学习信号，使其首次能够直接在1024 2个视频上进行训练。我们在StyleGAN 2的基础上构建模型，在相同分辨率下训练，同时实现几乎相同的图像质量，成本仅此外，我们的潜在空间具有类似的属性，使我们的方法可以在时间上传播的空间操作。我们可以以任意高的帧速率生成任意长的视频，而以前的工作甚至难以以固定速率生成64帧。我们的模型在四个mod-ern2562和一个10242分辨率视频合成基准上进行了测试.就纯粹的指标而言，它的表现平均比最接近的亚军高出30%。项目网址：https://universome.github.io/stylegan-v网站。1. 介绍深度学习的最新进展将图像生成推向了前所未有的照片级逼真质量[8，28]，并催生了许多行业应用。然而，视频这些困难不仅是由底层数据分布的更复杂性质引起的，而且还由于计算上的复杂性。01/4秒1/2秒1秒5秒1分1小时01/4秒1/2秒1秒5秒1分1小时图1.1小时长的视频示例，使用不同的方法生成MoCoGAN-HD [65]无法生成长视频，因为当展开到大长度时，底层LSTM模型不稳定。DIGAN [80]由于空间和时间位置嵌入的纠缠而StyleGAN-V（我们的方法）生成任意长度和帧速率的合理视频。此外，与DIGAN不同的是，它不仅在运动方面学习时间模式，而且还学习外观变化，如一天中的时间和天气变化。现代生成器使用的动态视频表示他们将视频视为离散的图像序列，这对于表示长的高分辨率视频非常苛刻，并导致使用昂贵的基于conv3d的架构来对其进行建模[13，54，55，67]。1在这项工作中，我们认为这种设计选择不是最佳的，并建议以自然形式对待视频：作为连续信号x（t），其映射任何时间坐标1例如，DVD-GAN [13]需要30000美元才能在2562分辨率上训练[65]我们地甘我们MoCoGAN-HDMoCoGAN-HD地甘362722⇡⇡G样品项目剪辑编辑“蓝天白云”剪辑编辑“留胡子的人”动画动画图2.我们的模型享有StyleGAN2 [30]的所有特权，包括语义操作的能力。在本例中，我们使用CLIP编辑了一个生成的帧（顶行）或投影的现成图像（底行），并使用我们的模型对其进行了动画处理。据我们所知，我们的工作是第一个演示视频生成器的这种能力。图3. FVD 16为FaceForensics上的现代视频生成器提供的FID分数和培训成本2562[53]。我们的方法（表示为？）表明，视频生成器可以在以下方面同样高效和出色：与传统的基于图像的生成器（如StyleGAN 2 [30]，用虚线表示）一样，图像质量方面tR+转换为图像帧x（t）=x tR3 <$h<$w。因此，我们通过将最近的神经表示范式[38，58，64]扩展到视频生成领域，开发了一个基于GAN的连续视频合成框架。开发这样一个框架有三个挑战。第一，正弦/余弦位置嵌入是正交设计的，并且仅取决于输入坐标。这不适合视频生成，其中时间信息应该是非周期性的（否则，视频将是循环的）并且对于不同的样本是不同的接下来，由于视频被感知为无限连续信号，因此需要开发适当的采样方案以在实际框架中使用它们最后，需要相应地重新设计鉴别器以与新的采样方案一起工作。为了解决第一个问题，我们开发了具有时变波参数的位置嵌入，这些参数取决于运动信息，针对不同的视频进行唯一采样。该运动信息被表示为由基于无填充conv1d的模型产生的运动代码序列。我们更喜欢它而不是通常的LSTM网络[3，55，65，67]，以减轻RNN在接下来，我们研究学习有意义的视频生成器需要我们认为，它可以从极其稀疏的视频（每个剪辑只有2帧）中学习，并用一个简单的理论来证明它。说明书（§3.3）和实际实验（见表2）。最后，由于我们的模型每个视频只能看到2-4个随机采样的帧，因此在MPEG中使用昂贵的conv 3d这这种重新设计提高了训练效率（见表1），为生成器提供了更多信息梯度信号（见图4），并简化了整个管道（见§3.2），因为我们不再像现代视频合成模型那样需要两个不同的鉴别器来分别对图像和视频级进行操作（例如，[13、55、67]）。我们在基于图像的StyleGAN 2之上构建了我们的模型，名为StyleGAN-V [30]。它能够以非自回归的方式产生任意高帧率的任意长视频，并且具有很高的训练效率- 它的成本仅比经典的基于图像的StyleGAN2模型高5%[30]，而在FID方面的普通图像质量仅差10%[23]（见图3）。这使我们能够轻松地将其扩展到HQ数据集，并且我们证明它可以直接在10242分辨率上训练。对于实证评估，我们使用5个基准：[78]第 5 3 话：我的世界，我的世界2562[62]，RainbowJelly2562（在我们的工作中引入）和MEAD10242 [72]。除了我们的模型，我们从头开始训练5种不同的方法，并测量它们的性能使用相同的评估协议。Frechet视频距离（FVD）[68]是视频合成的主要指标，但没有完整的官方实现（参见§4和附录C）。这导致不同工程使用的评估程序存在差异，因为FVD与FID [23]类似，对数据格式和采样策略非常敏感[46]。这就是为什么我们实施、记录并发布完整的FVD评估方案。就纯粹的指标而言，我们的方法平均比最接近的亚军好30%2. 相关工作视频合成。视频合成的早期工作主要集中在视频预测[34，70]，即。生成fu-3628⇥⇡t`2给定先前看到的帧的序列的真实帧。针对此问题的早期方法通常采用用重建目标训练的递归卷积模型[16，52，63]，但后来引入对抗性损失以提高合成质量[35，69，73]。一些最近的工作探索了具有再流或基于注意力的模型的自回归视频预测（例如，[26、51、71、76、79]）。另一个密切的研究方向是视频插值，即增加给定视频的帧速率（例如，[6、24、42]）。在我们的工作中，我们研究了视频生成，这是一个比视频预测更具挑战性的问题，因为它试图从头开始合成视频，即。而不对先前的帧使用表情调节。这方面的经典方法通常基于GAN [19]。MoCoGAN [67]和TGAN[54]将发生器[3、40、55、65]）。几种方法考虑从单个剪辑生成视频（例如，[5、20、21]）。最近的一些工作也考虑了高分辨率视频合成[17，65]，但仅在预训练图像生成器的潜在空间中进行训练。StyleGAN-V是在非常稀疏的视频上训练的。这使得它与[10，55，75]相关，其使用在不同时间分辨率上操作的鉴别器的金字塔（子采样因子高达8）。我们的模型建立在时间连续性的基础上，视频合成的背景也由[45]探索。据我们所知，所有现代视频合成方法在它们的解码器和/或编码器组件中利用昂贵的conv 3d块（例如，[第二、十三、二十五、四十、五十五、图4. 在t=0、2、4、6、8、12个时间步处，从MoCoGAN-HD（上排）和我们的一个（下排）的基于conv 3d的训练可视化到G我们的工作中分享了很多关于连续视频合成的想法作者还考虑了一个连续时间生成器，由一个没有conv3d层的训练器训练。与我们的工作的核心区别是，他们使用不同的运动参数化，并使用双重区分-一个对（x1，x2，x2）进行操作，第二个对各个图像进行操作。我们列举了差异，Appx H. NeRV [12]使用视频的卷积神经表示进行压缩和去噪任务。GEM [14]利用生成潜在优化[7]来构建多模态生成模型。3. 模型我们的模型是基于神经表征的范式[38，58，64]，即。将信号表示为神经网络。我们把每个视频作为一个函数x t= x（t），它在时间上是连续的。以这种方式，训练数据集D是一组二次采样信号D={x（i）} N={x（i）}。（一）65、67]）。通常，基于GAN的方法利用两种区分，独立地在图像和视频水平上操作的启动器{（xt0、...、x（i）我Ni=1i=1，其中N表示其中视频解码器以低分辨率操作为了节省计算（例如，[13、65、67、74]）。在我们的工作中，我们通过从帧中提取的特征向量的简单级联来聚合时间信息，这种策略足以构建一个最先进的视频生成器。神经表征。神经表示是使用神经网络来表示连续信号（诸如图像、视频、音频、3D对象和场景（例如，[18、38、58、59、64]）。它主要用于3D重建和几何处理任务（例如，[33，37，41，43，48]），包括基于视频的再现[32，44，49，77]。最近的几个项目探索了在这种表示上构建生成模型以合成图像的任务（例如，[4，60，61]）、3D对象（例如，[11，31，56]）或多模态信号（例如，[14，15]），我们的工作将这条研究线扩展到视频生成。并行工程。基于神经表征的方法的发展非常快，有两个并行的工作，提出了类似于我们的想法。DIGAN[80]是一个并行项目，探索使用基于神经的表示的相同方向，其中，tj表示第j帧的时间位置，是第i个视频中的帧数。2请注意，每个视频可能具有不同的长度`i，并且实际上这些长度变化很大（参见Appx E以获取数据集统计信息）。我们的目标是在视频信号上训练一个生成模型，只有它们的二次采样版本。为了实现这一点，我们开发了以下框架。我们在StyleGAN 2 [28]之上构建模型，并重新设计其生成器和用于视频合成的网络，只需最小的修改。我们的生成器在概念上类似于MoCoGAN [67]，即，we separate latent information into content code zc andmotion tra- jectory vt = v(t).与MoCoGAN相比，我们的运动码vt在时间tR+上是连续的，我们在§3.1中描述了它们的设计。我们在StyleGAN 2的生成器上做的唯一排序模型D取k帧xt1，...，x tk的稀疏采样的视频，独立地提取特征2为了简化符号，我们假设所有视频都具有相同的帧速率，并且所有视频都从t=t0开始采样。我们MoCoGAN-HD）}362922Ⓢ2-的t02个tn0t0t00t000时间发电机实际上，我们不需要对所有运动噪声矢量zm，.，zm产生vt，但只有那些t0tn通过这种方式，我们的生成器可以产生非自回归的帧。非循环位置编码。传统的位置嵌入[58，64]默认情况下是循环的。这不会在传统应用（如图像或场景表示）中产生问题，因为使用的空间域永远不会超过周期长度[38，60]。但对于视频生成，循环性是不可取的，因为它使视频在某个点循环。为了解决这个问题，我们开发了非循环位置编码。基于正弦的位置嵌入向量pRd以下列形式表示：可以图5.发生器架构：我们在StyleGAN2生成器的合成网络S上做的唯一改变是我们的运动代码与恒定输入张量的连接。S使用内容代码w和mo产生帧xt。t.h t1，.，将这些特征按信道方式连接在一起成为全局视频描述符h，并从其预测真实/虚假类。我们以时间D为条件，p（r，r，t，t）=n（r·t+n），（1）其中表示逐元素向量乘法，r、r、d是相应波的振幅、周期和相位，正弦函数应用于元素-睿的默认情况下，这些嵌入是周期性的，并且对于任何输入都是相同的[38，58，64]，这对于视频合成是不可取的，其中自然视频包含不同的运动并且通常是非周期性的。为了解决这个问题，我们从运动中计算波参数帧之间的距离x=ti+1-ti，以使mm更容易我它可以在不同的帧速率上工作。3.1. 发电机结构概况.发生器由三个组件组成：内容映射网络FC、运动映射网络Fm和合成网络S。Fc和S是从Style-GAN 2借用的，并且我们仅通过将运动代码vt平铺和连接到其恒定输入张量来修改S视频是通过以下方式生成的。首先，我们山姆-噪声z t0，.，z tn，. 以下方式。首先，使用从u `预测的w个参数r`、r `、r`来计算“原始”运动代码v `t：vt=`sin（r`·t+`），（2）哪里R`=Wu`，r`=Wuu`，R`=Wu`，（3）和W，Wu，W2Rd d是可学习的权重矩阵。将内容噪声zcN（0，I）叠加，并且遵循样式-GAN2，将其转换为潜在代码w=F（zc）2R512。直接使用v_t作为运动代码并不能产生良好的C它在所有时间步t中共享R+视频然后，为了在指定的时间位置t中生成帧xt，我们首先计算其运动代码vt，这在三个步骤中完成步首先，我们对等距轨迹噪声zm，.，的离散序列进行采样， zm<$N（0，I）（假设t = 0结果，因为它包含不连续性（见图9d）。这vt=vt-lerp（v`，vr，t） + lerp（Wau`，Waur，t），（4）其中Wa2Rd d是可学习的权重矩阵，到处），位于距离6z=ti+1处ti从彼此令牌的数量n由条件t tn确定，即它应该足够长以覆盖期望的时间步长t。3然后，我们用基于conv1d的运动映射网络Fm处理它，具有大的核大小，成为序列ut0，.，U TN. 在那之后，我们取一对记号u`，u r，t位于其间（即，`=tifor some i 0，1，.， n和r =ti+1），并计算一个非循环的po-从他们的位置嵌入vt，下面描述。这种位置嵌入作为我们这一代的运动代码[3]实际上，由于F m使用无填充卷积，因此这个序列稍大。我们在附录B中对此进行了详细说明。vt0v t00vt000一Conv1dConv1dModConv2dModConv2d上采样上采样+的z，…zN（0，I）M mt0tnzc<$N（0，I）线性线性Wx t0xt00xt000正常化FC无环PEFmSFc- 内容映射网络Fm- 运动映射网络S-合成网络仿射层PE- 位置编码+- 逐元素求和- 生成的帧（初始化为零）Conv2dMotion4x4x512Const平铺至4x4合成块42合成块82合成块162合成块322合成块642合成块1282合成块2562合成块5122合成块102423630--lerp（x，y，t）是逐元素线性插值，使用时间位置t补间x和y。等式（4）中的第一次减法改变位置嵌入，以使它们在位置t0，t1，.收敛到零值，tn，这个限制了位置嵌入的表达能力可视化见附录B中的图9e在实践中，我们发现将周期计算为：rt=（tanh（Wuut）+1）tanh，（5）其中，1是1的向量，并且1是线性间隔的缩放系数。详细信息请参见Appx B和源代码3631我-2<我2{-}-- 我...<我1K-1<我我512⇥16⇥162--可以尝试直接使用连续码ut=lerp（u`，ur，t）而不是vt作为运动码。这也消除了周期性（理论上），但会导致实践结果：如果距离δz很小，则运动轨迹将包含不自然的急剧过渡;当θz增加时，G失去了正确模拟高频运动（如眨眼）的能力，因为代码变化太慢。我们通过经验验证了这一点，标签2（也可以在项目网页上看到示例3.2. 鉴别器结构现代视频发生器通常使用两个单独的鉴别器，分别对图像和视频电平进行操作[13，65，67]。但是，由于我们在极其稀疏的视频上训练，并旨在拥有一个计算效率高的模型，我们建议使用整体的BIND（xt1，...，x tk），其以帧之间的时间距离为条件6x=ti+1ti。它由两部分组成：1）特征提取器主干Db，其独立地将图像帧xt嵌入到3D特征向量h ti 2 R中;以及6162XX时间xt1xt2xt3ModDiscrBlock 2562+p6concatModDiscrBlock82Discr尾声BatchStdLayerConv2d扁平足球俱乐点积真/假第16区2ModDiscr下采样下采样Conv2dConv2dModConv2d一FCFCconcatPosEnc图6.鉴别器架构，用于每个视频k= 3帧。我们在StyleGAN 2[30]判别器上所做的唯一更改是在162分辨率下串联通道激活，并根据帧之间时间距离的位置嵌入来调节模型。卷积头Dh，它将所有的特征h = concat[h t，...，h t] 2 R512k16 16和1K输出真/假logityR。我们输入时间距离信息6x，...， 6x是─上面的语句是原始的（参见Appx F），但可以提供有用的实用直觉。对于视频合成，这意味着人们可以学习视频生成器-吐温 k个帧x t1，...，xtk成1K1D.以下方式。第一、仅当对于任何帧，每个视频仅使用k我们用位置编码对它们进行编码，将2层MLP转换为p（6x），...，p（6x）2Rd和concate-nate成一个单一的向量p6R（k-1）·d. 之后，我们使用投影映射策略[39]并将输出logit计算为p6和相应视频特征向量之间的简单点积图6显示了整体架构。这样的设计比使用图像和视频鉴别器更有效，并为发生器提供了更具信息性的学习信号（见图4）。3.3. 稀疏训练考虑学习概率分布p（x）= p（x1，...，xn），并考虑我们利用稀疏训练，即在优化过程的每次迭代中随机选择向量x的k个坐标。然后，优化目标相当于学习所有可能的边际分布p（xi1，，xxk），而不是学习-将联合p（x）。什么时候学习边际允许ob.在最后得到完全联合分布？下面的简单陈述使这个问题更加清楚。微不足道但有用的陈述。记为Jkxi，存在最多k1个先前帧足以正确地预测它（参见Appx F）。我们认为，很少的帧足以作出这样的预测，现代视频合成基准。例如，在SkyTime-lapse [78]中，运动通常是单向的，因此很容易从仅2个先前帧预测，这对应于每个视频k= 3我们将视频视为无限连续信号，但在实践中，必须对训练期间可以看到的最大时间位置T设置限制。据我们所知，以前的方法最多使用T= 64[10，55]，但在我们的例子中，我们很容易用T= 1024训练模型，因为我们的生成器是非自回归的，我们的迭代器只使用相对的时间信息。我们将t1和tk之间的最大距离设置为32，以涵盖短期和中期运动：否则，我们观察到不稳定的训练和突然的运动。为了对帧进行采样，我们首先对它们之间的距离（ tkt1 ）U[k1，32]进行采样，然后对偏移量t1U[0，T tk]进行采样。在那之后，对于i2，...，k1是随机选择的，没有重复。4. 实验具有多达k个索引j s. t的集合J i的集合。 8Ji2 J k we<对所有的j 2 Ji都有j i。换句话说，Ji是多达k个索引j2 [1，i]的集合。则p（x）可以表示为n个边值p（xi，xJi）对i2 [1，n]的乘积当且仅当8i存在Ji2Jk-1s.t. p（xi|x

下载后可阅读完整内容，剩余1页未读，立即下载