没有合适的资源?快使用搜索试试~ 我知道了~
G3AN:时空生成模型解决视频外观和运动的挑战
5264G3AN:为视频生成解开外观和运动的王耀辉1,2Piotr Bilinski3 Francois Bremond1,2 Antitza Dantcheva1,21 Inria2Université Côte{yaohui. wang,francois.bremond,antitza.dantcheva}@ inria.frbilinski@mimuw.edu.pl摘要创建逼真的人类视频需要能够同时生成外观和运动的挑战。为了解决这一挑战,我们引入了G3 AN,一种新的时空生成模型,它旨在捕捉高维视频数据的分布,并以分离的方式对外观和运动进行建模。后者是通过在三流生成器中分解外观和运动来实现的,其中主流旨在对时空一致性进行建模,而两个辅助流分别用多尺度外观和运动特征来增强主流广泛的定量和定性分析表明,我们的模型在面部表情数据集MUG和UvA-NEMO以及Weizmann和UCF 101人类行为数据集上系统地和显着地表现出最先进的方法。对学习到的潜在表征的进一步分析证实了外观和运动的有效分解。源代码和预训练模型是公开的1。1. 介绍生成对抗网络(GAN)[10]由于其对复杂数据分布建模的能力而受到越来越多的关注,这使得它们能够生成逼真的图像[5,17,18,21,24,25,41,44],以及翻译图像[2,15,29,32]。虽然逼真的视频生成是自然的续集,但它实际上更具有挑战性。复杂性和计算,与同时建模的外观,以及运动。具体而言,在对人类视频的分布进行推断和建模时,生成模型面临三个主要挑战:(a)生成不确定的运动,(b)在整个生成的视频中保持人的外观,以及(c)对时空一致性进行建模。这种挑战已经通过在有效的先验(诸如输入图像[42]、人类关键点[7]和光流[23])上调节生成来减轻。这涉及到学习从条件分布中采样,假设访问1https://wyhsirius.github.io/G3AN/而不是学习联合分布[27]。偏离这样的方法,在这项工作中,我们专注于高度复杂的问题,视频生成没有先验知识w.r.t.无论是外观还是动作。具体来说,基于噪声变量,我们生成外观,e.G.我们通过面部表情或人类动作同时使人面部和身体动画化。我们的新生成模型G3 AN被简化为学习视频生成因素外观和运动的分解表示,允许两者的操纵。解纠缠表示被定义为单个潜在单位对单个生成因子的变化敏感,而对其他因子的变化相对不变[4]。在这种情况下,我们的G3 AN被赋予了一个三流生成器架构,其中主流编码时空视频表示,由两个辅助流增强,表示独立的生成因素外观和运动。针对高级别特征图的自注意机制确保了令人满意的视频质量。因此,G3AN能够通过遵循训练分布并且在没有附加输入的情况下生成逼真的视频(解决挑战(a)和(c)),并且能够分离地操纵外观和运动,同时强调保持外观(挑战(b))。总的来说,我们的主要技术贡献包括以下几点。• 一种新的生成模型,G3AN,它试图从人类视频数据中学习生成因素外观和运动的表示允许对这两个因素进行单独操纵• 一种新的三流发生器,它考虑到个人外观特征的学习(空间流)、运动特征(时间流)和平滑生成的视频(主流)。• 提出了一种新的因子化时空自注意(F-SA)模型,它被认为是第一个自注意模型,规则应用于视频生成,以建模全局时空表示和提高生成的视频的质量。5265n =0. N−10n =1…N−1n−1n• 广泛的定性和定量评估,表明G3AN在系统性和显著性方面优于最先进的基线,一组数据集。2. 相关工作尽管图像生成取得了令人印象深刻的进展,但视频生成的扩展令人惊讶地令人担忧。虽然视频构成时间上相干的图像的序列,但是视频生成包含与生成似真且真实的外观、相干且真实的运动以及时空一致性有关的大多数挑战。另一个挑战,即与未来不确定性相关联的不确定局部或全局运动的生成,允许多个正确的、同样可能的下一帧[37]。找到能够解决这些挑战的合适的表示学习方法至关重要。现有的方法包括基于变分自编码器(VAE)[20]、自回归模型以及最突出的生成对抗网络(GAN)[10]的方法。虽然视频生成任务旨在生成逼真的时间动态,但这些任务随条件水平而变化。我们有基于与运动或外观相关的额外先验的视频生成,以及相反地,仅遵循训练分布的视频生成我们注意到,从建模的角度来看,后者更具挑战性,因为缺乏额外的输入,例如。生成的视频的结构。因此,到目前为止,大多数方法都包括某种条件反射。带附加输入的视频生成。由于高维视频数据建模的挑战,语义图[26,39]、人体关键点[16,42,38,7]、3D人脸网格[45]和光学流[23]可以作为外观和运动生成的指导。该附加信息在整个生成的视频中预先计算[16,45,7]或基于初始输入图像预测[42]。广告信息引导有条件的图像翻译,但这导致缺乏时空相关性的建模从噪声中生成视频。从噪声中直接生成视频需要捕获和建模MoCoGAN和G3AN之间有两个关键的区别。首先,MoCoGAN不是为每个视频只采样两个噪声向量,而是将一系列噪声向量作为运动和固定噪声作为内容进行采样。然而,涉及每个帧的随机噪声来表示运动增加了学习难度,因为模型必须将这些噪声向量映射到生成的视频中的连续人体运动。因此,MoCoGAN逐渐忽略输入噪声,并倾向于产生类似的运动,如图8所示。其次,MoCoGAN结合了一个简单的图像生成器,旨在顺序地生成每一帧,然后联合生成内容和运动这导致了运动和内容的不完全分离。偏离这一点,我们设计了一个新的生成器架构,能够完全分解的外观和运动,潜在的和特征空间。我们表明,这样的设计产生逼真的视频质量好,并确保因素解开。分解表征学习。学习数据的分解表示在各种各样的任务和领域中是有益的[4]。解开静止图像中的许多因素已经在重新设计中被广泛探索10美分的作品[8,24,33,22]。在视频生成的背景下,MoCoGAN中包含了用于运动和外观分解的早期方法。然而,我们稍后介绍的实验(见图6)表明,结果并不令人满意。3. 方法在这项工作中,我们提出了G3AN,一种新的GAN架构,旨在从两个噪声向量za∈ZA和zm∈ZM(分别代表外观和运动)中以一种分离的方式生成视频. G3 AN由一个三流发电机G和一个双流发电机D组成,犯罪分子D,如图1所示。虽然G旨在生成具有分离地调制外观和运动的能力的视频,但是D考虑了分别在视频和帧两者中将生成的样本与真实数据区分开。3.1. 发生器G3-模的层次生成器. 我们设计G在G3模的层次结构中.具体地说,数据集分布。 现有的工程往往会减少对环境的影响,我们有N个层次,记为G3. 的通过分解输出来降低复杂度[36]或第一个G3模块,G3接受两个噪声向量潜在代表性[30,35]。[36]第36章被人发现了Za和Zm。 其余模块G3,继承使用双流时空生成器,分别生成前景和背景。TGAN[30]将每个帧的潜在表示分解为慢部分和快部分。由于联合建模外观和运动,从VGAN和TGAN生成的结果可能包括空间上不现实的伪影,参见图5。与我们最接近的工作是MoCoGAN [35],它将每个帧的潜在表示分解为运动和内容,旨在控制这两个因素。然而,在这方面,三个特征映射F Sn−1、F Vn−1和F Tn−1作为它们来自每个前一个G 3模块的输入,参见图1和图2。每个G 3模块由三个并行流组成:空间流G Sn、时间流G Tn以及视频流G Vn(图1和2)。它们旨在生成三种不同类型的功能。 空间流G Sn(在图1和图2中由蓝线表示)将z a(n=0)和F Sn-1(n >1)作为输入,并通过使用a对输入特征进行上采样来生成2D应用特征F Sn5266Vnn+1个nnTnSnVVn+1个图1:我们的G3AN架构概述. G3AN由一个三码流发生器和一个两码流鉴别器组成. 该生成器包含五个堆叠的G3模块,一个因子化的自我注意(F-SA)模块,并作为输入两个随机噪声向量,za和zm,旨在表示外观和运动,分别。有关体系结构的详细信息,请参见补充材料(SM)。转置的2D卷积层。这些特征在空间维度上演变的时间流GTn(由橙色线表示)接受输入zm(n=0)和FTn-1(n>1),并试图通过用转置的1D卷积层对输入特征进行上采样来生成1D运动特征FTn这些特征在时间维度上演化,包含每个时间步的全局信息然后,由黑线表示的视频流G Vn将z a和z m(n=0)和FVn-1的级联作为输入 对于n >1。 它模拟了空间-时间一致性,并产生3D联合嵌入F′通过使用因子分解的反式上采样输入要素n提出的时空卷积,见下文。然后,F Sn和F Tn被弹射到时空融合块,在那里它们与F V′融合,产生F Vn。最后,F Sn,F Tn F Vn 作为下一个层次的输入-称为转置(1+2)D卷积。这样的分解在这两个操作之间带来了额外的非线性激活,并有助于优化。Cru-cially,因式分解转置3D卷积产生显着的收益,在视频质量,见第4节。层G3.图3:时空融合。时空融合是学习解纠缠特征的关键,其输入是卷积层的输出特征图FSn、FTn和FV′在每个G3 module. 融合包含三个步骤(参见见图3)。首先,分别对FTn和FSn进行空间和时间复制,以获得两个new feature maps F R 和FR. 两个新的特征地图具有与F′相同的时空大小。下一个,FR和VnTnF′通过位置加法组合,产生-n构造了一种新的时空嵌入F′′。最后,RVnSn是与F“”逐通道级联,获得最终的n融合特征映射F Vn. 特征映射F Sn、F Tn和FVn 表示以下G3module.图2:G3模块架构.因式分解转置时空卷积已经由Wang等人提出。在[40]中。它明确地将转置3D卷积分解为两个单独的连续操作,M个转置1D时间卷积,然后是2D单独的空间卷积,因子化时空自我注意(F-SA)。尽管Self-Attention(SA)已成功应用于SAGAN中的图像生成[43],但尚未在时空视频生成的背景下对其进行探索在这里,我们结合了时空SA模块,使G能够利用来自所有时空特征位置的线索和广泛分离的模型之间的关系。5267一am数据3其中LI表示与DI相关的损失函数,LV表示与DV相关的损失函数。LI=Ex′p数据′[log(DI(x))]′+Ezapz,zmpz [log(1 −DI(G(za,zm)],(3)LV=Exp[log(DV(x))]+Ezapz,zmpz [log(1−DV(G(za,zm)],(4)G尝试从za和zm生成视频,而DI和DV旨在区分生成的样本,′真实样本(·)表示T帧是相同的。图4:因子化时空自我注意力(F-SA)。偏远地区。然而,计算3D时空特征图中每个位置与所有其他位置之间的相关性在计算上是非常昂贵的,特别是如果它被应用于G.因此,我们提出了一种新的因子化时空自注意,即F-SA,如图4所示。F-SA由时间SA(T-SA)和空间SA(S-SA)组成。这种因式分解降低了计算的复杂性,允许在较大的特征图上应用F-SA。在我们的G3 AN中,我们在G3的输出上应用F-SA在GV流中,其实现最佳视频质量。我们在第四节中报告了在G3AN的各个层次上应用F-SA的相关评估结果。3.2. 鉴别器为了改善视频和帧质量,类似于MoCoGAN,我们使用包含视频流DV和图像流DI的双流鉴别器架构。在训练期间,DV接受完整的视频作为输入,而DI从视频中随机采样帧。3.3. 培训鉴于我们的双流鉴别器架构,G3AN同时优化了DV和DI这两种损失都使用DCGAN [28]中提出的GAN损失函数。G3 AN的目标函数可以表示为从真实和生成的视频中提取。4. 实验4.1. 实现细节整 个 网 络 都 是 使 用 PyTorch 实 现 的 。 We employADAM optimizer [19] with β1=0. 5和β2=0。999对于G和D,学习率都设置为2e−4。尺寸对于Za,潜在表示的数量构成128个,对于Zm,构成10个。我们设置N=5,以便生成空间尺度为64×64的16帧视频。我们从每个视频中随机采样T=1帧作为DI的输入。 更多的执行de-在SM中可以找到尾巴。4.2. 数据集我们在以下四个数据集上评估我们的方法面部表情数据集。MUG面部表情数据集[1]包含86个受试者的1254个视频,表现6种面部表情,即快乐、悲伤、惊讶、愤怒、厌恶和恐惧。UvA-NEMOSmile数据集[9]包括400个微笑个体的1240个视频序列我们使用[6]2基于检测到的地标在每帧中裁剪人脸。动作识别数据集。WeizmannAction数据集[11]由9个主题的视频组成,执行10个动作,如波浪和弯曲。我们通过水平翻转现有的视频来增强它。UCF 101数据集[34]包含101个人类动作类的13,320个视频。类似于TGAN [30],我们将每帧缩放为85×64,裁剪中心64×64区域。在我们所有的实验中,我们以1到4之间的随机时间步长对视频帧进行采样,以进行数据增强。4.3. 实验结果我们测试我们的方法定量和定性,提供四个实验的结果。具体来说,首先,我们评估和比较从G3 AN,VGAN,TGAN和MoCoGAN生成的视频,定量和定性地在所有四个数据集上。接下来,我们测试条件和非条件-G=minGMaxDI,DVL(G,DI,DV),(1)条件视频生成,我们的目标是证明所提出的分解方法的有效性M5268L(G,DI,DV)=LI(G,DI)+LV(G,DV),(2)2https://github.com/1adrianb/face-alignment5269˜˜˜˜˜然后,我们操纵潜在表征,提供洞察力到两个表征的每个维度。我们继续添加外观矢量和研究潜在的代表。最后,我们进行了消融研究,验证了我们提出的架构的有效性。4.3.1定量评价我们比较了 G3AN与三种最先进的方法,即 VGAN,TGAN,以及MoCoGAN。我们报告了上述四个数据集的两个评估指标。特别地,我们使用图像生成中两个最常用的度量的扩展,即Inception Score(IS)[31]和Fréchet Inception Distance(FID)[13],通过使用预训练的3D CNN [12]作为特征提取器,在视频级别中,类似于Wang等人。[39 ]第39段。视频FID同时掌握视觉质量和节奏-此外,我们进行了主观分析,我们要求27名人类评分员成对比较并排显示的相同表情/动作的视频。评分员选择每个视频对一个视频。我们随机化了显示对的顺序。我们对每个研究案例都有等量的配对(例如,G3 AN / Real视频)。提出的问题是“.我们在表2中报告了平均用户偏好。我们观察到,人类评分员对提出的框架G3 AN的偏好 高 于 MoCoGAN ( 84.26%vs.15.74% ) 、 TGAN(87.31%vs. 12.69%)和VGAN(90.24%vs. 9.76%),这与上面列出的定量结果一致。此外,我们将来自所有数据集的真实视频与我们的方法生成的视频人类评分员将我们的G3 AN中25.71%的视频评为比真实视频更真实,我们发现这非常令人鼓舞。生成的视频的真实一致性。它被计算为µ−分别从生成的数据计算特征向量,μ和μ。较低的FID分数表明生成的视频质量较高。视频捕获的质量和生成的视频的多样性。它 的 计 算 公 式 为 exp ( ExpgD KL ( p ( y| ( x ) p(y)),哪里p(y|x)和p(y)分别表示条件类分布和边际类分布。IS越高表示越好模型性能我们在MUG,UVA-Nemo和Weizmann数据集上报告FID,在UCF 101上报告FID和IS。由于IS只能被报告,当GAN和特征提取器在同一数据集上训练时,我们不会在其他数据集上报告它。不同方法的比较结果见表1。我们的方法在所有数据集上始终达到最低的FID,这表明G3 AN生成的视频具有最佳的时间一致性和视觉质量。同时,在UCF101上获得的最高IS表明,我们的方法能够提供所有比较方法中最多样化的样品。这样的评估结果表明,所提出的分解方法允许控制生成的样本,并且另外促进生成更好质量视频的时空学习。生成的样品如图5所示。UvA Weizmann UCF 101FID↓FID↓FID↓IS↑VGAN 160.76 235.01 158.04 115.06TGAN 97.07 216.41 99.85 110.58 2.74MoCoGAN 87.11 197.32 92.18 104.14 3.06G3 AN表1:在四个数据集上与最新技术水平的比较w.r.t. FID和IS。方法评分者偏好(%)G3 AN/MoCoGAN84.26/ 15.74 G3AN/TGAN87.31/12.69G3 AN/VGAN90.24/9.76G3 AN /真实视频25.71 /74.29表2:人类评分员的平均用户偏好比较由各个算法生成的视频,源自所有数据集。4.3.2定性评价我们利用Uva-NEMO数据集进行无条件生成实验,其中我们固定za并处理为随机变化的运动zm。图6中示出了来自G3AN和MoCoGAN的相关联的生成样本。当我们观察到G3AN生成的视频序列中变化的运动时,外观仍然是一致的。因此,我们的模型能够成功地保持fa-cial外观,同时改变运动。因此,这表明我们的三流设计允许分别操纵外观和运动。相反,由MoCoGAN生成的视频序列经历恒定运动,尽管改变了zm。此外,我们利用MUG和Weizmann数据集的标签,以分析条件视频生成。为此,我们在这里连接一个单热猫- egory向量和运动噪声zm,将其馈送到GT中。我们注意到,GS和GV的输入保持相同,在无条件生成的背景下。相关结果表明,当改变运动类别时,在具有固定外观的同时,G3 AN正确地生成相同的面部外观,具有适当的基于类别的运动(面部表情和身体动作),参见图7。此外,我们注意到,外观在不同的视频中保存得很好,并且不受类别变更的影响。此外,在相同的条件设置下,我们注意到,当改变噪声zm时,G3 AN能够生成相同的5270(a) VGAN(b)TGAN(c)MoCoGAN(d)G3 ANFigure 5: Comparison with the state-of-the-art on MUG (top-left), Weizmann (top-right), UvA-NEMO (bottom-left) and UCF101 (bottom-right).更多样品见SM。(a) G3 AN(a) MUG:幸福(b) MoCoGAN图6:G3 AN和MoCo-GAN在Uva-Nemo上的无条件视频生成.对于每个模型,我们固定za,同时测试两个zm实例(顶部和底部行)。更多示例参见SM。以不同的方式进行分类运动。 这表明zm实现类内多样性。在MoCoGAN生成的视频中,我们根据给定的类别观察到正确生成的运动,然而我们注意到类别也会影响外观。换句话说,MoCoGAN缺乏对潜在表示中的外观和运动的完全分离,参见图8。这可能是由于潜在空间中的简单运动和内容分解,在一组卷积之后,在更深层中可以完全忽略值得注意的是,G3AN有效地防止了这种情况,通过我们在潜在空间和特征空间中发生的分解来潜在表示操纵。虽然目前还没有通用的方法来量化学习解纠缠的程度[14],但我们继续说明我们的模型通过ma学习潜在表征(b) 魏茨曼:一只手挥舞图7:MUG和Weizmann上的条件视频生成。对于这两个 数据集,每条线都是用随机zm生成的。我们观察到相同的类别(微笑和一只手挥动)以不同的方式执行,这表明我们的方法能够产生类内生成。更多示例参见SM。在所述外观表示中消除每个尺寸我们表明,通过改变外观表示中不同尺寸的值,我们能够引起特定外观因素的修改,见图9。有趣的是,这些因素可能与语义有关,例如。图9a中的面部视点、图9b中的胡子以及图9c中的裤子颜色。 We note that motion is not affected byal- tering the appearance representation.类似地,当改变运动表示中不同维度的值时,我们观察到诸如起始位置、运动强度和移动轨迹等因素受到影响,参见图10。这样的观察表明,我们的方法可以分别在运动和外观潜在空间中的不同数据点之间进行插值。添加外观表示。我们在此补充外观向量,旨在分析由此产生的潜在5271(a) G3 AN(a) MUG的第六维度操作(b) MoCoGAN图8:G3AN和MoCoGAN之间的比较. 给定固定的za和zm,以及smile和surprise两个条件标签,G3AN和MoCoGAN生成正确的面部表情 .然而,虽然 G3AN 保留了行之间的外观,但MoCoGAN改变了主题(b) 第二维对魏茨曼的操纵图10:潜在运动表示操纵对于每个数据集,每行共享相同的外观表示,而运动表示的一个维度中的值从上到下增加查看SM以获得更多结果。(a) za0,zm0(顶部)和za2,zm0(底部)(a) UvA-NEMO上的三维(b) MUG上的三维(c) 第二维对魏茨曼的操纵图9:潜在外观表示操作。 对于每个数据集,每行共享相同的运动表示,而从上到下,在一个维度的外观表示的值增加。更多示例参见SM。表示。为此,我们通过随机采样两组噪声(za0,zm0)和(za1,zm1)来生成两个视频Va和Vb接下来,我们添加za0和za1,获得新的外观za2。当组合(za2,zm0)和(za2,zm1)时,我们在两个新的结果视频中观察到一个和-(b)za1,zm1(顶部)和za2,zm1(底部)图11:添加外观表示。我们将两个样本的外观向量相加((a)和(b)的顶部行),在每个底部行中获得总和外观。我们注入与(a)和(b)的每个顶部外观相关的运动,并且能够在(a)和(b)的行内显示相同的运动。与za0和za1相关的不同外观,具有与zm0和zm1相同的运动,见图11。4.3.3消融研究我们在这里寻求研究建议的G3 AN架构的有效性,以及建议的发电机中的每个组件相关的有效性。为此,我们首先通过分别去除GS和GT来生成视频,以验证它们控制运动和外观的能力。我们观察到,当去除GT时,模型能够生成不同的主体,然而对于每个人,面部运动是恒定的,参见图12(顶部)。同样地,当GS被移除时,改变运动将导致527233影响受试者当两者都被移除时,ral信息,我们认为这在视频生成任务中很重要。GT和GS,外观和运动纠缠在一起,相互影响,见图12(底部)。这恶魔-MUG UvA魏茨曼UCF 101展示了有效的解开带来的前沿,FID↓FID↓FID↓FID↓IS↑流GS和GT。3D 93.51 149.98154.21117.61 2.88(2+1)D73.08141.3595.0198.703.36(1+2)D69.42140.4287.0496.793.07表4:G.(a) za,zm0(b)za,zm1图12:消融研究。 通过remov获取的生成视频-ingGT(顶行),移除GS(中间),以及两者(底行)。我们继续证明GS,GT在哪里插入自我关注?最后,我们继续探讨在哪个级别的生成器,F-SA是最有效的。我们在表5中总结了性能比率。在G3模块之后插入F-SA提供了最好的结果,这表明中级特征图对视频质量的贡献占主导地位。如GAN分析[3]所示,中级特征表示语义信息,例如,对象部分,而高级特征表示局部像素图案,例如,边缘、光线和颜色以及底层特征不包含清晰的语义信息,这可能是F-SA在G3模块中取得最佳效果的原因。发生器w.r.t.中的F-SA视频质量。 在这个骗局里-文本中,我们单独删除每个组件并报告UvA Weizmann UCF 101S所有数据集。这表明单独生成外观特征对于高质量视频是有用的此外,我们的结果证实了F-SA在我们的方法的必要性。建筑MUG UvA Weizmann UCF 101FID↓ FID↓FID↓ IS↑不包括GS、GT、F-SA252.97127.09 2.78不含GS、GT113.44 159.54176.73120.17 3.16不含GS109.87 129.84141.06117.19 3.05无F-SA85.11 128.1497.5498.37 3.44不含GT82.07 121.8794.6496.47 3.16G3 AN67.12 119.2286.0191.21 3.62表3:主要成分对G.转置卷积。然后,我们比较了所提出的因式分解转置时空(1+2)D卷积,标准转置三维卷积,转置(2+1)D卷积,当用于GVw.r.t.视频质量。我们仔细设置了内核的数量,允许三个网络具有几乎相同的训练参数。我们在表中报告了定量评价的结果4. 两种卷积类型(1+2)D和(2+1)D都优于标准3D内核。生成的视频质量。(1+2)D略优于(2+1)D,原因可能是(1+2)D内核使用更多的1×1内核来细化速度。0123表5:在G3 AN的不同层级插入F-SA的比较。5. 结论我们已经提出了新颖的视频生成架构G3 AN,其尤其利用(i)以非纠缠方式对外观和运动进行建模的三流生成器,以及(ii)新颖的时空融合方法。我们已经在四个数据集上对我们的方法进行了广泛的评估,在定量和定性上优于最先进的视频生成方法VGAN,TGAN和MoCoGAN。此外,我们还展示了G3AN将外观和运动分开的能力,从而可以单独操纵它们.未来的工作涉及GAN模型的设计,用于高分辨率视频的视频生成。谢谢。这项工作得到了法国政府(国家研究机构,ANR)的支持,资助号为ANR-17-CE 39 -0002。引用[1] 妮基·艾凡蒂,克里斯汀·帕帕克里斯图,还有阿纳斯塔西奥斯·德洛普洛斯. 面部表情数据库。在工作中-表3中的四个数据集的结果。结果表明FID↓FID↓FID↓FID↓IS↑在去除所有三个组件后,视频质量G383.01188.6096.38100.373.09最贫穷的人,这证明了他们所有人都为G372.54178.6499.66126.122.74最终结果。 个人而言,G扮演着最相关G369.02160.1297.53112.363.03作用,因为删除它,减少FID最深刻的,G367.12119.2286.0191.213.625273购买多媒体交互服务图像分析(WIAMIS),第1-4页。IEEE,2010。4[2] Badour AlBahar和Jia-Bin Huang。具有双向特征变换的引导式在ICCV,2019年。1[3] David Bau , Jun-Yan Zhu , Hendrik Strobelt , BoleiZhou, Joshua B.作者:William T. Freeman 和AntonioTorralba。肝解剖:可视化和理解生成对抗网络。2019年,在ICLR。8[4] Yoshua Bengio Aaron Courville和Pascal Vincent表示学习:回顾与新的视角。IEEE TPAMI,35(8):1798-1828,2013. 一、二[5] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练2019年,在ICLR。1[6] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远?(and 230,000个3D面部标志的数据集)。InICCV,2017. 4[7] Caroline Chan , Shiry Ginosar , Tinghui Zhou , andAlexei A Efros.大家跳舞吧在ICCV,2019年。一、二[8] Xi Chen,Yan Duan,Rein Houthooft,John Schulman,Ilya Sutskever,and Pieter Abbeel. Infogan:通过信息最大化生成对抗网络进行可解释的表示学习。在NIPS,2016年。2[9] HamdiDibekli ogZaglu,AlbertAliSalah,andTheoG ev ers.你真的在自发的微笑与假装的享受的微笑。ECCV,2012年。4[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS,2014。一、二[11] Lena Gorelick、Moshe Blank、Eli Shechtman 、MichalIrani和Ronen Basri。作为时空形状的动作。TPAMI,29(12):2247-2253,2007年12月。4[12] 原贤章片冈广胜佐藤丰时空3D CNN可以追溯2D CNN和ImageNet的历史吗?在CVPR,2018年。5[13] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在NIPS。2017. 5[14] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae:使用受约束的变分框架学习基本视觉概念。ICLR,2017年。6[15] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR,2017年。1[16] 张允锡金君熙宋耶鲁具有外观和运动条件的视频预测.在ICML,2018。2[17] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv:1710.10196,2017。1[18] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在CVPR,2019年。1[19] Diederik P Kingma和Jimmy Ba。亚当:一种方法随机优化arXiv预印本arXiv:1412.6980,2014。4[20] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。见ICLR,2014年。2[21] ChristianLedig , Lucas Theis , Ferenc Huszár , JoseCaballero , Andrew Cunningham , Alejandro Acosta ,Andrew P Aitken , Alykhan Tejani , Johannes Totz ,Zehan Wang,et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在CVPR,2017年。1[22] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解 纠缠 的表 示进 行不 同的图 像到 图像 的翻 译在ECCV,2018。2[23] Yijun Li,Chen Fang,Jimei Yang,Zhaowen Wang,Xin Lu,and Ming-Hsuan Yang.基于流的静态图像时空视频预测。在ECCV,2018。一、二[24] Liqian Ma,Qianru Sun,Stamatios Georgoulis,Luc VanGool,Bernt Schiele,and Mario Fritz.解纠缠的个人图像生成。在CVPR,2018年。一、二[25] Takeru Miyato,Toshiki Kataoka,Masanori Koyama,and Yuichi Yoshida.生成式对抗网络的谱归一化。在ICLR,2018年。1[26] Junting Pan,Chengyu Wang,Xu Jia,Jing Shao,LuSheng,Junjie Yan,and Xiaogang Wang.从单语义标签图生成视频arXiv预印本arXiv:1903.04480,2019。2[27] Yunchen Pu,Shuyang Dai,Zhe Gan,Weiyao Wang,Guoyin Wang , Yizhe Zhang , Ricardo Henao , andLawrence Carin.Jointgan:Multi-domain joint distributionlearning with generative adversarial nets. arXiv 预 印 本arXiv:1806.02978,2018。1[28] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv:1511.06434,2015。4[29] 安德烈斯·罗梅罗,巴勃罗·阿贝莱斯,吕克·范古尔,和拉杜·阿夫特。Smit:随机多标签图像到图像翻译。在ICCV研讨会,2019年。1[30] Masaki Saito、Eiichi Matsumoto和Shunta Saito。具有奇异值裁剪的时间生成对抗网。InICCV,2017. 二、四[31] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford、Xi Chen和Xi Chen。改进了训练GAN的技术。在NIPS。2016. 5[32] Md Mahfuzur Rahman Siddiquee,Zongwei Zhou,NimaTajbakhsh , Ruibin Feng , Michael B Gotway ,YoonyBen- gio,and Jianming Liang.学习生成对抗网络中的不动点:从图像到图像的翻译到疾病检测和定位。在ICCV,2019年。1[33] Krishna Kumar Singh 、Utkarsh Ojha和Yong Jae Lee 。Finegan:用于细粒度对象生成和发现的无监督分层解缠。在CVPR,2019年。2[34] Khurram Soomro、Amir Roshan Zamir和Mubarak Shah。UCF101:来自野外视频的101个人类动作类数据集技术报告,CRCV-TR-12-01,2012年11月。4[35] Sergey Tulyakov,Ming-Yu Liu,Xiaodong Yang,andJan Kautz. MoCoGAN:分解运动和内容以生成视频。在CVPR,2018年。25274[36] Carl Vondrick Hamed Pirsiavash和Antonio Torralba生成具有场景动态的视频。在NIPS,2016年。2[37] Jacob Walker , Carl Doersch , Abhinav Gupta , andMartial Hebert.不确定的未来:使用变分自动编码器从静态图像进行预测。在ECCV,2016年。2[38] Jacob Walker , Kenneth Marino, Abhinav Gupta , andMartial Hebert.pose知道:通过生成姿势未来进行视频预测。InICCV,2017. 2[39] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,GuilinLiu,Andrew Tao,Jan Kautz,and Bryan Catanzaro.视频到视频合成。NeurIPS,2018。二、五[40] 王耀辉,彼得·比林斯基,弗朗索瓦·F·布雷蒙德,安蒂扎·丹切娃. ImaGINator:用于视频生成的条件时空GAN。在WACV,2020年。3[41] 徐涛,张鹏川,黄秋媛,张涵,甘哲,黄晓蕾,何晓东。Attng
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功