少镜头说话头合成的学习空间表示

5 浏览量更新于2023-10-13 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13829用于少镜头说话头合成的学习空间表示Moustafa Meshry Saksham Suri Larry S.马里兰大学帕克分校University of Maryland，College Park摘要我们提出了一种新的方法，用于少数镜头的说话头合成。虽然最近在神经说话头方面的工作已经产生了有希望的结果，但它们仍然可以产生不保留源图像中主体身份的图像。我们假设这是一个结果的纠缠表示的每一个主题在一个单一的潜在代码模型的三维形状信息，身份线索，颜色，照明，甚至背景细节。相比之下，我们建议将主题的表示分解为空间和风格组件。我们的方法分两步生成目标帧。首先，它预测目标图像的离散和密集的空间布局。第二，图像生成器利用预测布局进行空间去规范化并合成目标帧。我们的实验表明，这种disentang- gled表示导致了显着的改善，比以前的方法，定量和定性。1. 介绍我们研究了在低拍摄设置中学习个性化头部化身的任务，也称为给定源主体的单次拍摄或几次拍摄图像以及可能从不同主体导出的面部界标的驱动序列该任务具有广泛的应用，包括AR/VR、视频会议、游戏、动画电影制作和远程通信中的视频压缩中的应用传统的基于图形的方法来完成这项任务依赖于3D面几何形状，并产生非常高质量的合成。然而，他们倾向于专注于对没有头发的面部区域进行建模，并且他们学习特定于主题的模型，并且不能推广到新的主题。相比之下，最近的基于2D的方法[1，2，3，4]学习主体不可知模型，该模型可以在给定少至单个图像的情况下动画化看不见的主体此外，由于这些作品学习隐式模型并且不需要显式几何表示，因此它们可以合成完整的头部，包括头发、嘴部和面部。输入地标学习空间布局输出地面实况图1：我们的框架将图像合成过程分解为空间和风格组件。它预测目标图像的离散潜在空间布局，其用于产生用于最终合成的每像素样式调制参数。rior，甚至像眼镜和耳环这样的可穿戴配件然而，这种显着的泛化能力是以低质量和差的身份保护为代价的，当与基于3D的特定于主题的对应物相比时。弥合基于2D的主题不可知和基于3D的主题特定方法之间的质量差距最近在基于2D的方法中的努力可以分为两类;基于翘曲的和直接合成。顾名思义，基于扭曲的方法（例如，[2]）学习基于驱动序列的运动来扭曲输入图像或恢复的虽然这些方法实现了高度的真实感，特别是对于图像的静态和刚性部分，但它们往往只对有限范围的运动、头部旋转和解遮挡起作用。另一方面，直接合成方法（例如， [1，3，4]）将源主体编码为压缩的潜码，并且生成器解码潜码以合成目标姿态。这些方法在压缩的潜在空间上学习先验，并且可以为更宽范围的姿势和头部运动生成逼真的结果。然而，他们表现出显着的身份差距之间的输出和源主题。我们假设身份差距是由源主体在单个潜码中的纠缠表示引起的。这种压缩的1D潜在编码多视图形状信息，身份线索，以及颜色信息，照明和背景细节。为了从潜在代码合成目标视图，生成器需要设计复杂的函数以将一维潜在代码解码成其对应的2D空间信息。我们认为，这不仅消耗了网络容量的很大一部分，而且13830输入地标潜在空间布局‘Oracle’X熵损失（预训练期间）段合成视图地面实况骨料侦察+高级损失输入帧图2：我们的培训管道概述。在预训练布局预测器Gl期间使用与oracle分段的交叉熵损失，然后在完整流水线训练期间关闭。限制了可以在潜在代码中编码的信息量。为了解决这个问题，我们提出了一个两步的框架，分解成其空间和风格组件的合成的一个说话的头。我们的框架动画源主题在两个步骤。首先，它预测一个新的空间布局的主题下的目标姿态和表情。然后，它以预测的布局为条件合成目标帧。这种因式分解表示产生以下关键性能优势。更好的主体不可知模型性能。我们的主题不可知（也称为元学习）模型的性能不仅比先前的主题不可知的最新技术水平表现得更好，而且还与先前作品的主题微调性能相当，当只有很少的源图像可用时（例如，少于10张图片）。用更少的数据获得更好的微调性能。微调我们的模型为一个特定的主题需要显着更少的数据和更少的迭代比以前的作品，但取得了更好的性能。例如，我们表明，使用4次输入微调我们的模型优于使用32次输入微调的先前最先进的模型。姿态变化的稳健性。我们表明，我们的模型是更强大的对更广泛的姿态和面部表情，同时仍然产生现实和身份保持的结果。改进身份保护。源身份和驱动身份之间的形状差异对再现结果中的身份保留通过我们的模型学习的中间新颖的空间表示降低了对这种差异的敏感性，并且更好地保留了身份。总之，我们做出以下贡献：• 一种新的方法，分解成其空间和风格组件的说话头• 一种新的潜在的空间表示，证明有效的少数镜头新的看法合成。• 我们在单镜头和多镜头设置以及元学习和主题微调模式中实现了最先进的性能2. 相关工作现有的逼真的说话头合成方法可以分为基于3D和基于2D的。基于3D的方法这样的方法[5，6，7]利用3D几何表示作为代理以动画化目标主体。常见的几何表示，如3D变形模型（3DMM）[8]，仅对面部区域进行建模，不包括头发，眼睛和嘴巴内部等具有挑战性的区域。获得这些区域的详细几何形状是昂贵且具有挑战性的任务。因此，这样的方法要么不能合成，要么在这些区域上表现不佳最近的作品[9，10，11]将传统的图形管道与机器学习相结合，以更好地对眼睛运动，嘴巴内部进行建模，或者学习更好的外观模型。然而，他们学习特定于主题的模型，这些模型不适用于新的主题。其他作品[12，13]采取了第一步来推广到多个主题，但它们在头发和面部以外的其他区域表现不佳。基于2D的方法这些方法[1，2，3，4，14，15，16，17，18，19]学习头部的隐式模型，并且不需要代理几何结构。因此，他们可以合成整个头部，包括动态区域，如头发，眼睛和嘴巴内部。他们还可以模拟不同的可穿戴设备......13831y我我联系我们不联系我们----帽子、眼镜和耳环等配饰。早期的作品建立在CycleGAN [20]之上，并学习特定于主题的模型[21，22]。最近的作品[1，2，3，4，18，19]学习主题不可知模型，可以只给出一个或几个镜头的图像来动画看不见的主题。然而，与基于3D的受试者特异性模型相比，这些方法缺乏质量和身份保留。为了弥合这种性能差距，混合模型[1，3，4]利用元学习阶段，在大量数据上训练主题不可知模型，然后执行可选的主题特定微调阶段，以提高真实性并恢复源身份。在这项工作中，我们改进了元学习的性能，以实现最先进的结果，而无需任何特定于主题的微调。虽然我们的模型仍然可以从可选的微调阶段受益，以进一步完善结果，但与以前的工作相比，它需要的数据样本明显减少。在另一个轴上，基于2D的方法可以基于合成技术被分类为基于扭曲的（例如，[2，18，23，24]）和直接合成（例如， [1、3、4]）。基于变形的方法变形输入图像[2，18]或恢复的规范姿势[23]以合成新颖的姿势。然而，当目标姿态远离源图像的姿态时，翘曲结果倾向于中断直接合成方法利用生成对抗网络（GANs）[25]和图像到图像（I2I）转换[26]的进步来生成新的姿势。与基于变形的方法相比，直接合成方法可以真实地处理更广泛的姿势和表情。在我们工作的同时，Wanget al. [24]将基于warping的方法与GANs的功能相结合，以取得显着的成果。多模态图像到图像（I2I）转换。几多模态I2 I翻译作品馈送风格潜码，ei-Ground truth Oracle分割预训练分割潜在布局图3：布局预训练预测有意义的分割图，尽管有噪音的oracle分割。我们的潜在空间表示比传统分割编码更多的信息。以预测布局为条件的图像。我们首先在第3.1节中概述了我们的管道。然后，我们在第3.2节中解释如何预训练布局预测网络Gl以预测新颖视图的语义分割，随后是第3.3节中的完整流水线训练。第3.4节解释了布局预测网络G1如何从预测语义图转变为学习更强大的潜在空间表示。最后，我们在3.5节中讨论如何通过可选的特定于主题的微调阶段来学习个性化的头部化身。3.1. 概述给定K次输入I1. . . 在源主题的I K中，双头编码器E=El，Es处理输入并且生成针对i的K个布局潜伏期zl和K个样式潜伏期zs。1 .一、. . K.然后对K个潜伏期进行平均以得到K个潜伏期。聚集布局潜势zl=1ΣKzl和风格潜势KKi=1 我zs=1ΣKzs。平均K潜伏期抵消了视图-其他直接到发电机[27，28，29]或通过自适应实例规范化（AdaIN）[30，31]。最近的最先进的架构[32 ， 33 ， 34] 通过生成每像素空间去规范化（SPADE）参数[32]，显示了对传统UNet [35]和编码器-解码器架构然而，这样的架构取决于目标图像的准确语义分割或其他密集空间表示的存在在这项工作中，我们学习预测一个潜在的密集布局，以提供空间输入SPADE。3. 方法我们的方法分解成空间和风格组件的头部化身的表示。它将主体的新颖视图头部合成分解为两个步骤。首先，布局预测网络G1将目标视图的面部界标转换为对象的密集空间布局。然后，图像生成器Gs合成最终的图像。具体信息和暂时性封堵器，并保持隐式3D信息，如用于布局潜在的头部和头发形状，以及用于风格潜在的颜色和照明信息。我们有两个发电机：布局预测器网络G1和图像生成器Gs。布局预测器将目标视图的面部界标xt和布局潜在特征zl作为输入，并生成空间独热布局l=Gl（xt，zl），诸如用于目标视图的语义映射。图像生成器Gs处理风格潜在zs并利用空间去规范化层（SPADE [32]），以预测布局y l 为条件，以合成最终图像I=Gs（y l，zs）。我们的框架概述如图2所示。3.2. 布局预测预训练在对预测布局没有任何监督或约束的情况下端到端地训练上述流水线导致退化解决方案，其中空间布局及其对应的空间去规范化被完全忽略。因此，所有空间和样式信息都被编码到i=1 我13832不L.ΣLLKLL----LL不--不不K i=1我不K我K从风格潜在z_s解码，这导致较差的性能。因此，我们选择预训练布局预测网络以预测目标视图的合理语义分割，给定输入面部界标Xt和布局潜在Zl。为了监督该训练，我们使用现成的面部分割网络[36]作为oracle来将目标图像It分割成语义图St，并且我们在oracle分割St和我们预测的分割yl=Gl（xt，zl）之间应用交叉熵损失（X-ent）。我们观察到，所获得的预言分割是非常嘈杂的并且具有差的质量（例如，见图3）。这是由用于训练oracle分割网络[36]的数据集与说话头部的野外视频之间的图像分辨率和头部姿势分布方面的域差距引起的。因此，为了正则化分割预测训练，我们使用多任务预训练策略，其中布局预测网络预测目标图像It的额外RGB重构Rt，其用作次级监督信号。具体来说，我们有yl，R=Gl（x，zl），zl=1ΣEl（I）（1）预训练的目标是Lseg=X-ent（yt，St）+λRLR（Rt，It）（2）其中R是感知重建损失，λR是被设置为低值的相对加权项。3.3. 全流水线培训一旦布局预测器网络已经被预先训练以预测语义分割，我们就将其插入完整的管道中。预测的分割作为空间输入被馈送到SPADE图像生成器Gs，其将最终图像合成为I=Gs（Gl（x，zl），zs），zs=1<$Es（I）（3）i=1损失，以促进身份保护。我们还使用L1损失来更好地保留合成图像和地面实况图像之间的颜色传递对抗性损失adv鼓励输出具有照片般的真实感。为了实现这一点，鉴别器网络D被训练以区分真实图像和伪图像，而生成器网络Gs旨在通过使输出更接近真实图像的流形来欺骗鉴别器。我们从[40]借用鉴别器网络D的架构，并使用具有梯度惩罚的非饱和逻辑损失[41]。最后，我们对学习的潜在代码施加L2正则化，完整的培训目标由下式给出minL（It，It，zl，zs|El，Es，Gl，Gs，D）=Lre c（It，It）+λad vLad v（It，It）+λL2zl2+zs2（四）其中λrec，λL2确定损失项之间的相对权重。3.4. 学习潜在的空间表征空间去规范化（SPADE）通过经由小卷积子网络馈送密集空间输入来生成每像素去规范化参数。虽然SPADE [32]最初使用语义图作为输入，但我们探索学习更适合手头图像合成任务的潜在空间表示。为此，我们关闭交叉熵损失，以便给予布局预测器Gl从预测传统语义分割偏离的自由度，并且学习更好地优化少数镜头新颖视图合成目标的其他潜在表示。因此，布局预测器仅由式（1）的训练目标监督。4.第一章图3示出了所学习的潜在布局的示例虽然它们可能看起来比传统的语义地图更难解释，但它们似乎编码了更多的信息并捕获了准确的细节。3.5.科目微调我们观察到，SPADE生成器快速地利用输入空间分割来解决空间模糊性，并且我们不再落入其中忽略空间输入的退化解决方案。我们的完整流水线，包括布局和样式编码器E1、Es、布局预测器G1和图像生成器Gs，被优化以最小化三个损失;重构损失rec、对抗损失adv和潜在正则化损失L2。对于重建损失 rec ，我们采用基于 VGG19 [38] 和VGGFace [39]网络的感知损失[37]以及L1损失。虽然基于VGG19的感知损失是标准的重建损失，但我们遵循Zakharov等人。[1]并利用基于VGGFace的感知训练我们的完整管道学习一个强大的主题不可知模型，产生高质量和身份保留的合成。可选地，我们可以学习个性化头部化身以进一步细化给定对象的结果。要做到这一点，我们遵循[1，3，4]并使用源身份的少量输入来微调主题不可知模型（也称为元学习模型）具体地，我们计算布局和样式嵌入Zl、Zs，并且通过重构少镜头输入的集合并且优化等式11的相同训练目标来微调布局和图像生成器Gl、Gs以及鉴别器D的权重。4.第一章我们观察到，与元学习输出相比，受试者微调恢复了高频分量并改善了背景重建13833图4：单次激发设置中的定性比较。我们展示了三组代表源和目标姿态之间的低，中，高方差的例子。我们的方法是更强大的姿态变化比基线。4. 实验评价实作详细数据。请参阅supp。用于网络架构、超参数和训练细节的材料我们的代码将公开发布。数据集。我们使用Vox-Celeb [ 42 ]数据集进行评估，Vox-Celeb [42 ]数据集是一个大规模的野外视频数据集。火车集包含超过一百万个片段，145,569个视频，5,994个不同的身份。测试集包含不属于训练的新身份。我们使用Zakharov等人发布的测试子集。[1]，其包含来自50个主题的视频的总共1，600帧对于自我重演场景，输入的几个镜头和驱动序列不重叠。我们使用现成的面部标志检测器获得采样帧的面部标志[43]。低方差中方差高方差地面实况我们FOMMFSTHLPD双层源13834≤表1：单次激发设置中的定量比较。方法PSNR↑ SSIM↑ LPIPS↓ ID-SIM↑ NMKE↓ FID↓X2Face [23]15.500.4660.3460.6910.33398.58双层[4]---0.7210.236130.58FSTH [1]16.920.5970.2630.8360.04953.07LPD [3]---0.8370.07048.48FOMM [2]18.200.6350.2360.8690.06156.10我们17.370.6050.2320.8860.04145.69基线。我们将我们的方法与以下基线进行比较：X2Face [23]、FSTH [1]、FOMM [2]、潜在姿态描述符（LPD）[3]和双层[4]。我们使用作者提供的已发布的预训练模型用于所有基线，除了FSTH [1]，我们使用作者由于某些基线仅接受单次输入（例如，FOMM和双层），我们将评估分为单次拍摄设置和多次拍摄设置，在单次拍摄设置中，我们与所有基线进行比较，在由于LPD [3]和双层[4]基线不预测背景并重新裁剪输入/输出帧，因此我们减去背景并与其相应的裁剪地面实况进行比较以进行定量分析。我们还从帧重建评估中排除了这两个基线，因为它们的输出与其余方法不一致。指标. 我们沿着五个轴评估所有模型。• 使用峰值信噪比（PSNR）和结构相似性（SSIM）[44]度量的重建保真度• 使用基于AlexNet的LPIPS度量[45]的输出和地面实况之间的感知相似性。• 使用来自面部识别网络的面部嵌入之间的余弦相似性的身份保留（ID-SIM）[39]。• 归一化平均关键点误差（NMKE），其测量合成图像与地面实况图像之间的姿态误差，如在[3，4]中计算的。• 使用Frechet-Inception Distance（FID）度量输出的感知质量[46]。4.1. 单发对比评价表1示出了与单次激发设置中的基线的定量比较。我们的方法在感知重建（ LPIPS ），身份保留（ ID-SIM），姿态匹配（NMKE）和视觉质量（FID）方面优于所有基线。然而，FOMM在标准重建度量（PSNR和SSIM）中得分更好我们认为这是他们的方法所固有的，因为它具有基于扭曲的性质，可以准确地捕获背景和其他静态区域，因此即使在存在清晰伪影的情况下也可以提供低重建误差。此外，虽然FOMM不能利用更多的输入帧，但我们的方法LPD FSTH我们的图5：示出增加K-激发输入和应用受试者微调的效果的定性比较多激发输入的性能得到改善，在所有指标上都显著超过FOMM（见附录）。材料的数量）。图4示出了来自三个组的定性结果，这三个组表示输入和目标姿态之间的低、中和高方差我们观察到，所有的方法执行良好时，目标姿势是类似的输入镜头。LPD在中低姿态变化内产生清晰的结果，但是在高姿态变化的情况下FSTH显示出明显的身份差距。FOMM精确地匹配背景并且在姿态方差低时示出高度逼真的结果，但是在目标姿态远离源图像时示出明显的身份间隙和可见的伪影我们的方法是更强大的姿态变化，产生现实的结果，同时保留源身份。4.2. 多炮对比评价这里，我们关注增加K次输入的数量的效果，以及使用K次输入的特定于对象的微调的效果。图6绘制了随着我们增加K次发射的数量的ID-SIM、NMKE和FID性能度量。我们观察到，姿态重建性能（NMKE）主要取决于方法本身，而不是K-镜头的数量或模型是否微调。例如，具有K=1的FSTH的元学习性能优于具有K=32的微调LPD模型。同样，我们方法的单次元学习性能优于K=32时的微调基线。对于ID-SIM和FID指标，我们模型的元学习性能不仅优于基线，而且与K8的微调基线相当。然而，当K增加到32时，微调的基线最终优于我们的元学习模型。我们的方法的另一个非常重要的优点是，它实现了更好的性能与显着更少的数据。源（8）第二章：第一章：元学习（1）13835FIDLPD-metaLPD-ftFSTH-metaFSTH-ftOurs-metaOurs-ft0.95800.070.90700.850.800.750.06600.0550400.04301 4 832K-shots1 4 832K-shots1 4 8 32K-shots图6：与少数拍摄基线的定量比较，显示了增加K拍摄输入和特定于对象的微调的效果虚线和实线分别表示元学习模型和微调模型。图7：不同驾驶身份的跨主题重演结果显示了我们的元学习模型，没有任何微调，并使用32次输入。例如，仅用K=4微调我们的模型，就比K=32时的微调基线更好。由于对更多数据进行微调需要更多的训练迭代，因此需要更多的时间，因此我们的方法在更少的数据样本上花费更少的时间进行微调我们观察到类似的行为与其他指标（PSNR，SSIM和LPIPS）。请参阅supp。材料的全面结果。图5可视化增加K和受试者微调两者的效果。我们的方法保留了源身份没有任何微调，即使是单次输入。另一方面，基线仅在对象特定的微调之后恢复源我们的方法也显示出最大的改进，在现实主义和更好的身份匹配方面，当增加K-镜头输入的数量时。例如，我们的方法成功地过滤出的主题手遮挡在单镜头输入的脸。4.3. 跨学科重演跨学科的重演是一个挑战，特别是对地标驱动的方法。来源和驾驶员身份的面部标志之间的形状差异可能导致再现结果中的明显身份差距。通过我们的方法学习的中间空间表示有助于减少这个问题，并导致良好的身份保存的源主体，无论驱动程序的身份。图7显示了使用不同驱动程序身份的示例重现结果。为了证明我们的解纠缠表示的有效性，我们避免了任何主题微调，并显示了我们的元学习模型与32杆输入的结果。在具有挑战性的面部表情和覆盖面部左侧和右侧的不同视图中，源身份被很好地保留。驱动器#1驱动器#2驱动器#3源源源ID-SIMNMKE13836图8：消融研究的示例所示结果是针对具有单次输入（源）的元学习模型表2：我们的方法的消融研究。+SPADE将UNet生成器替换为SPADE。+学习Seg.将生成器的条件映射到学习的分段上。+Latent layout学习潜在的空间表示。上限得到欺骗和使用地面实况分割。方法PSNR ↑SSIM ↑LPIPS ↓ID-SIM ↑NMKE↓ FID↓基线17.000.5740.2740.8370.04467.19+ SPADE16.940.5750.2680.8340.04356.00+ 学习Seg。地图16.940.5780.2650.8280.04262.78+ 潜在布局（我们的）17.220.5920.2470.8600.04254.40上界18.210.6290.2190.8670.03948.064.4. 消融研究我们评估我们提出的方法的不同组成部分的贡献。所有消融实验都是用相同的超参数和相同数量的时期训练的，并且在没有微调的单次设置中进行评估。我们在表2中报告了结果。基线模型具有与FSTH [1]相同的设置，其中具有AdaIN层[30]的UNet接下来，我们用以面部标志（+SPADE）为条件的SPADE生成器[32]替换UNet架构。这改善了FID，但其他指标保持不变。我们假设这是由于使用稀疏地标作为空间输入，而SPADE需要密集的空间输入来生成每像素的反规范化参数。为了验证我们的假设，我们进行了一个实验作为上限，在那里我们使用现成的面部分割网络[36]（即，oracle），我们使用这些oracle分割作为SPADE的空间输入。即使预言分割是有噪声的（例如，图3），这仍然导致所有指标的显著提升，证明SPADE生成器可以受益于密集的空间输入。因此，我们训练了一个布局预-diction网络来预测目标姿势的合理语义地图）。这令人惊讶地产生了混合的结果，甚至导致了ID-SIM和FID分数的下降。我们假设这是因为有噪声的预言分割不提供一致的监督信号，这导致学习的分割错过重要的形状线索（例如，正确的面部形状），以及随着训练的进行在预言分割中的过拟合常见错误。最后，去除对预测布局的监督并学习潜在空间表示（+潜在布局）导致在所有度量上的合理我们还在图8中显示了消融研究的定性比较。我们观察到上限实验的定性结果（使用oracle/地面实况分割）表现出由oracle分割中的错误引起的我们的方法与学习的潜在布局的结果看起来质量更好，没有明确的文物，尽管有更差的定量指标比上限实验。5. 结论我们提出了一种新的方法来合成说话头我们的模型学习了一种新的潜在空间表示，证明对我们的任务有效。我们提高了主体不可知和主体微调模型的性能，同时需要更少的数据样本。所学习的潜在空间表示提供了针对广泛的姿势和表情的鲁棒性，并且导致更好的身份保留，特别是对于跨主题重演场景。鸣谢。我们要感谢感知与智能（PI）实验室的成员提供的有用反馈。该项目部分由DARPA Se-maFor（HR 001119 S0085 ）、 DARPA MediFor （ FA 87501620191 ）和 DARPASAIL-ON（W 911 NF 2020009）计划资助。13837引用[1] Egor Zakharov、Aliaksandra Shysheya 、Egor Burkov和Victor Lempitsky。现实神经说话头模型的少镜头对抗学习。在IEEE会议Comput. 目视模式识别，第9459-9468页，2019年。一二三四五六八[2] Aliaksandr Siarohin 、 Stéphane Lathuilière 、 SergeyTulyakov、Elisa Ricci和Nicu Sebe。图像动画的一阶运动模型。在NeurIPS，2019年12月。一、二、三、六[3] Egor Burkov、Igor Pasechnik、Artur Grigorev和VictorLempitsky神经头再现与潜在的姿态描述。在IEEE Conf.Comput.目视模式识别，第13786-13795页，2020。一二三四六[4] EgorZakharov ， AlekseiIvakhnenko ， AliaksandraShysheya，和维克多·伦毕斯基快速双层神经合成的一杆真实头像。以Eur. Conf. Comput. 目视，2020年8月。一二三四六[5] Justus Thies，Michael Zollhöfer，Matthias Nießner，LeviVal-作者声明：John W.实时表情转换进行面部重现。ACMTrans.Graph. ，34（6）：183-1，2015. 2[6] Justus Thies ， Michael Zollhofer ， Marc Stamminger ，Christian Theobalt，and Matthias Nießner.Face2face：实时人脸捕捉和rgb视频重现在IEEE会议Comput.目视模式识别第2387-2395页2[7] Supasorn Suwajanakorn ， Steven M Seitz ， and IraKemelmacher-Shlizerman.合成奥巴马：从音频中学习对口型ACM事务处理图表，36（4）：1-13，2017. 2[8] Volker Blanz和Thomas Vetter。的可变形模型3D面的合成。在Proc. SIGGRAPH，第187-194页，1999中。2[9] Hyeongwoo Kim ， Pablo Garrido ， Ayush Tewari ，WeipengXu，Justus Thies，Matthias Niessner，Patrick Pérez，Christian Richardt ， Michael Zollhöfer ， and ChristianTheobalt. 深度视频肖像。在 Proc. SIGGRAPH ， 2018年。2[10] Justus Thies ， Michael Zollhöfer ， and Matthias Nießner.去-ferred neural rendering：使用神经纹理进行图像合成ACM事务处理图表，2019年。2[11] Guy Gafni ， Justus Thies ， Michael Zollhöfer ， andMatthias Nießner.用于单目4d面部化身重建的动态神经辐射场。arXiv预印本arXiv：2012.03065，2020。2[12] Koki Nagano ， Jaewoo Seo ， Jun Xing ， Lingyu Wei ，Zimo Li，Shunsuke Saito，Aviral Agarwal，Jens Fursund，and HaoLi. pagan：使用动态纹理的实时化身 ACM Trans.Graph. ，37（6）：1-12，2018. 2[13] Ohad Fried、Ayush Tewari 、Michael Zollhöfer、 AdamFinkelstein 、 Eli Shechtman 、 Dan B Goldman 、 KyleGenova 、 Zeyu Jin 、 Christian Theobalt 和 ManeeshAgrawala。基于文本的编辑说话头视频。ACM事务处理图表，38（4）：1- 14，2019. 2[14] 陈乐乐，Ross K Maddox，段志尧，陈亮徐具有动态像素丢失的分层跨模态说话人脸生成。在IEEE会议Comput. 目视模式识别，第7832-7841页，2019年。2[15] 尤瓦尔·尼尔金，约西·凯勒，塔尔·哈斯纳。 Fsgan：主题不可知论的换脸和重演在Int. Conf. Comput.目视，第7184-7193页，2019年。2[16] Albert Pumarola，Antonio Agudo，Aleix M Martinez，Al-13838berto Sanfeliu和Francesc Moreno-Noguer。Ganimation：从单个图像中获得解剖感知面部动画以Eur.确认补偿目视，第818-833页，2018年。2[17] Kuangxiao Gu ， Yuqian Zhou ， and Thomas Huang.Flnet：地标驱动撷取与学习网路于忠实说话脸部动画合成。在AAAI，第34卷，第10861-10868页2[18] Sungjoo Ha ， Martin Kersner ， Beomsu Kim ， SeokjunSeo，and金东永提线木偶：少镜头的面部重现，保留未被看到的目标的身份。在AAAI，第34卷，第10893-10900页，2020中。二、三[19] 王廷春，刘明宇，陶伟，刘桂林，Jan Kautz和Bryan Catanzaro。少镜头视频到视频合成。NeurIPS，2019。二、三[20] Jun-Yan Zhu，Taesung Park，Phillip Isola，Alexei AEfros.使用周期一致对抗网络的不成对图像到图像翻译。在Int. Conf. Comput. 目视，第22233[21] Aayush Bansal、Shugao Ma、Deva Ramanan和Yaser酋长Recycle-gan：无监督视频重定向。以Eur.确认补偿目视，第119-135页，2018。3[22] Wayne Wu，Yunxuan Zhang，Cheng Li，Chen Qian，and Chen Change Loy.Reenactgan：学习通过边界转移来重现面孔以Eur. Conf. Comput. 目视，第6033[23] Olivia Wiles ， A Koepke ， and Andrew Zisserman.X2face：A用于使用图像、音频和姿势代码来控制面部生成的网络。以Eur.确认补偿目视，第670-686页，2018年。三、六[24] Ting-Chun Wang，Arun Mallya，and Ming-Yu Liu.单触发用于视频会议的自由视角神经讲话头合成。arXiv预印本arXiv：2011.15126，2020。3[25] Ian Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，BingXu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville，and Yoshua Bengio.生成性对抗网。在高级神经信息。过程系统，第2672-2680页，2014。3[26] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE Conf.Comput.目视模式识别，2017年。 3[27] Jun-Yan Zhu ， Richard Zhang ， Deepak Pathak ， TrevorDarrell，Alexei A Efros、Oliver Wang和Eli Shechtman。走向多模态图像到图像翻译。高级神经信息学。过程系统，2017年。3[28] 放大图片作者：Michael S.戴维斯和阿比纳夫什里瓦斯塔瓦步骤：用于多模态图像合成的基于样式的编码器预训练在IEEE/CVF计算机视觉和模式识别会议论文集，2021。3[29] 王小龙和阿比纳夫古普塔。生成图像模式-使用风格和结构对抗网络进行eling。在欧洲计算机视觉会议，第318施普林格，2016年。3[30] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在Int. Conf.Comput.目视，第1501-1510页，2017年。三、八[31] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。以Eur.确认补偿目视，2018年。313839[32] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在IEEE会议Comput. 目视模式识别，2019年。三、四、八[33] Xihui Liu，Guojun Yin，Jing Shao，Xiaogang Wang，and Hong-李胜。学习预测语义图像合成的NeurIPS，2019。3[34] Peihao Zhu，Rameen Abdal，Yipeng Qin，and Peter Wonka.Sean：使用语义区域自适应归一化的图像合成在IEEEConf. Comput.目视模式识别，第5104-5113页，2020。3[35] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-net：卷积网络用于生物医学图像分割。医学图像计算和计算机辅助干预，第234施普林格，2015年。3[36] Cheng-Han Lee，Ziwei Liu，Lingyun Wu，and Ping Luo.Maskgan ： Towards diverse and interactive facial imagemanipulation. IEEE 计算机视觉和模式识别会议（CVPR），2020。四、八[37] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。感知实时风格转换和超分辨率的损失以Eur.确认补偿目视，第694-711页。施普林格，2016年。4[38] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深Int. Conf.学习.代表。，2015年。4[39] Omkar M Parkhi，Andrea Vedaldi，and Andrew Zisserman.深度人脸识别。英国人马赫。目视Conf. ，2015年。四、六[40] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改善stylegan的图像质量在IEEE会议Comput. 目视模式识别，第8110-8119页，2020。4[41] 拉尔斯·梅谢德安德烈亚斯·盖格和塞巴斯蒂安·诺沃津。gans的哪些训练方法实际上是趋同的？机器学习国际会议，第3481- 3490页。PMLR，2018。4[42] J. S. Chung，A.Nagrani和A.齐瑟曼。VoxCeleb2：深说话人识别。在INTERSPEECH，2018年。5[43] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集在Int. Conf. Comput.目视，第1021-1030页，2017年。5[44] Zhou Wang，Alan C Bovik，

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

少镜头说话头合成的学习空间表示

C镜头、cs镜头和M12-区别

普通镜头和远心镜头的区别.docx

关于镜头与镜头的过度效果

基于深度学习的镜头运动分类算法应用场景

变焦镜头基础知识讲解培训PPT

zemax sample镜头库

镜头分辨率截止频率几何意义是什么

相机 镜头选型 csdn

远心镜头和普通领头的区别

m12镜头是什么意思

openmv镜头畸变

zemax的镜头优化的学习方法与书籍有？

机器视觉的镜头常用的光学参数有

固定镜头和运动镜头的拍摄都是以什么为依据

用opencv实现两路监控视频合成一路大画幅视频，考虑两路视频的镜头畸变以及重叠部分动态融合问题

请大家对以下问题做出回答： （1） 要用长焦镜头和广角镜头表现一个人奔跑的速度很快，你如何设计？ （2） 反之，要用长焦镜头和广角镜头表现一个人的速度很慢，你如何设计？

unity 滚轮 镜头 前进

工业相机的光学放大倍数的定义？传统显微镜的光学放大倍率的定义？镜头分辨率的定义是什么？它的单位转换是什么？

镜头自由平移 unity

毕业设计论文Django+Vue学生选课系统.docx

最新资源

相机镜头选型 csdn

请大家对以下问题做出回答：（1）要用长焦镜头和广角镜头表现一个人奔跑的速度很快，你如何设计？（2）反之，要用长焦镜头和广角镜头表现一个人的速度很慢，你如何设计？

unity 滚轮镜头前进