一次区域自适应人脸生成：基于深度学习的方法

4 浏览量更新于2023-10-23 收藏 2.3MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1一次区域自适应人脸生成Chao Yang Ser-Nam LimFacebook AI摘要在本文中，我们提出了一个框架，能够生成人脸图像，落入相同的分布，作为一个给定的一杆的例子。我们利用一个预先训练的StyleGAN模型，该模型已经学习了通用的人脸识别。给定一次性目标，我们开发了一种迭代优化方案，该方案快速调整模型的权重，以将输出为了生成具有相同分布的图像，我们引入了一种风格混合技术，该技术将目标的低级统计数据转移到使用模型随机生成的面部。这样，我们就能够生成无限数量的人脸，这些人脸继承自通用人脸和一次性示例的分布。新生成的人脸可以作为其他下游任务的增强训练数据。这样的设置是有吸引力的，因为它需要在目标域中标记非常少或甚至一个示例，这通常是由各种未知和独特的分布引起的真实世界面部操纵的情况，每个分布具有极低的流行率。我们证明了我们的一杆的方法来检测人脸操作的有效性，并将其与其他几杆域自适应方法定性和定量比较。1. 介绍深度学习已经在各种计算机视觉任务中流行，特别是在监督环境中，例如分类，检测或分割的学习[20，39，29，19]。深度生成模型，如变分自动编码器（VAE）[24，30]和生成对抗网络（GAN）[16，37，45，2，1，53]，由于其能够生成描述面部，自然场景和对象的高度逼真图像，因此在深度学习领域获得了显着的突出地位。深度学习的最新进展为许多重要应用铺平了道路，这些应用包括超分辨率、电影制作、游戏开发、跨域风格转移、人脸合成和衰老预测、图像修复、照片编辑等。然而，(a)（b）第（1）款(c)（d）其他事项图1：使用StyleGAN生成器在编码器-解码器DeepFake上进行一次性域自适应。（一）. Random StyleGAN生成的图像。（ b ） . 来自 DFDC 的编码器 - 解码器DeepFake的单次图像[13]。（c）。在域适应之后，使用与（a）相同的随机潜在输入的样式GAN生成的图像。（d）。StyleGAN在域适应后重新构建了一次性DeepFake。也促使了滥用其权力的应用程序的出现。Face 2Face[45]、FaceSwap [2]和编码解码器DeepFake [1]等技术导致了在线模仿/捏造新闻的兴起，甚至有可能影响选举结果。在本文中，我们对检测Deepfakes感兴趣，Deepfakes指的是用不同人的脸替换真实媒体的人脸的操作[40，10，13]。这往往伴随着恶意诽谤的意图-59215922欺骗其他人或散布捏造的消息。由于Deepfake的流行和公众兴趣的增加，图像生成一直是一个热门的研究课题。因此，已经提出了许多用于生成图像的技术，每种技术都具有特定的概率分布或指纹。通常情况下，一种新型的合成图像出现在网上，但底层技术是未知的，只有少数定制的例子存在。训练分类器来检测它们带来了巨大的挑战，因为我们无法推断出完整的概率分布。为此，我们的方法的目的是模仿一个完整的分布的目标域只给出一个例子。虽然大多数现有的域自适应方法试图找到一个特征空间，其中源和目标分布之间存在最大的混淆[27，32]，但我们直接操纵图像空间中的分布。我们首先训练一个深度生成模型来学习人脸在大量人脸图像上的一般概率分布。具体来说，我们采用基于样式的生成器（StyleGAN）[23]，因为它具有高容量和卓越的生成质量。使用经过训练的StyleGAN模型和来自特定分布的单个示例，我们对输入样式向量进行迭代优化，以将图像投影到StyleGAN分布，然后优化模型权重，以最小化投影距离并将StyleGAN分布转移到目标分布。然后，我们能够生成无限数量的随机面部，这些面部来自与目标相似的分布，但保留了通用人脸分布的流形。我们进一步将低级样式从一次性目标转移到StyleGAN生成的图像。为此，我们注意到给定图像的样式向量具有层次结构，并且在不同的样式层表示不同的属性。如果我们将随机合成图像的风格向量替换为后期层的目标的风格向量，我们就能够将目标域的低级统计信息转移到我们生成的随机图像中。我们把这个过程称为风格混合。将迭代权重优化与风格混合相结合，生成的图像不仅捕获了目标域的总体概率分布最后，然后可以使用生成的图像来训练用于检测来自目标域的图像的模型大量的实验表明，我们的检测器实现了显着提高的准确性相比，基线和其他国家的最先进的少拍域自适应和图像翻译技术。我们的贡献可归纳如下：1. 我们引入了一种新的单次域自适应框架，该框架在训练特定面部操作分布的单个示例的面部操作检测器时是有效的。2. 我们证明，与我们的AP生成的图像当用于训练分类器时，该方法在区分真实的和被操纵的面部图像方面实现了优异的性能。2. 相关工作2.1. 人脸操作与检测直到最近，新一代基于AI的图像和视频合成算法才变得突出，这是由于新的深度生成模型（如VAE [24，30]和GAN [16，37]）的发展。在本文中，我们主要考虑人脸身份操作方法，包括Face 2Face [45]，FaceSwap[2]和编码器-解码器Deepfake [1]。其他值得注意的面部操作方法包括音频到嘴唇同步[44]，训练参数到视频渲染网络[5]，用深度神经网络合成动态纹理[34]，使用配对视频来学习条件GAN [37]，或训练特定于身份的名人网络[25]。有公开可用的DeepFake数据集，如FaceForensics++ [40]和DFDC [13]。Zollhofer等人发表了一份综合性的最新报告。 [53]。我们在本文中的兴趣在于检测这样的面部操作。现有方法利用合成过程中产生的特定人为因素，例如眨眼[26]或颜色、纹理和形状提示[11，9]。 Liet al. [26]观察到DeepFake人脸缺乏真实的眨眼，这在CNN/RNN模型中被用来暴露DeepFake视频。 Yang等人 [49]利用头部姿势的不一致性来检测假视频。作为一种更通用的方法，Zhou等人。 [51]提出了一种用于DeepFake检测的双流CNN。2.2. 少炮域自适应最近的文献[15，28，31，46]广泛研究了克服对大型训练集的需求和提高模型从少数示例中概括的能力。早期的工作利用了以分层方式跨类共享先验的外观生成模型[14，41]。最近，出现了一类新的作品，其重点是使用元学习来快速调整模型以适应新任务[15，35，38，33]。这些方法在训练过程中采用了更好的优化策略，增强了模型的泛化能力。另一方面，[47，42，43]专注于学习更适合少量学习的图像嵌入。类似地，[12，18，48]还提出为少数镜头分类任务增加训练集。2.3. 用于图像合成和解纠缠的深度生成模型，如GAN [16]和VAE [24]，在建模自然图像分布和合成逼真的图形方面非常成功。再-5923诸如WGAN [4]、BigGAN [7]、Progressive GAN [22]和StyleGAN [23]等的近10年的进展已经开发了更好的架构、损耗和训练方案。特别是，StyleGAN [23]提出了一种GAN架构，用于隐式学习有助于合成大小图像的分层潜在样式。我们的方法利用StyleGAN作为骨干，并直接利用其表现力和分解能力。另一方面，最近的几项工作旨在逆转生成过程并将图像投影到GAN的潜在流形上，以及操纵潜在代码以控制输出[52，8，3，6]。我们的工作不仅是为了操纵潜在的流形，但也调整模型参数流形移动整个输出空间给定的输入图像。3. 我们的方法首先，我们鼓励我们的方法。我们担心的情况是，我们发现一个单一的人脸图像，这是预期将产生（又名假），但我们没有知识的技术，产生它的边缘。我们的目标是：(1)给出了单发目标的概率分布;（2）从分布中抽样，合成与目标区域相似的随机图像;（3）训练分类器以检测由相同技术生成的未来人脸图像。乍一看，预测未知的人脸操作的分布给出一个例子似乎不适定和不可行的。我们通过学习一个通用的人脸流形作为先验知识来解决这个问题，然后将分布转移到目标域。3.1. 概述我们的管道由以下组件组成：1. 面流形近似。我们通过在大量自然人脸图像上训练StyleGAN来学习人脸的通用概率分布。所有可能的样式向量的训练风格- GAN应跨越低维空间，近似的通用面流形。2. 单次流形投影。给定一个操作过的人脸作为输入，我们固定StyleGAN模型的权重这样做使我们能够在StyleGAN流形上找到单次换句话说，我们将目标图像投影到流形上。3. StyleGAN歧管移位。在找到输入图像的最近邻后，我们然后固定相应的样式矢量并更新StyleGAN模型权值，以再次最小化合成图像与目标之间的距离更新模型的权重使输出流形向目标分布移动。4. 风格混合。我们从更新后的StyleGAN模型中生成大量随机面。每次生成人脸时，我们都会将随机样式向量的最终层替换为目标的层，这样我们就可以将目标的低级统计数据传输到生成的图像中。5. Deepfake Detection。我们使用生成的图像作为训练数据来学习用于检测目标域中的图像的模型3.2. 面流形逼近深度生成模型是丰富的分层模型，可以学习训练数据的概率分布。作为第一步，我们求助于这些模型来学习人脸的一般分布。我们首先在大量的人脸图像集合上训练一个深度生成模型。如果模型具有足够的容量并且经过良好的训练，则其生成的图像的实体将跨越接近真实世界人脸流形的低维空间。然而，在训练数据足够的情况下，模型的容量越大，输出流形就越接近真实人脸分布。我们考虑了一些GAN变体，包括StyleGAN [23]，ProGAN [22]和WGAN-GP [17]作为候选模型来学习人脸模型。我们通过运行以下实验来分析模型的能力和表现力：我们首先在真实世界的人脸图像上训练所有三个模型。在模型训练完成后，我们选择其中一个模型作为模型A，并使用模型B生成的图像对其进行微调。然后，我们在由微调A生成的真实vs图像上训练分类器，然后在由B生成的真实vs图像上进行测试我们可以预期，如果A具有比B更高的容量，则它将学习生成具有与B相似的分布和覆盖率的图像否则，如果B更有表现力，则微调后的A很表. 1列出了类化器泛化结果，这清楚地表明Style- GAN在候选模型中最具表达力。此外，与其他生成模型相比，StyleGAN生成的图像最逼真，分辨率最高。出于这些原因，我们利用在线收集的高分辨率人脸图像训练的StyleGAN模型作为我们方法的基础模型。3.3. StyleGAN流形投影原始的StyleGAN由映射网络f和合成网络g组成。f将随机噪声作为输入并输出样式向量s。s被建模为18层向量。该综合网络以风格向量s和随机噪声向量为输入，作为自适应实例归一化的参数[21]，以在每个卷积层之后变换输出卡拉斯和5924模型A模型B分类精度StyleGANProGAN99.6%wgan-GP百分之九十九点四ProGANStyleGAN百分之七十二点七wgan-GP百分之九十八点一wgan-GPStyleGAN68.5%ProGAN88.2%表1：比较StyleGAN、ProGAN和WGAN-GP的容量。较高的分类准确率表明A具有较大的容量，可以更好地模仿B的分布。al. [22]表明使用样式向量作为分层指导不仅使合成高分辨率图像更容易，而且还导致局部和全局属性的分层解纠缠。为了我们的目的，我们考虑一个训练过的StyleGAN模型。在这种情况下，由映射网络生成的所有可能的样式向量形成模拟人脸的真实分布的合成人脸流形。有了StyleGAN流形和来自任意分布的可视化示例，我们的下一步是将示例投影到流形上为此，我们首先检测面部标志，并通过将其裁剪为1来预处理图像。比面部区域大3倍，然后将其缩小到1024x1024是StyleGAN的输出大小。设预处理后的图像为I。将I投影到StyleGAN流形意味着我们想要找到生成的图像g（sI）与I最相似的样式向量sI。这样，sI就是对应于I的流形投影的样式向量这个过程可以更正式地表述为求解以下目标函数：sI= arg minD（g（s），I）.（一）S利用可微距离函数D，我们可以求解方程。1通过反向传播损失D通过g与权重固定，然后迭代更新s，直到损失收敛。这类似于使用给定的示例I进行微调，但这里我们优化的是s而不是g的权重。使用适当的距离函数D也很重要。重建损失的常见候选者是基于CNN的感知损失、基于CNN的感知损失和基于CNN的感知损失。我们对这些损失进行了实验，发现使用视觉和视觉损失的组合可以获得最佳的视觉质量和重建保真度：Σ2 1D（g（s），I）=<$fl（g（s））−fl（I）<$2+λ<$g（s）−I<$1。（二）L这里，fl是用预训练的VGG-16模型提取的第l层的神经元响应，λ=5是λ1损失的权重。重建损失通常在优化的1,000次迭代内收敛。在它收敛之后，样式向量sI被视为I在StyleGAN流形上的投影，并且重建g（sI）是StyleGAN输出图像中I的最近邻居更精确的投影需要同时优化然而，我们发现噪声向量对最终重建输出的影响很小。在我们的实验中，我们总是将样式向量初始化为零向量，将噪声向量初始化为随机高斯，并且在优化期间更新样式向量但保持噪声固定。3.4. StyleGAN歧管移位在我们找到目标在原始StyleGAN流形上的投影之后，我们的下一步是将StyleGAN流形向目标分布移动。为此，我们使用与3.3类似的迭代优化过程。然而，代替更新样式向量s，我们将s固定为3.3sI的输出，同时更新模型权重以将生成的图像与目标匹配。这里的想法是，每次我们更新g的权重时，当权重变化足够小时，我们都会稍微调整StyleGAN流形通过将样式向量固定为sI并更新g的模型权重，我们将StyleGAN流形的最近邻居拉类似于Eqn。1，目标函数可以定义为：gI= arg min D（g（sI），I）.（三）G在这里，我们重用Eqn。2作为距离函数。就优化而言，它归结为选择更新StyleGAN的不同层。如[23]所示，样式向量的后期层控制输出图像的低级细节，如颜色或局部纹理，而初始层控制全局属性，如性别，外观或身份。我们尝试更新不同的StyleGAN层进行流形移位，并检查合成图像质量和域自适应效果。我们的观察是，更新所有StyleGAN层使优化的模型生成与目标最相似的图像，并且在用于训练分类器时也实现了最高的因为我们已经推断出生成类似于I的图像的sI，所以这一步只会稍微调整模型的权重。在这种情况下，优化的模型仍然保留了在3.2中学习的通用人脸流形。为了更好地说明流形投影和移位的效果，图。图2示出了输入、流形投影之后的重构图像以及流形移位之后的重构图像的视觉示例。结果表明，经过流形平移后，重建图像在全局颜色和外观上与输入图像更加匹配5925目标.3.6. 分类最后一步是使用随机生成的图像作为合成数据集来训练针对目标域的分类器。在人脸操作检测的情况下，我们在真实图像和一次性优化的StyleGAN合成图像之间训练分类器，并使用它从真实图像中检测出实际的人脸操作图像。我们可以使用合成数据集解决的另一个任务是多域分类，在给定的图像中，我们可以将其分类为特定类型的面部操作。对于所有分类任务，我们使用ResNet50 [20]作为骨干模型。图2：单触发编码器-解码器（上）、神经讲话头（中）和FSGAN（下）的流形投影和流形移位后的重建。从左至右：输入图像;g（sI）为流形投影后的重建图像; gI（sI）为流形移位后的重建图像。3.5. 风格混合在前面的步骤中，我们优化了StyleGAN模型的权重，使其生成与目标分布相似的图像。然而，简单地改变全局外观是不够的，因为目标表现出某些低级统计数据，这些统计数据在训练分类器时是有用的信号。我们建议使用样式混合来进一步生成在低层次细节上与目标匹配的图像。Karras等人。 [23]表明，StyleGAN在此基础上，我们使用我在3.3节中推导出的样式向量s作为目标的可解释表示。对于我们用映射网络采样的每个随机样式向量s，我们在将其作为生成器的输入之前将s的最终层替换为sI的最终层，使得生成的随机图像g（s）从I继承低级颜色和纹理。我们尝试替换不同数量的最终层，发现用sI的最后三层替换s的最后三层保留了图像的全局外观，但仍然能够将输出更改为更接近I。结合流形移位和风格混合，生成的图像不仅捕获了通用的人脸流形，而且还显示了4. 实验4.1. 实验设置和结果我们评估我们的方法在几个人脸操作算法，以显示其有效性。我们使用 DFDC [13] 和 FaceForensics++[40]，其中包含大量由不同面部操作技术生成的视频，包括编码器-解码器Deepfake [1]，Face 2Face [45]和FaceSwap [2]，神经说话头[50]和FSGAN [36]。对于每种算法，我们从数据集中随机选择一张图像。然后，我们应用我们的一次性域适应将StyleGAN分布向图像移动，混合低级样式并生成大量随机面部。最后，我们使用生成的人脸来训练分类器，以检测目标域中的图像。定性地，我们在图中显示了一次性域自适应的视觉结果。3.第三章。对于每个数据集，我们展示了单次拍摄的图像，与目标相对应的重建图像，以及模仿目标分布的随机采样图像。在每一列，我们使用相同的随机样式向量来生成图像，以便它们具有相同的标识。然而，它们的外观根据单次输入而改变。我们可以看到，重建的图像是移位的StyleGAN流形上目标的最近邻居，在视觉上类似于目标。随机采样的图像还继承了来自目标的相似外观对于定量评估，我们首先使用每个面部操作技术的一次拍摄示例生成10，000个然后，我们训练一个分类器，使用真实的人脸图像作为真实的，10，000个合成图像作为假的，然后在真实的人脸图像与真实的人脸操作图像（编码器-解码器，Face 2Face或FaceSwap）上进行测试。作为基线，我们使用真实人脸图像和原始StyleGAN生成的10，000张随机图像（没有域自适应）来训练分类器，并在真实人脸图像与实际人脸操作上进行评估。表. 2显示结果。从中我们可以看出，5926(a)目标（b）重建图像（c）随机采样图像。图3：使用StyleGAN进行一次性DeepFake域自适应的可视化示例从上到下：编码器-解码器，神经说话头和FSGAN。域自适应，检测精度低。这是预期的，因为原始StyleGAN生成的图像具有与目标不同的分布。然而，在使用一次性示例进行主适应之后，分类准确性显著提高-对于所有三个数据集几乎都是完美的这表明，我们的单次域自适应在生成与目标域具有相似分布的图像时是有效的，与基线相比，只需要多看一张图像。除了在真实与操纵上训练二元分类器之外，我们还通过使用来自三个StyleGAN合成人脸操纵域的所有图像训练多域分类器来进一步细粒度分类的高准确率（82.1%）表明，我们的合成数据集具有彼此可区分的分布，并且它们的分布也与目标域一致。在图4中，我们绘制了StyleGAN生成的图像在域自适应之前和之后的t-SNE嵌入，与实际假图像的嵌入进行了比较。我们可以看到，在域自适应之前，Style-GAN生成的图像和编码器-解码器Deepfake图像的嵌入域自适应后，两个域之间的嵌入更加接近其他.图4：t-SNE嵌入可视化。左：嵌入原始StyleGAN生成的图像和编码器-解码器Deepfake图像。右：嵌入一次性域适应StyleGAN生成的图像和Deepfake图像。4.2. 消融研究如上所述，我们的方法有两个主要组成部分：StyleGAN流形移位和样式混合。为了更好地了解每个组件的影响，在图。5我们比较了随机生成的图像的视觉示例，其中仅使用流形移位和仅使用样式混合，给出了单次示例。我们可以看到只有男人-5927火车测试平均精度Real/StyleGAN实数/编码器-解码器35.2%实/单触发编解码器实数/编码器-解码器百分之九十三点四Real/StyleGAN真实/Face 2Face35.3%真实/一次性Face 2Face真实/Face 2Face百分之九十九点二Real/StyleGAN真人/换脸41.6%真实/一次性FaceSwap真人/换脸95.2%Real/（one-shot）encoder-decoder/Face2Face/FaceSwapReal/encoder-decoder/Face2Face/FaceSwap百分之八十二点一表2：定量评价结果。（单次）编码器-解码器Deepfake/Face 2Face/FaceSwap是StyleGAN在运行域自适应算法后生成的合成数据集，给出了编码器-解码器Deepfake/Face 2Face/FaceSwap的单次示例（图1）。3（a））。经过多次移位，输出图像在低电平特性上不同于同时，如果我们只混合样式而不调整原始StyleGAN模型，输出图像的颜色和纹理会失真，看起来不真实。在这两种情况下，使用随机生成的图像的分类准确性显著下降，与使用两种组件的结果一致（表1）。（3）第三章。其中通过使用SNR和感知损失的组合来生成精确的重建。请注意，对于所有VGG- 16损失，我们在测量感知相似性时使用所有层来计算特征响应。图5：分析不同组件的影响。从左到右：目标编码器-解码器Deepfake图像;流形移位后随机生成的图像，没有样式混合;使用原始StyleGAN随机生成的图像，带有样式混合;经过流形变换和样式混合后随机生成的图像。设置平均精度StyleGAN仅歧管移位43.1%StyleGAN mix style only34.0%我们百分之九十三点四表3：Real与编码器-解码器Deepfake分类结果。分类模型使用StyleGAN生成的图像进行训练，仅使用流形移位或仅使用样式混合。至于用于优化样式向量和模型权重的重建损失，我们使用了R11、R12、VGG-16以及这些损失的组合进行了实验。我们观察到，重建质量与所使用的重建损失相关。如图1中的示例图像所示。6，使用单一的损失，无论是在漂白的颜色或扭曲的外观相比，图6：使用不同损失优化样式和权重后的输入重建。从左至右：输入，101损耗，102损耗，VGG-16损耗，101和VGG-16损耗的组合。为了证明我们的方法在人脸操作以外的数据集上的有效性，并且它可以用作通用的域自适应方法，我们进一步证明了我们的一次性域自适应技术可以应用于其他领域，如猫。给定一个猫图像作为输入和一个预先训练好的StyleGAN猫模型，我们可以生成与目标在视觉上相似的随机图像。（七）.4.3. 比较与少镜头分类的比较我们将我们的结果与少镜头分类进行比较。我们使用来自目标域（编码器-解码器Deepfake）的不同数量的示例训练分类器，并使用它将目标从真实人脸中分类出来。表. 4显示结果。我们可以看到，在目标域中使用很少的例子（1或10）直接训练分类器会导致与我们相比性能较差。只有当目标领域的样本数量足够大（超过100个）时，分类器才能达到较高的准确率。在所有的实验中，我们使用10，000张真实人脸图像作为真实的，并调整假阳性损失和假阴性损失之间的权重，以反映真实和虚假数量的不平衡与微调的比较另一种可能性是微调预训练的StyleGAN模型，通过使用目标领域的一些示例对其进行伊代-5928方法FUNIT Ours准确率34.4% 93.4%（a）输入（b）随机生成的图像图7：猫的一次性域适应。列车试验平均精度表4：与训练具有不同数量的示例的编码器-解码器Deep-fake分类器的比较我们的单次域自适应可以达到与100次DF分类器相当的检测精度。通常，微调的模型将生成具有与目标域类似的分布的合成图像。然而，我们发现仅使用几个示例来微调StyleGAN是困难的，因为模型会崩溃并继续生成相同的图像。表5的分类精度表明，只有当我们有足够的例子（超过100个）来微调原始StyleGAN模型时，它才不会导致模式崩溃并达到合理的分类精度。请注意，这里我们使用ProGAN（在真实人脸图像上预训练）合成图像作为目标域，这更难以与真实区分。火车测试平均精度Real/1-shot ProGANReal/ProGAN百分之十点二Real/10-shot ProGAN Real/ProGAN 百分之二十一点八Real/100-shot ProGAN Real/ProGAN88.7%Real/1000-shot ProGAN Real/ProGAN百分之九十九我们62.1%表5：与具有不同数量的示例的微调StyleGAN的比较图8 ：从上到下：随机StyleGAN 生成的图像; 使用FUNIT输入单次编码器-解码器Deepfake和翻译图像;翻译图像使用我们的一次拍摄域适应。下图：在FUNIT上训练时的DeepFake分类准确性与我们生成的图像。与FUNIT的比较我们还将我们的结果与少镜头无监督图像到图像翻译（FUNIT）[28]进行了比较。FUNIT还可以将图像转换为目标域，给出目标域的几个示例。然而，在训练时，FUNIT需要超过100个类的大量标记图像。相比之下，我们的方法是完全无监督的，只需要预先训练StyleGAN模型。在测试时，FUNIT还可以从源域（例如，样式- GAN合成图像）到目标域（例如，编码器-解码器Deepfake）给出一个示例。从翻译质量上看，我们可以看到FUNIT实际上修改了源图像的身份，而不是改变外观或低级统计信息。我们进一步使用这些图像来训练real/Deepfake分类器：我们首先使用StyleGAN生成的随机图像作为内容，使用1次拍摄的Deepfake图像作为样式，将其提供给经过训练的FUNIT模型以生成使StyleGAN适应Deepfake的合成数据集。然后，我们使用真实的与FUNIT翻译的图像训练一个分类器，并在真实与真实的Deepfake图像上进行测试。这导致平均精度明显低于我们的。5. 结论我们提出了一种简单而有效的基于StyleGAN的单次域我们的方法不仅产生类似于一次性目标的引人注目的视觉结果，而且还允许我们训练鲁棒的分类器来响应不同的目标域。这个过程也是全自动的，几乎不需要监督。作为未来的工作，我们希望扩展我们的框架，成为一个更通用的图像翻译和域适应方法。实时/单次DF Clf雷亚尔/DF52.1%Real/10-shot DF Clf 雷亚尔/DF79.7%真实/100次DF Clf 雷亚尔/DF93.0%实际/1000次DF Clf 雷亚尔/DF百分之九十九点五我们93.45929引用[1] DeepfakesGitHub.https://github.com/deepfakes/faceswap.访问日期： 2019-11-05. 一、二、五[2] 脸罩。https://github.com/MarekKowalski/FaceSwap/.访问时间：2019-11-05。一、二、五[3] R. Abdal，Y. Qin和P. Wonka。Image2stylegan：如何将图像嵌入到潜空间中？在IEEE计算机视觉国际会议论文集，第4432-4441页3[4] M. Arjovsky，S.Chintala和L.博图Wasserstein ganarXiv预印本arXiv：1701.07875，2017。3[5] H. Averbuch-Elor，D. Cohen-Or，J. Kopf和M. F.科恩将肖像画带入生活。 ACM Transactions on Graphics（Proceeding of SIGGRAPH Asia 2017），36（6）：196，2017. 2[6] D. Bau，J.-Y. Zhu，H.斯特罗贝尔特湾Zhou，J.B. 特南鲍姆W. T. Freeman和A.托拉尔巴Gan dissection：Visualizingand understanding generative adversarial networks.arXiv预印本arXiv：1811.10597，2018。3[7] A. Brock，J. Donahue，and K.西蒙尼扬用于高保真自然图像合成的大规模 gan 训练。 arXiv 预印本 arXiv ：1809.11096，2018。3[8] A. Brock，T. Lim，J. M. Ritchie和N.韦斯顿使用内省对抗网络进行神经照片编辑。 arXiv 预印本 arXiv ：1609.07093，2016。3[9] T. Carvalho，F.A. Faria，H.佩德里尼河D. S. 托雷斯和A. Rocha用于图像取证的基于光照的变换空间。IEEEtransactions on information forensics and security ， 11（4）：720-733，2015。2[10] R. Chesney和D. K.香橼深度假货：对隐私、民主和国家安全的迫在眉睫的挑战。2018. 1[11] T. J. De Carvalho ， C. Riess ， E. Angelopoulou ， H.Pedrini和A.德·雷曾德·罗查。利用光照颜色分类揭露数字图像伪造。 IEEE Transactions on InformationForensics and Security，8（7）：1182-1194，2013。2[12] M.迪克西特河Kwitt，M. Niethammer和N.瓦斯康塞洛斯Aga：属性引导增强。在IEEE计算机视觉和模式识别会议集，第7455-7463页，2017年。2[13] B.多尔汉斯基河豪斯湾Pflaum、N. Baram和C. C.费雷尔Deepfake Detection Challenge （ dfdc ）预览数据集。arXiv预印本arXiv：1910.08854，2019。一、二、五[14] L.费费河Fergus和P.佩洛娜对象类别的一次性学习。IEEE Transactions on Pattern Analysis and MachineIntelligence，28（4）：594-611，2006。2[15] C. Finn，P. Abbeel，和S.莱文模型不可知Meta学习用于深度网络的快速适应第34届机器学习卷70，页1126-1135。JMLR。org，2017. 2[16] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，第2672-2680页，2014年。一、二[17]I. Gulrajani，F.艾哈迈德，M。阿尔约夫斯基河谷Dumoulin，以及A. C.考维尔改进的瓦瑟斯坦甘斯训练。在5930神经信息处理系统的进展，第5767-5777页，2017年。3[18] B. Hariharan和R.娘娘腔。通过缩小和幻觉特征进行低镜头视觉识别。在IEEE计算机视觉国际会议论文集，第3018-3027页，2017年。2[19] K. 他，G. Gkioxari，P. Doll a'r和R. 娘娘腔。面具r-cnn 。在IEEE计算机视觉国际会议论文集，第2961-2969页1[20] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEEconferenceoncomputervisionandpatternrecognition，pages 770-778，2016中。一、五[21] X. Huang和S.贝隆吉具有自适应实例规范化的实时任意样式传输。在IEEE计算机视觉国际会议论文集，第1501-1510页，2017年。3[22] T. Karras，T. Aila，S. Laine和J.莱赫蒂宁为提高质量、稳定性和变异性而进行的干细胞arXiv预印本arXiv：1710.10196，2017。三、四[23] T. Karras，S. Laine和T.艾拉A style-based generatorarchitecture for generative adversarial networks. 在IEEE计算机视觉和模式识别会议上，第4401-4410页，2019年。二三四五[24] D. P.Kingma和M.威林自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。一、二[25] I. Korshunova，W. Shi，J. Dambre，and L.他们。利用卷积神经网络快速换脸。在IEEE计算机视觉国际会议论文集，第3677-3685页，2017年。2[26] Y.李，M.- C. Chang和S.吕眼前一亮：揭露人工智能通过检测眨眼来制作假视频。2018年IEEE信息取证与安全国际研讨会（WIFS），第1-7页。IEEE，2018年。2[27] A. H. 刘玉-C. 刘玉-Y. 是的，还有YC. F. 王. 一个统一的多域图像翻译和操作的特征分解器。神经信息处理系统的进展，第2590-2599页，2018年2[28] M.- Y. Liu ， X.Huang ，黄背天蛾 A.Mallya ，T.Karras，T.Aila，J.Lehti-nen，J.考茨少量无监督图像到图像翻译。arXiv预印本arXiv：1905.01723，2019。二、八[29] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角，澳-地Y. Fu和A. C.伯格。Ssd：单发多盒探测器。欧洲计算机视觉会议，第21施普林格，2016年。1[30] S.隆巴迪，J. Saragih，T. Simon和Y.酋长用于面部渲染的深层外观模型。 ACM Transactions onGraphics（TOG），37（4）：68，2018。一、二[31] S. Motiian，Q.琼斯，S。Iranmanesh和G.多雷托少拍对抗领域适应。神经信息处理系统进展，第6670-6680页，2017年。2[32] S.莫蒂安M. Piccirili、D. A. Adjeroh和G.多雷托统一的深度监督域自适应和泛化。在IEEE计算机视觉国际会议论文集，第5715-5725页，2017年。2[33] T. Munkhdalai和H. Yu. Meta网络。第34届国际机器学习会议论文集-第70卷，第2554-2563页。JMLR。org，2017. 25931[34] K. Nagano，J. Seo，J.兴湖，加-地魏，Z. Li，S.齐藤A.Agar-wal，J. Fursund，H.利河，巴西-地Roberts等人异教徒：使用动态纹理的实时化身。ACM事务处理图表，37（6）：258-1，2018. 2[35] A. Nichol，J. Achiam，and J.舒尔曼一阶Meta学习算法。arXiv预印本arXiv：1803.02999，2018。2[36] Y. Nirkin，Y.Keller和T.哈斯纳Fsgan：主题不可知的面部交换和重演。在IEEE计算机视觉国际会议论文集，第7184- 7193页，2019年。5[37] K. Olszewski，Z. Li，C. Yang，Y.周河，巴西-地Yu，Z.黄先生，S. Xiang，S.斋藤山口Kohli和H.李从一个单一的图像使用gans现实动态fac- cial纹理在IEEE计算机视觉国际会议论文集，第5429-5438页一、二[38] S. Ravi和H.拉罗谢尔优化作为一个模型，为少数拍摄学习.2016. 2[39] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-time object detection with region proposal networks.在神经信息处理系统的进展，第91-99页，2015年。1[40] A. R ¨ ssle r，D. 科佐利诺湖 Verdo liv a，C.

下载后可阅读完整内容，剩余1页未读，立即下载