自监督利用真实说话人脸进行鲁棒伪造检测

123 浏览量更新于2023-10-26 收藏 12.32MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

149500通过自监督利用真实说话人脸进行鲁棒伪造检测0Alexandros Haliassos 1,† Rodrigo Mira 1 Stavros Petridis 1,2 Maja Pantic 1,201 伦敦帝国学院 2 Meta AI0{alexandros.haliassos14,rs2517,stavros.petridis04,m.pantic}@imperial.ac.uk0摘要0检测面部篡改视频最紧迫的挑战之一是在训练过程中泛化到未见过的伪造方法的同时，在常见的扰动（如压缩）下保持有效性。在本文中，我们研究了通过利用真实说话人脸的视频来解决这个问题，这些视频包含了关于自然面部外观和行为的丰富信息，并且在网上可以轻松获取大量。我们的方法称为RealForensics，包括两个阶段。首先，我们利用真实视频中视觉和听觉模态之间的自然对应关系，以自监督的跨模态方式学习时间上密集的视频表示，捕捉面部运动、表情和身份等因素。其次，我们使用这些学习到的表示作为我们的伪造检测器的目标，同时进行常规的二进制伪造分类任务；这鼓励它基于这些因素做出真/假决策。我们展示了我们的方法在交叉篡改泛化和鲁棒性实验中取得了最先进的性能，并研究了对其性能的贡献因素。我们的结果表明，利用自然和无标签的视频是开发更鲁棒的人脸伪造检测器的一个有希望的方向。01. 引言0自动面部篡改方法可以在不需要大量人工专业知识或努力的情况下实现对某人外貌或表情的逼真改变[34, 57, 62, 67,89]。这项技术的潜在社会危害已经引发了大量的研究工作来检测伪造内容[3, 22, 33, 41, 46, 47, 49, 58, 63, 76, 87,106, 110,112]。众所周知，虽然基于深度学习的检测器在分布内数据上可以达到很高的准确率，但在使用新的篡改方法（即在训练过程中未见过的方法）生成的视频上，性能经常大幅下降[17, 32, 49, 63, 67, 100, 112]。0†对应作者。0跨模态自监督学习0多任务人脸伪造检0时间上密集的视频表示0视频/音频0阶段10视频0视频标签0伪造检测0阶段2目标预测0真实样本0假样本0表示0目标0预测0图1.我们两阶段方法的概述。首先，我们以自监督的方式学习时间上密集的视频表示，通过利用真实视频的视觉和听觉模态之间的对应关系。然后，网络被呈现真实和伪造数据，并被要求在进行人脸伪造检测的同时，预测第一阶段学习到的表示，对于真实视频。我们使用比伪造样本更多的真实样本，因为前者更容易获取。0各种基于帧的方法（即以单个帧作为输入）已被提出来解决交叉篡改泛化问题，包括使用数据增强[100]，截断分类器[17]，使用3D分解[112]，放大多频带频率[74]，以及针对背景和修改后的脸部之间的混合边界[63]。然而，许多方法在新的伪造类型上仍然表现不佳，或者专注于容易被常见扰动（如压缩）破坏的低级线索[49]。合理地认为，引入时间维度可以提高性能，特别是因为许多合成方法在生成过程中没有考虑时间一致性[89]。然而，与基于帧的方法一样，简单地在视频上训练深度网络可能导致过拟合到已见的伪造[49,92,108]。为了解决这个问题，LipForensics[49]在大规模的唇读数据集上进行预训练，然后冻结网络的一部分，以防止其专注于低级线索。它在交叉149510图2.顶部：一段伪造视频的连续帧[34]。底部：同样的帧但经过了大幅压缩。高级语义在压缩下基本保持不变。0伪造的普适性和对常见破坏的鲁棒性。另一方面，（1）它需要在标记的数据集上进行预训练，限制了其可扩展性；（2）它仅关注嘴部区域；（3）在使用伪造数据进行训练时，它几乎冻结了网络的三分之一，这可能会牺牲性能。最近的一种方法FTCN[108]通过将所有空间卷积核大小限制为一来展示了高度的跨操作泛化性。但是，正如我们所展示的，令人印象深刻的泛化性可能以降低对压缩变化的鲁棒性为代价。在这项工作中，我们观察到伪造视频通常表现出异常的面部运动（包括嘴巴、眼睛和眉毛）和表情，以及面部形态随时间的微妙变化。这些线索具有高级特征，因此对破坏低级内容（如压缩或模糊）更具韧性（见图2）。我们想知道是否可能通过利用未标记的真实视频来引导检测器关注这些线索，使用像面部和声音活动检测器这样的工具相对容易获取。为此，我们提出了一个两阶段的方法，称为RealForensics（见图1）。我们首先使用自我监督来利用自然视频中视觉和听觉模态之间的已知对应关系。受到图像表示学习中的最新方法BYOL[45]的启发，我们使用了一个跨模态的学生-教师框架，其中处理视频流的学生必须预测由音频流生成的由逐渐改进的教师形成的表示，反之亦然。我们学习了时间上密集的表示（每帧一个嵌入），因为与面部运动相关的线索通常变化很快。我们的目标是捕捉两种模态之间的所有共享信息，包括与词汇内容[27]、情感[91]和身份[78]相关的因素。因此，我们直接预测教师的输出。在第二阶段，伪造检测器的任务是在同时预测第一阶段视频学生生成的视频目标的情况下进行分类。这个预测任务鼓励检测器在分类样本时关注前述的线索，并因此减轻了过拟合。我们的贡献如下：（1）我们提出了一种新颖的两阶段检测方法，利用大量的自然说话面孔进行强大的泛化和鲁棒性性能；这为未来的伪造检测工作开辟了利用广泛存在的在线真实视频的途径。（2）我们提出了第一阶段的非对比自我监督框架，学习时间上密集的表示，并通过消融实验证明了其在我们的任务中的设计。（3）我们在测试交叉操作泛化和对常见破坏的鲁棒性的实验中取得了最先进的性能，并突出了影响我们方法性能的因素。0当对样本进行分类时，检测器将注意力集中在上述线索上，并因此减轻了过拟合。我们的贡献如下：（1）我们提出了一种新颖的两阶段检测方法，利用大量的自然说话面孔进行强大的泛化和鲁棒性性能；这为未来的伪造检测工作开辟了利用广泛存在的在线真实视频的途径。（2）我们提出了第一阶段的非对比自我监督框架，学习时间上密集的表示，并通过消融实验证明了其在我们的任务中的设计。（3）我们在测试交叉操作泛化和对常见破坏的鲁棒性的实验中取得了最先进的性能，并突出了影响我们方法性能的因素。02. 相关工作02.1. 人脸伪造检测0一般方法。早期使用卷积神经网络（CNN）的作品包括将隐写分析特征重新构建为CNN[30]，约束卷积滤波器[12]，以及使用浅层网络[3]来抑制高级内容。然而，一个无约束的Xception[23]网络在更近期的伪造类型[89]上表现出色。其他作品旨在检测不一致的头部姿势[103]或不规则的眨眼[64]，尽管更近期的伪造可能不会表现出这些异常。最近的作品更加关注注意力机制[33, 97, 106]，利用频谱[38, 40, 61, 68, 70, 74,87]，检测来自人脸识别网络的特征异常[99]，或使用额外的身份信息[5, 31,35]。[41]和[105]使用自我监督进行基于帧的检测，但没有研究使用许多真实样本的效果。0跨操作泛化。检测器通常对未见的伪造效果不好[17,32,49,63,100]。改进泛化性能的方法包括应用数据增强[100]，将输入重构为辅助任务[32,37,80]，挖掘频率线索[70,74]，截断分类器[17]，关注自一致性[55,63,65,107]，或使用时空卷积网络[42]。0然而，已经表明在实现跨操作泛化的同时在损坏数据上表现良好是特别具有挑战性的[49]。与我们的方法密切相关的工作是LipForensics[49]，它通过微调预先训练的用于进行唇读的网络来解决这个问题。与我们的方法不同，它需要一个大规模标记的数据集，并且专注于嘴部区域。最近的研究[108]通过将卷积层的空间核大小减小为1来报告了高泛化性能，从而学习了忽略空间不一致性的时间不一致性。相比之下，我们针对可能与人类感知更一致的时空不规则性。149520伪造线索的不匹配。最近的一些工作专注于伪造视频中视觉和听觉模态之间的不匹配[4,24,60,76,111]。然而，我们的工作在测试时仅使用视觉模态：它仅在中间步骤中使用音频模态进行跨模态监督，其中仅使用真实视频。02.2. 自监督学习0图像SSL。最近，使用InfoNCE损失进行对比学习已成为图像表示学习的流行方法[18,19,50,52,83,95,102]。在这种范式中，最大化图像的两个视图之间的相似性，同时将不同的图像（“负样本”）排斥。对比学习也被用于学习密集的视觉表示[86,101]。然而，最近的一些去除负样本的方法通常优于对比方法[10,14-16,20,45,104]。我们的工作在一定程度上受到BYOL[45]的启发，它使用一个缓慢演化的教师网络为学生预测目标。我们的方法的第一阶段可以看作是将BYOL扩展到音频视觉设置中，其中每个模态都有一个学生-教师对，并且输出表示是时间上密集的。最近的工作[81]和[39,88]也使用了BYOL风格的训练，但分别用于仅音频学习和动作识别。0音频视觉SSL。许多作品利用音频视觉对应关系进行视频动作识别[6-9,27,59,71,77,85]。然而，这些方法学习的是视频剪辑的单一表示，不太适合对说话面部的细粒度运动进行建模。最近的工作[72]提出了以对比的方式学习全局和局部表示，这些表示对特定的下游任务是不可知的。相比之下，除了方法论上的差异，我们的工作侧重于跨数据集的泛化性和面部伪造检测的鲁棒性。音频视觉方法也被提出用于涉及面部的应用（例如，音频视觉同步和生物特征匹配）。一般来说，模型化语义内容的方法倾向于对同一视频中的样本进行对比以实现身份不变性[27-29]。相反，学习身份嵌入的工作倾向于匹配来自同一人的不对齐的视频-音频对以实现对语义内容的不变性[78,79]。我们认为，捕捉这两种类型的信息对于伪造检测是有益的，因此直接预测对齐的嵌入。0通过自监督实现泛化。已经表明，使用自监督作为辅助任务，例如预测旋转[44]或解决拼图难题[82]，可以提高主要任务的泛化性能[13,43,53]。我们使用类似的思想来改善伪造检测的泛化性能，但我们在使用它们定义辅助任务之前，在一个单独的阶段学习目标。03. 方法0RealForensics包括两个阶段（见图3）。第一阶段涉及使用来自许多自然说话人脸的跨模态自我监督学习学习时间上密集的视频表示。这些表示随后在第二阶段用作预测目标，以规范二进制伪造分类任务。03.1. 阶段1：表示学习0给定真实视频和相应的音频，我们的目标是学习捕捉与面部外貌和行为相关的信息的视频表示。像面部运动这样的线索本质上是时间上细粒度的，因此我们希望学习时间上密集的表示，即每帧一个嵌入。我们使用没有对比负例的师生框架有以下原因：（1）这种训练方式在图像表示学习方面取得了最先进的结果[45]；（2）它激励网络保留两种模态共享的所有信息[45]；（3）它不需要大批量大小[18]或队列[50]来存储负例。0方法。我们假设可以访问一个大型的真实说话人脸数据集Dr。样本x ∈ Dr是一个视频xv ∈ RTv × H × W ×3（由Tv个视频帧，高度H和宽度W组成），以及对应的音频，表示为一个对数梅尔频谱图xa ∈ R Ta ×L（由Ta个音频帧和L个梅尔滤波器组成）。我们确保Ta =4Tv。0我们的架构包括每种模态的学生和教师对。教师从另一模态的输入中产生学生必须预测的目标。具体而言，教师视频和音频主干网络fvt和fat从输入中产生嵌入evt = fvt(xv)和eat=fat(xa)，然后通过投影器gvt和gat传递，得到密集的视频和音频目标zvt = norm(gvt(evt)) ∈ RTv × C和zat =norm(gat(eat)) ∈ RTv ×C，其中C是嵌入的维度，norm(∙)表示沿通道维度的l2归一化。注意，音频主干对时间维度进行了下采样，以使视频和音频嵌入具有相同的形状。学生与其相应的教师具有相同的架构，只是每个学生还包含一个预测器，其任务是预测来自另一模态的目标。设视频和音频预测为pv =norm(hv(zvs))和pa =norm(ha(zas))，其中hv和ha表示预测器，zvs和zas是学生投影器后的非归一化学生表示，则损失为0L =102 || sg ( zvt ) − pa |2 F + 102 || sg ( z a t ) − p v || 2 F ,(1)0其中|| ∙ ||F表示Frobenius范数，sg表示“stop-gradient”，强调目标是EMAEMAEMAEMAvideo teacheraudio teacheraudio studentexponential moving averagevideo studentstopgradientonly reall149530主干预测器投影0或0投影0投影0sg0sg0主干0主干0主干预测器投影0sg0真实视频0真实音频0EMA0分类器真/假0监督头0辅助头0主干0预测器投影0投影主干0伪造视频0阶段1：表示学习阶段2：人脸伪造检测0冻结0真实视频0真实视频0图3.RealForensics的两个阶段。在第一阶段，目标是以自我监督的方式学习逐帧表示，以捕捉自然面部行为和外貌的信息。我们使用一个视听的跨模态的师生框架，其中学生网络摄入真实的视频和音频，并尝试预测来自另一模态的相应目标。我们还会对学生输入进行随机屏蔽（为了清晰起见，图中省略了）。教师网络是动量编码器，通过指数移动平均（EMA）进行更新，如[45]所示。在第二阶段，检测器执行人脸伪造分类，并预测第一阶段（现在被冻结的）视频教师生成的视频目标；只有真实视频对预测损失做出贡献。第一阶段的视频学生用于初始化主干网络。这种多任务的形式可能会激励网络基于稳定线索来检测伪造，这些线索对未见过的伪造具有很好的泛化能力，并且对低级扰动具有鲁棒性。最佳效果以彩色显示。0被视为常数。总损失值对所有样本进行平均。学生通过梯度下降进行优化，而教师是学生的指数移动平均值。也就是说，如果我们将视频教师权重表示为ψv0以及相应的学生权重为θv，然后在每次迭代中0ψv ← μψv + (1 − μ)θv，(2)0其中μ是接近1的动量参数。音频教师权重的更新方式类似。0预测器作为预测器。BYOL表明预测器是避免表示崩溃的必要组件，即所有样本的表示都相同[45]。我们观察到我们的框架也是如此（见第5节）。而BYOL输出全局表示，因此使用MLP作为预测器，我们发现浅层Transformer适用于我们的密集表示学习任务（见附录中的消融实验）。0随机遮挡。我们还发现随机遮挡可以得到更好的表示（见第5节）。对于视频，我们在帧中零随机矩形区域[109]，整个视频剪辑中保持一致，同时擦除一定数量的连续帧。对于频谱图，我们擦除一定数量的连续音频帧和频率区间。这类似于SpecAugment方法[84]，但没有时间扭曲步骤。我们只将此遮挡应用于学生的输入。直观地说，这样做可以强迫学生利用上下文来推断缺失的信息，并防止它们过度依赖输入的特定特征，例如嘴部区域。0强迫学生利用上下文推断缺失的信息，并防止它们过度依赖输入的特定特征，例如嘴部区域。0实现细节。除非另有说明，否则我们在这个阶段使用以下设置（更多细节请参见附录）。0•输入。我们使用人脸检测和对齐来提取人脸。一个剪辑包含25帧。对数梅尔频谱图包含80个梅尔滤波器和100个音频帧。在训练过程中，我们随机裁剪视频剪辑到大小为140×140，并将其调整为112×112。我们随机应用水平翻转和灰度转换，每个操作的概率为0.5。如前所述，我们还随机遮挡学生的输入。0•主干网络。视频主干网络是一个通道分离的卷积网络（CSN）[96]；我们将时间步长设置为1，以防止时间子采样。音频主干网络是一个ResNet18[51]，卷积层的步长被修改，使其通过4倍下采样时间维度，从而与视频主干网络的输出的时间跨度相匹配。0•投影器。视频和音频模态的投影网络都是一个输出维度为256的单个1×1卷积层，后面跟着批归一化（BN）[56]。我们发现这个BN层有助于训练，类似于[20]。149540•预测器。两种模态的预测器都是一个1块的Transformer编码器。它遵循ViT块[36]的设计。我们使用8个注意力头，每个维度为64，MLP维度为2048，并在MLP之前用批归一化[11]替换层归一化[56]。0•优化。我们使用AdamP优化器[54]，学习率为7×10-4，权重衰减为10-2。我们训练150个epochs，初始20个epochs进行线性预热，然后使用余弦衰减学习率[69]。预测器的学习率保持不变[20]。教师的EMA动量参数设置为0.999。03.2. 阶段2：多任务伪造检测0本工作的目标是学习一个仅基于视觉的伪造检测器。实际上，许多伪造数据集并没有正式发布视频的音频[57, 67,89]。因此，在这个阶段，我们丢弃了音频学生-教师对，因为它们在第一阶段已经发挥了作用。我们建议使用第一阶段的视频教师来生成我们的网络预测的目标。同时，网络以多任务的方式进行伪造检测。请注意，在这个阶段教师是冻结的。使用这个辅助损失可能会鼓励网络通过关注面部外观和行为的高级时空特征来对真实和伪造的视频进行分类。0公式。我们再次使用我们的真实人脸数据集Dr，但现在我们还假设可以访问一个伪造视频数据集Df。因此，我们的完整数据集为D =Dr∪Df。我们的架构由具有权重θb的共享主干f和两个头部组成：具有权重θs的监督头部用于伪造分类损失，具有权重θa的辅助头部q用于目标预测损失。辅助损失由以下公式给出0L a ( D r ; θ b , θ a ) = Ex�Dr || q ( f ( xv ; θ b ); θ a ) − t (xv ) || 2 F，(3)0其中t是第一阶段的教师，辅助头和教师的输出与第一阶段一样进行l2归一化。0监督损失L s ( D ; θ b , θ s)是二元交叉熵的经过逻辑调整的版本，如[75]中所提出的，以解决任何类别不平衡问题（详见附录）。此外，为了获得对数几率，我们对特征向量和最后一个线性层的权重进行l2归一化（并将其偏置设置为0），从而获得余弦分类器[98]。这与辅助损失更好地结合在一起，辅助损失也可以用余弦相似性表示。最后，目标函数由以下公式给出0min θ b ,θ s ,θ a L s ( D ; θ b , θ s ) + w L a ( D r; θ b , θ a )，(4)0其中w是一个缩放因子，我们将其设置为1。01 在实践中，该阶段的真实样本包括我们的辅助数据集以及伪造数据集中的真实样本。0实现细节。视频教师从第一阶段转移并保持冻结。主干的架构与第一阶段的视频主干相同，并使用学习到的权重进行初始化。辅助头部由一个随机初始化的投影器和预测器组成，与第一阶段相同。监督头部是一个余弦分类器，如前所述。一个批次包含32个伪造样本和256个真实样本，以有效利用更多的真实样本。我们使用学习率为3×10-4的AdamP优化器，并使用与第一阶段相同的预处理和增强方法。我们训练150个epoch，并使用验证集进行早停。04. 实验0辅助数据集。我们使用LRW数据集[26]中没有标签的额外真实样本。它包含500,000个说话人脸的视频，具有数百个不同的身份。这个数据集也被LipForensics[49]使用，可以进行更公平的比较。此外，其大小在有意义的结果和不可行的计算成本之间取得了平衡。我们在第5节中介绍了另一个数据集VoxCeleb2 [25]的结果。0伪造数据集。我们使用以下伪造数据集：（1）FaceForensics++（FF++）[89]包括1,000个真实视频和4,000个伪造视频，使用了两种换脸方法Deepfakes [1]和FaceSwap[2]，以及两种面部再现方法Face2Face[94]和Neural-Textures[93]。除非另有说明，我们使用数据集的轻度压缩版本（c23）。与[49,89]一样，我们对每个训练视频的前270帧进行训练，对每个验证/测试视频的前110帧进行训练。（2）FaceShifter[62]和（3）DeeperForensics[57]是最先进的换脸方法，已应用于FF++的真实视频；我们根据FF++的划分使用测试视频。（4）CelebDF-v2[67]是一个具有518个测试视频的具有挑战性的换脸数据集。（5）DFDC是Deepfake Detection ChallengeDataset（DFDC）[34]的一个子集，用于[49]。它包含3,215个视频，其中许多经过了强烈的扰动。0评估指标。按照[2, 49, 89, 108,111]的做法，我们使用准确率和接收者操作特征曲线下面积（AUC）进行评估。我们使用视频级指标：对于单个视频，我们首先均匀采样不重叠的剪辑，然后对视频中的所有剪辑预测进行平均。04.1. 跨操作泛化0部署的检测器应该能够识别出在训练过程中未见过的使用方法创建的伪造视频，这在实践中是一项非常困难的任务[49,63, 80, 108]。在本节中，我们按照[49, 65,80]中使用的协议来评估我们的检测器对未见操作的泛化能力。Xception [89]93.951.286.879.7CNN-aug [100]87.556.380.167.8Patch-based [17]94.060.587.384.8Face X-ray [63]99.593.294.592.5CNN-GRU [90]97.647.685.886.6LipForensics [49]99.790.199.799.1AV DFD [111]100.90.599.898.3FTCN [108]99.999.999.799.2CSN98.887.998.788.6RealForensics (ours)100.97.199.799.2Xception [89]73.770.972.084.575.3CNN-aug [100]75.672.165.774.472.0Patch-based [17]69.665.657.881.868.7Face X-ray [63]79.565.592.886.881.2CNN-GRU [90]69.868.980.874.173.4Multi-task [80]75.768.166.077.771.9DSP-FWA [66]69.567.365.550.263.1Two-branch [74]76.7————LipForensics [49]82.473.597.197.687.7FTCN [108]86.974.098.898.889.6CSN69.468.187.989.378.7RealForensics (ours)86.975.999.799.390.5LipForensics [49]RN+TCN [73]36.087.590.4FTCN [108]FTCN [108]26.693.991.1RealForensics (ours)CSN [96]21.497.197.1149550方法在剩余三个上训练0表1.FF++跨操作泛化。在训练剩余类型后，每个FF++操作类型的AUC得分（%）。我们使用Deepfakes（DF），FaceSwap（FS），Face2Face（F2F）和NeuralTextures（NT）的测试集，以及真实测试视频。下划线表示前两种最佳方法。0表1显示了RealForensics在FF++数据集中每种操作类型上的结果，训练剩余类型后的。我们的检测器在不使用辅助标记监督[49]、严格限制网络（冻结大部分网络[49]或去除空间卷积[108]）或在测试时使用音频[111]的情况下与最先进的方法相当。我们还超过了在伪造数据上训练CSN[96]网络的基线（使用与RealForensics相同的增强），这表明了使用我们的方法利用真实数据的有效性。我们还通过在FF++上训练一个模型，然后在未见的具有挑战性的数据集上进行测试（CelebDF-v2 [67]，DFDC [34]，FaceShifter[62]和DeeperForensics[57]）来评估跨数据集的泛化能力。AUC结果如表2所示。我们的方法在所有数据集上都取得了最先进的结果，这表明我们的检测器在面对比原始训练更高级的伪造时表现良好。RealForensics还大幅领先于CSN基线。最后，如表3所示，我们在FaceShifter和DeeperForensics上实现了更高的泛化准确性，且测试时的网络参数更少。04.2. 对常见破坏的鲁棒性0除了良好的跨操作泛化性能，检测器还应该能够抵御社交媒体上可能遭受的常见破坏。我们按照[49]的方法评估对未见扰动的鲁棒性。与[49]一样，我们使用灰度剪辑的FF++进行训练，除了水平翻转和随机裁剪之外没有其他增强，以避免训练和测试时的扰动交集。所提出的扰动集合0方法 CDF DFDC FSh DFo 平均0表2.跨数据集泛化。在FaceForensics++上训练后，在CelebDF-v2（CDF），DeepFake DetectionChallenge（DFDC），FaceShifter（FSh）和DeeperForensics（DFo）上的AUC得分（%）。最佳结果以粗体显示。0方法设置精确度0架构 # 参数 FSh DFo0表3.参数和泛化准确率。相关最先进方法在测试时的参数数量（以百万为单位），以及在FaceForensics++上训练后在FaceShifter（FSh）和DeeperForensics（DFo）上的准确率。最佳结果以粗体显示。0在[57]中，常见的破坏包括饱和度和对比度的变化，块状遮挡，高斯噪声和模糊，像素化和视频压缩。每种破坏类型都有五个不同的强度级别。表4显示了每种破坏类型在所有强度级别上的平均AUC。相对于针对低级线索的基于帧的方法（如[17,63]），RealForensics在常见破坏方面表现得更好，并且也优于LipForensics和FTCN。（我们使用了FTCN的公开可用模型2，该模型在FF++c23上进行了训练。）我们注意到，与RealForensics和LipForensics相比，FTCN在高斯噪声和视频压缩方面表现较差（也可以参见图4），这会破坏时间上的一致性。这可能是由于FTCN缺乏空间卷积的原因。05. 消融实验0在本节中，我们提供了一些消融实验来了解影响我们方法性能的因素。更多消融实验请参见附录。0框架消融。在表5中，我们消融了我们方法的不同组成部分，并检查其泛化性能。02 https://github.com/yinglinzheng/FTCN149560方法清晰度饱和度对比度块噪声模糊像素压缩平均0Xception [89] 99.8 99.3 98.6 99.7 53.8 60.2 74.2 62.1 78.3 CNN-aug [100] 99.8 99.3 99.1 95.2 54.776.5 91.2 72.5 84.1 Patch-based [17] 99.9 84.3 74.2 99.2 50.0 54.4 56.7 53.4 67.5 Face X-ray [63] 99.897.6 88.5 99.1 49.8 63.8 88.6 55.2 77.5 CNN-GRU [90] 99.9 99.0 98.8 97.9 47.9 71.5 86.5 74.5 82.3LipForensics [49] 99.9 99.9 99.6 87.4 73.8 96.1 95.6 95.6 92.5 FTCN [108] 99.4 99.4 96.7 97.1 53.1 95.898.2 86.4 89.50RealForensics (我们的方法) 99.8 99.8 99.6 98.9 79.7 95.3 98.4 97.6 95.60表4.对常见破坏的鲁棒性。[57]中提出的每种破坏类型的五个强度级别的平均AUC分数（%）。我们还为每种方法提供了所有破坏的平均分数。最佳结果以粗体显示。更详细的分析请参见附录。0图4.对压缩的鲁棒性。在FF++上进行轻度压缩（速率为23）的情况下，在各种H.264视频压缩率（23、30、32、35、38、40）下的FaceForensics++（FF++）上的AUC分数（%）。0在在FaceForensics++上训练后，在FaceShifter和DeeperForensics上的性能。我们得出以下观察结果。首先，仅仅训练一个没有我们的两阶段框架的CSN[96]模型会导致准确率下降约14%。其次，将第一阶段的权重转移到视频骨干网络并在伪造数据上微调网络，而不使用第二阶段的辅助损失，结果准确率下降约2%。这表明强制网络在主要任务的同时预测视频表示具有正则化效果。最后，我们观察到通过使用对数调整[75]来处理不平衡分类，以及使用时间遮挡和随机擦除[109]可以略微改善性能。0表示学习消融。对于我们方法的第一阶段，我们提出在没有对比负样本的情况下学习时间上密集的表示。在这里，我们将我们的选择与其他选择进行了比较。我们使用以下设置的所有组合来训练网络：密集/全局表示，有/没有负样本，有/没有预测网络。对于全局表示学习，我们0对骨干网络的输出进行平均池化，并使用MLPs进行投影和预测。为了使用负样本，我们使用一个包含65,536个样本的队列，并使用温度为0.07的InfoNCE损失函数[83]。需要注意的是，使用负样本的全局学习类似于[71,77]中使用的跨模态对比学习。全局学习所使用的预测网络是一个MLP，而密集学习所使用的是一个一块的Transformer。使用负样本和预测器的全局学习类似于最近的图像表示学习方法MoCov3[21]，但用于跨模态学习。更多信息请参见附录。0在表6中，我们展示了在FaceForensics++上训练后在FaceShifter和DeeperForensics上的准确率分数。我们发现稠密表示比全局表示具有显著更好的性能。此外，与原始的BYOL方法一致，我们发现在没有负样本和预测器的情况下，结果是表示坍塌。没有负样本和全局表示的情况下，没有观察到坍塌（使用预测器），但我们很难达到竞争性能。这可能与在没有对比学习的情况下遇到的优化困难有关，因为随后加入负样本会产生更好的结果。然而，当我们使用稠密学习（和预测器）时，添加负样本似乎并不起作用。0真实样本数量的影响。接下来，我们在我们的方法的两个阶段中改变LRW样本的数量，以观察其对泛化性能的影响。作为基线，我们还考虑将问题视为一个不平衡分类任务，即使用逻辑调整（但不使用我们提出的方法）训练模型。从图5中可以看出，RealForensics受益于大量的真实样本。此外，尽管基线的泛化性能随着更多真实样本的增加而增加，但增加幅度明显小于RealForensics。0使用不同的辅助数据集。在这里，我们使用VoxCeleb2数据集[25]作为额外的真实样本。149570方法 FSh DFo0RealForensics（我们的方法）97.197.1 仅CSN 82.1 83.1 阶段1 + 微调95.0 95.2 无逻辑调整 95.7 96.4无时间遮挡 96.1 95.9 无随机擦除96.3 96.30表5.框架消融实验。在FaceForensics++上训练后，FaceShifter（FSh）和DeeperForensics（DFo）的准确率分数（%）。有关讨论，请参见“框架消融实验”小节。最佳结果以粗体显示。0图5.真实样本数量的影响。准确率分数（%）作为来自LRW的真实样本数量的函数，以对数刻度表示。我们展示了我们的方法以及将任务视为不平衡分类任务的基线结果。我们在FaceForensics++上训练后对FaceShifter和DeeperForensics的准确率进行了平均。0设置准确率（%）0全局/稠密负样本预测器 FSh DFo0全局 � � n/a n/a 全局 � � 70.7 74.1 全局 � � 87.9 88.6全局 � � 87.9 89.1 稠密 � � n/a n/a0稠密 � � 97.1 97.1 稠密 � � 94.0 95.7 稠密 � � 96.4 96.80表6.表示学习消融实验。我们消融了表示学习阶段（阶段1）的不同组成部分。注意，“n/a”表示在阶段1中观察到了表示坍塌。有关讨论，请参见“表示学习消融实验”小节。最佳结果以粗体显示。默认设置已突出显示。0它包含大约100万个具有不同身份的说话人的视频。我们使用与LRW相同的超参数进行训练。CelebDF-v2，DFDC的AUC结果（以%表示）0FaceShifter和DeeperForensics在在FaceForensics++上训练后的准确率分别为82.9％，78.9％，99.3％和98.8％。这表明使用不同的数据集可以获得具有竞争力的结果而只需进行最少的调整。06. 限制/社会影响0RealForensics的强大泛化性能在训练过程中需要更高的计算需求，而不使用辅助数据集的方法则不然，但在测试时情况并非如此。此外，我们的检测器以视频作为输入，因此不适用于单个图像。尽管我们的网络具有最先进的准确性，但我们也观察到当我们的网络产生错误预测时，它们通常是自信地错误的，因此模型输出的概率应谨慎解释。模型校准的问题在深度学习模型中很常见，包括伪造检测器；因此，一个重要的未来方向是将校准文献中的方法应用于检测器。尽管伪造检测研究的目的是保护社会，但也应该记住一些问题。例如，指出当前人脸伪造的缺陷可能会促进未来更好的伪造视频的发展。然而，对于不针对特定线索的方法（如RealForensics），这个问题不是那么严重。此外，一个部署系统仅依赖于单一的检测方法是不明智的。为了更有效地工作，它应该采用一组独立的方法。07. 结论0在本文中, 我们提出了RealForensics方法,使用大量未标记的真实数据来检测伪造视频.我们已经证明我们的方法同时实现了强大的跨篡改泛化性能和对常见破坏的鲁棒性. 在未来,我们希望将我们的方法应用于更大规模、更不加筛选的从网络上获取的真实样本.我们希望我们的研究能够鼓励未来在利用真实人脸进行强大的伪造检测方面的研究.0致谢. 我们感谢KonstantinosVougioukas进行了有益的讨论. 本工作部分得到了MetaPlatforms的支持, 他们直接向伦敦帝国学院提供了研究资金(项目P93445: 跨模态情感学习). AlexandrosHaliassos得到了帝国学院总统博士奖学金的资助.所有的训练、测试和消融研究都在帝国学院进行.149580参考文献0[1] Deepfakes. https://github.com/deepfakes/faceswap.[访问日期: 2020-11-12]. 50[2] Faceswap.https://github.com/MarekKowalski/FaceSwap. [访问日期:2020-11-12]. 50[3] Darius Afchar, Vincent Nozick, Junichi Yamagishi和IsaoEchizen. Mesonet: 一种紧凑的人脸视频伪造检测网络.在2018年IEEE国际信息取证和安全研讨会论文集中, 第1-7页.IEEE, 2018年. 1 , 20[4] Shruti Agarwal, Hany Farid, Ohad Fried和ManeeshAgrawala. 通过音素-视素不匹配检测深度伪造视频.在IEEE/CVF计算机视觉和模式识别会议研讨会论文集中,第660-661页, 2020年. 30[5] Shruti Agarwal, Hany Farid, Yuming Gu, Mingming He,Koki Nagano和Hao Li. 保护世界领导人免受深度伪造的影响.在CVPR研讨会中, 卷1, 2019年. 20[6] Humam Alwassel, Dhruv Mahajan, Bru

下载后可阅读完整内容，剩余1页未读，立即下载