基于时间相干性的视频人脸伪造检测

137 浏览量更新于2023-10-15 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15044基于时间相干性的视频人脸伪造检测郑颖琳1鲍健民2陈东2曾明1*方文21厦门大学信息学院2微软亚洲研究院{zhengyinglin@stu.，曾明@} xmu.edu.cn，{jianbao，doch，fangwen} @ microsoft.com摘要虽然当前的人脸操作技术在质量和可识别性方面取得了令人印象深刻的性能在这项工作中，我们探索充分利用时间相干性的视频人脸伪造检测。为了实现这一目标，我们提出了一个新的端到端的框架，它包括两个主要阶段。第一阶段是完全时间卷积网络（FTCN）。FTCN的关键见解是将空间卷积核大小减小到1，同时保持时间卷积核大小不变。我们惊讶地发现，这种特殊的设计可以ben-efit模型提取的时间特征，以及提高泛化能力。第二阶段是时间Transformer网络，其目的是探索长期时间相干性。该框架具有通用性和灵活性，可以直接从头开始训练，无需任何预训练模型或外部数据集。大量的实验表明，我们的框架优于现有的方法，并保持有效的应用时，检测新类型的人脸伪造视频。1. 介绍随着深度生成模型的发展，特别是生成对抗网络（GAN）[29，40，7，38、31]。当前的面部操作技术[31，47，48，49，28，53，52]能够操纵面部图像的属性这些伪造的图像甚至很难被人类区分，因此可能被滥用于传播政治宣传，损害我们对网络媒体的信任。因此，检测人脸伪造是至关重要的。大多数以前的方法[60，61，43，45]都是针对已知的面部操作技术进行训练的。但当操纵方法不可见时，他们的表现会急剧下降一些最近的作品[34，57，18，59，21，42，36，11]已经注意到这个问题，并试图提高泛化。然而，这些方法容易受到*通讯作者。FF++（F2F）FF++（DF）DFODFDC=1FSH= 1图 1. 现有数据集中的时间不一致性： FaceForensic ++（ FF++ ） [43] 、 DeeperForensics （ DFo ） [28] 、 DeepfakeDetection Challenge Preview （ DFDC ） [16] 和 FaceShifter（FSh）[31]。在顶部4行中，我们示出了在邻域帧之间发生的四个时间不相干性。在最后一行中，我们示出了长距离帧之间发生的时间不相干性。诸如图像或视频压缩、噪声等常见扰动。它们仍然显示出有限的推广能力。特别有效的工作是面部X射线[32]，其提出检测混合伪影而不是生成伪影。然而，混合伪像通常是易受后处理操作影响的低级信息。最近的工作LipForensics [22]提出使用时空神经网络来检测不自然的嘴巴运动但是他们只注意到嘴，这可能会忽略面部其他区域中的伪影。在本文中，我们建议利用时间相干性更一般的人脸伪造检测。我们观察到，大多数人脸视频格式是以逐帧的方式生成的由于每个改变的脸是独立产生的，它不可避免地导致明显的闪烁和不连续性，15045面部区域（见图1）。因此，我们可以利用时间的不相干性更一般和强大的视频人脸伪造检测。先前的工作尝试利用时空卷积网络[21]或递归神经网络[5，36]来学习时间不一致性。然而，我们发现他们都未能学习到一般的时间不连贯。经过仔细的研究，我们发现伪造的人脸视频主要包含两种类型的伪影，一种是空间相关的伪影（例如混合边界、检查板、模糊伪影），另一个是时间不相干。通常，空间相关伪影比时间不相干更显著。在没有任何特定设计的情况下，当前的视频面部伪造检测方法[21，5，36]可能更多地依赖于空间相关的伪影而不是时间不相干性来进行分类。为了鼓励时空卷积网络学习时间不一致性，我们重新设计了卷积算子，并提出了一个完全时间卷积网络（FTCN）。其关键思想是限制网络处理空间相关工件的能力。因此，我们将所有空间（高度和宽度）维度的内核大小设置为1，并在3D卷积运算符中保持时间维度的原始内核大小由于空间维度的场极低，网络学习通过时间相关的伪影进行分类，并且几乎不应用空间伪影进行检测。此外，我们注意到，即使卷积算子仅是时间相关的，其能力也足以区分真实或虚假。此外，我们发现一些不连续性可能发生在不在邻域中的帧中，例如，面部的皱纹或痣可能逐渐出现或消失。为了处理这个问题，我们建议利用Trans-former[51]来捕获沿着时间维度的长期依赖性。我们在建议的 FTCN 之后添加了一个轻量级的 TemporalTransformer。FTCN和Temporal Transformer作为通用视频人脸伪造检测的整个框架进行端到端训练。我们的方法是通用和灵活的。它可以在没有任何预训练知识或手工制作的数据集的情况下取得令人印象深刻的结果。相比之下，先前的工作LipForensics [22]严重依赖于预训练，而Face X-ray依赖于手工制作的数据集。更重要的是，在没有任何人工注释的情况下，我们的方法可以定位和可视化人脸伪造视频中的时间不一致性。我们进行了广泛的实验，以比较其性能与国家的最先进的各种具有挑战性的情况下。我们发现，我们的方法显着outperf- forms以前的方法在泛化能力，看不见的伪造，和鲁棒性的各种扰动的视频。此外，我们进行消融研究，以验证我们的框架的设计选择。我们的贡献总结如下：•我们探索充分利用时间相干性的人脸伪造检测，并提出了一个框架，结合全时间卷积网络（FTCN）和时间Transformer器显式检测时间不相干性。•配备了我们的检测器，我们可以定位和可视化的时间不相干部分的人脸伪造。•在各种数据集上的大量实验证明了我们所提出的方法在泛化能力方面的优越性。2. 相关工作随着高逼真度人脸操作技术的出现，人脸伪造检测成为一个日益重要的研究领域。我们将在本节中简要介绍以前在人脸伪造检测方面的工作图像人脸伪造检测。早期的研究更多地强调了生成图像上的空间伪影，因此他们利用卷积神经网络的能力，应用深度CNN模型[3，9，25，43]来训练二元分类器以区分真假。同时，大量的研究工作探索了低层次的图像统计学（如图像统计学）。频率，颜色）[42，30，19，58，20]或高级语义（例如，身份）[41]的面部图像的伪造检测。最近的一些研究[8，4，46，14，27，56]旨在定位伪造图像中的视觉伪影，并根据定位结果进行预测。视频人脸伪造检测。最近，大量的工作开始考虑时间维度，并在视频级别进行人脸伪造检测。Li等[33]引入了利用眨眼来检测生成的假面部视频。Amerini等人[6]建议在视频帧之间使用光流。Mit-tal等。[37]使用音频和视觉外观之间的有效线索来检测假视频。与这些方法相比，我们的方法更强调一般的时间不相干。与以前的作品不同，他们要么直接在视频上应用3D卷积网络[15，21]，要么检测特定类型的不连贯性，例如不规则眨眼[33]，嘴唇运动[22]或情绪[37]。在这项工作中，我们试图检测一般的时间不相干，这可以是任何不一致的区域沿时间维度。对不可见操作的概括。随着新的面部操作技术的发展，许多当前检测器[43，3]可能会经历显著的性能下降。许多工作已经注意到这个问题，并提出了一些解决方案，以提高检测器的泛化能力。FWA [34]探索检测改变的面部和背景之间的分辨率LAE [18]和Multi-task [39]建议学习用于操作区域的分割掩模，以便获得通用检测器。PatchForensics[11]建议，基于补丁的分类器可以提高每15046(a) 3D R50（b）2D R50（c）3D R50双FTCN（d）3D R50双FTCN+TT图2.从FF++测试集上的不同模型的最后特征提取的特征的t-SNE可视化。每个点表示视频剪辑的特征。在1000次迭代时，t-SNE的计算复杂度为40，PCA为30。广义人脸伪造检测的性能。面部X射线[32]旨在通过检测混合边界伪影而不是来自生成模型的伪影来提高泛化能力。它可以实现令人印象深刻的结果方面的推广能力，但它是易受许多常见的扰动。最近的LipForensics [22]表明，许多当前的deepfake技术可能会遭受不自然的嘴部运动，因此它们应用时空网络进行检测。然而，它们忽略了面部区域中的其他区域，这可能损害性能。3. 方法3.1. 动机目前，大多数面部操作方法[31，47，48，49，53，52]都是在图像级别专门制作的。为了生成假视频，当前技术需要针对每个帧独立地应用它们的方法然而，外观的细微变化（例如：噪声、照明、运动）经常导致时间上不相干的结果（例如，闪烁和不连续的结果，如图1所示）。一些现有的面部操纵技术[28，35]已经注意到这个问题并应用后处理工具来解决这个问题，但是所生成的视频在一定程度上仍然存在时间不一致的因此，如何检测时间不相干性是值得更仔细研究的问题。检测时间不相干性是具有挑战性的，因为我们没有视频中的不相干性的位置注释一个天真的想法是采用时空卷积网络[21，15]，并期望模型学习通过时间不相干来区分真实或虚假然而，我们发现伪造的人脸视频主要包含两种类型的伪影，一种是空间相关的伪影（例如混合边界元、棋盘、模糊伪影），另一个是时间不相干。通常，空间相关的伪影比时间不相干更显著在没有任何特殊设计的情况下，时空卷积网络使用空间伪影而不是时间不相干性来区分真实或虚假所以问题就变成了如何鼓励空间-时间卷积网络来学习时间不一致性。我们采取了一种根本不同的方法，我们提出了一个完全时间卷积网络。具体地，我们将所有时间相关的卷积核大小保持为原始大小，但将所有空间相关的卷积核大小设置为1。我们发现这种限制可以鼓励网络学习时间不一致性。为了证明这一点，我们以ResNet-50（R50）[24]作为主干，并比较了三种类型的分类器：1. 3D R50 [23]网络结构，采用时空卷积。2. 2D R50网络结构，使用2D卷积。3. 建议的3D R50-FTCN。我们使用3D R50作为主干，并将所有空间相关的卷积核大小设置为1，并保持时间相关的核大小。为了确保公平比较，所有分类器使用相同的训练集FF++ [43]以及相同的训练和推理设置。我们在图2中示出了从FF++测试集上的不同分类器提取的特征的t-SNE可视化。我们有以下观察结果：虽然所有的分类器都可以区分真实和虚假数据，但虚假数据的分布是完全不同的。3D R50和2D R50都将分离由不同面部操作方法生成的假数据，即使我们在训练阶段将所有假数据视为一个类。它清楚地表明，他们提取的特征包含每个人脸操作算法的独特工件。这会影响他们的综合能力。相反，3D R50-FTCN分类器的假数据更多地混合在一起。它证明了时间网络通过更一般的时间不相干性来学习分类另一方面，在长范围的视频帧中存在一些时间不相干性。然而，先前的研究[55，26]表明，时间卷积在处理长程依赖性方面存在困难。为了解决这个问题，我们在FTCN之后添加了一个时间Transformer（TT）[17]，以检测长距离时间不相干。时间Transformer将FTCN提取的时间特征序列作为输入，并应用类令牌进行预测。我们还显示了特征分布-15047房/假的MLP头时间Transformer编码器工位埋* 额外可学习类嵌入0 * 123…N时间特征的线性投影特色活动尽在不同时间…×××××∈× ×--∈∈= 1=32048× 16× 1× 1表1.我们的3D R50-FTCN模型用于视频人脸伪造检测。与原始3D ResNet-50模型[10]相比，我们遵循第3.2.1节中描述的规则来获得此结构。 3D滤波器核的维数为Kt×Kh×Kw，输出图的维数为C×N×H×W。输入为32× 224× 224。剩余块在括号中示出。图 2 中的该分类器的部分（表示为 3D R50-FTCN+TT）。使用Transformer可以进一步分离真实和虚假数据，并且可以进一步收集不同人脸操作算法的特征。3.2. 总体框架在本节中，我们介绍所提出的全时间卷积网络和时间变换器的细节。这两个部分被端到端地训练用于视频人脸伪造检测。总的来说，给定可疑视频V，第一阶段是处理局部时间闪烁和不一致的全时间卷积网络（FTCN）。它提取时间特征F=FTCN（V）。第二阶段是时间Transformer，其旨在进一步对F的每个时间片之间的长期不相干性进行建模。最后，使用MLP头来进行最终预测。3.2.1全时域卷积网络3D CNN [10，50]广泛用于视频相关任务。传统的3DCNN模型通过与Kt Kh Kw内核的卷积来计算空间-时间相关性，其中对于大多数层，Kt Kh Kw这些卷积层被重复地应用，通过空间和时间维度渐进地传播信号。然而，我们发现这种时空耦合的内核削弱了模型为了鼓励时空卷积网络学习时间不相关性，我们重新设计了卷积算子，并提出了一个完全时间卷积网络（FTCN）。关键思想是限制网络处理空间相关工件的能力。所以我们设置所有的空间大小图3.用于我们的视频人脸伪造检测框架的时间Transformer。我们沿着时间维度分割从FTCN提取的特征，并将得到的特征序列我们将一个额外的可学习的卷积核为1。如我们注意到的，一些卷积层可能涉及大于1的步幅。在这种情况下，输入特征中的许多位置可能被忽略，因此我们还设计了一个规则来处理这个问题。假设3D卷积表示为3DConv（Kt，Kh，Kw，St，Sh，Sw），其中Kt，Kh，Kw是时间、高度、宽度维度的内核大小，St，Sh，Sw是时间、高度、宽度维度的步幅我们用3DConv（Kt，1，1，1，1，1）替换它，如果Sh或Sw>1，则在卷积算子之后添加最大池化。以流行的3D R50结构[10]为例，得到的3D R50-FTCN模型如表1所示输入视频剪辑具有32个帧，每个帧具有224 × 224像素。此外，我们将最后的全局平均池化改为空间相关平均池化，以保持沿时间维度的特征不变。表1中的所有3D卷积共享类似的核形状，如Kt11，其可以被认为是时间维度的1D时间卷积滤波器这种网络可以被视为全时间卷积网络（FTCN），其主要沿着时间维度学习鉴别特征。3.2.2临时Transformer时间Transformer旨在学习时间维度上的长距离离散。利用FTCN，我们得到了时间特征FR C× N ×H × W（C =2048，N =16，H =1，W =1）。时间特征F可以被表示为特征F tR C的序列，t1，2，...，N，这是标准Transformer [51]中的令牌嵌入的1D序列。N为输入序列长度，C为序列的特征维数我们的时间Transformer的概述如图所示层输出大小转换器15×1×1，64，步幅1，1，164× 32× 224×224池1最大1× 5×5，步幅1、4、 4256× 32× 56× 56Res21× 1× 1，643×1×1，64× 31× 1× 1，256256× 32× 56× 56池2最大2× 1×1，步幅2、1、 1256× 16× 56× 56Res31× 1× 1，1283×1×1，128× 41× 1× 1，512512× 16× 28× 28第4区1× 1× 1，2563×1×1，256× 61× 1× 1，10241024× 16× 14×14res51× 1× 1，5123×1×1，512× 31× 1× 1，20482048× 16× 7× 7150480∈LL0类12NPOSure 3.与ViT [17]中的设置类似，我们应用可训练线性投影W将特征维度从C映射到D.为了在Temporal Transformer中实现分类，我们将可学习的嵌入添加到嵌入特征序列（z0=F类），其用作在输入序列上学习的代表性特征。根据ViT[17]中的设置，我们还包括可学习的1D位置嵌入以保留位置信息。假设位置嵌入是Epos。因此，用于时间Transformer的输入序列z〇可以被定义为：Celeb-DF-v2[35]（ CDF ）是一个新的 DeepFake 数据集，包括来自不同来源的518个视频。评估指标。根据先前工作中的评估度量[32，22]，我们报告了接收器操作特征曲线（AUC）下的面积。由于大多数以前的作品都是基于图像的，因此遵循LipForensics [22]中的设置，我们报告了视频级AUC以进行公平比较。对于基于图像的方法，我们对整个视频中每帧的模型预测进行平均。因此，所有模型都使用相同数量的帧进行分类。不z=[F，WF，WF，· · ·，WF ]+E，（1）实施. 我们以3D R50为基本结构我们提议的FTCN我们使用其中Ft是特征F，W中的第t个时间片RD× C、E位置R（N +1）× D.时间Transformer主要由L个标准变换器编码器块[51]组成，每个标准变换器编码器块由多头自关注（MSA）块[51]和MLP块组成。我们还在每个块之前应用常用的LayerNorm（LN）。另一个重要的结构是残差连接[24]，其应用于每个块。我们用于TemporalTransformer的激活函数是GELU。因此，针对第l层得到的特征可以被定义为：z′= MSA（LN（z−1））+z−1，= 1。. . L（2）z=MLP（LN（z′））+z′，= 1. . . L（3）因此，基于最后一个编码器的类令牌输出LN（z0）我们可以将MLP头应用于最终的假概率：y= MLP（LN（z0））。（四）在我们的实验中，将二进制交叉熵损失应用于最终预测y。4. 实验4.1. 实验设置训练数据集。我们采用最常用的基准数据集FaceForensics++（FF++）[44]进行训练。它包含1000个原始视频和4000个假视频。这些假视频是通过四种方法处理的： Face2Face （ F2F ） [49] 、 FaceSwap（ FS ） [2] 、 NeuralTex-ture （ NT ） [48] 和 Deepfake（DF）[1]。我们在FF++的高质量（HQ）子集上进行了训练，这是一个轻压缩版本。测试数据集。为了评估我们框架的泛化能力，我们在以下数据集上测试我们的模型：1）FF++，其包含如上所述的四种类型的操纵; 2）FaceShifter[31]（FSh）和3)DeeperForensics[28]（DFo）采用FF++的真实视频进行高保真人脸交换; 4）DeepFake Detection ChallengePreview数据集[16]（DFDC），其中每个原始视频都是在具有挑战性的环境中拍摄的;以及∈15049是标准Transformer Encoder [51]的一层，其自注意头，隐藏大小和MLP大小分别设置为对于训练设置，我们使用32的批量大小和带有动量的SGD优化器，权重衰减设置为1 e-4。我们采用了一种热身策略来训练我们的方法。具体地，学习率在前10个时期中首先从0.01增加到0.1，然后在最后90个时期中余弦衰减到0。详情请参阅补充材料。基线。我们主要比较我们的方法与各种国家的最先进的方法。这些方法主要是关于提高泛化能力以及一些流行的基线。1)Xception[43]通过流行的Xception [13]模型探索了面部操作检测2)CNN-aug[54]发现当前CNN生成的图像可以很容易地通过CNN模型检测到。3)Patch- Forensics[11]表明，基于补丁的分类器可以实现令人印象深刻的人脸伪造检测结果。4)面部X射线[32]旨在通过检测混合边界伪影而不是来自生成模型的伪影来5）CNN-GRU[45]将GRU [12]引入CNN模型以对时间相干性进行建模。6)多任务[39]应用自动编码器式架构进行深度伪造检测。7)FWA[34]探索检测改变的面部和背景之间的分辨率差异，以提高泛化能力。8)Two-branch[36]介绍了FaceForensics++数据集上的多任务学习。9)LipForensics[22]是最近的一项工作，研究了用于一般和鲁棒的面部伪造检测的不规则嘴部运动。4.2. 不可见操作的人脸伪造数据集之间的差异主要在于源视频和人脸操作方法的变化。为了评估不同人脸伪造检测器的交叉操作生成能力，并防止由不同源视频引入的可能的偏差，我们在FF++上进行实验，因为它为相同的源视频提供了由多种人脸伪造方法创建的假视频。在[22]中的设置之后，我们使用leave-one-out策略评估人脸伪造检测器15050其余三个方法训练DF FS F2F NT平均值Xception [43]93.951.286.879.777.9美国有线电视新闻网-八月[54]87.556.380.167.872.9[第11话]94.060.587.384.881.7[45]第四十五话97.647.685.886.679.4面部X光检查[32]99.593.294.592.594.9[22]第二十二话93.056.798.898.386.7[22]第二十二话99.790.199.799.197.1我们99.999.999.799.299.7表2. 推广到看不见的操作。我们报告了FF++数据集上的视频级AUC（%），该数据集由四种操作方法（DF，FS，F2F，NT）组成。我们用三种方法训练，用另一种方法测试其他方法的结果来自[22]。模型#参数预训练额外数据Avg面部X光检查[32]65.8MNY94.9[22]第二十二话36.0MNN86.7[22]第二十二话36.0MYN97.1我们26.6MNN99.7表3. 与最先进方法的比较。我们报告了四种看不见的操作方法（DF，FS，F2F，NT）的参数数量，预训练，额外数据使用和平均视频级别AUC（%），所有模型都是在FF++中的其余三种方法上训练的埃吉具体地，由于FF++中存在四种类型的假视频，因此每种类型被用作测试集一次，而其余三种类型形成训练集。训练和测试均在FF++数据集的HQ版本上进行。表2表明，我们的方法实现了出色的generalization（99.7%），以新的伪造，超过平均年龄最大的方法大幅度。虽然FF++中的四种类型的操作（Deepfake、FaceSwap、Face 2Face、Neural- Texture）使用不同的方法并专注于不同的任务，但我们的框架可以在其中三种操作上学习一般化的区分特征并一般化到剩余的一种。我们的框架在AUC方面分别比最新的Face X-ray[32]和我们还在表3中列出了Face X-ray和LipForensics的参数数量，我们的方法以最少的参数数量实现了最高的性能，没有任何预训练或外部训练数据，这进一步证明了我们框架的优越性。4.3. 对未知数据集在现实世界的场景中，可疑视频很可能是通过看不见的方法从看不见的源视频中创建的，因此跨数据集的泛化将是至关重要的。为了评估跨数据集泛化能力，我们在FF++中对所有四种类型的假数据训练了人脸伪造检测器，并对四个看不见的数据集进行了评估，包括 Celeb-DF-v2 （ CDF ） [35] ， DFDC [16] ，FaceShifter [31]和DeeperFoensics [28]。如表4所示，我们的模型实现了最佳性能。表4. 泛化到未见的数据集。我们报告了四个看不见的数据集上的视频级AUC（%）：Celeb-DF-v2（CDF）、Deep-fakeDetection Challenge Preview（DFDC）、FaceShifter（FSh）和DeeperForensics（DFo）。我们在FF++上进行训练，并在这些看不见的数据集上进行测试其他方法的结果来自[22]。在每个数据集上的性能，尤其是在 FaceShifter 和DeeperForensics上的结果。在CDF和DFDC数据集上，所有方法的得分都相对较低，一个可能的解释是不同数据集之间的场景差距。4.4. 对不可见扰动的对于真实世界的场景，人脸伪造检测器对不可见的扰动具有鲁棒性是非常重要的。我们进行实验，以验证我们的方法的鲁棒性。在[28]之后，我们考虑四种流行的扰动：1）逐块失真; 2）色彩饱和度的变化; 3）高斯模糊; 4）调整大小：通过因子对图像进行下采样，然后将其上采样到原始分辨率。每个扰动分为五个强度水平[28]。结果报告于图4中。平均而言，我们的方法实现了更好的鲁棒性看不见的扰动。值得一提的是，我们的方法在训练期间不应用任何预训练知识，这对于鲁棒性明显有帮助。4.5. 消融研究我们对FF++ [43]数据集进行了全面的研究，以验证我们对整体框架的设计我们首先验证3D R50-FTCN的设计。为什么要重新移动空间卷积？为了验证为什么我们在提出的3D R50-FTCN中删除所有空间卷积，我们构建了3D ResNet-50（3D R50）的多个变体，包括以下模型：1. 3D R50：3D R50的原始模型，具有时空卷积。2. 3D R50- 空间：基于 3D R50 ，将所有 3DConv（Kt，Kh，Kw，1，1，1）替换为3DConv（1，Kh，Kw，1，1，1）。3. 3D R50-FTCN-FK 3：我们用3DConv（5，3，3，1，1，1）替换3D R50-FTCN的第一个3D卷积层，其涉及空间相关卷积。4.3D R50-FTCN-FK 5：我们将3D R50-FTCN的第一个卷积替换为3DConv（5，5，5，1，1，1），方法CDFDFDCFSHDFOAvgXception [43]73.770.972.084.575.3美国有线电视新闻网-八月[54]75.672.165.774.472.0[第11话]69.665.657.881.868.7[45]第四十五话69.868.980.874.173.4多任务[39]75.768.166.077.771.9FWA [34]69.567.365.550.263.1双支管[36]76.7----面部X光检查[32]79.565.592.886.881.2[22]第二十二话82.473.597.197.687.7我们86.974.098.898.889.615051LipForensicsXception美国有线电视新闻网面部X射线补丁取证我们逐块改变饱和度高斯模糊调整平均值强度强度强度强度强度强度图4. 对不可见扰动的鲁棒性。我们报告了我们的方法在四种特定类型的扰动的5个不同水平下的视频级AUC（%）：逐块失真、更改饱和度、高斯模糊和调整大小。其涉及比3D R50-FTCN-FK 3更多的空间相关卷积。F2F上的火车模型DF FS F2F NT平均值检查点，其基于验证集上四种方法的平均AUC选择。结果示于表5中。我们可以从结果中得出一些重要的结论：1）比较了3D R50和3D R50-Spatial的结果，将时间信息引入到人脸伪造检测中可以提高泛化性能。 2)对于3D R50、3D R50-FTCN-FK 5、3D R50-FTCN-FK 3、3D R50-FTCN、空间相关的卷积涉及的越来越少，但是泛化能力变得越来越好，因此更少的空间相关的卷积导致更好的结果。3）即使我们通过像素混洗破坏空间信息，3DR50-FTCN仍然可以获得合理的结果，这表明3D R50-FTCN主要通过与时间相关的信息来学习区分。有限的模型能力是否有利于泛化能力？适用于3DR50、3D R50-FTCN-FK 5、3D R50-FTCN-FK 3，3D R50-FTCN，空间相关卷积涉及越来越少，模型能力越来越弱。因此，很自然地会问，泛化能力是否受益于有限的模型能力。我们进行实验来验证这一点。我们设计了我们提出的3D R50-FTCN的几个变体，并在FF++中的F2 F上进行了训练：模型能力。报告视频水平AUC（%）。1. 3D R50-SP：与3D R50-FTCN具有相同数量的参数的3D R50，该模型通过减少3D R50中的通道数量来创建。2. 3D R50-FHCN：用3DConv（1，Kh，1，1，1，1）替换3DConv（Kt，Kh，Kw，Sh，Sw），并且如果Sh>1或Sw>1，则添加MaxPool （1，Sh，Sw）。3. 3D R50-FWCN：替换3DConv（Kt，Kh，Kw，Sh，Sw）与3DConv（1，1，Kw，1，1，1），并添加MaxPool（1，Sh，Sw），如果Sh>1或Sw>1。结果报告于表6中，3D R50-SP和3D R50-FTCN共享相似数量的参数，但3D R50-FTCN呈现更好的结果。这验证了性能增益主要来自全时域设计。此外，3DR50-FHCN和3D R50-FWCN与3D R50-FTCN共享完全相同的参数量和计算成本，但表现出较低的性能。这进一步表明时间伪影更普遍，以及我们提出的3D R50-FTCN的有效性。视频剪辑大小的影响。为了找到最佳剪辑大小，我们用8、16、32、64的剪辑大小训练3DR50-FTCN。所有模型都在F2F上训练，并在FF++中测试所有四种方法我们只更改剪辑大小，并保留AUC %5. 3D R50-FTCN-洗牌：我们使用相同的网络3D R5080.089.510091.690.3结构为3D R50-FTCN，但采用77.953.610079.177.73D R50-FTCN-FK397.494.110095.396.8剪辑为输入。空间混洗操作混洗像素3D R50-FTCN-FK 594.293.010093.295.1在剪辑中沿空间维度排序，同时保持-3D R50-FTCN-Shuffle97.392.510093.295.8设置逐像素时间连续性（剪辑3D R50-FTCN中的所有图像98.095.910096.097.5共享相同的混洗模式），我们示出了混洗的剪辑表5。FTCN视频级变体设计的消融研究在补充材料中。在FF++数据集上报告AUC（%）。6. 3D R50-FTCN：建议的FTCN，其结构为如第3.2.1节所述，并如表1所示模型DFF2F列车FS F2FNTAvg我们应用这些模型来训练一个二元分类器3D R5080.089.510091.690.3仅在培训设置下评估绩效3D R50-SP86.285.310086.789.6在F2F上，以及在FF++的所有四种方法（F2F，FS，3D R50-FHCN76.149.510082.777.1DF、NT）。所有的变体都是用完全相同3D R50-FWCN84.873.299.576.283.4除了如上所述的模型体系结构之外的其他设置3D R50-FTCN98.0 95.9 100 96.0 97.5对于每个模型，我们报告了表6中最佳。具有不同的3D R50变体的消融研究15052××剪辑大小Train on F2F表7. 使用不同结扎夹尺寸进行FTCN训练的消融研究。报告视频水平AUC（%）3D R50 FTCN+TT L× 2 97.8 98.610097.7 98.53D R50 FTCN+TT L× 397.098.410097.4九十八点二表8. 在我们的框架中使用不同层的trans-former编码器的消融研究。报告视频水平AUC（%）。不相关的超参数不变。表7显示，随着剪辑大小的增加，性能提高。当剪辑大小从32改变到64时，存在微小的性能增益，可能的原因可能是1）没有足够的时间卷积层来捕获这样长的剪辑。2)视频面部对齐遭受大的剪辑尺寸和大的运动，因为很难找到覆盖剪辑中的所有面部的裁剪区域。随着剪辑大小的增长带来的性能提升以及更多的计算成本，一个很好的权衡将剪辑大小32。Transformer 的有效性。为了验证我们的时间Transformer的有效性，我们对框架进行了消融研究。我们训练我们的框架的三个变体：1）我们训练仅具有3D R50 FTCN的模型; 2）基于我们的框架，我们将Temporal Transformer中的编码器层的数量更改为2（3D R50 FTCN+TT L 2）; 3）基于我们的框架，我们将Temporal Transformer中的编码器层数改为3（3D R50FTCN+TT L 3）。结果见表8。我们可以发现以下观察结果：1）Tem- poral Transformer可以提高通用化性能。2)多层的标准编码器不能进一步提高性能，这表明在我们的框架中，一层标准的4.6. 时间不相干没有任何明确的注释训练，我们的方法可以很容易地扩展到本地化时间不相干的区域。在测试时，对于输入剪辑，我们在空间域上滑动一个窗口。对于滑动窗口之外的区域，我们通过将其RGB值替换为零来删除它们的内容。然后将修改后的剪辑馈送到我们的伪造分类器中，以估计窗口区域的伪造概率。图5显示我们的方法可以房FF++（F2F）FF++（NT）FF++（DF）FF++（FS）CDFDFOFSHDFDC图5. 不同数据集上的时间缺陷定位的可视化。每行显示两个示例。对于每个示例，前两列是视频剪辑中的连续帧，第三列可视化局部缺陷区域，其中较暖的颜色指示较高的伪造概率。鲁棒地区分真实和假剪辑，并且即使具有细微的时间缺陷也精确地局部化区域。为了更好地可视化时间不连贯性，请查看补充材料中的视频结果。5. 结论本文研究了时间线索的有效性，更强大的和一般的视频人脸伪造检测。我们建议首先用全时间卷积网络对短期闪烁进行编码，然后用时间Transformer探索更微妙的长期不相干性大量的实验证明了视频人脸伪造检测的时间信息的显着效果，并显示出优越的能力，无论是对以前的方法，我们提出的解决方案的鲁棒性和generalization。我们希望我们的研究将吸引社区6. 确认郑英林、曾明等获国家自然科学基金部分资助（资助号：62072382），中央高校基础研究基金部分资助（资助号：20720190003）。DFFSF2fNTAvg87986.299.885.687.71695.495.310094.896.43298.095.910096.097.56498.296.610096.797.9模型DFF2F列车FS F2FNTAvg3D R50 FTCN98.095.910096.097.53D R50 FTCN+TT L× 198.199.610098.098.915053引用[1] 深度伪造https://github.com/deepfakes/faceswap.[访问日期：2020-09-02]。[2] 脸罩。https://github.com/MarekKowalski/FaceSwap.[访问时间：2020-09-03]。[3] Darius Afchar、Vincent Nozick、Junichi Yamagishi和IsaoEchizen。Mesonet：一个紧凑的面部视频伪造检测网络。2018年IEEE信息取证与安全国际研讨会（WIFS），第1IEEE，2018年。[4] Shruti Agarwal，Hany Farid，Yuming Gu，MingmingHe，Koki Nagano，and Hao Li.保护世界领导人免受深度造假。在CVPR研讨会上，第38-45页，2019年。[5] Irene Amerini和Roberto Caldelli通过基于lstm的分类器利用预测误差不一致来检测deepfake视频。2020年ACM信息隐藏和多媒体安全研讨会论文集，第97- 102页，2020年[6] 艾琳·阿梅里尼，莱昂纳多·加尔泰里，罗伯托·卡尔代利和阿尔·贝托·德尔宾博.通过基于cnn的光流的Deepfake视频检测。在IEEE计算机视觉研讨会国际会议，第0[7] Jianmin Bao，Dong Chen，Fang Wen，Houqiang Li，andGang Hua.面向开集身份保持的人脸合成。在CVPR中，第6713-6722页[8] Jawadul H Bappy，Cody Simons，Lakshmanan Nataraj，BS Manju

下载后可阅读完整内容，剩余1页未读，立即下载