自混合图像用于检测深度伪造，提高模型的泛化能力（20字）

135 浏览量更新于2023-10-25 收藏 1.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18720利用自混合图像Kaede ShioharaToshihikoYamasaki东京大学{shiohara，yamasaki} @ cvm.t.u-tokyo.ac.jp摘要在本文中，我们提出了一种称为自混合图像（SBIs）的新型合成训练数据来检测深度伪造。通过混合来自单个原始图像的伪源图像和目标图像、再现常见伪造伪影（例如，源图像和目标图像之间的混合边界和统计SBIs背后的关键思想是，更一般和难以识别的假样本鼓励分类器学习通用和鲁棒的表示，而不会过度拟合特定于操作的工件。我们通过遵循标准的交叉数据集和交叉操作协议，将我们的方法与FF++，CDF，DFD，DFDC，DFDCP和FFIW数据集大量的实验表明，我们的方法提高了模型的泛化未知的操作和场景。特别是，在DFDC和DFDCP上，现有方法受到训练集和测试集之间的域差距的影响，我们的方法在跨数据集评估中分别比基线高出4.90%和11.78%。代码可以在 https ： //github 上找到。 com/mapoon/SelfBlendedImages.1. 介绍最近生成对抗网络[10，25，31，32，45，51，63]（GAN）在计算机视觉中的快速发展使得生成逼真的面部图像成为可能。特别地，被称为deepfake的技术操纵主体的身份、表达或属性被用于娱乐目的，例如。智能手机应用程序或电影;然而，它们也可用于恶意目的，例如，制造假新闻或伪造证据。因此，视觉社区正在积极研究deepfake检测技术。Most previous detection methods [8,16,26,30,36,48,53,64] perform well on the in-dataset scenario where they de-tect forgeries they learned in training; however, some stud-ies [15,21,33,61] have found that the detection performancesignificantly drops in the cross-dataset scenario where fake收集混合图像基础图像基础图像自混合图像转型转型源图像目标图像我们的方法混合同一张脸地标匹配源图像目标图像以前的方法混合不同的面图1. 假样品合成概述。以前的方法混合两个不同的脸，并产生文物的基础上的间隙之间选定的源和目标图像。相比之下，我们的方法混合略有变化的脸从一个单一的图像和生成文物积极的变换。在本例中，我们对源图像应用颜色抖动、锐化、调整大小和平移，而对目标图像不应用任何变换。样品是通过未知的操作伪造的。解决这个问题最有效的方法之一是用合成数据训练模型，这会鼓励模型学习用于deepfake检测的通用表示。例如，模糊面部区域以再现GAN合成源图像的质量退化[41]，从两个原始图像对生成混合图像以再现混合伪影[39，65]。然而，多年来，deepfakes的质量有所提高，这导致前一种方法在最近的基准测试中失败[42，52]。虽然后一种方法在某些数据集上表现良好[2，42]，但在更具有挑战性的数据集[19，20]中的低质量视频几乎无法识别伪影18721DF的AUC分别为99.99%、99.88%、99.91%和98.79%，F2F、FS和NT。尽管FF++上的性能变得饱和，但我们的方法在整个FF++上仍然优于现有技术水平（99.64%vs. 99.11%）。(a) 地标（b）边界（c）颜色（d）频率图2. 典型的伪造面部的伪影。我们将伪影分为四种类型，（a）界标不匹配，（b）混合边界，（c）颜色不匹配，和（d）频率不一致。由于高压缩或极端暴露导致它们具有不可接受的检测性能。在本文中，我们提出了一种称为自混合图像（SBIs）的新型合成训练数据来检测深度伪造。我们的方法和以前的方法[39，65]的概述如图所示。1.一、其核心思想是，更多的难以识别的假样本，包含共同的人脸伪造痕迹鼓励模型学习更普遍和鲁棒的代表性，人脸伪造检测。我们分析了伪造的面孔，并定义了四个典型的文物动机从以前的作品（如。混合边界[39]，源特征不一致[65]和频域中的统计异常[13]），如图所示。二、为了根据我们的核心思想综合这些人工合成，我们开发了一个源-目标生成器（STG）和掩码生成器（MG）。STG使用简单的图像处理从单个pris-tine图像生成伪源和目标图像对，MG从输入图像的面部标志生成各种混合掩模。通过将源图像和目标图像与掩模混合，我们获得SBIs。使用SBIs进行训练鼓励模型学习通用表示，因为模型学习我们在STG中主动生成的伪造痕迹。此外，我们的方法在计算成本方面提高了训练然而，成功的非线性工作[39，65]使用地标最近搜索来进行源-目标对选择，这在计算上是昂贵的，而生成SBI没有这个过程。因此，我们的方法不会受到大数据集大小的问题。我们评估我们的方法以下两个评估协议，跨数据集评估和交叉操作评估。在跨数据集评估中，我们在FF++[52]上训练我们的模型，并在CDF [42]，DFD[2]，DFDC [19]，DFDCP [20]和FFIW [67]上对其进行评估这种实验设置类似于真实检测场景中的设置，其中防御者暴露于看不见的域。我们的方法超越或至少是可比的所有测试集上的最先进的方法，尽管它的简单性。特别是，在DFDC和DFDCP上，以前的方法在训练集和测试集之间存在域间隙，我们的方法分别比最先进的无监督基线[65]高出4.90%和11.78%。在交叉操作评估中，我们评估了我们的模型对FF++不可见操作方法的通用性;[25][26][27][28][29][2我们的方法实现了2. 相关工作Deepfake Detection。虽然已经引入了许多检测方法，但是最优卷积神经网络（CNN）的开发已经成为研究的主要主题（例如，高效的浅层网络[8]，多任务自动编码器[21，48]，胶囊网络[49]，递归卷积网络[26，53]和注意力网络[16，64]）。一些研究[23，37，43，44，50]关注频域，以更有效地捕获伪造痕迹。这些方法在高度压缩的视频上实现了令人印象深刻的性能。另一个值得注意的方向是关注特定的表示（例如，，头部姿势[62]，眨眼[30，40]，嘴部运动[27]，神经元运动-IORS [60]、光流[9]和隐写分析特征[24]）。面部X射线[39]引入了基于改变的面部和背景图像之间的边界的面部表示。PCL [65]测量输入图像的分块相似性，以检测源图像和目标图像之间的不一致性。训练数据合成。尽管大多数现有方法在检测已知操作方面表现良好，但一些研究[15，21，33，61]发现，这些方法不能推广到由未知操作伪造的假面孔，因为它们往往过拟合训练中看到的方法特定的伪影。解决这一问题的最有效方法之一是使用合成数据训练模型;这鼓励模型学习用于面部伪造检测的通用特征。FWA[41]专注于GAN合成人脸和自然人脸之间的质量差距，并通过模糊面部区域在真实图像上重新生成。然而，多年来，deepfake技术已经得到了改进，并且这种方法无法在最近的基准上检测伪造[2，52]。BI [39]和I2G [65]被引入到生成混合面部，其从具有相似面部标志的两个原始图像对再现混合伪影。这些混合图像可以很好地作为假样本来训练更一般的检测模型;然而，仍然存在一些关切。首先，由于这些混合伪影取决于通过地标匹配选择的源图像和目标图像对，因此有时会在生成的图像中看到不规则的交换[57]。这些简单的样本可能会阻止模型学习鲁棒的表示。其次，因为这些方法被引入学习有向表示，即。、BI中的混合边界和I2G中的源特征一致性，可能的是，要学习用于鲁棒深度伪造检测的伪像仅对于混合图像中的伪像是不够的。18722共混←不←←T源-目标生成器��普雷特��SB = ��s ⊙ �� + ��$ ⊙ (1 −��)I：基础图像目标图像源图像��伊什ISB：履行机构��掩码生成器地标检测凸包面罩增强图3. 生成SBI的概述。将基础图像I输入到源-目标生成器（STG）和掩模生成器（MG）中。STG使用一些图像变换从基础图像生成伪源图像和目标图像，而MG从面部标志生成混合掩模并使其变形以增加掩模的多样性最后，源图像和目标图像与掩模混合3. 自混合图像（SBI）我们的目标是检测deepfakes上改变的人脸和背景图像为了训练更通用和鲁棒的检测器，我们生成由常见伪造痕迹组成的合成假样本，并且难以识别。我们的关键观察结果是，如果deepfake生成技术继续改进，GAN合成的源图像将在其属性上更接近原始目标图像，例如。面部标志和像素统计。因此，我们开发了一个合成数据生成流水线，其中通过从单个图像中混合伪源图像和目标图像来生成假图像，从而为模型提供更一般和更困难的人脸伪造检测任务。为了实现这一点，我们引入了自混合图像（SBIs）。如图3、SBI由三个步骤生成;（1）源-目标生成器生成用于混合的伪源和目标图像。源图像和目标图像被增强以生成统计不一致性（例如，颜色和频率）。源图像也被调整大小和平移以再现混合边界和地标不匹配。（2）掩模生成器生成具有一些变形的灰度掩模图像。(3)我们将源图像和目标图像与掩模混合以获得SBI。虽然SBI生成的一般流程在图1中示出。3，我们给出了Alg中的伪码。1其中的程序是略有不同，从图。3、培训效率（如在预处理中提取面部标志，但不在训练中提取）。无论数据集大小如何，我们生成假样本的管道都具有恒定的运行时间，而由于源图像和目标图像的配对选择，以前的方法[39，65]在预处理中的运行时间为O（NK）算法1用于生成输入：尺寸为（H，W，3）的基础图像I，面部标志L尺寸（81，2）输出：大小为（H，W，3）的自混合图像ISB1：def（I）：源-目标增强2：IColorTransform（I）3：I频率变换（I）4：返回I5：如果均匀（最小值= 0，最大值= 1）<0。第五章：6：Is，It（I），I第七章：否则：8：Is，It←I，T（I）第九章： Is，p←RandomResizeTranslate（Is）p：参数10：L ←LandmarkTransform（L）11：M ←ConvexHull（L）12：M←parameterizedResizeTranslate（M，p）十三： M ←MaskDeform（M）14：r ← Uniform（{0. 25，0。5，0。75、1、1、1}）15：M ←rM16：ISB←IsM+It（1−M）其中N和K分别是视频的数量和每个视频的帧的数量，分别为1。3.1. 源-目标发生器给定输入图像I，STG通过复制I来初始化伪源图像和目标图像。为了生成源图像和目标图像之间的统计不一致，STG随机地将一些图像变换应用于它们中的任一个。在这里，我们随机移动输入的rgb通道、色调、饱和度、亮度和对比度[1]因为[39，65]的官方源代码没有公开，我们只定性讨论。源-靶增强应用于源或目标调整翻译大小18723······N−1N我我我我图4. 原始图像的样本（顶行）及其SBI（底行）。图像作为颜色变换。然后我们降低样本，锐化输入图像作为频率变换。我们在图中展示了SBIs的一些代表性例子。4.第一章虽然SBIs的目的不是为了伪造，但它们包含了伪造面孔中看到的文物。3.4.与SBI进行一旦生成了SBI，我们就可以训练任何二进制分类器，不管它是否为deepfake检测而设计给定输入图像X=[x0，x1，，xN−1]和对应的大小为N的二进制标签T=[t0，t1，tN-1]，分类器F在二进制交叉熵损失L上被优化如下：L=−1<${tlogF （ x ） + （ 1+t ） log （ 1−F（x））}，（2）i=0时为了再现混合边界和界标不匹配，STG调整源图像的大小。设I的高度和宽度分别为H和W 我们将调整大小后的图像的高度Hr和宽度Wr定义为Hr= uhH和Wr= uwW，其中uh和uw是独立采样的。在[umin，umax]范围内的连续均匀分布U[umin，u max]。调整大小后的图像将进行零填充或中心裁剪，以具有与原始图像相同的大小然后，STG转换调整大小的源图像。我们将平移向量t=[th，tw]定义为th=vhH和tw=vwW，其中vh和vw独立于U[vmin，vmax]进行采样。3.2. 掩模生成器（MG）MG提供灰度掩模图像以混合源图像和目标图像。为此，MG将界标检测器应用于输入图像以预测面部区域，并且通过从预测的面部界标计算凸包来初始化掩模然后，使用BI [39]中使用的地标变换使掩模变形为了增加混合蒙版的多样性，随机改变蒙版的形状和首先，如[65]中所采用的，通过弹性变形使掩模变形。其次，用两个不同参数的高斯滤波器对掩模进行平滑。在第一平滑之后，小于1的像素值被改变为0。这意味着面具被侵蚀了如果第一高斯滤波器的核尺寸大于第二高斯滤波器的核尺寸，并且在相反的情况下被扩张。最后，MG改变源图像的混合比率。这可以通过将掩模图像乘以常数r∈（0，1]. 在这里，我们统一采样r从{0。25，0。5，0。75，1，1，1}。3.3. 共混通过用混合掩模M混合源图像Is和目标图像It，我们获得自混合图像ISB为ISB= Is M + It（1 − M）。（一）其中F（x）是x为“假”的概率。我们将目标图像输入为“真实”，而不是使用基础图像，以鼓励模型仅关注SBI上的伪影。由于MG提供了混合掩码，我们也可以采用基于掩码的多任务学习[39，48，65]。4. 实验4.1. 实现细节预处理。我们采用Dlib [34]和RetinaFace [18]分别从每个视频帧中提取面部标志和边界框。我们在Dlib中使用81个面部标志形状预测器[1]。对于从边界框计算的面部的宽度和高度，面部区域被裁剪为具有4-20%的随机余量用于训练，并且具有12.5%的固定值用于推断。注意，在推理期间不需要界标;因此，我们只在推理时使用RetinaFace。源-目标增强。对于颜色和频率变换，我们采用了广泛使用的图像处理工具箱中的 RGBShift ，HueSaturationValue，RandomiznessContrast，Downscale和Sharpen [11]。训练我们采用在ImageNet [17]上预训练的最先进的卷积网络架构EfficientNet-b4 [54]（EFNB 4）作为分类器，并使用SAM [22]优化器对其进行100次训练批量大小和学习率分别设置为32和0.001。我们每个视频只采样八帧进行训练。如果在帧中检测到两个或更多个面部，则提取具有面部边界框的最大面积的面部每个批次由真实图像及其SBI组成，并且相同的增强被应用于每个真实图像及其SBI。我们还使用一些数据增强，即。、 ImageCompression 、 RGBShift 、 HueSatu-rationValue和RandomObjectivesContrast。模型验证。考虑到实际情况，重要的是在没有额外的评估数据集的情况下验证模型。我们使用一个验证集，它由真实的18724方法输入类型训练集测试集AUC（%）房假CDFDFDDFDCDFDCPFFIWDSP-FWA [41]面部X光+ BI [39]帧Frame✓✓✓69.30--93.47---七十一点一五--面部X光+ BI [39]帧✓ ✓-95.40-80.92-LRL [13]帧中国78.2689.24-76.53-FRDM [44]帧中国79.491.9-79.7-PCL + I2G [65]帧✓90.0399.0767.5274.37-[47]第四十七话视频76.65美元----DAM [67]视频75.3分--72.8-[27]第二十七话视频中国82.4----FTCN [66]视频中国86.994.40磅71.00日元74.074.47米EFNB4 + SBI（我们的）帧✓93.1897.5672.4286.1584.83表1. CDF、DFD、DFDC、DFDCP和FFIW的跨数据集评价。先前方法的结果直接引用自原始论文及其子序列，以进行公平比较。粗体和下划线值分别对应于最佳和次佳值。* 表示我们对官方代码的实验我们的方法在CDF，DFDC，DFDCP和FFIW上的性能优于最先进的方法，并且在DFD上实现了第二好，而无需任何特殊的网络架构进行深度伪造检测。在每一个时期之后，计算视频及其SBI，并且在具有最高AUC的五个权重中选择具有最高时期数量的因此，在我们的方法中，即使对于模型验证，也不使用操纵的图像。推理策略。我们对每个视频采样32帧用于推断。如果在帧中检测到两个或更多个面部，则将分类器应用于所有面部，并且将最高虚假置信度用作帧的预测置信度。一旦获得了所有帧的预测，我们将其平均以获得视频的预测。为了公平比较，我们使用所有测试集的所有视频进行评估，将所有帧中未检测到人脸的视频的置信度设置为0.5。4.2. 实验环境数据集。我们采用广泛使用的基准 Face-Forensics++[52]（FF++）进行培训，遵循常规。它包含1,000个原始视频和4,000个通过四种操纵方法伪造的假视频，即、Deep-fakes [4]（DF）、Face2Face [56]（F2F）、FaceSwap [5]（FS）和NeuralTextures [55]（NT）。对于我们的跨数据集评估，我们使用了五个最近的deepfake数据集。Celeb-DF- v2（CDF）将更先进的deepfake技术应用于从YouTube下载的名人视频。Deep-FakeDetection[2]（DFD）提供了数千个由同意的演员生成的 deepfake 视频。 DeepFake DetectionChallenge Preview [20] （ DFDCP ）和 DeepFakeDetection Challenge公共测试集[19]（DFDC），与比赛一起发布[3]，包含大量干扰视频，例如。压缩、下采样和噪声。我们还在最近的大规模基准FFIW-10 K上提供了一个新的交叉数据集基线[67]。（FFIW），其专注于多人场景。我们遵循所有数据集的官方训练/测试分割，除了FFIW，我们使用原始验证集作为我们的测试集，因为官方测试集尚未发布。尽管FaceShifter [38]和DeeperForensics-1.0 [29]提供了复杂的deepfake视频，但我们在跨数据集评估中没有采用它们，因为它们从 FF++ 的真实视频中生成了deepfake，这与训练中使用的更多统计细节见补充材料帧级基线。我们指的是五个国家- 现有技术帧级检测方法，包括：（1）DSP-FWA [41]提出了一种基于GAN合成源图像质量下降的训练数据生成方法。(2)面部X射线[39]通过分割源图像和目标图像之间的混合边界来检测深度伪造。该模型使用称为BI的合成假样本进行训练，该样本是通过混合来自不同视频的两个图像生成的。（3）局部关系学习[13]（LRL）和（4）融合+RSA + DCMA+多尺度[44]（FRDM）融合了RGB和频域的两种不同表示(5)成对自一致性学习[65]（PCL）通过测量输入图像块之间的距离来检测deepfake。该模型使用与BI类似的不一致图像生成器（I2G）进行训练[39]。视频级基线。我们进一步比较我们的方法与视频级的方法，输出一个单一的标量虚假的一些视频帧。与帧级方法不同，视频级方法可以检测跨帧的不相干性，尽管它们需要以规则间隔的对象的多个帧。我们参考了四种最先进的方法，包括：（1）双分支[47]提出了高斯拉普拉斯算子18725方法检测集AUC（%）方法检测集AUC（%）表2. FF++上的交叉操作评估。我们的方法在F2F，FS，NT和整个FF++上实现了最先进的结果sian核以增强输入图像的频率分量。(2)区分注意力模型[67]（DAM）提出了一种基于注意力的网络[59]，用于多表3. 与BI的AUC比较[39]。方法检测集AUC（%）ResNet-34 + SBIs（我们的）87.04 66.41 82.16 78.54人物场景 (3)[27]第二十七话使用预先训练的唇读模型[46]的嘴部运动的不一致性(4)全时间卷积网络[66]（FTCN）通过将CNN的空间内核大小减少到1来增强时间表示。评估指标。我们报告的视频水平下的受试者工作特征曲线（AUC）的面积与以前的作品。通常，帧级预测在视频帧上被平均。我们还在补充材料中提供平均精度（AP）。4.3. 跨数据集评价为了展示我们方法的通用性，我们进行了一个跨数据集评估，其中模型在FF++上进行训练，并在其他数据集上进行评估尽管许多研究人员都考虑过这项任务，但他们每个人在实验中使用的测试集因工作而异，这使得全面比较变得困难。因此，我们仔细检查了以前的作品中的实验设置，并将它们编译成表1。与帧级方法的比较。在这里，我们将我们的方法与其他帧级方法进行比较[13，39，41，44，65]。我们的方法在CDF、DFDC和DFDCP上的性能分别比现有方法高6.08%、5.17%和5.23%，并平均提高基线4.58%（87.33% vs 82.75%）。我们的结果与PCL + I2G [65]在DFD上相当（97.56% vs. 99.07%），其中伪造的面部有时与一些其他原始面部一起放置在操纵的帧中，并且对象在整个操纵的视频中的帧的百分比小于其他测试集。因此，我们的方法可以通过将任何对象跟踪过程合并到我们的推理策略中来改进，如PCL + I2G[65]，而不是像我们的简单策略那样以相等的间隔从视频中提取帧。与视频级方法的比较。然后，我们将我们的方法与视频级方法进行比较[27，47，66，67]。为了进行更全面的比较，我们在未考虑的测试集上对FTCN [ 66 ]进行了额外的实验，即。、DFD、DFDC和FFIW，表4. 与I2G的AUC比较[65]。Code [6].结果在表1中表示为 *。我们的方法在CDF，DFD，DFDC 、 DFDCP 和 FFIW ，平均提高基线 6.68%（ 86.83% vs.80.15% ）。我们还在用于 LipForensics[ 27 ]实验的DFDC子集上评估了我们的方法，优于竞争对手（76.78% vs. 73.5%）。视频列表可在作者的存储库中找到4.4. 交叉操作评价在真实的检测情况下，防御者通常不知道攻击者的伪造方法。因此，验证模型对各种伪造方法的推广是很重要的。根据[39，65]中使用的评估协议，我们对FF++的四种操作方法进行了评估，即、DF、F2F、FS和NT。我们使用原始版本进行评估，以及竞争对手。表2列出了我们对FF++的交叉操作评估结果。我们的方法在四种操作上优于或接近现有方法（DF上99.99% ， F2F 上 99.88% ， FS 上 99.91% 和 NT 上98.79%），并在整个FF++上实现了最佳性能（99.64%vs. 99.11%）。这一结果表明，我们的方法不仅在deepfakes上效果良好，而且在其他面部操作上也效果良好4.5. 数据质量评估在这里，我们将我们的方法与最先进的合成训练数据[39，65]进行比较，消除了分类器差异的影响为了实现这一目标，我们训练了与竞争对手在其原始论文中使用的相同的模型和优化器。表3列出了与BI的比较[39]。我们用Adam [35]优化器训练Xception [14在AUC方面，我们的方法在FF++的所有操作方法上优于BI[39]。特别是，FS的基线从89.29%提高到98.79%。接下来，表4给出了与I2G [65]的比较结果。我们使用Adam optimizer 训练 ResNet-34 [28] 。我们的方法在CDF、DFDC和DFDCP上优于I2G [65]DFF2fFSNTFF++DFF2fFSNTFF++面部X线+ BI [39]PCL + I2G [65]99.1710098.5798.9798.2199.8698.1397.6398.5299.11[39]第三十九话98.9597.8689.2997.2995.85Xception + SBI（我们的）99.9999.9098.7998.2099.22CDFDFDCDFDCPAvgResNet-34 + I2G [65]78.1851.7269.9366.61EFNB4 + SBI（我们的）99.9999.8899.9198.7999.6418726工艺检测集AUC（%）表5. STG各工序的效果。跳过任何进程都会导致致命的性能下降。训练集测试集AUC（%）数据库#真实FF++CDFDFDCPFFIWAvgFF++72099.6493.1886.1584.8390.95CDF62298.1093.7481.1077.8287.69DFDCP73798.7690.7988.7081.3189.89FFIW709099.7295.5778.9188.0790.57表6. 不同训练数据集的性能。我们的方法在每个训练数据集上都取得了很好的效果。“#Real” presents the number of realvideos of the training set, excluding that of the validation平均值分别提高8.86%、14.69%、12.23%和11.93%。这些结果清楚地表明，我们的方法优于竞争对手的合成训练数据，无论网络结构。4.6. 消融STG各工序的效果。在STG中，我们使用一些图像处理来生成伪源图像和目标图像。相反，由于学习的表示是基于我们在STG中主动提供的伪影，因此生成过程的消融实验能够在deepfake基准上探索有效的线索。在这里，我们训练我们的模型没有一些过程，即。、源增强、目标增强、源-目标增强或调整大小和平移，并在FF++、CDF、DFDCP和FFIW上对其进行评估。如表5所示，源和目标增强在检测deepfake方面确实有效我们还观察到，调整大小和翻译复制重要的文物，因为没有他们的性能差。通过消融，可以得出结论，不同的线索对不同数据集上的检测器有用，因为它们具有不同的deepfake生成过程。训练数据集的通用性。从实用的角度来看，重要的是要表明我们的方法可以在各种真实的人脸数据集上表现良好。我们在这里使用 FF++、CDF 、DFDCP和FFIW的原始视频中的SBI然后我们在测试集上对它们进行在CDF和FFIW上，我们将原始训练集拆分为alter-native训练/验证集。表6给出了结果。架构测试集AUC（%）表7. 不同网络架构的性能。具有更大容量的体系结构倾向于导致更好的通用性。我们的方法被推广到所有的数据集没有一个关键的性能下降。我们观察到FFIW的大数据集大小有助于模型的通用性。然而，FFIW和DFDCP之间的视频场景的差异导致DFDCP的性能略有下降; FFIW由从YouTube收集的视频组成，而DFDCP由拍摄招募的受试者制作的视频组成。结果还表明，学习原始视频可以帮助检测与训练中相同领域的伪造人脸，即使模型没有学习操纵视频，如表6中以棕色突出显示的分数所示，这支持我们在跨数据集评估中不采用 FaceShifter [38] 和DeeperForensics-1.0 [29]，如第4.2节所述。网络架构的选择。虽然我们采用EfficientNet-b4 [54]作为我们的标准分类器，但我们的方法可以应用于其他网络架构。在这里，我们调查了不同的国家的最先进的架构，即性能。，ResNet-50，-152 [28]，Xception[14]，EfficientNet-b1和-b4 [54]，使用SBI训练。如表7所示，所有架构都在FF++、CDF、DFDCP和FFIW上实现了良好的结果，而没有严重的性能下降。值得注意的是，即使我们使用vanilla ResNet-50的方法也优于CDF，DFDCP和FFIW上的所有先前方法，如表1和7所示。我们观察到较大的网络往往会导致更大的通用性，这表明SBIs提供了各种各样的训练样本。4.7. 定性分析为了获得定性的见解，我们可视化模型显着性图和特征空间。通过分析，我们采用了两种模型;一个是在FF++（基线）上训练的，另一个是在SBI（我们的模型）上训练的。显著性图。为了可视化模型在锻造面上的注意力，我们将Grad- CAM++[12]应用于FF++操作帧上的模型，即、DF、F2F、FS和NT，如图所示。五、可以观察到，我们的方法鼓励模型使其注意力比基线稀疏。这是因为我们的模型检测到与操作无关的微小伪影，例如，混合边界，而基线捕获在伪造面部中广泛分布的方法特定的像素分布FF++CDFDFDCPFFIWAvgw/o源aug.98.5893.5978.0661.1182.84无目标增益99.3576.6183.8482.8785.67不带S-T aug.89.1870.6885.1688.3183.33不含Res.&转换（amp; T）99.5885.2881.0474.6985.15SBIs（我们的）99.6493.1886.1584.8390.95FF++CDFDFDCPFFIWAvgResNet-5097.7790.6682.8879.3087.65ResNet-15298.3390.7185.0176.4387.62Xception99.2690.2778.8576.7286.28EfficientNet-b199.1091.1684.5880.2388.77EfficientNet-b499.6493.1886.1584.8390.9518727DF在FF++上培训关于SBI的培训F2F在FF++上培训关于SBI的培训FS接受FF++培训关于SBI的培训NT在FF++上培训关于SBI的培训图5. 基线和模型的显着图可视化。基线捕获方法特定的工件，广泛存在于伪造的面孔，而我们的模型检测到独立的操作轻微的文物。最好用彩色观看。(a) 在FF++(b) 关于SBI的图6. 基线（a）和模型（b）的特征空间可视化。基线无法区分真实图像和SBI（因为特征向量落入相同的特征空间），而我们的模型不仅成功区分了真实图像和SBI，还成功区分了伪造图像。最好用彩色观看。特征空间。然后，我们将t-SNE [58]可视化应用于模型最后一层的特征向量。我们再次强调，基线很容易识别伪造的面孔，因为它们在训练中被看到，我们的目标是将真实面孔与其他人分开，而不是对操作类型进行如图6、基线不能区分SBI和真实图像，尽管它包括-在训练中看到的四种操作。另一方面，我们的模型区分不仅SBIs，但也伪造的脸从真正的。我们还观察到，SBIs分布在特征空间中的四个操作。这些结果表明SBIs是训练人脸伪造检测器的通用合成数据。5. 限制虽然我们在交叉数据集和交叉操作评估中的结果预计是有益的，但我们观察到我们的方法的一些局限性。首先，与其他帧级方法类似，我们的模型无法捕获跨视频帧的时间不一致性。因此，具有更少空间伪影的复杂深度伪造生成技术可以通过我们的检测器。此外，我们的方法在整体图像合成上表现不佳，因为我们将“假图像”定义我们在从FFHQ数据集和Style-GAN [32]合成中采样的20 k图像集上评估了我们的模型，其AUC仅为69.11%。6. 结论本文提出了一种新的合成训练数据--自混合图像（Self-Blended Images，SBIs），其思想是更一般且难以识别的假样本促使分类器学习更一般且鲁棒的表示。通过混合从单个真实图像稍微变换的伪源图像和目标图像来产生伪造伪影。使用SBIs，我们可以在没有伪造人脸图像的情况下训练检测器大量的实验表明，我们的方法是优于国家的最先进的方法看不见的操作和场景，并一般化到不同的网络架构和训练数据集。18728引用[1] 81 个面部标志形状预测器。 https ： //github.com/codeniko/shape_predictor_81_face_landmarks.访问时间：2021-11-13。4[2] 为 deepfake 检测研究贡献数据。https ：//ai.googleblog。com/2019/09/contributing-data-to-deepfake-detection .HTML.访问日期： 2021-11-13.一、二、五[3] Deepfake检测挑战。https://www.kaggle的网站。com/c/deepfake-detection-challenge. 完成日期：2021年11月13日。5[4] 深度伪造 h t t p s ： //github.com/deepfakes/faceswap.访问时间：2021-11-13。二、五[5] 脸罩。https ： //GitHub.com/MarekKowalski/FaceSwap/. 访问时间： 2021-11-13。二、五[6] Ftcn. https://github.com/yinglinzheng/FTCN网站。访问时间：2021-11-13。6[7] 油脂鉴证科https://github.com/ahaliassos/LipForensics.访问时间：2021-11-13。6[8] D. 阿夫查尔河谷Nozick，J.山岸和我。越前Mesonet：一个紧凑的面部视频伪造检测网络。在WIFS，第1-7页，2018年。一、二[9] 艾琳·阿梅里尼，莱昂纳多·加尔泰里，罗伯托·卡尔代利和阿尔·贝托·德尔宾博.基于cnn光流的Deepfake视频检测。在ICCV，2019年。2[10] 在Arj o vs ky，SoumithChintala和Le'onBottou的Mar t。Wasserstein生成对抗网络在ICML，第214-223页1[11] Alexander Buslaev，Vladimir Iglovikov，Eugene Khved-chenya，Alex Parinov，Mikhail Druzhinin，and AlexandrKalinin.白蛋白：快速灵活的图像增强。信息，11：125，02 2020. 4[12] AdityaChattopadhay ， AnirbanSarkar ， PrantikHowlader ， and Vineeth N Balasubramanian. Grad-cam++：深度卷积网络的一般化基于梯度的视觉解释。在WACV，第839-847页，2018年。7[13] 沈晨，姚太平，陈扬，丁守宏，李吉林，姬荣荣。局部关系学习在人脸伪造检测中的应用。在AAAI，第35卷，第1081-1088页，2021中。二、五、六[14] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在CVPR中，第1251-1258页，2017年。六、七[15] Da videCozzolino ， JustusThies ， AndreasR¨ ssler ，ChristianRiess，MatthiasNießner，andLuisaVerdoliva.Forensictransfer ： Weakly-supervised domainadaptation for forgery detection.arXiv ： 1812.02510 ，2018。一、二[16] Hao Dang，Feng Liu，Joel Stehouwer，Xiaoming Liu，and Anil K Jain.数字人脸篡改的检测在CVPR，2020年。一、二[17] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Ka

下载后可阅读完整内容，剩余1页未读，立即下载