基于重构-分类学习的人脸伪造检测

92 浏览量更新于2023-10-25 收藏 2.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4113端到端重构-分类学习人脸伪造检测曹俊义1马超1姚太平2沈晨2丁守宏2杨小康11上海交通大学2腾讯优图实验室{junyicao，chaoma，xkyang} @ sjtu.edu.cn{ taipingyao，kobeschen，ericshding} @ tencent.com摘要现有的人脸伪造检测器主要集中在特定的伪造模式，如噪声特征，局部纹理，或频率统计的伪造检测。这导致学习到的表示对训练集中呈现的已知伪造本文从一个新的角度出发，提出了一个基于重构-分类学习的人脸伪造检测框架。在真实图像上的重建学习增强了学习的表示，以了解伪造模式，甚至是未知的，而分类学习负责挖掘真实图像和伪造图像之间的本质差异为了实现更好的表示，而不是在重建学习中仅使用编码器，我们以多尺度方式在编码器和解码器特征我们进一步利用重建的差异作为指导的伪造痕迹的图形输出作为最终的表示，这是馈入到分类器的伪造检测。重建和分类学习是端到端优化的。在大规模基准数据集上的大量实验证明了该方法的优越性1. 介绍近年来，人脸伪造生成方法取得了相当大的进展[2，4，11，18，20，41、42、50、53]。由于深度学习的成功，生成超逼真的假面部图像或视频真的很容易。攻击者可以利用这些技术制造假新闻、诽谤名人或破坏身份验证，从而导致严重的政治、社会和安全后果。为了减少人脸伪造的恶意滥用，迫切需要开发有效的检测方法。*通讯作者。真实人脸重建人脸图1.我们只对真实样本进行重建学习，以学习真实面部图像的常见紧凑表示（左）。利用学习的表示，真实和虚假面部的重构差异在分布上显著不同（右），这有助于伪造检测。早期的人脸伪造检测方法[1，8，23，31，35，60]通常遵循用于图像分类的学习卷积神经网络（CNN）使用现成的CNN主干线，这些方法直接将面部图像作为输入，然后将其分类为真实或虚假。然而，这些普通CNN倾向于在有限的面部区域上寻找伪造物，这表明检测器对伪造物的理解不足[45]。最近的工作诉诸于特定的伪造模式，如噪声特征[12，58]，局部纹理[6，14，55]和频率信息[22，33]，以更好地检测伪造伪像，驻留在假脸上。尽管证明了有希望的结果，他们总是依赖于伪造模式，所拥有的一定的操纵技术在训练集中。因此，在现实世界的情况下，由于新的操纵技术和各种类型的扰动的出现，具有未知模式的formba很容易导致现有的方法失败。为了解决上述问题，我们有两个主要的考虑，以提高人脸伪造检测的学习表示。首先，学习表示，可以推广到未知的伪造模式，探索真正的面孔的共同特点是更适合过拟合到特定的伪造模式中提出的训练集。由于以前的研究[5，36]表明，真实样本具有相对紧凑的分布，因此真假4114用真实图像学习的紧凑表示更有可能将未知伪造图案与真实面部区分开。其次，为了确保学习的表示捕捉真实和伪造图像之间的本质差异，需要增强关于伪造线索的网络推理因此，分类学习从全局角度提供了对伪造的更好理解考虑到上述因素，在本文中，我们提出了一种新的重建分类学习（RECCE）框架来检测人脸伪造。其关键思想如图1所示。对于重建学习，我们提出了一个重建网络，它由一个编码器和一个解码器，只有真实的脸的分布模型。除了重建损失外，我们还在解码器上应用了一个度量学习损失，使得在嵌入空间中真实图像接近，而真实图像和伪图像远离。这确保了具有未知伪造图案的伪造图像更有可能被识别，这是由于学习分布差异。基于上述约束条件，在解码器端，揭示伪造线索的差异信息被逐渐增强，最终导致真实人脸的声音重建和虚假图像的不良重建因此，为了实现完整的表示，而不是仅仅使用编码器输出作为特征，我们还考虑解码器特征。受图建模[44，47，56]的最新进展的启发，它可以灵活和自适应地对特征关系进行建模，我们在编码器和解码器特征上构建由于不同的人脸伪造技术会导致伪造痕迹跨越不同尺度，因此在推理过程中采用多尺度机制来综合挖掘伪造线索。此外，鉴于重建差异指示可能伪造的区域，我们使用重建差异作为指导，注意到图输出作为分类学习的最终表示。重建和分类学习以端到端的方式联合优化。简而言之，主要贡献如下：• 从一个新的角度，我们提出了RECCE框架的人脸伪造检测挖掘的共同特点，真正的脸。这增强了所学习的表示，即使具有来自真实图像的未知伪造图案，也能够将假面部• 我们以多尺度方式在编码器输出和解码器特征上构建二分图，以帮助网络推理伪造线索，并利用重建差异作为指导来处理可能伪造的痕迹。• 在基准数据集上进行了广泛的实验，包括FaceForensics++ [35]，WildDeepfake [60]和DFDC [9]，验证了所提出的方法优于最先进的方法。2. 相关工作人脸伪造检测。已经做出了许多努力来提高面部伪造检测的性能[1，13，23，29，30，40，45，46，60]。像[31，35]这样的早期作品使用最先进的图像分类主干，例如，VGGNet [39]和XceptionNet [7]，用于从裁剪的面部图像中提取特征并执行二进制分类。然而，从图像分类模型继承的CNN主干强调类别级别的差异，而不是真实图像和假图像之间的近年来，鉴于伪造人脸在视觉上变得更加逼真，许多研究工作提出进一步挖掘特定的伪造模式，如噪声统计、局部纹理和频率信息，以区分真假人脸。例如，Zhouet al.[58]设计一个双流神经网络，其中一个分支使用视觉外观，另一个分支专注于局部噪声模式来检测伪造人脸。Zhao等人[55]设计一种多注意人脸伪造检测器，其聚集多个局部部分的纹理特征和高级语义特征以分类真实和伪造样本。Qian等人[33] Liet al.[22]将频率细节考虑在内，并提出频率感知模型来区分真实面孔和伪造面孔。尽管这些方法的性能有所提高，但它们主要依赖于训练样本中呈现的学习伪造模式，因此当处理未知伪造模式时，它们将经历明显的重建学习。重构学习已被广泛用于非监督环境中的表示学习[16，26，32，49，51，52]。它鼓励模型编码更多关于输入的信息，以便有效地恢复输入它的目的是对嵌入空间中输入数据的分布进行建模[28，34，54]。一些先前的工作已经探索了用于面部伪造检测的重建学习例如，Nguyenet al. [30]使用重建网络，但侧重于多任务学习。在[10]中，Duet al.提出了一种局部感知的自动编码器，并使用像素掩码来处理伪造区域。请注意，这些方法对所有人脸图像执行识别学习，而不管真实和虚假样本。因此，不能确保学习的表示被泛化。因此，我们的方法可以很好地学习模拟真实面孔的分布。这有助于学习的表示更有可能检测到未知的伪造模式，这是由于真实面部和操纵样本之间的分布与分类学习一起，所提出的端到端重构-分类学习方法在大规模基准测试中显示出优于现有技术的优越性。4115^L∈∈| |-否R··|R|i∈R我我1ΣΣ1编码器解码器信息聚合��多尺度图推理，，，，��，，你，你，你重建引导注意力图2.拟议框架示意图。输入图像（真实或虚假面部）首先进入编码器-解码器重构网络进行表示学习。编码器输出经过多尺度图推理模块以实现更好的表示，其进一步由重构差异引导以用于最终分类。整个系统通过联合最小化分类损失Lcls、仅基于真实面部计算的重建损失Lr和度量学习损失Lm来训练。3. 该方法为了捕捉真实人脸和虚假人脸之间的本质差异，我们设计了一个新的框架RECCE，它包括三个主要方案，重建学习、多尺度图推理和重建引导注意，如图2所示。反射网络的目标是只模拟真实人脸图像的分布。因此，所学习的表示更有可能检测到未知的伪造模式。此外，为了进一步挖掘本质上的区别表示，多尺度图推理方案聚集捕获的在训练过程中，人们可以得到X射线，目的是学习真实面孔的鲁棒因此，图像重建过程可以被公式化为：X=F（X）.（一）在重建过程中，我们在小批量中计算输入真实图像与其重建版本的重建损失r，L=1X^−X，（2）以多尺度方式在重构网络的编码器和解码器两者中的真实人脸和伪人脸之间的差异信息同时，重构引导注意模块引导分类网络更加关注伪造痕迹。以下小节将详细介绍这三种方案。3.1. 重构学习由于人脸伪造的方法总是多种多样的，我们认为，探索真实人脸的共同特征，其中R表示小批量中的真实样本的集合，并且R是R的基数。除了重建的差异，我们使用一个度量学习损失，使真正的图像接近，而真正的和假的图像远离嵌入空间。为了简单起见，设FRh'×w'×c表示编码器或解码器块。我们将全局平均池化操作应用于F，并获得特征向量F′每个输入样本的R c。度量学习损失是：比过拟合特定的伪造图案更合适。在训练集中呈现的。因此，我们建议1= NRRd（F<$i，F<$j）i∈R，j∈RRFd（F<$i，F<$i∈R，j∈Fj），（三）进行重建学习以恢复真实的面部图像其中R、F表示真实样本和伪样本的集合。NRR只. 具体而言，给定输入图像X∈Rh×w×3，我们基于编码器训练重建网络F和 N个RF是（实数，实数）对和（实数，解码器结构正如之前的研究[57]所证明的那样，用于恢复原始输入的普通重建分支不会显著改善学习假的）对。d（，）是基于余弦距离的成对距离函数：1 −一 ·b表示，我们将一些白噪声添加到输入sam中，d（a，b）=a22002年。（四）Lm4116电子邮件��1⋅中国，12012年2DecDec，，12DecDec联系我们��2⋅agg，v，ENCdec，v阿森克ENC阿森克˜Σ˜=avjENC⊗aggENCENCENC{vi=1ENC聚合，我们特别加强渠道的vdecLm中的第一部分鼓励学习紧凑的表示，当v的相应信道的权重为图推理聚合来自N（venc）的信息为了丰富vi的特征表示，ǁ解码器产品特点（简体中文）编码器输出（单位：吨）聚合产品特点（简体中文）虚线框中的蓝色实心顶点。给定vii、jDec我们首先将它们投影到一个共享的嵌入空间，神经网络，g1（·）和g2（·），得到viDec至vi，j分别。vi，j的重要性我ENC. 首先，我们要明确-从两个子图中生成顶点，然后传递通过单层网络φ得到j，如下：。我）i，jΣ��01 - 02- 0expDecφ（vencvdec）（五）aj=.ii，li，vi，l∈N（vi）expφ（vencvdec）在编码器输出中聚合信息的方案（橙色）和解码器功能，为给定的规模（蓝色），以产生更丰富的代表，代表（绿色）。这个数字最好用彩色看哪里表示级联操作。然后我们来-使用非线性函数基于vi来计算[0，1]变换以生成特征丰富度度量-在通道级中对Vi进行分段信息时i、j第二部分是真实的面孔，小了聚合的特征向量是阿森克确定真实样本和虚假样本之间的差异。注意v_agg由下式计算：N与直接应用于特征提取器的经典度量学习损失[3，21，37，48]不同，我们提出的损失专门用于增强重建。我aggi、jDecj=11−），（6）结构差异，以促进重建学习。此外，我们不约束虚假数据的紧凑性，因为它们的特征在不同的伪造技术中有很大的不同。我们将度量学习损失应用于最后一个编码器块和每个解码器块的输出3.2. 多尺度图推理当将度量学习损失应用于解码器时，用于分离真实和虚假图像的有用信息是哪里是元素乘法。由于不同的操作技术会导致伪造的痕迹跨尺度，我们建议挖掘伪造信息在多尺度的方式，以获得全面的表示。具体地说，编码器的输出特征以多个块的形式聚合解码器的每个块输出规模的方式。不同的聚合特征{vi}scales与vi连接，然后通过sigmoid函数，然后通过两个完全连接的层，产生增强的特征向量v1，也嵌入到解码器中。为了有效地利用由解码器功能捕获的伪造线索用于最终分类，通道尺寸为vi. 最后，英伊英组装在此基础上，提出了一种多尺度图推理（MGR）模块，它将解码器块和编码器输出的潜在特征结合成一个二分图，用于对伪造线索进行综合推理。在这里，我们采用针对给定尺度的解码器块的特征图进行描述。如图3所示，我们对编码器输出和解码器特征进行建模，即，在空间上，以获得用于所述图像的增强特征图F_enh。重建后的注意力。3.3. 重建引导注意力在重构网络的约束条件下，重构的锻件表面与输入的锻件表面在视觉上有很大的不同这促使我们使用重建差异来指示概率-Fenc，Fdec，因为t wverte xsetVenc={vi}h1×w1，Vdec=i=1巧妙地操纵痕迹。为此，我们建议侦察-我Dec}h2×w2，其中每个顶点表示对应的结构引导注意力（RGA）模块，原始特征图的嵌入向量 N（vi）=注意可能的伪造区域，以方便以后{vi，j}N表示Vdec中的顶点集，分类.Dec我ENCj=1. N是集合中的顶点数。具体来说我ENC为了更好的现实，如图2中所示，给出了重建的图像和原始图像X，我们首先计算它们的差打听伪造的线索我们保持空间的一致性-在将信息从解码器聚集到编码器以对局部关系进行建模时，由于伪造痕迹通常驻留在连续的局部区域中，因此，这是不必要的。如图3所示，橙色实心顶点的邻域Σvv至v接下来，我们计算权重系数aj以指示图3.说明所提出的多尺度图推理ENC是在像素级中，以得到差分掩模m，4117. ^.|·|为m=X-X，（7）这里是指绝对值函数。给定Fenh，在第3.2节中提到的增强的特征映射，我们4118⊗L方法FF++（c23）FF++（c40）Celeb-DF表1.测试内比较。所提出的方法优于当前最先进的方法。基于差异掩码计算注意图，并将其在空间上应用于Fenh，以得到F′enh。然后，我们添加F′enh和Fenh以获得被关注的输出特征：F′enh=σ（f1（m））<$f2（Fenh），（8）其中的视频是从互联网上获得的，在各种场景中呈现出更多的身份。DFDC是一个大规模的数据集，包含960个主题的128，154个面部视频。由于操纵和扰动的多样性，这对现有的方法是非常具有挑战性的。法阿特 =F′enh +F加强、（9）评估指标。为了评估我们的方法，我们报告了相关领域中最常用的指标[1，6，22，其中f1、f2表示卷积运算，σ是S形函数，并且表示逐元素乘法。为了简单起见，我们省略了这些张量的空间大小，并使用双线性插值来适当地保持所述操作的3.4. 损失函数所提出的框架的总损失函数包括用于重构学习的重构损失和度量学习损失，以及用于二进制分类的交叉熵损失LclsL=Lcls+λ1Lr+λ2Lm，（10）其中λ1和λ2是用于平衡不同损耗的权重参数。4. 实验4.1. 实验装置数据集。我们在FaceForensics++（FF++）[35]，Celeb-DF [24]，WildDeepfake（WDF）[60]和DFDC [9]上评估了我们提出的方法和现有方法。FF++是最广泛使用的数据集，包含四种类型的操作技术，即，Deepfakes（ DF ）、 Face2Face （ F2F ）、 FaceSwap （ FS ）和NeuralTextures（NT）。Celeb-DF包括590个真实视频和5，639个高质量的假视频，这些视频是由改进的DeepFake算法制作的[24]。WildDeepfake是一个真实世界的数据集，包含3,805个真实序列和3,509个假序列。所有累积（%）AUC（%）累积（%）AUC（%）累积（%）AUC（%）累积（%）AUC（%）MesoNet [1]83.10–70.47–––64.47–多任务[30]85.6585.4381.3075.59––––Xception [35]95.7396.3086.8689.3097.9099.7377.2586.76面部X光检查[23]–87.40–61.60––––[29]第二十九话96.4398.7086.3486.59––––SPSL [25]91.5095.3281.5782.82––––RFM [45]95.6998.7987.0689.8397.9699.9477.3883.92[22]第二十二话96.6999.2889.0092.39––––[60]第六十话96.7897.7487.5091.0196.9399.5576.2586.17F3-Net [33]97.5298.1090.4393.3095.9598.9380.6687.53多属性[55]97.6099.2988.6990.4097.9299.9482.8690.71RECCE（我们的）97.0699.3291.0395.0298.5999.9483.2592.02411933、35、55、59]，包括准确度（Acc）、受试者工作特征曲线下面积（AUC）和等误差率（EER）。我们还报告了DFDC上的LogLoss，与其相应竞赛的设置一致[9]。实施详情。所提出的框架是基于Xception [7]实现的。我们用32的批量大小训练它，Adam [19]优化器的初始学习率为2 e-4，权重衰减为1 e-5。一个步骤的学习率调度器被用来调整学习率。公式（10）中的λ1和λ2根据经验设定为0.1。我们仅使用随机水平翻转进行数据扩充。4.2. 实验结果内部测试。在本节中，我们将我们提出的方法与当前最先进的方法进行比较。如表1所示，对于FF++数据集，我们的方法在不同的质量设置下始终实现了很大的改进。特别是在具有挑战性的c40（低质量）设置上，与F3-Net [33]相比，我们方法的AUC得分超过它1.72%。为了解释，过度压缩破坏了F3-Net所依赖的频率线索，而我们的方法通过重建学习产生了一个更鲁棒的表示，作为伪造分类的有效指导。请注意，尽管配备EfficientNet-b4的MultiAtt [55]在FF++ c23（高质量）上达到了最高的Acc，但我们基于Xception的方法仍然实现了相当的结果，并且在低质量设置上超过了它。与多任务[ 30 ]不同，多任务[30]对真实和虚假面部都采用重建约束，所提出的RECCE框架仅4120方法Acc（%）↑ AUC（%）↑ LogLoss ↓Xception [35] 79.35 89.50 0.4916[45] 2019 - 05 - 01 00：00：00[60] 78.71 89.85 0.5072F3-净[33] 76.17 88.39 0.5196多属性[55] 76.81 90.32 0.5291RECCE（我们的）81.20 91.33 0.4341表2. DFDC [9]数据集的测试内比较。对真实样本的分布进行建模，并促进了全面的差异信息。因此，我们的方法显著优于对手。性能的提高也可以在 Celeb-DF 和 realis 上观察到。tic 数据集WildDeepfake，而在后者中，我们的方法通过将Acc提高0.39%和AUC提高1.31%而达到了最先进的结果。上述结果证明了所提出的RECCE框架的有效性方法WDF Celeb-DF DFDCAUC↑ EER↓ AUC↑ EER↓ AUC↑EER ↓[35]第三十五话40.6561.8041.7363.61 40.58[45]第二次世界大战65.6338.5466.01 39.05[60] 2016年12月31日65.2938.9064.78 40.23F3-净收入[33] 57.10 45.1261.5142.0364.60 39.84多属性[55] 59.74 43.7367.0237.9068.01 37.17RECCE（我们的） 64.31四十点五十三68.7135.7369.06 36.08表3.在FF++上训练的AUC（%）和EER（%）交叉检验[35]。方法训练DF F2F FS NT交叉平均值此外，我们评估我们的方法上的可扩展性-正在使用DFDC数据集。由于现有的艺术报道很少，[22]第二十二话多属性[55]FS75.9082.3354.64 98.3761.6598.82 54.7960.0966.26在此基础上，我们重新实现了几个最先进的RECCE（我们的）82.39 64.4498.82 56.7067.84公平比较的方法，包括RFM [45]，添加-Net [60]、F3-Net [33]和MultiAtt [55]。如Ta所示[22]第二十二话多属性[55]NT79.0974.5674.21 53.9988.5480.61 60.9093.3469.1072.02表2，我们的方法优于其他方法0.37%和1.01%的Acc和AUC，而LogLoss de-RECCE（我们的）78.83 80.89 63.7093.6374.470.0575折。这些结果验证了我们所提出的方法在复杂场景下的有效性。交叉测试为了评估我们的方法对未知伪造品的泛化能力，我们通过在不同数据集上进行训练和测试来进行跨数据集实验。具体来说，我们在FF++ c40上训练模型，然后分别在WildeDeepfake、Celeb-DF和DFDC上测试它们结果示于表3中。从表中，我们观察到，RECCE通常优于所有列出的方法在看不见的测试数据，往往是一个很大的保证金。例如，当在WildDeepfake数据集上进行测试时，大多数先前方法的AUC得分下降到60%左右不同的是，RECCE达到64.31%的AUC，超过MultiAtt [55] 4.57%。性能主要得益于所提出的RECCE框架，该框架只建模真实人脸的分布，而MGR和RGA引导模型学习真实人脸和假人脸之间的本质差异。与现有方法中的过拟合方法不同，我们的方法将所有未知的伪造类型视为离群值，以实现更好的泛化能力。我们进一步进行了细粒度的交叉测试，通过训练特定的操作技术和测试FF++ c40中列出我们将我们的方法与专注于特定伪造模式的方法进行了比较，Freq-SCL [22]和MultiAtt [55]，见表4。我们的方法在看不见的伪造类型上一般优于其他方法。这些结果验证了挖掘真实人脸的共同特征来区分具有未知模式的伪造品表4.不同操作技术的AUC（%）交叉检验。灰色背景表示数据集内结果。重建可视化。为了直观地理解重建学习，我们将重建网络的输出和原始输入之间的差异可视化，如图4所示。我们可以看到，真实的人脸可以很好地重建，几乎没有模糊，而伪造的区域的假的不能恢复。差异掩模进一步显示真实和伪造面部之间的差异，指示伪造区域的可能痕迹，即使我们的方法仅在图像级监督下训练以NeuralTextures（NT）方法为例，该方法仅对嘴部区域进行操作，相应样本的差异掩模恰好在嘴部区域周围显示较大的值。此外，对于真实的WildDeepfake数据集，尽管来源和管理方法仍然未知，但我们的方法仍然可以指示可能伪造的区域。可视化实验验证了该框架能够有效地捕捉真实人脸和虚假人脸之间的本质差异。4.3. 消融研究拟定组件的有效性。在这一部分中，我们对我们框架中提出的不同组件进行了消融研究，以评估其有效性。具体而言，我们开发了以下变体：（a）Freq-SCL [22]98.91 58.90 66.87 63.6163.13多属性[55]DF 99.5166.4166.0166.58RECCE（我们的）99.6570.66 74.2967.3470.76[22]第二十二话67.5593.06 55.3566.6663.19多属性[55]F2f73.0497.9665.1071.8870.014121√LLLLFF++实FF++ DF FF++ F2F FF++ FS FF++ NT WDF实WDF假图4.所提出的方法在FaceForensics++ [35]数据集和WildDeepfake [60]数据集上的重建可视化。第一行显示输入图像。第二行和第三行分别示出重构结果和像素级差异ID Rec. MGR RGA Acc（%）AUC（%）(a)77.25 86.76(b)19.19 19.61(c)中国81.48 91.10(d)美国82.15 89.71RECCE中国83.25 92.02（a）（b）（c）（d）FF++真FF++假CDF真CDF假表5.我们的方法中所提出的组件在WildDeepfake [60]数据集上的有效性。IDLrLmAcc（%） AUC（%）（a）真品赝品（b）第（1）款房–81.3690.49架侦察房√83.2592.02表6.在我们的方法中提出的约束在WildDeepfake [60]数据集上的有效性。遵循经典图像分类流水线的基线模型，即，Xception[35]，（b）配备有所提出的重建学习方案的基线模型，（c）没有MGR的所提出的方法，以及（d）没有RGA的所提出的方法定量结果列于表5中。比较变体（a）和（b），我们可以看到，所提出的重建学习相对于基线方法带来3.94%的Acc和2.85%的AUC增益单独使用具有MGR模块的变体（b），该MGR模块利用解码器捕获的综合表示来增强分类侧的学习，所得变体（c）获得大幅度的性能增益，即，AUC为1.49%。从变体（b）和（d）中，我们观察到当添加RGA模块时Acc和AUC度量两者的改进，该RGA模块在编码器的输出上突出显示可能伪造的区域。当将所有拟定组分组合时达到最佳性能，Acc和AUC分别为83.25%和92.02%。拟议限制的有效性。为了研究在侦察中使用的拟议约束的有效性，图5. t-sne [43]嵌入基线方法和RECCE中编码的特征的可视化。最好用彩色观看结构网络，我们设计了我们的方法的两个变体(a) 等式（2）中的重建损失r是针对真实和虚假面部两者计算的，以及（b）我们的方法没有等式（3）中的度量学习损失m 结果示于表6中。比较变体（a）和我们的方法，我们观察到在真实和假图像上训练重建网络阻碍了模型学习真实图像的统一表示关于变式(b) 和我们的方法，我们发现m带来了1.53%的AUC增益。这主要是因为m使真实图像更接近，并在嵌入空间中推开真实和虚假图像。这些结果表明，所提出的约束是有利于差异挖掘过程。4.4. 实验分析特征分布分析。在本节中，我们将基线的学习特征分布可视化[35]，并使用t-sne [43]在FF++ c40上训练我们的方法我们的方法的特征是从最后一个全连接层之前的层中提取的，结果如图5所示。特别地，我们从FF++中随机抽样5000个图像用于内部测试设置（即，(a)和（b）），并且另外从Celeb-DF中选择5000个样本用于交叉测试设置（即，(c)和（d））。从该图中，我们观察到基线缺乏对foreground的理解，因为真实图像和假图像的集群是可识别的。相比之下，我们的方法将真实人脸嵌入到相对紧凑的特征空间中，无论是已知的内部测试交叉测试基线架侦察基线架侦察4122FF++RealFF++ DFF F ++ F2FFF++ FSFF++ NTWDF RealWDF假FF++ RealFF++ DFFF++ F2FF F ++ FSFF++NTWDF RealWDF假输入小规模中档大规模输入XCEP。我们图7. Grad-CAM [38]可视化。图6. 的解码器中特征图的可视化不同输出尺度下的重构网络。或未知数据，这表明我们的模型捕捉到了真实面孔的常见表征。此外，真实样本和伪造样本的聚类被明显的边缘分开，这揭示了真实人脸和伪造人脸之间的差异。视觉结果，从另一个角度来看，验证了我们的方法的有效性，专注于真正的面孔，以捕捉面孔的差异解码器中的多尺度特征分析。在本节中，我们将解码器不同层的特征图可视化。结果示于图6中。从图中，我们观察到不同尺度的解码器特征以不同强度激活。一方面，大规模特征图上的伪造线索更全面、更丰富，但也包含一些无关的背景噪声。另一方面，在小规模的特征地图的伪造线索是细粒度的，但不完整的。因此，结合多尺度信息有利于模型在避免无关噪声干扰的同时兼顾实质性差异。分类决策分析。为了更好地理解我们方法的决策机制，我们在图7中提供了FF++上的Grad-CAM [38]可视化。我们观察到基线方法主要集中在图像的中心区域进行分类，而不考虑面部真实性，缺乏对不同面部的全面理解因此，我们的方法为真实和虚假的人脸生成可区分的热图，其中突出区域在伪造技术中有所不同，即使它只使用二进制标签进行训练。例如，DeepFakes（DF）和FaceSwap（FS）的热图都集中在主要的面部区域，而NeuralTextures（NT）的热图则集中在嘴巴区域。研究结果从决策角度解释了RECCE的有效性。稳健性分析。考虑到社交媒体上图像处理的普遍性，我们研究了[15，17]提出的几种扰动下的性能，即，图像压缩、高斯模糊、对比度抖动、饱和抖动和像素化。我们在表7中示出了结果。我们方法压缩模糊对比度饱和像素 Avg.Xception [35]86.0178.2981.9084.9666.2479.48RFM [45]83.7475.3479.7782.5971.2578.54[60]第六十话83.3479.6684.4685.1364.3379.38F3-Net [33]86.7178.9986.5387.6773.2382.63多属性[55]89.6480.9889.3090.3779.4485.95RECCE（我们的）89.6587.2991.1991.7483.8888.75表7. Wild-Deepfake [60]数据集上AUC（%）的耐用性评价。“平均”表示平均得分。可以看出，RECCE比现有方法对所列扰动更鲁棒。值得注意的是，当遇到高斯模糊（破坏频率统计）和像素化（丢失纹理信息）时，以前的方法经历了明显的性能下降退化表明，强调训练数据中呈现的特定伪造模式容易受到常见扰动的影响。然而，我们的方法优于他们的一个很大的保证金，即，高斯模糊为6.31%，像素化为4.44%。平均而言，我们的模型比最先进的MultiAtt [55]获得了2.80%的AUC增益，这证明了我们提出的方法的稳健性。5. 结论在本文中，我们提出了一个新的视角，人脸伪造检测，重点是共同的紧凑表示的真实面孔，学习真实和伪造的面孔之间的差异创新的多尺度图推理模块将编码器输出和解码器特征以多尺度方式结合到二分图中，用于对伪造线索进行推理。同时引入重建引导注意模块，引导模型关注可能的伪造痕迹。大量的实验和详细的可视化验证了广泛使用的基准数据集上的鲁棒性和泛化能力。鸣谢。本课题得到了国家自然科学基金（61906119，U19 B2035）、上海市科技重大专项（2021 SHZDZX0102）和CCF-腾讯开放研究基金的资助。4123引用[1] Darius Afchar 、 Vincent Nozick 、 Junichi Yamagishi 和Isao Echizen。Mesonet：一个紧凑的面部视频伪造检测网络。在WIFS，2018年。[2] 放大图片创作者：Peter N. Belhumeur和Shree K.纳亚尔Face swapping：自动替换照片中的人脸。ACM事务处理图表，27（3）：39，2008.[3] 曹申浩、邹秦、毛秀清、叶登潘、王中原。度量学习用于抗压缩伪造检测。在ACM MM，2021年。[4] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A.埃夫罗斯大家跳舞吧在ICCV，2019年。[5] Ol i vierChapelle ， BernhardScho¨ l k opf ， andAl exanderZi e n. 半监督学习IEEE Trans.Neural Networks，20（3）：542，2009。[6] 沈晨，姚太平，陈扬，丁守宏，李吉林，姬荣荣。局部关系学习在人脸伪造检测中的应用。在AAAI，2021年。[7] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在CVPR，2017年。[8] Hao Dang，Feng Liu，Joel Stehouwer，Xiaoming Liu，and Anil K.贾恩。数字人脸篡改的检测。在CVPR，2020年。[9] Brian Dolhansky ， Joanna Bitton ， Ben Pflaum ， JikuoLu，Russ Howes，Menglin Wang，and Cristian CantonFerrer.DeepFake Detection Challenge（DFDC）数据集arXiv预印本arXiv：2006.07397，2020。[10] Mengnan Du，Shiva K.潘蒂亚拉、李月宁、夏虎。使用局部感知自动编码器进行可推广的深度伪造检测2020年的CICM[11] Yue Gao，Fangyun Wei，Jianmin Bao，Shuyang Gu，Dong Chen，Fang Wen，and Zhouhui Lian.高保真和任意的面部编辑。在CVPR，2021年。[12] 古七七，沈沉，太平瑶，杨晨，丁守宏，冉毅。通过渐进增强学习利用细粒度人脸伪造在AAAI，2022年。[13] 顾志豪、陈扬、姚太平、丁守红、李吉林、黄飞跃、马丽庄。用于Deepfake视频检测的时空干扰学习在ACMMM，2021年。[14] 顾志豪、陈扬、姚太平、丁守宏、李吉林、马丽庄。深入研究本地：Deepfake视频检测的动态不一致性学习。在AAAI，2022年。[15] Alexandros Haliassos，Konstantinos Rugioukas，StavrosPetridis，and Maja Pantic.嘴唇在CVPR，2021年。[16] Zhizhong Han ， Xiyang Wang ， Yu-Shen Liu ， andMatthias Zwicker.多角度点云建模：通过联合自重构和半对半预测，从多个角度对3D点云进行无监督特征学习。在ICCV，2019年。[17] Liming Jiang，Ren Li，Wayne Wu ，Chen Qian，andChen Change Loy. Deeperforensics-1.0：用于真实世界人脸伪造检测的大规模数据集。在CVPR，2020年。[18] Yuming Jiang，Ziqi Huang，Xingang Pan，Chen ChangeLoy，and Ziwei Liu.对话编辑：通过对话框进行精细的面部编辑。ICCV，2021。[19] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议[20] Iryna Korshunova ， Wenzhe Shi ， Joni Dambre ， andLucas Theis.使用卷积神经网络的快速换脸。InICCV，2017.[21] Akash Kumar，Arnav Bhavsar，and Rajesh Verma.使用度量学习检测深度伪造。在生物识别和法医学国际研讨会，2020年。[22] Jiaming Li ， Hongtao Xie ， Jiahong Li ， ZhongyuanWang，and Yongdong Zhang.基于单中心损失监督的频率感知鉴别特征学习人脸伪造检测。在CVPR，2021年。[23] Lingzhi Li ， Jianmin Bao ， Ting Zhang ， Hao Yang ，Dong Chen，Fang Wen，and Baining Guo.面部X射线更一般的面部伪造检测。在CVPR，2020年。[24] 李悦尊，杨欣，孙璞，齐宏刚，吕四维。Celeb-DF：用于deepfake取证的大规模挑战数据集。在CVPR，2020年。[25] Honggu Liu ， Xiaodan Li ， Wenbo Zhou ， YuefengChen ， Yuan He ， Hui Xue ， Weiming Zhang ， andNenghai Yu.空间相位浅层学习：重新思考频域人脸伪造检测在CVPR，2021年。[26] Xinhai Liu，Xinchen Liu，Zhizhong Han，and Yu-ShenLiu. Spu-n

下载后可阅读完整内容，剩余1页未读，立即下载