二阶局部异常用于通用面部伪造检测

162 浏览量更新于2023-10-26 收藏 13.12MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

202700学习二阶局部异常以进行通用面部伪造检测0贾维飞 1 * 戴云舒 1 * 于培鹏 2 沈天润 3 夏志华 2, 1 † 翁健 201. 南京信息科技大学 2. 暨南大学 3. 南京大学0{fjw826244895, daiyunshu0102, ypp865, xia zhihua}@163.com0tiruns@yeah.net cryptjweng@gmail.com0摘要0在这项工作中，我们提出了一种新的方法来提高基于CNN的面部伪造检测器的泛化能力。我们的方法考虑了面部伪造算法中普遍混合操作引起的伪造面部的特征异常。具体而言，我们提出了一个弱监督的二阶局部异常（SOLA）学习模块，使用深度特征图在局部区域挖掘异常。SOLA首先通过不同的方向和距离分解局部特征的邻域，然后计算第一和第二阶局部异常图，为分类器提供更普遍的伪造迹象。我们还提出了一个局部增强模块（LEM），以改善真实和伪造区域的局部特征之间的区分度，从而确保计算异常的准确性。此外，引入了改进的自适应空间丰富模型（ASRM），通过可学习的高通滤波器帮助挖掘细微的噪声特征。我们的方法使用简单的ResNet18骨干网络，在没有像素级注释或外部合成数据的情况下，在评估未知伪造时实现了与最先进的方法相媲美的性能。01. 引言0近年来，面部合成技术的进展使得复杂的虚假面部内容的低成本生产成为可能，这引发了严重的信任问题。人们对这种面部伪造技术的恶意使用越来越担忧。为了解决这个问题，已经开发了许多方法来检测面部伪造，使用不同的迹象，如明显的视觉伪影[24，29，39]，频域线索[10，12，20，33]，时间异常[3，28，37，38，47]，或多模态冲突[1，5，30]。但是这些迹象并不是那么具有普适性，检测器在遇到未知的伪造时可能会失败。因此，最近的研究正在寻找0* 这些作者对本文的贡献相同。† 通讯作者。0局部特征一阶局部异常0二阶局部异常0异常预测0异常预测0图1.二阶局部异常（SOLA）学习模块将邻域分解并预测第一和第二阶异常图。0更普遍的伪造迹象，以提高泛化能力。所有的面部伪造算法，无论是面部交换还是再现，都需要将伪造区域混合到原始背景中。这两个部分不可避免地具有不同的特征，特别是在高频区域，导致伪造图像中的异常。基于这样的观察，一些方法被提出来捕捉特征的不一致性[4，22，52]。[52]提出了一种基于补丁一致性学习的方法，用于挖掘伪造面部图像中的异常，并成功地推广到未知的伪造。然而，这些方法将具有不同距离的区域视为相等，这违反了自然图像具有不同短距离和长距离依赖性的事实。此外，它们通常需要像素级注释或外部合成数据。虽然可以在实验室环境中创建像素级注释，但对它们的需求限制了在现实世界中传输的伪造面部的使用。在这项工作中，我们专注于从局部异常的角度捕捉伪造迹象。具体而言，给定一张面部图像，我们使用CNN骨干网络提取其深度特征，并通过不同的方向和距离将局部特征的邻域分为4组，从而建模更精细的局部异常并生成4组异常图。然后再次分解这些异常图以计算二阶异常，从而提供更普遍的伪造迹象。202710对一阶异常具有广泛的响应范围。概述如图1所示，更多细节请参见第3.3节。我们的方法既不需要像素级注释，也不需要外部数据，但在使用小型骨干网络的情况下实现了很好的跨域性能。我们的贡献可以总结为四个方面：•我们提出了一个二阶局部异常（SOLA）学习模块，用于隔离伪造面部。SOLA以细粒度的方式计算局部区域的异常，并通过计算二阶异常放大伪造痕迹。使用异常特征的分类器在未见过的伪造上具有显著的泛化能力。0•我们提出了一个局部增强模块（LEM），可以插入到骨干的不同阶段，以确保在深度局部特征中真实区域和伪造区0•我们设计了一种自适应空间丰富模型（ASRM），它继承了取证中SRM滤波器的高通特性，并能够根据数据自适0•我们的方法既不需要像素级注释，也不需要外部合成数据来提高面部伪造检测器的泛化能力。02. 相关工作0面部伪造可以看作是AI与AI之间的博弈，因为大多数检测技术都是基于深度学习的。尽管这些方法在域内评估下表现良好，但在未见过的伪造上往往会出现性能下降。对未见过的伪造的泛化能力。许多努力被做出来改善检测器的泛化能力，例如结合辅助定位任务来引导网络更多地关注伪造区域[8,22]，通过度量学习改进交叉熵损失以实现更好的类别区分[20, 28]，以及引入域自适应来减轻在单一域上的过拟合[35,41]。最近，使用频率线索[26,33]或结合不同域的特征也表现出良好的性能[27,28]在跨域评估中。在[20]中，一个分支处理RGB输入，而另一个使用DCT变换从不同频带提取高频特征。两个分支的输出被融合成更广义的伪造特征。许多工作类似地融合来自RGB和频率域的特征以获得更一般化的表示[4, 15, 17,27]。然而，它们提取高频特征的方法不能自适应地适应数据以捕捉最有区分性的特征。基于异常的面部伪造检测。一些工作将异常检测的思想引入图像取证[6,11]以及面部伪造检测[16,18]中，并取得了良好的泛化能力。例如，吴等人[48]0计算图像的局部特征与主导特征之间的差异，将伪造定位转化为局部异常检测。胡等人[16]提出了一种动态不一致感知网络，用于捕捉相邻帧的全局不一致性和帧内关键区域的局部不一致性。最近的方法同样利用面部伪造检测的补丁级异常。它们主要基于这样的观察：面部伪造算法总是将伪造区域与原始面部上下文混合在一起，导致一个图像内的像素统计属性异常[52]。像素统计属性的一个例子是相机噪声[7]，它是在成像过程中留下的高频特征，并已被用于检测图像完整性[44]。[52]和[4]提出将深度特征图分成补丁，并计算补丁之间的相似性，形成更广义的模式，指示图像完整性。它们在域内和跨域评估下都取得了很好的性能。与探索全局一致性的这些方法不同，我们的方法探索更精细的局部异常。03. 方法0我们的方法的概述如图2所示。给定一个输入人脸图像，它被送入RGB分支，以及一个并行的噪声分支，其第一层是我们的自适应空间丰富模型（ASRM）。这两个分支提取的中间特征通过每个块后的双通道注意力模块（DCAM）进行融合。然后，局部增强模块（LEM）将融合的特征图划分为补丁，并增强每个局部特征的类别属性。最后，二阶局部异常（SOLA）学习模块计算一阶和二阶的细粒度局部异常，并预测输入是否被伪造。03.1. 噪声分支中的自适应SRM0动机。仅从RGB数据中学习无法捕捉到对图像取证至关重要的高频特征。为了解决这个问题，SRM（空间丰富模型）[13]已经广泛应用于预处理[15]和层初始化[34]，以提取高频噪声。但是，如果用于预处理，SRM中的手工滤波器无法自适应地更新以适应数据。此外，如果用于初始化，反向传播将调整滤波器并破坏其高通特性。在这项工作中，我们通过引入约束来解决这个困境，使SRM能够自适应地更新，同时保持其高频学习能力。ASRM的设计。我们从原始的SRM开始，按照[13]的方法进行。SRM通过高通滤波器对噪声残差R i,j 进行建模:0R i,j = P(N i,j) - I i,j, (1)DCAMLEMASRMResNet18Block1ResNet18Block2ResNet18Block3ResNet18Block4ResNet18Block1ResNet18Block2ResNet18Block3DCAMLEMDCAMLEMRGB StreamNoise StreamRefinedFeatureCDual Channel Attention ModuleLocal Enhancement ModuleCWHWCH12812864646412832322561616512128128646464128323225616162561212256GAPReLU1×1 ConvSigmoid1×1 ConvGAPReLU1×1 ConvSigmoid1×1 Conv1×1 ConvReLUBNC25625632562563161616161414 641212 1H×W×C H×W×C H×W×C 000000010000-20000100000000 0 0 0 00000-12-102-420-12-100000-12-2212-68-62-28-128-22-68-62-12-221=2412�w0,0 = −1,�i̸=0,j̸=0 wi,j = 1,(4)where i, j denotes the index of elements in kernels and(0, 0) is the central one. We execute this constraint aftereach backpropagation.ASRM is the first layer used for the preprocessing ofthe noise branch. Different from using fixed SRM kernels,ASRM enables the kernels to adaptively update during thebackpropagation and extract discriminative noise featuresthat can not be directly learned from RGB data.The noise features extracted by ASRM provide subtlehigh frequency cues, but different channels of the featuremaps have different contributions to generalization.Be-sides, different channels in the fused features are of differentimportance in forgery representations. Thus, we proposethe Dual Channel Attention Module (DCAM) to fuse theintermediate features of RGB and noise branches. DCAMuses channel attention [46] twice to emphasize channels ofmore importance before and after the fusion.3.2. Local Enhancement ModuleSOLA calculates local anomalies on such an assumption:each pixel in the feature maps is a local feature vector asso-ciated with a corresponding local region whose size is theratio of input size to feature size. However, a feature vectoris associated with a larger region due to the expansion ofreceptive field after several layers. The feature vectors are202720学习噪声0输入人脸0异常损失0BCE损失0一阶0异常图0二阶异常图0二阶局部0异常学习模块0图2. 提出方法的概述（使用ResNet18骨干）。0其中N i,j是中心像素I i,j的邻域，P(∙)是基于N i,j对Ii,j的预测器。然后通过q对残差进行量化，然后进行四舍五入和截断:0R i,j ← trun(round(R i,j0q)) . (2)0我们可以看到，P(∙)可以通过标准卷积来实现。根据[2]，设I*w表示对输入图像I进行标准卷积，w表示卷积核，o表示中心值为1，其他值为0的冲激滤波器，我们有:0h = I * w = I * ˆw - I = I * (ˆw - o), (3)0其中ˆw的中心值为0。然后w的中心值为-1，I *w等于方程1。我们选择SRM中的30个滤波器中的3个，因为经过实验证明它们已经足够有效[53]。这些滤波器在RGB图像中重复3次，如图3所示。为了让它们的中心值为-1，我们分别用2、4和12进行量化。我们可以看到，在量化后，0输入人脸0ASRM卷积（初始）噪声图像0卷积0图3. 自适应空间丰富模型（ASRM）卷积。0剩余元素的总和为1，完全符合方程3的要求。为了在网络训练期间使滤波器可学习，同时保持其在高通滤波中的特殊性，我们将它们的中心元素重置为-1，并将其余元素归一化，以强制它们的总和为1:splitwhC𝜃𝑓𝑔hwcreshapereshapeconcatWCWCHHchwchwreshapereshapesoftmaxwhC256256Figure 4. The Local Enhancement Module (LEM).thereby affected by information of outer regions and losetheir discrimination in representing local regions. We noticethat some works have been proposed to capture long rangedependencies in images [45,50] with self attention. Follow-ing this idea, we propose the Local Enhancement Module(LEM) to improve the discrimination of local feature vec-tors by assigning them with different weights.Specifically, LEM takes as input the intermediate featuremaps Fl ∈ Rhl×wl×cl where l denotes the hierarchy. Wespatially divide Fl into 16 × 16 non-overlapping patchesplk, k = 1, 2, ..., 256 since size of the final feature maps is16 × 16. plk is transformed using embedding functions θand f to calculate a weight matrix Wlk by:Wlk = softmax(θ(plk)T ⊗ f(plk)).(5)The elements in Wlk indicate the relevance between localfeatures in plk and separate local features by assigning dif-ferent weights, given that local features of forged regionsare more relevant to that of forged regions and vice versa.plk is also transformed by g and then enhanced by:ˆplk = Wlk ⊗ g(plk).(6)As illustrated in Fig.4, LEM concats ˆplk to form the en-hanced feature maps ˆFl which is then multiplied by a learn-able scale parameter λ and added with the input feature.3.3. Second Order Local Anomaly LearningIn this work, we propose the Second Order LocalAnomaly (SOLA) learning module to detect face forgeriesby fine-grained local anomalies. Let Fi,j ∈ RC denotes the(ith, jth) feature vector that corresponds to a local region inthe input image. To obtain more fine-grained representationof local anomalies, SOLA first decomposes the neighbor-hood of Fi,j into horizontal/vertical and nearest/next nearestneighbors by direction and distance respectively. In prac-tice, we only predict the anomalies of upper and left neigh-bors due to the symmetry. Then the first order anomalyMv1,(i,j) = δv1(Fi,j, Fi,j−1),Mv2,(i,j) = δv2(Fi,j, Fi,j−2),Mh1,(i,j) = δh1(Fi,j, Fi−1,j),Mh2,(i,j) = δh2(Fi,j, Fi−2,j),(7)M′v1,(i,j) = ϕv1(Mv1,(i,j), Mv1,(i,j−1)),M′v2,(i,j) = ϕv2(Mv2,(i,j), Mv2,(i,j−2)),M′h1,(i,j) = ϕh1(Mh1,(i,j), Mh1,(i−1,j)),M′h2,(i,j) = ϕh2(Mh2,(i,j), Mh2,(i−2,j)),(8)202730每个 F i,j 的映射由公式 7 预测：0其中 δ ( ∙ ) 是由 1 × 2 或 2 × 1卷积实现的异常预测器（对于下一个最近邻，膨胀 =2，否则为1），v 和 h 表示垂直和水平邻居，1 和 2表示最近和次近邻。δ ( ∙ )中的一个核心只能预测一个异常图，因此我们设置每个 δ ( ∙)包含64个核心，以便它可以生成64个异常图来捕捉多个异常。受到计算二阶导数的拉普拉斯算子的启发，我们提出了二阶局部异常学习来获得对一阶异常的放大响应。为此，SOLA再次对一阶异常图进行局部分解，并通过公式 8计算二阶局部异常图。二阶异常图中的像素响应于一阶异常图中的一个区域，以捕捉更广范围的细粒度异常。0ϕ ( ∙ ) 表示类似于 δ ( ∙ )的二阶异常预测器，但只包含一个单一核心。最后，我们堆叠 ϕ ( ∙ )的4个输出，形成一个4通道的异常图，并将其传递给分类器。分类器只包含一个卷积层，后面是一个全局平均池化层和一个全连接层。03.4. 损失函数0首先给出有监督训练的整体损失函数，其中伪造掩码是可用的，然后ai,j =�1if|AV G(mi,j) − AV G(mi′,j′)| > 0,0else.(9a)a′i,j =�1if|ai,j − ai′,j′| > 0,0else.(9b)LA = βBCE(M∗, ˜M∗) + γhBCE(M′∗, ˜M′∗), (10)total = αLcls + LA,(11)LA =,(12)202740描述使用我们的单侧损失的弱监督训练策略。监督训练。令M ∈ { 0 , 1 } H × W 表示伪造掩码，我们将其分成补丁 mi,j (16 × 16像素在我们的情况下)，我们使用其平均值 AV G( m i,j ) 来表示人脸图像中 (i th, j th)补丁的伪造分数。我们使用硬阈值计算相邻两个补丁的一阶和二阶异常分数，如 (9a) 和 (9b)所示。不失一般性，我们用 (i ′, j ′) 表示 (i, j) 的邻居。0通过对每个 m i,j 迭代 (9a) 和(9b)，我们得到一阶异常图的真实值 ˜ M ∈ { 0 , 1 } h × w× 64（重复64次），以及二阶异常图 ˜ M ′ ∈ { 0 , 1 } h ′× w ′。可以使用像素级二进制交叉熵（BCE）来优化局部异常图：0其中 � ∈ { v 1 , v 2 , h 1 , h 2 } ，β 和 γ是一阶和二阶异常图的权重。我们模型的整体损失为：0L cls 是分类器的BCE损失，α是权重。弱监督训练。虽然SOLA学习模块预测了补丁级别的异常，但我们可以以弱监督的方式进行训练，只有图像级别的标签可用。为此，我们有两个假设：（1）真实人脸的异常图像素应全部为零或接近零。同时，伪造人脸的异常图中应该有一部分非零像素。（2）异常图根据不同的伪造算法而变化，但它们应始终非零。基于这些假设，我们在公式12中引入了单侧损失，只惩罚真实人脸的异常图。这种损失确保了伪造人脸中的多种异常模式，从而提高了泛化能力：0I ∈ 实数0� β ||M � − ˜ M � || 1 � �0+ γ ||M ′ � − ˜ M ′ � || 1 � �� 二阶0其中 ˜ M 和 ˜ M ′ 都是全零。04. 实验04.1. 实验细节0数据集。我们使用了一系列流行的人脸伪造数据集来评估所提出的方法，包括Face-Forensics++ (FF++) [ 36]，Celeb-DF v2 (CD2) [ 25 ]，Deep-0fakeDetection数据集 (DFD) [ 31 ]，和FaceShifter (Fshi) [21]。在FF++中，有1000个原始视频被四个伪造算法伪造：DeepFakes，Face2Face [ 43]，FaceSwap和NeuralTextures [ 42]。如果有的话，所有人脸补丁都根据它们的掩码进行裁剪，否则，我们使用RetinaFace [ 9]来检测人脸并裁剪补丁。为了保留足够的背景，裁剪的补丁的大小设置为掩码或边界框的2.6倍。所有人脸补丁都被调整为256×256大小，并通过除以255进行归一化到[0,1]。评估指标。我们报告帧级AUC(接收器操作特性曲线下的面积)，与大多数先前的工作一样。我们用于比较的其他方法的实验结果直接引用。实现细节。所有实验都是使用Pytorch [ 32 ]和4个NVIDIA RTX 309024GB进行实现的。骨干使用ImageNet预训练权重进行初始化，并使用Adam优化器 [ 19]进行训练，学习率为1e-3，beta为0.9和0.999，epsilon为1e-8。批量大小为32，训练轮数为50，没有提前停止。0方法骨干 DF F2F FS NT0Xception [ 36 ] Xception 99.38 99.53 99.36 99.50 PBD [ 39] Xception 97.00 95.00 98.00 98.00 面部X射线 [ 22 ] HRNet99.17 99.06 99.20 98.93 S-MIL [ 23 ] Xception 99.84 99.3499.61 98.850SOLA -弱监督 ResNet18 100 99.67 100 99.82 SOLA -监督ResNet18 100 99.56 99.98 99.760表1. 领域内FF++性能。04.2. 领域内评估0我们首先报告了我们的方法在领域内评估下的性能。FF++的结果如表1所示。-弱监督和-监督表示使用不同策略训练的SOLA。先前的方法取得了很好的性能，但我们的方法在平均AUC方面仍然比最好的竞争对手高出约1%。请注意，我们的方法只使用了相对较小的骨干ResNet18，而大多数其他方法使用了像Xception这样的大骨干。总体而言，弱监督的SOLA表现稍好，证明单侧损失使SOLA能够精确捕捉不同的异常。04.3. 跨领域评估0在本节中，我们将重点关注更具挑战性的跨领域评估，以探索我们的方法在未见过的伪造上的性能。表2显示了在FF++上进行的跨领域评估的结果。在这里，模型仅在一个数据集上进行训练，并在所有四个数据集上进行评估。尽管Xception在领域内评估中达到了99.42%的平均AUC，但它无法推广到Xception [36]XceptionNT93.0984.8247.9899.5081.35Face X-ray [22]HRNet99.1498.4370.5698.9391.77SOLA -weakly supResNet1899.9594.8357.3299.8287.97SOLA -supResNet1899.6497.6990.2099.7696.82Xception [36]XceptionFF++72.00PBD [39]XceptionFF++57.80FWA [24]ResNet152FF++65.50Face X-ray [22]HRNetFF++92.80LipForensics [14]ResNet18FF++97.10SOLA -weakly supResNet18FF++97.27SOLA -supResNet18FF++98.72SOLA -weakly supDF(c23)72.47SOLA -supDF(c23)76.02202750模型骨干训练集测试集平均 DF F2F FS NT099.38 75.05 49.13 80.39 75.99 面部X射线 [ 22 ] HRNet 99.17 94.14 75.34 93.85 90.63 SOLA -弱监督 ResNet18100 97.29 63.59 98.45 89.83 SOLA -监督 ResNet18 100 96.95 69.72 98.48 91.28087.56 99.53 65.23 65.90 79.56 面部X射线 [ 22 ] HRNet 98.52 99.06 72.69 91.49 90.44 SOLA -弱监督 ResNet1899.61 99.67 84.24 97.48 95.25 SOLA -监督 ResNet18 99.73 99.56 93.50 96.02 97.20070.12 61.70 99.36 68.71 74.97 面部X射线 [ 22 ] HRNet 93.77 92.29 99.20 86.63 92.97 SOLA -弱监督 ResNet1893.18 97.59 100 94.93 96.43 SOLA -监督 ResNet18 99.11 98.13 99.98 92.07 97.320表2. FF++上的跨域评估结果。0其他伪造方法的性能下降得很厉害。与此同时，Face x-ray[ 22 ]的设计目的是检测混合边界，而不是特定的伪造算法引起的特定伪迹，并在泛化方面取得了显著进展。我们可以看到，弱监督SOLA方法的性能接近于Face x-ray。Facex-ray需要像素级的伪造掩码来定位边界并训练他们的模型，但我们的方法只使用图像级别的标签就能显著提高泛化能力。在像素级标注的帮助下，有监督SOLA方法在跨域评估的平均AUC方面超过了所有其他方法。有监督SOLA方法在FF++上的整体性能超过了Xception和Facex-ray分别高出17.69%和4.21%。0模型骨干网络训练集测试集0表3.在FaceShifter上的跨域评估结果（在FF++上训练）。我们的方法在性能上优于最先进的方法，并且在只使用一个数据集时也具有竞争力。0在更先进的人脸伪造算法FaceShifter（Fshi）上进行了跨域评估的结果如表3所示。与其他工作一样，我们在FF++上训练了我们的模型。0模型训练集测试集0F 3 Net [ 33 ] FF++(c23) 65.17 FWA [ 24 ] 自制57.32 MADD [ 51 ] FF++(c23) 67.44 MTD-Net[ 49 ] FF++(c23) 70.12 Two Branch [ 28 ]FF++(c40) 73.41 F3Net [ 20 ] FF++(c23) 65.20LRL [ 4 ] FF++(c23) 78.26 GFF [ 27 ] FF++(c23)65.20 MADD [ 51 ] FF++(c23) 67.44 SPSL [ 26] FF++(c23) 76.88 LipFor [ 14 ] FF++(c23)82.400表4.在CD2上的跨域评估结果。我们只使用DF-c23训练的方法超过了大多数方法。0并通过Fshi进行评估。弱监督和有监督的SOLA方法都超过了最先进的方法，分别比AUC高出0.17%和1.62%。除了使用两种监督方式进行评估外，我们还评估了只使用一个数据集训练的弱监督SOLA方法。尽管弱监督SOLA方法在只使用一个数据集进行训练时性能略低于有监督SOLA方法，但它们通常仍优于大多数最近的方法。这些结果表明，伪造人脸中的局部异常痕迹是普遍存在的，并且可以推广到未见过的伪造情况。SNTXception [36]CD287.6975.1754.1972.89SOLA -weakly sup85.7785.7286.7885.64Xception [36]DFD94.7976.9647.1384.91SOLA -weakly sup95.5185.5160.8184.01202760在CD2上的跨域评估比较结果如表4所示。请注意，比较的方法是使用不同数据集训练的，因此我们只提供参考结果。大多数方法使用FF++的四个数据集以获得在CD2上的良好泛化能力。然而，只使用压缩的DF数据集进行训练的弱监督SOLA方法获得了72.47%的AUC，超过了大多数最先进的竞争方法。有监督SOLA方法进一步将结果提高到76.02%，比类似融合RGB和频率特征的Two-Branch [ 28]高出3.55%。0模型训练集测试集0表5.在CD2和DFD上训练，对DF、F2F、FS和NT进行跨域评估。0表5显示了我们的方法在CD2和DFD上训练并在FF++上测试的跨域结果。在这里，由于两个数据集的真实伪造掩码都不可用，因此SOLA只能在没有监督的情况下进行训练。当在CD2和DFD上训练时，总体AUC分别为85.98%和81.46%，超过Xception分别13.49%和5.57%，证明我们的方法即使只有图像级注释，也能在多个数据集上很好地泛化。0真实 DF F2F NT0ResNet18提出的0图5.不同伪造人脸的伪造类别的Grad-CAM[40]。我们可以看到，提出的SOLA可以对各种伪造作出响应，而普通的ResNet18则不能。0为了探索我们的方法在遇到未见过的伪造时关注哪个区域，我们使用Grad-CAM [40]生成热图，如图5所示。暖色表示0标记了对伪造预测有强烈响应的区域。在这里，ResNet18和我们的方法都是在DF上训练的。显然，它们都能很好地集中于DF创建的人脸的伪造区域，并且对真实人脸几乎没有响应。然而，我们的方法不仅更全面地捕捉了DF上的伪造区域，而且对于未见过的伪造也有响应，而ResNet18则没有。我们可以看到ResNet18无法捕捉到F2F和NT上的伪造区域，因此它对F2F和NT的响应与对真实人脸的响应相同。这与深度学习模型在跨域评估中的弱表现一致，并揭示了我们的方法在未见过的伪造上的泛化能力。04.4.消融研究0ASRM的效果。到目前为止，我们一直在使用提出的ASRM训练我们的方法。在本节中，我们通过替换它为几个变体来证明其有效性。表6显示了噪声分支中不同噪声提取策略的性能：-无噪声表示没有噪声分支的SOLA，-srm和-lsrm表示使用固定的SRM滤波器和可学习的SRM滤波器的SOLA（使用滤波器作为第一层的初始化，没有任何约束）。所有变体都是在CD2和DFD上进行训练，没有像素级注释。结果表明，噪声分支有效地提高了SOLA在DFD上的性能，分别提高了16.5%、16.68%和16.67%。0模型 CD2 DFD0SOLA -无噪声 98.15 83.31 SOLA -srm73.05 99.81 SOLA -lsrm 94.67 99.99SOLA -asrm 98.70 99.980表6.不同SRM变体的比较结果。0图6显示了标准SRM、LSRM和ASRM在训练时期中的所有三个通道的输出。输入的人脸与图3中的相同。尽管标准SRM提取了高频噪声，但它并没有专注于伪造区域。与此同时，LSRM在训练过程中失去了其高通特性，并且无法提取噪声特征。但是我们可以看到ASRM逐渐提取了人脸区域的高频噪声，特别是面部器官，提供了无法直接从CNN中学习到的区分性线索。LEM的效果。为了确认LEM的效果，我们使用不同的ASRM和LEM组合训练了弱监督SOLA。如表7所示，这些模型在DF上进行训练，并在DF、FShi和DFD上进行评估。一般来说，ASRM和LEM都可以提高整体性能，而ASRM对泛化性能的贡献更大，并将Fshi和DFD上的AUC分别提高了8.78%和10.16%。SRMDFD1699.9072.2478.33√1699.8781.0288.49√1699.9873.6480.25√√810080.1791.10√√1610086.5392.61√√3210085.9987.85ResNet1899.8498.1068.33ResNet5099.9099.1474.98ResNet10199.9099.2575.05202770第1个时期0第3个时期第5个时期第7个时期第9个时期第11个时期第13个时期第15个时期0通道1通道2通道30图6.不同SRM变体在训练时期的输出。0补丁尺寸的影响. 在之前的实验中,我们使用ResNet18中的4个块中的3个块和一个额外的池化层来获得大小为 16 × 16 × 256 的特征.为了进一步评估不同补丁尺寸的影响,我们改变了池化尺寸以获得大小为 8 × 8 和 32 × 32的特征. 结果如表 7 所示.尽管具有不同补丁尺寸的SOLA都取得了良好的结果,但补丁尺寸为16的SOLA在所有数据集上实现了最佳性能.这些结果与[ 52 ]中的结论一致.0ASRM LEM 补丁尺寸测试集0表7. 使用不同补丁尺寸和LEM的弱监督SOLA的性能.0骨干网络 FF++(c0) FF++(c23) CD20表8. 不同骨干的比较结果.0骨干网络的影响.我们进一步测试了不同骨干模型对于域内和跨域设置的影响.如表 8 所示, 我们选择了ResNet家族中的其他两个模型,并在FF++和CD2上报告结果0(在FF++(c23)上训练). 尽管使用ResNet50的整体性能,特别是跨域性能要好得多,但使用更深的ResNet101的增益非常有限.04.5. 限制0虽然所提出的方法可以预测不同距离和方向的细粒度局部异常, 但在弱监督设置下,SOLA中不同预测器的多样性并没有得到明确保证.这可能导致局部异常预测器的退化, 并削弱局部异常的表示.05. 结论0在这项工作中,我们从局部异常检测的角度重新审视了人脸伪造检测,并提出了SOLA学习模块来预测一阶和二阶的不同类型的局部异常. 此外,我们设计了一种无需像素级注释的弱监督训练策略来训练SOLA. 我们还引入了一种自适应空间丰富模型,使用可学习的高通滤波器来挖掘微妙的高频痕迹.在多个数据集上的实验证明,我们的方法在使用小型骨干的情况下实现了竞争性能,

下载后可阅读完整内容，剩余1页未读，立即下载