没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于对比学习的多尺度RGB频率线索董丰凯a,邹小强a,1,王家辉b,刘希尧a,刘晓强a,a中南大学计算机科学与工程学院,湖南长沙410083b国家信息中心信息安全部,北京100045阿提奇莱因福奥文章历史记录:2022年12月30日收到2023年2月10日修订2023年3月7日接受2023年3月15日网上发售保留字:人脸伪造检测Deepfake检测对比学习数据增强多模态特征学习A B S T R A C TDeepfake是一种图像和视频人脸操纵方法,可能会造成安全和社会威胁。虽然已经提出了一些相关的数据库和检测模型来检测人脸伪造媒体,但实现用于已知和未知操作的可推广检测器仍然具有挑战性。在这项研究中,提出了一种具有高度泛化能力的新型深度伪造检测模型来解决这个问题。我们采用监督对比学习来增强对未知操作和数据集的泛化能力。此外,本文还设计了一种结合SRM和RGB特征的跨模态数据增强方法,以全面提取检测线索。此外,我们提出了一个多尺度的特征增强模块,以增强纹理和语义信息。大量的实验表明,我们的方法提高了模型的泛化能力,在内部和跨数据集的情况下。版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍最近,随着计算机视觉中基于深度学习的方法的快速发展,人脸操作技术取得了显着进展。使用ZAO(Antoniou,2019)等一些公开访问的工具,人们可以轻松地在表情,身份等方面操纵面部图像。在在线社交平台上传播假面孔可能会危及个人肖像权并引发经济和政治危机(Kietzmann et al., 2020年)。因此,人脸伪造检测在计算机视觉领域受到越来越多的关注。有四种基本技术用于面部伪造(Mirsky和Lee,2021; Tolosana等人,2020):整个面部合成、面部身份交换、面部属性操纵和面部表情操纵。*通讯作者。电子邮件 地址: 214711036@csu.edu.cn(F.Dong),204712180@csu.edu.cn(X.Zou),wangjiahui@sic.gov.cn(J. Wang),lxyzoewx@csu.edu.cn(X. Liu).1第一作者和第二作者对这项工作的贡献相等。他们分享共同第一作者。沙特国王大学负责同行审查与其他三种技术相比,人脸身份交换(也称为deepfake)因其更高的安全 风 险 而 受 到 更 多 关 注 ( Wang 等 人 , 2022;Cellan-Jones ,2019;Citron , 2019 ) 。 专 注 于 此 任 务 的 几 个 数 据 集 , 例 如FaceForensics++(Rossler等人,2019)、西乐布-DF(Li等人,2020)和DFDC(Dolhansky等人,2020年),已经提供给研究人员,许多Deepfake检测方法已经基于这些数据集设计。虽然现有的检测方法对这一任务做出了重大贡献,但大多数都是在以相对均匀的方式制作的数据集内进行训练和测试的。因此,它们基于卷积神经网络的检测器可能由于对数据分布进行过采样而遭受过拟合问题。以这样在一个场景中,经过训练的检测器依赖于特征分布可用数据而不是用于深度伪造检测的伪造伪像线索(Luo等人,2021年)。因此,它们在跨数据集情况下的性能通常会显著退化到数据库内实验中的性能。已经进行了几次尝试来解决这个问题,包括采用具有自我监督学习的数据增强(Fung等人, 2021),利用频率感知特征(Agarwal等人, 2017),合并局部和全局特征(Ju等人, 2022),利用元学习(Li等人, 2018),设计多任务培训(Nguyen et al.,2019),引入注意力地图(Stehouwer等人, 2020年)和设计多分支网络架构(Masihttps://doi.org/10.1016/j.jksuci.2023.03.0051319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comF. Dong,X.Zou,J.Wang等人沙特国王大学学报91例如,2020年)。然而,深度伪造检测方法的泛化能力仍然具有挑战性。在这项研究中,我们从全面的角度设计了一个新的deepfake检测框架,以增强看不见的操作和数据集的通用性。具体来说,我们将deepfake检测任务视为二进制分类问题,并设计了一个对比框架来捕获真实图像和虚假图像之间的对比,以获得更好的泛化能力。此外,我们在我们的数据增强方法中包括SRM算法,以将频率感知特征引入RGB特征空间,该方法利用频率感知和RGB线索的互补检测能力。此外,我们开发了一个多尺度增强模块,以充分利用局部和全局信息,从而在不同尺度上捕获伪造线索。在这项研究中进行了大量的实验,结果表明,所提出的方法的优越性,在不同的数据集的检测性能与国家的最先进的方法,并确认每个模块设计的有效性。本文的其余部分组织如下。第2节分析了以前关于深度伪造检测和对比学习的研究。在第3节中详细描述了所提出的方法。第4节给出了实验结果。最后,第5节提出了研究结论。2. 相关作品2.1. Deepfake检测任务Deepfake检测任务在计算机视觉领域引起了越来越多的关注,因为人脸伪造操作发展迅速。给定包含人脸的图像/视频,该任务试图使用计算机技术自动区分人脸是原始的还是伪造的早期的作品倾向于通过手工制作的特征和相机特征来捕捉伪造线索,这些特征和特征通常用于图像取证(Ahmed等人,2018; Mayer和Stamm,2020;Wu等人,2019年)。然而,这些普通的特性并不适合快速增长和逼真的伪造面孔。随着深度学习的快速发展,越来越多的基于CNN的研究出现了;他们通过在抽象特征空间中检测高维语义线索来 一些研究人员已经尝 试 检 测 局 部 面 部 区 域 中 的不 自 然 面 部 特 征 , 诸 如 嘴 唇 运 动(Bregler等人,1997)和眨眼(Li等人,2018; Jung等人,2020年)。或者,全局不一致的线索(Li等人,2020),如混合边界(Kraetzer等人,2017),标志不匹配(Scherhag等人,2018)和颜色不匹配(McCloskey和Albright,2019)。然而,当面对未知的操作和数据集时,这些方法是低效的由于基于CNN的模型可能会因对现有数据分布进行过采样而出现过拟合问题,因此它们可能会检测到依赖于不相关训练数据集信息的深度伪造伪影最近的研究已经尝试采用频率感知信息(Agarwal等人,2017年;Akhtar和Dasgupta,2019年),以捕捉更多在RGB域中很少发现的伪影。频率线索还可以帮助模型抵抗干扰,例如压缩和噪声。此外,还尝试利用多种线索进行侦破。 在Masi et al. (2020),他们设计了两种流方法,使用频率特征作为网络检测线索的不同输入流。Nguyen等人(2019)使用多任务学习方法来检测被操纵的图像和视频,并定位操纵区域,以提高对可见和不可见攻击的整体性能。虽然这些方法可以带来有前途的改进,他们往往是复杂和昂贵的架构,需要许多参数。此外,它们对看不见的deepfake数据的泛化性能是不期望的。对于deepfake检测任务,概括未知操作和数据集的能力已经成为一个关键的优先事项。具体而言,泛化目标是在已知和未知域中实现出色的性能,以抵御来自不可见操作和数据集的攻击。2.2. 对比学习策略对比学习策略在自我监督的视觉任务中取得了巨大的成功,在通用设计中,该模型包含两个共享权值的子网络,形成连体结构.通过将同一输入的不同视图构造为正负对,模型学习同一类别内的抽象不变性和类别之间的差异。不同的视图通常使用数据扩充来获取在每个Sia- mese分支中,有一个编码器,可选的投影仪和预测器;一旦训练完成,投影仪和预测器将被放弃,只有学习特征分布的编码器将被留给下游任务。在这种策略中,模型倾向于学习数据的特征空间分布,而不是样本之间的具体差异,这导致模型的更好的泛化。然而,早期的体系结构需要大量的训练批和非常高的计算资源。许多研究已经进行,以减少训练成本和模型的复杂性,同时保证同等的性能。实例包括MOCO(He等人, 2020),BYOL(Grill等人,2020)和Simsiam(陈和他,2021)。即使是小批量训练,他们也能获得有竞争力的表现。这些研究证明,暹罗体系结构本身可能是在各种任务中占主导地位的内在原因,并且由于这种体系结构,对比学习网络可以自然地引入归纳偏差以实现建模不变性。一些研究试图将对比学习引入深度伪造检测。Fung et al.(2021)提出了一种基于无监督对比学习方式的deepfake检测模型,以提高跨数据集的泛化能力,并取得了可观的结果,证明该策略可以用于该检测任务。然而,这些方法不利用类别标签信息来确定图像所属的类别近年来,一些有监督的对比学习方法被提出。Khoslaet al.(2020)将自监督批量对比方法扩展到完全监督设置,以有效地利用标签信息。属于同一类的点簇在特征空间中被拉到一起,监督对比学习可以帮助减少类内方差(Bukchin等人, 2021年)。受上述工作的启发,我们试图以监督的方式提取更多的内在伪造线索。我们将两个增广视为正对,并仅部署一致性正则化来学习表示空间中的不变性。我们还增加了一个分类模块,以充分利用标签信息作为增强功能。3. 方法在本节中,我们将介绍我们提出的框架,如图1所示。我们首先展示了基于对比学习策略的检测网络然后详细介绍了所设计的多尺度特征F. Dong,X.Zou,J.Wang等人沙特国王大学学报92¼ð ÞFig. 1.拟议框架概览。流水线主要由数据增强、一致性学习模块和监督分类器组成。我们在编码器中部署了多尺度特征增强模块,如顶部放大的细节所示增强模块和跨模型数据增强方法。Deepfake检测可以被认为是一个二进制分类任务,因为它将伪造图像与真实图像区分开来。因此,对比学习策略适合于一般化的目标然而,基本设计不能确定输入图像所属的类别。因此,我们以监督的方式改革策略,而不是设计一个自监督的文本前任务,因为我们的任务中的训练数据被很好地标记。对于作为输入的样本,我们构造两个增广作为同一输入的两个不同视图,然后应用一致性损失来迫使模型学习不同增广的不变性。此外,我们部署了一个分类器来完成deepfake分类任务。与通常的对比框架不同,我们只通过增强正对之间的一致性来训练我们的模型,而我们的模型中不需要负对。负数据对是不必要的,因为已经证明Sia mese网络本身是对比学习策略有效的主要原因(Chen和He,2021; Grill等人,2020年)。这种设计还可以降低模型的复杂性。另外,由于只有正对,每次处理的数据都属于同一类别,更适用于统一标签的二值分类任务。3.1. 数据视图生成在对比学习策略中,可以学习相同类别的本质分布,因为网络将来自相同输入图像的不同视图的特征表示拉得更近。因此,重要的是构造相同输入的不同视图作为正对。一些常见数据在传统的研究中使用增强方法,例如随机剪切、水平翻转和高斯噪声。在我们的研究中,我们还采用了高频线索作为增强,细节可以在第3.3节中找到。给定一个输入图像x,我们首先产生两个视图x1 1/4t1/2x和x2t2x,其中t1和t2表示从数据增强方法T中随机选择的两种不同的增强方法。 注意,在数据增强T中设计的所有方法都是以一定概率选择并随机组合的,除了独立于RGB增强而部署的高频方法之外,稍后将提供细节3.2. 监督对比学习策略框架如图1所示。它由两个子网工作分支组成,每个分支处理两个视图中的一个.在每个分支中,我们部署一个编码器,投影仪和预测器。此外,我们还设计了一个新的数据增强模块,以获得不同的视图和分类模块的伪造分类任务。给定输入图像x,我们首先通过所提出的数据增强模块产生两个增强x1和x2。X可以是伪图像或Deepfake图像。我们认为这两个扩充是同一输入的两个不同视图,并且这两个视图由一个分支单独处理。例如,在第一分支中,首先,编码器网络学习特征图fout1作为x1的表示,然后,将特征图嵌入到向量中。z1,基于表示向量z1,然后,下面的预测器将预测向量p1,并且我们将p1和来自另一视图分支的嵌入向量z2拉得更近以学习一致性。总之,我们将特征向量p2和z1在表示空间中拉得更近,因为它适用于另一个分支,以形成相互预测机制。通过一个共同的F. Dong,X.Zou,J.Wang等人沙特国王大学学报93CA公司简介4在预测过程中,网络显式地学习不变性卷积层以获得输出特征图f1×1;f3×3;f5×5公司简介公司简介公司简介在同一幅图像的两个不同视图这个过程可以说明如下:f为7×72RH×W×C。然后,我们将这些输出特征图以获得特征图fse2RH×W×C作为输出:fout1¼Encoderx 1;11×13×35×5 7×7z1¼投影仪输出1;输出2p1 1/4预测器在编码器中,我们聘请Xception(Chollet,2017)作为我们的骨干,它广泛用于deepfake检测任务。我们还设计了一个多尺度特征增强模块,更多的细节将在后面提供投影器和预测器都是多层感知器网络(MLP).此外,由于我们将deepfake检测视为一个二元分类任务,并且输入x携带的标签y指的是真/假,因此我们还为deepfake检测任务设计了一个分类模块,以增强对比架构。这使我们能够利用数据集中的类别信息,并在监督下训练我们的网络。我们使用来自编码器的特征图fout1作为分类模块的输入,并将fout1馈送到全连接分类器以获得二进制预 测。因为这两个增强来自同一个原点,所以它们的特征映射应该在同一个表示空间中。我们只在第一个分支上部署分类模块。此外,每个分支的编码器也共享权重3.3. 多尺度特征增强模块我们的设计背后有几个关键的想法首先,伪造操作留下的伪像通常隐藏在浅特征图中存在的纹理信息中(Zhao等人,2021年)。更深层次的特征表示倾向于关注语义信息。其次,我们希望网络能够更好地定位存在deepfake伪影的区域为了实现这一点,有必要对图像的伪造区域之间的长距离和短距离关系进行建模。换句话说,理想情况下,网络应具备将本地和全球特征相结合的能力。为此,我们设计了一个多尺度空间增强块,从不同尺度上寻找线索并保留纹理信息。如图 2.多尺度特征增强模块主要包括空间增强块和通道关注块。该模块应用于编码器主干在空间增强块中,我们部署了四个卷积层,其内核大小分别为1,3,5,7我们考虑从2RH×W×C流中提取的中间特征图作为输入,编码器的低级块,flow,并馈送到多尺度fse 1/4猫fcov;fcov;fcov;fcov此外,由于多尺度空间增强块主要考虑空间维度信息,因此我们使用通道注意块来关联通道上的特征图。注意力机制已被证明在各种检测任务中是有效的,并且通过模仿人类视觉注意力机制来工作,该机制专注于具有不同关注点的视图区域。通道关注块增强了沿深度维度的特征;它可以组合来自所有通道的线索并确定每个通道的优先级输出特征图信道关注块的fC×1×1被获得为:fCA<$MLPGMPGMP认证其中MLP是多层感知器,GAP和GMP分别指全局平均池化和全局最大池化。因此,我们处理不同尺度的特征图,以建立文本特征表示的不同区域之间的关系。信道注意块的输出用于增强来自编码器的高级块的特征图fhigh,其可以概括如下:fmse ¼f高fsefCA其中,表示逐元素加法,表示元素-wise乘法,并且fMSE是最终的增强特征图。3.4. 跨模态数据增强实验证明,在频率特征域中可以发现伪迹线索,利用高频特征可以提高检测模型的泛化能力。受这一观察的启发,我们引入高频线索作为我们的数据增强方法之一,以利用多模态表示下的信息。隐写分析丰富模型(SRM)(Fridrich和Kodovsky,2012)已被广泛用于图像取证任务。它从相邻像素中提取局部噪声特征,以捕获操纵区域和真实区域之间的不一致性。噪声表示关注噪声分布而不是RGB语义内容,这可以被视为对RGB特征域的添加。因此,我们选择一个SRM过滤层,从RGB图像中提取噪声特征图二. 多尺度特征增强模块。F. Dong,X.Zou,J.Wang等人沙特国王大学学报94¼具体来说,我们利用SRM算法作为数据增强方法之一。给定输入RGB图像xrgb,我们将xrgb通过SRM滤波器层以获得高频特征将ffeq和ffeq映射为输入的视图x1和x2以这种方式,增强,然后8:x1;x2= SRM(x1),SRM(x2)第九章:10:f1;f2=编码器(x1),编码器(x2)#投影1 2我们利用噪声特征来为操纵检测提供额外的证据。注意,SRM算法将同时用于两个视图。换句话说,这两个视图总是RGB图像或频率特征图,它们在特征域中保持对齐。此外,我们观察到,部署高频率作为增强的概率p可能会影响模型的最终性能。因此,我们设计了一个评估测试来确定最佳部署概率p。通过这种设置,输入图像通过SRM获得高频表示,通过该高频表示,我们可以在频域中提取伪造特征,迫使模型学习一般分布表示。3.5. 损失函数在对比学习策略中,我们引入了一致性损失,以最小化图像不同视图之间的不变性。在实践中,我们采用余弦相似性损失来惩罚两个表示向量f1和f2之间的距离。通过相互预测的不同增强的f2lco sf1;f2f1。1-f01·f027十一日:z1;z2=投影仪(f1),投影仪(f2)#投影12:p1;p2= Predictor(z1),Predictor(z2)#预测13:十 四 日 :L_consistency = L_cos ( p1;z2 ) / 2 + L_cos(p2;z1)/ 2#对比损失15:目标=分类器(f1)#分类结果16:L_ce =(目标,标签)十七:18:L = L_ce +k L_consistency19:L.backward()#back-propagate20:update(Encoder,Projector,Predictor)#SGDupdate 21:22:Def:Encoder(x = featuremap):23:f低=编码器_低块(x)24:f高=编码器_高块(f低)25:fmse=fhigh+ MSE(flow)#多尺度特征增强模块26:fout= Encoder_lastblock(fmse)27:returnfout二十八日:29:返回目标f0fjjf jj2ð8Þ4. 实验和结果其中f0表示归一化向量f,并且一致性损失定义如下:L稠度:1/4lcosp1;2/2lcosp2;1/2 l cos p 2 ; 2/3 l cos p2; 2/4 l cos p2; 2/3l其中p1;z1和p2;z2是来自不同视图的表示向量。此外,我们在deepfake分类模块中采用了交叉熵损失。用y表示输入图像的二值标签,最终的预测概率y0表示分类结果。监督分类任务的交叉熵损失定义为:Lceylogy01-ylog1-y010综上所述,框架的总损失Ltotal为:总升数:1/4升浓缩度:11升其中k是用于平衡交叉熵损失和一致性损失的超参数,根据我们的经验将其设置为1。网络的伪代码在算法1中。算法1.对比网络训练伪码输入:输入日期x及其标签输出:输出分类结果1:#Encoder:backbone + MSE enhancementmodule 2:# Projector:projection mlp3:#Predictor:predictionmlp 4:5:对于x,dataloader中的label do6:x1;x2= t(x),t(x)#随机增强变换7:如果随机(0,1)P_SRM #部署SRM在这一节中,我们介绍了我们的最佳设置的建议的框架,并提出了各种实验结果来证明我们的方法的有效性。4.1. 实验环境4.1.1. 数据集在我们的实验中,我们使用了三个广泛使用的数据集。第一个用于训练和评估,而其他的仅用于跨数据集评估。FaceForensics++(FF++)(Rossler等人,2019)是一个广泛使用的基准数据集,包含来自you-tube的1,000个原始视频和相应的假视频,这些视频是通过四种典型的操作方法生成的:1)Deepfakes(DF)(Tora,2023),2)Face2Face ( F2F ) ( Thies 等 人 , 2016 ) , 3 ) FaceSwap(FS)(Marek,2022)和4)NeuralTextures(NT)(Thies等人,2019年)。 它还包含三种不同质量级别的视频:raw,c23和c40。在正式拆分之后,我们使用720个视频进行培训,140个用于验证,140个用于测试。Celeb-DF(Li等人,2020)从YouTube上收集了59位名人的590个真实视频,并基于改进的DeepFake算法生成了5,639个假视频。Deepfake检测挑战(DFDC)(Dolhansky等人, 2020)是为比赛设计的一个突出的面部交换视频数据集,其中包含来自3,426名付费演员的100,000个剪辑,这些演员通过几种Deepfake,基于GAN和非学习方法生成。4.1.2. 实施细节我们采用Xception(Chollet,2017)作为编码器的骨干网络,由于其出色的性能,它被广泛用于deepfake检测任务。编码器的细节●●●F. Dong,X.Zou,J.Wang等人沙特国王大学学报95¼ ð Þ投影仪和预测器如图所示。3.第三章。对于数据集中的每个视频批量大小设置为32,学习率为0.0002。Adam被用作优化器。我们在NIVIDA GeForce RTX 3090 GPU上训练我们的模型4.1.3. 评价衡量标准和基线按照deepfake检测任务的惯例,我们应用三个评估指标来全面评估所提出的模型:1) 准确性评分(ACC):ACC度量计算所有样本的正确分类百分比,获得如下:ACCTP12公司简介这些缩写分别指真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)。2) 受试者工作特征曲线下面积(AUC):AUC被广泛用于测量诊断测试的准确性。受试者工作特征曲线(ROC)是概率曲线,AUC代表可分性的程度或度量。它衡量模型区域分类区分类别的能力。AUC越高,模型越好。3) 相等错误率(EER):该度量显示检测器的错误率该值越低,检测器性能越好。为了评估框架的有效性,我们将我们的方法与六个作品进行比较:1)原始Xception(Rossler等人, 2019年),2)ForensicTransfer(Cozzolino等人,2018),3)多任务(Nguyen等人, 2019),4)MLDG(Li等人, 2018),5)LTW(Sun等人, 2021年),6)RECCE(CVPR 2022)(Cao等人, 2022年)。4.2. 泛化能力评价充分评价模型的泛化能力我们在交叉操作和交叉数据集设置下进行了实验,分别模拟了未知伪造方法和对于交叉操作泛化,我们在FaceForensics++(FF++)数据集上进行了实验,该数据集由四种类型的操作组成。在交叉日期集中实验中,我们在FF++上训练我们的网络,并在其他三个数据集上测试其性能。4.2.1. 交叉操作实验为了评估未知操作方法的泛化能力有四种不同的deepfake攻击方法,即Face2Face(Thies等人,2016)、FaceSwap(Marek,2022)、DeepFakes(Tora,2023)和NeuralTextures(Thies等人, 2019年)。这些攻击方法可以获得相当不同的结果。因此,我们根据这些不同的方法来分割目标域和源域,以模拟未知的操纵方法。在这些交叉操作评估中,我们在源域上训练模型,并在目标域上测试它,例如,当我们评估来自Deepfakes的数据时,我们在其他三种操作上训练模型,即Face 2Face,FaceSwap和NeuralTex-tures,以设置交叉方法情况。此外,我们考虑不同的图像质量的推广。我们从FF++不同质量的图像上评估我们的方法。我们比较我们的方法与六个国家的最先进的方法对四个不同的操作与不同质量的图像,并采取10帧从每个视频作为输入图像。高质量(c23)和低质量(c40)图像的AUC、ACC和ERR结果分别见表1和表2。如表1所示,在c23的情况下,所提出的方法在同时进行四次操作的情况下在所有三个度量上实现最佳性能。具体而言,我们的方法实现了86.3%的ACC,94.1%的AUC和9.4%的ERR。与最近的其他一般深度伪造检测方法相比,我们在AUC和ACC指标上分别获得了3%和2%的改进,平均ERR降低了2%。此外,表2表明,在c40场景中,由于其质量较低而更加困难,我们的方法在AUC和ACC指标方面均实现了2%的平均改善。表1和表2中的结果表明图像质量劣化的普遍性。4.2.2. 跨数据集实验我们还考虑了不同数据集之间的性能,因为它代表了未知数据集域上的泛化能力。这一评估更具挑战性,因为图三.网络体系结构的详细信息。F. Dong,X.Zou,J.Wang等人沙特国王大学学报表196高质量的交叉操作评估结果(c23)。方法Deepfakes Face2Face FaceSwap NeuralTexturesACC“AUC“EER;ACC“AUC“EER;ACC“AUC“EER;ACC“AUC“EER;Xception(基线)(Rossler等人, 2019年度)0.8130.8980.2030.628 0.7720.2980.5500.598 0.4520.5870.7010.335ForensicTransfer(Cozzolino等人, 2018年)0.720-0.3310.645-0.3850.460-0.5230.569-0.457多任务(Nguyen等人, 2019年度)0.703-0.3740.587-0.4010.497-0.4950.603-0.402MLDG(Li等人, 2018年)0.8420.9180.1520.634 0.7710.3040.5270.609 0.4310.6210.7800.290LTW(Sun等人, 2021年)0.8560.9270.1450.656 0.8020.2710.5490.640 0.3970.6530.7730.294RECCE(CVPR 2022)(Cao等人, 2022年)0.8470.9200.1480.662 0.8130.2690.5330.625 0.4140.6620.7830.290我们0.8630.9410.0940.683 0.8140.2650.5820.656 0.3710.6780.7920.282表2交叉操作评价结果质量较低(c40)。方法Deepfakes Face2Face FaceSwap NeuralTexturesACC“AUC“EER;ACC“AUC“EER;ACC“AUC“EER;ACC“AUC“EER;Xception(基线)(Rossler等人, 2019年度)0.6030.7110.3640.573 0.6290.4230.5990.630 0.4040.5530.5890.446ForensicTransfer(Cozzolino等人, 2018年)0.682-0.3330.550-0.4520.530-0.4710.550-0.453多任务(Nguyen等人, 2019年度)0.667-0.3510.565-0.4400.517-0.4840.560-0.446MLDG(Li等人, 2018年)0.6710.7300.3290.581 0.6170.4190.5810.617 0.4190.5690.6070.423LTW(Sun等人, 2021年)0.6910.7560.3050.657 0.7240.3310.6250.681 0.3640.5850.6080.415RECCE(CVPR 2022)(Cao等人, 2022年)0.7290.7840.2810.664 0.7370.3190.6130.678 0.3700.5710.5950.421我们0.7530.8180.2600.644 0.7250.3260.6410.699 0.3470.5950.6260.396图四、每种方法在不同数据集(Celeb-DF和DFDC)上的性能分布在训练域和测试域之间不同。在跨数据集实验中,我们在FF++(c23)中的所有四种类型的假数据上训练所有检测模型,然后在其他三个数据集上评估它们:FF++(HQ),Celeb-DF和DFDC。每种方法在不同数据集上的性能如图4所示。表3列出了几种方法的ACC、AUC和ERR结果。从表3中可以看出,我们的方法在所有测试数据集上都优于其他方法。特别是,在指示目标域的Celeb-DF数据集上,与最先进的模型相比,我们的方法在ACC度量上提高了5.3%,在AUC度量上提高了12.8%,并将ERR度量降低了7.2%的结果表明,该模型比其他检测方法具有更好的通用性。所提出的方法在交叉操作和跨数据集的情况下都取得了令人满意的性能。这表明了良好的泛化能力。这一结果可以归因于三个不同的原因:第一,监督对比学习策略充分利用了类别间和类别内的线索。第二,多尺度特征增强模块可以结合局部和全局区域的内在联系,以获得更全面的伪影线索。第三,高频和RGB线索的利用增强了模型的泛化能力,表3跨数据集评估结果。方法FF++(总部)Celeb-DFDFDCACC“AUC“EER;ACC“AUC“EER;ACC“AUC“EER;Xception(基线)(Rossler等人, 2019年度)0.9240.9810.0610.6540.6750.3840.5890.6550.405ForensicTransfer(Cozzolino等人, 2018年)0.766-0.2970.620-0.4040.540-0.464多任务(Nguyen等人, 2019年度)0.767-0.2850.584-0.5110.511-0.494MLDG(Li等人, 2018年)0.9180.9780.0700.5950.6090.4180.6070.6820.370LTW(Sun等人, 2021年)0.9380.9850.0480.6340.6410.3970.6310.6900.368RECCE(CVPR 2022)(Cao等人, 2022年)0.9650.9910.0370.6730.6950.3360.6400.7010.355F. Dong,X.Zou,J.Wang等人沙特国王大学学报表197我们0.9690.9930.0340.7260.8230.2640.6350.7330.342F. Dong,X.Zou,J.Wang等人沙特国王大学学报98表4不同组件的消融研究(AUC值)。模型MSECMASCLFF++(总部)Celeb-DFDFDC一0.9810.6750.655B是的0.9890.7580.699C是的是的0.9920.7920.714D是的是的0.9910.7930.721e是的是的是的0.9930.8230.733表5FF++(HQ)和Celeb-DF的消融结果,SRM增强的概率不同(根据AUC值)。SRMFF++(总部)Celeb-DF00.9910.7930.10.9930.8160.20.990.8190.30.9930.8230.40.9870.8160.50.9910.806干扰,如不同的质量。所有这些原因使得我们的方法在各种评估中表现得更好。4.3. 消融研究4.3.1. 各组成部分有效性评价我们的设计主要包括三个部分,即多尺度特征增强模块(MSE)、跨模态增强模块(CMA)和有监督的对比学习策略(SCL)。到图五.可视化结果。从上到下的每一行都是deepfake图像,分别是Xception(基线),MLDG,LTW,RECCE(SOTA)和我们的Grad-CAM热图。实验结果表明,该方法可以定位更多的伪造区域。F. Dong,X.Zou,J.Wang等人沙特国王大学学报99¼为了进一步评估我们框架中不同组件的有效性,我们将每个部分分开来研究我们网络的五个变体进行验证:1) Model-a:一个在FF++上训练的纯Xception网络作为基线,我们使用官方代码遵循原始设计2) 模式b:拟议框架的一个分支。我们通过取消一致性损失和分类损失来去除对比学习框架,仅保留MSE模块。3) Model-c:Model-c也是一个像model b一样的分支。但MSE模块和CMA增强都是保留的。4) 模型d:基于我们的对比框架,我们只删除CMA增强。该网络使用常见的数据转换方法进行训练。5) Model-e:我们提出的具有监督对比学习策略的框架,MSE模块,使用我们设计的数据增强进行训练。我们将我们提出的方法与模型a-d进行比较,在模型a-d中,我们去除了部分MSE,CMA和SCL组件。由于我们的目标是在可见和不可见域上的一般检测性能,因此我们在FF++(c23)上训练了所有五个版本,并在FF++(HQ),Celeb-DF和DFDC上对其进行了评估,以探索模型泛化的具体增量。AUC结果见表4。如表4所示,与模型a相比,模型b对于Celeb-DF和DFDC提高了8%和4%,这证明了多尺度增强模块可以带来显著的改进。在模型b的基础上,我们在模型c中增加了跨模态增强,在模型d中增加了一致性损失,与模型b相比,我们注意到两个版本在所有三个数据集上都实现了改进,而模型c在三个数据集上分别提高了0.3%,3.4%和1.5%,模型d在三个数据集上分别提高了0.2%,3.5%和2.2%最终,在模型e中,我们保留了我们提出的所有设计,与模型a相比,它在所有三个数据集上分别实现了1.2%,14.8%和7.8%的显着改进总体而言,所提出的方法达到最好的结果,与其他人。可以得出结论,设计的三个主要组成部分都是必不可少的最终性能的改善,也是有用的泛化能力。4.3.2. 利用SRM算法如上所述,部署高频增强作为增强的概率可能影响网络的最终性能为了确定交叉模态信息的最佳比例,我们进行了一个实验,以研究概率p使用SRM算法在RGB域中的数据增强。我们使用各种FF++(HQ)和Celeb-DF测试网络如表5所示的定量结果,可以观察到,虽然我们以0.3的概率部署SRM,但网络在FF++和Celeb-DF数据集上都实现了最佳性能。此外,将p0与其他设置进行比较,可以观察到SRM的使用在几乎所有设置中都实现了更好的性能。这验证了SRM算法在最终改进中的效果4.4. 可视化评价为了直接说明我们的方法的优点,我们通过梯度加权类激活映射(Grad-CAM)(Selvaraju等人,2017年)。Grad-CAM是一种先进的可视化方法,可以通过生成热图来增强网络的可视化解释的热图显示模型的感兴趣区域。我们将我们的方法与Xception(基线)(Rossler等人,2019)、MLDG(Li等人, 2018),LTW(Sun等人, 2021)和RECCE(SOTA)(Cao等人, 2022年)。如图5所示,我们的方法可以定位更多的区域,并包含工件所在的更多细节。这证明了我们的方法可以通过关注更广泛的区域来捕获比基线方法更全面的线索。5. 结论在本文中,我们提出了一种新的基于对比学习的深度伪造检测模型该方法的优点有三方面:1)监督对比学习策略显著提高了泛化能力,因为它结合了域内和跨域信息。2)跨模态增强的部署有助于模型关注RGB和频率线索。3)设计了多尺度特征我们试图增强deepfak
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功