深度伪造检测：图像匹配解释与性能提高

26 浏览量更新于2023-12-01 收藏 1.41MB PDF 举报

图像匹配

可解释性

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文通过分析图像匹配Shichao Dong1， Jin Wang1， Jiangjun Liang1，Haoqiang Fan1，and RenheJi1，†1MEGVII技术{董世超，王进，梁家军，范浩强，吉仁和}@ megvii.com抽象的。本文旨在解释deepfake检测模型如何在二进制标签监督下学习图像的伪影特征。为此，从图像匹配的角度提出三个假设如下。1. Deepfake检测模型基于既不与源相关也不与目标相关的视觉概念来指示真/假图像，也就是说，将这样的视觉概念视为伪影相关。2.除了二进制标签的监督之外，deepfake检测模型还通过训练集中的FST匹配（即匹配的fake，s，t目标图像）来直接学习伪影相关的视觉概念。3.通过原始训练集中的FST匹配学习的人工视觉概念容易受到视频压缩的影响。在实验中，上述假设在各种DNN之间得到了验证。此外，基于这种理解，我们提出了FST匹配深度伪造检测模型，以提高压缩视频的伪造检测性能。实验结果表明，我们的方法取得了很好的性能，特别是在高度压缩（如c40）的视频。关键词：深度伪造检测，图像匹配，可解释性。1介绍最近，deepfake方法[14，27，25，44，43]在合成真实人脸方面表现出了优异攻击者很容易利用这种面部伪装进行恶意攻击，造成严重的为此，大量研究[36，1]通过简单地将其视为二元分类任务，在检测各种操纵介质方面取得了巨大成功。然而，理解这些模型如何在仅由二进制标签（真/假）监督时学习图像的伪影特征在本文中，我们的目标是从图像匹配的新角度来我们如下考虑匹配图像如图1所示，利用目标图像的表示来操纵源图像的面部以生成对应的伪图像。平等贡献†通讯作者arXiv：2207.09679v1 [cs.CV] 2022年7+v：mala2255获取更多论文2S. Dong等人假图像源-目标相关性相关性伪造图像源-目标相关相关目标图像目标相关源图像源相关目标图像目标相关源图像源相关Fig. 1. 源/目标相关视觉概念和伪影相关视觉概念之间的关系。这里，视觉概念表示图像区域，例如人脸的眼睛、嘴巴和额头。在本文中，我们发现，从图像匹配的角度来看，经过良好训练的deepfake检测模型主要将伪影相关的视觉概念视为既不与源相关也不与目标相关然后将上述的假图像、假图像和目标图像作为匹配图像，称之为FST匹配。为此，我们设计了不同的度量来定量评估图像匹配的有效性，并提出了以下三个假设。假设1：Deepfake检测模型基于既不与源相关也不与目标相关的视觉概念来指示真实/虚假图像，也就是说，将这种视觉概念视为伪影相关。在本文中，视觉概念表示的图像区域，如嘴，鼻子或眼睛的人脸。直觉上，假图像是从来自源图像或目标图像的视觉概念生成的。然而，一些视觉概念可能不可避免地被deepfake方法操纵，导致它们与源图像和目标图像都不同。经过良好训练的deepfake检测模型应该基于与源无关和与目标无关的视觉概念来指示真实/虚假图像。假设2：除了二进制标签的监督之外，Deepfake检测模型还通过训练集中的FST匹配隐式地学习伪影相关的视觉概念。直观地说，二进制标签不足以完成deepfake检测任务。训练图像通常包含其他与伪影无关的视觉概念，例如图像的身份。这样的视觉概念可能会共同出现在某些真实/虚假图像上，导致deepfake检测模型学习有偏见的foreground表示。例如，如果真实图像都是男性，而虚假图像都是女性，则深度伪造检测模型可以基于图像的性别来推断结果。为此，FST匹配图像应该帮助深度伪造检测模型丢弃与伪影无关的视觉概念并专注于与伪影相关的视觉概念，因为它们共享共同的与伪影无关的视觉概念，但被注释相反的标签+v：mala2255获取更多论文通过分析图像匹配解释Deepfake检测3假设3：通过原始训练集中的FST匹配隐式学习的伪影视觉概念容易受到视频压缩的影响。在原始图像上训练的Deepfake检测模型在对压缩图像进行测试时通常会遭受显着的性能下降[28，54，36]。我们假设这是因为通过FST匹配的伪影视觉概念的隐式学习对于视频压缩是脆弱的。具体地，由于压缩，直观学习的伪影视觉概念可能变得无法与伪图像上的压缩源视觉概念和目标视觉概念区分开，从而导致深度伪造检测模型做出错误预测。方法：为了验证所提出的假设，我们提出了一种基于Shapley值的解释方法[39]来解释具有各种主干的deepfake检测模型Shapley值首先在博弈论中提出[39]，并在最近的研究中广泛使用[31，2]来解释DNN内部具体来说，Shapley值无偏地估计每个玩家对游戏总奖励的贡献。它自然地满足四个属性，即线性属性、虚拟属性、对称属性和效率属性[45]，这确保了它的公平性和可信性。基于Shapley值，我们从图像匹配的新角度来评估图像上的视觉概念，以验证所提出的假设。此外，在验证假设的过程中，我们惊讶地发现，所学习的源/目标视觉概念在压缩图像之间比隐式学习的图像上的伪影视觉概念更一致结合对假设1的理解，我们设计了一个简单的模型，通过从源/目标视觉概念中分解源/目标无关的表示来指示图像（称为FST匹配深度伪造检测模型），其目的是提高压缩视频上伪造检测的性能。实验结果表明，这种简单的结构实现了很好的性能，特别是在高度压缩（例如，c40）视频。贡献：我们的贡献可以概括如下。1. 我们提出了一种从图像匹配的新角度来解释深度伪造检测模型成功的方法，即FST匹配。2. 从FST匹配的角度提出并验证了三个假设，这为deepfake检测任务提供了新的见解。3. 我们进一步提出了FST匹配深度伪造检测模型，以提高压缩视频的性能。2相关工作2.1Deepfake检测Deepfake检测的目标是将输入媒体分类为真实或虚假。以前的deepfake检测研究主要集中在提高模型在各种数据集上的性能。一些方法[1，4，11，34，35，36]将其视为二元分类任务，并直接在大量收集的数据集上训练模型，如Celeb-DF[29]， DFDC[12]， FF++[36]等。这些+v：mala2255获取更多论文4个S. Dong等人方法在数据集内评估方面取得了很好的性能，即在学习的deepfake方法处理的图像上测试模型。然而，这些方法通常无法使用新提出的deepfake方法检测看不见的数据集。为此，其他研究[55，53，58，24]旨在提高深度伪造检测模型的通用化。这些方法通常假设假图像共享在深度伪造方法过程中引入的常见人类感知伪影表示，例如混合边界[28]，几何特征[41]和频率特征[30，32，26，18]。然而，这样的假设通常代表了人类对工件表示的理解，并且可能并不适用于所有现实生活场景。正确理解真实图像和虚假图像之间的关键区别仍然是一个持续的挑战，即。探索图像上伪影表现的本质。据我们所知，专注于解释deepfake检测模型的学习表示的研究很少。在本文中，我们的目标是从图像匹配的新角度来解释deepfake检测模型，以展示什么是伪影表示，它们如何学习伪影表示以及如何进一步提高它们在现实生活中的性能。2.2DNN的可解释性以往对DNN可解释性的研究大致可以分为两类。一些研究[47，33，13，40，46，57]通过可视化学习的视觉概念来关注DNN的语义解释。Grad-CAM[38]和Grad-CAM++[7]基于梯度信息探索了输入图像的属性图 Zhou et. al. [56]可视化了DNN内部各种单元的实际感受野。 Fong et.al. [15]探索了多重过滤器和学习的语义视觉概念之间的关系。 Zhanget. al. 提出通过图模型[51]和决策树[52]探索DNN的学习语义视觉概念之间的关系。然而，与一般的分类任务不同，deepfake检测模型旨在学习图像上的伪影相关视觉概念。这种表示方法往往不易被人察觉，因而很难对上述方法所得到的解释结果的正确性作出此外，其他研究提出用数学方法解释DNN的表示，以避免人类对语义表示的评估。为此，一些研究提出了基于熵的方法来理解DNN [19，9]。一些研究从博弈论的角度探讨了DNN的表示[49，48，50]。然而，尽管上述方法在理论上可以应用于各种类型的DNN，但进一步利用解释结果来指导特定任务的学习仍然是一个挑战，例如deepfake检测。在本文中，我们的目标是从图像匹配的新视角弥合一般解释结果和学习更好的深度伪造检测模型为此，我们根据我们的解释结果设计了FST匹配Deepfake检测模型，并进一步提高了压缩视频的性能。+v：mala2255获取更多论文·S不假设1：Deepfake检测模型基于既不与源相关也不与目标相关的视觉概念来指示真实/虚假图像，就是把这些视觉概念看作是与人工制品相关的。通过分析图像匹配解释Deepfake检测53算法在本节中，给定一个经过良好训练的deepfake检测模型，我们的目标是从图像匹配的新角度解释其预测。为此，提出了为了验证这些假设，我们提出了一种基于Shapley值的解释方法来评估视觉概念对图像的贡献[39]。有关Shapley值的更多信息，请参见补充材料。3.1Deepfake检测模型的可扩展表示在本节中，给定一个经过良好训练的deepfake检测模型vd（）（本文中也称为检测编码器），我们的目标是从图像匹配的角度评估输入图像上学习的视觉概念。具体来说，我们的目标是探索输入图像上的视觉概念被认为是源相关，目标相关和伪影相关的。然后，我们期望评估这些视觉概念之间的关系，以验证假设。核心挑战是公平地决定哪些视觉概念与源、目标和工件表示相关。具体来说，我们不手动地在图像上注释这些视觉概念，因为它通常代表人类对伪影表示的理解，而不是模型内部的伪影表示。为此，我们训练源编码器vs（·）和目标编码器vt（·）来指示图像上的源/目标相关视觉概念。直觉上，每个假图像与其对应的源图像和目标图像共享某些共同的视觉概念。我们相信，当源编码器vs将每个假图像及其对应的源图像分类为相同类别时，vs将倾向于关注每个假图像上的源相关视觉概念同样的方式适用于目标编码器vt。具体来说，为了方便起见，我们使用图像的附加属性标签1来训练vs和vt。为了训练源/目标编码器vs/vt，每个伪图像被认为是与对应的源/目标图像相同的属性标签。每个真实图像被认为是它的原始属性标签。我们使用Shapley值[39]来评估图像上视觉概念对每个编码器预测的区域贡献为了减少计算量，我们将输入图像分成L×L个网格，分别计算每个网格的贡献设G ={g11，g12，...， gLL}表示所有网格的集合。L×L L ×L L ×L其中，dvd∈R，dvd∈R，dvd∈R表示所有网格对于检测编码器v_d、源编码器v_s和目标编码器Vt。以这种方式，Av_d、Av_s和Av_t分别指示图像上的伪影、源和目标视觉概念更具体地说，鉴于1实现为图像的身份标签。+v：mala2255获取更多论文····ττ假设2：除了二进制标签的监督外，deepfake检测模型还通过训练集中的FST匹配隐式地学习伪影相关的视觉概念。6 S. Dong等人若gij∈G，则认为它是伪迹相关的，如果gij ∈G，则它是伪迹相关的|G）>0，并且伪影不存在，如果|G）≤0。对于源编码器v_s和目标编码器v_t也是相同的。基于网格级的贡献，我们提出了一个度量来评估工件相关的视觉概念，源相关的视觉概念和目标相关的视觉概念之间的关系。根据该假设，深度伪造检测模型应该将伪影相关视觉概念视为既不与源相关也不与目标相关。因此，人工制品相关的视觉概念应该几乎没有交集与源/目标相关的视觉概念。为此，我们首先生成掩码Mτ=I（max（λvs，λvt）> τ）来表示最源/目标相关的视觉概念，其中I（）是指示函数，τ是某个阈值。如果里面的条件有效，则I（）返回1，否则I（）返回0。然后，该度量被设计为评估这些视觉概念之间的交叉点的强度，如下所示。Qτ=π （1−Mτ）·vd[1−M（g ）]−Mτ·vdM（g）（一））其中表示内积。第一项测量源/目标不相关视觉概念和人工制品相关视觉概念之间的交叉的平均强度第二项测量源/目标相关视觉概念和伪影相关视觉概念之间的交叉的平均强度Qτ>0表示与源/目标相关视觉概念相比，伪影相关视觉概念与源/目标无关视觉概念的相关性更高Qτ0表示与源/目标相关视觉概念相比，伪影相关视觉概念与源/目标无关视觉概念的相关性更低<3.2学习工件表示在本节中，为了验证假设，我们希望评估训练集中的FST匹配如何影响深度伪造检测模型的学习。具体来说，训练集中的FST匹配意味着真实图像包含假图像的对应源图像和目标图像为此，我们分别用配对训练集和非配对训练集训练两个模型在成对训练集中，真实图像只是伪图像对应的源图像和目标图像。在未配对的图像中，真实图像与配对训练集中的真实图像具有相同的数量，但不对应于任何假图像。然后我们比较这两个模型的ACC，视频级AUC和建议的度量Qτ来评估FST匹配的有效性gij∈GIJgij∈GIJ+v：mala2255获取更多论文vdvd∈ −∈∈Dvdvd通过分析图像匹配解释Deepfake检测73.3视频压缩中伪影表示的脆弱性在本节中，为了验证假设，我们旨在测量直观学习的伪影视觉概念对视频压缩的稳定性。注意，检测编码器v_d首先在原始图像上训练，然后在压缩图像上测试。为此，我们设计了稳定性度量，以评估在不同压缩率条件下，伪影视觉概念之间的变化，即。c23，c40。稳定性度量设计如下。δv =Ecmp∈{c23，c 40}[cos（ncmp，nraw）]（2）其中，Vccmp表示当在压缩图像上测试时，网格对检测编码器的预测的贡献。Rawraw表示在r aw图像上测试的网格分布。 cos（·，·）表示计算余弦相似度的操作。δvd [ 1，1]的较小值指示隐式学习的伪影视觉概念易受压缩的影响。此外，委员会认为，我们还评估源/目标编码器VS/VT的学习的源/目标视觉概念在压缩视频上的稳定性以用于更多的比较。3.4FST-匹配Deepfake检测模型基于从FST-Matching的角度对deepfake检测模型的理解，我们提出了FST-Matching Deepfake检测模型，以进一步提升压缩视频上deepfake检测模型的性能。在假设3的验证过程中，我们惊奇地发现，由源编码器v_s和目标编码器v_t学习的源/目标视觉概念（即，源编码器v_s和目标编码器v_t）比由检测编码器v_d隐式学习的伪影视觉概念（即，在压缩图像上（如图2底部所示）。受假设1理解的启发，我们认为，直接从源/目标视觉概念中分离出源/目标无关表示来指示图像可以提高压缩视频的模型性能。详细核实请参见补充资料FST匹配深度伪造检测模型的结构如图所示。2，其目的是根据假设1，基于图像上的源/目标无关视觉概念对人脸进行为此，我们首先使用源特征编码器和目标特征编码器直接学习图像上的源特征fs∈RB×Cs和目标特征ft∈ RB×Ct。B表示输入图像的数量Cs和Ct表示输出通道的数量在此基础上，设计了特征分解模块，实现了特征分解的自动化。仔细地解开源/目标不相关的特征fir、fir和源/目标。S t通道级上的相关特征fr、fr与[23]类似，我们使用通道-S t明智的注意力向量asRB×Cs和atRB×Ct，以解开fs和ft，计算如下。as=σ（MLP（fs）），at=σ（MLP（ft））（3）假设3：通过FST-匹配在原始训练集中隐式学习的伪影视觉概念容易受到视频压缩的影响+v：mala2255获取更多论文SS不不S不S不S不不S特征分解模块F注意功能B x CsF = F1 * F2B x CsF = F1 *（1 -F源B x Cs伪源对验证源注意向量目标图像目标注意向量源特征编码器伪造图像B x（Cs +源F源-相关特征目标-相关特征源-不相关特征目标-不相关特征B x Ct假目标配对验证目标图像交互损失B x Ct伪造图像检测和裁剪人脸B x Ct分类损失目标特征编码器原φvsφ vtφ vdC23φvsφ vtφ vdC40φvsφ vtφ vd8个S. Dong等人图二、FST匹配Deepfake检测模型如图的底部所示，我们惊奇地发现，对于视频压缩来说，BTVs和BTVt比BTVd更鲁棒。为此，我们使用源特征编码器和目标特征编码器来显式地学习图像上的源和目标表示。特征分解模块还提取源/目标不相关的表示以指示图像的真实性，即真实或虚假。其中MLP表示多层感知器，σ表示S形函数。以这种方式，源和目标相关特征fr、fr被计算为：S tfr= asfs和fr= at ft。源和目标不相关的特征fir，firfir=（1−as）<$fs和fir=（1−at）<$ft。在这里，S t渠道产品为了确保特征解纠缠的有效性，我们使用假-源配对验证模块，用于对源配对进行的相同属性标签源图像2。类似地，fr被分类为目标图像通过假目标对验证模块。fir和fir是S t然后连接以预测输入图像的最终真/假标签让Ys、Yt、Yd表示图像的源属性标签、目标属性标签和伪造检测标签。y*s、y*t、y*d表示预测的源属性、目标属性和伪造预测。FST匹配深度伪造检测模型的分类损失设计如下。损失cls=−E[ydlogyd]−λsE[yslogys]−λtE[ytlogyt]（4）此外，受[49]的启发，我们设计了另一种损失，以进一步加强最终预测中fir和fir之间的相互作用。设h（·）表示最终预测模块互动损失旨在增加额外奖励由联合政府造成的[fir，fir] w.r.t. （二）仲裁庭的组成和组成;s t s t对最终的预测做出贡献。设计了互作用损耗如下损失相互作用=−E[h（[fir，fir]）−h（[0，fir]）−h（[fir，0]）+h（[0，0]）]（5）2实现为图像的身份标签。+v：mala2255获取更多论文通过分析图像匹配解释Deepfake检测9图像φvsφvtφvd交点图像φvsφvtφvd路口4.54.03.53.02.52.01.520406080100120140采样时间图3. Shapley值的不稳定性（左）和假设1的验证（右）。左图显示，随着采样时间的增加，Shapley值变得稳定。右图显示了源、目标和工件视觉概念的可视化，即 B.V.s，B.V.t和B.V.d。结果表明，人工相关的视觉概念几乎没有交叉点与源/目标相关的视觉概念之间的各种操作算法，这支持假设1。其中0表示与fir和fir大小相同的零向量。[0，0]S t代表基本分数，当fir和fir都没有对最终的预S t措辞总损失设计如下。损失=损失cls+λinterLoss相互作用（6）4实验4.1实现细节DNN数据集：为了验证提出的假设，我们在不同的主干上进行了各种实验。具体来说，我们使用ResNet-18/34[22]和EfficientNet-b3[42]作为检测编码器vd，vs和vt的主干。此外，我们还使用了[36]和[53]中发布的预训练模型用于检测编码器vd，以便与最先进的方法进行更多比较我们在广泛使用的FF++数据集上训练和测试了我们的模型。FF++[36]数据集包含5000个视频，包括1000个原始视频和4000个通过不同伪造方法操纵的假视频，如 Deepfake [14] ， FaceSwap [25] ，FaceShifter [27] ， NeuralTextures [43] 和 Face2Face [44] 。所有模型都在ImageNet [37]数据集上进行了预训练，并在FF++ [36]上进行了微调。此外，为了方便，输入图像的属性标签被设置为图像的身份。具体地，对于伪图像，期望源/目标编码器将图像分类为其对应的源/目标图像的身份对于真实图像，期望源编码器和目标编码器都将图像分类为其自己的原始标识。Shapley值的实现：Shapley值的精确计算在计算上是不可容忍的。为此，我们使用基于采样的方法[5]来近似计算所有视觉概念的贡献。在采样过程中，将未采样的图像网格作为基线值，本文将基线值设为零。此外，我们使用了1e 3换脸Face2Face神经纹理 FaceShifterDeepFakes-0.20.2相关视觉概念源/目标相关视觉概念交叉视觉概念不稳定DeepfakeFace2faceFaceShifter房NeuralTexture换脸+v：mala2255获取更多论文≥10S. Dong等人在softmax层之前选择的标量对应于图像的地面真值标签，作为所有编码器的输出分数。4.2Shapley值的公平性Shapley值的准确性为了确保近似Shapley值的稳定性，我们评估了采样时间T对Shapley值变化的影响具体来说，类似于[48]，我们重复了抽样程序[5]对于相同的采样时间T进行两次，以分别得到Δ1和Δ2。然后，我们通过以下方式测量了采样时间T相对于r.t.1和r.t.2不稳定性度量||ϕ1−ϕ2||2||2 ||2 在所有测试图像中。如图3所示，我们计算了不同采样下基于ResNet18的不稳定性度量次结果表明，当T =100时，得到了相对稳定的Shapley值，保证了结果的公平性。4.3验证假设验证假设1。假设1假设经过良好训练的深度伪造检测模型指示既不基于源相关视觉概念也不基于目标相关视觉概念的图像，即认为它们是伪影相关的。在本节中，我们定性和定量地验证了这一假设。对于定性分析，我们发现，人工制品相关的视觉概念几乎没有交集与源/目标相关的视觉概念。在图3中，我们显示了FF++中使用的不同操作算法的Bvvs、Bvvt、Bvvd的视觉结果以及主要贡献视觉概念之间的交叉点[36]。为了更好的可视化，我们将所有的单位向量归一化为单位向量。检测解码器v d的主干是ResNet-18 [22]。源和目标相关视觉概念基于掩码Mt来表示。为了更清楚，在Intersection列中，我们只保留了贡献最高的30%网格。结果表明，deepfake检测模型主要将伪影相关概念视为既不与源相关也不与目标相关。对于定量分析，我们评估了各种DNN和操作算法之间的建议度量Q在表1中，我们计算了不同阈值τ之间Q的平均值，以进行公平比较。具体而言，τ被设置为不同的值以保持{0。60 L2，0. 65L2，.， 0。85 L2，0。9 L2，0. 95L2}网格上。Q >0表示学习到的工件相关视觉概念比源/目标相关视觉概念与源/目标无关视觉概念更相关结果表明，各种类型的DNN主要考虑人工制品相关的视觉概念，既不与源相关，也不与目标相关。而且，这些结果与vs和vt的骨架选择没有本质联系，进一步验证了假设的普遍性。请注意，<在FaceShifter [27]操作的图像上测试时，Xception [36]的Q为0。这是因为[36]中最初发布的预训练模型Xception之前从未在FaceShifter [27]的伪造图像上进行过训练，因此无法定位FaceShifter[27]的伪影相关视觉概念。+v：mala2255获取更多论文通过分析图像匹配解释Deepfake检测11Deepfake Face2FaceSwapFaceShifter NeuralTexture图四、假设2的验证：在配对训练集和未配对训练集上训练的模型之间的拟议度量Q τ的比较。水平坐标表示当设置不同阈值τ时掩模Mτ中保留的网格的百分比。检测编码器的主干是ResNet-18 [22]。结果表明，在配对训练集上训练的模型具有更大的Qτ值，表明FST匹配有助于模型定位伪影相关的视觉概念。表1. 假设1的验证：在各种操作算法中，针对不同的deepfake检测模型，比较所提出的度量Q（× 10 − 2）。结果表明，经过良好训练的深度伪造检测模型具有较大的Q值，这表明这些模型将源/目标无关的视觉概念视为伪影相关。vs/vt的主干伪造方法vd（Q（×10−2））的主干ResNet-18ResNet-34高效-B3MAT[53]Xception [三十六][25]第二十五话2.772.882.022.573.10[44]第四十四话2.312.632.082.542.59[22]第二十二话[27]第二十七话2.453.222.102.42-0.73Deepfake [14]2.532.672.302.792.61[43]第四十三话2.302.672.072.511.00[25]第二十五话2.852.992.082.493.20[44]第四十四话2.192.632.002.492.61高效-b3[42][27]第二十七话2.383.222.072.33-0.67Deepfake [14]2.512.712.172.772.64[43]第四十三话2.322.692.052.471.06验证假设2。假设2假设经过良好训练的深度虚假检测模型通过训练集中的FST匹配隐式地学习了伪影相关的视觉概念。为了验证这一假设，我们分别在配对训练集和非配对训练集上训练了两个具有相同主干的模型。在成对的训练集中，真实图像只是与假图像相对应的源图像和目标图像。与此相反，未配对的训练集不匹配伪图像，但是与配对的训练集中的真实图像配对和未配对的训练集都是从FF++[36]数据集中下采样的，该数据集仅包含40个图像身份，与FF++[36]数据集中的初始1000个身份相比，这是非常小的。在本节中，我们进行了大量的实验，以证明FST匹配对于学习deepfake检测模型至关重要。首先，我们比较了每个训练模型的ACC和视频级AUC。如表2所示，在配对训练集上训练的模型实现了与基线模型相似的性能，基线模型在整个FF++[36]数据集上训练。请注意，配对训练集明显小于原始FF++[36]数据集，这表明FST匹配在+v：mala2255获取更多论文12 S. Dong等人表2. 假设2的验证：在整个FF++[36]数据集（表示为基线）、配对训练集和未配对训练集上训练的模型之间的性能比较。在成对训练集中，真实图像是伪图像的对应源图像和目标图像，即满足FST匹配。结果表明，在配对训练集上训练的模型实现了与基线相似的性能。请注意，配对训练集的大小明显较小。这些结果证明了FST匹配的有效性。模型伪造方法基线对取消配对ACCAUCACCAUCACCAUC[25]第二十五话98.93 10097.5099.9153.9375.41[44]第四十四话96.79 99.4397.1499.2764.2985.74[22]第二十二话[27]第二十七话九十九点二十九97.1499.8281.0793.03Deepfake[14]98.21一百97.5099.8769.6486.51[43]第四十三话90.71 98.8995.7198.7360.0076.60[25]第二十五话10010099.64 10077.5087.51[44]第四十四话99.2999.77九十九点七二81.7993.36高效-b3[42][27]第二十七话99.2999.93九十九点二九九十九点九六84.2996.10Deepfake[14]100100100 10085.3697.81[43]第四十三话99.2999.8598.93 99.5682.8692.30表3. 假设3的验证：不同视觉概念的稳定性度量δ之间的比较。源、目标和检测编码器的主干都是ResNet-18 [22]。结果表明，学习的源和目标的视觉概念是更一致的视频压缩比隐式学习的工件视觉概念。视觉概念伪造方法（δ）换脸Face2faceFaceShifterDeepfake神经纹理源0.730.740.730.740.74目标0.730.760.710.750.76（基线）0.17-0.020.14-0.15-0.14训练集相比之下，在未配对的训练集上训练的模型，尽管与配对的训练集大小相同，但显示出明显更差的结果。这些结果也表明，训练集中的FST匹配对于学习深度伪造检测模型具有重要价值。此外，我们还比较了每个训练模型之间的拟议度量Qτ为了进行公平的比较，我们计算了所有测试图像中不同τ的度量Qτ如图4所示，在配对训练集上训练的模型具有较大的Qτ值，表明训练集中的FST匹配有效地帮助模型定位源/目标无关的视觉概念，并将其视为伪影相关。验证假设3。假设3假设通过原始训练集中的FST匹配隐式学习的伪影视觉概念容易受到视频压缩的影响。为了验证这一假设，我们在压缩视频上测试了原始训练的模型，并计算了所提出的指标所有测试图像中的δvd。对于定性分析，如图2所示，原始训练模型指示与原始图像相比具有显著不同的视觉概念的对于定量分析，在表+v：mala2255获取更多论文通过分析图像匹配解释Deepfake检测13表4. 压缩视频与最先进方法的性能比较。我们的方法在压缩视频，特别是c40视频上取得了很好的性能。模型骨干C23C40ACCAUCACCAUC[17]第十七话-70.97-55.98-LD-CNN[11]-78.45-58.69-[28]第二十八话人力资源网-87.30-61.60MesoNet[1]Xception83.1070.47-Xception[36]Xception92.39 94.8680.32 81.76Xception-ELA[20]Xception93.86 94.8079.63 82.90Xception-PAFilters[8]Xception- -87.16 90.20SPSL[30]Xception91.50 95.3281.57 82.82[53]第五十三话Xception96.37 98.9786.95 87.26[53]第五十三话高效-B497.60 99.2988.69 90.40ResNet-1894.5298.3488.9292.02FST匹配（我们的）Xception高效-B394.0595.9598.2798.7587.3887.6290.4490.89高效-B496.1998.8188.6991.2711，计算出的δvd∈[−1，1]接近0，这也表明在不同压缩率的情况下，δvd此外，我们还评估了源/目标视觉概念的稳定性令人惊讶的是，如图2和表11所示，与隐式学习的伪影视觉概念相比，这种学习的视觉概念显示出与视频压缩的极大一致性这样的结果促使我们通过设计一个模型来提高模型在压缩视频上的性能，该模型明确地利用了训练集中的FST匹配。4.4FST-匹配Deepfake检测模型压缩视频的性能比较。在本节中，我们将模型的性能与当前最先进的方法进行比较。表4显示了压缩视频的性能。具体来说，当与其他方法的相同主干对齐时，我们的模型在压缩视频上实现了出色的性能，特别是在高度压缩（例如c40）的视频上。这样的结果也表明了我们的方法的广泛适用性。同时，请注意，在表4中的c23上与MAT [53]仍然存在轻微的性能差距。与我们的方法不同，MAT[53]设计了特定的模块来学习图像的频率特征。这些特征被广泛证明可以有效地增强压缩视频上的deepfake检测模型的性能[18，26，30，32]。为此，我们认为将这些功能集成到我们的模型中可能会填补这一性能差距。此外，由于我们的方法仅仅是首次尝试利用我们的创新解释结果，我们相信在未来的研究基础上，可以进一步启发更有效的方法原始视频的性能比较为了进行更全面的分析，我们还在原始视频上评估了我们的模型。结果见表5表明我们的方法在原始图像上仍然表现良好+v：mala2255获取更多论文14岁。Dong等人表5. 对原始视频的评估。表6. 跨数据集评估。表7.FF++上图像编辑的稳健性评价（AUC（%））。方法饱和对比块噪声模糊像素AvgXception[36]99.398.699.753.860.274.281.0[28]第二十八话97.688.599.149.863.888.681.2[21]第二十一话99.999.687.473.896.195.692.1FST匹配（我们的）99.699.999.984.899.298.797.0泛化能力评价。我们进行了另一个实验来评估我们的方法的泛化能力。为此，我们遵循SPSL中相同的跨数据集实验设置[30]。结果示于表6中，其中度量是AUC（%）。我们在FF++上训练的模型[36]在Celeb-DF[29]上的出色表现，无论不同的骨干。[30]第30段。对图像编辑操作的鲁棒性。我们进行另一个实验，以评估我们的方法时，图像编辑操作应用到图像。为此，我们遵循LipForensics中相同的鲁棒性实验设置[21]。结果示于表7中，其中度量是AUC（%）。我们的方法也表现出很大的鲁棒性列出的扰动。5结论在本文中，我们从图像匹配的新角度为此，提出了三个假设，并在各种DNN之间进行了验证，即1。Deepfake检测模型基于既不与源相关也不与目标相关的视觉概念来指示真实/虚假图像，即，将此类视觉概念视为伪影相关。2.除了监督二进制标签外，deepfake检测模型还通过训练集中的FST匹配隐式地学习与伪影相关的视觉概念。3.通过原始训练集中的FST匹配隐式学习的伪影视觉概念容易受到视频压缩的影响。在此基础上，我们进一步提出了FST匹配深度伪造检测模型，并在压缩视频上取得了很好的性能这项研究提供了一个探索图像伪影表示本质的机会，并为deepfake检测任务提供了新的视角。模型骨干原ACC AUC[28]第二十八话人力资源网-98.80MesoNet[1]Xception95.23-Xception[36]Xception九十九点二六九十九点二零Xception-ELA[20]Xception98.57 98.40[53]第五十三话高效-B497.77 99.61ResNet-1898.14 99.72FST匹配（我们Xception高效-B398.71 99.9198.93 99.90模型骨干Celeb-DFXception[36]Xception49.03SPSL[30]Xception76.88MAT[53]高效-B468.44[28]第二十八话人力资源网80.58ResNet-1886.00FST匹配（我们的）Xception高效-B388.4489.39高效-B488.13+v：mala2255获取更多论文|--- 你好||Σ|{}−{}−|||{}通过分析图像匹配解释Deepfake检测15A标签：Shapley Value沙普利值最初是在博弈论中引入的[39]，用于将所有玩家获得的总奖励/贡献公平地分配给每个人。具体地，给定n个输入玩家的集合N=1，2，...，n个参与博弈v的人，他们可以得到得分v（N）。这里，博弈v被公式化为将任何参与者映射到实数的函数。玩家N获得的奖励然后被计算为v（N）v（），其中v（）被认为是当没有玩家参与游戏v时的基线得分。在为了公平地分配整体奖励，计算作为参与人i加入任何潜在子集S<$N\{i}时获得的平均边际奖励，即v（S<${i}）−v（S）。以这种方式，Shapley值|N）计算如下。v（i|N）= 100|！|! |N − 1 − S|！（v（S<${i}）−v（S））（7）SN\{i}|！|!此外，Shapely值满足四个属性以确保其公平性和可信度[45]：– 线性性质：考虑三个博弈u，v和w，其中u，v组合为w。如果这样的博弈满足w（S）=u（S）+v（S），则博弈w中每个参与者i的Shapley值可以由博弈u和博弈v中每个参与者i的Shapley值组合，即 w（i N）=– 虚拟属性：如果v（S（一）v（S）=0对于任何子集SNi，则玩家i被认为是虚拟玩家。它的贡献被测量为Δv（i N）=v（i）v（），表示参与者i参与博弈V独立– 对称性：如果v（Si）=v（Sj）对于任何子集SNi，j，那么参与人i和参与人j被认为具有相同的贡献，即 v（i N）=–效率属性：总奖励/贡献可以通过a.每个国家的债务负担，即：iv（i|N）=v（N）−v（N）。B更多关于假设1在本节中，我们提供了不同主链的更多结果来验证假设。具体来说，遵循表1中的相同设置，我们使用另一个模型，即ResNet-

下载后可阅读完整内容，剩余1页未读，立即下载