深度伪造图像源特征识别方法研究

36 浏览量更新于2023-10-13 收藏 948KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15023学习Deepfake检测赵天辰*翔徐铭泽徐辉丁元军熊伟夏亚马逊/AWS AIericolon@umich.edu，{xiangx，xumingze，huidin，yuanjx，wxia} @ amazon.com摘要我们提出了一种新的方法来检测deepfake图像，使用伪造图像中源特征不一致的线索。它基于以下假设：在经历最先进的深度伪造生成过程之后，可以保留和提取图像我们介绍了一种新的表示学习方法，称为成对自一致性学习（PCL），Deepfake提取源要素PRNU噪声编码伪影GAN指纹…用于训练ConvNets来提取这些源特征并检测deepfake图像。它是伴随着一个新的图像合成方法，称为不一致的图像发生器（I2G），提供丰富的注释训练数据PCL。在七个流行数据集上的实验结果表明，我们的模型在数据集内评估中将平均AUC从96.45%提高到98.05%，在跨数据集评估中从86.03%提高到92.18%。1. 介绍Deepfakes是一种合成媒体，其中目标主体的身份或表达被另一个源主体的身份或表达所取代。它们主要由图像拼接生成，其包括面部检测、变形和混合。使用deepfakes的攻击已经造成了大量的负面社会影响，并且也激发了检测这些伪造视频的方法。这些防御方法中的大多数[60，26，37，51，46，5，23，21，6]针对检测拼接过程中留下的可疑伪影，例如眨眼[26]，面部扭曲[27]，混合边界[23]和假原型[48]。在这些捍卫者之后，伪造技术也在减少这些人为因素以避免检测方面发展，形成了持久的军备竞赛。在本文中，我们提出了一种新的方法来检测由基于缝合的方法生成的深度伪造。与上述专注于检测伪影的其他方法不同，我们的方法使用伪造图像内的源特征的不一致性的线索。从概念上讲，图像承载着*目前在密歇根大学安娜堡分校。这项工作是在亚马逊/AWS AI进行的。图1：通过拼接目标生成伪造图像，源图像。我们假设，他们每个人都携带不同的源功能，可以唯一地确定他们的来源。因此，伪造图像在不同位置包含不同的源特征，而原始图像的源特征必须在所有位置上一致。通过提取局部源特征并测量其自一致性，可以检测伪造图像。内容无关[14]，空间本地信息，可以唯一地识别其来源。我们称之为源特征。它们可以来自成像流水线（例如，PRNU噪声[30]，规范[14]），编码方法（例如，JPEG压缩模式[1]，压缩率）或图像合成模型[58]。我们假设，在修改后的图像已经经历了最先进的深度伪造生成过程之后，这些源特征仍然被保留[28，8，15，22，39，35]。因此，伪造图像将在不同位置处包含不同的源特征，而原始图像的源特征必须在所有位置上一致。通过提取局部源特征并测量其自一致性，可以检测出伪造图像。具体来说，我们使用卷积神经网络（ConvNet）来以下采样特征图的形式提取源特征。每个特征向量表示输入图像中的对应位置的源特征。为了训练这个ConvNet，我们引入了一种新的表示学习方法，称为成对自一致性学习（PCL），它使用一致性损失进行监督。我们计算源特征图中每对特征向量之间的余弦相似度，并根据它们目标图像拼接伪造的图像源图像源要素类型1源要素类型215024对应的图像位置来自相同的源图像。也就是说，我们惩罚那些引用来自相同源图像的位置的对，因为它们具有低相似性得分，而那些引用来自不同源图像的位置的对，因为它们具有高相似性得分。我们在学习的源特征图上附加非线性二进制分类器以执行深度伪造检测。我们用额外的损失来训练它，以产生图像级的真实与真实。假标签PCL中的一致性损失需要关于位置是否已被修改的像素级它通常在deepfake检测数据集中不可用，在deepfake检测数据集中重新注释可能很费力并且容易出错。我们使用不一致图像生成器（I2G）生成的合成数据来解决这个问题。它根据deepfake生成方法中的最新技术生成伪造图像。为了节省计算成本并实现在线生成，I2G仅将原始源图像和目标图像缝合在一起，而不是从深度网络合成的图像我们在生成过程中随机采样伪造掩码进行拼接，这成为我们需要PCL的像素级注释。实验结果表明，尽管使用了简化的生成过程，但使用来自I2G的合成数据学习的模型有效地提取了原始图像和deepfake图像中的区别性源特征。我们在最近的七个deepfake检测数据集上评估了PCL，并观察到了卓越的检测准确性。在数据集内评估之后，我们的方法在FF++、CD 2和DFDC-P数据集上分别实现了99.79%、99.98%和94.38%的由于PCL使用了当前deepfake生成方法较少考虑的源特征不一致性的线索，因此我们推测在一个数据集上使用PCL训练的模型可以有效地检测由该数据集中未看到的方法生成的为了验证这一点，我们采用了[23]中介绍的跨数据集评估协议我们在FF++上实现了99.11%、99.07%、99.41%、98.30%和90.03%DFD、DFR、CD1和CD2数据集。我们进一步可视化真实和假图像上的学习源特征的一致性图我们观察到一致性图可以导致修饰区域的定位值得注意的是，随着伪造者和捍卫者之间的竞赛继续，源特征不一致的线索可以被否定。它可以通过使用直接输出整个假图像的整个面部合成技术[17，29，4]然而，最先进的deepfake生成方法尚未采用这些技术。因此，我们的方法在检测深度伪造图像上的有效性应该仅在由现有深度伪造检测方法生成的图像上进行评估，如我们使用的深度伪造检测数据集中所示[41，10，28，8，9，15]。2. 相关工作Deepfake Generation. 有四种常见的 Deepfake 类型[47]：整个图像合成，面部属性或表情的修改3D模型[44]、AutoEncoders [43，49]或生成对抗网络[16，17，29，4]用于生成伪图像片段，然后将其混合回原始图像。Deepfake Detection。为了检测整个图像合成，最近的研究[58，36，13，52]观察到GAN生成的图像包含可以容易地检测到的特定线索，并且经过训练的模型在不同的合成方法中表现出良好的泛化能力。为了支持检测其他类型的面部操作的研究，发布了几个deepfake数据集[57，19，41，10，28，8，15，61]，并介绍了对策。FakeSpotter [51]提出了一种用于假人脸检测的逐层神经元行为。循环神经网络[42]和各种类型的3DConvNets [6]用于检测视频帧中的操纵伪影然而，二进制分类器因其可解释性而受到批评，并且通过多任务学习[37]或基于注意力的机制[5，59]引入了几种定位方法。为了提高泛化能力，DSP-FWA [27]和Face X-ray [23]也使其数据生成管道，后者专注于预测假视频帧中的混合边界。我们的方法也在这条线上，但有几个关键的区别。首先，从方法论的角度来看，我们专注于通过使用伪造图像内的源特征不一致的较少关注的线索来检测深度伪造。其次，从网络设计的角度来看，我们的一致性预测器只包含几个参数，可以作为一个插件模块上的任何常见的骨干。一致性学习。不一致的概念已经在图像取证文献[34]中进行了研究，其中在图像块[34，33，14，32，60，2]之间计算相似性得分。Zhou等[60]提出了一个双流网络来检测篡改的面孔和低级别的不一致，但训练需要隐写分析特征提取。Huh等人[14]使用Siamese网络通过迭代比较来自不同原始图像的随机补丁来预测元数据不一致性。Nirkin等人[38]使用来自所提出的面部识别和上下文识别网络的信号来检测深度伪造。在本文中，我们将一致性学习引入深度伪造检测，并提出了一种端到端的学习架构，该架构通过一次向前传递来估计图像的自一致性，同时捕获图像内此外，而不是只使用原始图像，我们设计的I2G，以解决几个挑战，以适应人脸伪造检测更好地提供PCL与训练图像，从多个来源精心缝合。15025^尺寸H×W（见附录）。我们对M进行上采样^^ ^您的位置：M^PPP√′C联系我们WH输入图2：PCL架构的可视化。一致性分支的重点是根据它们的源特征来测量图像块的一致性。在源特征图之后应用分类分支，并预测用于深度伪造检测的二进制分数3. 我们的方法给定输入图像，我们的目标是检测主体的身份或表达是否被另一主体的身份或表达替换。观察到深度伪造由来自具有不同源特征的不同源的图像拼接，我们探索通过测量图像内的源特征一致性来学习用于深度伪造检测的有效且鲁棒的表示更具体地说，我们提出了一个多任务学习架构，如图所示。二、一致性分支被优化以预测每个图像块的一致性图，指示其源特征与所有其他特征的一致性。分类分支被应用于源特征并输出二进制标签以用于评估目的。该模型在一致性和分类丢失方面进行训练，并由I2G提供注释。3.1. 成对自我一致性学习（PCL）一致性分支计算图像中所有可能的局部块对的成对相似性得分，并且其中θ是嵌入函数，由1×1卷积实现，C′是嵌入维数，σ是Sigmoid函数。我们在所有补丁上重复此过程{Ph，w|1≤h≤H ′，1≤w≤W ′}，最终得到大小为H ′×W ′ × H ′ × W ′的4D一致性体积V。为了提供关于修改区域的可视化线索，我们在所有片上融合4D一致性体积V，并生成2D全局热图M，到大小为H×W的M，以匹配用于可视化的输入大小。一致性分支的优化需要4D给定大小为H×W的掩码M指示输入X的操纵区域，我们首先通过双线性下采样创建其与H′×W′ 我们通过计算其自身值Mh，w与所有其他值之间的逐元素差来获得第（h，w）个补丁的地面真实2D一致性映射M P h，w。预测4D一致体积V1。Giv en a预处理MPh，wM=1 − |Mh，w−M|、（二）大小为H×W ×3的视频帧X作为输入，我们首先馈送它并提取大小为F的源H ′× W ′ × C，其中H ′、W ′和C分别是高度、宽度和通道大小。对于源特征图中的每个补丁h，w，我们将其与所有其余补丁进行比较以测量其特征相似性，并获得大小为H ′ × W ′的2D一致性图M Ph，w，一致性得分在[0，1]范围内，其中上标表示基本片的位置。到具体来说，对于任何一对补丁i和j，我们使用其提取的点积相似性[53]来计算它们的其中h，w是位置（h，w）中的标量值，并且MPh，w的大小为H′×W′。对于MPh，w，a的每个条目接近1的值表示两个片是一致的，否则接近0为了获得地面真实4D全局地图V，我们针对所有片计算MPh，w注意，原始图像的V应该是1，即所有值都等于或接近1的4D体积我们使用二进制交叉熵（BCE）损失来监督在4D一致性体积V1上的一致性预测，并且更正式地，特征向量fi和fj，两者的大小为C，以估计它们的一致性评分：1LPCL=Nh，wΣ，h′，w′BCE（Vh，w，h′，wV^h，w，h′，w（3）s（ fi，fj）= σ. θ（f i）θ（f j）Σ、（1）其中h和h ′1，2，…， H ′，w和w ′ 1，2，…，W ′，N = H ′ × W ′ × H ′ × W ′。W'一致性分支H'W'W'H'H'W'源要素图H'一致性体积W'H'相似性成对FCRes Block分类损失房或Deepfake嵌入一致性损失嵌入骨干15026LKHKHK −K一致性分支学习根据其源特征预测输入的自一致性的表示，根据我们的主张，这可以在有效性和鲁棒性方面显著地有益于深度伪造检测然而，这些特征不能直接做出用于评估目的的推断。因此，在源特征图之后应用分类分支以预测输入是真实的还是虚假的。更具体地，所提取的源特征被馈送到另一个源特征中。目标图像源图像伪造的图像模糊遮罩卷积运算在此之后构建全局平均池化和全连接层作为分类器，其输出输入是真的还是假的概率分数。我们使用两类交叉熵（CE）损失CLS来监督分类分支中的训练。我们模型的整体损失函数如下：L=λLPCL+LCLS，（4）超参数λ第4.5节中的消融研究表明，选择较大的λ值可显著改善性能。这一观察结果表明，从一致性分支学习的表示在成功中起着主导作用。3.2. 不一致图像生成器（I2G）训练PCL需要对加工区域进行块级注释，这在当前现有的数据集中并不总是可用的为了提供这种训练数据，我们提出了不一致图像生成器（I2G），以从原始图像生成第3.1节中讨论的地面真实掩模M。去瓜尔-保证足够数量和多样性的训练数据I2G以最少的努力，通过用真实图像代替使用GAN或VAE [28，8，15，22]的面部图像合成来降低计算成本。因此，I2G可以在训练期间支持CPU上的动态数据生成，并用作深度伪造检测的数据增强的一部分。类似的自我监督方法[27，23，35，8]已经在其他任务或方法中进行了研究，用于深度伪造检测。I2G特别解决了几个挑战，以更好地适应PCL。首先，因为人脸图像具有一些强的结构偏差，所以与人脸外壳区域的拼接可能在源特征不一致性与人脸边界之间产生不期望的相关性 I2 G使用弹性变形-[40]以改善掩模M的多样性，从而消除了这些虚假相关。其次，因为在-为了使deepfake图像更逼真，tackers将有意地尝试移除源特征，PCL需要利用不易受这些方法影响的源特征。I2 G从数据生成中的一组详尽的混合方法中随机选择一种，因此PCL学习的表示可以在-图3：I2G的工作流程图示。对于每个源图像和目标图像对，通过取地标的凸包，然后进行弹性变形和高斯模糊来生成变形掩模目标图像的掩蔽区域被替换为具有混合技术的源图像的掩蔽区域[39，35]。算法1不一致图像生成器（I2G）输入：大小为（H，W，3）的目标视频帧Xt。输出：生成的视频帧Xg和掩码M。地标探测器K：RH×W ×3→R68×2。1：获得视频帧X t及其界标（X t）。2：找到不同ID的随机源帧X s，其满足（Xt）（X s）2<ε，其中阈值ε > 0。3：使用标志将X s与X t对齐。4：计算（X t）的凸包。5：通过弹性变形和模糊获得掩模M。第六章：将X t和X s与M混合得到X g。诱惑第三，我们期望学习的表示在训练过程中能够广泛应用于各种来源，甚至是看不见的来源I2G将图像增强添加到生成过程中以实现此目标。增强方法包括JPEG压缩、高斯噪声/模糊、亮度对比、随机擦除和颜色抖动。I2G的工作流程在Alg. 1和illustrated在图。3.第三章。给定目标视频帧Xt，我们取其68点面部标志，并从具有不同身份的不同视频中检索另一帧，使得两帧中的面部具有以2范数测量的相似标志。对于一对图像，我们首先将他们的脸与预先计算的地标对齐，然后通过取地标的凸包来检测面部区域。弹性变形[40]也用于变形凸包：我们使用从高斯分布采样的随机位移矢量生成平滑变形，标准偏差为6到12个像素，粗4×4网格，并使用双三次插值计算每像素位移。变形的掩模通过大小为16的高斯核进一步模糊。最后，将掩模内的源帧的面部区域缝合到目标帧，使用各种混合方法[39，35]。I2G输出伪造的视频帧和对应的掩码M。对准调整地标凸包弹性变形150274. 实验我们评估了我们的方法（PCL + I2G）对七个公开可用的数据集上的多个国家的最先进的方法的性能。首先，我们证明了我们的模型在数据集内设置下实现了令人信服的性能，其中在同一数据集上进行训练和测试。为了证明我们的模型具有卓越的泛化能力，我们通过仅使用I2G增强的真实视频训练模型并在未见过的数据集上进行测试来进行跨数据集评估。消融研究探索了我们模型中每个组件的贡献，例如PCL和I2G的影响。4.1. 实现细节预处理。对于每个原始视频帧，通过使用[24]检测和跟踪面部裁剪，并且通过公共工具箱[3]检测地标。我们使用ImageNet mean [0. 485，0。456，0。406]和标准偏差 [0. 229 ， 0 。 224 ， 0 。 225] ，并将其调整为256×256。我们还使用标准的数据增强，包括JPEG压缩，高斯噪声/模糊，亮度对比度，随机擦除和颜色抖动。网络架构。我们采用ResNet-34 [12]作为主干，并在Ima-geNet[7]上使用预训练的权重进行初始化。给定大小为H×W ×3的预处理视频帧X，我们首先将其馈送到主干，并在大小为H′×W′ ×256的conv3层之后提取特征F，其中H′=H/16，W′=W/16。这里，每个补丁对应于原始图像中的16×16区域训练对于每个epoch，我们从每个视频中随机采样32帧，来自K个视频的训练样本总数为32 × K。该模型使用Adam优化器[18]训练150个epoch，批大小为128，be- tas 0。九比零。999和epsilon10−8。学习率在训练迭代的第一个季度从0线性增加到5×10-5，并在最后一个季度衰减到零超参数λ默认设置为104.2. 设置培训数据。我们的每个训练样本都是（X，V，y）的形式，其中X是输入视频帧，V是地面实况4D一致性体积，y是二进制标签。对于实帧，V是1的4D张量，指示图像是自一致的，并且y是零。在我们的设置中有两种类型的伪造样品第一种类型是来自现有deepfake数据集的deepfake视频帧，我们为其找到相应的真实视频帧并计算它们之间的结构相异性（DSSIM）[55]。掩模然后通过采用DSSIM的高斯模糊，然后进行阈值处理来生成M。V通过等式从M计算。2，y是1。第二类是增强的假图像在真实图像上通过I2G，其中V是用掩模计算的从I2G，y是1。通过使用I2G增强的数据集进行训练，无论何时在训练期间对真实数据（Xt，1，0）进行采样，都有50%的机会将其动态地由I2G转换为假数据（Xg，V，1），其中Xg和M是如Alg中所述的I2G的输出。1和V用M通过Eq. 二、更具体地说，在数据集内实验中，我们的train set包括来自数据集的train split的原始和deepfake视频（待评估）。除非另有说明，我们还利用假样本增加I2G作为数据增强。在跨数据集实验中，我们遵循先前的工作 [23] ，并仅使用来自 FaceForensics++（FF++）[41]原始版本的真实视频进行训练，并通过I2G进行增强请注意，跨数据集设置更接近真实世界的场景，其中潜在的攻击类型是未知的。测试数据。FaceForensics ++（FF++）[41]是迄今为止最受欢迎的deepfake检测基准。它的原始版本包含700个用于测试的视频，其中包括来自4种不同算法的140个pris-tine和560个假视频，这些算法是Deepfakes（ DF ） [11] ， Face 2Face （ F2 F ） [44] ， FaceSwap（ FS ） [20] 和 NeuralTextures （ NT ） [45] 。DeepfakeDetection（DFD）[10]数据集与FF++合并发布Celeb-DF-v1（CD 1）-v2（CD 2）[28]数据集由使用高级合成过程的高质量伪造名人视频组成。DeepfakeDetection Challenge（DFDC）[8]公开测试集是针对Deepfake Detection Challenge 发布的，DFDC Preview（DFDC-P）[9]是其初步版本。DFDC和DFDC-P包含许多极低质量的视频，这使得它们非常具有挑战性。DeeperForensics-1.0（DFR）[15]使用新的面部ID和更先进的技术修改了FF++中的原始视频。更详细的统计数字载于附录。评估指标。我们使用文献中最常用的指标报告了deepfake检测结果，包括ROC曲线下面积（AUC）和平均精度（AP）。较高的AUC或AP值指示较好的性能。为了为未来的工作提供一个全面的基准，我们在附录中报告了我们在所有数据集上的AUC，AP以及等错误率（EER）方面的除非另有说明，否则实验中的评估结果是视频级的，通过对视频帧的分类分数求平均来计算。4.3. 数据集内评价数据集内评估在文献中被大量采用，其中重点是专业化而不是一般化。为了与现有的工作进行比较，我们考虑了三个最流行的数据集，即FF++，CD 2和DFDC-P。给定一个数据集，我们的模型在来自训练分割的真实和deepfake数据上进行训练，性能是15028方法主干训练集测试集（AUC（%））表1：FF++的数据集内评价结果。我们的方法在具有较小主干的所有操作类型上执行得更好。方法主干训练集试验集（AUC（%））CD2[51]第51话我的世界Tolosana等人[46]第四十六话S-MIL-T [25] Xception CD2 98.84PCL + I2G ResNet-34 CD299.98表2：CD2的数据集内评价结果。我们在AUC方面实现了饱和性能。方法主干训练集试验集（AUC（%））表3：DFDC-P的数据集内评价结果。我们的方法在AUC方面将现有的最佳结果提高了3.28%。使用相应的测试集进行评估。FF++、CD 2、DFDC-P的结果分别见表1、表2、表3。平均而言，与现有技术相比，我们的方法将这三个数据集的AUC评分从96.45%提高到98.05%。我们的模型在CD2（99。98%）和FF++（100. 00%的DF，99。57%在F2F，100。00%在FS上，九十九。 58% ），超过了所有现有的工作。对于DFDC-P，我们的模型优于最先进的结果3。AUC评分为28%请注意，报告的结果由于数据集的不可忽略部分具有极低质量的事实，DFDC-P相对较低，例如，一些视频中的人脸几乎无法识别。我们还在CD2上的帧级AUC方面与先前的工作进行了比较，并且比最新技术水平[31]高出8%（更多详细信息请参见附录）。4.4. 跨数据集评价泛化能力是衡量算法优越性的重要指标在现实世界中，防御方法无法获得攻击的任何先验知识。跨数据集评估是一种广泛使用的评估算法泛化能力的方法。表4显示了对以下各项的跨数据集评价结果：FF++和DFD，我们只使用FF++的真实视频进行训练。我们模型的性能与FF++上的Face X射线[23]相当，达到了令人信服的结果，超过99。00%的AUC。有趣的是，我们的模型和Face X之间的性能差距射线[23]要大得多（99.07% vs. 93.47%。FF++的测试数据可能与其训练数据高度相关，因为它们很可能是从相同的源收集的，而相关性在DFD中消失。结果表明，预测源特征一致性可以有效地推广到不同的源线索，而不会过拟合到来自同一生成方法的数据之间的任何虚假的我们在五个更高级的数据集上进一步评估了我们的模型，如表5所示。特别是，我们的模型在CD1和CD2上的表现超过现有技术约18。00%和13。00%，并提供了DFR（99.51%）和DFDC的开创性跨数据集基线（67.52%）。在DFDC-P上，我们的性能与面部X射线[23]相当，其中我们得到较低的AUC但较高的AP评分，如表6所示。我们计算了七个数据集中五个数据集的平均 AUC 得分（除了没有发布基准的 DFR 和DFDC），发现我们的模型的性能优于最先进的水平（92.18%与2010年的数据集相比）。86.03%）。同时，我们观察到我们的模型和最先进的方法都不能在DFDC/DFDC-P数据集上获得有吸引力的结果，这促使我们在第4.7节和第4.6节中进行故障分析。4.5. 消融研究PCL的影响。我们使用λ来平衡一致性损失和分类损失，如等式2所示。4.第一章通过设置λ=0，我们禁用PCL，并获得相当于vanilla ResNet-34的网络架构，具有二进制分类损失。为了展示我们的一致性损失的优势，我们用增加的λs训练模型，并用四个测试集评估它们的跨数据集泛化。如表7所示，我们遵循交叉数据集设置，并在通过I2G增强的FF++的真实数据上训练所有模型，并报告AUC评分用于性能比较。我们观察到λ>0的训练显著优于λ=0的训练。特别是在DFDC上的性能不佳，DFF2fFSNTFF++美国[54]FF++99.5198.5994.8697.9697.73[51]第五十一话FF++、CD2、DFDC----98.50美国[41]FF++99.3899.5399.3697.2998.89[23]第二十三话FF++99.1299.3199.0999.2799.20[25]第二十五话FF++99.8499.3499.6198.8599.41PCL + I2G ResNet-34FF++100.0099.57100.0099.5899.79DFDC-PTolosana等人[46个]XceptionDFDC-P91.10S-MIL-T [25]XceptionDFDC-P85.11PCL + I2GResNet-34DFDC-P94.3815029方法主干训练集测试集（AUC（%））DFF2fFSNTFF++DFD面部X光检查[23]HRNetFF++（实际数据）99.1798.5798.2198.1398.5293.47PCL + I2GResNet-34FF++（实际数据）100.0098.9799.8697.6399.1199.07表4：FF++和DFD的交叉数据集评价结果。我们的模型与FF++上的Face X-ray [23]相当，但在AUC方面，DFD的性能更好5.67%，网络参数更少。方法主干训练集测试集（AUC（%））表5：DFR、CD 1、CD 2、DFDC和DFDC-P数据集的交叉数据集评价结果。我们的模型在CD1和CD2上的表现优于现有技术，约18。00%和13。00%，并提供了DFR（99.51%）和DFDC（67.52%）的开创性跨数据集基线。对于DFDC-P，与现有技术相比，我们具有较低的AUC评分但较高的AP评分（参见表6）。方法主干训练集测试集（AP（%））CD1DFDC-P面部X光检查[23]HRNetFF++73.3372.65PCL + I2GResNet-34FF++（实际数据）98.9782.94表6：CD 1和DFDC-P数据集的交叉数据集评价结果。我们的模型可以更精确地识别攻击视频。证明15AUC为8%结果验证了在训练期间使用大λ是有益的，这也表明PCL在成功中起主导作用I2G作为联合训练的效果。我们一直在使用I2G增强的数据集上的一致性损失进行训练。I2G动态生成假数据，增强训练数据的多样性，从而提高性能和泛化能力。为了证明I2 G的效果，我们通过在DF或DFDC-P上进行训练并在DFR、CD 2、DFDC和DFDC-P测试集上进行基准测试来表8显示，在I2G增强的数据上训练的模型优于基线中使用的常规数据增强和混合方法的直接组合。特别地，我们在具有或不具有I2G的DF上训练模型，而后者的性能通过平均AUC得分7来改进。四个测试集的18%。与以前的模型相比，使用DFDC-P训练集训练的模型在DFDC和DFDC-P测试集上具有明显更好的性能I2G提高了模型的通用性，如DFR的性能从51. 61%至92。AUC为25%，对DFDC-P的性能有轻微牺牲。I2G作为预训练的效果。即使计算深度伪造的DSSIM掩码是不可行的，人们总是可以使用我们的一致性损失来用任何通过I2G增强的真实数据来预训练模型在此之后，可以使用整个数据集进行任何用于deepfake检测或相关任务的标准训练特别地，我们进行了一个实验，其中我们首先在由I2 G增强的DF的真实数据上预训练ResNet-34以进行一致性预测，并使用DF的真实和虚假数据进行本文报告了DFR、CD2、DFDC、DFDC-P的评价结果。57%，91. 88%，68。95%，79. 17%（84. 百分之八十九平均值）。这些结果并不令人惊讶地低于联合训练，但仍显著优于基线（平均79.19%）。此外，我们的预训练模型可能不一定是从已建立的deepfake数据集中训练出来的。I2 G可以应用于任何人脸图像或视频数据集，例如IMDb-Face [50]和YouTube Faces [56]，为深度伪造相关研究提供更强大的预训练模型。贴片大小的选择。我们评估使用不同的补丁大小的有效性。从概念上讲，较大的补丁得到粗糙的一致性地图，这可能会降低其伪造检测的功效，而较小的补丁可能不包含足够的源特征信息，并引起额外的计算成本。特别地，我们在FF++上使用4 × 4、8 × 8、16 × 16和32 × 32的补丁大小评估表4中的交叉数据集模型，并获得98。32%，98。百分之三十五九十九。11%，98。AUC分别为74%4.6. 定性结果PCL不仅改进了深度伪造检测的表示学习，而且还可以用于生成DFRCD1CD2DFDCDFDC-PDang等人[5] Xception + Reg.乌干达民主民主阵线[57]、DFFD [5]-71.20---DSP-FWA [27] ResNet-50公司简介-69.30--美国[41]公司简介-73.04--Masi等人[31] LSTM公司简介-76.65--[23]第二十三话公司简介80.58--80.92PCL + I2G ResNet-34FF++（实际数据）99.4198.3090.0367.5274.3715030^Deepfake预测Deepfake预测真实图像预测真实图像预测预测为改性一致性预测为改性一致性预测为改性一致性预测为改性一致性Deepfake区域地图房区域地图Deepfake区域地图房区域地图图4：预测的一致性图M的可视化，其试图定位修改的区域。我们使用在交叉数据集中通过I2G增强的FF++的真实视频训练的模型，并且根据预测的一致性体积计算预测，如下所示：在3.1节中提到。如第4.2节中所讨论的，通过DSSIM生成地面实况修改区域。方法超参数DFR测试集CD2(AUC（%））DFDCDFDC-PAvgI2Gλ=095.1278.1851.7269.9373.74PCL + I2Gλ=199.186.5260.6574.1380.10PCL + I2Gλ=1099.4190.0367.5274.3782.83PCL+ I2Gλ=10099.7890.9863.2274.36八十二点零九分表7：PCL对DFR、CD 2、DFDC和DFDC-P数据集影响的消融研究。使用大λ显著提高了跨数据集性能，特别是在DFDC上。方法训练集测试集（AUC（%））平均值在一些失败的案例中，我们的模型错误地捕捉到了不一致，这可能是由光照和不寻常的纹理引起的此外，我们观察到，由于高压缩或高/低曝光，较低质量的样本会导致假阴性预测4.7. 限制虽然我们的结果是令人鼓舞的，我们的方法仍然有局限性，这提高了未来的工作机会。首先，由于伪造者和检测者之间的游戏是一场军备竞赛，人们可以期待任何发表表8：关于I2 G作为联合训练对DF和DFDC-P数据集的影响的消融研究。 I2G可以增强训练数据的多样性，从而提高模型的泛化能力。可解释的可视化线索（Sec. 3.1）关于修改的区域。图4可视化了PCL生成的一些示例以及相应的输入图像和地面实况。当馈送真实图像时，在大多数情况下，可视化是纯空白图像，指示输入的源特征是一致的当测试深度伪迹时，预测的一致性图可以充分地与地面实况匹配。我们还计算了真实图像的一致性体积的平均值，并得到0。9854和0。9866分别使用数据集内和跨数据集模型这些统计数字表明，PCL预测正确预测样本的一致性体积中的所有条目与高平均置信度一致，而不是简单地分割整个面部区域。我们也投资-第二，由于错误的预测样本表明，我们的模型可以进一步改善低质量的数据。5. 结论我们提出了成对的自一致性学习（PCL）来检测基于缝合的技术产生的人脸伪造和本地化的操纵区域，基于一个较少注意的线索：修改后的图像内的源特征的不一致性PCL仅包含少量参数，可作为普通骨干网的插件模块. 我们还开发了一种新的轻量级图像合成方法，称为不一致图像生成器（I2G），通过动态生成伪造图像以及其操作区域的注释来有效地支持PCL训练。实验结果表明，PCL和I2G的竞争力对国家的最先进的方法在七个流行的数据集，为未来的研究提供了一个强有力的基线PCLDFDFR90.42CD284.59DFDC66.26DFDC-P75.4979.19检测方法依赖于以最佳效果去除堡垒在不久的将来。例如，整个面部合成PCL + I2GDF99.6491.9273.0880.8386.37训练直接输出整个IM的生成模型PCLDFDC-P51.6182.8269.1495.5374.78年龄，这应该是我们的假设自洽的;它是PCL + I2GDFDC-P92.2587.6571.1294.3886.35不知道PCL是否可以处理这种类型的面部伪造。秒-15031引用[1] 毛罗 · 巴尼卢卡 · 邦迪尼科 · 洛 · 奥博内蒂尼PaoloBestagini ， Andrea Costanzo ， Marco Maggini ，Benedetta Tondi，and Stefano Tubaro.使用卷积神经网络的对齐和非对齐视觉传达和图像表示杂志，49：153[2] Luca Bondi ， Luca Baroffio ，Da vidGuéera ， PaoloBestagini，Edward J Delp和Stefano Tubaro。用卷积神经网络识别摄像机模型的第一步IEEE Signal Processing Letters，24（3）：259[3] Adrian Bulat和Georgios Tzimiropoulos 还有多远解决2D和3D人脸对齐的问题(and 230，000个3D面部标志的数据集在proc IEEE/CVF计算机视觉国际会议，第1021- 1030页，10月。2017年22 -29日。[4] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-Woo Ha.StarGAN v2 ：多领域的多样化图像合成在 procIEEE/CVF计算机视觉和模式识别会议，第8188-8197页，2009年6月。2020年14 -19日。[5] Hao Dang，Feng Liu，Joel Stehouwer，Xiaoming Liu，andAnil Jain 数字人脸篡改的检测。在 Proc. IEEE/CVFConference on Computer Vision and Pattern Recognition，第5781-5790页[6] 奥斯卡·德利马、肖恩·富兰克林、什雷斯塔·巴苏、布莱克·卡尔-沃斯基和安奈特·乔治使用spa-tiotemporal卷积网络进行深度伪造检测。arXiv：2006.14749，2020。[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，还有李飞飞ImageNet：一个大规模的分层图像数据库。在 Proc. IEEE/CVF Conference on Computer Vision andPattern Recognition，第248-255页，Jun. 2009年10月20日至25日。[8] Brian Dolhansky ， Joanna Bitton ， Ben Pflaum ， JikuoLu，RussHowes ， Menglin Wang ， and Cristian Canton Ferrer.Deepfake检测挑战数据集。arXiv：2006.07397，2020。[9] Brian Dolhansky Russ Howes Ben Pflaum Nicole Baram克里斯蒂安·坎顿·费雷尔Deepfake检测挑战（dfdc）预览数据集。arXiv：1910.08854，2019.[10] 尼克·杜福尔和安德鲁·古利。贡献数据deepfake 检测研究，2019年。https：//ai.googleblog.com/2019/09/contributing-data-to-deepfake-detection.html。[11] FaceSwapDev

下载后可阅读完整内容，剩余1页未读，立即下载