数字人脸篡改的检测与定位

174 浏览量更新于2023-10-23 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5781数字人脸篡改党浩刘峰JoelStehouwer刘晓明刘Anil Jain计算机科学与工程密歇根州立大学，East Lansing MI 48824摘要检测篡改的面部图像和视频是数字媒体取证中越来越重要的课题随着先进的面部合成和操纵方法的可用，正在创建新类型的假面部表示，这已经引起了对它们在社交媒体中的使用的重大关注因此，检测被操纵的人脸图像并定位被操纵的区域是至关重要的。我们建议利用注意力机制来处理和改进分类任务的特征图，而不是简单地使用多任务学习来同时检测操作图像和预测操作学习的注意力地图突出信息区域，以进一步改进二进制分类（真实人脸与真实人脸）。假脸），并且还可视化被操纵的区域。为了使我们的研究操纵的脸检测和定位，我们收集了一个大规模的数据库，其中包含许多类型的面部表情。通过这个数据集，我们对数据驱动的假人脸检测进行了全面的分析我们表明，使用注意力机制，提高了面部伪造检测和操纵区域定位。代码和数据库可在cvlab.cse.msu.edu/project-ffd.html 上获得。1. 介绍人脸在人与人之间的交流和边信息的联想中起着重要的作用，例如，、性别和年龄与身份。例如，人脸识别在我们的日常生活中越来越多地用于访问控制和支付等应用[50]。然而，这些进步也诱使恶意行为者操纵面部图像来发动攻击，旨在被认证为真正的用户。此外，对面部内容的操纵已经变得无处不在，并引起了新的关注，特别是在社交媒体内容中[41深度学习的最新进展导致面部合成的真实性急剧增加，并使“假”的快速传播成为可能。*表示作者的同等贡献。图1.给定一个真实的人脸图像，有三种类型的面部伪造攻击：物理欺骗攻击（打印和重放攻击），对抗攻击[18]和数字操纵攻击。新闻因此，为了减轻负面影响并使公共安全和隐私受益，至关重要的是开发有效的解决方案来对抗这些面部伪造攻击。如图1、面部伪造攻击主要有三种类型。i）物理欺骗攻击可以像在纸上打印人脸一样简单，一个电话，或复杂的三维面具[8，24，34，35]。ii）对抗性面部攻击生成高质量和个性化的可以逃避自动面部匹配器的感知不可感知的对抗图像[18，20，37，57]。iii）通过变分自动编码器（VAE）[28，40]和生成对抗网络（GAN）[19]使数字操纵攻击变得可行，可以生成完全或部分修改的真实感人脸图像。在这三种类型中，这项工作只涉及数字操纵攻击，其目标是自动检测被操纵的面部，以及定位被修改的面部区域。我们使用术语数字面部操作方法分为四类：表情交换、身份交换、属性操作和整个面部合成（图13）。2）。3D面部重建和动画方法[17，32，48，64]广泛用于表情交换，例如Face2Face[47]。这些方法可以传输表达从一个人到另一个实时只有RGB相机。身份交换方法把一个人的脸换成一个-5782图2.我们的面部伪造检测方法处理的四种类型的人脸操作方法生成的脸给定一个人脸图像，我们的方法输出一个二元决策（真正的v。被操纵的面部）并经由估计的注意力图来定位被操纵的区域对于真实或完全合成的人脸，我们的估计地图被假设为均匀分布在[0，1]中。其他.例子包括FaceSwap[47，53]，它将著名演员插入电影剪辑中，他们从未出现过，DeepFakes[3]通过深度学习算法执行面部交换属性操作编辑面中的单个或多个属性，例如性别、年龄、肤色、头发和眼镜。GANs的对抗框架用于图像翻译[23，62，63]或给定上下文中的操作[10，45]，这使面部图像合成多样化。FaceApp[4]已经将面部属性操作作为消费者级别的应用程序推广，提供28个过滤器来修改特定属性[4]。第四类是全脸合成。在大量面部数据和GAN成功的推动下，任何用户都能够生成完全合成的面部图像，其真实性使得即使是人类也难以评估它是真实的还是被操纵的[15，25，26]。由于缺乏大规模的人脸篡改数据集，严重阻碍了人脸篡改检测的研究。现有的方法通常在具有有限操作类型的小数据集上进行评估，包括Zhou等人。[61]，Deepfake [29] 和 FaceForensics/FaceForensics++ [41 ，42]。纠正这种在这个问题上，我们收集了一个多样化的假脸数据集（DFFD），260万张图片来自所有四类数字面部处理。由于人脸图像的修改可以是全部或部分的，我们假设一个训练有素的网络将在空间上收集不同的信息，以检测被操纵的人脸。We hypothesize that correctlyestimating this spatial information can enable the networkto focus on these important spatial regions to make its deci-sion.因此，我们的目标不仅是检测被操纵的脸，而且还通过估计图像特定的注意力图来自动定位被操纵的区域，如图1所示。3.第三章。我们提出了我们的方法来估计的注意力地图在监督和弱监督的方式。我们还证明，这种注意力地图是有益的，最后面部伪造检测任务最后，为了量化注意力图估计，我们提出了一种新的注意力图准确性评估指标在未来，我们将预测被操纵的人脸图像和视频的注意力地图，这将揭示有关操纵的类型、大小甚至意图的线索。总之，这项工作的贡献包括：一个全面的假脸数据集，包括0.8M真实和1.8M假脸，由一组不同的人脸修改方法和附带的评估协议生成一种新颖的基于注意力的层，用于提高分类性能并产生指示操纵的面部区域的注意力图。一种新的度量，称为逆交叉非包容（IINC），用于评估注意力地图，产生比现有度量更一致的评估。数字面部伪造检测的最新性能，用于可见和不可见的操作方法。2. 相关工作数字人脸处理方法。随着计算机图形学和计算机视觉的快速发展，人类越来越难以区分真实面孔和人工面孔[42]。基于图形的方法被广泛用于身份或表情传递，首先为源和目标面部重建3D模型，然后利用相应的3D几何体-尝试在它们之间变形。特别地，Thieset al.[46] 使用 RGB-D 相机进行面部再现的表情交换。Face2Face[47]是一个只使用RGB摄像头的实时人脸识别系统。扩展工作[27]将源演员的完整3D头部位置、旋转、表情和眨眼转移到目标演员的肖像视频中，而不是仅对表情进行操作。 “Synthesizing Obama”[ FaceSwap在保留表情的同时替换了3D毫无疑问，深度学习技术在合成或操纵面部方面很受欢迎[48]。术语Deep-fakes已经成为基于深度学习的人脸身份替换的同义词[42]。Deepfakes有各种公开的实现，最近的是ZAO[5]和FaceAPP[4]。FaceAPP可以选择性地修改面部属性[4]。基于GAN的方法可以生成完整的合成人脸，包括非人脸背景[25，26，49]。假面孔基准。不幸的是，在社区中，用于人脸操纵检测的大型和多样的数据集是有限的。 Zhou等[61]收集数据集，由iOS应用程序和开源软件生成的面部交换图像随着FaceForensics [41]的发布，基于视频的面部操作变得可用，其中包含来自1，000多个视频的0.5MFace2Face扩展版本FaceForensics ++[42]，进一步5783图3.我们的面部操作检测的架构。给定任何骨干网络，我们提出的基于注意力的层可以插入到网络中。它将高维特征F作为输入，使用基于MAM或基于回归的方法来估计注意力图Matt，并将其与反馈到骨干中的高维特征逐通道相乘。除了二元分类监督L分类器之外，监督或弱监督损失L图可以被应用于估计注意力图，这取决于地面实况操纵图Mgt是否可用。使用Deepfake[3]和FaceSwap操作来增加集合。然而，这些数据集仍然局限于两种假类型：身份和表达式交换。为了克服这一限制，我们收集了第一个具有各种假类型的假人脸数据集，包括来自FaceForensics++的身份和表情交换图像，使用FaceAPP操作的人脸属性图像，以及使用StyleGAN [26]和PGGAN [25]的完整假人脸图像。操作定位。有两种主要的方法来定位被操纵的图像区域：分割整个图像[9，39]，并通过滑动窗口重复执行二元分类[42]。这些方法通常是通过多任务学习与广告监督，但他们不一定提高最终的检测性能。相比之下，我们提出了一种注意力机制来自动检测人脸图像的操作区域，这需要很少的额外的可训练参数。在计算机视觉中，注意力模型已广泛用于图像分类[12，51，56]，图像修复[33，60]和对象检测[11，59]。注意力不仅用于选择聚焦位置，而且还增强该位置处的对象表示，这对于学习给定任务的可概括特征是许多方法[22，54，55]利用注意力机制来提高CNN分类模型的准确性。剩余注意力网络[51]使用3D自我注意力图提高了分类模型的Choe等人[14]提出了一个基于注意力的dropout层来处理模型的特征图，这提高了CNN分类器的定位精度据我们所知，这是第一次将注意力机制用于人脸操作检测和定位。3. 该方法我们提出的操纵人脸检测作为一个二进制分类问题，使用基于CNN的网络。我们进一步提出利用注意力机制对分类器模型的特征图进行处理。学习的注意力图可以突出图像中影响CNN决策的区域，并进一步用于引导CNN发现更具区分力的3.1. 注意力地图的动机假设注意力图可以突出被操纵的图像区域，从而引导网络检测这些区域，这本身就应该对人脸伪造检测有用。事实上，注意力图中的每个像素将计算其感受野对应于输入图像中的操纵区域的概率。数字取证表明，由于真实图像的高频信息中的“指纹”，相机型号识别是因此，由于算法处理，检测该高频信息中的异常是可行的。因此，我们将注意力地图插入到骨干网络中，其中感受野对应于适当大小的局部补丁。然后，在注意力图之前的特征对相应补丁的高频指纹进行编码，这可以在局部水平上区分真实区域和操纵区域。注意力地图的构建和发展主要考虑了三个因素：i）可解释性，ii）有用性，iii）模块性。可解释性：由于人脸图像可以全部或部分修改，我们生成了一个注意力地图，预测修改的像素在哪里。通过这种方式，产生辅助输出以解释网络基于其决策的空间区域。这与以前的工作不同，因为我们使用注意力地图作为掩模，从网络中的高维特征中删除任何不相关的信息。在训练期间，对于其中整个图像是真实的面部图像，注意力图应该忽略整个图像。对于修改或生成的面，5784图像的至少一些部分被操纵，因此理想的注意力图应该仅关注这些部分。准确性：我们提出的注意力地图的一个目标是，它增强了网络的最终二进制分类这是通过将注意力地图反馈到网络中来忽略非激活的地区这自然是因为修改后的图像只能部分修改。通过注意图，我们可以去除部分假图像的真实区域，使得用于最终二值分类的特征纯粹来自修改后的区域。模块化：为了创建一个真正实用的解决方案，我们非常小心地维护解决方案的模块化。我们提出的注意力地图可以很容易地实现，并插入到现有的骨干网络，通过inclu-单个卷积层的选择、其相关的损失函数以及掩蔽随后的高维特征。这甚至可以通过仅初始化用于生成注意力图的权重来利用预先训练的网络来完成。3.2. 基于注意力的图层图4.平均图M<$和10个基本分量A。权值参数α∈Rn×1。我们利用一个额外的卷积和一个完全连接的卷积，层从特征图F回归权重（图（3）第三章。我们提出的MAM的好处是双重的。首先，这限制了地图估计的解空间。其次，降低了注意估计的复杂度为了计算统计基A，我们将主成分分析（PCA）应用于从FaceAPP计算的100个地面实况操纵掩模。前10个主成分被用作基础，即，n= 10。图4显示平均值图，10显示平均值图。模板（templates）。直接注册。实现Φ（·）的另一种方式是经由卷积运算f来估计注意力图：如图3、基于注意力的层可以是ap-F→f马特 . f可以由多个卷积层组成。应用于分类模型的任何特征图，并聚焦网络对歧视性区域的关注。具体地，基于注意力的层的输入是卷积特征图F∈RH×W×C，其中H、W、C分别是高度、宽度和通道数。为了简单起见，我们省略了mini-batch维度在这个符号中。然后我们可以通过处理F来生成一个注意图Matt=Φ（F）∈RH×W，其中Φ（·）表示处理算子。注意力模块的输出是细化的特征图F′，其计算为：F′=F<$Sigmoid（Matt），（1）其中⊙表示逐元素乘法。对于真实区域，注意力图中每个像素的强度接近于0，而对于假区域，注意力图中每个像素的强度接近于1。换句话说，注意力图的像素指示原始图像块是伪区域。这有助于后续的骨干网络将其处理集中在注意力地图的非零区域，即假区域。在这里，我们提出了两种方法来实现Φ(·): manipulation appearance model and direct regression.操纵外观模型（MAM）。我们假设任何被操纵的映射都可以表示为线性映射。一组地图原型的组合：或单层。这种直接回归方法是一种简单而有效的自适应特征精化方法。稍后，我们表明，我们提出的基于注意力的层的好处是实现的骨干网络的选择无关。这进一步验证了我们的主张，即所提出的解决方案是模块化的，并提高了注意力地图的有用性和灵活性。3.3. 损失函数为了训练二进制分类网络，我们可以从预先训练的骨干网络开始，或者从头开始学习骨干网络。无论哪种方式，总的训练损失是：L=L分类器+λ<$L映射，（3）其中Lclassifier是Softmax的二进制分类损失，Lmap是注意力图损失。λ是损失的重量。对于注意力地图学习，我们考虑三种不同的案例：监督、弱监督和无监督。监督学习。如果训练样本与地面真实注意力掩码配对，我们可以使用Eqn以监督的方式训练网络。4.第一章L映射=||Matt− Mgt||其中Mgt是地面实况操纵掩码。我们使用其中MMatt=M<$+A·α，（2）A ∈R（H·W）×1和A∈R（H·W）×n是预-零映射作为真实面部的Mgt，一映射作为完全合成的假面部的Mgt对于部分操纵的脸，我们将假图像与其对应的-定义了平均映射和映射的基函数。因此注意力地图生成可以被转换为估计在源图像中，计算绝对像素差异-在RGB通道中显示，转换为灰度，并区分5785表1.不同方面的假人脸数据集比较：静态图像的数量，视频的数量，假类型的数量（身份交换（同上）。swap），expressionswap（Exp.交换）、属性操作和整个图像合成（整个合成））和姿势变化。数据集年#静态图像#视频剪辑#假类型构成变化房假房假ID. 交换Exp. 交换Attr. 曼尼整个syn.Zhou等[第六十一届]2018二千零一十二千零一十--2---未知Yang等[58个]201824125249491---未知[29]第二十九话2018---6201---未知[42]第四十二话2019--一千三千21--[-30，30]FakeSpotter [52]2019六千五千-----2未知（我们的）2019五十八、七百零三二四零三百三十六一千三千21二十八加四十2[-90度，90度]255.第255章：一个人，一个人，一个人我们经验性地确定阈值0.1以获得二进制修改图为Mgt。我们证明这种强监督可以帮助基于注意力的层学习最具鉴别力的区域和特征，用于虚假人脸检测。弱监督学习为部分操作的面，有时源图像不可用。因此，我们不能获得如上所述的地面实况操纵掩模。然而，我们仍然希望在学习注意力地图时包括这些面孔。为此，我们提出了一个弱监督图损失，如在Eqn。第五章：.|，如果是真的|,if real对于人脸大小，真实样本和伪样本都具有低质量和高质量图像。这确保了性别、年龄和面部大小的分布不那么有偏见。真实的面部图像。我们使用FFHQ [26]和CelebA[36]数据集作为我们的真实人脸样本，因为其中包含的人脸涵盖了种族，年龄，性别，姿势，照明，表情，分辨率和相机捕获质量的全面变化。我们进一步利用FaceForensics++ [42]的源帧作为额外的真实人脸。标识和表达式交换。对于面部身份和表情交换，我们使用 Face- Forensics++ [42] 中的所有视频剪辑。FaceForensics++包含从YouTube收集的1，000个真实视频及其对应的L映射=| max(Sigmoid(Matt（五）））−0.75|.如果是假将3,000个被操纵的版本分为两组：使用FaceSwap和Deepfake的身份交换[3]，这种损失驱使注意力地图对于真实图像保持未激活，即，，均为0。对于假图像，无论是整体还是部分操作，整个地图上的最大地图值都应该足够大，在我们的实验中为0.75因此，对于部分操纵，任意数量的映射值可以是零，只要至少一个修改的局部区域具有大的响应。无监督学习当λ m设置为0时，所提出的注意力模块还允许我们在没有任何地图监督的情况下训练网络。注意力地图仅通过图像层面的分类监督，自动学习更多关于这些损失的分析可以在实验部分找到。4. 多样的假脸数据集我们的贡献之一是构建了一个包含不同类型假面孔的数据集，称为多样假面孔数据集（DFFD）。与以前的数据集相比，1、DFFD包含更大的多样性，这对于人脸操作的检测和定位至关重要数据收集。节中首先介绍了四种主要的人脸操作类型：身份交换、表情交换、属性操作和整体合成人脸。因此，我们在所有图像和视频帧中，47.7%来自男性受试者，52.3%来自女性，大多数样本来自21-50岁的受试者使用Face2Face进行表达式交换[47]。从公共网站[1]，我们收集了额外的身份交换数据，这些数据是由DeepFace Lab（DFL）[2]生成的视频。属性操纵我们采取两方法FaceAPP[4]和StarGAN [15]来生成属性操纵图像，4,000张FFHQ的面孔，CelebA的2,000张脸是各自的输入真实图像。FaceAPP作为一款消费级智能手机应用，提供28种滤镜来修改指定的面部属性，例如：性别、年龄、头发、胡子和眼镜。图像是随机修改的，在Android设备上运行的自动脚本。对于FFHQ中的每个人脸，我们生成三个相应的假图像：两个具有单个随机操作过滤器，一个具有多个操作过滤器。对于CelebA中的每一张脸，我们通过StarGAN生成40张假图像，StarGAN是一种基于GAN的图像到图像转换方法。总共，我们收集了92K属性操作的图像。全脸合成。最近的工作，如 PG- GAN [25] 和StyleGAN [26]在逼真的人脸图像合成方面取得了显着的成功。PGGAN提出了一种渐进式的生成器和判别器训练方案，可以产生高质量的图像。StyleGAN通过借鉴风格转换文学重新设计了生成器因此，我们使用PGGAN和StyleGAN的预训练模型来创建200k和100k高质量的整个假图像，分别。图5显示了DFFD的示例预处理。InsightFace [21]用于估计每个图像的边界框和5个地标。我们丢弃检测或对齐失败的我们进一步-5786图5.我们的DFFD中的示例面孔。(a)来自FFHQ、CelebA和FaceForensics++ 数据集的真实图像 / 帧 ; （ b ）来自FaceForensics++数据集的成对面部身份交换图像;（c）来自FaceForensics++ 数据集的成对面部表情交换图像;（ d）FaceAPP和StarGAN操纵的属性示例;（e）PGGAN和StyleGAN的整个合成面部。如第2.2节中所三点三为了增强一致性，如果假人脸图像是从源真实人脸图像导出的，则我们使用真实人脸图像的相同地标进行人脸裁剪。协议. 我们收集了781，727个真实图像样本，1，872，007个假样本。在这些样本中，我们随机选择58，703张真实图像和240，336张假图像的子集，以使我们的数据集大小易于管理，并平衡每个子类别的大小对于视频山姆-我们每秒提取一帧，以便在不牺牲DFFD的多样性的情况下减小尺寸。我们随机地将数据分成50%用于训练，5%用于验证，45%用于测试。从同一真实图像操纵的所有假图像与源图像在同一集中。5. 实验结果5.1. 实验装置实施详情：损失权重λ被设置为1，批次大小为16，其中每个小批次由8个真实图像和8个假图像组成。我们使用XceptionNet [16]和VGG 16 [44]作为骨干网络。这两个网络都在ImageNet上进行了预训练，并在DFFD上进行了微调。在所有实验中使用Adam优化器，学习率为0.0002根据骨干架构的不同，我们训练了75k-150k次迭代，这在NVidia GTX1080 Ti上需要不到8表2.消融对于注意力地图的益处，具有地图生成方法和监督的各种组合。[关键：监督和弱监督方法的最佳性能]地图监督AUCEERTDR 0。01%TDR 0。百分之一PBCAXception99.612.8877.4285.26−+ 注册，不吃99.762.1677.0789.7012.89+ 注册，不好喝99.662.5746.5775.2030.99+ 注册，辅助核算99.642.2383.8390.7888.44+ 注册，辅助核算-地图99.692.7348.5472.9488.44+ 妈妈，你好。99.553.0158.5577.9536.66+ 妈妈，喝得不好。99.682.6472.4782.7469.49+ 妈妈，你好。99.263.8077.7286.4385.93+ 妈妈，你好。- 地图98.756.2458.2570.3485.93对于所有的实验，我们使用第2.1节中定义的方案。4.第一章对于检测，我们报告等错误率（EER）、ROC 曲线下面积（ AUC ）、 0.01% 错误检测率（FDR）下的真检测率（TDR）（记为TDR 0。01%），以及FDR为0.1%时的TDR（表示为TDR 0. 1%）。对于本地化，使用已知的地面真实掩模，我们报告了逐像素二进制分类精度（PBCA），它将每个像素视为独立样本来测量分类精度，交集（IoU）和两个矢量化地图之间的余弦相似性。我们还提出了一种新的度量，称为逆交叉非包容性（IINC），用于评估面部操作定位性能，如第二节所述。5.45.2. 消融研究注意力地图的好处：我们使用SOTA Xcep-tionNet[16]作为我们的骨干网络。它基于具有残差连接的深度方向可分离卷积层。我们通过在中间流的块4和块5之间插入基于注意力的层来将XceptionNet转换为我们的模型，然后对DFFD训练集进行微调在选项卡中。2，我们显示了直接回归（注册）的比较。以及不同监督策略下的操纵外观模型（MAM），即：，无监督（unsup. 弱监督（weaksupervised））和监督（Sup. ）学习。虽然为了完整性列出了四个检测度量，但是考虑到一些度量的总体强性能和实践中低FDR的优选操作点，低FDR处的TDR（即，TDR 0。01%）应该是比较各种方法的主要指标。不出所料，监督学习在检测和定位精度方面都优于弱监督和无监督学习。此外，通过比较两种地图估计方法，基于回归的方法具有更好的监督性能。相比之下，基于MAM的方法是优越的弱监督或无监督的情况下，MAM提供了强约束的地图估计。最后，替代使用softmax输出，另一种方法是使用估计的注意力图的平均值进行检测，因为损失函数鼓励真实面部的低注意力值，而假面部的高注意力值的5787表3.我们的注意力层在两个骨干网络中。网络AUCEERTDR 0。01%TDR 0。百分之一PBCAXception99.612.8877.4285.26-Xception + Reg.99.642.2383.8390.7888.44Xception + MAM99.263.8077.7286.4385.93VGG1696.958.430.0051.14-VGG16 + Reg.99.463.4044.1661.9791.29VGG16 + MAM99.672.6675.8987.2586.74图6. XceptionNet主干的伪造检测ROC（有和没有注意力机制）。该替代方案的性能在行“*，sup. - 在Tab. 二、虽然这并不优于softmax输出，但它表明注意力图对于面部伪造检测任务本身是有用的。对主干网络的影响：我们还报告了较浅骨干网络VGG 16的结果[44]。选项卡. 图3比较了XceptionNet和VGG16有和没有注意力层。Reg.和MAM模型都经过以下训练：监督案件。我们观察到，使用注意力机制确实改善了对两个骨干的检测。具体地说，使用大而深的网络（Xception- Net），在给定大参数空间的情况下，注意力地图可以直接由网络产生这种直接产生的注意图比由MAM基估计的注意图能更好地预测被操纵的然而，当使用一个更小更浅的网络（VGG16）时，我们发现注意力地图的直接生成会导致参数空间的竞争。因此，包括MAM基地的先验减少了这种竞争，并允许提高检测性能，虽然其估计的操纵区域的地图基地的约束5.3. 伪造检测结果我们首先在图中显示DFFD上的ROC。六、显然，注意力地图的直接回归方法在低FDR下产生最佳性能的网络，这不仅是最具挑战性的场景，而且与实际应用最相关。此外，提出的注意力层大大优于传统的XceptionNet，特别是在较低的FDR。图7绘制了我们的Reg.的二进制分类精度，不同伪造DFFD类型的超级和基线。所提出的方法图7.对不同类型的伪造品的二进制分类精度表4.UADFV和Celeb-DF的AUC（%）方法训练数据UADFV [58][31]第三十一话双流[61]私有数据八十五155. 7中4 [6]MesoInception4 [6]私有数据84. 382岁1五十三6四十九6[58]第五十八话UADFV89岁。0五十四8FWA [30]UADFV九十七4五十三8[38]第三十八话[38]第三十八话私有数据七十2五十四0四十八8四十六岁。9多任务[39]FF六十五8三十六5Xception-FF++FF++八十4三十八岁。7XceptionDFFD75. 663岁9XceptionUADFV九十六。852岁2Xception民主力量联盟、DFFD九十七567岁6Xception+Reg.DFFD84. 2六十四4Xception+Reg.UADFV九十八4五十七1Xception+Reg.民主力量联盟、DFFD九十八4七十一2有益于所有考虑的伪造类型的伪造检测，特别是对于面部身份和表情交换。我们进一步验证了我们的模型在公共数据集上，SOTA面部伪造检测方法已经过测试。表4总结了所有方法的性能。请注意，这里显示的性能并不是严格可比的，因为并非所有方法都是在同一数据集上训练的。首先，我们使用DFFD训练的模型对UADFV和Celeb-DF数据集进行评估。如Tab.所示。4，我们提出的方法显着优于Celeb-DF上的所有基线，并在UADFV上取得了有竞争力的结果。FWA [30]和HeadPose [58]在UADFV上表现出卓越的性能，部分原因是它们是在相同的UADFV数据集上训练的，而该数据源不在我们的DFFD中。其次，为了公平比较，我们在UADFV训练集上训练我们的方法和基线Xception在这种情况下，我们的方法在UADFV上优于所有基线，并且在Celeb-DF上仍然显示出优越的泛化能力。第三，Tab中的结果。4还有助于我们确定改进的来源和数量考试-其中，75.6%→84.2%是由于注意力机制的改善，而52.2%→63.9%和57.1%→64.4%是由于DFFD数据集的更大多样性。5.4. 操作定位结果我们利用三个指标来评估注意力地图：交集超过并集（ IoU ），余弦相似性和像素二元分类精度（PBCA）。然而，这三个指标不足以对这些不同的地图进行可靠的评估。因此，我们提出了一个新的度量定义在Eqn。6，称为反向交叉非-5788图8.通过应用Xception + Reg估计注意力地图。辅助核算模型到真实图像和4种类型的操作图像，计算IINC和PBCA评分，地面真相虽然注意力地图的整体区域是正确的，但它们的保真度可以进一步提高。表5.用4个指标评估操作定位数据IINC ↓IoU ↑余弦相似度↓PBCA ↑所有房0的情况。015−−0的情况。998全是假0的情况。1470的情况。7150的情况。1920的情况。828部分0的情况。3110的情况。4010的情况。4290的情况。786完成0的情况。0770的情况。8470的情况。0950的情况。847所有0的情况。126−−0的情况。855安全壳（IINC），以评估预测图：如果Mgt=0且Matt=0，则为0图9.一个玩具的例子，比较4个指标在评估atten- tion地图。白色是被操纵的像素，黑色是真实的1IINC =3− |U|如果Mgt=0xorMatt=0，则为1电子邮件（2−|我|−|我|）的方式否则，（六）象素IOU和余弦指标不能充分反映不同的在情况下（a-c），PBCA是没有用的情况下（e-g）。在|M gt ||M gt|其中I和U是地面实况图Mgt和预测图Matt，re-turn之间的交集和并集。M和|M|分别是M的均值和L1范数。这两个分数项测量交叉点面积与相对面积的比值。每一张地图的面积，分别为。IINC通过测量两个地图的非重叠率（而不是像IoU中那样测量它们的组合重叠）来改进其他指标此外，当任一映射均为0时，IoU和余弦相似性是未定义的，这是真实人脸图像的情况。与其他指标相比，IINC的优势如图所示。9.第九条。请注意，IOU和余弦相似性对于情况（a-c）没有用处，其中分数相同，但映射具有非常不同的属性。类似地，PBCA对于病例（例如）没有用，因为错误分类的比率没有在PBCA中表示例如，case(g)高估了100%，情况（e）高估了200%，而情况（f）高估和低估了150%。IINC提供了最佳的排序，当它有用时，它会产生与IOU相同的订单，(d-g)，并且当PBCA有用时，与PBCA类似，情况（a-c）。因此，IINC是一个比以前的指标更强大的指标，用于比较注意力地图。我们的Xception + Reg.辅助核算用于预测注意力地图的模型如表1所示。五、图8，我们给出了一些测试示例的IINC和PBCA5789相反，拟议的IINC在所有情况下都是歧视性的。IINC评分的排序与定性人类分析一致。（d）和（e）中的第一种情况是PBCA高的示例，仅因为每个图的大部分未被激活。在这些情况下，由于地图之间的不重叠，IINC更具区别性。对于（d）和（e）中的第三种情况，IINC产生相同的分数，因为这些图显示相同的行为（大量的过度激活），而PBCA更喜欢（d）中的示例，因为其图具有较少的激活。6. 结论我们解决了数字处理的人脸图像检测和定位任务。我们提出的方法利用注意力机制来处理检测模型的特征图。学习的注意力地图突出信息区域以提高检测能力，并且还突出被操纵的面部区域。此外，我们收集了第一个包含不同类型的假面孔的面部伪造数据集。最后，我们的经验表明，使用我们的注意力机制提高了面部伪造检测和操纵面部区域定位。这是第一个统一的方法，解决了各种各样的面部操纵攻击，并实现了SOTA性能相比，以前的解决方案。5790引用[1] https://www.patreon.com/ctrl_shift_face网站。2019-09-04. 5[2] https://github.com/iperov/DeepFaceLab网站。2019-09-04. 5[3] DeepfakesGitHub.https://github.com/deepfakes/faceswap.访问日期： 2019-09-11.二三五[4] FaceApp. https://faceapp.com/app 网站。 2019-09-04. 二、五[5] ZAO 。 https://apps.apple.com/cn/app/zao/id1465199127. 2019-09-16. 2[6] Darius Afchar 、 Vincent Nozick 、 Junichi Yamagishi 和Isao Echizen。MesoNet：一个紧凑的面部视频伪造检测网络。在WIFS，2018年。7[7] Shruti Agarwal ， Hany Farid ， Yuming Gu ，MingmingHe，Koki Nagano，and Hao Li.保护世界领导人免受深度造假。在ICCVW，2019。1[8] Yousef Aiden ， Yaojie Liu ， Amin Jourabloo ， andXiaoming Liu.使用补丁和基于深度的CNN进行面部反欺骗。InIJCB，2017. 1[9] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。PAMI，2017年。3[10] David Bau ， Jun-Yan Zhu ， Hendrik Strobelt ， BoleiZhou，Joshua B Tenenbaum，William T Freeman，andAntonio Torralba.GAN夹层：可视化和理解生成对抗网络。2019年，在ICLR。2[11] Juan C Caicedo和Svetlana Lazebnik。使用深度强化学习的主动对象定位。在ICCV，2015年。3[12] Chunshui Cao，Xianming Liu，Yi Yang，Yinan Yu，Jiang Wang ， Zilei Wang ， Yongzhen Huang ， LiangWang，Chang Huang，Wei Xu，et al.仔细看，三思而后行：用反馈卷积神经网络捕获自上而下的视觉注意力。CVPR，2015。3[13] 陈畅，熊志伟，刘晓明，凤舞。摄像头痕迹消除在CVPR，2020年。3[14] 崔俊锡和沈贤贞用于弱监督对象定位的基于注意力的丢弃层。在CVPR，2019年。3[15] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. StarGAN：用于多域图像到图像翻译的统一生成对抗网络在CVPR，2018年。二、五[16] 弗兰切洛是肖莱特。Xception：使用深度可分离卷积的深度学习在CVPR，2017年。6[17] Kevin Dale ， Kalyan Sunkavalli ， Micah K Johnson ，Daniel Vlasic，Wojciech Matusik，and Hanspeter Pfister.视频脸更换。InTOG，2011. 1[18] Debayan Deb ， Jianbang Zhang ， and Anil K Jain. Ad-vFaces ：对抗性人脸合成 . arXiv 预印本 arXiv ：1908.05008，2019。1[19] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014。15791[20] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。见ICLR，2014年。1[21] Jia Guo ， Jikang Deng ， Niannan Xue ， and StefanosZafeiriou.具有双变压器的堆叠密集U型网络，可实现稳健的面部对齐。在BMVC，2018年。5[22] 杰虎，李申，孙刚。挤压-激发网络。在CVPR，2018年。3[23] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，

下载后可阅读完整内容，剩余1页未读，立即下载