面部伪造检测：基于深度学习的方法与标准化基准测试

28 浏览量更新于2023-10-12 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1FaceForensics++：学习检测被操纵的面部图像AndreasR？ ssler1Da videCozzolino2LuisaVerdoliva2ChristianRiess3Justus Thies1 Matthias Nießner11慕尼黑工业大学2那不勒斯费德里科二世大学3埃尔朗根-纽伦堡FaceForensics++是一个面部伪造数据集，使研究人员能够以监督的方式训练基于深度学习的方法。该数据集包含使用四种最先进的方法创建的操作，即Face2Face、FaceSwap、DeepFakes和NeuralTextures。摘要合成图像生成和处理的快速发展现在已经达到了这样一个程度，即它引起了对社会影响的重大关注充其量，这会导致人们对数字内容失去信任，但可能会通过传播虚假信息或假新闻造成进一步的伤害本文探讨了现实主义的国家的最先进的图像处理，以及如何难以检测到它们，无论是自动或由人类。为了标准化检测方法的评估，我们提出了一个自动基准面部操作检测1。特别是，基准是基于Deep-Fakes[1]，Face 2Face [56]，FaceSwap [2]和NeuralTex- tures[54]作为随机压缩水平和大小的面部操纵的突出代表该基准测试是公开的2，包含一个隐藏的测试集以及一个超过1的数据库。800万张被操纵的图片。该数据集比可比较的、公开可用的伪造数据集大一个数量级基于这些数据，我们对数据驱动的伪造检测器进行了彻底的分析。我们表明，使用额外的特定领域的知识，提高伪造检测到unprecedented准确性，即使在存在强大的压缩，并明显优于人类观察员。1. 介绍对视觉内容的操纵现在已经变得无处不在，并且是我们数字社会中最关键的话题之一。例如，DeepFakes[1]已经展示了计算机图形和可视化技术如何通过用不同人的脸替换他们的脸来诽谤人。由于各种原因，当前的操纵方法特别关注面：首先，人脸的识别和跟踪是计算机视觉[ 64 ]中被充分研究的领域，这是这些编辑方法的基础。其次，面孔在人类交流中起着核心作用，因为一个人的面孔可以强调一个信息，甚至可以凭借自己的能力传达一个信息[27]。当前的面部操作方法可以分为两类：面部表情操纵和面部身份操纵（见图2）。最突出的面部表情操纵技术之一是Thies等人的方法。[56]第56话脸对脸它使得能够仅使用商品硬件实时地将一个人的面部表情传送到另一个人后续工作，如1. kaldir.vc.in.tum.de/faceforensics_benchmark2. github.com/ondyari/FaceForensics12图2：人脸数字化的进步已经成为现代面部图像编辑工具的基础。编辑工具可以分为两个主要类别：身份修饰和表达修饰。除了使用Photoshop等工具手动编辑面部之外，在过去几年中已经提出了许多自动方法最突出和广泛的身份编辑技术是面部交换，随着轻量级系统现在能够在移动电话上运行，该技术已经获得了极大的普及此外，面部再现技术现在是可用的，其通过将源人的表情转移到目标来改变人的表情。身份操纵是第二类面部伪造。这些方法不是改变表情，而是用另一个人的脸代替一个人的脸。这一类被称为换脸。它在Snapchat等广泛的消费级应用程序中流行起来。DeepFakes还执行人脸交换，但通过深度学习。虽然基于简单计算机图形技术的人脸交换可以实时运行，但DeepFakes需要为每对视频进行训练，这是一项耗时的任务。在这项工作中，我们表明，我们可以自动和可靠地检测到这样的操纵，从而大大优于人类观察员。我们利用深度学习的最新进展，特别是利用卷积神经网络（CNN）学习极其强大的图像特征我们通过以监督的方式训练神经网络来解决检测问题。为此，我们基于经典的基于计算机图形的方法 Face2Face[56] 和FaceSwap[2] 以及基于学习的方法 DeepFakes[1] 和NeuralTextures[54]生成了一个大规模的操作数据集由于数字媒体取证领域缺乏伪造检测的基准，我们提出了一个自动基准，该基准考虑了四种操作方法在现实场景中，即，具有随机压缩和随机尺寸。使用这个基准，我们评估了目前最先进的检测方法，以及我们的伪造检测管道，考虑到面部操纵方法的限制领域本文的贡献如下：• 用于在随机压缩下进行标准化比较的面部操作检测的自动基准，包括人类基线，• 一个新的大规模数据集的操纵面部图像组成的超过1。800万张图片1，000个原始视频（即，真实的）源和目标获取地面实况以实现监督学习，• 在各种情况下对最先进的手工制作和学习的伪造检测器进行了广泛的评估• 一种针对面部操作的最先进的伪造检测方法。2. 相关工作本文涉及计算机视觉和数字多媒体取证的几个领域我们将在以下段落中介绍最重要的相关论文。面部操作方法：在过去的二十年中，对虚拟面部操纵的兴趣迅速增加。Zollh oüfer 等人发表了一份综合性的最新报告。 [6 4]。特别地，Br e gleretal. [12]提出了一种称为视频重写的基于图像的方法，用于自动创建具有生成的嘴部运动的人的新视频。通过视频人脸替换[19]，Dale等人提出了第一个自动人脸交换方法之一。使用单摄像机视频，他们重建了两个面部的3D模型，并利用相应的3D几何图形将源面部扭曲为目标面部。Gar- rido等人 [28]提出了一个类似的系统，在保留原始表情的同时替换演员的脸。VDub [29]使用高质量的3D面部捕捉技术来逼真地改变演员的面部，以匹配配音者的嘴部动作。Thies等人 [55]展示了第一个用于面部重建的实时表情传输基于消费者级RGB-D相机，他们重建和跟踪源和目标演员的3D模型。源面部的跟踪变形被应用到目标面部模型。作为最后一步，他们在原始目标视频上混合改变的面部。由Thies等人提出的Face2Face [56]是一种先进的3能够改变商品视频流中的面部运动的实时面部再现系统，例如，互联网上的视频。它们结合了3D模型重建和基于图像的渲染技术来生成它们的输出。同样的原理也可以应用在虚拟现实中，结合眼睛跟踪和重演[57]或扩展到全身[58]。Kim等人。 [38]学习图像到图像转换网络，将计算机图形渲染的人脸转换为真实图像。NeuralTextures [54]不是纯粹的与Deep Video Portraits[38]相比，它显示了更清晰的结果，特别是在嘴部区域。Suwajanakorn等人。 [52]学习了音频和嘴唇运动之间的映射，而他们的合成方法建立在与Face2Face [56]类似的技术上。Averbuch-Elor等人 [7]提出了一种重新渲染方法，将肖像带入生活，该方法采用2D扭曲来变形图像以匹配源演员的表情它们还与Face2Face技术进行了比较，并实现了类似的质量。最近，已经提出了几种使用深度学习技术的人脸图像合成方法。Lu等人 [45]提供了一个概述。生成对抗网络（GAN）用于应用Face Aging [6]，生成新的观点[33]，或改变肤色等面部属性[44]。深度特征插值[59]显示了改变面部属性（如年龄，胡子，微笑等）的令人印象深刻的结果。衰减器网络[ 41 ]实现了属性插值的类似结果。这些基于深度学习的图像合成技术中的大多数都存在图像分辨率低的问题最近，Karras等人。 [36]使用GAN的渐进式增长提高了图像质量，产生了高质量的面部合成。多媒体取证：多媒体取证旨在确保图像或视频的真实性，来源和出处，而无需嵌入式安全方案的帮助。早期的方法注重完整性，由手工制作的特征驱动，这些特征捕获在图像形成期间发生的预期的基于统计或物理的伪影。关于这些方法的调查可以在[25，51]中找到。最近的文献集中于基于CNN的解决方案，通过监督和无监督学习[9，16，11，8，34，63]。对于视频，工作的主要部分集中在检测可以相对较低的工作量创建的操作，例如丢弃或重复的帧[60，30，43]，不同的插值类型[24]，复制移动操作[10，20]或色度键合成[46]。其他几项工作明确提到检测与面部相关的操作，例如区分计算机生成的面部与自然面部[21，14，49]，变形面[48]、面拼接[23，22]、面交换[62，37][2019 - 04 - 14][ 2019 - 04 -14]对于面部操作检测，一些方法利用合成过程中产生的特定伪影，例如眨眼[42]或颜色，纹理和形状提示[23，22]。其他作品更一般，并提出了一种经过训练的深度网络，以捕获由低级和/或高级特征引起的细微不一致[48，62，37，4，32]。这些方法显示了令人印象深刻的结果，然而鲁棒性问题通常仍然没有得到解决，尽管它们对于实际应用至关重要。例如，已知压缩和删除等操作用于从数据中清洗操作痕迹。在现实世界的场景中，当图像和视频被上传到社交媒体时，这些基本操作是标准的，这是法医分析最重要的应用领域之一。为此，我们的数据集被设计为覆盖这样的现实场景，即，视频从野生，操纵和压缩与不同的质量水平（见第3节）。这样一个庞大而多样的数据集的可用性可以帮助研究人员对他们的方法进行基准测试，并为面部图像开发法医分析数据集：经典取证数据集已经在非常受控的条件下用大量的手动努力创建，以隔离数据的特定属性，如相机伪影。虽然提出了几个数据集，包括图像处理，只有少数其中还涉及到视频镜头的重要案例。例如，MICC F2000是一个图像复制-移动操作数据集，由来自各种来源的700个伪造图像组成[5]。第一个IEEE图像Forensics挑战数据集包括总共1176个伪造图像; Wild Web数据集[61]，包含90个真实案例来自网络的操纵和包括220张伪造图像的真实篡改数据集[40]。Zhou等人提出了2010年FaceSwap和SwapMe生成图像的数据库。[62]。最近，Kor- shunov和Marcel [39]构建了一个包含620个Deep- fakes视频的数据集，这些视频是从43个受试者中的每个受试者的多个视频创建的。美国国家标准与技术研究院（NIST）发布了最广泛的通用图像处理数据集，包括约50，000个伪造图像（本地和全局处理）和约500个伪造视频[31]。相比之下，我们构建了一个包含超过1 .一、来自4000个假视频的800万张图像我们在第4中评估了这样一个大型训练语料库的重要性。3. 大规模面部伪造数据库本文的核心贡献是我们的FaceForensics++扩展初步FaceForensics数据集的数据集4目标帧，直到一个视频结束。该实现是计算轻量级的，并且可以在CPU上高效地运行。(a)性别（b）分辨率（c）人脸像素覆盖率图3：我们的序列的统计。VGA表示480p，HD表示720p，FHD表示我们视频的1080p分辨率。图（c）示出了具有给定边界框像素高度（X轴）的序列的数量（y轴）。[50 ]第50段。这个新的大规模数据集使我们能够训练一个最先进的伪造检测器，以监督的方式进行面部图像操作（见第4节）。为此，我们使用了四种自动化的最先进的面部操作方法，这些方法被应用于从互联网上下载的1,000个原始视频（见图1）。 3统计数据）。为了模拟真实场景，我们选择在野外收集视频，特别是从YouTube上收集。然而，所有操作方法的早期实验表明，目标脸必须几乎面向前，以防止操作方法失败或产生强烈的伪影。因此，我们对所得到的剪辑进行手动筛选，以确保高质量的视频选择，并避免具有面部遮挡的视频。我们选择了包含509914张图像的1,000个视频序列作为原始数据。为了生成一个大规模的操作数据库，我们采用了最先进的视频编辑方法来完全自动工作在下面的段落中，我们简要介绍这些方法。对于我们的数据集，我们选择了两种基于计算机图形的方法（Face2Face和FaceSwap）和两种基于学习的方法（DeepFakes和NeuralTextures）。所有四种方法都需要源和目标演员视频对作为输入。每种方法的最终输出是由生成的图像组成的视频除了操作输出之外，我们还计算地面真实掩模，其指示像素是否已被修改，其可用于训练伪造定位方法。有关更多信息和超参数，请参阅补充材料。FaceSwapFaceSwap是一种基于图形的方法，用于将人脸区域从源视频传输到目标视频。基于稀疏检测到的人脸标志点提取人脸区域。使用这些标志，该方法使用融合变形拟合3D模板模型。该模型通过使用输入图像的纹理最小化投影形状和局部地标之间的差异而被反向投影到目标图像。最后，将渲染后的模型与图像混合，并进行颜色校正。我们对所有的源和Deepfakes一词已广泛成为基于深度学习的面部替换的同义词，但它也是通过在线论坛传播的特定操作方法的名称为了区分这些，我们在下面的论文中将所述方法表示为DeepFakesDeepFakes有各种公共实现，最著名的是FakeApp[3]和faceswap github[1]。目标序列中的面部被已经在源视频或图像集合中观察到的面部替换。该方法是基于两个自动编码器与共享的编码器进行训练，以重建训练图像的源和目标的脸，分别。面部检测器用于裁剪和对齐图像。为了创建假图像，源面部的训练编码器和解码器应用于目标面部。然后使用泊松图像编辑将自动编码器输出与图像的其余部分混合[47]。对于我们的数据集，我们使用faceswap github实现。我们通过用全自动数据加载器替换手动训练数据选择来稍微修改实现我们使用默认参数来训练视频对模型。由于这些模型的训练非常耗时，我们还将模型作为数据集的一部分发布这便于生成具有不同后处理的这些人的附加操纵。Face2FaceFace2Face[56]是一个面部重现系统，它将源视频的表情转移到目标视频，同时保持目标人的身份。原始实现基于两个视频输入流，具有手动关键帧选择。这些帧用于生成面部的密集重建，其可用于在不同照明和表情下重新合成面部为了处理我们的视频数据库，我们采用Face2Face方法来全自动创建重演操作。我们在预处理过程中处理每个视频;这里我们使用第一帧以便获得临时面部身份（即，3D模型），并在剩余帧上跟踪表情为了选择该方法所需的关键帧，我们自动选择具有面部最左和最右角度的帧。基于这种身份重建，我们跟踪整个视频，以计算每帧的表情，刚体姿态和照明参数，如Face2Face的原始实现中所做的那样。我们通过将每个帧的源表达式参数（即，76混合变形系数）到目标视频。更多关于重现过程的细节可以在原始论文中找到[56]。5NeuralTextures Thies等人[54]展示了面部重现作为他们基于NeuralTextures的渲染方法的一个例子。它使用原始视频数据来学习新的-目标人物的真实纹理，包括渲染网络。这是用光度重建损失与对抗性损失相结合来训练的。在我们的实现中，我们应用了Pix2Pix[35]中使用的基于补丁的GAN损失。NeuralTextures方法依赖于在训练和测试期间使用的跟踪几何。我们使用Face2Face的跟踪模块来生成这些信息。我们仅修改与嘴部区域相对应的面部表情，即，眼睛区域保持不变（否则呈现网络将需要用于眼睛运动的连续输入，类似于深度视频肖像[38]）。后处理-视频质量为了为处理过的视频创建逼真的设置，我们生成具有不同质量级别的输出视频由于原始视频很少在互联网上找到，我们使用H.264编解码器压缩视频，该编解码器被社交网络或视频共享网站广泛使用。为了生成高质量的视频，我们使用由HQ（恒定速率量化参数等于23）表示的轻度压缩，其在视觉上几乎无损。使用40的量化产生低质量视频（LQ）4. 伪造物检测我们将伪造检测作为操纵视频的每帧二进制分类问题以下各对于所有实验，我们将数据集分为固定的训练、验证和测试集，分别由720、140和140个视频组成。所有评估均使用测试集的视频进行报告。对于所有图表，我们在补充材料中列出了确切的数字。4.1. 人体观察者的伪造检测为了评估人类在伪造检测任务中的表现，我们对204名参与者进行了一项用户研究，其中大部分是计算机科学专业的大学生。这形成了自动伪造检测方法的基线。用户研究布局：在对二进制任务进行简短介绍后，用户被指示从我们的测试集中随机选择图像进行分类。所选择的图像在图像质量以及操作方法方面不同;我们使用原始图像和假图像的50：50分割。由于用于检查图像的时间量可能是重要的，并且为了模拟用户仅花费有限量如社交媒体上常见的那样，我们随机地设置2、4或6秒的时间限制，之后我们隐藏图像。之后，用户被询问所显示的图像是“真实的”还是“假的”。为了确保用户将可用时间用于检查，在图像显示之后而不是在观察时间期间询问问题我们设计的这项研究只需要几分钟，每个参与者显示60张图像，这导致了12240个人类决策的集合。评估：在图4中，我们显示了我们对所有质量水平的研究结果，显示了视频质量和检测假货的能力之间的相关性。在视频质量较低的情况下，人类表现平均从68.7%至58。7%。该图显示了所有时间间隔的平均值，因为不同的时间限制不会导致显著不同的观察结果。图4：我们对204名参与者的用户研究的伪造检测结果。准确度取决于视频质量，并且导致准确率下降，原始视频的平均准确率为68.69%，高质量视频为66.57%，低质量视频为58.73%。请注意，用户研究包含所有四种操作方法的假图像在这种情况下，Face2Face和NeuralTextures特别难以被人类观察者检测到，因为它们不引入强烈的NeuralTextures纹理似乎特别难以检测，因为人类检测精度低于随机机会，并且仅在具有挑战性的低质量任务中增加。4.2. 自动伪造检测方法我们的伪造检测流水线如图5所示。由于我们的目标是检测面部图像的forestry，我们使用额外的特定领域的信息，我们可以提取输入序列。为此，我们使用Thies等人的最先进的面部跟踪方法。[56]跟踪视频中的人脸并提取图像的人脸区域。我们使用保守的作物（放大1倍）。3）围绕跟踪的人脸的中心，包围重建的人脸。这种领域知识6图5：我们针对面部操作的特定于域的伪造检测流水线：通过鲁棒人脸跟踪方法处理输入图像;我们使用该信息来提取被面部覆盖的图像区域;该区域被馈送到输出预测的学习分类网络中。与使用整个图像作为输入的简单方法相比，提高了伪造检测器的整体性能（见第2节）。4.2.2）。我们通过使用不同的最先进的分类方法评估了我们方法的各种变体。我们正在考虑在法医界使用基于学习的方法进行通用操作检测[9，16]，计算机生成与自然图像检测[49]和面部篡改检测[4]。此外，我们还证明了基于XceptionNet [13]的分类在检测假货方面优于所有其他变体。4.2.1基于隐写分析的检测功能：我们评估检测隐写分析功能，遵循Fridrich等人的方法。[26]它采用手工制作的特点。对于162的总特征长度，特征是在高通图像上沿着水平和垂直方向的4个像素图案上的共现然后，这些特征用于训练线性支持向量机（SVM）分类器。该技术是第一届IEEE图像取证挑战赛的获胜方法[15]。我们提供了一个128× 128的中心裁剪的脸作为输入的方法。虽然手工制作的方法超过-由于在原始图像上形成了大幅度的人类精度，它努力应对压缩，这导致对于低质量视频的精度低于人类性能（参见图6和表1）。4.2.2基于学习特征的检测为了从学习的特征中进行检测，我们评估了文献中已知的五种网络架构来解决分类任务：(1) Cozzolino等人[16]将上一节中手工制作的隐写分析功能转换为基于CNN的网络。我们在我们的大规模数据集上微调这个网络(2) 我们使用我们的数据集来训练Bayar和Stamm [9]提出的卷积神经网络，该网络使用一个约束卷积层，然后是两个卷积层，两个最大池化层和三个全连接层。约束卷积层是专门设计的图6：当分别在我们的不同操作方法上进行训练时，使用人脸跟踪的不同操作方法上所有评估架构的二进制检测准确性。图7：同时在所有四种操作方法上训练时，我们的基线的二进制精度值。平均准确度值见表1。除了FullImage XceptionNet之外，我们还使用所提出的人脸区域预提取作为方法的输入。以抑制图像的高级内容。与前面的方法类似，我们使用居中的128× 128裁剪作为输入。(3) Rahmouni等人[49]采用不同的CNN架构，并具有计算四个统计量（均值、方差、最大值和最小值）的全局池化层。我们认为Stats-2L网络具有最好的性能。(4) MesoInception-4[4]是一个基于CNN的网络，受InceptionNet [53]的启发，用于检测视频中的面部篡改。该网络有两个初始模块和两个经典的卷积层与最大池层交织。之后，有两个完全连接的层。在-7代替经典的交叉熵损失，作者提出了真实和预测标签之间的均方误差。我们将人脸图像的大小调整为256×256，即网络的输入。(5) XceptionNet[13]是一种传统的CNN，基于带有残差连接的可分离卷积在ImageNet上训练我们通过用两个输出替换最终的全连接层来其他层使用ImageNet权重初始化。为了建立新插入的全连接层，我们将所有权重固定到最后一层，并对网络进行3个epoch的预训练在这一步之后，我们再训练网络15个epoch，并根据验证精度选择性能最佳的模型。我们的训练和超参数的详细描述可以在补充文档中找到。我们的伪造检测变体的比较：图6示出了使用所有网络架构的二进制伪造检测任务的结果，该任务在所有四种操纵方法上以及在不同的视频质量水平下分别评估。所有的方法都能在原始输入数据上实现非常高的性能压缩视频的性能下降，特别是手工制作的功能和浅CNN架构[9，16]。神经网络在处理这些情况方面做得更好，XceptionNet能够在弱压缩下实现令人满意的结果，同时在低质量图像上仍然保持合理的性能，因为它受益于ImageNet的预训练以及更大的网络容量。为了将我们的用户研究结果与我们的自动检测器的性能进行比较，我们还在包含来自所有处理方法的图像的数据集上测试了检测变体。图7和表1显示了完整数据集的结果。在这里，我们的自动检测器的性能大大优于人类（参见见图4）。我们还评估了一个简单的伪造检测器，该检测器在完整图像（调整为XceptionNet输入）上运行，而不是使用面部跟踪信息（见图7，最右列）。由于缺乏特定于域的信息，XceptionNet分类器在这种情况下的准确率明显较低总而言之，特定于域的信息与XceptionNet分类器的组合在每个测试中显示出最佳性能。我们使用该网络来进一步了解训练语料库大小的影响及其区分不同操作方法的能力实验表明，所有检测方法在基于GAN的NeuralTextures方法上的准确率都较低。NeuralTextures正在为每次manipulation训练一个独特的模型，这会导致可能的伪影的更高变化。虽然DeepFakes也在每次操作训练一个模型，但它使用固定的后处理管道sim。压缩原HQLQ[13]第十三话82.0174.7870.52[26] I'm sorry.特征+SVM97.6370.9755.98[16] Cozzolino等人98.5778.4558.69[9]巴亚尔和斯塔姆98.7482.9766.84[49] Rahmouni et al.97.0379.0861.18[4] MesoNet95.2383.1070.47[13]第十三话99.2695.7381.00表1：当在所有四种操作方法上训练时，我们的基线的二进制检测准确度。除了简单的全图像XceptionNet之外，所有方法都是在保守的作物上训练的（放大1倍）。3）围绕被跟踪的面部的图8：我们使用XceptionNet的方法的检测性能取决于训练语料库的大小。特别是对于低质量的视频数据，需要大的数据库与基于计算机的操作方法不同，因此具有一致的伪像。训练语料库大小的评估：图8示出训练语料库大小的重要性。为此，我们分别在所有三个视频质量级别上训练具有不同训练语料大小的XceptionNet分类器。整体性能随着训练图像的数量而增加，这对于低质量视频片段尤其重要，如图底部所示。85. 基准除了我们的大规模操纵数据库，我们发布了一个有竞争力的基准面部伪造检测。为此，我们收集了1000个额外的视频，并以与第3节中类似的方式对其中的一个子集进行了操作，用于我们的四种操作方法中的每一种。作为上传的视频（例如，到社交网络）将以各种方式进行后处理，我们多次模糊所有选择的视频（例如，通过未知的重定尺寸、压缩方法和比特率）以确保真实的条件。该处理直接应用于原始视频。最后我们精度DFF2fFSNT房总Xcept.全图像74.5575.9170.8773.3351.0062.40Steg特征73.6473.7268.9363.3334.0051.80Cozzolino等人85.4567.8873.7978.0034.4055.20Rahmouni等人85.4564.2356.3160.0750.0058.10巴亚尔和斯塔姆84.5573.7282.5270.6746.2061.60MesoNet87.2756.2061.1740.6772.6066.00XceptionNet96.3686.8690.2980.6752.4070.10表2：每个模型的低质量训练模型的结果基于视觉检查从每个视频中手动选择单个挑战帧具体来说，我们收集了一组1000张图像，每个图像随机从操作方法或原始镜头中提取。请注意，我们不一定有原始图像和假图像的相等分割，也不一定有所使用的操作方法的相等分割。真实标签是隐藏的，并在我们的主机服务器上用于评估提交模型的分类准确性自动化基准允许每两周从单个子任务中提交一次任务，以防止过度拟合（类似于现有基准[18]）。作为基线，我们在基准测试中评估了我们之前训练的模型的低质量版本，并分别报告了每种检测方法的数字（见表2）。除了全图像XceptionNet，我们使用所提出的人脸区域的预提取作为输入的方法。分类模型的相对性能与我们的数据库测试集相似（见表1）。然而，由于基准场景偏离训练数据库，模型的整体性能较低，特别是对于原始图像检测精度;主要的变化是随机化的质量水平以及测试期间可能的跟踪误差。由于我们提出的方法依赖于人脸检测，因此在跟踪失败的情况下，我们将假预测该基准已向社会公开，我们希望它能导致后续工作的标准化比较。6. 讨论结论虽然目前最先进的面部图像处理方法表现出视觉上令人惊叹的结果，我们证明，他们可以检测到训练有素的伪造检测器。特别令人鼓舞的是，低质量视频的挑战性情况也可以通过基于学习的方法来解决，其中人类和手工制作的特征表现出困难。为了使用特定领域的知识来训练检测器，我们引入了一个新的操纵面部视频数据集，它超过了所有现有的公开可用的法医数据集一个数量级。在本文中，我们集中讨论了压缩的影响我们的基准检测方法。我们报告了 DeepFakes（ DF ）， Face2Face （ F2F ）， FaceSwap （ FS ），NeuralTextures（NT）和原始图像（Real）的精度结果以及整体总精度。最新操作方法的可检测性，为后续工作提出标准化基准。所有的图像数据、训练模型以及我们的基准都是公开的，并且已经被其他研究人员使用。特别是，迁移学习在法医界具有很高的兴趣。随着新的操作方法的出现，必须开发出能够在几乎没有训练数据的情况下检测假货的方法。我们的数据库已经用于这种法医转移学习任务，其中一个源操作域的知识被转移到另一个目标域，如Coz- zolino等人[17]所示。我们希望数据集和基准测试成为数字媒体取证领域未来研究的垫脚石，特别是关注面部伪造。7. 确认我们衷心感谢AI基金会、TUM-IASRudolfMoßbauer奖学金、ERC Starting GrantScan 2CAD（804724）和Google Faculty Award对本研究的支持。我们还要感谢Google的Chris Bregler在云计算方面的帮助。此外，本材料基于空军研究实验室和国防高级研究计划局根据协议编号FA 8750 -16-2-0204赞助的研究。美国政府有权为政府目的复制和分发重印本，尽管其上有任何版权标记。本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表空军研究实验室和国防高级研究计划局或美国的官方政策或认可（无论是明示还是暗示）。政府的9引用[1] DeepfakesGitHub.https://github.com/deepfakes/faceswap.访问日期： 2018-10-29.一、二、四[2] 脸罩。https://github.com/MarekKowalski/FaceSwap/.访问时间：2018-10-29。一、二[3] Fakeapp https://www.fakeapp.com/网站。访问日期：2018-09-01 4[4] Darius Afchar 、 Vincent Nozick 、 Junichi Yamagishi 和Isao Echizen。Mesonet：一个紧凑的面部视频伪造检测网络。arXiv预印本arXiv：1809.00888，2018。三六七[5] Irene Amerini 、 Lamberto Ballan 、 Roberto Caldelli 、Alberto Del Bimbo和Giuseppe Serra。基于SIFT的复制移动攻击检测和转换恢复取证方法。IEEE Transactions onInformation Forensics and Security ， 6 （ 3 ）： 1099-1110，Mar. 2011. 3[6] 格里戈里·安提波夫莫伊兹·巴库什和让-吕克·杜日莱。用条件生成对抗网络来面对衰老。在IEEE图像处理国际会议上，2017年。3[7] Hadar Averbuch-Elor ， Daniel Cohen-Or ， JohannesKopf，and Michael F.科恩将肖像画带入生活。ACMTransactions on Graphics （ Proceeding of SIGGRAPHAsia 2017），36（4）：即将出版，2017年。3[8] 贾瓦杜尔·H. Bappy，Amit K. Roy-Chowdhury，JasonBunk，Lakshmanan Nataraj，and B.S.曼朱纳特利用空间结构来定位被操纵的图像区域。IEEE国际计算机视觉会议，第4970- 4979页，2017年。3[9] 作者：Belhassen Bayar和Matthew C.斯塔姆使用新卷积层的通用图像操纵检测的深度学习方法。在ACM信息隐藏和多媒体安全研讨会，第5-10页，2016年。三六七[10] 保罗·贝斯塔吉尼、西蒙尼·米拉尼、马可·塔利亚萨基和斯特凡诺·图巴罗。视频序列中的局部篡改检测。在IEEE多媒体信号处理国际研讨会，第488-493页，2013年10月。3[11] LucaBondi，SilviaLameri，DavidGüera，PaoloBestagini，Edward J. Delp，and Stefano Tubaro.通过基于摄像头的CNN特征的聚类篡改检测和定位。在IEEE计算机视觉和模式识别研讨会，2017年。3[12] 克里斯托夫·布雷格勒米歇尔·科维尔和马尔科姆·斯兰尼视频重写：用音频驱动视觉语音。第24届计算机图形和交互技术年会，SIGGRAPH’97，第353-360页，1997。2[13] 弗朗索瓦·肖莱。Xception：深度学习与深度分离卷积。2017年在IEEE计算机视觉和模式识别会议上发表。六、七[14] Valentina Conotter，Ecaterina Bodnari，Giulia Boato，Hany Farid.视频中计算机生成人脸的基于生理学的检测。在 IEEEInternationalConferenceonImageProcessing，第1-5页，2014年10月。3[15] 戴维德·科佐利诺，迭戈·格拉格纳尼洛，和路易莎·韦多利瓦。基于残差的局部描述符和块匹配。在IEEE International Conference onImage Processing，第5297-5301页，2014年10月。6[16] Davide Cozzolino，Giovanni Poggi，and Luisa Verdoliva.将基于残差的局部描述符重铸为卷积神经网络：应用于图像伪造检测。在ACM信息隐藏和多媒体安全研讨会，第1-6页，2017年。三六七[17] 见科佐利诺、贾斯特斯·泰斯、安德烈亚斯·罗塞尔、克里斯-蒂安·里斯、马蒂亚斯·尼斯纳和路易莎·韦多利瓦。Foren- sicTransfer：用于伪造检测的弱监督域自适应。arXiv预印本arXiv：1812.02510，2018. 8[18] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.ScanNet ：室内场景的丰富注释的 3D 重建。IEEEComputer Vision and Pattern Recognition，2017。8[19] 放大图片作者：Kevin Dale，Kalyan Sunkavalli，MicahK. Johnson ， Daniel Vlasic ， Wojciech Matusik ， andHanspeter Pfister.视频脸更换。 ACM Trans. Graph. ，30（6）：130：12[20] Luca D'Amiano、Davide Cozzolino、Giovanni Poggi和Luisa Verdoliva。一种基于PatchMatch的稠密场视频拷贝移动检测与定位算法IEEE Transactions on Circuitsand Systems for Video Technology，in press，2018. 3[21] Duc-Tien Dang-Nguyen Giulia Boato 和 Francesco DeNatale。通过分析面部表情变化识别计算机生成的字符。 IEEEInternationalWork-shoponInformationForensics and Security，第2523[22] 放大图片作者：Fabio A.放大图片作者：Francis S.托雷斯和安德森·罗查基于照明的图像取证变换空间。IEEETransactions on Information Forensics and Security，11（4）：7203[23] 蒂亚戈·德·卡瓦略、克里斯蒂安·里斯、埃利·安杰洛波洛、埃利奥·佩里尼和安德森·罗查。利用光照颜色分类揭露数字图像伪造。IEEE Trans-actions on InformationForensics and Security，8（7）：1182- 1194，2013。3[24] Xiangling Ding，Gaobo Yang，Ran Li，Lebing Zhang，Yue Li，and Xingming Sun.基于残差信号的运动补偿帧率上变频IEEE Transactions on Circuits and Systems forVideo Technology，2017年出版。3[25] 哈尼·法里德照片取证The MIT Press，2016. 3[26] 我是弗里德里奇和扬·K.丰富的数字图像结构分析模式 IEEE Transactions on Information Forensics andSecurity，7（3）：868-882，2012年6月。六、七[27] 克里斯·弗里斯面部表情在社会交往中的作用。英国皇家学会哲学汇刊 B ： Biologi- cal Sc

下载后可阅读完整内容，剩余1页未读，立即下载