CELEB-DF:高质量DeepFake视频数据集及评估

125 浏览量更新于2023-10-24 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3207Celeb-DF：一个面向DeepFake取证的大规模挑战数据集李悦尊1，杨欣1，孙璞2，齐宏刚2，吕四维11美国纽约州立大学奥尔巴尼分校2中国科学院大学摘要人工智能合成的换脸视频，通常被称为DeepFakes，是一个新兴的问题，威胁到在线信息的可信度。开发和评估DeepFake检测算法的需要需要大规模的数据集。然而，目前的DeepFake数据集的视觉质量较低，与互联网上流传的Deep-Fake视频并不相似。我们提出了一个新的具有挑战性的大规模DeepFake视频数据集Celeb-DF，其中包含5，639个使用改进的合成过程生成的名人的高质量DeepFake视频。我们对DeepFake检测方法和数据集进行了全面评估，以证明Celeb-DF带来的挑战升级。1. 介绍最近，令人不安的在线虚假信息问题的一个转折虽然数字图像和视频的伪造和操纵并不新鲜，但DNN的使用使创建令人信服的假视频的过程变得越来越容易和快捷。一种特殊类型的基于DNN的假视频，通常被称为DeepFakes，最近引起了广泛关注。在DeepFake视频中，目标个体的面部被DNN模型合成的供体个体的面部替换，保留目标的面部表情和头部姿势。由于面孔与身份本质上相关，精心制作的DeepFakes可以创造一个人的存在和活动的随着对 DeepFakes 的担忧升级，最近对开发DeepFakes检测方法的兴趣激增[6，17，27，53，33，28，41，40，35，34，36]，即将举行专门的全球DeepFake检测挑战1。DeepFake大规模数据集的可用性1https://deepfakedetectionchallenge.ai。视频是DeepFake检测方法发展的一个有利因素到目前为止，我们有UADFV数据集[53]，DeepFake-TIMIT数据集（ DF-TIMIT ） [25] ， FaceForenscics++ 数据集（ FF-DF ） [40]2 ， Google Deep- Fake 检测数据集（ DFD ） [15] 和 FaceBook Deep- Fake 检测挑战（DFDC）数据集[14]。然而，仔细观察现有数据集中的DeepFake视频，可以发现视觉质量与互联网上传播的实际DeepFake视频形成鲜明对比。在这些数据集中可以找到的几个常见的视觉伪影在图中突出显示。1，包括低质量的合成人脸，可见的拼接边界，颜色不匹配，原始人脸的可见部分，以及不一致的合成人脸方向。这些伪像可能是合成方法的不完善步骤以及在包括在数据集中之前缺乏对合成视频的策划的结果。此外，视觉质量如此之低的DeepFake视频很难令人信服，也不太可能产生真正的影响。相应地，当检测方法部署在野外时，这些数据集上的高检测性能可能不具有强相关性。在这项工作中，我们提出了一个新的大规模和挑战性的DeepFake视频数据集，Celeb-DF3，用于DeepFake检测算法的开发和评估。在Celeb-DF数据集中，共有5639个DeepFake视频，对应超过200真正的源视频是基于59个不同性别，年龄和种族群体的名人的公开YouTubeDeepFake视频使用改进的DeepFake合成方法生成。因此，与现有数据集相比，Celeb-DF中合成的DeepFake视频的整体视觉质量大大提高，显著的视觉伪影明显减少二、基于Celeb-DF数据集和其他现有数据集，我们对当前的Deep-Fake检测方法进行了评估这是DeepFake检测方法最全面的性能评估，2FaceForensics++包含其他类型的假视频。我们只考虑DeepFake视频。3http://www.cs.albany.edu/http：//www.deepfakeforensics.html3208图1.现有数据集中DeepFake视频的视觉伪影。注意这些视频帧中的一些常见类型的视觉伪影，包括低质量合成面部（行1列1、行3列2、行5列3）、可见拼接边界（行3列1、行4第2列，第5列第2列），颜色不匹配（第5列第1列），可见部分原始面部的方向（行1列1、行2列1、行4列3）和不一致的合成面部方向（行3列3）。这个数字最好用彩色看。约会结果表明，Celeb-DF对大多数现有的检测方法都具有挑战性，尽管许多Deep-Fake检测方法在以前的数据集上表现出很高的准确性，有时甚至接近完美。2. 背景2.1. DeepFake视频生成尽管近年来已经有许多用于生成逼真的合成人脸视频的复杂算法[9，13，46，51，26，47，37，20，23，10，21，50]，但大多数算法都是基于人脸的。这些工具中的一个还没有成为任何人都可以使用的开源软件工具的这是一种基于神经图像风格转移工作的更简单的方法[29]，它成为大规模创建DeepFake视频的首选工具，有几个独立的开源实现，例如。，FakeApp[5] ， DFaker[2] ， faceswap-GAN[3] ，faceswap[4]和DeepFaceLab[1]。我们将这种方法称为基本的DeepFake制造者，它是在互联网上或现有数据集中传播的许多DeepFake视频的基础上。基本 DeepFake 制造商的整体管道如图所示。 3（左）。从输入视频中，检测目标的面部，从中进一步提取面部特征点。地标用于将面部与标准配置对齐[22]。然后，对齐的面部被裁剪并馈送到自动编码器[24]，以合成具有与原始目标面部相同的面部表情的供体面部自动编码器通常由两个卷积神经网络（CNN）形成，即：编码器和解码器。编码器E将输入目标的面部转换为了确保编码器捕获身份无关的属性，如面部表情，有一个单一的编码器，而不管主体的身份。另一方面，每个身份都有一个专用的解码器Di，其从代码生成对应对象的面部。训练编码器和解码器在串联使用不对应的人脸集的多个子，在无监督的方式，图。3（右）。具体地说，编码器-解码器对交替地使用用于每个对象的输入面的E和Di来形成以最小化重建误差（0.01差异在输入面和重建面之间）。用反向传播进行参数更新，直到收敛。然后将合成的面部扭曲回原始目标面部的配置最后一步涉及平滑合成区域和原始视频帧之间的边界。整个过程是自动化的，几乎不需要人工干预.2.2. DeepFake检测方法自从DeepFake成为全球现象以来，人们对DeepFake检测方法的兴趣越来越大目前大多数DeepFake检测方法都使用数据驱动的深度神经网络（DNN）作为骨干。DFDCDFDFF-DFDF-TIMIT-HQUADFV3209（d）其他事项图2. 来自Celeb-DF数据集的示例帧。左列是真实视频的帧，右五列是使用不同供体主体生成的相应DeepFake帧。人脸检测地标提取人脸对齐编码器（）代码解码器（1）边界光滑掩蔽仿射翘曲图3.基本DeepFake maker算法的合成（左）和训练（右）。更多详情见正文由于合成的面部被拼接到原始视频帧中，因此现有技术的DNN拼接检测方法，例如，，[54，55，30，8]，可以应用。已经也有专门用于检测深度伪造视频的算法，分为三类。方法第一类是基于不一致的表现，DeepFake视频中的物理/生理方面。[27]的工作中的方法利用了以下观察结果：由于使用在线肖像作为训练数据，许多DeepFake视频缺乏合理的眨眼，出于美学原因，这些视频通常没有闭上眼睛。DeepFake视频中的Incoher- ent头部姿势被用于[53]，编码器（）代码解码器（二）共享编码器（）代码解码器（1）L1损失L1损失3210数据集#真实#DeepFake发布日期视频帧视频帧UADFV4917.3k4917.3k2018.11DF-TIMIT-LQDF-TIMIT-HQ320∗34.0k32032034.0k34.0k2018.12FF-DF1,000509.9k1,000509.9k2019.01DFD363315.4k3,0682，242.7k2019.09DFDC1,131488.4k4,1131，783.3k2019.10Celeb-DF590225.4k5,6392，116.8k2019.11表1. 各种DeepFake视频数据集的基本信息。：DF-TIMIT中的原始视频来自Vid-TIMIT数据集。曝光DeepFake视频在[7]中，通过从真实视频中提取的面部标志的时间序列来捕获特定个体的特异性面部模式，并将其用于识别DeepFake视频。第二类DeepFake检测算法（例如，，[33，28]）使用在合成过程期间引入的信号电平伪影，诸如在引言中描述的那些。第三类DeepFake检测方法（例如，，[6，17，35，36]）是数据驱动的，它直接采用在真实和DeepFake视频上训练的各种类型的DNN，而不依赖于任何特定的人工制品。2.3. 现有DeepFake数据集DeepFake检测方法需要训练数据，需要进行评估。因此，对大规模DeepFake视频数据集的需求越来越大。表1列出了当前的DeepFake数据集。UADFV：UADFV数据集包含49个真实的YouTube视频和 49 个 DeepFake 视频。 DeepFake 视频是使用FakeAPP的DNN模型生成的[5]。DF-TIMIT ： DeepFake-TIMIT 数据集 [25] 包括使用faceswap-GAN[3]并基于Vid-TIMIT数据集[43]生成的640个DeepFake视频。视频被分成两个相等大小的子集：DF-TIMIT-LQ和DF-TIMIT-HQ，合成面尺寸为64×64，分别为128×128FF-DF：FaceForensics++数据集[40]包括DeepFakes视频的子集，其中有1000个真实的YouTube视频和相同数量的合成视频使用faceswap[4]。DFD：Google/Jigsaw DeepFake检测数据集[15]有3，068个DeepFake视频，这些视频是基于28个不同性别，年龄和种族的同意个人的363个原始视频生成的。合成算法的细节没有公开，但它很可能是基本DeepFakemaker算法的改进实现。使用两种不同的合成算法，但是合成算法的细节没有公开。基于发布时间和合成算法，我们将UADFV，DF-TIMIT和 FF-DF 分类为第一代 DeepFake 数据集，而DFD，DFDC和拟议的Celeb-DF数据集是第二代。一般来说，第二代数据集在数量和质量上都比第一代数据集有所提高。3. Celeb-DF数据集虽然目前的DeepFake数据集有足够数量的视频，如引言中所讨论的，并在图中演示。1、这些数据集中的DeepFake视频具有各种视觉伪影，很容易将其与真实视频区分开来。为了提供更多的相关数据来评估和支持未来发展的DeepFake检测方法，我们构建了Celeb-DF数据集。Celeb-DF数据集与其他现有Deep-Fake数据集的比较总结在表1中。3.1. 基本信息Celeb-DF 数据集由 590 个真实视频和 5 ， 639 个DeepFake视频（对应于超过200万个视频帧）组成。The average length of all videos is approximate 13 secondswith the standard frame rate of 30 frame-per-second. 真实视频选自公开的YouTube视频，对应于59位名人的采访，这些名人在性别、年龄和种族方面分布不同。五十六8%的真实视频中的主题是男性，43. 2%是女性。8.5%为60岁及以上，30. 5%的人在50 - 60岁之间，26。6%是40多岁，28岁。0%是30岁，6岁。4%不到30岁。五、1%是亚洲人，6。8%是非洲裔美国人，88。1%是白人。此外，真实视频在诸如主体的面部尺寸（以像素为单位）、方向、照明条件和背景等方面表现出大范围的变化。DeepFake视频是通过交换59名受试者中每一对的面部来生成的。最终视频为MPEG4.0格式。3.2. 合成方法Celeb-DF中的DeepFake视频是使用改进的DeepFake合成算法生成的，这是改善视觉质量的关键，如图所示二、具体来说，基本的DeepFake maker算法在几个方面进行了改进，目标是以下特定的视觉伪影。DFDC：的 Facebook DeepFake 检测挑战数据集[14]是DeepFake检测挑战的一部分，其中有4，113个DeepFake视频，这些视频是基于66个不同性别的同意个人的1，131个原始视频在现有的数据集中。合成人脸的低分辨率：基本的DeepFake maker算法生成低分辨率人脸（通常64×64或128×128像素）。我们提高了人口、年龄和族裔群体4.这个数据集是我们创建我们选择名人的脸，因为他们更熟悉观众4在CVPR子任务时，DFDC的全套尚未发布，信息基于[14]中的第一轮发布。从而可以更容易地识别任何视觉伪像。此外，名人是DeepFake视频的主要目标。321164×64 128×128 256×256原始面部的可视部分边界伪影边界伪影内插点图4. DeepFake框架与不同大小的合成脸的比较。请注意，Celeb-DF中使用的256 ×256合成面部的平滑度有所改善。这个数字最好用彩色看。将合成的人脸放大到256×256像素。这是通过使用具有更多层和增加尺寸的编码器和解码器模型来我们确定了结构empiri-这有助于在增加的训练时间和更好的合成结果之间取得平衡高分辨率的合成人脸具有更好的视觉质量，并且在适应输入目标人脸时受大小调整和旋转操作的影响较小。4.第一章颜色不匹配：Celeb-DF中合成供体面部与原始目标面部之间的颜色不匹配通过训练数据扩充和后处理，具体来说，在每个训练时期，我们随机扰动训练面部的颜色，这迫使DNN合成包含与输入图像相同颜色模式的图像。我们还在合成的供体面部和输入目标面部之间应用颜色转移算法[38图图5示出了没有（左）和具有（右）颜色校正的合成面部图5. DeepFake帧使用合成的脸没有（左）和（右）颜色校正。注意减少合成的脸部区域和脸部其他部分之间的颜色不匹配。采用颜色校正的合成方法合成了西乐葆-DF。这个数字最好用彩色看。不准确的面部掩模：在以前的数据集中，面部掩模要么是矩形的，这可能不完全覆盖原始视频帧中的面部部分，要么是眉毛和下唇上的地标的凸包，这可能不完全覆盖面部部分。(a)（b）（c）图6. 在现有数据集（顶部两行）和Celeb-DF（第三行）中生成掩码。(a)扭曲的合成脸覆盖目标的脸。(b)掩码生成。(c)最终合成结果。leaves the boundaries of the mask visible. 我们改进了Celeb-DF的掩模生成步骤。我们首先合成一张具有更多周围背景的人脸，以便在变形后完全覆盖原始面部部分。然后，我们创建了一个平滑面具的基础上的地标眉毛和插值点的脸颊和下唇和下巴。在现有数据集和Celeb-DF中使用的掩码生成的差异在图中突出显示。六是举例。时间闪烁：我们通过在检测到的人脸标志之间加入时间相关性来减少DeepFake视频中合成人脸的时间闪烁。具体地，使用卡尔曼平滑算法对面部地标的时间序列进行滤波，以减少每帧中地标的不精确变化。3.3. 视觉质量对合成算法的改进提高了 Celeb-DF 数据集中DeepFake视频的视觉质量，如图所示。二、我们希望对Celeb-DF中DeepFake视频的视觉质量改进进行更定量的评估，并与之前的DeepFake数据集进行比较。理想情况下，一个无参考的人脸图像质量指标是最好的选择.然而，不幸的是，迄今为止还没有商定和广泛采用的这种衡量标准。相反，我们遵循面部修复工作[45]，并使用Mask-SSIM分数[32]作为合成DeepFake视频帧视觉质量的参考定量指标Mask-SSIM对应于DeepFake视频帧的头部区域（包括面部和头发）与对应的原始视频帧之间的SSIM分数[ 52 ]，即原始目标的头部区域是视觉质量评价的参考因此，低Mask-SSIM评分可能是由于较差的视觉质量以及从目标到供体的身份另一方面，在一项研究中，3212表2.平均Mask-SSIM不同的分数DeepFake4. Meso4使用传统的卷积层，而MesoInception4基于更复杂的Inception模块[49]。• HeadPose[53]检测DeepFake视频使用数据集。计算掩码-SSIM需要精确对应DeepFake合成帧和原始视频帧对，而DFD和DFDC的情况并非如此 For these two datasets, we calculate the Mask-SSIM onvideos that we have exact corre- spondences, i.e. ，DFD中有311个视频，DFDC中有2025个视频。由于我们只比较来自DeepFake视频的帧，因此身份变化引起的错误以类似的方式偏向于所有比较的数据集。因此，Mask-SSIM的数值对于评价合成人脸的绝对视觉质量可能没有意义，但Mask-SSIM之间的差异反映了视觉质量的差异Mask-SSIM分数取[0，1]范围内的值，其中较高的值对应于较好的图像质量。表2显示了所有比较数据集的平均Mask-SSIM评分，Celeb-DF评分最高。这证实了视觉观察，即西乐葆-DF具有改善的视觉质量，如图所示。二、4. 评估DeepFake检测方法使用Celeb-DF和其他现有的DeepFake数据集，我们对DeepFake检测进行了迄今为止最全面的性能评估，考虑了最多这次评估有两个目的。首先，使用平均检测性能作为各种DeepFake数据集的挑战水平的指标，我们进一步将Celeb-DF与现有的DeepFake数据集进行比较。此外，我们还调查了当前DeepFake检测方法在各种DeepFake视频上的性能，特别是Celeb-DF中的高质量视频。4.1. 比较DeepFake检测方法我们在实验中考虑了九种DeepFake检测方法。由于需要在Celeb-DF数据集上运行每个方法，我们只选择那些具有公开可用或直接从作者那里获得的代码和相应的DNN模型的方法。• 双流[54]使用双流CNN在通用IM中实现最先进的性能。年龄伪造检测底层CNN是在SwapMe数据集上训练的GoogLeNet InceptionV3模型[48][54]。我们使用它作为基准来比较其他专用的DeepFake检测方法。• MesoNet[6] 是一种基于 CNN 的 DeepFake 检测方法，针对的是IM的介观属性。年龄该模型是在作者收集的未发布的DeepFake数据集上训练的。我们评估了MesoNet的两个变体，即Meso4和MesoIncep。基于来自每个视频的估计的3D头部取向的SVM模型，确定合成视频的头部姿势的不一致性。该方法中的SVM模型是在UADFV数据集上训练的。• FWA[28]使用ResNet-50检测DeepFake视频[19]为了暴露由以下因素引入的面部扭曲伪影，基本DeepFake maker算法中的插值和插值操作。该模型是在自我收集的人脸图像上训练的。• VA[33]是最近的DeepFake检测方法，基于捕获眼睛，牙齿和面部中的视觉伪影合成的面部轮廓。该方法有两种变体：VA-MLP基于多层前馈神经网络分类器，VA-LogReg使用更简单的逻辑回归模型。这些模型是在未发布的数据集上训练的，其中真实图像来自CelebA数据集[31]，DeepFake视频来自YouTube。• Xception[40]对应于DeepFake检测基于XceptionNet模型[12]训练的在FaceForensics++数据集上。Xception有三种变体，即 Xception-raw 、 Xception-c23 和 Xception-c40 ： Xception-raw 在原始视频上训练，而Xception-c23 和 Xception-c40 分别在中等压缩度（23）和高压缩度（40）的H.264视频上训练• 多任务[34]是另一种最近的DeepFake检测方法，它使用CNN模型同时去Tect操纵图像和分割操纵区域作为多任务学习问题。该模型在FaceForensics数据集上训练[39]。• Capsule[36]使用基于VGG19 [44]网络的Capsule结构[42]作为骨干架构，DeepFake分类。该模型在FaceForensics++数据集上进行训练。• DSP-FWA是在FWA的基础上进一步改进的一种新方法，它包括一个空间金字塔池，ing（SPP）模块[18]，以更好地处理原始目标面部分辨率的变化。该方法是在自我收集的人脸图像上训练的。表3给出了我们实验中考虑的DeepFake检测方法的底层模型、源代码和训练数据集的简要总结。4.2. 实验设置我们使用ROC曲线下面积（AUC）分数在帧级的所有关键帧的整体检测性能进行评估这一选择有几个原因。首先，所有比较的方法都分析单个帧（通常是数据集UADFVDF-TIMITFF-DFDFDDFDCCeleb-DFLQHQ掩模-SSIM0.820.800.800.810.880.840.923213方法模型类型训练数据集存储库发布日期双流[54][48]第四十八话[第54话]作者提供的未发布代码2018.03MesoNet [6]CNN设计未发表https://github.com/DariusAf/MesoNet2018.09[53]第五十三话SVMUADFV [53]https://bitbucket.org/ericyang3721/headpose_forensic/2018.11FWA [28]ResNet-50 [19]未发表https://github.com/danmohaha/CVPRW2019_Face_Artifacts2018.11[33]第三十三话CNN设计未发表https://github.com/FalkoMatern/Exploiting-Visual-Artifacts2019.01[33]第三十三话Logistic回归模型Xception [40]XceptionNet [12][40]第四十话https://github.com/ondyari/FaceForensics2019.01多任务[34]CNN设计[39]第三十九话https://github.com/nii-yamagishilab/ClassNSeg2019.06胶囊[36][42]第四十二话FaceForensics++https://github.com/nii-yamagishilab/Capsule-Forensics-v22019.10DSP-FWASPPNet [18]未发表https://github.com/danmohaha/DSP-FWA2019.11表3. 比较DeepFake检测方法的总结。更多详情见正文DF-TIMIT-LQDF-TIMIT-HQFF-DFDFDDFDCCeleb-DF80.278.072.282.368.264.756.950 60 70 80平均AUC双流Meso4MesoInception4头部姿势FWAVA-MLPXception-c23Xception-c40多任务图7. 所有检测方法的平均AUC性能每个数据集。通常是视频的关键帧）并输出每个帧的分类因此，使用帧级AUC避免了由聚合每个视频的帧级分数的不同方法引起的其次，使用帧级AUC评分消除了在不同数据集上校准这些方法的分类输出的必要性。为了增加对数值不精确性的鲁棒性，分类分数四舍五入到小数点后五位，即。，精度为10−5。由于视频是压缩的，我们只对关键帧进行评估。我们使用推断码和公开的预训练模型来比较每种检测方法的性能。这是因为这些方法中的大多数没有用于训练机器学习模型的公开代码。因此，我们实际上无法在我们考虑的所有数据集上重新训练这些模型。我们使用每个比较检测方法提供的默认参数。4.3. 结果和分析在表4中，我们列出了在包括Celeb-DF在内的所有数据集上所有比较的DeepFake检测方法图9显示了几个数据集上几种顶级检测方法的帧级ROC曲线比较不同的数据集，在图。在图7中，我们示出了每个数据集上的所有比较的检测方法的平均帧级AUC分数。Celeb-DF通常是当前检测方法中最具挑战性的，并且它们在Celeb-DF上的总体性能在所有数据集中最低。这些结果与视觉质量的差异一致。注意，许多当前的检测方法基于视觉伪影，例如低分辨率和颜色不匹配，这在Celeb-DF数据集的合成算法中得到了改进。此外，检测胶囊DSP-FWA55 60 65 70 75 80 85 90平均AUC图8. 每种检测方法在所有评价数据集上的平均AUC性能。对于第二代数据集（DFD、DFDC和Celeb-DF，平均AUC分数低于70%），检测方法明显更高，而一些检测方法在第一代数据集上实现了近乎完美的检测（UADFV、DF-TIMIT和FF-DF，平均AUC分数约为80%）。在个体检测方法方面，图。8显示了所有DeepFake数据集上每种检测方法的平均AUC得分的比较这些结果表明，检测也取得了进展，最新的DSP-FWA方法达到了整体最高性能（87。4%）。由于在线视频在上传和重新分发过程中通常会被重新压缩为不同的格式（MPEG4.0和H264）和不同的质量，因此评估检测性能对视频压缩的鲁棒性也很重要。表5分别显示了四种最先进的DeepFake检测方法在原始MPEG4.0视频以及Celeb-DF的中等（23）和高（40）度H. 264压缩视频上的平均帧级AUC分数结果表明，随着压缩程度的增加，每种方法的性能都有所降低。特别是，在重新压缩的视频上，FWA和DSP-FWA的性能显著下降这是预期的，因为后一种方法是在压缩的H.264视频上训练的，使得它们在这种设置中更鲁棒。68.675.973.058.782.163.769.363.386.475.260.269.487.43214方法↓数据集→UADFV [53]DF-TIMIT [25]F-DF [40]DFD [15]DFDC [14]Celeb-DFLQHQ双流[54]85.183.573.570.152.861.453.8中4 [6]84.387.868.484.776.075.354.8MesoInception482.180.462.783.075.973.253.6[53]第五十三话89.055.153.247.356.155.954.6FWA [28]97.499.993.280.174.372.756.9[33]第三十三话70.261.462.166.469.161.955.0VA-LogReg54.077.077.378.077.266.255.1Xception-raw [40]80.456.754.099.753.949.948.2Xception-c2391.295.994.499.785.972.265.3Xception-c4083.675.870.595.565.869.765.5多任务[34]65.862.255.376.354.153.654.3胶囊[36]61.378.474.496.664.053.357.5DSP-FWA97.799.999.793.081.175.564.6表4.比较数据集上各种方法的帧级AUC评分（%）。粗体字对应最佳性能。1.00FWA1.00Meso41.00MesoInception40.750.500.250.750.500.250.750.500.250.000.0 0.51.00.000.0 0.51.00.000.0 0.5 1.01.00Xception-c231.00Xception-c401.00DSP-FWA0.750.500.250.750.500.250.750.500.250.000.0 0.51.00.000.0 0.51.00.000.0 0.5 1.0图9. 六种最先进检测方法（FWA、Meso 4、MesoInception 4、Xception-c23、Xception-40和DSP-FWA）在四个最大数据集（FF-DF、DFD、DFDC和Celeb-DF）上的ROC曲线。原始C23C40FWA56.954.652.2Xception-c2365.365.552.5Xception-c4065.565.459.4DSP-FWA64.657.747.2表5. 四种顶级检测方法分别对原始、中等（23）和高（40）度的H. 264压缩Celeb-DF的5. 结论我们提出了一个新的具有挑战性的大规模数据集，用于开发和评估DeepFake检测方法。Celeb-DF数据集减少了DeepFake数据集和在线循环的实际DeepFake视频的视觉质量差距基于Celeb-DF数据集，我们对当前的Deep-Fake检测方法进行了全面的性能评估，并表明仍然存在很多问题。还有改进的余地。对于未来的工作，首要的任务是扩大Celeb-DF数据集，提高合成视频的视觉质量这就需要改进现有综合算法的运行效率和模型结构。此外，虽然伪造者通常可以提高视觉质量，但他们也可能采用反取证技术，其目的是隐藏检测方法所预测的DeepFake合成的痕迹。预计这种反措施在伪造者谢谢。本材料基于NSF在批准号（IIS-1816227）下支持的工作。本材料中表达的任何意见、发现、结论或建议均为作者的观点，不一定反映NSF的观点。FF-DF（80.1）DFD（74.3）DFDC（72.7）Celeb-DF（56.9）FF-DF（84.7）DFD（76.0）DFDC（75.3）西乐布-DF（54.8）FF-DF（83.0）DFD（75.9）DFDC（73.2）西乐布-DF（53.6）FF-DF（99.7）DFD（85.9）DFDC（72.2）西乐布-DF（65.3）FF-DF（95.5）DFD（65.8）DFDC（69.7）西乐布-DF（65.5）FF-DF（93.0）DFD（81.1）DFDC（75.5）西乐布-DF（64.6）3215引用[1] DeepFaceLab github.https://github.com/iperov/DeepFaceLab，2019年11月4日访问。[2] DFaker github。https://github.com/dfaker/df，2019年11月4日访问。[3] faceswap-GAN github。https://github.com/anlu/faceswap-GAN，2019年11月4日访问。[4] faceswap github。https://github.com/deepfakes/faceswap，访问日期：2019年11月4日。[5] FakeApp.https://www.malavida.com/en/soft/fakeapp/，2019年11月4日访问。[6] Darius Afchar 、 Vincent Nozick 、 Junichi Yamagishi 和Isao Echizen。Mesonet：一个紧凑的面部视频伪造检测网络。 IEEEInternational Workshop on InformationForensics and Security（WIFS），2018年。[7] Shruti Agarwal ， Hany Farid ， Yuming Gu ，MingmingHe，Koki Nagano，and Hao Li.保护世界领导人免受深度造假。在 IEEE 计算机视觉和模式识别研讨会（CVPRW），2019年。[8] Jawadul H Bappy，Cody Simons，Lakshmanan Nataraj，BS Manjunath，and Amit K Roy-Chowdhury.用于图像伪造检测的混合 lstm 和编码器 - 解码器结构。 IEEETransactions on Image Processing（TIP），2019年。[9] Dmitri Bitouk，Neeraj Kumar，Samreen Dhillon，PeterBel- humeur，and Shree K Nayar.换脸：自动替换照片中的面孔。ACM Transactions on Graphics（TOG），2008年。[10] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros.大家跳舞吧在ICCV，2019年。[11] 罗伯特·切斯尼和丹妮尔·济慈·西特龙。深度假货：隐私，民主和国家安全的迫在眉睫的挑战。107加州法律评论（2019年，即将出版）;德州大学法学院，公法研究论文号。692;马里兰大学法律研究论文不。2018 -21，2018年。[12] 弗兰切洛是肖莱特。Xception：使用深度可分离卷积的深度学习在CVPR，2017年。[13] Kevin Dale ， Kalyan Sunkavalli ， Micah K Johnson ，Daniel Vlasic，Wojciech Matusik，and Hanspeter Pfister.视频脸更换。ACM Transactions on Graphics（TOG），2011年。[14] Brian Dolhansky ， Russ Howes ， Ben Pflaum ， NicoleBaram 和 Cristian Canton Ferrer 。 Deepfake DetectionChallenge（DFDC）预览数据集。arXiv预印本arXiv：1910.08854，2019。[15] Nicholas Dufour、Andrew Gully、Per Karlsson、AlexeyVic- tor Vorbyov 、 Thomas Leung 、 Jeremiah Childs 和Christoph Bregler。Deepfakes检测数据集由谷歌拼图。[16] 哈尼·法里德数字图像取证。MIT Press，2012.[17] D a vidGuera和Ed wardJDelp。使用递归神经网络的深度帧视频检测在AVSS，2018年。[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。IEEEtransactionsonpatternanalysisandmachineintelligence（TPAMI），2015年。[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。3216[20] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GAN的逐步增长，以提高质量，稳定性和变化。在ICLR，2018年。[21] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR，2019年。[22] 瓦希德·卡齐米和约瑟芬·沙利文用回归树的集合进行一毫秒CVPR，2014。[23] H. Kim，P.Garrido，A.Tewari，W.徐，J.Thies，N.尼斯纳P. 佩雷斯角里查德，M。 Zollh oüfer和C. 希奥博尔特深度视频肖像。ACM Transactions on Graphics 2018（TOG），2018年。[24] Diede

下载后可阅读完整内容，剩余1页未读，立即下载