韩国DeepFake检测数据集的构建方法与数据集差异的实验与重要性的强调

136 浏览量更新于2023-10-13 收藏 834KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10744KoDF：大规模韩国DeepFake检测数据集Patrick Kwon **Gyuhyeon Nam Sungwoo Park Gyeongsu Chae MoneyBrain Inc.大韩民国首尔{patrick jaeseongyou ngh3053 daniel gc}@ moneybrain.ai摘要近年来，各种有效的人脸交换和人脸再现方法被公开，在很大程度上使人脸合成技术民主化。这样生成的视频被称为具有负面含义的深度伪造，因为它们引起了各种社会问题。面对新出现的deepfakes威胁，我们建立了韩国DeepFake检测数据集（KoDF），这是一个大规模的合成和真实视频集合，专注于韩国主题。在本文中，我们提供了用于构建数据集的方法的详细描述，实验显示了KoDF和现有deepfake检测数据集的分布之间的差异，并强调了使用多个数据集进行真实世界泛化的重要性。 KoDF 可在 https ：//moneybrain-research上公开获得。github.io/kodf 的全部内容（即真实剪辑、合成大小的剪辑、具有对抗性攻击的剪辑以及元数据）。1. 介绍近年来，图像和视频中的面部内容的制作已经变得相当容易和快速，这在以前需要大量的计算资源和专业知识。最新的基于深度学习的技术使得通过操纵面部表情或交换面部来轻松制作逼真的假图像和视频成为可能很快，deepfake这个词就成为了事实上的术语，指的是这种由深度学习模型合成的面部伪造。虽然主要用于无害的目的，如模仿视频[3]和娱乐应用程序[2，13]，但精心设计的deepfake可以恶意用于诽谤个人[20，31]，传播虚假信息[55，18]或实施欺诈[51，56]。由于对deepfakes的日益关注，最近对开发deepfake检测模型的兴趣激增，为此，var-*同等贡献图1. KoDF是一个分布控制的大规模韩国deepfake检测数据集，旨在补充其他数据集，并适应复杂的增强技术，以便更好地推广到真实世界的deepfake。10个公共数据集[37，48，39，25，36，26，23]和工作台-标记[8，6，4，7]已经被构建。他们为鼓励、促进和标准化deepfake检测研究做出了巨大贡献。为了与这些努力保持一致，我们发布了韩国深度伪造检测数据集（KoDF），其与之前的深度伪造检测数据集有重要区别。KoDF是公开可用的deepfake检测数据集中最大的，包含403个主题的175，776个假剪辑和62，166个真实剪辑。使用六种不同的合成模型生成Deepfake样本。为了抵消现有深度伪造检测数据库中代表性不足的亚洲人口统计数据最后，数据集采取各种措施来更好地管理关于参与者表1在各个方面比较了KoDF与其他公共deepfake检测数据集10745数据集房视频假视频总视频权利清除同意科目总科目方法UADFV [58]494998没有0491DeepfakeTIMIT [37]640320960没有0322FF++[48]1,0004,0005,000没有0N/A4[39]第三十九话5905,6396,229没有0591GDFD [25]3633,0683,431是的28285DF-1.0 [36]50,00010,00060,000No11001001DFDC [23]23,654104,500128,154是的9609608KoDF62,166175,776237,942是的4034036表1.KoDF与现有公共deepfake检测数据集的定量比较我们的贡献是双重的：（1）我们提出了KoDF，这是最大的公共deepfake检测数据集，计划并检查其样本的质量和多样性。(2)我们通过实验证明，没有一个建立的deepfake检测数据集单独足以近似真实的deepfake分布。然后，我们展示了如何利用KoDF与它们结合进行训练，增强了检测模型的通用性，为深度伪造检测的未来策略提供了见解。2. 相关作品早期的deepfake检测数据库-UADFV数据集[58]和DeepfakeTIMIT 数据集 [37]- 在 FaceForensics++（FF++）[48]和DeepFake检测挑战（DFDC）数据集[23]之前，在数量和质量上都有限制特征身份的数量不超过50个，真实和虚假视频的总量不到1000个。它们是从无法追踪的来源收集的，或者受试者关于可能的修改和公开使用其面部的协议假剪辑包含大量不切实际的合成大小的此外，所采用的合成方法的数量仅为一种或两种，未能捕捉到现代面部伪造手段的多样性。然而，两个里程碑数据集FF++和DFDC数据集克服了这些困难中的许多困难，并且还贡献了其他可行的FF++[48]是第一个包含来自YouTube的1,000个真实视频和4,000个假视频的大规模数据集，这些视频是1,000个原始视频中的每一个都通过四种选择的方法进行处理，总共产生5,000个剪辑。附带的是一个公共排行榜[8]，其中可以根据基准场景对隐藏的测试集评估deepfake检测模型。在DFDC数据集发布之前，FF++充当事实上的1DF-1.0的源视频来自100名付费演员，但其1，000个目标视频来自FF++，这些视频是在未经明确同意的情况下从YouTube上收集的。标准的deepfake数据集，因此在各种研究项目中使用[16，49，17，57]。然而，它未能充分解决上述一些问题;数据集的大小和多样性对于由大量参数组成的高性能神经结构的最佳训练仍然是不够的，并且缺少对象在数据库中出现的许可。2020年，亚马逊网络服务、Facebook、微软、人工智能媒体完整性指导委员会合作伙伴关系和学者合作开展了DFDC，这是一个大型项目，包括竞赛、数据集和伴随论文[24，23]。DFDC数据集作为挑战的一部分发布。它是仅次于KoDF的第二大公开deepfake数据集，包含超过960个主题和超过120，000个视频。为了保证数据库的多样性，原始剪辑是从不同的环境设置，合成剪辑是由八种不同的方法产生。挑战非常成功，鼓励广泛的研究人员参与开发有效的deepfake检测模型，随后关于deepfake主题的研究出版物数量增加[32，38，40，53]。然而，DFDC数据集并非没有缺陷。由于参与者记录他们自己的无引导记录过程，极端的光、音频和角度条件被并入（例如，一个人在完全黑暗的房间里说话），并且数据格式不一致（例如，分辨率和持续时间在剪辑之间变化）。参与者的分布不受年龄、性别或种族的控制。近年来，其他著名的公共深度造假检测数据库在关注点、组成和规模上各不相同。Celeb-DF [39]包括590个真实视频和 5 ， 639 个假视频。真实视频取自YouTube，其中内容是对59位名人的采访通过改进的人脸交换方法合成虚假视频。 Google DeepFakeDetection（GDFD）数据集[25]包含3，068个deepfake视频，这些视频是基于16个不同场景中28个同意的个人的363个原始视频生成的。DeeperForensics-1.0（DF-1.0）[36]是另一个最近的deepfake检测数据集。其来源视频为10746×100个付费演员的录制，1,000个目标视频来自FF++。通过将每个源身份交换到10个目标视频上来合成1,000个假视频。它没有使用多种合成方法，而是使用七种扰动方法在真实和假视频上增加了多样性。结果，分别创建了50，000个真实剪辑和10，000个假剪辑。尽管这些数据库与它们的早期对应关系相比要大得多并且变化更大，但它们在Deepfake检测研究中的利用程度不如FF++和DFDC数据集，因此它们的学术有效性尚未完全建立。3. 韩国DeepFake检测数据集3.1. 贡献3.1.1数量KoDF包含62，166个独特的90秒长的真实剪辑（62.8天）和175，776个独特的15秒或更长的deepfake剪辑（30.5天）。在总时长（源视频38.4天，生成输出12.1天）和剪辑数量（48，190个源视频和104，500个假视频）方面，它都超过了之前最大的公共deepfake检测数据库DFDC数据集。此外，与DFDC数据集不同，音频交换或增强剪辑不算作KoDF中的合成数据点。为了构建数据集的假部分，我们仅诉诸于六个精心选择的合成模型的推理输出（细节将在第3.3.2节中讨论），而不是微不足道的修改。3.1.2受控受试者分布KoDF专注于一个人对着相机说话的情况，因为它特别容易受到合成修改的影响，因此经常被deepfakes瞄准。为了使数据库的多样性最大化，我们根据年龄、性别和记录位置控制403名患者的分布，特征数百分比（%）403 10019 5 1.2420 29 205 50.873.1.3质量保证和权利许可KoDF通过细致的检查过程保证质量。每一个真实的和deepfake的实例都由人类的眼睛和耳朵进行交叉检查，以发现可能的问题。该过程的详细信息见第3.2节和3.3.过滤过程排除了琐碎的情况，例如经常出现在其他deepfake数据集中的合成完全失败。因此，KoDF只包括真实的威胁，其中现实主义水平如此之高，以至于人类无法轻易判断剪辑是否真实。KoDF的所有真实片段都是从付费参与者那里征集的。我们已经非常详细地告知了他们数据库的目的，强调了他们的脸可能被操纵和合成的可能后果。他们都同意出现在数据库中，并签署了正式协议。此外，所有的合成模型已被彻底检查潜在的许可证问题。如果需要的话，我们已经请求了作者的许可，使用他们的模型进行数据库建设。3.1.4前瞻性真实世界的deepfake将经历无数的修改（例如压缩、调整大小、手动编辑等）in the process处理of being存在generated生成and shared分享.详细的数据扩充对于模拟这种转换是必不可少的[54]，数据的一致性使得更多的受控扩充成为可能。我们收集并合成全高清视频，将分辨率均衡为1920 - 1080。由于视频质量降级比升级容易得多，因此KoDF的高分辨率剪辑为后验数据增强留下了更大期望应用各种增强技巧，我们将KoDF从任何先验数据增强中排除（对10%数据的对抗性攻击是添加而不是替换;见第3.4节）。这与DFDC数据集和DF-1.0形成对比，其中各种扰动是数据的固有部分。我们打算把最佳增强技术的选择留给研究人员。虽然面部交换是用于深度伪造创建的最知名的方法，但是深度伪造技术不是面部交换神经网络的简单等价物。存在许多其他操作手段来在网络中伪造人年龄30 39 106 26.3040万49 61 15.1450万59 19 4.7160 7 1.74图像或视频。最令人关注的是面部再现，通过面部再现，人们可以操纵视频中甚至静止图像中的人的动作和表情，外部视频或音频源。 [50，59，47]。当-性别女性205 50. 87男198 49.13位置众包353 87.5950号公寓12.41表2.按年龄、性别和记录地点列出的受试者分布虽然针对明显的商业用例进行了积极的研究，但是在深度伪造检测领域中还没有得到应有的关注因此，我们在我们的数据库中包括大量的重演模型10747KoDF中的韩国受试者（和8名东南亚人）当与其他数据库放在一起时，KoDF的互补种族组成对于为现实世界的应用构建更通用的检测模型至关重要。即使存在工作的deepfake检测模型，攻击方也可以更进一步，创建更棘手的实例来欺骗检测器。例如，已经设计了混淆分类模型的破坏性手段[29，28，27]。因此，我们添加到KoDF对抗性的例子，以鼓励开发对这种攻击具有鲁棒性参见章节3.4的双曲余切值。3.2. 真实数据与以前由发现的剪辑组成的deepfake检测数据库不同[37，48]，KoDF的源视频被专门记录以构成数据库。通过自主管理录音过程，我们可以防止有缺陷的内容，并控制录音环境、情感内容和语音语料库的分布在403名受试者中，353名参与众包任务，其中受试者被要求拍摄150个片段，每个片段应持续超过90秒。150个片段的第一个记录是一个空闲片段，其中主体保持自然姿势，什么也不说。在剩下的149个录音中，受试者阅读由10个句子组成的指定脚本。这些是脚本剪辑。其余74个片段是场景片段，其中受试者选择或提出问题，并在给定时间内提供他或她的回答。为了增加更多的多样性，我们引入了相机角度，焦距，记录位置，背景，道具组成和照明方面的微小变化。每个片段都属于三个情感类别之一：积极，消极和中性。脚本剪辑的句子和场景剪辑的问题按照记录来制定。这项任务设计的目的是为了方便记录过程中的科目，他们大多是业余爱好者，没有经验，在拍摄自己的镜头。上述策略有助于改变受试者脚本剪辑的句子语料库包括从标准韩国语言词典中抓取的定义和示例[44]。如果句子长度太短或太长，或者包含非韩语符号，则会筛选找到的句子。它们随后按句子类型组织：陈述、疑问和感叹。我们调整语句类型和另外两种类型在一个脚本剪辑到8：2的多样性的表达。所选择的句子基于昆山国立大学韩国情感词典[45]，通过简单地累积每个标记的效价分数，对其情感类别一个脚本剪辑包含10个相同情感类别的句子;例如对于肯定剪辑，分配10个肯定句子。对于场景剪辑，从业余作家那里收集了420个问题并进行了校对。问题的情感质量由三个注释者进行评估，然后根据多数原则进行分类。在每个片段中，要求受试者虽然受试者可以自由地提出他或她自己的问题，而不是从题库中选择，但提出的问题需要满足问题内容和预期答案方面的情感类别情景设计的目的是为了让业余参与者放松，扩大演讲风格的范围，补充脚本剪辑相对僵硬的动态和单调的韵律。其余50名受试者参与录音室任务，其中录制环境和任务设计与众包任务不同。他们在专业的摄影棚里与熟练的导演对着绿色的屏幕录制高质量的视频片段。受试者在不同日期的一个或两个会话中进行八次记录运行。他或她每次阅读300个句子，每次阅读大约需要35分钟。这八个长录音后来被分成90秒的间隔，总共有184个这些剪辑相当于众包任务中的脚本剪辑，我们不包括演播室任务的场景设计。手动检查所收集的真实夹子是否存在各种可能的缺陷：（1）音频-视频同步问题，（2）过度的背景噪声，（3）话语严重受阻或口吃，（4）极端的照明条件，以及（5）面部位于中心区域之外。如果在检查过程中检测到这些问题中的任何一个，则请求受试者再次拍摄相应的剪辑。3.3. 合成数据我们采用六种不同的模型来生成deepfake剪辑。其中，FaceSwap [9]、DeepFaceLab [46]和FSGAN [43]是人脸交换模型。一阶运动模型（FOMM）[50]是一种视频驱动的面部重现模型。剩下的两个，音频驱动的Talking Face Head Pose （ ATFHP ） [59] 和 Wav2Lip[47]，是音频驱动的面部重现模型。在实际合成之前和之后，处理视频剪辑以减少伪影并增强保真度。在下文中，术语目标和源用于表示面部交换中的不同面部身份;所述目标是所述基础视频的待替换面部内容，并且10748×源是面部内容以替换目标。因此，从面部交换方法得到的剪辑看起来与目标视频相同，除了作为源的面部身份之外。另一方面，在面子再现方法上，源与靶是同一的;他们的目标是操纵源人物的姿势或表情，同时保持其余的。可以从不同的身份获取驾驶音频或视频。3.3.1预处理所有的原始剪辑被初步处理的主题。我们采用面部地标算法2DFAN [19]，通过该算法，面部区域被裁剪、对齐和调整大小以512 512像素。这些区域通过以眼睛和鼻子为中心的位置的仿射变换来计算。为了训练面部交换模型，根据它们的锐度和面部角度的多样性选择4，000到5，000个面部帧（重演模型需要很少或不需要额外的训练）。3.3.2合成模型KoDF的合成模型是各种面部操作技术的集合。尽管我们试图在模型之间保持相等的分布，但由于所有生成的剪辑都是在手动筛选过程下验证的，因此每种方法的视频数量是不相等的。一些方法保证了稳定的真实感水平，占较大的块，而其他方法对照明和噪声敏感，导致许多无法使用的剪辑无法进入KoDF。图2显示了由所选方法生成的示例帧，合成视频的分布如图3所示。FaceSwapFaceSwap [9]是一个开源的人脸交换软件，最初由Reddit用户/u/deepfakes，后来由其发展中的社区维护。它具有编码器-解码器架构。两个单独的速率解码器处理的源和目标面临分别共享一个编码器。三个网络同时训练;编码器学习非身份特征，而两个解码器捕获与每个身份更相关的特性。因此，该模型推断的人脸图像，保持源身份，同时匹配目标我们包括这个模型，因为它的历史重要性，作为术语deepfake起源的起点。DeepFaceLabDeepFaceLab [46]是目前最流行的生成deepfake视频的方法，它提供了一个重要且易于使用的管道，以及一系列合成模型[5]。这些模型在卷积自动编码器架构以及训练和推理过程方面之一图2.合成帧的选择。每一行都是从上到下使用FaceSwap、DeepFaceLab、FSGAN、FOMM和Wav2Lip创建的。图3.通过合成方法分配KoDF视频。音频驱动包括ATFHP和Wav2Lip。然而，来自FaceSwap的显著改进是在共享编码器和两个解码器之间的介入网络。这种修改有助于捕获源人和目标人两者的共同非身份特征此外，混合损失结合了均方误差和结构不相似性指标，从而提高了保真度。FSGANFSGAN [43]能够进行人脸交换和重演。该模型首先根据目标的姿态和表情再现源图像，并分割出两张人脸的面部区域。然后，它inpaints再现的脸的缺失的部分，并混合完成的脸与目标，创造最终的结果。期间10749PSNR（r，g）=10·IIlog（）（1）1012、R G RG该模型通过Delaunay三角剖分选取与目标最对应的多个源帧，并根据重心坐标对各源帧的重建结果进行加权平均这个过程使得模型主题不可知，因此它不需要对每个新的源进行大量的调优。对于本文，我们使用官方实现[11]的面孔交换方案。我们采用作者FOMM FOMM [50]是一种自监督网络，它将驾驶视频序列的运动应用于图像，其中两者都包含相同类别的对象（例如，脸）。它通过以自我监督的方式使用仿射变换对关键点周围的运动进行建模，从而简化外观和运动。该算法首先根据驾驶视频的运动对源图像进行变形，然后通过图像修复的方法对变形后的图像进行修复。我们在VoxCelab数据集[41]上使用官方代码和预训练模型[10]。该模型被选择来表示面部再现策略及其现实世界应用。例如， Open Avatarify[12]，一个流行的视频聊天实时重演工具，采用了这种模型。ATFHP和Wav2Lip我们采用两种不同的音频驱动面部合成模型用于KoDF：[59]和Wav2Lip [22]。前者反映了基于三维形变模型的人脸合成的研究热点。ATFHP采用音频和视频输入来创建输出-put video，它保留输入视频的身份，同时将面部表情同步到音频。这通过从输入音频创建3D模型参数的列表并将它们渲染到合成帧来实现。一个内存增强的GAN模块，然后细化到现实的渲染帧与平滑的背景transi，各种人脸身份。在使用Wild数据集中的Lip Reading进行预训练之后[21]，它只需要用少量的帧进行微调来学习个性化的谈话行为。在开始使用ATFHP为KoDF生成音频驱动的面部重现实例后不久，我们使用新发布的替代方案Wav2Lip进行了实验。与使用基于GAN的架构从驾驶音频生成说话面部的类似模型不同，Wav2Lip利用预训练的嘴唇同步算法，这有助于模型根据音频学习适当的嘴唇运动。为了捕获语音的时间上下文，该模型使用五个后者的合成过程的效率。对于每个输入标识，ATFHP[1]的预训练模型需要仔细微调，以获得满足我们质量保证标准的高保真合成。另一方面，Wav2Lip [15]的方法可以有效地生成相对于看不见的面部身份的适当质量的样本，而无需微调。结果，使用ATFHP和Wav2Lip分别合成了455（2.5%）和17，915（97.5%）个剪辑3.3.3后处理上面列出的所有方法产生与在预处理步骤期间裁剪的面部区域匹配由于大多数模型无法重建面部边界周围的准确细节，因此需要将合成结果混合回原始帧的过程。使用来自预处理阶段的相同面部标志检测[19]，我们从合成的图像帧创建面部掩模。对掩模区域的边界进行高斯模糊处理以减少伪影，并且将模糊图像混合到对应时间位置的原始视频帧中。这种后处理过程减少了抖动，同时保留了面部边界周围的细节。3.3.4KoDF的质量评价一旦从合成模型生成视频，它们就经历手动筛选过程，在该过程中，它们被呈现给两个评分者并经受两个问题：（1）夹子的质量高吗？（2）视频中的人物能像真人一样通过吗？我们只保留那些在这两个问题上都获得评分者认可的片段。每个剪辑是提出一次在水平手机布局的大小.评分员还检查各种技术问题，包括方向、音视频同步、持续时间等。不能通过筛选的夹子被简单地丢弃。合成输出的质量通过峰值信噪比（PSNR）、结构相似性度量（SSIM）、Fre´chet初始距离（FID）[33]和平均关键点距离（AKD）进行评估。MAX2MSE（ r，g）连续的面部帧和相应的语音内容作为输入。虽然从ATFHP合成的结果是有前途的，我们从ATFHP切换到Wav2Lip由于相对2https://github.com/YuvalNirkin/fsgan/wiki/换脸推理（2µr µg+c1）（2σrg+c2）SSIM（r，g）=（µ2+µ2+c）（σ2+σ2+c）1.ΣPPp=1（二）AKD（ r，g）=（rp−gp）2（3）10750方法PSNR↑SSIM↑FID↓AKD↓FaceSwap22.10±2.020.76±0.051.11±0.080.21±0.04DeepFaceLab21.86±1.820.75±0.051.12±0.090.22±0.04FSGAN21.09±2.070.79±0.081.07±0.090.16±0.02FOMM26.16±2.960.87±0.041.00±0.070.15±0.02音频驱动24.47±2.390.84±0.061.09±0.080.17±0.02总23.72±3.170.81±0.071.06±0.090.18±0.04表3.每种合成方法的KoDF的质量评价。音频驱动包括ATFHP和Wav2Lip。数据集PSNR↑SSIM↑FID↓AKD↓FF++23.11±3.220.77±0.091.11±0.080.26±0.08DFDC24.54±3.230.79±0.081.14±0.090.25±0.13DF-1.022.15±1.760.76±0.061.11±0.060.19±0.11KoDF23.72±3.170.81±0.071.06±0.090.18±0.04表4.KoDF和其他数据集的质量比较为了进行评估，我们随机选择了500个真实剪辑和500个相应的合成剪辑。从每个伪样本中，均匀地提取100个帧，并且从相同的时间位置获取它们的真实匹配对这100对的每个度量进行平均，以计算每个合成剪辑的值。表3显示了KoDF合成方法的结果，表4将KoDF与FF++、DFDC和DF-1.0数据集进行了比较。33.4.对抗性攻击在人们对deepfake检测技术日益浓厚的兴趣中，研究人员正在考虑下一步：对抗性攻击来欺骗检测模型。已知对deepfake检测具有破坏性的方法包括基于梯度的对抗性攻击[27]和隐藏合成模型产生的空间和光谱伪影的国际噪声[34]。甚至有一个工具箱来创建这种对抗性实例[30]，研究人员报告了deepfake检测模型对黑盒攻击的脆弱性[42，35]。快速梯度符号方法[29]是KoDF模拟潜在恶意尝试以逃避检测的方法，因为它是最广为人知的对抗方法。创建对抗性示例的过程如下：我们训练初步检测器模型，获得混淆初步模型的噪声帧序列，并将噪声序列与相应的输入剪辑混合。这种策略是基于这样的假设，即大多数检测器的结构与初步检测器类似，这允许生成的对抗性示例在检测器的架构细节中概括其难以捉摸的效果我们通过对预训练3GDFD由于其对应的真实和假剪辑之间的时间差以及缺乏元数据来校正它们而不包括在这里。EfficientNet-B4 [52]具有两个完全连接层的基础。然后使用KoDF的一部分来训练模型，其结构如下：从10%的随机选择的假样本中，以0.8%的机会提取第150和第450位置之间的帧，并且从2%的真实剪辑中，随机抽取一百帧中的一帧。为每个类别编译大约40，000帧，并且模型被训练10个时期。为了创建噪声实例，随机选择十个剪辑中的每一个，而不管其真实或虚假类别，并将其分解成帧序列。每个帧被迭代地馈送到经训练的初步模型中。所获得的是相对于输入图像x的所生成的梯度的符号，其被缩放并添加到原始帧。xadv=x+·sign（xJ（θ，x，y））（4）噪声的缩放因子ε在0.01、0.05和0.1之间变化，并且初步模型在一段时间内被重新训练三次，以生成不同性质和强度的噪声。噪声化的帧再次被组合成视频，并添加来自原始源的音频。4. 检测评价Deepfake检测数据集的最终目标是帮助开发一个通用的检测模型，该模型在各种真实世界的deepfake案例中表现良好。大多数关于deepfake检测的研究都是为了衡量他们提出的检测模型如何基于特定的deepfake检测数据集进行检测。这里的前提是目标深度伪造检测数据集是真实世界深度伪造实例的分布的良好近似。在随后的实验中，我们研究了现有的deepfake检测数据集是否保证了足够的通用性，以及它们在与域外数据混合和测试时的表现如何为此，我们使用FF++，DFDC和KoDF数据集的组合训练DFDC竞赛的获胜然后针对看不见的测试集评估多个变体，其中包括KoDF（攻击），GDFD数据集和DF-1.0的对抗样本。为了公平比较，对DFDC数据集和KoDF进行采样以匹配FF++的大小。 1,000个真实视频从两个数据集中随机选择4,000个假视频。按照[14]的预处理方法，我们使用MTCNN [60]从FF++和DFDC剪辑的每个帧中提取人脸，并且忽略无法识别人脸的帧在KoDF的情况下，我们从每个剪辑中随机选择300帧，以匹配每个数据集的人脸样本总数。然后将提取的面部帧我们训练DFDC获胜10751图4.在FF++、DFDC数据集、KoDF及其组合上训练的DFDC获胜检测模型的ROC曲线。所有训练集变量都具有相同的大小。训练后的模型在看不见的测试集上进行评估，包括KoDF（Attack）的对抗样本、GDFD数据集和DF-1.0。我们还包括相应的准确度热图。在三个训练集的不同组合上建立模型，所有这些训练集都具有相同的大小。在30个时期的训练之后，选择验证集上具有最小损失值的时期，并且在六个测试集中的每一个上图4总结了结果。结果表明，三个deepfake检测数据集中的每一个都不足以近似真实的deefake分布，导致检测模型无法适应不同的deepfake检测数据集。对于KoDF，该问题相对严重，但这是很自然的，因为我们的数据集的分布在更大程度上受到系统控制（如第3.1.2节和第3.1.4节所述）。这里的重点是，当在它们的组合上训练时，模型对各种域外数据变得更加鲁棒。值得注意的是，与仅使用FF++和DFDC数据集进行训练相比，当模型使用所有三种数据集时，性能有所提高。该观察结果支持KoDF的补充效用。从实验结果中，我们可以推断出，deepfake检测任务非常容易发生过拟合，比常规图像分类任务更容易发生过拟合，在常规图像分类任务中，模型学习自然重复出现的各种信号（即，局部模式和全局结构）。另一方面，deepfake检测模型关注在生成过程中产生的伪影因此，一个理想的深度伪造检测数据集应该包含最多种类的深度伪造方法和广泛的真实视频的示例。到目前为止，还没有一个独立的deepfake数据集能够达到足够的一般性是为了自己满足这些条件，而实际的解决方案是利用多个邻接的数据集。5. 结论我们提出了一个新的大规模数据集，以帮助研究人员开发和评估deepfake检测方法。KoDF专注于韩国受试者，以弥补其他主要深度伪造检测数据库的亚洲代表性不足。它扩展了所采用的深度伪造方法的范围虽然KoDF是一个广泛的数据库，但我们的期望是，它将在现有和未来的deepfake检测数据库的相互补充中更有效地工作，包括两个里程碑数据集FF++和DFDC。我们通过实验证明了合成数据集用于野外深度伪造检测的好处我们希望KoDF能够成为深度伪造检测领域未来研究的垫脚石。6. 确认我们非常感谢KoDF是作为科学和信息通信技术部（MSIT）主办的2020年人工智能培训数据建设项目的一部分而建立的，并得到了韩国国家信息社会局（NIA）的这项研究部分得到了MSIT资助的信息通信技术规划评估研究所（ IITP ）的资助（ 2021-0-00888）。10752引用[1] 音频驱动的说话脸头部姿势正式实施。https://github.com/yiranran/ 音频驱动 -TalkingFace-HeadPose.完成日期：2020-07-16。[2] Avatarify ， Inc. https://avatarify.ai/ 网站。2020-10-17.[3] Ctrlshiftface。https://www.youtube.com/channel/UCKpH0CKltc73e4wh0_pgL3g. 2020-09-27.[4] 2020年深度取证挑战赛。https：//www.example.comcompetitions.codalab.org/competitions/25228.2020-08-03.[5] 深度面部实验室https://github.com/iperov/DeepFaceLab.2020-07-16.[6] Deepfake检测挑战。https://www.kaggle的网站。com/c/deepfake-detection-challenge.访问日期：2020-05-16。[7] Deepfake视频检测AI竞赛（使用kodf预览数据集）。https://dacon.io/competitions/open/235655/overview/.访问时间：2020-12-20。[8] 面部取证基准。http://kaldir.vc.in 的网站。tum.de/faceforensics_benchmark/ 的网站。2020-07-16.[9] 脸罩。https://github.com/deepfakes/faceswap. 2020-06-27.[10] 第一秩序运动模型官方代码https：//github.com/AliaksandrSiarohin/一阶模型。2020-07-16.[11] Fsgan正式实施。https://github.com/YuvalNirkin/fsgan. 2020-07-16.[12] 打开avatarifyhttps://github.com/alievk/www.example.com2020-09-20.[13] 重新面对。https://reface.ai/网站。访问时间：2020-10-12。[14] Selim 谢费尔别科夫的 dfdc获胜模型https：//github.com/selimsef/dfdc_deepfake_挑战2020-09-24.[15] Wav2lip官方代码https://github.com/Rudrabha/Wav2Lip. 2020-08-24.[16] Shruti Agarwal ， Hany Farid ， Yuming Gu ，MingmingHe，Koki Nagano，and Hao Li.保护世界领导人免受深度造假。IEEE计算机视觉和模式识别会议（CVPR）研讨会，第38-45页[17] 艾琳·阿梅里尼，莱昂纳多·加尔泰里，罗伯托·卡尔代利和阿尔·贝托·德尔宾博.基于cnn光流的Deepfake视频检测IEEE国际计算机视觉研讨会（ICCVW），第1205-1207页[18] Dan Boneh、Andrew Grotto、Patrick McDaniel和NicolasPapernot。为Deepfakes和Disinformation的时代做准备。HAI政策简报，2020年。[19] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集）。IEEE国际计算机视觉会议（ICCV），第1021-1030页，2017年。[20] 马特·伯吉斯Deepfake色情现在是主流。各大网站都在大赚一笔《连线》，2020年。10753[21] Joon Son Chung ， Andrew Senior ， Oriol Vinyals 和Andrew Zisserman。在野外读唇语句子。IEEE计算机视觉和模式识别会议（CVPR），第3444-3453页[22] Joon Son Chung和Andrew Zisserman。超时：在野外自动假唱。计算机视觉[23] Brian Dolhansky 、Joanna Bitton、Ben Pflaum、JikuoLu 、 Russ Howes 、Menglin Wang 和Cristian Ferrer 。DeepFake Detection Challenge（DFDC）数据集arXiv预印本arXiv：2006.07397，2020。[24] Brian Dolhansky， Russ Howes ，Ben Pflaum ，NicoleBaram和Cristian Ferrer。Deepfake Detection Challenge（ dfdc ）预览数据集。 arXiv 预印本 arXiv ：1910.08854，2019。[25] 尼克·杜福尔和安德鲁·古利。为深度造假检测研究贡献数据。Google AI博客，2019年。[26] Gereon Fox ， Wentao Liu ， Hyeongwoo Kim ， Hans-Peter Sei- del ， Mohamed Elgharib ， and ChristianTheobalt.视频：检测高质量的操纵面部视频。arXiv预印本arXiv：2005.10360，2020。[27] 阿普尔瓦·甘地和舒米克·杰恩。对抗性扰动欺骗了深度伪造检测器。2020年国际神经网络联合，第1-8页[28] Aditya Ganeshan ， Vivek B.S. ，和 R. 文卡特什先生Fda：特征破坏性攻击。IEEE国际计算机视觉会议，第8068-8078页[29] Ian J. Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。 arXiv 预印本 arXiv ：1412.6572，2015。[30] 窦古德曼、郝欣、王洋、吴月生、熊俊峰、张欢。Advbox：一个工具箱，用于生成欺骗神经网络的对抗性示例。arXiv预印本arXiv：2001.05574，2020。[31] 郝凯伦Deepfake色情正在摧毁女性现在法律可能最终会禁止它。麻省理工学院技术评论，2021。[32] Javier Hernandez-Ortega 、 Ruben Tolosana 、 JulianFierrez和Aythami Morales。Deepfakeson-phys：基于心率估计的Deepfakes检测。 Proc. 2021年第35届AAAI人工智能研讨会。[33] MartinHeusel、HubertRamsauer、ThomasUnterthiner、Bernha

下载后可阅读完整内容，剩余1页未读，立即下载