没有合适的资源?快使用搜索试试~ 我知道了~
10117OpenForensics:大规模数据集用于野外多人脸伪造检测和分割Trung-Nghia Le1,Huy H.Nguyen2,Junichi Yamagishi1,2,and Isao Echizen1,2,31国立情报学研究所、2高等研究生院大学、3东京大学https://sites. Google. com/view/ltnghia/research/openforensics/图1.来自我们OpenForensics数据集的示例(最好在线查看放大的彩色)。你能在这些图像中发现伪造的面孔并答案在补充材料里。摘要Deepfake媒体的扩散引起了公众和相关部门的担忧。制定针对社交媒体中伪造面孔的对策至关重要。本文提出了一个全面的研究两个新的对抗任务:多面伪造检测自然界中的分离和分割。在不受限制的自然场景中的多个人脸中定位伪造的人脸比传统的deepfake识别任务更具挑战性为了促进这些新任务,我们创建了第一个大规模数据集,提出了高水平的挑战,该数据集设计有明确用于面部伪造检测和分割的面部丰富注释,即开放取证。凭借其丰富的注释,我们的OpenForensics数据集在deepfake预防和一般人脸检测方面具有巨大的研究潜力。我们还为这些任务开发了一套基准测试,方法是在各种情况下对我们新构建的数据集进行最先进的实例检测和分割方法1. 介绍深度学习的持续进步导致了深度伪造方法的显著改进(即,基于深度学习的面部伪造),这可以改变目标人自动编码器(AE)模型和生成对抗网络(GAN)等新兴技术能够将一个人的面部转移使用deepfake方法合成的逼真外观备受关注图2. OpenForensics数据集中的Face-wise多任务地面实况(最佳在线彩色放大视图)。从左到右,原始图像之后是覆盖的真实边界框和分割掩模、伪造边界和一般面部标志。在计算机视觉和图形学领域中,因为这种方法在广泛的领域中的潜在应用[18,26,30,79,39]。此外,伪造的人工智能合成图像/视频引起了对个人骚扰和犯罪欺骗的严重关注[6,62,12]。为了应对欺骗和模仿攻击带来的威胁,必须制定数字媒体中人脸伪造的对策传统的人脸伪造识别方法[2,54,53]需要输入给定的人脸区域。因此,它们一次只能处理一个面,而顺序处理此外,它们的性能在很大程度上取决于所使用的独立人脸检测方法的准确性。考虑到这些方法仅在实验室环境中使用具有简单背景和单个清晰正面的图像进行了评估[31,78],它们还没有准备好在现实世界中部署,其中的背景比简单的舞台场景更加多样化和具有挑战性。因此,必须开发能够10118表1.关于Deepfake数据集的基本信息 和分别代表分类、检测和分段。原始场景是最初收集的用于生成假数据的图像/视频。独特的假场景是忽略扰动的假图像/视频。发布的场景是作者公开发布的真实/虚假(或两者)图像/视频的数量。数据集年任务GT型假身份#脸每个图像脸闭塞#原始场景#独特的假场景释放数量场景数据增强DF-TIMIT [31]2018Cls.图像标签其他视频1✗320320640✗UADFV [78]2019Cls.图像标签其他视频1✗494998✗[61]第61话2019Cls.图像标签其他视频1✗1,0004,0005,000✗谷歌DFD [16]2019Cls.图像标签其他视频1✗3633,0683,431✗[14]第十四话2020Cls.图像标签其他视频1✗48,190104,500128,154✓[46]第四十六话2020Cls.图像标签其他视频1✗5905,6396,229✗[27]第二十七话2020Cls.图像标签雇佣演员1✗1,0001,00010,000✓[第84话]2020Cls.图像标签N/A1✗0707N/A✗OpenForensics2021Det. /分段BBox/MaskGAN>1个✓45,47370,325115,325✓有效地同时处理来自输入图像的多个面部。据我们所知,没有方法已经提出了人脸伪造检测和分割的官方。我们将此部分归因于缺乏用于训练和测试的为了鼓励更多的研究在这一领域,我们在本文中提出四个贡献。首先,我们提出了一个全面的研究任务相关的大规模人脸伪造在野外。特别是,我们引入了两个新任务:在野外的多人脸伪造检测和分割。这是第一次正式探索这些任务,以我们所知的最好的以前的工作只探索了单面伪造识别。其次,我们建议使用GAN模型生成无限数量的假个人身份,用于非目标面部交换,而无需重复训练deepfake AE。我们提出的伪造工作流程降低了合成假数据的成本。第三,使用所提出的伪造工作流程,我们引入了一个新的图像数据集,以支持多人脸伪造检测和分割任务的发展。我们新构建的OpenForensics数据集是为这些任务设计的第一。它由115K无限制图像和334K人脸组成。与现有的数据集不同,我们的数据集包含各种背景和各种年龄、性别、姿势、位置和面部遮挡的多个人。所有图像都具有支持多个任务的面部丰富注释,诸如伪造类别、边界框、分割掩模、伪造边界和一般面部标志(参见图1A和1B)。1和2)。因此,该数据集不仅可以支持多人脸伪造检测和分割任务,而且还可以支持涉及一般人脸的常规任务。第四,我们提出了一个基准套件,以促进这些任务的评估和推进。我们对各种场景中的最先进的实例检测和分割模型进行了广泛的评估和深入的分析。整个数据集,评估工具包和训练模型将在我们的项目页面上免费提供。1 https://sites. Google. com/view/ltnghia/research/openforensics2. 相关工作2.1. 现有取证数据集表1总结了现有取证数据集的基本信息。DF-TIMIT数 据 集 [31] 有 640 个 使 用 Faceswap-GAN [64] 从 Vid-TIMIT数据集[63]制作的假视频。UADFV数据集[78]由98个视频组成,其中一半是使用FakeAPP [18]创建的假视频。FaceForensics++数据集[61]包含来自YouTube的1000个原始视频和使用deepfake方法操纵的4000个合成视频[1,68,32,67]。Google DFD数据集[16]包含3068个假视频。Facebook DFDC数据集[14]包含使用各种deepfake和增强方法创建的128K原始和操纵视频[59 ,24 , 79 ,56 , 28]。Celeb-DF 数 据集[46]包 括YouTube名人视频和5,639个假视频。DeeperForensics数 据 集[27] 由 使 用deepfake VAE 的 10K 操 作 视 频 和FaceForensics++数据集中的1000个原始视频的增强组成。WildDeepfake数据集[84]包含从互联网上收集的707 个 deepfake 视 频 中 提 取 的 如 表 1 所 示 , 我 们 的OpenForensics是第一个设计用于人脸伪造检测和分割的数据集现有的取证数据集是通过将长视频分成短视频来创建的,这导致即使是原始视频也具有相同的背景。随后从一个原始视频合成许多假视频,导致大量相似的背景。由于重复的背景,在现有数据集上训练的深度模型可能无法很好地推广到现实世界。相比之下,我们的大规模图像数据集包含不同的背景。灵感来自多尔汉斯基等人的工作。[14]和Jianget al. [27]中,我们系统地将扰动的混合应用于原始操纵图像以模仿真实世界场景。使用现有的数据集,需要在每对视频上训练deepfake模型以交换人类身份,从而产生大量需要训练的模型。相比之下,我们数据集中的大量假面孔是由GAN合成的,而无需重复训练deepfake模型。虽然现有的数据集只为单面伪造分类任务开发,但我们的数据集是第一个为多面伪造检测和分割而10119图 3. 数 据 集 中 伪 造 面 的 视 觉 伪 影 。 从 左 到 右 ,FaceForensics++ [61] , DFDC [14] ,DeeperForensics [27] ,Celeb-DF [46]和我们的OpenForensics。在我们的数据集中生成的人脸具有最高的分辨率和最好的质量。任务,其需要比分类任务更多的注释我们的数据集也可以用于各种一般的面部相关的任务。2.2. 人脸操作与生成许多用于交换人脸的deepfake开源技术已经发布[32,1,64]。这些技术已经逐渐从使用手工制作的功能[32]发展到通过训练AE架构[1]和GAN模型[64][42]来使用深度学习来实现真实感。已经开发了用于转移表达的虚构再现技术[68,67,56]。使用不同的技术,如3D重建[68]和神经纹理[67]边界潜在空间[75]和解开形状[66]与AE模型相结合,以变形表达。除了传递表情之外,还可以通过使用递归神经网络来控制头部姿势,以通过使用不同的模态[74]以及使用人类可解释的属性和动作[70]来增强自然性[56]随后提出的人脸合成技术使用深度学习。他们通常使用GAN进行面部属性转换[8,9,28,29],用于身份-属性组合[3],用于识别的特征去除[51]以及交互式语义操作[40,83]。面部去纠缠特征在不同的潜在空间中被解释,从而在面部编辑中对属性操作进行更精确的控制[28,29,65,60]。现有的deepfake方法需要面部对进行特定训练,这意味着训练成本非常高。训练需要图像序列;因此这些方法仅对视频是实用的,并且所生成的面部通常具有低分辨率。虽然现有的人脸合成方法可以生成高质量的人脸,但如果原始人脸不接近训练数据的分布,则合成的人脸面向前方并且与原始人脸不一致。我们结合这两种方法来生成无限数量的假人表2.对象检测/分割数据集的规模数据集年对象类型#图像注释地面实况类型[第四十八话]2014一般目的200,000粗掩模城市景观[11]2016道路对象25,000粗精遮罩宽面[77]2016人脸32,200边界框SESIV [37]2019显著对象5,700精细掩模ADV [38]2020事故对象10,000精细掩模CAMO++[36]2021伪装物5,500精细掩模OpenForensics2021锻制面115,325精细掩模表3.OpenForensics数据集中的图像分布子集图像数量#Faces#真实面孔#伪造的面孔培训44,122151,36485,39265,972验证7,30815,3524,78610,566测试开发18,89549,75021,07128,670测试-挑战45,000117,67049,21868,452总115,325334,136160,67173,660识别,而无需重复训练AE。我们通过将基于GAN的高质量合成人脸转换为原始姿势来实现这一点。2.3. 人脸伪造分类研究人员一直在研究人脸伪造分类问题,这通常被认为只是一个二元分类问题(真/假)。该研究任务也被称为早期的方法通过分析生物线索,如眨眼[44],头部姿势[78],皮肤纹理[49]以及虹膜和牙齿颜色[50],利用深度假图像和视频中视觉伪影产生的一些作品研究了仿射面部扭曲[45]或混合边界[43]中的伪影,以区分真实和虚假的面部。目前大多数方法都是数据驱动的,直接在真实和虚假的图像和视频上训练深度网络[2,54,61,53,82,71]。它们不依赖于特定的工件。现有的人脸伪造分类方法不具有人脸定位能力。他们只能在一个裁剪过的面上工作;因此,它们的性能严重依赖于作为预处理执行的独立面部检测。据我们所知,我们是第一个工作,解决- ING多人脸检测和分割在野外。3. 大规模OpenForensics数据集新任务和数据集的出现导致了人类研究领域的快速进步[77,13,55,20,19]。然而,人体防伪的研究才刚刚起步,目前还不成熟,仅限于人脸识别。考虑到这一点,我们的目标是研究和开发一个数据集,以支持计算机视觉和法医界挑战新的伪造研究任务。3.1. 数据集构建如图4、数据集构建工作流程包括三个主要步骤:真人图像采集、伪造人脸图像合成、多任务标注。10120××图4.数据集构建工作流:2)合成伪造的面部图像(对于每个原始提取的面部,重复生成新的身份,直到交换的面部可以欺骗我们的简单分类器); 3)执行面向多任务注释。3.1.1真人图像采集我们从Google Open Images [34]中收集了原始图像,并删除了没有人的图像。由不真实的人脸组成的图像(例如,货币上和书籍、杂志、卡通和草图中的图像)或类人物体(例如,玩偶、机器人和雕塑)也被移除。我们最终获得了45,473张图像,这些图像被用作原始数据。3.1.2伪造人脸图像合成图4显示了用于合成大小伪造的面部图像的过程的概述。首先,提取真实人脸图像中的所有人脸,并在操作可行性检查模块中检查它们是否可操作。这是使用各种条件(例如,面部大小、图像质量和模糊)和随机操纵概率。如果操纵是可行的,则图像经历循环过程。受基于GAN的人脸合成[9,29]的启发,我们首先提取面部身份特征向量并使用随机值对其进行修改。然后将修改后的潜在向量馈送到GAN模型[65,60]中以生成新的面部。合成的面部随后被变换成原始姿势。合成面部中的可行操作区域(例如,面部标志内的区域或整个面部)被提取并使用泊松混合[58]和面部交换模块中的颜色适应算法混合到原始面部中,最终结果是新的身份。然后测试新的身份图像以确定它是 否 能 够 欺 骗 简 单 的 分 类 器 ( 即 , XceptionNet[10]),其被训练以区分真实和虚假身份。欺骗成功的那些被覆盖到原始图像上。其他面将被丢弃,并生成新面我们在补充材料中提供了网络的详细实施和培训。我们的合成工作流程具有以低成本合成无限数量的假身份的能力,与此同时,其他deepfake方法使用从视频中提取的有限数量的假身份,并执行配对训练。图5.测试挑战集中的示例图像(从上到下分为三个级别:每个图像包含至少一个伪造的面部。有关叠加地面实况,请参见补充资料。为目标换脸做深度模型因此,他们需要大量的时间和资源来合成数据集。我们的合成方法也克服了现有方法的局限性。现有的方法[61,14,27]生成低分辨率的人脸(通常小于256256像素),而我们的方法生成具有更高分辨率的人脸(即,512512像素)和更好的视觉质量(参见图(3)第三章。我们使用泊松混合[58]和颜色自适应算法来减少合成大小和原始面部之间的颜色失配(图1)。3)提高了锻造面的自然度。我们还通过提取68个面部标志点和训练面部分割模型来提高混合掩模的平滑度,从而产生精细的边界和完整的面部覆盖(参见图1B)。2用于不同的混合遮罩)。用于创建现有数据集的混合掩模是眉毛和下唇之间的矩形或粗糙凸包,导致不完整的面部覆盖或可见的边界(参见图1)。图3)。最后,我们将接受的图像随机分为单独的训练,验证和测试开发集(比例为60:10:30)。表3显示了我们新构建的OpenForensics数据集中图像和人脸的分布。3.1.3具有挑战性的场景增强为了增强我们的OpenForensics数据集对现实世界人脸伪造检测和分割所带来的挑战,我们应用了各种扰动来更好地模拟自然场景中的上下文,从而产生测试挑战子集。各种增广算子被划分为覆盖群。• 颜色处理:色调变化,饱和度变化,亮度变化,直方图调整,对比度添加,灰度转换.• 边操作:边缘检测和改变。• 逐块失真:颜色分组、颜色池化、颜色量化和像素化。• 图像损坏:弹性变形、拼图变形、JPEG压缩、噪声添加和丢失。• 卷积掩模变换:高斯模糊、运动模糊、锐化和压花。• 外部效应:雾、云、太阳、霜、雪和雨。101210.40.30.20.10.0电 话 : +86-510 - 8888888 传 真 : +86-510 -8888888图像中的面数0.0200.0150.0100.00500.02.55.07.510.012.515.017.5 20.0掩模大小(对数比例)a)场景词云b)图像分辨率c)每个图像的面部d)边界框大小e)掩模大小f)面部质心图6. OpenForensics数据集中的分布(最佳在线彩色放大视图)。在图像场景分布中,红色代表室内场景,蓝色代表室外场景(室内场景的百分比为63.7%)。平均每张图像有2.9张脸这些增强被分成三个强度水平(即,容易、中等和困难)以确保不同的场景。对于每个级别,单独或混合应用随机类型增强,产生45,000个图像。测试挑战集中的示例图像如图所示。五、3.2. 数据集描述任务多样性。现有的deepfake数据集[61,14,27,46]专门关注视频分类标签。相比之下,我们的目标是利用需要更多注释工作的面部真实情况,以促进进一步的伪造分析。每个面部被标记有各种地面实况,诸如伪造类别(真/假)、边界框、分割掩模、伪造边界和面部标志(参见图10)。见图2)。我们丰富的注释可用于各种任务,甚至多任务学习。数据集大小。OpenForensics是最大的检测和分割数据集之一(参见表2)并且足够大以训练和评估深度网络。这应该鼓励在这一领域进行更多的研究。多种场景。现有数据集[61,14,27,46]以短视频形式发布。虽然它们包含大量的图像,但短视频中的帧是相似的,对深度网络的训练没有太大贡献。对于这些数据集,数据采样通常用于训练深度网络,以避免过拟合并减少训练时间。我们将短视频中的类似帧定义为表1显示,OpenForensics数据集在场景数量方面比现有数据集大一个数量级,仅略少于DFDC数据集。图像场景。现有的deepfake数据集[61,46]包含有限类型的图像场景,例如室内场景和电视场景。相比之下,OpenForen-sics数据集包含各种类型的场景。我们使用大规模Places2数据集上的预训练模型计算场景[81]。图6(a)显示了词云的分布,各种户外场景占图像的36.3%图像分辨率。 图6(b)显示了OpenForensics数据集中图像分辨率的分布。大量的高分辨率图像,从而提供更多的人脸模型训练的边界细节导致更好的性能。每个图像多个面。现有的deepfake数据集[61,14,27,46]大多数情况下每个图像只有一张脸。相比之下,OpenForensics数据集每个图像有多个面孔(平均2.9个)。图6(c)显示了分布情况。面部特征。图6(d和e)通过绑定框大小和掩码大小(即,覆盖面部的像素数)。OpenForensics包含各种大小的面孔,从小到大。图中的人脸质心分布。图6(f)示出了面部倾向于靠近图像中心。此外,男女面部比例为50:50,且存在年龄的多样性补充材料中提供了更多细节数据增强。在现有的deepfake数据集上训练的深度模型可能由于训练数据中的图像相似性引起的过拟合而在现实世界中表现不佳。虽然强深度模型已经获得了非常高的准确性[54,43],甚至接近100%,但如果它们不与训练数据集共享紧密的分布,它们可能很容易在现实世界为了模拟OpenForensics数据集中的真实世界上下文,使用不同的扰动来改善场景多样性,以便更好地模拟真实世界的数据分布。通过使用简单的扰动,已经对现有的几个数据集进行了改进,这增加了 它 们 的 大 小 。 例 如 , DFDC 数 据 集 [14] 和DeeperForensics数据集[27]已经通过应用几何和颜色变换、添加噪声、模糊和覆盖对象进行了改进3.3. 用户研究为了评估Open-Forensics数据集中图像的视觉质量和人脸伪造检测中的人类表现,我们与200名参与者进行了一项用户研究,其中80名是专家,他们可以提供知识渊博的意见,因为他们研究深度伪造。研究结果能较好地反映专家和非专家的绩效。该 研 究 是 在 OpenForensics 数 据 集 和 四 个 现 有 的deepfake 数 据 集 上 进 行 的 : FaceForensics++ [61] ,DFDC [14],Celeb-DF [46]和DeeperForensics [27]。对于每个数据集,我们随机选择了600张图像并进行预处理。51.0%680-720<6809.4%>2014年720-1024百分之三图像比率面的比率10122FaceForensics++DFDCCeleb-DFDeeperForensics人为准确度(%)百分百百分之八十百分之六十百分之四十百分之二十1.3 2.83.22.84.0BRISQUE8070605040MOS5级43210%的百分比FaceForensics++ DFDC Celeb-DF DeeperForensics OpenForensics3000 10 20 30 405级(明显真实)4级3级2级1级(明显虚假)图7.五个比较数据集的图像真实度分数分布。平均意见得分(MOS)显示在条的顶部。OpenForensics数据集获得了最高的MOS,并且具有最高的5级分数百分比。9080虚警率图9.视觉特性与人类识别伪造面孔能力的相关性识别伪造面部的能力取决于图像真实性(MOS越高越好)和视觉质量(BRISQUE越低越好)。对于具有更高质量和更真实感的图像,误报率更高,这意味着OpenForensics是具有真实图像的最佳数据集。706050FaceForenscis++DFDCCeleb-DF806040DeeperForensics OpenForensics20图8.人脸伪造分类中的人的准确性。OpenForensics数据集中的图像在欺骗前00 1 23 4 5 7专家和非专家。为与会者搭建了一个虚拟平台。我们认为,如果参与者看到两个相似的图像但不同的人,他们可以很快看到一张脸是假的,这导致了与现有数据集的不公平比较。另外,如果伪造人脸与真实人脸混合,则伪造识别可能变得困难。为了调查这些假设,我们的用户研究集中在两种情况下:裁剪的面孔,以消除周围的环境和完整的图像与多面。图像现实主义评价。我们剪掉了伪造的头部,这些头部从面部延伸了一倍,以确保每个人的上半部分完全被提取出来。参与者被要求观看200张伪造的头部图像,然后以1到5分的形式提供对每张图像真实性的反馈,对应于“明显假”,“弱不真实”,“边缘”,“几乎真实”和“明显真实”。结果如图所示。7,OpenForensics数据集中图像的视觉质量得到了大多数参与者的高度评价。也就是说,OpenForensics数据集中的伪造面孔被认为是最真实的。我们的数据集达到了最高的平均意见得分(MOS)4.0,远高于第二好的数据集Celeb-DF(3.2)。DeeperForen-sics和DFDC数据集具有中等质量的图像(MOS为2.8)。FaceForensics++数据集具有最不真实的图像(MOS仅为1.3)。人脸伪造分类的人类表现我们再次裁剪头部,类似于为评估图像真实性而进行的裁剪。参与者被要求观看400张照片的混合物,这些照片是由原始和伪造的头像以50:50的比例随机后每个图像图10.多人脸伪造检测的人类表现。准确性下降的伪造面的数量增加。在观看每一张图片时,参与者被问到图片是“真的”还是“假的”。如图8中,参与者在区分OpenForensics数据集中的真实图像和虚假图像方面遇到了最大的困难。OpenForensics数据集的整体准确率最低(59.7%),其次 是 Celeb-DF ( 68.7% ) , DFDC ( 72.0% ) ,FaceForensics++ ( 82.0% ) 和 Deeper-Forensics(82.9%)。该图还表明,专家和非专家都难以区分我们数据集中的真实图像和虚假图像。有趣的是,尽管专家可以比非专家更好地识别假面孔,但他们错误地识别了低质量、低分辨率或低对比度的真实面孔(即,FaceForen-sics ++数据集)。我们将其归因于他们的过度自信以及他们认为GANs可能会生成这样的面孔,从而导致错误识别。图9示出了视觉特性与人类识别伪造面部的能力之间的相关性。识别伪造面部的能力取决于图像的真实性,从而导致随着真实性的提高而增加的误报警率(即,随着MOS的增加)。该图显示,大量参与者将OpenForensics数据集中的伪造面孔错误分类为真实面孔。OpenForen-sics数据集具有最高的MOS(4.0)和最高的误报率(34.6%)。该图还显示,OpenForensics数据集的BRISQUE得分[52]最低(35.2),这表明我们数据集中的图像降低图像质量(即,增加BRISQUE专家非 专家所有人为准确度(%)投票率(%)10123评分)会影响人类观察者-10124MaskRCNNMSRCNNRetinaMaskYOLACTYOLACT++CenterMaskBlendMaskPolarMaskMEInstCondInst测试开发集测试-挑战集vation,导致更低的误报警率。多面伪造检测的人的表现。参与者被要求观看一组160个图像,每个图像具有多个人,并且每个图像由随机选择的原始和伪造的面部、仅原始面部或仅伪造面部组成他们被要求识别每张图像中伪造面孔的数量。图 10 示 出 了 当 存 在 以 下 情 况 时 检 测 准 确 度 最 高(86%):最优定位查全率误差(oLRP)a) 伪造物检测最优定位查全率误差(oLRP)b) 伪造分割图像中没有伪造面,并且随着伪造面数量的增加而趋于下降。这可以解释为,当图像中有许多面孔时,参与者倾向于不太仔细地检查每张面孔并猜测所有面孔都是真实的。这就解释了为什么当所有的面都是真实的时,准确度很高事实上,当数字超过7时,准确率下降到0%。即使是人们也发现在野外图像中识别原始和伪造的混合面孔中的伪造面孔非常困难,这突出了我们OpenForensics数据集的挑战。4. 基准测试套件4.1. 基线方法我们进行了一个有竞争力的基准多人脸伪造检测和分割。为此,我们在各种场景下训练和评估了最新的实例检测和这些方法是MaskR-CNN [22]、MSRCNN[25]、RetinaMask [17]、Y 0 LACT [4]、MaskR-CNN[26]、 MaskR-CNN [27]、 MaskR-CNN [28]、 MaskR-CNN [29]。YOLACT++ [5] 、 CenterMask [41] 、 BlendMask [7] 、Polar-[2019 -02 - 26][2019 - 02][2019 -02 - 01][2019 - 02][2019- 01][201MaskRCNN和MSRCNN是众所周知的两阶段模型,它们缓慢地执行检测然后分割YOLACT模型[4,5]是旨在实现实时性能的早期单阶段模型。其余的方法是广泛使用的现代单级模型,克服了精度和处理时间的问题。其中,SOLO [72,73]直接输出掩码而不计算边界框。所有方法均使用相同的骨架(FPN-ResNet 50 [47,23])以使比较公平。我们在具有32 GB RAM和TeslaP100 GPU的PC上训练模型。模型使用ImageNet权重初始化[33],并在我们的训练集上训练了12个epoch。在第8和第11个时期,基础学习率下降了1/其他设置与作者提供的默认公共配置一致。4.2. 评估指标我们使用标准COCO风格的平均精度(AP)[48]评估了这些方法。我们报告了不同尺度(APS,APM,APL,其中S,M和L代表小型,中型和大型对象)的平均AP和AP的结果我们也使用定位查全率来图11.通过OpenForensics数据集上的多人脸伪造多任务基线方法实现的基准结果(最佳在线彩色放大视图)。测试开发集结果反映了标准图像上的基准性能,而测试挑战集结果反映了不可见图像的鲁棒性。较低的oLRP误差更好,而较高的AP更好。BlendMask具有最好的性能,YOLACT++是最稳健的。测试挑战集的CenterMask结果超出范围,如表5所示。精度(LRP)误差[57]。 我们报告了平均最优LRP(oLRP)及其误差分量的结果,包括局部化(oLRPLoc),假阳性率(oLRP FP)和假阴性率(oLRPFN)。4.3. 总体评价如图11,BlendMask具有最佳性能,对于标准图像上的检测和分割任务两者具有最高的AP和最低的oLRP误差。其他现代单级方法也具有较高的性能,两级方法具有中等性能。YOLACT方法在这两个任务上的性能 最 差 , 因 为 它 们 主 要 集 中 在 实 时 处 理 上 。YOLACT++和BlendMask对于不可见图像是最可靠的4.4. 多人脸伪造检测基准表4示出了按度量分解的多面部伪造检测任务的详细结果。它们表明BlendMask具有最佳性能,实现了最高 的 AP ( 87.0 ) 和 最 低 的 oLRP 误 差 ( 19.5 ) 。BlendMask还实现了所有对象比例的最高AP现代单阶段方法(即,BlendMask、PolarMask和CondInst)具有较小的定位误差和假阳性率,而两阶段方法(即,MaskRCNN和MSR-CNN)具有低假阴性率。4.5. 多人脸伪造分割基准随着可解释AI(XAI)技术的出现[15,21,35,38],识别检测到的面部中的操纵区域是有用的。因此,我们还评估了分割性能。如表4中所示,对于多面部伪造分割任务,方法性能的排序趋势类似于检测任务的排序趋势。BlendMask具有最好的分割性能,90908080707060605050404010 20 30 40 50 60 7010 20 30 40 50 60 70MaskRCNNMSRCNNRetinaMaskYOLACTYOLACT++CenterMaskBlendMaskPolarMaskMEInstCondInstSOLOSOLO2测试开发集测试-挑战集平均精密度(AP)平均精密度(AP)10125表4.测试开发集上的多人脸伪造检测和分割的基准测试结果较高的AP更好,而较低的oLRP误差更好。最佳和次佳结果分别以蓝色和红色方法年人脸伪造检测多面e伪造分割AP↑APS↑APM↑APL↑oLRP↓oLRP位置↓oLRPFP ↓oLRPFN↓AP↑APS↑APM↑APL↑oLRP↓oLRP位置↓oLRPFP ↓oLRPFN↓MaskRCNN [22]MSRCNN [25]ICCV 2017CVPR 201979. 279.029.929.580.280.179.579.524.324.39.59.62.72.74.03.883.685.116.116.882.184.285.886.821.221.17.67.73.02.64.24.4视网膜面膜[17]arXiv 201980.030.980.280.724.29.03.04.682.816.480.685.122.68.12.94.9Yolact [4]ICCV 201968.112.567.169.337.213.46.38.772.53.167.075.734.011.46.48.7Yolact++[5]TPAMI 202072.920.973.473.631.512.14.05.877.36.573.980.028.210.03.96.5中心遮罩[41]CVPR 202085.532.085.286.221.16.83.35.987.216.585.089.421.46.13.27.8BlendMask [7]CVPR 202087.032.786.388.019.56.22.46.289.219.887.391.018.35.42.56.3PolarMask [76]CVPR 202085.027.485.485.720.76.62.56.685.015.383.387.021.36.92.56.6MEInst [80]CVPR 202082.826.082.783.423.87.64.16.882.213.981.583.325.08.14.07.2[69]第六十九话ECCV 2020年版84.029.483.684.820.87.42.35.287.718.185.189.818.35.92.45.3SOLO [72]ECCV 2020年版--------86.615.485.688.420.06.62.16.0SOLO2 [73]NeurIPS 2020--------85.113.783.787.121.57.13.15.8表5.测试挑战集上的多人脸伪造检测和分割的基准结果较高的AP更好,而较低的oLRP误差更好。最佳和次佳结果分别以蓝色和红色方法年人脸伪造检测多面e伪造分割AP↑APS↑APM↑APL↑oLRP↓oLRP位置↓oLRPFP ↓oLRPFN↓AP↑APS↑APM↑APL↑oLRP↓oLRP位置↓oLRPFP ↓oLRPFN↓MaskRCNN [22]MSRCNN [25]ICCV 2017CVPR 201942. 142.211.811.846.245.940.540.865.465.313.613.729.329.640.039.943.743.34.75.244.344.644.043.564.464.111.811.829.430.441.239.6视网膜面膜[17]arXiv 201948.512.851.048.163.312.633.234.648.04.746.549.763.311.830.938.0Yolact [4]ICCV 201949.45.649.650.360.115.323.229.951.81.447.254.658.413.523.430.1Yolact++[5]TPAMI 202053.711.154.054.857.114.119.729.354.72.450.757.955.412.220.030.0中心遮罩[41]CVPR 20200.030.40.00.099.529.797.797.90.020.00.00.099.628.397.998.4BlendMask [7]CVPR 202053.913.556.653.560.210.626.537.454.07.154.554.559.99.826.438.4PolarMask [76]CVPR 202051.712.353.251.560.410.724.639.552.75.354.137.660.210.424.739.5MEInst [80]CVPR 202046.18.649.944.965.912.434.639.746.03.849.045.266.212.634.839.8[69]第六十九话ECCV 2020年版52.712.655.351.860.711.528.335.354.16.555.253.859.610.026.737.3SOLO [72]ECCV 2020年版--------55.93.953.357.357.611.324.633.0SOLO2 [73]NeurIPS 2020--------53.23.652.154.059.611.024.537.2对于测试开发集,AP几乎为90,oLRP误差约为18。现实世界中的图像显然包含各种大小的人脸。因此,有必要研究不同尺度上的检测和分割能力。表4示出了所有基线方法仅针对中等尺寸和大面部实现了高性能。性能随人脸大小而下降,导致小人脸和中/大人脸在检测和分割方面的边际差异。这些结果说明了我们的OpenForensics数据集的挑战,该数据集由巨大的人脸大小组成。与检测任务类似,我们发现基于密集检测的单阶段方法具有较少的FP错误,而基于稀疏检测的两阶段方法具有较少的FN错误。因此,开发基于NMS的后处理技术和改进RPN算法,将有助于提高伪造检测器的性能。4.6. 耐用性评价我们进行了实验,以评估我们的测试挑战集,模拟在现实世界中的场景的方法的鲁棒性。表5示出了Y0LACT ++和BlendMask是用于不可见图像的最稳健的方法。CenterMask是鲁棒性最差的方法,这归因于其结果包含大量噪声,导致极高的假阳性和假阴性率。表4和表5显示了所有方法对于不可见图像的性能大幅下降,这些图像超出了训练集的分布。虽然现有的方法可以很好地工作在标准的图像,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功