没有合适的资源?快使用搜索试试~ 我知道了~
CYBORG:融入损失函数的人类显著性优化合成人脸检测
61080CYBORG:将人类显著性融入损失函数改善基于深度学习的合成人脸检测0Aidan Boyd, Patrick Tinsley, Kevin Bowyer, Adam Czajka圣母大学,美国46556,圣母,{aboyd3,ptinsley,kwb,aczajka}@nd.edu0这是假的0这就是为什么0人类显著性损失(两者之间的距离)0显著性图0这是假的0这就是为什么0分类0损失+0人类感知智能 正在训练的模型0图1:我们提出的训练策略C onve Y s B rain O versight to R aise Generalization。CYBORG不断鼓励训练过程关注人类视觉感知中被认为显著的图像区域。这将导致模型更有可能学习来自人类显著区域的特征,而不太可能学习与类标签无关的特征。我们展示了泛化性能的提升。0摘要0如果深度学习模型的训练以人类感知能力为参考,能否实现更好的泛化能力?我们如何以实际的方式实现这一点?本文提出了一种训练策略,即将人类注释的显著性图纳入损失函数,以指导模型学习关注人类认为对于任务而言显著的图像区域。我们使用类激活映射(CAM)机制来探测模型在每个训练批次中的显著性,将该模型的显著性与人类显著性进行对比,并惩罚差异较大的情况。选取合成人脸检测任务作为示例来展示该方法的有效性,结果表明,CYBORG显著提高了在包含来自六个生成对抗网络的人脸图像的未见样本上的准确性,这些网络跨多个分类网络架构。我们还表明,即使扩大训练数据量至七倍,或使用非人类显著性的辅助信息(如分割掩模)和标准损失,也无法超越CYBORG训练模型的性能。作为这项工作的副产品,我们观察到在合成人脸检测任务中添加显式区域注释会增加人类分类准确性。这项工作为如何在实践中将人类视觉显著性纳入损失函数开辟了一个新的研究领域。本文提供了使用的所有数据、代码和训练模型。0增加了人类分类准确性。这项工作开辟了一个新的研究领域,即如何在实践中将人类视觉显著性纳入损失函数。本文提供了使用的所有数据、代码和训练模型。01. 引言0如何教孩子骑自行车?被动的选择是将孩子放在自行车上,给自行车一个推动,然后默默地站在一旁观察发生了什么。主动的选择是将孩子放在自行车上,给他们一个推动,然后一直在旁边跑步,不断给予建议。我们认为,当前的深度学习模型训练状态更倾向于被动而不是主动。我们引入了一种新的训练过程,通过将人类视觉感知纳入损失函数,不断提醒正在训练的模型关注人类认为显著的图像区域,如图1所示。所提出的CYBORG方法的主要目标是通过向损失中添加一个新的组成部分,基于人类显著性热图与模型的类激活图之间的差异,来鼓励深度学习模型关注人类显著区域。61090在每个训练批次中,我们基于映射的[55]热图来优化。因此,我们的新损失函数将经典的数据驱动优化与人类派生的监督或“教练”关于图像中与问题相关的部分相结合。为了证明CYBORG训练的优势,我们将其应用于区分真实人脸图像和各种现代生成对抗网络(GANs)生成的人脸图像的具有挑战性的任务。为了生成人类派生的显著性图,我们向363名人类展示了1000对人脸图像。每个图像对包含一个真实图像和一个合成图像(由基于深度学习的方法StyleGAN2[31]和非深度学习方法SREFI[2]生成)。观众被要求(a)选择哪张脸是真实的,哪张是合成的,以及(b)注释支持他们决策的区域。对于每个图像,观众的注释被编译成总结人类关于显著图像区域的判断的显著性图。我们的实验表明,CYBORG学习增加了在开放集分类制度中检测合成数据的准确性,在该制度中,测试样本是在训练过程中保留的六种不同GAN架构生成的。我们还证明,尽管将人类显著性添加到实施注意机制的示例模型[13]中可以提高性能,但与采用CYBORG方法时相比,这种改进很小。本研究的主要贡献是:0•引入CYBORG训练策略,通过将感知智能纳入损失函数中,从人类对显著区域的判断中获益。0•对CYBORG训练进行开放集评估,显示多个最先进的深度学习模型(ResNet、DenseNet、Inception和Xception)以及现有的合成人脸检测器的显著改进。0•通过两种方式评估人类注释的“价值”:(a)证明为了以经典方式训练一个与CYBORG性能相竞争的模型,至少需要7倍的训练数据;(b)用面部分割掩模提供的非人类来源线索替换人类显著性图,未能达到CYBORG训练模型所达到的泛化水平。0•对GAN生成的人脸图像进行“深度伪造”检测的评估,说明“深度伪造”检测和合成人脸检测的解决方案不能互相应用。0•结果表明,当参与者被要求注释支持其决策的图像区域时,人类分类准确性会提高,与没有注释的相同实验相比。0•数据和源代码以重现所有实验:包含由六种GAN架构(ProGAN、StarGANv2、StyleGAN、StyleGAN2、StyleGAN2-ADA和StyleGAN3)生成的60万个合成人脸的测试集。0StyleGAN2、StyleGAN2-ADA和StyleGAN3)的人类注释数据以及所有神经网络模型,请访问https://github.com/BoydAidan/CYBORG-Loss。02. 相关工作0合成图像生成和检测。自从Goodfellow等人[17]以来,许多开源(通常是预训练的)用于图像合成的GAN已经可用[26, 30, 31, 28, 29, 9, 6, 56, 39]。[42,16]的作者认为,频域分析可以揭示不同模型架构、数据集和分辨率下GAN生成图像中的伪影或操纵。然而,正如Marra等人[35]所记录的,传统的非深度学习方法(如隐写分析[11])在存在压缩的情况下失败。在它们的训练过程中生成了几乎无限数量的伪样本,ResNet [20]、DenseNet[23]、InceptionNet [48]和Xception-Net[10]等深度网络在伪图像召回方面已经达到了99%以上的准确率[49]。甚至在StyleGAN3[29]公开发布之前,已经有几个积极的努力来检测StyleGAN3图像[47, 25, 53, 18, 34,51]。这些模型可以与提出的CYBORG损失相结合,本文描述了一种由Wang等人提出的模型的尝试,详见补充材料。虽然生成前所未见的图像天然适合创造过程,但操纵现有图像的能力带来了重大的安全问题[4,8]。一个常见的商业替罪羊是深度伪造[14],它将真实身份拼接到看起来逼真的视频中。本文证明,最先进的深度伪造检测器可能无法有效检测到完全合成的样本,而本文重点研究的就是这一点。0使用人类感知来理解/改进计算机视觉。O'Toole等人[38]证明,机器在各种质量的人脸图像上的准确性从未低于人类。RichardWebster等人[43]表明,在某些情境下观察人类面部识别行为可以用来解释为什么面部匹配器成功或失败,从而提高模型的可解释性。在生物特征识别中,发现人类显著性与算法显著性互补,因此将它们结合起来是有益的[50,36]。Czajka等人通过眼动追踪测量人类视觉显著性,并将其用于构建人类驱动的虹膜识别滤波核[12],取得了比非人类驱动方法更好的性能。Boyd等人提出了人类引导的训练数据增强方法[5],用于构建基于深度学习的虹膜呈现攻击检测方法,能够很好地推广到未知的攻击类型。在更广泛的机器学习领域,心理物理学的结果的融入有助于深度学习任务,如场景理解的图像字幕[21,24]、手写分析[19]和自然语言处理[54]。61100Linsley等人[32]提出将人源显著性融入到自注意机制中,将全局和局部注意力结合在“GALA”模块中。我们在补充材料中演示了如何将我们的人类显著性图融入到注意机制中,并显示CYBORG相比于在注意机制中使用人类显著性可以获得更好的准确性提升。Bruckert等人[7]考虑了基于眼动的人类显著性来改进模型的显著性。0CYBORG方法与之前的方法的区别:(a)人类空间显著性和模型空间显著性从未直接进行比较和融合到整体损失中;(b)CYBORG不需要对模型进行架构更改,例如专门的注意力模块。03. 实验数据集0使用了两种类型的人脸图像数据集:真实数据集包括来自三个来源的真实图像(CelebA-HQ [26]、Flickr-Faces-HQ[30]和FRGC-Subset[40]),合成数据集包括来自七个不同生成器(ProGAN、StyleGAN、StyleGAN2、StyleGAN2-ADA、StyleGAN3、StarGANv2和SREFI [26, 30, 31, 28, 29, 9,2])的伪图像。除了图2之外,下面的章节简要介绍了数据来源。0CelebA-HQ[26]是原始CelebA数据集[33]的高质量版本,包含30,000张名人图像,分辨率为1024×1024。0Flickr-Faces-HQ(FFHQ)包括70,000张1024×1024的人脸图像,涵盖了年龄、种族和面部配饰(眼镜、帽子等)的变化[30]。0FRGC-Subset数据集包含16,433张人脸图像,随机采样自Phillips等人[40]收集的一组公开可用数据集,图像显示了表情、种族、性别和年龄的变化。0SREFI是通过“合成真实人脸图像”(SREFI)[2]方法生成的,该方法首先根据VGG-Face特征匹配相似的人脸图像,将它们分割成区域特定的三角形,并将供体脸部植入到基础脸部上以创建混合身份。为了确保一致性,生成图像上的重要面部特征,如嘴巴和眼睛,需要来自同一个供体。0ProGAN包含从[27]下载的100,000张图像。与其后继者(StyleGAN)不同,Karras等人的ProGAN生成器网络是在CelebA-HQ图像[26]上训练的。0StyleGAN家族。接下来的四个合成数据集是使用StyleGAN架构[30, 31, 28,29]生成的。原始StyleGAN的训练方式与其前身ProGAN[26]类似,但增加了可混合的解缠层用于风格转移。接下来0FFHQ0(真实的)0CelebA-HQ(真实的)0ProGAN StyleGAN2 StyleGAN30leGAN StyleGAN2-0ADA0StarGANv20FRGC-Subset0(真实的)0SREFI0图2:来自每个数据来源的示例。0版本,StyleGAN2[31],通过路径长度正则化去除了原始StyleGAN图像中的伪影,并改进了图像重建。StyleGAN的第三个迭代版本,带有自适应鉴别器增强的StyleGAN2[28],解决了在数据有限的情况下训练GAN的问题。最后,StyleGAN3[29]减轻了旋转和平移不变的生成器网络中的混叠现象。对于原始StyleGAN和StyleGAN2,从它们的GitHub存储库中下载了100,000张假脸图像。对于StyleGAN2-ADA和StyleGAN3,使用默认生成器设置生成了100,000张图像,包括截断(ψ)为0.5(根据StyleGAN作者的建议)。0StarGANv2生成的图像的主要焦点是风格转换[9],不同于StyleGAN。生成的图像显示源身份以所提供的参考图像的风格“着装”。为了确保StarGANv2生成的图像具有高质量的面部特征,首先使用一个在CelebA-HQ上预训练的网络合成了250,000张图像。然后使用FaceQNet[22]对这些合成样本进行面部质量评分和排序,FaceQNet是一个设计用于评估输入图像在人脸识别任务中适用性的CNN。最终数据集包含排名前100,000的图像。04. 人类显著性04.1. 获取人类显著区域0我们复制了Shen等人的实验[46],被试判断一对未遮挡的面部图像是伪造还是真实,但我们要求被试注释支持他们决策的区域。具体而言,参与者被呈现一对面部图像(一个是合成生成的身份,另一个是真实的面部图像),并被要求决定哪个图像是合成图像或真实图像,采用两种选择强迫性选择(2AFC)的方式。提示问题在询问哪个是真实图像与哪个是伪造图像之间交替。接下来,用户被要求突出显示支持他们分类决策的图像区域(不限制大小和位置)。01 本工作开发的在线注释工具在补充材料中介绍。0.00.20.40.60.81.00204060801000.00.20.40.60.81.00204060801001201yk∈Cc61110对的准确率0对数目的统计0µ = 0.491 中位数= 0.500 σ =0.1610SREFIStyleGAN20(a) 仅分类0对的准确率0对数目的统计0µ = 0.623 中位数= 0.692 σ =0.2970SREFIStyleGAN20(b) 带有注释0图3:当被试注释图像时,人类对面部图像的真实/伪造分类更准确:(a)Shen等人发现人类无法准确地将面部图像分类为真实/伪造;(b)相同的实验,我们要求被试注释支持其分类的图像区域。在研究(b)中,人类的平均准确率显著提高。这些直方图详细说明了人类在1000对图像上的准确率。0数据(决策和注释)来自363名被试(通过亚马逊机械土耳其招募),每个被试平均处理29.6对图像。合成图像包括使用SREFI从FRGC-Subset数据集生成的500张图像,以及使用StyleGAN2合成的500张图像,并从thispersondoesnotexist.com下载。获得了10,750个注释,与Shen的工作中问题/对样本的数量完全匹配,以进行公平比较。为了评估CYBORG方法,仅使用正确分类的对的注释进行训练。04.2. 注释是否提高了人类的准确性?0由于我们的协议与[46]中使用的协议唯一的区别是注释的要求,因此我们可以正确地诊断注释图像对决策准确性的影响。图3(a)概述了原始结果2,其中蓝色和橙色的直方图分别表示使用SREFI和StyleGAN2方法生成的1,000对图像的结果。可以看出,当不要求注释支持决策时,人类的准确率处于随机水平。然而,图3(b)显示,仅仅要求用户注释图像(因此在每对图像上花费更多时间)将准确率从50%(随机水平)提高到69.2%。这个实验表明,通过强制要求支持分类决策的注释,可以提高人类检测合成面部的准确性。一个附带的观察是,在这种新的设置中,StyleGAN2生成的图像可能比SREFI生成的图像更真实(参见图3(b)中分布之间的变化)。02我们感谢[46]的作者与我们分享原始结果。04.3.构建人类显著性图0所有正确的注释,如图4(b)中的八个单独图像所示,以相等的权重组合在一起,创建称为人类显著性图的图像表示,如图4(c)所示。对组合数组应用σ =5的高斯模糊以平滑不同注释密度之间的边缘,并将该图像缩放到�0,1�的范围内。显著性图中的白色像素对应于更多受试者注释为重要的区域。黑色像素对应于没有任何受试者注释的区域。在数据收集之后,有1821个带注释的正确分类图像,其中包括919个真实图像和902个合成图像。这1821个图像代表CYBORG损失实验的训练集。05.CYBORG损失0与半机械人是人机混合体一样,提出的CYBORG训练策略将通过注释获得的人类显著性信息(人类显著性损失组件)与高分类准确性的要求(分类损失组件)相结合。前者组件将最后一个卷积层中的特征图的激活与人定义的重要区域对齐,而后者组件则可以从数据驱动的学习方法中受益。具体而言,人类显著性损失直接比较机器和人类之间显著区域的差异。为了实现这一点,我们实现了一种完全可微分的类激活映射(CAM)方法[55],它可以根据当前权重为每个训练批次中的所有样本生成CAM。生成的CAM被缩放到�0,1�的范围内,人类显著性图像被缩小到与CAM相同的大小,然后通过ℓ2范数比较两个热图。形式上,我们定义CYBORG损失L为:0L = 10K0K0k=10C0ℓ0(1−α)∥s(human)k−s(model)k∥2human显著性损失组件0−αlogpmodel(yk∈Cc)0分类损失组件0ℓ(1)0其中∥ ∙∥是ℓ2范数,yk是第k个样本的类标签,1是一个类指示函数,当yk∈Cc时等于1(否则为0),C是类别总数,K是批次中的样本数,α=0.5是权衡人类和模型显著性的权重参数,s(human)k是第k个样本的人类显著性,而0s(model)k = f1w(c)1 + f2w(c)2 + ∙ ∙ ∙ + fNw(c)N61120(a)0(b)0(c)0(d)0图4:创建人类显著性图:(a)呈现给人类标注者的图像(在本例中由SREFI生成);(b)正确分类图像的八个注释;(c)用于CYBORG的平均注释定义的人类显著特征;(d)训练集中所有图像的所有人类注释的平均值。0对于第k个样本,基于类激活图的模型显著性是指N是最后一个卷积层中特征图f的数量,w(c)是属于预测类别Cc的最后一个分类层中的权重。模型s(model)k和人类s(human)k都被归一化到范围�0,1�。之所以实现CAM方法而不是更现代的方法(GradCAM [45]或EigenCAM[37]),是因为后者需要反向传播来计算相对于输入的梯度以确定显著区域(除了相对于权重的梯度)。这在训练过程中进行时是昂贵的,同时保持可微分性,并且这些方法通常仅用于完全训练的模型上,其中可以以事后的方式完成反向调用。对于CAM,只需要进行前向传递,这意味着它可以直接集成到训练策略中。0CYBORG的实验设置0人脸图像使用img2pose[1]进行对齐、裁剪和调整大小为224×224。在裁剪之前,人脸边界框在所有方向上扩展20%,在额头上额外扩展30%,以确保头部完全可见。人类显著性地图也按照相同的方式进行调整大小和裁剪,以保持空间对应关系。06.1. 训练场景0场景1:经典训练。基本场景是在合成人脸图像检测任务中训练研究的架构,使用收集到的人类显著性信息的图像数据,但仅在损失函数的分类组件中使用(即不使用人类注释)。这个场景中的训练集包括919张真实图像和902张合成图像。验证集包括20,000张图像:10,000张真实图像,5,000张使用SREFI生成的图像,以及5,000张从thispersondoesnotexist.com下载的图像。0在这个场景中使用的训练和验证集将进一步被称为原始数据。场景2:大规模数据的经典训练。为了评估只使用分类损失(与场景1相同)学习是否需要更多的附加数据才能达到CYBORG级别的性能,我们比场景1使用的数据集更大。从原始数据开始,我们添加了六倍的样本,使训练集的大小增加到原始大小的7倍。由于源数据集中真实图像的稀缺性,我们无法超过7倍,因为添加来自不同来源的数据可能会对比较产生偏见。场景3:CYBORG训练。使用原始数据,我们采用相同的训练策略,但在损失函数中包括人类显著性组件以创建CYBORG损失。场景1和场景3之间的区别在于损失函数,因此可以直接将观察结果与CYBORG训练的有效性相关联。实验参数。为了确保观察结果不是特定于架构的,基本实验使用四个开箱即用的架构完成:DenseNet-121[23]、ResNet50 [20]、Inception v3 [48]和Xception-Net[10]。所有方法都使用随机梯度下降(SGD),学习率为0.005,每12个epoch修改一次,训练运行50个epoch,并选择给出最高验证准确率的权重作为最终模型。验证集是恒定的,如场景1所述。网络是从预训练的ImageNet权重[41]实例化的。对于所有使用CYBORG损失的实验,人类显著性和分类组件的权重相等(α =0.5)。每个架构/场景对独立训练10次,以生成测试集上的错误统计数据。06.2. 测试协议0为了评估在三个场景下训练的模型的准确性,我们组成了一个全面的测试集61130每个六种不同GAN架构生成的10万张合成图像,最终得到了总共60万个测试样本。用于测试的真实人脸数据集是FFHQ数据集(70,000张图像)和CelebA-HQ数据集(30,000张图像)。对于ProGAN和StarGANv2,训练数据是CelebA-HQ;对于其余四个Style-GAN集,训练数据是FFHQ。这个设置旨在证明模型能否区分真实样本和由GAN训练生成的合成样本。06.3. 在测试数据上评估最新的DeepFake检测器0为了与现有的深度伪造检测器进行适当的比较,我们在我们的合成图像测试集上评估了Bonettini等人的最新集成方法[3]。十个可用的模型中,五个是在DeepFake检测挑战(DFDC)数据集[15]上训练的,另外五个是在FaceForensics++(FF++)数据集[44]上训练的。对于每个数据集,我们使用在DFDC上训练的模型或在FF++上训练的模型组成了集成方法。在评估我们的合成图像测试数据之前,我们通过评估Bonettini等人的测试深伪造数据上报告的前两个集成方法(一个用于DFDC,一个用于FF++)来验证模型的性能。然后,我们对我们的测试数据运行相同的两个表现最佳的集成方法,以与CYBORG训练的模型进行比较。06.4. 评估人类注释的价值0为了确定人类注释在CYBORG损失函数中的有用性,需要与非人类显著性引导的基线进行比较。将面部解析工具BiSeNet[57]应用于训练图像,以获得详细描述所有面部区域的掩码3,并使用BiSeNet分割掩码而不是人类显著性图应用CYBORG训练。该实验的目标是确定人类显著性图是否提供比自动确定的面部掩码更好的线索。肯定的答案可以限制人类显著性获取的成本。07. 评估结果0图5总结了通过呈现ROC曲线来观察四种研究架构的性能,该曲线是通过对所有10万个真实样本和60万个合成生成样本进行全面测试获得的。为了评估结果的统计显著性,训练和验证重复进行10次。曲线下面积(AUC)以及10次运行中的一个标准差给出。0补充材料中可以找到3个示例掩码。补充材料中可以找到各个GAN的ROC曲线。0情景1与情景3(即经典训练与CYBORG训练)的比较。如图5所示,仅使用原始数据训练的模型在测试集上的泛化能力较差。相反,当相同的数据应用于CYBORG训练时,测试集上的准确率显著提高。图6概述了ResNet50模型在情景1(仅分类损失)和情景3(带有CYBORG损失)的训练和验证准确率。可以看出,训练准确率迅速达到100%,意味着两个集合学习了训练样本的代表性特征。然而,CYBORG训练的模型在所有时期都显示出更好的验证准确率。情景1模型验证准确率的下降表明过拟合,随后的平稳(甚至略有下降)可以解释为训练准确率达到100%,导致最小化优化。补充材料包括DenseNet、Inception-v3和Xception模型的图表,显示出非常相似的趋势。0情景2(即使用大量数据的经典训练)。进行了实验以确定仅仅向情景1方法添加来自原始数据相同来源的更多数据是否能够弥合性能差距。给予经典训练过程额外的数据,最多达到原始数据的7倍,无法使其达到CYBORG级别的准确性。在某些情况下,使用更大数据集训练的模型性能甚至不如使用较少数据和CYBORG训练的模型。经典训练过度拟合于训练数据,因此无法推广到未知GAN架构生成的样本。CYBORG训练的模型具有更好的泛化能力。0在测试数据上评估现成的Deepfake检测器。基于集成的“deepfake”检测方法[3]在DFDC和FF++测试数据上表现出很高的性能,AUC分别为0.957和0.920。这意味着我们能够无问题地复制原始结果。然而,当应用于合成图像检测任务时,这些表现最佳的“deepfake”集成方法无法区分真实和合成生成的图像,如图5(e)中这些方法的AUC小于0.5(分别为0.385和0.373)。0CYBORG训练模型“看”什么?到目前为止的结果表明,CYBORG方法确实引导深度学习模型更好地推广到由未见过的GAN生成的样本。然而,这些经过CYBORG训练的模型在视觉上是否表现出类似于人类注释者的行为?为了回答这个问题,在测试集上生成模型显著性的可视化结果,并在图7中进行了说明。对于实验情景1-3,为每个独立训练的模型创建了一个图表。为了创建这些单独的图表,使用相同的机制生成了CAM。0.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.2.4.60.81.00.60.70.80.91.061140假阳性率0真阳性率0仅分类损失(AUC=0.511 ± 0.04)0在7倍数据集上训练(AUC=0.594 ± 0.04)0使用面部分割(AUC=0.620 ± 0.05)0使用CYBORG损失(AUC=0.633 ± 0.04)0(a)DenseNet-1210假阳性率0真阳性率0仅分类损失(AUC=0.537 ± 0.09)0在7倍数据集上训练(AUC=0.585 ± 0.04)0使用面部分割(AUC=0.605 ± 0.05)0使用CYBORG损失(AUC=0.612 ± 0.05)0(b)ResNet500假阳性率0真阳性率0仅分类损失(AUC=0.576 ± 0.07)0在7倍数据集上训练(AUC=0.565 ± 0.03)0使用面部分割(AUC=0.627 ± 0.05)0使用CYBORG损失(AUC=0.679 ± 0.03)0(c)Inception-v30假阳性率0真阳性率0仅分类损失(AUC=0.691 ± 0.02)0在7倍数据集上训练(AUC=0.581 ± 0.01)0使用面部分割(AUC=0.683 ± 0.02)0使用CYBORG损失(AUC=0.730 ± 0.02)0(d)Xception00 . 0 0 . 2 0 . 4 0 . 6 0 . 8 1 . 0 假阳性率0真阳性率0FF++集成(AUC = 0.373)0DFDC集成(AUC = 0.385)0(e)SOTA Deepfake检测器[3]0图5:ROC曲线展示了针对包含六种GAN类型的测试集的四种架构和一个现成的深度伪造检测器的结果。在(a)-(d)中的阴影区域对应于给定真阳性率(TPR)的假阳性率(FPR)的标准差的±1。结果表明,在所有使用CYBORG损失的情况下(a-d),相比仅使用分类损失,性能都有所提高。此外,在所有(a-d)的结果中,CYBORG模型甚至在训练集增加到七倍的情况下,以及使用面部分割掩码而不是人类显著性图的模型中,性能都更好。00 10 20 30 40 50 Epoch0准确率0经典:验证准确率CYBORG:验证准确率经典:训练准确率CYBORG:训练准确率0图6:ResNet50仅使用分类准确率损失与使用CYBORG损失的训练和验证准确率的比较。对于两者,训练准确率都迅速接近100%。但是,使用CYBORG训练的模型在整个过程中始终达到更高的验证准确率,表明学习更加有效。阴影区域表示每个时期的准确率的±1标准差。0在训练期间,使用nism作为模型显著性探测,但是对于测试集中的每个样本。计算所有700,000个CAMs(100k真实,600k合成)的平均值。这详细说明了模型在整个测试集上对于两个类别的分类认为重要的地方。0因为所有图像都对齐,所以在测试样本中,面部特征位于相似的位置。对于DenseNet和ResNet,Scenario1(“经典”)和Scenario3(“CYBORG”)之间的差异立即显现。使用CYBORG训练的模型展示出类似于嘴巴、鼻子和眼睛等面部特征的CAMs。而仅使用分类损失训练的模型显示出较少紧凑的CAMs,意味着在测试图像中没有重要性的共识。在Inception-v3实验中,Scenario 1和Scenario3的主导特征是可比较的,但CYBORG模型更加精确地集中在面部区域。对于Xception,Scenario 1和Scenario3模型呈现出类似的CAMs,这也可以从性能中看出。然而,CYBORG模型通过更高的紧凑性表明更高的确定性。对于该模型,可能需要调整α值才能达到与ResNet相似的平均CAMs。对于Scenario2(“经典-大数据”),在所有四种架构中观察到了大致相似的CAMs。对于DenseNet和ResNet,这导致比仅使用分类损失更好的性能。在这两种情况下,Scenario2模型比Scenario 1模型更简洁。61150AUC: 0.585 ± 0.040AUC: 0.612 ± 0.050AUC: 0.537 ± 0.090经典-0大数据CYBORG经典0图7:在三种实验设置下,10个独立训练的ResNet50模型在整个测试集上的平均类别激活图。每个单独的图是给定模型所有测试图像的平均类别激活图。(其他CNN架构的结果类似,包含在补充材料中)。与图4(d)中的平均人类注释相比,可以明显看出CYBORG模型受到了人类注释的有效引导。0对于Inception-v3和Xception,方案2的性能比方案1要差。这些模型与方案1和方案3中的类似特征有一定的关联。然而,存在更多的不一致性和不确定性,表明对训练数据的过拟合程度增加。通过与图4(d)中的平均正确人类注释进行直接比较,可以明显看出,使用CYBORG训练的模型更多地关注与人类详细显著区域相似的特征,而使用经典交叉熵损失训练的模型则不是这样。因此,可以得出结论,这些模型在训练过程中有效地受到了人类注释的引导。0评估人类显著性的价值。如图5所示,使用人类显著性图比自动确定的分割掩模能更大幅度地提高性能。因此,为了回答第6.4节中提出的两个问题,基于深度学习的分割掩模可以有效地引导使用CYBORG损失的模型,但是人类显著性图将网络引导到更广义的特征上,从而在开放集分类问题上实现更好的性能。0将CYBORG融入现有的合成人脸检测器。为了确定CYBORG损失的融入是否能改进现有方法,我们将CYBORG损失添加到Wang等人的[51]公开可用的可重新训练的合成人脸检测模型[52]中。0这将性能从经典情况下的AUC=0.554±0.03提高到AUC=0.591±0.03。0将人类显著性融入注意机制。一种常用的方法是自注意力机制,用于强制网络关注指定的区域。作为额外的实验,我们研究了将[13]中提出的注意力掩模替换为人类显著性是否会提高准确性。我们训练了两个模型:(1)使用原始方法而没有人类显著性,(2)使用我们的人类显著图作为真实和合成图像的注意力掩模。在两种情况下,使用了作者提出的参数。我们发现,用人类显著性替换掉真实掩模可以将性能从AUC=0.428±0.04提高到AUC=0.498±0.06,这表明将人类感知植入自注意力模块可以缩小模型对重要区域的搜索范围(即使没有真实掩模),从而提高性能。08. 结论0我们提出了CYBORG方法来训练CNN,其中学习是由人类视觉能力提取的信息引导的。CYBORG使用基于人类感知的损失项来衡量CNN的类别激活图与人类生成的显著图之间的差异。为了强调CYBORG与CNN骨干无关,我们展示了四种不同模型的结果:ResNet、DenseNet、Inception和Xception。应用CYBORG改善了在训练中从未见过的六个不同GAN生成的合成人脸图像的检测性能(图5)。CYBORG训练的模型产生的类别激活图与人类注释的显著区域更接近(图7)。比较经典训练和CYBORG训练的训练和验证准确率(图6)清楚地表明,CYBORG导致了一个更好地适应从未见过的GAN生成的样本的模型。在我们的测试集上评估最先进的“深度伪造”检测模型表明,这个任务和合成图像检测是不同的领域。CYBORG方法可以应用于人类准确度不达到“专家水平”的任务。本工作中使用的人类显著图来自一个中位数人类准确度为69.2%的任务(图3),并且只应用与正确人类决策相关的显著图。最后,我们证明了经典训练的模型使用7倍的训练数据并不能达到CYBORG训练模型的性能,并且用自动人脸分割掩模替换人类感知驱动的显著图的性能低于CYBORG。这表明了将人类感知应用于有效利用有限数据的训练的提出机制的价值。[14] DeepFakes.Faceswap.https://github.com/deepfakes/faceswap, 2021. 2[18] Diego Gragnaniello, Davide Cozzolino, Francesco Marra,Giovanni Poggi, and Luisa Verdoliva.GANimageDe-tection.https://github.com/grip-unina/GANimageDetection, 2021. 261160参考文献0[1] V´ıtor Albiero, Xingyu Chen, Xi Yin, Guan Pang, and TalHassner. img2pose:通过6DoF、人脸姿态估计进行人脸对齐和检测。在IEEE/CVF计算机视觉模式识别会议(CVPR)上,第7613-7623页,2021年。50[2] Sandipan Banerjee, John S. Bernhard, Walter J. Scheirer,Kevin W. Bowyer, and Patrick J. Flynn. Srefi:合成逼真的示例人脸图像。在IEEE国际生物识别联合会议(IJCB)上,第37-45页,2017年。2, 30[3] Nicolo Bonettini, Edoardo Daniele Cannas, Sara Mandelli,Luca Bondi, Paolo Bestagini, and Stefano Tubaro.通过卷积神经网络集成进行视频人脸篡改检测。在2020年第25届国际模式识别大会(ICPR)上,第5012-5019页。IEEE,2021年。6, 70[4] Johnny Botha and Heloise Pieterse.假新闻和深度伪造:21世纪信息安全的危险威胁。在国际网络战和安全会议(ICCWS)上,第57页。学术会议和出版有限公司,2020年。20[5] Aidan Boyd, Kevin Bowyer, and Adam Czajka.人类辅助显著性图提高深度学习的泛化能力。arXiv预印本arXiv:2105.03492,2021年。20[6] Andrew Brock, Jeff Donahue, and Karen Simonyan.大规模GAN训练用于高保真度自然图像合成。arXiv预印本arXiv:1809.11096,2018年。20[7] Alexandre Bruckert, Hamed R Tavakoli, Zhi Liu, MarcChristie, and Olivier Le Meur.深度显著性模型:损失函数的追求。神经计算,453:693-704,2021年。30[8] Robert Chesney and Danielle Citron.深度伪造和新的虚假信息战:后真相地缘政治时代的到来。外交事务,98:147,2019年。20[9] Yunjey Choi, Youngjung Uh, Jaejun Yoo, and Jung-WooHa. StarGAN v2:多领域的多样化图像合成。在IEEE/CVF计算机视觉模式识别会议(CVPR)上,第8185-8194页,2020年。2, 30[10] Franc¸ois Chollet. Xception:使用深度可分离卷积进行深度学习。在IEEE/CVF计算机视觉模式识别会议(CVPR)上,第1251-1258页,2017年。2, 50[11] Davide Cozzolino, Diego Gragnaniello, and Luisa Verdo-liva.通过基于残差的局部描述符和块匹配进行图像伪造检测。在IEEE国际图像处理会议(ICIP)上,第5297-5301页。IEEE,2014年。20[12] Adam Czajka, Daniel Moreira, Kevin
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功