基于全局纹理增强的人脸检测算法

64 浏览量更新于2023-10-25 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于全局纹理增强的人脸检测算法Zhengzhe Liu，Xiaojuan Qi1，2，Philip H. S. Torr11牛津大学2香港大学摘要生成对抗网络（GAN）可以生成逼真的假人脸图像，可以很容易地欺骗人类。相反，一个普通的卷积神经网络（CNN）可以达到99. 识别假/真图像的准确率为9%本文对假/真人脸进行了实证研究，得到了两个重要的发现：第一，假人脸的纹理与真人脸有本质的不同;其次，全局纹理统计对图像编辑更具鲁棒性，并可转移到来自不同GAN和数据集的假面孔。受上述观察的启发，我们提出了一种新的架构，称为Gram-Net，它利用全局图像纹理表示进行鲁棒的假图像检测。在几个数据集上的实验结果表明，我们的Gram-Net优于现有的方法。特别是，我们的Gram-Net对图像编辑更鲁棒，例如。下采样、JPEG压缩、模糊和噪声。更重要的是，我们的Gram- Net在从训练阶段看不到的GAN模型中检测假面孔方面有更好的泛化能力，并且在检测假自然图像方面表现出色。1. 介绍随着GAN的发展[9，12，13，1]，计算机可以生成生动的人脸图像，可以很容易地欺骗人类，如图1所示。(Can你猜哪些图像是由GAN生成的？）这些生成的假面孔将不可避免地带来严重的社会风险，例如。假新闻和证据，并对安全构成威胁。因此，非常需要检测这些假面孔的强大技术。然而，与GANs的深入研究相比，我们对生成的人脸的理解相当肤浅，如何检测虚假人脸仍然是一个未充分探索的问题。此外，实际场景中的假面孔来自不同的未知来源，即。不同的GAN，并且可能会经历未知的图像失真，例如下采样，模糊，噪声和JPEG压缩，这使得这项任务更具挑战性。在本文中，我们的目标是从GAN中产生新的理解假面孔的见解，并提出一种新的ar-前三个是真的，后三个是假的。图1.你能分辨出哪些是真的，哪些是假的吗？（答案在下面）1解决上述挑战的体系结构我们的贡献如下。贡献1. 为了便于理解GAN的人脸图像，我们系统地研究了人类和CNN模型在区分假/真人脸方面的行为，详见第3.1节。此外，我们进行了广泛的消融实验来诊断CNN的错误，并进行了低级统计分析作为验证。这些实证研究使我们得出以下结论。• 假脸的纹理统计与自然脸有很大的• 人类专注于可见的形状/颜色伪影来检测假脸，而CNN则更多地关注纹理区域。• CNN 将纹理作为虚假人脸检测的重要线索。ResNet模型在检测未触及的假面孔方面几乎表现完美，如果训练数据测试数据来自同一个来源。贡献2. 尽管基于CNN的假人脸检测器的性能明显优于人类，但它仍然不够强大，无法处理真实世界的场景，其中图像可能被修改和/或来自不同的未知来源。进一步分析了纹理与人脸检测的关系，发现大的纹理信息是人脸检测的重要基础，80608061对图像失真更鲁棒，对来自不同GAN的人脸图像更不变性然而，CNN无法完全捕获远程或全局线索，因为它们的有效感受野有限，如[21]中所研究的。基于上述观察，我们进一步开发了一种新的架构-该模型将“Gram Block”合并到CNN主干中，如图5所示。引入的Gram层计算多个语义级别的全局纹理表示，这补充了骨干CNN。贡献3Style-GAN [13]，PGGAN [12]，DRAGAN [15]，DCGAN [29]的假面孔实验，StarGAN [4] 和来自 CelebA-HQ [12] ， FFHQ [13] ，CelebA [20]的真实面孔表明，我们的Gram-Net在虚假人脸检测方面达到了最先进的性能具体来说，我们提出的Gram-Net是强大的检测虚假的脸，这是编辑的，通过修改（10%的改善），模糊（15%的改善），添加噪声（13%的改善）和JPEG压缩（9%的改善）。更重要的是，革兰氏网络表现出更好的泛化能力.它大大超过了比较方法（超过10%的改进），可以检测在训练阶段看不到的GAN生成的假面孔，以及为其他任务训练的GAN，包括图像到图像转换GAN，例如。星际干。此外，我们的实验表明，Gram-Net（在StyleGAN上训练）的泛化能力要好得多，在ImageNet上训练的GAN中检测虚假自然图像的能力提高了10%[16]，例如。BigGAN [3].2. 相关工作GAN用于人脸生成。最近，GAN模型[8，29，15，1，2，12，13，19，36，4]已经被积极地研究用于面部图像生成的应用。一个研究流是设计GAN [8，29，15，1，2]用于从随机向量生成随机人脸图像。早期的作品[8，29，15，1，2]可以生成高质量的低分辨率图像，但会遇到模式崩溃问题，生成高分辨率图像。最先进的高分辨率（1024×1024）GAN模型另一个流是利用GAN模型进行图像到图像的翻译任务[19，36，4]，例如，Choi等人提出了一种能够实现人脸图像到人脸图像的转换的StarGAN模型。这些生成的假面孔可能会造成负面的社会影响。在这项工作中，我们的目标是帮助社区更多地了解GAN生成的假面孔，并引入新的神经网络架构来进行鲁棒的假面孔图像检测。Fake GAN人脸检测最近，一些研究人员研究了虚假人脸检测问题[17，26、27、23、24、32、34、30]。在[17，26]中利用了颜色信息。相比之下，我们发现即使颜色信息被移除，CNN模型的性能也几乎没有变化。Marra等人[23]表明每个GAN在图像上留下特定的指纹，并提出识别生成这些图像的源。然而，该方法不能推广到从训练数据中不存在的GAN模型中检测假人脸Xuan等人[32]为了提高泛化能力，采用了数据增强的方法，但进一步的改进受到检测算法的限制。Nataraj等人[27]提出了一种以颜色共生矩阵为输入的伪人脸检测方法。然而，手工特征输入会导致原始数据信息的丢失. Zhang等人[34]设计了一个模型来捕获解码器引起的伪像。然而，它未能从具有截然不同的解码器架构的GAN中检测到虚假图像，这在训练阶段是看不到的，而我们的方法可以有效地处理这种情况。Wang等人[30]提出了一种基于神经元覆盖的虚假检测器。但是，该算法耗时长，难以在实际系统中部署，性能也远不能令人满意。Marra等人[25]通过增量学习检测到虚假图像然而，它仅在许多GAN模型在训练阶段可访问时才起作用。其他作品[18，33]专注于面部标志的对齐，以检查面部是否被DeepFakes [19]等面部交换工具编辑与上述不同的是，我们深入分析了假面孔，并相应地提出了一种新的简单的框架，该框架具有更强的鲁棒性和更好的泛化能力。CNN中的纹理。在过去的几年里，CNN的纹理响应引起了越来越多的关注。Geirho等人[7]CNN模型强烈偏向于纹理而不是形状。我们的实证研究还表明，CNN可以利用纹理进行虚假人脸检测，这与[7]中的发现一致。受上述观察的启发，我们进一步分析了纹理差异的低层次统计。Gatys等人[5]Gram矩阵是一种很好的纹理描述方法，并被进一步用于纹理合成和图像风格转换[6]。上述工作利用Gram矩阵通过构造基于匹配损失的Gram矩阵来生成新图像我们的工作是相关的，这些方法通过诉诸革兰氏矩阵。然而，与[6，5]不同的是，我们的工作采用Gram矩阵作为全局纹理描述符来改进判别模型，并证明了其在提高鲁棒性和泛化能力方面的有效性。3. 实证研究与分析3.1. 人类相较于CNN为了深入了解GAN生成的假面孔，我们系统地分析了hu-8062θθDD人类和CNN通过进行心理物理实验来辨别假/真面孔。具体来说，我们的实验是在域内设置中执行的，其中模型是在来自同一GAN的假图像上训练和测试的。用户研究。对于每个参与者，我们首先向他/她展示训练集中的所有假/真面孔（10 K真实图像和10 K假图像）。然后，在我们的测试集中随机挑选的人脸图像最后，他/她被要求点击平均来说，它需要大约5。14秒评估一个图像。本文中的结果是基于总共20个参与者，每个参与者需要对1000张图像进行评级。同时，我们也收集了用户的判断依据，看他/她的选择是否“假”。根据他们的投票，人类用户通常将容易识别的形状和颜色伪像作为证据，例如“不对称的眼睛”，“不规则的牙齿”，“不规则的字母”等等CNN 的研究和结果。测试图像也通过 CNN 模型 -ResNet-18进行评估[11]。训练和测试遵循域内设置。表1（第1行第2行）显示人类很容易被假面孔所欺骗相比之下，ResNet CNN模型实现了超过99。9%的准确率在所有的实验。分析. 为了更深入地理解“为什么CNN在真假人脸识别方面表现如此出色？”以及“假面孔和真面孔的本质区别是什么？“，我们进一步利用CAM [35]来揭示CNN用作假脸检测证据的区域代表性分类激活标测图如图2所示。我们可以很容易地观察到，CNN的区分区域（图2中的暖色区域）主要位于纹理区域，例如，皮肤和头发，而具有清晰伪影的区域几乎没有贡献（冷色，图2中的红色边界框上述观察促使我们进一步研究纹理是否是CNN用于虚假人脸检测的重要线索，以及虚假人脸在纹理统计方面是否3.2. 纹理是CNN用于虚假人脸检测的重要线索吗？• 灰度（皮肤）：皮肤区域转换为灰度图像。典型的例子如图3（c-d）所示这个实验是为了消除颜色。• L0-filtered（skin）：皮肤区域的小纹理使用L0过滤器[31]过滤。L0算法可以在平滑小的同时保持形状和颜色信息纹理典型的例子如图3（e - f）所示。实验结果示于表1中（第3行-第5行）。以整幅图像、原始皮肤区域、灰度皮肤区域作为输入的实验结果表明，皮肤区域已经包含了足够的域内伪人脸检测信息，颜色对检测结果影响不大。L0过滤输入的性能显著下降（约20%），总之，纹理在CNN假脸检测中起着至关重要的作用，并且CNN成功地捕获了纹理差异以进行区分，因为皮肤区域与表1中的完整图像（第2行第3行）表现相当。3.3. 真的假脸在纹理上有什么区别？在SEC的实证研究结果。3.2进一步促使我们调查真实/虚假面部在纹理方面的差异在下文中，我们采用纹理分析工具-GLCMPd∈R256×256是从灰度纹理图像创建的，并且测量像素值的共现在由距离d和角度θ参数化的给定偏移处使用。例如，Pd（i，j）指示具有值i的像素和具有像素值j的偏移（d，θ）处的像素共存的频率。在我们的分析中，我们计算整个数据集的Pθ以获得统计结果，其中d ∈ {1，2，5，10，15，20}，θ∈ {0，π/2，π，3π/2}表示{右，下，左，上}，d和θ可以捕获具有不同的纹理的性质。尺寸和方向。根据GLCM，我们如下计算不同距离偏移处的纹理对比度Cd为了验证纹理在人脸检测中的重要性，我们在皮肤区域上进行了域内实验1Cd=NΣ255 3π/2|2Pθ（i，j）（1）|2P θ(i, j)(1)因为它们包含丰富纹理信息和较少的结构信息（例如形状）。更具体地说，我们设计了以下皮肤区域的对照实验。• 原始（皮肤）：输入是基于DLib [14]面部对齐算法的左脸颊皮肤区域，如图所示在图3（a - b）中。这是为了验证皮肤区域是否包含足够的有用信息用于虚假面部检测。i，j=0θ=0其中N=256×256×4是归一化因子，i，j表示像素强度，d表示用于计算Cd的像素距离。较大的Cd反映了更强的纹理对比，更锐利，更清晰的视觉效果。不明显的低值Cd表示纹理模糊不清。GLCM的对比度分量如表2所示在所有测量的距离上，真实面孔比假面孔保持更强的对比度对这种现象的一种解释是8063输入人类相较于CNNsStyleGAN与CelebA-HQStyleGAN与FFHQPGGAN与CelebA-HQ全图像人类75.15%63.90%79.13%全图像ResNet百分之九十九点九九99.96%百分之九十九点九九原始（皮肤）ResNet百分之九十九点九三百分之九十九点六一99.96%灰度（皮肤）ResNet百分之九十九点七六99.47%99.94%L0-过滤（皮肤）ResNet78.64%76.84%72.02%表1.人类和CNN的伪脸检测的定量结果，以及域内设置中的皮肤区域消融研究(a)真实（b）真实（c）虚假（d）虚假（e）虚假图2.来自训练的ResNet模型的类激活图（以颜色显示更好）。红色边界框显示了人类观察者指示的可见伪影，但被CNN微弱激活：（c）不对称耳环;（d）不规则字母;（e）不规则牙齿。距离（d）数据集125101520CelebA-HQ8.6812.3761.52117.94181.30237.30StyleGAN（在CelebA-HQ上）4.928.8447.4093.79146.33193.49PGGAN（在CelebA-HQ上）6.4511.4358.20112.28172.72226.40（a）真实（b）虚假（c）真实(d)假（e）真（f）假图3.原始（皮肤）（a-b）、灰度（皮肤）（c-d）和L0滤波（皮肤）（e-f）的示例图像。（最好用彩色显示）基于CNN的生成器通常使附近像素的值相关，并且不能生成与真实数据一样强的纹理在本节中，我们只提供了纹理对比度的分析，并承认真实和虚假面孔之间的差异绝对超出了我们的分析。我们希望这可以刺激未来的研究在分析纹理差异的假人脸检测。4. 改进的模型：更好的泛化能力，更鲁棒到目前为止，我们的分析都是在域内环境中进行的.下一步是研究交叉GAN设置，其中训练和测试图像来自不同的GAN模型。此外，我们还研究了图像进一步修改无意的变化，如向下-表2.使用训练集中的所有皮肤块计算GLCM的对比度特性采样、JPEG压缩和/或甚至通过添加模糊或噪声进行有意我们下面的分析仍然集中在纹理由于我们的发现在第二节。第3.1三点三4.1. 泛化和鲁棒性分析我们之前的实验发现是，经过训练的模型在域内测试中表现得几乎完美。然而，我们进一步的实验表明，如果图像是下采样至64×64，JPEG压缩（表3：“JPEG 8x ↓”）。此外，该模型在交叉GAN设置中受到更多影响，特别是当训练的模型被评估时，在低分辨率GAN上进行评估，其中性能下降到约64%-75%（表4：第二行）。性能的降低表明CNN假/真图像分类对图像编辑不鲁棒，并且不能很好地推广到交叉GAN图像，这限制了其实际应用针对上述问题，我们进一步分析了这个问题。在图像编辑场景中，我们研究了修改后的图像与原始图像之间的相关性。具体来说，我们计算原始图像和编辑图像之间的皮尔逊相关系数，如图4所示随着对距离d增加，系数值更接近1（即，更大的图像纹理和8064StyleGAN-FFHQStyleGAN-CelebAHQPGGAN-celebAHQIJIJ.. -是的ik一点一点0.950.900.855 10 1520对距离0.990.980.970.965 10 1520对距离0.80.60.40.20.05 10 15 20对距离(a) 下采样(b) 高斯模糊(c) 高斯噪声图4.编辑图像与原始图像之间纹理对比度的Pearson相关系数。下采样率为4，高斯模糊内核为3，高斯噪声标准为3。更全局），这表明编辑图像和原始图像之间的大纹理的强相关性。换句话说，大的图像纹理显示出对图像编辑更鲁棒。此外，在交叉GAN设置中，大纹理也可以提供有价值的信息，因为真实/虚假不同-Gram矩阵能否捕获全局纹理信息？在CNN中，每个卷积层l可以被视为滤波器组，并且特征图Fl是对这些滤波器的响应图像的集合。Gl是层中通道的偏心协方差矩阵在纹理对比方面的优势仍然保持在大对L. 每个元素G1测量了距离d如表2所示因此，需要一种能够捕获长范围信息的模型来提高模型的鲁棒性和泛化能力。然而，目前的CNN模型不能包含长距离信息，因为它的有效感受野很小，远小于[21]中计算的感受野。受[6]的启发，我们建议将“Gram Block”引入CNN架构，并提出一种新的架构，称为Gram-Net，如图5所示。“Gram块”捕获全局纹理特征，并通过计算不同语义级别的Gram矩阵来第i和第j矢量化响应图。等式3是特征图的协方差矩阵Cl，等式4中的Gram矩阵Gl实际上是未减去均值的协方差矩阵。Gram矩阵的对角元素表示特定滤波器的响应，而其他元素表示不同滤波器的相干性总之，Gram矩阵是空间统计的一种概括，它抛弃了特征图中的空间和内容信息，提供了对纹理的静态描述。Cl=（cov（Fl，Fl））n×n=（E[（FlT−FlT）（Fl−Fl）]）n×n=4.2. Gram Net架构i j iijjGram-Net的概述如图5所示。克（FlT−FlT）（Fl−Fl）···（FlT−FlT）（Fl−Fl）块被添加到ResNet架构的输入端1 1 1 11美元。.1 1n n在每一个下采样层之前，在不同的语义层次上融合全局图像纹理信息，n −1。（FlT−FlT）（Fl−Fl）···（FlT−FlT）（Fl−Fl）埃尔斯每个Gram块包含一个卷积层，用于对齐不同层次的特征维数，一个Gram矩阵计算层，用于提取全局图像纹理特征，两个nn 1FlTFln n n···FlTFln （三）llT L111 n。.conv-bn-relu层来细化表示，并且全局池化图层，以将gram样式要素与ResNet对齐G=（Fi Fj）n×n=1..FlT Fl. -是的···FlTFl（四）骨干革兰氏矩阵计算如下。n1n n此外，Gl是整个特征的描述符ΣGl=Fl Fl（二）地图，它不受CNN的感受野的限制。这一特性使它能够提取长距离的纹理特征国际新闻社K其中Fl表示第l个特征图，其空间有效地补充了CNN的骨干。为了进一步分析Gram-Net和CNN基线捕获的信息，我们采用[22]来生成重建。维度被矢量化，并且Fl表示第k个元素可以生成近似特征图的结构化输入在层L的第i个特征图中。我们表明，革兰氏矩阵是一个很好的描述全球或远程纹理如下。作为原始输入。示出了用于再现“res-block 2”和“avg-pool”中的特征的重构输入StyleGAN-FFHQStyleGAN-CelebAHQPGGAN-celebAHQStyleGAN-FFHQStyleGAN-CelebAHQPGGAN-celebAHQ相关性相关性相关性8065图5. Gram-Net架构。从ResNet中提取不同语义层次的6个Gram块的全局图像纹理特征。+表示串联。(a) 原始（b）ResNet（c）Gram-Net（d）ResNet（e）Gram-Net图6.重建输入的可视化。重建图像乘以比例因子，以获得更清晰的可视化。 (a)是原始图像。（b）（c）分别是用于在ResNet和Gram-Net中再现“res-block 2”特征的重构输入。（d）（e）是分别用于在ResNet和Gram-Net中再现“avg-pool”的重构输入图6中的从Gram-Net重建的输入图像的纹理尺寸大于基线ResNet的纹理尺寸，这表明我们的Gram-Net捕获用于区分的长距离5. 实验实作详细数据。我们用PyTorch实现所有的方法[28]。模型使用预训练的ImageNet权重进行初始化。我们用学习率1e-5训练所有模型，并在验证集上选择模型。验证集包含来自DCGAN、StarGAN、CelebA、PGGAN、CelebA-HQ 上的 StyleGAN 、 FFHQ 上的 StyleGAN 、CelebA-HQ和FFHQ的总共800个图像（每个100个在所有实验中，模型在10k真实和10k假图像上进行训练，并在包含10k真实和10k假图像的holdout测试集上进行评估。实验装置。我们在域内和跨GAN设置中进行实验，并在其他数据集（跨数据集）上训练的GAN上进一步测试所有的图像都是双线性的，大小为512×512，基线分辨率，因为我们发现，分辨率的性能几乎与1024×1024相同，可以加速推理。所有的假图像都是通过直接评估作者发布的代码和模型来获得的默认参数。我们将Gram-Net的性能与最近的伪人脸检测器Co-detect [27]和ResNet进行了比较。我们选择ResNet-18作为基线，因为它ready比3.1节中描述的人类实现了更好的性能为了进行公平的比较，我们使用相同的ResNet-18 主干实现Gram-Net和[27]，它采用手工纹理描述符GLCMRGB通道作为输入。我们用随机双线性调整到64×64到256×256范围内的图像训练这三个网络作为数据增强，并评估模型的准确性及其对图像编辑的鲁棒性，跨GAN泛化能力。为了尽量减少随机性的影响，我们通过随机分割训练集和测试集来重复每个实验五次，鲁棒性和交叉GAN泛化高分辨率GANs的实验。我们使用下采样和JPEG压缩对图像进行编辑，这通常在图像上传到互联网、放入幻灯片或用作视频帧时无意中发生。具体来说，模型在以下设置中进行评估。1)原始输入大小为512 × 512（ “Origin” ）， 2 ）下采样图像分辨率为 64 × 64（ “8x ↓” ）， 3 ） JPEG 压缩 512 × 512 图像（“JPEG”），4）JPEG压缩和下采样图像（“JPEG8x ↓”）。此外，GAN和真实图像可以通过故意添加模糊或噪声来编辑。表3，高斯模糊（评价结果列于表3中我们的Gram-Net在所有情况下都优于比较方法我发誓-克氏块SoftmaxFC 2FC 256池3x3转换器，5123x3转换器，池3x3conv，32，/23x3conv，16，/2克3x3转换器，5123x 3转换，512，3x3转换器，2563x3转换器，池3x3conv，32，/23x3conv，16，/2克3x3转换器，2563x 3转换，256，/23x3转换器，323x3转换器，128池3x3conv，32，/23x3conv，16，/2克3x3转换器，1283x3转换器，1283x 3转换，128，/23x3转换器，643x3转换器，池3x3conv，32，/23x3conv，16，/2克3x3转换器，643x3转换器，池池3x3conv，32，/23x3conv，16，/2克池3x3conv，32，/23x3conv，16，/2克7x7conv，64，/2输入8066训练集测试集方法原始百分比8x ↓%JPEG %JPEG 8x↓模糊%噪音%Avg.StyleGAN联合检测79.93 ±1.3471.80 ±1.3074.58 ±3.2571.25±1.1871.39±1.4254.09 ±2.4570.51StyleGANvs.ResNet96.73 ±3.6085.10 ±6.2296.68 ±3.5083.33 ±5.9579.48 ±8.7087.92 ±6.1688.20vs.CelebA-HQGram-Net99.10 ±1.3695.84 ±1.9899.05 ±1.3792.39 ±2.6694.20 ±5.5792.47 ±4.5295.51CelebA-HQPGGAN联合检测71.22 ±3.7662.02 ±2.8664.08 ±1.9361.24 ±2.2862.46 ±3.3149.96 ±0.2861.83vs.ResNet93.74 ±3.0377.75 ±4.8289.35 ±1.5069.35 ±3.2578.06 ±7.5782.65 ±2.3781.82CelebA-HQGram-Net98.54 ±1.2782.40 ±6.3094.65 ±3.2879.77 ±6.1391.96 ±4.7888.29 ±3.4489.26PGGAN联合检测91.14 ±0.6182.94 ±1.0386.00 ±1.7082.46 ±1.0684.24 ±0.9354.77 ±2.4280.26PGGANvs.ResNet97.38 ±0.5290.87 ±1.9094.67 ±1.1589.93 ±1.5097.25 ±0.8766.60 ±9.6189.45vs.CelebA-HQGram-Net98.78 ±0.4994.66 ±3.1097.29 ±1.0594.08 ±3.2298.55 ±0.9270.32 ±12.0492.28CelebA-HQStyleGAN联合检测57.30 ±1.6257.41 ±0.8552.90 ±1.6782.46 ±1.0657.41 ±0.9350.08 ±0.1051.47vs.ResNet97.98 ±1.9087.91 ±1.0192.03 ±4.1482.23 ±1.3994.79 ±1.3260.89 ±7.2485.97CelebA-HQGram-Net98.55 ±0.8991.57 ±2.9594.28 ±3.6783.64 ±3.4397.05 ±1.0460.07 ±7.3287.52StyleGANStyleGAN联合检测69.73 ±2.4167.27 ±1.6867.48 ±2.8364.65 ±1.6764.55 ±1.9354.66 ±3.9764.74vs.vs.ResNet90.27 ±3.0570.99 ±1.1389.35 ±3.4267.96 ±1.1375.60 ±10.7581.32 ±5.0681.50FFHQFFHQGram-Net98.96 ±0.5189.22 ±4.4498.69 ±0.8187.86 ±3.4270.99 ±6.0794.27 ±2.1290.00表3.域内和跨高分辨率GAN的性能在每个训练设置中，前半部分显示了域内设置的结果，后半部分显示了跨GAN设置的结果。色谱柱（平均值）显示所有设置的平均结果。“原始%”列中的准确度所有的设置与验证集。RTX 2080 Ti上一个图像的平均推理时间如下。Gram-Net需要2。40e-3 s，ResNet-18需要2。35e−3 s，Co-detect [27]需要8。68e-3 s，其中6。57e−3s用于共生矩阵计算。2017 - 07 - 27 00：00：00以上的人，实验结果表明，我们的Gram-Net自适应地在特征空间中提取鲁棒的纹理表示，这比低层纹理表示（如GLCM）更强大。我们的模型还将ResNet基线在域内和跨GAN设置中提高了约7%（平均），这些设置是在StyleGAN上训练的。CelebA-HQ Gram-Net在PGGAN上训练时改进较少的原因是根据表2中所示的GLCM统计数据，可以部分解释CelebA-HQ。PGGAN生成的图像具有比StyleGAN更大的Cd，这更接近真实图像。上述结果表明，革兰氏阴性杆菌的有效性Net在提取特征时对不同的GAN模型更具有不变性，对图像编辑操作（如下采样，JPEG压缩，模糊和噪声）更具鲁棒性推广到低分辨率GAN。为了进一步评估模型的泛化能力，我们将上述模型直接应用于在CelebA上训练的低分辨率GAN。我们从每组中随机选择10k张图像来评估我们的模型。这些假图像保持原始大小，即， DCGAN 和 DRAGAN 为 64×64 ， Star-GAN 为128×128。CelebA图像的大小为178×218，因此我们将中间的178×178补丁居中裁剪，使其成为正方形。表4中列出的结果表明，我们的Gram-Net更好地推广到低分辨率GAN。基线ResNet和[27]的性能在此设置中下降到约50%至75%然而，我们的方法在所有设置中的准确性都优于ResNet基线约10%和[27]约15%这进一步证明了我们的“Gram Block”引入的全局图像纹理特征在不同的从图像到图像的翻译模型- StarGAN中检测虚假人脸方法精度联合检测59.81 ±10.82ResNet80.55 ±6.37Gram-Net93.35 ±2.25表5.当StyleGAN插件包含Gram-Block时 Gram-Net的性能这些模型在StyleGAN（origin）与CelebA-HQ并在StyleGAN上进行测试（使用Gram-Block）与CelebA-HQ泛化到在判别器中使用Gram-Block训练的StyleGAN。在本节中，我们将在来自GAN模型的图像上评估模型，这些图像也包含Gram块。我们在StyleGAN中插入额外的Gram- Blocks来微调StyleGAN，并进一步评估Gram-Net是否仍然在此设置中工作我们像Gram-Net一样添加8个相同的Gram-Blocks来编码特征图(from特征图大小为1024到4），并将Gram-Blocks提取的8×32维特征向量与原始特征图中的512维特征我们在CelebA-HQ ini上对模型进行了微调由作者发布的模型。我们评估了来自StyleGAN的10 K图像的分辨率为512 ×512。我们直接将表3和表4中使用的模型应用于此设置。表5中的结果表明，即使在GAN中插入了Gram-Block，我们的Gram-Net仍然优于基线方法。这表明我们在第3.3节中的发现和分析仍然有效。8067测试火车方法DCGAN对比CelebA %Dragan vs. CelebA %StarGAN vs CelebA %Avg.StyleGAN联合检测68.83 ±9.5759.99 ±8.8158.60 ±3.9962.47vs.ResNet75.11 ±8.1065.53 ±8.2064.04 ±7.6968.22CelebA-HQGram-Net81.65 ±3.5176.40 ±6.0674.96 ±4.9077.67表4.Gram-Net对低分辨率GAN的泛化性能方法在StyleGAN上训练，CelebA-HQ测试StyleGAN与FFHQ在PGGAN与CelebA-HQ测试StyleGAN与FFHQ在StyleGAN上训练，FFHQ测试StyleGAN与CelebA-HQ联合检测48.90 ±3.9548.71 ±1.4359.22 ±1.30ResNet75.45 ±7.0154.44±3.6480.14 ±7.47Gram-Net77.69 ±6.4959.57 ±8.0780.72 ±6.02表6.Gram-Net在跨数据集环境中的性能距离125101520ImageNetBigGAN525.70367.65676.60536.811551.851426.662267.162146.902892.902771.963334.143207.97表7.使用BigGAN和ImageNet图像计算的GLCM在不同对距离的训练集中的对比特性跨数据集实验。由于数据集构造的固有差异，跨数据集综合是一个具有挑战性的问题。我们的实验表明，CelebA-HQ和FFHQ的统计数据是显着不同的，可以很容易地区分神经网络。具体来说，我们构建了一个由10 K CelebA-HQ图像和10 K FFHQ图像组成的真实人脸图像数据集，我们进一步的实验表明，ResNet网络可以实现超过99.9%的准确率来区分CelebA-HQ和FFHQ图像。该实验表明，真实人脸数据集彼此之间存在显着差异。尽管有上述事实，我们在跨数据集设置中评估了我们的 Gram-Net 和基线方法，如下所示： StyleGAN（PGGAN）与CelebA-HQ和测试StyleGAN与FFHQ，训练StyleGAN与FFHQ和StyleGAN上的测试与CelebA-HQ 在这个实验中，我们保持所有图像模型与表3和表4相同。表6中的结果表明，在更真实的数据集（FFHQ）和更强的GAN（StyleGAN）上训练的假图像检测器具有更强的能力来交叉到不太真实的数据集（CelebA-HQ）和不太强的GAN（PGGAN）。此外，Gram-Net仍然优于基线方法。概括为自然图像。在本节中，我们扩展我们的分析和应用Gram-Net假/真的自然图像。具体来说，我们分析了ImageNet [16]与BigGAN [3]，对比度比GAN图像的所有距离测量。为了评估我们在人脸图像上训练的模型的泛化能力，我们直接应用表3和表4中使用的模型来测试10KImageNet和10K BigGAN图像（每类10张图像），结果如表8所示。训练集测试集方法准确度%。StyleGANImageNet[27]第二十七话51.94 ±2.31vs.vs.ResNet71.93 ± 2.09CelebA-HQBigGANGram-Net80.29 ±3.20表8.ImageNet与BigGAN的定量结果6. 结论在本文中，我们对人类和CNN在区分假/真面孔方面进行了实证研究然后，我们进行低层次的纹理统计分析，以进一步验证我们的研究结果。统计数据还表明，大纹理信息对图像编辑更具鲁棒性，并且在不同GAN之间具有不变性基于这些发现，我们提出了一种新的框架-实验结果表明，Gram-Net在所有设置（包括域内，跨GAN和跨数据集）中的性能都显着优于最新的方法和基线模型。此外，我们的模型表现出更好的泛化能力，在检测假自然图像。我们的工作为理解GAN中的假图像和改善现实世界中的假人脸检测提供了一个新的有希望的方向。7. 确认BigGAN模型在ImageNet上训练。为了分析假/真自然图像，我们进一步采用灰度共生矩阵。我们发现，假的和真实的人脸图像之间的纹理合同方面的差异也适用于自然图像。如表7所示，真实图像保留了更强的纹理这项工作得到了ERC资助ERC- 2012-AdG 321162-HELIOS 、 EPSRC 资助 Seebibyte EP/M013774/1 和EPSRC/MURI资助EP/N 019474/1的支持。我们还要感谢皇家工程学院和FiveAI。8068引用[1] Martin Arjovsky 、 Soumith Chintala 和 Léon Bottou 。wasser-stein生成对抗网络。在机器学习国际会议上，第214-223页[2] David Berthelot Thomas Schumm和Luke Metz。开始：边界平衡生成对抗网络。arXiv预印本arXiv：1703.10717，2017.[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。[4] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo.Stargan：用于多域图像到图像翻译的统一生成对抗网络在IEEE计算机视觉和模式识别会议论文集，第8789-8797页[5] Leon Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络进行纹理合成。神经信息处理系统的进展，第262-270页，2015年。[6] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集，第2414-2423页[7] Robert Geirhos，Patricia Rubisch，Claudio Michaelis，Matthias Bethge ， Felix A Wichmann ， and WielandBrendel. imagenet训练的cnn偏向于纹理;增加形状偏差可以提高准确性和鲁棒性。 arXiv 预印本 arXiv ：1811.12231，2018.[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[9] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统的进展，第5767-5777页，2017年[10] Robert M Haralick，Karthikeyan Shanm

下载后可阅读完整内容，剩余1页未读，立即下载