RepMix：鲁棒的GAN指纹技术用于图像属性与伪图像检测

104 浏览量更新于2023-12-01 收藏 4.13MB PDF 举报

图像属性

生成对抗网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文RepMix：用于合成图像TuBui1[0000−0001−6622−9703]， Ning Yu2，John Collomosse1， 31萨里大学t. v. surrey.ac.uk2Salesforce Researchning. salesforce.com3Adobe Researchcollomos@adobe.com抽象的。生成对抗网络（GAN）的快速发展为图像属性提出了新的挑战;检测图像是否是合成的，如果是，则确定是哪个GAN架构创建的。独特的是，我们提出了一种解决方案，能够1）匹配图像不受其语义内容的影响; 2）对良性转换（质量，分辨率，形状等的变化）具有鲁棒性。这在图像被重新分享到网上时很常见。为了使我们的研究形式化，我们收集了一个具有鲁棒性和实用性的图像归因测试基准Attribution 88。然后，我们提出了RepMix4，我们的GAN指纹技术的基础上表示混合和一种新的损失。我们验证了它跟踪GAN生成的图像的来源的能力，该图像对图像的语义内容不变，并且对扰动具有鲁棒性。我们证明了我们的方法在语义泛化和鲁棒性方面都比现有的GAN指纹识别技术有了显着的改进。数据和代码可在https://github.com/TuBui/image属性。关键词：GAN指纹，图像属性，伪图像检测，数据集基准1介绍生成图像正在通过直观的工具改变创作实践，这些工具可以实现可控和高质量的图像合成。最近生成对抗网络（GAN）实现的照片现实主义通常与真实图像无法区分[41];外行用户很难分辨图像是否是合成的，或者分辨一个GAN生成的图像与另一个GAN生成的图像。然而，了解视觉媒体的来源从未如此重要-以在不久的将来，可参数化的生成图像甚至可能开始挑战或取代传统的股票摄影。迫切需要将图像追溯到创建它的GAN的工具，以确保在线共享图像的真实性和正确归属最近的工作已经在检测合成图像[51，22，50]和生成图像[56，2，17]（“GAN指纹”）到GAN源的属性特别地，Wanget al.[51]建议今天GANs共享4这项工作得到了EPSRC DECaDE Grant（参考EP/T022485/1）的支持arXiv：2207.02063v2 [cs.CV] 2022年7+v：mala2255获取更多论文2T. Bui等人一些常见的技术缺陷，可以很容易地从真正的图像区分。然而，由于GAN类别的多样性，图像属性通常比合成检测更具挑战性;GAN模型在其输出图像中留下什么样的指纹也是不确定现有的图像属性方法尽管报告了接近饱和的性能，但具有两个缺点。首先，他们主要关注于将图像归因于特定的GAN模型，这是不切实际的，因为训练数据中的单个变化，训练元参数（例如，学习率、优化器、训练迭代.）或者甚至随机种子导致不同的GAN模型[56]。将合成图像归因于底层GAN架构而不是特定的GAN模型将更加实用。其次，扰动对合成图像的影响在很大程度上是unestimated- mated。目前的作品经常尝试一些图像变换，如模糊，JPEG压缩，随机裁剪[56，17，51]，这并不反映在线图像通过重新分配而受到的现实干扰。这种扰动可能会恶化GAN指纹，据报道，GAN指纹位于图像中的中频带和高频带之间[63]。本文的最大贡献是为图像处理提供了一个坚实的基准，其中GAN类由在不同语义数据集上训练的几个GAN模型表示，图像受到各种扰动源的影响。然后，我们提出了一种新的方法来鲁棒地确定图像的虚假性，如果是这样，则使用GAN架构。我们的基准测试和提出的方法都解决了现有方法的两个关键限制：1. 语义泛化。现有的GAN指纹识别方法在特定类别的对象（例如面部）的图像上训练通常在其他对象类别的图像上失败。这是因为以前的作品侧重于归因于一个在训练时看到的几个GAN模型。独特的是，我们解决了将看不见的语义类的图像归因于创建它们的GAN架构在这样做的过程中，我们形式化了一个新的问题（归因于GAN架构而不是模型），并提出了一种新的表示混合训练策略，以便为GAN指纹识别提供对包含看不见的对象类的图像的看不见的模型2. 稳健到良性转化。图像通常会进行非编辑性（良性）转换，如质量、分辨率或格式更改因为它们在网上重新分发[11，40，8]。现有的GAN指纹识别技术利用像素域中GAN生成图像中的伪影[56]或频域[17]，通过重新分配过程被删除或损坏，导致归因失败。在某些情况下，GAN被积极训练以引入此类工件。我们采用对比培训策略，我们的GAN属性模型被动地区分GAN架构，基于很少通过图像上的良性变换去除的伪影2相关工作生成对抗网络（GAN）[19]在许多下游图像合成任务中表现出出色的性能：+v：mala2255获取更多论文RepMix for ImageAttribution 3和在绘画[54]，超分辨率[31]，面部肖像生成[13]，manipulation [43]和纹理合成[42，55]。GAN也被应用于桥接多种模态，如几何[1]，音频[48]或草图[36]。我们的工作重点是无条件GAN [27，29，28，26，5，6，39]，以避免在生成合成图像时引入额外的约束。内容出处探索媒体的归属到一个可信的来源（例如，数据库或区块链[10，9]）。图像出处系统通常依赖于嵌入的元数据[11，3]，水印[21，14，44，4]或感知哈希[64，34，32，12]来执行视觉搜索，对在线遇到的各种非编辑转换具有鲁棒性。一些方法被训练为在存在数字操作的情况下失败[40]，而其他方法则被明确训练为匹配此类内容并突出显示查询和匹配的原始内容之间的任何操作[8，7]。无论应用程序如何，鲁棒性和通用性对于内容来源都至关重要。这通常通过数据操作（增强，数据混合，对抗性攻击），隐式表示学习（内核方法，解纠缠）或显式学习策略（集成，元学习）来解决[49]。在这方面，RepMix可以被认为是数据操作（通过混合现有数据点创建新数据）和表示学习（在特征级别执行混合）的混合。数字取证方法检测和定位图像操作中的“盲”，即。没有比较器。最近的“深度虚假检测挑战”（DFDC）[ 16 ]确定了几种方法来检测GAN生成的图像或图像区域，无论是基于其统计特性[62，52]还是GAN方法的当前限制（例如，人类眨眼[33]）。我们的方法对这一领域做出了最直接的贡献，寻求确定存在和来源合成图像。因此，我们与最近的GAN指纹识别工作保持一致。先前的工作主要针对面部图像探索了这个问题，试图识别模型[56，17，15]或架构和元参数[2]。所有这些工作都是被动的;GAN识别的实用性受到依赖图像中脆弱信号的限制，这些信号很容易被良性变换破坏为了减轻这一点，Yu etal.相反，建议修改GAN训练，将鲁棒指纹注入合成图像[57，58]。然而，这些方法需要GAN创建者的积极参与，并且所有方法都仅限于单个语义类的图像我们的指纹识别方法对看不见的语义类和良性转换都是被动和鲁棒的，这向实际的GAN属性迈出了更进一步上述方法中的大多数将图像归因于特定的GAN模型。虽然Dinget al.[15]试图学习特定于架构的属性，他们的工作只涵盖了不同训练种子的GAN模型。反向工程[2]表明，即使对于看不见的GAN模型，也可以跟踪GAN架构参数，但是这种细粒度属性意味着每个GAN类由1个GAN模型表示;并且模型的鲁棒性仍然是不完整的。最近，Girishet al. [18]提出了自动发现一个新的GAN集群看不见的合成图像，在迭代进化的attributor的成本。虽然我们在特定架构方面与[18]有着相似的目标，+v：mala2255获取更多论文4吨。Bui等人Fig. 1. 说明Attribution 88的构建;我们为合成图像检测和归因贡献的新数据集和基准。归属，我们的工作范围限制在一个封闭的世界问题（即，归因于一组固定的GAN类），相反，我们专注于对看不见的语义和转换的泛化。3归因88基准Yu等人介绍了文献中最流行的归因数据集。[56]，包含单个语义对象的5个类（Real + 4个GAN）。每个GAN类由一个GAN模型表示，因此学习的指纹可以与语义特征纠缠在一起。这也不是一个绝对的基准，因为只有GAN模型被发布（而不是合成图像），并且没有固定的训练/测试划分。现有的方法[56，17，2]报告了该数据集的不同结果，即使是对于共同的基线。此外，报告的性能接近饱和。重要的是要有一个固定的和更具挑战性的图像归属基准。新的基准应该将GAN类与GAN设计/架构相关联，而不是特定的GAN模型，这意味着来自同一GAN类的图像可能来自不同的模型训练实例。虽然我们可以简单地改变训练随机种子（例如，[15]）或其他元参数来创建同一GAN的不同模型实例，我们将每个GAN模型的这些参数的配置固定为推荐设置，以获得最佳生成质量。相反，对于每个GAN类，我们在不同的图像对象集（语义）上训练多个模型新的基准更具挑战性，因为属性必须与语义无关我们引入了Attribution 88-一个由8个生成器类和11个语义组成的新数据集（图1）。我们从[56]中提出的5个生成器类（Real，Progan[26]，Cramergan [5]，Mmdgan [6]，Sngan [39]）开始，然后添加StyleGAN家族的3个最新类（Stylegan [28]，Stylegan 2 [29]和Stylegan 3[27]）。对于语义，我们从LSUN数据集中选择10个对象和场景[53]加上流行的CelebA人脸数据集[35]。我们注意到，与其他语义集相比，CelebA在结构上是对齐的，并且管理得很好，但是它被广泛用于图像属性/合成，并为我们的基准增加了多样性。对于每个语义集，我们随机选择10万张图像来训练+v：mala2255获取更多论文×∼RepMix for ImageAttribution 5图二. 我们的图像归因模型的CNN架构。一对图像通过CNN模型的早期层传递，在传递到后面的层之前在RepMix层中混合。训练是由复合损失（见第二节）。4.2）。上面的7个GAN模型，以及一个不相交的12k图像，作为归因任务的真实图像我们在可用时使用预训练的GAN模型，否则它们将使用公共代码从头开始训练，输出128 128张图像（更多细节请参见Sup.Mat）。接下来，我们为每个GAN模型生成10万张图像，从而生成770万张合成大小的图像。由于一些图像具有可见的伪影，我们通过首先使用InceptionV3 [61]提取感知特征（合成和真实图像）来清理它们以提高挑战性和质量。然后我们使用K-Means（k=100）进行聚类合成图像，为每个图像确定最接近的真实图像，并根据到其最接近的真实图像的距离对合成图像进行排序。然后，我们在每组中挑选前k（k=120）张图像，假设最接近真实图像的图像质量最高。这个过程有助于保持图像的多样性和真实性之间的平衡。总的来说，我们为8个生成器源（Real加上7个GAN）和11个语义中的每一个获得了12K图像，总共100万张图片。我们毛皮-其他分区每个集为10K训练，1K验证和1K测试图像。在在我们的实验中，我们在训练中只暴露了6 种语义（ CelebA Face ，Bedroom，Airplane，Classroom，Cow，Church Outdoor），并在所有测试图像上进行评估（包括5种看不见的语义类：Bridge，Bus，Sheep，Kitchen，Cat）。干扰。网上流传的图像会受到良性的干扰，从轻微的变换（如图像失真）到强烈的变换（如噪声和增强效果）。重要的是要坚决反对这些。为此，我们采用了ImageNet-C [24]，这是一种用于评估分类鲁棒性的流行基准。ImageNet-C包含19种常见的腐败类型，包括各种添加剂噪声，模糊和效果，每种都有5种不同的腐败级别。与[24]类似，我们只暴露了15个转换进行训练，而测试集受到所有可能的转换。4方法合成图像属性是一个分类问题[56，17，2，22]。在我们的例子中，类对应于生成图像的GAN架构不像语义分类依赖于+v：mala2255获取更多论文∼6吨。Bui等人显著对象，用于图像归属的特征通常是微妙的，并且可能由于噪声或其他图像扰动而恶化[56，22]。为了学习一个对语义和扰动（即使是看不见的）鲁棒的属性模型，我们提出了RepMix-一个简单的特征混合机制，从现有数据点之间的插值合成新数据，然后学习预测混合比。图2显示了我们的方法的概述我们的关键技术进步包括（1）RepMix层，它在生成器类之间执行特征混合，以及（2）复合损失，以预测分类的混合比率。4.1制图表达混合（RepMix）层假设我们有一个训练集X ={（xi，si，yi），i= 1，2，. }其中图像xi具有语义标签si∈S和源标签yi∈Y（其包括实数和GAN源标签的集合我们的目标是学习映射xi到yi不可知论到si。给定一个训练图像对xi和xj，它们可以在源和语义标签上共享或不同，我们首先使用非线性映射函数fe将这两个图像投影到中间特征空间：ui=fe（xi）;uj=fe（xj）（1）其中fe（. ）可以是CNN模块的较早层。中间表示被输入到我们的RepMix层：u= Mβ（ui，uj）. =α<$ui+（1−α）<$uj（2），随机权重α由某个分布生成（这里我们画出α从β分布5，αBeta（β，β））。接下来，通过第二映射函数（例如，CNN模块的后面的层）：z=fl（u）∈RD（3）其中D是输出维度（在我们的工作中D=256）。我们称z为嵌入空间，因为它直接在目标函数之前（subsec.4.2）。从实现的角度来看，RepMix是可移植的，可以插入任何现有CNN架构中的由于它没有可学习的参数，因此它在训练时引入的开销最小由于它仅用于训练，因此可以在推理过程中删除它（相当于复制xi以使xj具有相同的语义和源标签）。我们认为RepMix是MixUp和相关工作的扩展[60，25，59，23]关于混合特征的想法不同之处在于，现有的工作在原始图像空间中执行混合，而RepMix在中间层执行。我们认为，图像归因依赖于图像上的细微伪影（而不是突出的对象）来区分真假以及对不同的GAN源进行分类。如果图像在像素级混合，这些有用的伪影可能会被覆盖或抵消，从而降低整体性能（请参见第5）。5https://en.wikipedia.org/wiki/Beta_distribution+v：mala2255获取更多论文房假attrattr我-−keezK∈| −1|− 1我J假ΣRepMix for ImageAttribution 74.2复合损失为了将图像归因于其源，现有的作品[56，17，2]在用交叉熵损失建模分类之前以与其他GAN类相同的方式处理类事实上，在我们的问题中有一个层次结构：图像可以是真实的或虚假的，如果它是假的，那么它是从GAN生成器中合成的此外，真实图像具有与GAN合成图像不同的分布（参见第2节）。第575章应该区别对待为此，我们提出了一种复合损失，它同时考虑了真/假检测和归因。我们首先检测混合中真实和虚假分数的比例：zreal=WT z;zfake=WTz∈R（4）ezrealz<$real=ezreal+ezfake;ezfakez<$fake=ezreal+ezfake（5）Ldet=−。α（1−yi）+（1−α）（1−yj）log（z<$real）（6）-一个αy+（1−α）ylog（z<$）（7）其中Wreal，Wfake∈RD×1是可学习的过滤器，如果x i是实数，则伪标签yi=0，否则为1（对于yj也是一样）。该检测损失本质上测量混合中的每个图像的真实性和虚假性之间的加权交叉熵。由于在训练集中通常存在比真实图像更多的假图像，因此假术语相应地通过GAN源的数量按比例缩小实际的归因任务是通过另一个交叉熵损失来执行的，考虑到真实/虚假分数：Zattr=WTz+ b ∈ R| Y|（八）Z轴attr= .z（yreall）z<$realz（九）（c）第（1）款attrz<$fake（y）埃兹·阿斯特拉（yj）埃兹·阿斯特拉Lattr=−αlog（K（2）（1）（z轴（10）Kattr其中W属性研发×|Y|和b是可学习的，以将我们的嵌入z线性地映射到属性logit。（c）表示logit向量的第c个元素最后，总损耗是上述两个损耗的总和Ltotal= Ldet + Lattr。5实验5.1培训详情我们使用Resnet 50架构作为RepMix模型的主干，最终的N路分类层被FC层取代，产生256-D+v：mala2255获取更多论文××8 T. Bui等人表1. RepMix 和其他基线在模拟 Yu 等人的对照组上的性能。 [56] 设置和Attribution88测试集。Yuetal.是指使用原始公共代码RepMix1.00000.99940.99750.97450.82070.6679Yu等人[56]（reimp.）0.99100.98380.94580.93060.67840.4666Yuetal.[56个]0.98880.98440.94550.91900.63220.4028DCT-CNN [17]0.99220.98380.95260.90010.64470.4061反向工程[二]《中国日报》0.99760.99600.98340.86650.56370.3653EigenFace [47]0.82620.65380.45150.78290.15150.0034PRNU [38]0.85440.84820.73890.78450.12520.0003图三. 我们提出的RepMix方法与两个基线的检测和属性性能[56，17]在图像存在不同的良性扰动的情况下。潜在代码，其次是我们的复合损失（subsec. 4.2）。我们的RepMix层插入在第一个FC层，以获得最佳性能（参见亚秒5.6），β = 0。4.图像对从训练数据中随机采样，而不管生成器类和语义如何。我们不强制任何约束采样的图像对，以最大限度地提高所有可能的源/语义组合。在训练过程中，我们将图像大小调整为256 256，并随机裁剪到224 224，水平翻转，然后随机查看ImageNet-C扰动，激活概率为95%。我们训练归因模型最多30个epoch，使用Adam优化器和初始学习率1 e-4，步长以γ = 0衰减。85和基于验证准确性的早期停止。5.2基线比较我们将我们的方法与5个基线进行比较：（i）Yuet al. [56]通过简单的指纹CNN模型对图像进行属性化;（ii）DCT-CNN [17]在频率空间中对图像进行分类;（iii）逆向工程[2]对GAN架构细节（如层数和损失类型）进行建模，以帮助归因;（iv）EigenFace [47]为每个类别构建本征模型，并根据其与每个模型的最大相关性对图像进行分类;（v）PRNU [38]类似于EigenFace，但工作原理如下：1 Sem.，清洁归因88Det. Acc. 联系我们Acc. 联系我们 NMI检测器Acc. 联系我们Acc. 联系我们公司简介+v：mala2255获取更多论文RepMix for ImageAttribution 9每个类的噪声指纹。基线模型使用与所提出的方法相同的数据增强技术使用公共代码进行训练。我们还提供了Yu等人的重新实现。的方法。有关基线实施的更多详细信息，请参见Sup.Mat。为了验证我们对基线和GAN模型的训练，我们还对Yu等人的复制品进行了比较。 [56]数据集，表示为1 Sem.，干净具体来说，我们采用他们的数据清理方法，使用5个类（1个真实和4个GAN），如[56]所述，并且没有任何ImageNet-C扰动。唯一的区别是，我们使用我们训练的GAN模型，并应用随机裁剪和水平翻转作为训练和测试期间的最小增强评价指标。我们报告了标准分类准确度和归一化互信息（NMI）评分[18]，该评分衡量了预测与目标之间的依赖性。由于real是目标类之一，我们还对辅助度量、检测精度感兴趣，检测精度是被正确分类为真实或非真实的图像的比例。选项卡. 1将RepMix的性能与基线进行比较。控制集的性能与现有工作相当[2，17，56]，深度学习方法的精度接近饱和。逆向工程是得分最高的基线，其次是DCT-CNN [17]，其表现略好于Yu等人。[56]. RepMix实现了完美的检测精度和最佳的归因精度和NMI。然而，基线在归因88上表现不佳。基于频率的方法（DCT-CNN，逆向工程）不如基于像素的方法（Yu等人）。我们的基准的复杂性也导致浅层方法完全失败（PRNU[38]）或略高于随机预测（EigenFace [47]）。我们将这些变化归因于数据的多样性（包括看不见的语义）和扰动的严重性。RepMix在检测和归因分数上的准确率比最接近的基线高出4%和14%。5.3对单个扰动的为了分析个体扰动对归因表现的影响，我们评估了RepMix和最接近的竞争对手，Yu等人。[56] DCT-CNN[17]在Attribution 88上，对测试图像应用ImageNet-C扰动（图3）。JPEG压缩和加性噪声最显著地阻碍了性能，特别是在两个基线上，而其他扰动源变换相邻像素的块但不替换它们（例如，模糊环）具有不太严重的影响。DCT-CNN特别容易受到玻璃模糊环的影响。可见和不可见扰动的性能相当，表明我们的模型在训练期间暴露于足够大的增强源时具有泛化能力。此外，检测性能比归因更稳健，所有扰动的检测标准差为2.8%，而RepMix的归因为8.0%（Yu等人的检测标准差为3.7%，而Yu等人的检测标准差为12.1%）。方法; 9.3% vs. 16.8%（DCT-CNN）。+v：mala2255获取更多论文10吨。Bui等人表2. 在Attribution88测试集上，在不同的最大扰动水平下，由对抗性攻击引起的归因错误。低越好方法：100%= 2/ 255100% = 4/ 255100% = 8/ 255100% = 16/ 255100% = 24/ 255100%= 32/ 255RepMix0.15090.19520.24540.30080.33330.3572Yu等人[56个]0.21130.27090.33280.39450.43030.4534DCT-CNN [17]0.15450.21900.28310.33750.36420.3812见图4。RepMix性能与训练期间观察到的（左）语义和（右）增强数量的关系。5.4语义和扰动我们评估的泛化性能的RepMix，余等人。以及在训练数据和数据扩充有限的情况下的DCT-CNN方法。图图4（左）描绘了当模型在训练期间暴露于越来越多的语义时的检测和归因性能我们使用Attribution88测试集进行评估。所有3种检测曲线均很早稳定，RepMix始终保持高于其他两种方法的3%差距。在即时性能方面，更多的训练数据会带来更多的结果，RepMix具有更好的泛化能力，从2个语义时的59%图4（右）显示了随着数据增强方法数量的增加而出现的类似趋势。我们将训练语义的数量固定为6，并将增强方法的数量从0增加到15，并在4个看不见的扰动的测试集上进行测试。总体趋势是，当模型在训练过程中受到更多干扰时，性能会得到提升，RepMix获得了更大的泛化能力超过15个扰动。5.5对抗性攻击对抗性攻击会给图像引入一层细微的噪声，这层噪声肉眼看不出来，但足以改变模型的预测结果。对抗性攻击通过将梯度w.r.t输入图像转向最合理的类而不是地面实况来工作。Repmix在中间特征空间中强制执行线性类间插值，因此通过设计对对抗性攻击具有鲁棒性。为了验证这一点，我们对Repmix，Yu等人进行了无针对性的白盒攻击。和使用I-FGSM方法的DCT-CNN模型[20]。在Attribution 88测试+v：mala2255获取更多论文RepMix for ImageAttribution 11表3. 消融研究RepMix探索性能的归属和检测，同时删除不同的设计组件，并替代骨干选择检测准确度准确度归因准确度归因NMI准确度所有0.94260.74000.5546无复合损耗0.93640.72040.5280不含RepMix0.92960.71880.5205不含RepMix+化合物损失0.92830.71290.5167无增强0.70440.27620.0856不同的主链VGG160.94930.71500.5315AlexNet0.88180.52800.2817集合和随机梯度上升进行优化。选项卡.图2显示了在不同噪声水平下的归因错误，即对抗性攻击前后归因准确度的差异尽管所有方法都遭受性能下降，并且在较高的噪声容忍水平（即，RepMix比其他两种方法更健壮在最大扰动下，RepMix精度比Yu等人高2倍。和DCT-CNN（46.35% vs.Yu等人为22.49%，DCT-CNN为26.34%有趣的是，DCT-CNN [17]比Yu等人具有更好的抵抗力。[56]，可能是因为频谱中的图像迭代）从I-FGSM获得成功的攻击。5.6消融研究选项卡. 3显示了RepMix在删除一个或多个组件或更改主干架构时的性能。在不失一般性的情况下，我们在Attribution 88的子集上训练和测试我们的消融模型，在训练期间使用所有8个源类，但有2个语义，并测试4个语义（2个可见和2个不可见）。删除RepMix层或复合损失或两者都会导致所有指标的性能下降。可以看出，复合损失不仅有益于真实类（当去除它时检测准确性的小下降），而且有益于整个属性（2%的下降）。最后，去除所有ImageNet-C扰动（仅保留随机裁剪和水平翻转作为数据增强方法）会显著降低性能，甚至导致误导性的真/假检测（检测精度低于随机猜测）。我们还将Resnet50替换为AlexNet[30]和VGG16 [46]。AlexNet导致了显著的每秒钟下降，NMI分数降低了一半。VGG16具有相当的检测准确性，但归因得分低2.5%。更多的主干实验可以在Sup.Mat上找到。RepMix位置。我们在Resnet50、VGG16和AlexNet中对RepMix层的不同位置进行了实验RepMix可在数据增强（8月前）之前应用于像素级的输入图像（相当于MixUp [60或后（后）。在CNN层中，我们在每个池化或FC层之后插入RepMix。图5显示了三个网络之间的类似趋势。在像素级别混合图像不会提高性能;有意义的微妙+v：mala2255获取更多论文†12T. Bui等人(a) AlexNet（b）VGG16(c) Resnet50（d）在Resnet50上混淆样本图五. RepMix对（a）AlexNet、（b）VGG16和（c）Resnet50的不同层的影响。虚线表示未混合的基线。表示在1-D特征图上执行混合（在全局平均池化或FC层之后）。（d）其他事项- 混合样本的数量对Resnet 50的性能有边际影响艺术品丢失了。八月后的混合有最差的分数，因为图像是暴露于双重腐败。RepMix在网络的后面几层更有益，在2D特征图上受益较少，在全局表示（FC特征）上受益更多这可以从图中看出6，注意力热图覆盖更大的区域。在图8中，语义聚类甚至出现在嵌入层。然而，GAN分类损失确保语义特征在后面的层中较弱，而GAN类信号较强。因此，在后面的层混合表示更有益。混淆样本数。我们使用越来越多的样本在RepMix层中混合进行测试。贝塔分布现在变成狄利克雷分布，以在混合组中容纳两个以上的样本图5(d) 结果表明，混合样本数量的增加对性能有一定的提高，最多4个混合样本时性能提高1%。5.7进一步分析真实与其他类。我们观察到，真实图像的检测对于训练数据和扰动以及各种消融设置（c.f.秒5.2-5.6这一有趣的行为在图中得到了进一步的证明。7，其中类real具有最高得分，并且在可见/不可见语义和扰动中也表现得最+v：mala2255获取更多论文RepMix for ImageAttribution 13见图6。GradCAM可视化的unseen-semantic测试图像显示的视觉伪影贡献最显着的GAN分类决策。见图7。RepMix在可见/不可见语义类和应用于测试图像的可见/不可见图像变换类上的混淆矩阵。为了理解这种行为，我们使用GradCAM [45]可视化对我们模型的预测贡献最大的图像区域。图6示出了根据可见和不可见语义以及扰动的真实和其他GAN类的若干图像的GradCAM热图的对于GAN类，热图倾向于突出边缘区域，这些区域通常对扰动攻击更具弹性对于真实图像，GradCAM热图还关注背景对象.因此，我们认为真实图像具有与合成图像不同的分布，特别是因为它们具有生动的背景，这通常会引起我们归因模型的注意。t-SNE可视化。我们使用t-SNE [37] 2D投影可视化在Attribution 88测试集上计算的RepMix的嵌入空间z，并将其与Yu等人进行比较。approach.图8显示RepMix具有比Yu等人更好的类分离和语义融合。然而，这两种方法在t-SNE图的中间都有一个混合区域，其中类没有很好地分离，这说明了Attribution 88基准的挑战。局限性。图图9显示了RepMix失败的示例，通常是由于过度的扰动扭曲了图像的细节，缩小了差距+v：mala2255获取更多论文14吨。Bui等人见图8。Attribution 88测试集的t-SNE可视化，使用从RepMix（左）或Yu等人提取的特征。（中）和DCT-CNN方法。图第九章归因失败的例子。对于每个插图，左：原始图像，中：扰动后的图像，右：证明其（错误）预测的GradCAM热图。真实/合成之间以及不同GAN类之间。另一个案例显示由于架构相似性，三个StyleGAN之间存在错误分类6结论我们引入了一个具有挑战性的图像属性基准Attribution 88，用于检测和跟踪原始GAN架构的图像，而不是GAN模型。我们提出了一种新的GAN指纹识别技术，该技术将强大的零射击泛化引入到看不见的语义类和看不见的转换中，与之前的工作相比，该技术在单个类之外的泛化能力很差（例如，[56]见者，见者也，我们在这个新的基准上证明了97%的检测准确率和82%的归因准确率，而没有对GAN训练过程进行任何更改（根据[58]）。通过利用当前GAN方法无法制造的独特功能，我们的方法对检测真实图像特别鲁棒。未来的工作可以将我们的实验扩展到更广泛的GAN类别，包括条件GAN框架，尽管我们不相信这样的实验有必要证明基准或对比训练和混合策略在实现GAN属性的类别泛化方面的价值。+v：mala2255获取更多论文RepMix for ImageAttribution 15引用1. Ashual，O.，沃尔夫，L.：交互式场景生成中的对象属性和关系。In：Proc. ICCV. pp. 45612. Asnani，V.，Yin，X.，Hassner，T.，Liu，X.：生成模型的逆向工程：从生成的图像中推断模型超参数。arXiv预印本arXiv：2106.07873（2021）1，3，4，5，7，8，93. Aythora，J.，Burke-Aguero，R.，查姆·尤，A.， Clebs c h，S.，Costa，M.，去她的，J。，Earnshaw，N.，埃利斯湖，英格兰，P。Fournet，C.，等：多利益相关者媒体出处管理，以应对新闻出版中的合成媒体风险In：Proc. Intl.广播公约（IBC）（2020年）34. 巴巴，S.，克雷科尔湖，Arif，T.，沙班，Z.：数字图像版权保护的水印方案。IJCSNS9（4）（2019）35. Bellemare ， M.G. ，丹尼赫尔卡岛 Dabney ， W. ， Mohamed ， S. ，Lakshminarayanan，B.，Hoyer，S.，Munos，R.：克拉默距离作为有偏瓦瑟斯坦梯度的解arXiv预印本arXiv：1705.10743（2017）3，46. 我不在乎，M.，萨瑟兰，DJ，阿尔贝尔，M.，Gretton，A.：神秘的记忆。In：Proc. ICLR（2018）3，47. 布莱克，A.，Bui，T.，Jenni，S.，Swaminathan，V.，Collomosse，J.：VPN：视频证明网络，用于强大的内容归属.In：Proc. CVMP. pp. 18. 布莱克，A.，Bui，T.，Jin，H.，Swaminathan，V.，Collomosse，J.：深度图像比较器：学习可视化编辑更改。In：Proc. CVPR. pp. 9729. Bui，T.，库珀，D.，Collomosse，J.，贝尔，M.，Green，A.，Sheridan，J.，Higgins，J.，Das，A.，Keller，J.，Thereaux，O.，等：Archangel：在区块链上使用临时内容哈希来防篡改视频存档。In：Proc. CVPR WS. pp. 010. Bui，T.，库珀，D.，Collomosse，J.，贝尔，M.，Green，A.，Sheridan，J.，希金斯，J.，Das，A.，凯勒，J.R.，Thereaux，O.：在区块链上使用分层注意力自动编码器散列的防篡改视频。IEEE Trans. Multimedia22（11），285811. (CAI)，C.A.I.：为内容归属设定标准Tech. 代表，Adobe Inc.（2020年）2，312. Cao，Z.，Long，M.，王杰，余文生：Hashnet：深度学习通过连续散列。In：Proc. CVPR. pp. 560813. Chen，A.，Liu，R.，谢，L.，陈志，苏，H.，Yu，J.：Sofgan：一个动态风格的ACM Trans.图形（TOG）41（1），114. Devi，P.，Venkatesan，M.，Duraiswamy，K.：一种基于整数小波变换的篡改定位图像认证脆弱水印方案。J. Computer Science5（11），83115. 丁，Y.，Thakur，N.，Li，B.：一个帮派会留下不同型号的指纹吗？Proc.BMVC（2021）3，416. Dolhansky，B.，Bitton，J.，Pflaum，B.，卢，J，Howes，R.，王，M.，Ferrer ， C.C. ： DeepFake Detection Challenge （ DFDC ）数据集 CoRRabs/2006.07397（2020），http://arxiv.org/abs/2006.07397317. F级，J，Eisenhofer，T.， S chéonherr，L.， Fis cher，A.，Kolossa，D.，Holz，T.：用于深度虚假图像识别的水平频率分析。In：Proc. ICML. pp.3247-3258. PMLR（2020）1，2，3，4，5，7，8，9，10，11，1418. Girish，S.，Suri，S.，Rambhatla，S.S.，Shrivastava，A.：走向发现和开放世界的甘生成的图像。In：Proc. ICCV. pp. 1409419. 古德费洛岛， Pouget-Abadie ， J. ，米尔扎， M. ， Xu ， B. ， Warde-Farley，D.，Ozair，S.，Courville，A.，Bengio，Y.：生成对抗网。NeurIPS27（2014）2+v：mala2255获取更多论文16吨。Bui等人20. 古德费洛，I.J.，Shlens，J.，Szegedy，C.：解释和利用对抗性的例子。arXiv预印本arXiv：1412.6572（2014）1021. Hameed ， K. ， Mumtax ， A. ， Gilani ， S. ：小波变换域数字图像水印。WASET13，8622. 他，Y.，Yu，N.，Keuper，M.，弗里

下载后可阅读完整内容，剩余1页未读，立即下载