主动图像篡改检测方案及其效果评估

144 浏览量更新于2023-10-26 收藏 15.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

153860主动图像篡改检测0Vishal Asnani 1，Xi Yin 2，Tal Hassner 2，Sijia Liu 1，Xiaoming Liu 101 密歇根州立大学，2 Meta AI01 { asnanivi，liusiji5，liuxm } @msu.edu，2 { yinxi，thassner } @fb.com0摘要0图像篡改检测算法通常被训练用于区分使用特定生成模型（GMs）篡改的图像和真实图像，但对于在训练中未见过的GMs篡改的图像泛化能力较差。传统的检测算法被动地接收输入图像。相比之下，我们提出了一种主动的图像篡改检测方案。我们的关键技术是估计一组模板，将这些模板添加到真实图像上可以更准确地进行篡改检测。也就是说，与原始真实图像和其篡改图像相比，模板保护的真实图像及其篡改版本更容易区分。这些模板是根据模板的期望属性使用一定的约束条件估计得到的。对于图像篡改检测，我们提出的方法在CycleGAN上的平均精度提高了16％，在GauGAN上提高了32％。我们的方法适用于各种GMs，并在12个GMs上的平均精度提高了10％。我们的代码可在https://www.github.com/vishal3477/proactive_IMD找到。01. 引言0人们经常在社交网络上分享个人照片。通过生成模型（GMs）[13]的图像篡改技术的最新发展，对图像的真实性产生了严重的担忧。由于这些技术易于获取[7, 8, 21, 27, 31, 44,61]，分享的图像在篡改后被滥用的风险更大。生成假图像可以分为两种类型：整个图像生成和部分图像篡改[46,48]。前者通过将噪声代码输入到GM中生成全新的图像，而后者涉及对真实图像的部分篡改。由于后者改变了真实图像的语义，因此通常被认为是更大的风险，因此本文的重点是部分图像篡改检测。0图1. 被动 vs 主动图像篡改检测传统的被动方案将图像原样用于区分真实图像和由生成模型（GM）创建的篡改图像。相比之下，我们的主动方案对真实图像进行加密，以便我们的检测模块可以更好地区分加密的真实图像和其篡改对应物。0检测此类篡改是减轻社会对共享图像真实性的关注的重要一步。先前的研究已经提出了对抗篡改媒体的方法[12]。它们利用易于被篡改的属性，包括口腔运动[39]，隐写分析特征[51]，注意机制[11,23]等。然而，这些方法通常过度拟合于图像篡改方法和训练中使用的数据集，并且在测试具有不同分布的数据时效果不佳。所有上述方法都采用被动方案，因为输入图像（真实或篡改）被接受为检测的一部分。另外，还有一种主动方案被提出用于一些计算机视觉任务，它涉及向原始图像添加信号。例如，先前的研究向真实图像添加预定义的模板，这些模板要么破坏GM的输出[40, 41,54]，要么将图像标记为真实身份[46]。这个模板可以是一位编码[46]或对抗性扰动[40, 41,54]。受到改进篡改检测的泛化性能以及其他任务的主动方案的启发，本文提出了一种主动方案用于图像篡改检测的目的，其工作原理如下。当捕获图像时，我们的算法向其添加一个不可察觉的信号（称为模板），作为153870表1.我们的方法与之前的工作的比较。Generalizable列表示性能是否在训练过程中未见的数据集上报告。[Keys: Img. man.det.: 图像操作检测, Img. ind.: 图像独立]0方法年份检测目的操作 Generalizable 添加恢复模板数量图像独立0方案类型扰动扰动学习方法模板模板0Cozzolino等人[10] 2018年被动Img. man. det. 整体/部分��- - - Nataraj等人[28] 2019年被动Img. man. det. 整体/部分��- - - Rossler等人[39] 2019年被动Img. man. det. 整体/部分��- - -Zhang等人[59] 2019年被动Img. man. det. 部分��- - - Wang等人[48] 2020年被动Img. man. det. 整体/部分��- - - Wu等人[51] 2020年被动Img. man. det. 整体/部分��- - - Qian等人[35]2020年被动Img. man. det. 整体/部分��- - - Dang等人[11] 2020年被动Img. man. det. 部分��- - - Masi等人[26] 2020年被动Img. man. det. 部分��- - - Nirkin等人[29] 2021年被动Img. man.det. 部分��- - - Asnani等人[3] 2021年被动Img. man. det. 整体/部分��- - - Segalis等人[41] 2020年主动性深度伪造干扰部分��对抗攻击1�0Ruiz等人[40] 2020年主动性深度伪造干扰部分��对抗攻击1�0Yeh等人[54] 2020年主动性深度伪造干扰部分��对抗攻击1�0Wang等人[46] 2021年主动性深度伪造标记部分��固定模板>1�0我们的-主动性Img. man. det. 部分��无监督学习>1�0加密。如果这个加密的图像通过GM进行共享和操作，我们的算法可以通过恢复添加的模板准确区分加密图像和其操作版本。理想情况下，这个加密过程可以被整合到相机硬件中，以保护所有被捕捉到的图像。相比之下，我们的方法与相关的主动性工作[40, 41, 46,54]在目的（检测与其他任务）、模板学习（可学习与预定义）、模板数量和泛化能力方面有所不同。我们的关键技术是学习一组模板，这是一个非平凡的任务。首先，没有地面真实模板可以用于监督。其次，从操作图像中恢复模板是具有挑战性的。第三，使用一个模板可能存在风险，因为攻击者可能会对模板进行逆向工程。最后，对加密图像应用模糊或压缩等图像编辑操作可能会降低添加模板的有效性。为了克服这些挑战，我们提出了一个模板估计框架来学习一组正交模板。我们基于从加密的真实和操作图像中恢复模板进行图像操作检测。与之前的工作不同，我们使用无监督学习来估计这个模板集，基于一定的约束条件。我们定义了不同的损失函数来包含小幅度、更高频率内容、正交性和分类能力等属性作为学习模板集的约束条件。我们展示了我们的框架在操作检测方面比现有技术（SoTA）方法[10, 28, 46,59]取得了更好的效果。我们提出了一个新颖的评估协议，使用12个不同的GM进行训练，并在未见过的GM上进行测试。总之，本文的贡献包括：•我们提出了一种新颖的主动性图像操作检测方案。0• 我们提出学习一组具有期望属性的模板，性能比单个模板更高。0•我们的方法在图像操纵检测方面明显优于先前的工作。我们的方法对不同的GMs更具泛化性，平均精度平均提高了10％。02. 相关工作0被动式深度伪造检测。大多数深度伪造检测方法是被动的。Wang等人[48]通过探索图像的频域模式进行二进制检测。Zhang等人[59]提出提取中频和高频来检测GAN产生的上采样伪影。Asnani等人[3]提出使用具有特定期望属性的生成模型估计指纹。其他方法使用自动编码器[10]，手工特征[28]，面部上下文差异[29]，嘴巴和面部运动[39]，隐写分析特征[51]，xception-net[9]，频域[26]和注意机制[11]。这些被动式深度伪造检测方法存在泛化性问题。我们提出了一种新颖的主动式操纵检测方案，旨在改善泛化性能。主动式方案。最近，一些主动式方法通过在真实图像上添加对抗性噪声来进行。Ruiz等人[40]通过在图像转换网络中使用对抗性攻击来进行深度伪造干扰。Yeh等人[54]通过对真实图像进行对抗性攻击来将深度伪造干扰为低质量图像。Segalis等人[41]通过添加小扰动来干扰与换脸相关的操纵。Wang等人[46]提出了一种在操纵后嵌入消息并恢复消息的方法。Wang等人[46]使用一位有效编码消息而不是对抗性扰动。与这些工作相比，我们的方法侧重于图像操纵检测而不是深度伪造干扰或深度伪造标记。我们的方法学习一组模板并恢复添加的模板以进行图像操纵检测。我们的方法对于未见过的GMs也具有更好的泛化性能。表1总结了与先前工作的比较。数字水印和密码学方法。数字水印方法已经从使用经典的图像转换技术发展到使用深度学习技术。先前的工作通过像素值[5]和空间域[42]等不同方式嵌入水印。其他方法[18，20，52]使用频域，包括通过SVD，离散小波变换（DWT），离散余弦变换（DCT）和离散傅里叶变换（DFT）获得的变换系数来嵌入水印。最近，Zhu等人[60]，Baluja等人[4]和Tancik等人[43]提出的深度学习技术使用编码器-解码器架构将水印嵌入图像中。所有这些方法的目标要么是隐藏敏感信息，要么是保护数字图像的所有权。虽然我们的算法与图像加密的高级思想相似，但我们为完全不同的目的开发了一种新颖的框架，即主动式图像操纵检测。the added template for image manipulation detection. Ourmethod also generalizes better to unseen GMs than priorworks. Tab. 1 summarizes the comparison with prior works.Watermarking and cryptography methods. Digital wa-termarking methods have been evolving from using clas-sic image transformation techniques to deep learning tech-niques. Prior work have explored different ways to em-bed watermarks through pixel values [5] and spatial do-main [42]. Others [18, 20, 52] use frequency domains in-cluding transformation coefﬁcients obtained via SVD, dis-crete wavelet transform (DWT), discrete cosine transform(DCT) and discrete fourier transform (DFT) to embed wa-termarks. Recently, deep learning techniques proposed byZhu et al. [60], Baluja et al. [4] and Tancik et al. [43] use anencoder-decoder architecture to embed watermarks into animage. All of these methods aim to either hide sensitive in-formation or protect the ownership of digital images. Whileour algorithm shares the high-level idea of image encryp-tion, we develop a novel framework for an entirely differentpurpose, i.e., proactive image manipulation detection.minθ,Si(3)153880图2.我们提出的框架包括两个阶段：1）模板的选择和添加；2）使用编码器网络从加密的真实图像和操纵图像中恢复估计的模板。GM在推理模式下使用。这两个阶段都以端到端的方式进行训练，以输出一组模板。对于推理，第一阶段是加密图像的必需步骤。第二阶段仅在需要图像操纵检测时使用。03. 提出的方法 3.1.问题形式化0我们只考虑将真实图像作为操纵输入的GMs进行部分图像操纵。设Xa为一组真实图像，当输入到GMG时，会输出一组操纵图像G(Xa)。传统上，被动式图像操纵检测方法在Xa与G(Xa)之间进行二元分类。将X = {Xa,G(Xa)} ∈ R 128 × 128 ×3表示为真实和操纵图像的集合，被动式检测的目标函数如下所示：0min θ0� − �0j0� yj . log (H(Xj; θ)) − (1 − yj) . log (1 −H(Xj; θ)) � � .0其中y是类别标签，H是使用参数θ的分类网络。相比之下，对于我们的主动检测方案，我们对来自Xa集合中的真实图像应用变换T，形成一组表示为T(Xa)的加密真实图像集合。我们通过向图像中添加可学习的模板来进行图像加密，该模板充当了防御者的签名。此外，加密真实图像集合T(Xa)作为输入传递给GM，产生一组经过篡改的图像G(T(Xa))。我们提出学习一组模板而不是单个模板，以增加安全性，因为逆向工程所有模板是困难的。因此，对于Xa中的真实图像Xaj∈ Xa，我们通过一组正交模板S = {S1, S2, ...,Sn}来定义T，其中Si ∈ R128×128，如下所示：0T(Xaj) = Xaj + Si, where i ∈ {1, 2, ..., n}. (2)0应用变换T后，公式1中定义的目标函数可以重写为：0� − �0� yj . log (H(T(Xj); θ, Si))+0(1 − y j ) . log (1 − H ( T ( X j ); θ, Si )) � � .0目标是找到对应于Xa和T(Xa)中的图像没有显著视觉差异的Si。更重要的是，如果T(Xa)被任何GM修改，这将提高图像篡改检测的性能。03.2. 提出的框架0如图2所示，我们的框架包括两个阶段：图像加密和模板恢复。第一阶段用于选择和添加模板，而第二阶段涉及从T(Xa)和G(T(Xa))中恢复模板。两个阶段都是minθ ,Si−(5)153890(a) (b) (c) (d) (e) (f)0图3. (a) 一个包含3个模板的模板集合的可视化，(b)真实图像，(c) 添加模板后的加密真实图像，(d)GM输出的篡改图像，(e) 从(c)中恢复的模板，(f)从(d)中恢复的模板。每一行对应不同GM的图像篡改（顶部：StarGAN，中部：CycleGAN，底部：GauGAN）。从加密真实图像中恢复的模板与模板集合更相似，而从篡改图像中恢复的模板则不是。添加模板不会在真实和加密真实图像之间产生视觉差异。我们在补充材料中提供了使用我们的框架评估的更多真实图像示例。0在GM参数固定的情况下，我们以端到端的方式进行训练。在推断过程中，每个阶段都是单独应用的。第一阶段是加密真实图像的必要步骤，而第二阶段只在需要图像篡改检测时使用。03.2.1 图像加密0我们在训练过程中使用一些约束条件来优化图2中展示的n个模板的初始设置。根据公式2的表达式，我们随机选择并添加一个模板到每个真实图像中。我们的目标是从中估计出一个最佳的模板集合，其中任何一个模板都能够保护Xa中的真实图像。尽管我们使用L2损失约束模板的幅度，但是添加的模板仍然会降低真实图像的质量。因此，在将模板添加到真实图像时，我们使用一个超参数m来控制添加模板的强度。我们重新定义T如下：0T(Xaj) = Xaj + m × Si where i ∈ {1, 2, ..., n}. (4)0我们在第4.3节中对变量m进行了消融研究，发现将m设置为30%时效果最好。03.2.2 模板的恢复0为了进行图像操纵检测，如图2所示，我们使用具有参数θE的编码器E从T(Xa)中的图像中恢复我们添加的模板。对于任何真实图像Xaj ∈Xa，我们将加密真实图像T(Xaj)中恢复的模板定义为：0SR = E(T(Xaj))，从操纵图像G(T(Xaj))中恢复的模板为SF =E(G(T(Xaj)))。由于从模板集中选择模板是随机的，编码器接收更多的训练对来学习如何从图像中恢复任何模板，这对恢复过程的鲁棒性有积极的贡献。我们在图3中可视化我们训练的模板集S和恢复的模板SR/F。我们框架设计的主要思想是SR应该与添加的模板更相似，而S F则相反。因此，为了进行图像操纵检测，我们计算SR/F与集合S中所有学习到的模板之间的余弦相似度，而不仅仅使用分类目标。对于每个图像，我们选择所有模板中的最大余弦相似度作为最终得分。因此，我们通过余弦相似度得分更新方程3中的逻辑回归得分，如下所示：0� y j . log ( max i =1 ...n ( Cos ( E ( T ( X j ); θE ) , Si )))+0(1 - yj) . log (1 - max i =1 ...n (Cos (E(T(Xj); θE), Si))) � �.03.2.3 模板集的无监督训练0由于没有监督的真实标签，我们定义了各种约束来指导学习过程。设S为从集合S中选择要添加到真实图像上的模板。我们制定了五个损失函数，如下所示：0幅度损失。真实图像和加密图像在视觉上应尽可能相似，因为用户不希望在模板添加后图像质量下降。因此，我们提出第一个约束条件来规范模板的幅度：0Jm = ||S||22 . (6)0恢复损失。我们使用编码器网络来恢复添加的模板。理想情况下，编码器的输出，即加密真实图像的恢复模板SR，应与原始添加的模板S相同。因此，我们提出最大化这两个模板之间的余弦相似度：0Jr = 1 - Cos(S, SR) . (7)0内容无关的模板损失。我们的主要目标是学习一组通用模板，用于检测来自未见过的GM的操纵图像。这些模板尽管在一个数据集上进行训练，但可以应用于来自不同领域的图像。因此，我们鼓励模板中的高频信息是数据无关的。我们提出了一个约束条件，最小化低频信息：0Jc = ||L(F(S), k)||22, (8)153900其中 L是低通滤波器，选择2D傅里叶谱中心的k×k区域，并将高频区域设为零。F是傅里叶变换。分离损失。我们希望从操纵图像G(T(X))中恢复的模板SF与集合S中的所有模板都不同。因此，我们优化SF使其与集合S中的所有模板正交。因此，我们选择与SF和模板之间的余弦相似度最大的模板，并最小化其相应的余弦相似度：0Js = max i =1 ...n (Cos(N(Si), N(SF))), (9)0其中 N(S) 是归一化函数，定义为 N(S) = (S - min(S)) /(max(S) -min(S))。由于该损失函数最小化余弦相似度为0，我们在相似度计算之前对模板进行归一化处理。成对集分布损失。模板集确保如果攻击者能够访问某些模板，仍然很难逆向工程其他模板。因此，我们提出了一个约束条件，最小化模板间的余弦相似度，以促进模板集中的多样性：0Jp =0n �0i=10j=i+1 Cos(N(Si), N(Sj)). (10)0因此，模板估计的整体损失函数为：0J = λ1Jm + λ2Jr + λ3Jc + λ4Js + λ5Jp, (11)0其中λ1，λ2，λ3，λ4，λ5是每个项的损失权重。04. 实验04.1. 设置0实验设置和数据集。我们遵循Wang等人[48]的实验设置，并与四个基准线进行比较：[48]，[59]，[10]和[28]。对于训练，[48]使用了720K张图像，其中操纵后的图像是由ProGAN[19]生成的。然而，由于我们的方法需要GM进行部分操纵，我们选择STGAN[21]进行训练，因为ProGAN合成整个图像。我们使用CelebA-HQ[19]中的24K张图像作为真实图像，并通过STGAN对其进行操纵以用于训练。对于测试，我们使用200张真实图像，并通过未见过的GM（如StarGAN[7]，GauGAN[31]和CycleGAN[61]）对其进行处理。测试GM的真实图像是从它们各自的训练集中选择的，即StarGAN使用CelebA-HQ，CycleGAN使用Facades[61]，GauGAN使用COCO[6]。为了进一步评估我们方法的泛化能力，我们使用了12个额外的未见过的GM，它们具有不同的网络架构和损失函数，并在不同的数据集上进行训练。我们对200张真实图像进行操纵。0表2。与之前的工作性能比较。0方法训练GM集测试GM 平均精度（%）0大小 CycleGAN StarGAN GauGAN0[28] CycleGAN - 100 88.20 56.20 [10] ProGAN - 77.20 91.7083.30 [59] AutoGAN - 100 100 61.00 [48] ProGAN - 84.00100 67.000STGAN 3 96.12 100 91.620AutoGAN 3 97.87 97.89 86.570STGAN + AutoGAN 3 100 100 99.690表3。与Wang等人[48]的性能比较。0方法训练GM 测试GM 低FAR（0.5%）下的TDR（%）CycleGAN StarGAN GauGAN0[48] ProGAN 55.98 93.88 37.140我们的方法 STGAN 88.50 100.00 43.000使用这12个GM，共生成2400张操纵后的图像。真实图像是从相应的GM训练集中选择的。GM的列表和它们的训练数据集在补充材料中提供。实现细节。我们的框架通过Adam优化器进行端到端训练，共进行10个epochs，学习率为10^-5，批量大小为4。损失权重设置为确保在训练开始时具有相似的数量级：λ1 = 100，λ2 = 30，λ3 = 5，λ4 =0.003，λ5 =10。如果未指定，我们将模板集大小n设置为3。在内容无关的模板损失中，我们将k设置为50。所有实验都使用一块NVIDIA Tesla K80GPU进行。评估指标。我们报告平均精度，采用[48]的方法。为了模拟真实世界的情况，我们进一步报告在低误报率（FAR为0.5%）下的真实检测率（TDR）。04.2. 图像操纵检测结果0如表2所示，当我们的训练GM是STGAN时，我们可以在基于GauGAN的测试数据上大幅超越基准线，而在基于StarGAN的测试数据上的性能保持在100%。当在STGAN上训练时，我们的方法在CycleGAN上的性能较低。我们假设这是因为AutoGAN和CycleGAN共享相同的模型架构。为了验证这一点，我们将训练GM更改为AutoGAN，并观察在CycleGAN上测试时的改进。然而，在其他两个GM上的性能下降，因为训练数据的数量减少（STGAN为24K，AutoGAN为1.5K）。增加模板数量可以提高在STGAN上训练并在CycleGAN上测试的性能，但对其他情况下的性能会降低。当在AutoGAN上训练时，性能下降更多。这表明在较小的训练集上找到更大的模板集是具有挑战性的。最后，同时使用STGAN和AutoGAN进行训练。Pix2Pix��TDR at low FAR. We also evaluate using TDR at low FARin Tab. 3. This is more indicative of the performance in thereal world application where the number of real images areexponentially larger than manipulated images. For compar-ison, we evaluate the pretrained model of [48] on our testset. Our method performs consistently better for all threeGMs, demonstrating the superiority of our approach.Generalization ability.To test our generalization abil-ity, we perform extensive evaluations across a large set ofGMs. We compare the performance of our method with [48]by evaluating its pretrained model on a test set of differentGMs. Our framework performs quite well on almost all theGMs compared to [48] as shown in Tab. 4. This furtherdemonstrates the generalization ability of our framework inthe real world where an image can be manipulated by anyunknown GM. Compared to [48], our framework achievesan improvement in the average precision of almost 10% av-eraged across all 12 GMs.Comparison with proactive scheme work.We com-pare our work with previous work in proactive scheme [40].As [40] proposes to disrupt the GM’s output, they only pro-vide the distortion results of the manipulated image. To en-able binary classiﬁcation, we take their adversarial real anddisrupted fake images to train a classiﬁer with the similarnetwork architecture as our encoder. Tab. 5 shows that [40]works perfectly when the testing GM is the same as thetraining GM. Yet if the testing GM is unseen, the perfor-mance drops substantially. Our method performs much bet-ter showing the high generalizability.Comparison with steganography works.Our methodaligns with the high-level idea of digital steganographhymethods [4, 5, 42, 52, 63] which are used to hide an imageonto other images. We compare our approach to the re-cent deep learning-based steganography method, Baluja etal. [4], with its publicly available code. We hide and retrieveN153910表4.当我们的方法仅在STGAN上进行训练时，对12个测试GM的平均精度。所有的GM都有不同的架构，并在不同的数据集上进行训练。几乎所有GM的平均精度都超过90%，显示了我们方法的泛化能力。0GM UNIT MUNIT StarGAN2 BicycleGAN CONT Enc. SEAN ALAE Pix2Pix DualGAN CouncilGAN ESRGAN GANimation 平均 [ 22 ] [ 15 ] [ 8 ] [ 62 ] [ 32 ] [ 63 ] [ 33 ][ 17 ] [ 55 ] [ 30 ] [ 50 ] [ 34 ]0[ 48 ] 64 . 94 95 . 33 100 100 98 . 18 67 . 81 92 . 73 91 . 26 98 . 91 74 . 13 57 . 04 55 . 19 82 . 97 我们的方法 100 100 100 99 . 05 98 . 75 97 . 63 93 . 10 92 . 50 92 .49 89 . 71 87 . 30 58 . 69 92 . 430表5. 我们提出的方法与Ruiz等人的方法[ 40]的性能比较。当测试GM是未知的时，我们提出的方法的性能优于[ 40 ]。两种方法都使用StarGAN作为训练GM。0方法测试GM 平均精度（%）0[ 40 ] 100 51 . 50 52 . 43 49 . 08 我们的方法 100 95 . 26 60 .12 91 . 850表6. 我们提出的方法与隐写术和对抗攻击方法的性能比较。0方法类型测试 GM 平均精度（%）0Baluja [ 4 ] 隐写术 85 . 64 88 . 06 81 . 260PGD [ 25 ] 对抗攻击 90 . 28 98 . 22 57 . 71 FGSM [ 14 ] 攻击 89. 21 98 . 29 63 . 810我们的 - 99 . 95 100 98 . 230使用[ 4 ]提供的预训练模型对模板进行学习。与[ 4]相比，我们的方法对每个测试GM的平均精度都更好，如Tab.6所示。这验证了模板学习的有效性，并得出数字隐写术方法在未知GM上的泛化能力较差的结论。与良性对抗攻击的比较。对抗攻击用于优化扰动以改变图像的类别。使用我们的框架学习模板的方式类似于良性使用对抗攻击。我们进行了消融研究，将我们的方法与常见的攻击方法（如良性PGD和FGSM）进行比较。我们去除了学习模板的Eqs.6、8和10中的损失，并用对抗性噪声约束替换它们。如Tab.6所示，与两种对抗攻击相比，我们的方法对每个测试GM的平均精度都更好。我们观察到对抗性噪声与被动方案表现类似，对未知GM的泛化能力较差。这表明使用我们提出的约束条件学习通用模板集的重要性。数据增强。我们应用各种数据增强方案来评估我们方法的鲁棒性。我们采用了Wang等人[ 48]的一些图像编辑技术，包括（1）高斯模糊，（2）JPEG压缩，（3）模糊+JPEG（0.5），以及（4）模糊+JPEG（0.1），其中0.5和0.1是应用这些图像编辑操作的概率。此外，我们还添加了调整大小、裁剪和高斯噪声。这些技术的实现细节在补充材料中。这些技术是在将我们的模板添加到真实图像之后应用的。我们在三种情况下进行评估，即（1）训练时，（2）测试时，（3）训练和测试都应用。如Tab.7所示，对于从[ 48]采用的增强技术，我们在几乎所有技术中都优于[ 48]。我们观察到当模糊或JPEG压缩同时应用时，有显著的改进，但当它们分别应用时，改进较小。10010098.9795.7484.8770.7492.1610090.15153920表7.使用不同的增强技术在训练和测试中的平均精度（%）对三个GMs进行数据增强：（1）仅在训练中增强，（2）仅在测试中增强，（3）在训练和测试中都增强。[键：aug.=增强，B.=模糊，J.=JPEG压缩，Gau. No.=高斯噪声]0增强增强方法测试 GMs0训练测试类型 CycleGAN StarGAN GauGAN0� � 否 [48] 84.00 100 67.000增强我们 96.12 100 91.620模糊 [48] 90.10 100 74.700我们 93.55 100 92.350JPEG [48] 93.20 91.80 97.500我们 98.74 98.30 91.850B + J (0.5) [48] 96.80 95.40 98.100我们 94.44 100 98.160B + J (0.1) [48] 93.50 84.50 89.500我们 95.79 100 95.940调整大小0裁剪 84.45 84.92 94.430Gau. No. 99.95 100 99.110� �0模糊0JPEG 91.91 82.96 84.160B + J (0.5) 89.23 82.18 75.530调整大小 93.12 77.41 91.450裁剪 84.04 73.87 70.120Gau. No. 73.83 69.47 66.700� �0模糊0JPEG 94.00 97.92 85.910B + J (0.5) 87.37 84.92 74.680调整大小 99.98 100 92.730裁剪 77.63 89.22 79.960Gau. No. 97.44 100 82.320对于不同的数据增强应用场景，情景2的性能最差，因为测试中应用的增强在训练中没有见过。情景3在大多数情况下比情景2表现更好。当模糊和JPEG一起应用时，性能下降比分开应用时更大。对于情景1和3，裁剪的性能最差。04.3. 消融研究0模板集大小。我们研究了模板集大小的影响。如图4所示，平均精度随着集合大小从1扩展到10而增加，并在集合大小约为10时饱和。与此同时，集合内模板之间的平均余弦相似度持续增加，因为越来越难找到许多正交模板。我们还测试了不同集合大小下我们框架的运行时间。在Tesla K80GPU上，对于集合大小为1、3、10、20和50，我们的篡改检测每张图像的运行时间分别为26.19、27.16、28.44、34.26和43.76毫秒。因此，尽管增加集合大小可以提高我们的准确性和安全性，但与检测速度存在权衡，检测速度也是一个重要因素。为了比较，我们还测试了[48]的预训练模型，其每张图像的运行时间为54.55毫秒。即使集合大小较大，我们的框架也要快得多，这是因为我们主动方案中的浅层网络相对于被动方案中的深层网络。0模板强度。我们使用超参数m来控制0图4.使用不同的模板集大小进行消融研究。当集合大小增加时，性能提高，而模板之间的余弦相似度也增加。0图5.在加密的真实图像中使用不同的模板强度进行消融实验。模板强度越低，PSNR越高，我们的编码器恢复困难，导致检测性能降低。0控制我们添加的模板的强度。我们去除m并在图5中展示结果。直观上，添加的模板强度越低，检测性能越低，因为编码器很难恢复原始模板。我们的结果支持这种直觉。对于所有三个GMs，当我们增大模板强度时，精度增加，并在50%强度后收敛。我们还展示了加密真实图像与原始真实图像之间的PSNR。随着强度的增加，PSNR如预期地降低。我们选择m =30%作为检测精度和视觉质量之间的权衡。损失函数。我们的训练过程由一个包含五个损失的目标函数（Eqn.11）引导。为了证明每个损失的必要性，我们通过去除每个损失进行消融实验，并与我们的完整模型进行比较。如表8所示，去除任何一个损失都会导致性能下降。具体来说，去除成对集分布损失、恢复损失或分离损失会导致更大的下降。为了更好地理解数据驱动模板集的重要性，我们在训练过程中固定模板集，即直接去除三个作用于模板的损失，只考虑恢复和分离损失进行训练。我们观察到显著的性能下降，这表明可学习的模板确实对有效的图像篡改检测至关重要。最后，我们从我们的框架中移除编码器。153930表8.消融研究以去除我们训练中使用的损失。去除任何一个损失都会导致性能下降，与我们提出的方法相比。固定模板或进行直接分类会使结果变差。这表明可变模板和使用编码器进行分类目的的重要性。0去除损失测试GM 平均准确率（%）0CycleGAN StarGAN GauGAN0幅度损失（Jm）94.

下载后可阅读完整内容，剩余1页未读，立即下载