多视角多尺度监督下的图像篡改检测

41 浏览量更新于2023-10-15 收藏 14.39MB PDF 举报

图像篡改检测

深度学习方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

141850多视角多尺度监督下的图像篡改检测0陈欣茹1,2*，董成波1,2�，纪佳琪1,2，曹娟3,4，李喜荣1,2†01 数据工程与知识工程教育部重点实验室，中国人民大学 2 信息学院，中国人民大学 3中国科学院计算技术研究所 4 媒体融合制作技术与系统国家重点实验室0https://github.com/dong03/MVSS-Net0摘要0图像篡改检测的关键挑战在于如何学习对新数据中的篡改敏感而又能防止真实图像的误报的可泛化特征。当前的研究强调了敏感性，忽视了特异性。本文通过多视角特征学习和多尺度监督来解决这两个方面的问题。通过利用篡改区域周围的噪声分布和边界伪影，前者旨在学习语义不敏感且更具泛化性的特征。后者允许我们从真实图像中学习，而这些真实图像对于当前基于语义分割网络的方法来说是不容易考虑到的。我们的思路通过一个新的网络实现，我们称之为MVSS-Net。对五个基准数据集进行的大量实验证明了MVSS-Net在像素级和图像级篡改检测方面的可行性。01. 引言0数字图像现在可以轻松地进行操纵，而且通常是以一种肉眼难以察觉的方式进行[11]。复制移动（从给定图像的一个区域复制和移动元素到另一个区域）、拼接（从一幅图像复制元素并粘贴到另一幅图像上）和修复（去除不想要的元素）是导致视觉内容被错误解读的三种常见图像篡改类型[1,19,23]。本文旨在自动检测这些类型的篡改图像。我们的目标不仅是区分篡改图像和真实图像，还要在像素级别确定篡改区域。毫不奇怪，目前的最新研究都是基于深度学习的[14,21,26,27,29]，特别是专注于像素级篡改检测[21,26,29]。只有两个0* 陈欣茹和董成波为本文的共同一作。†通讯作者：李喜荣（xirong@ruc.edu.cn）。0图1.最新技术的图像篡改检测。前三行是复制移动、拼接和修复，然后是三幅真实图像（因此具有空白掩码）。我们的模型在敏感性和特异性之间取得了良好的平衡。0考虑到类别（操纵与真实）的差异，该任务似乎是图像语义分割的简化案例。然而，现成的语义分割网络对于该任务来说并不是最优的，因为它被设计用于捕捉语义信息，使得网络依赖于数据集并且不能泛化。之前的研究[29]报告称，DeepLabv2[4]在CASIAv2数据集[8]上训练表现良好，但在非同源的COVER数据集[25]上表现不佳。本研究也观察到FCN[18]的类似行为。因此，关键问题是如何设计和训练一个能够学习对操纵敏感而又不会产生误报的深度神经网络？为了学习对语义不敏感的特征，图像内容141860图2.提出的MVSS-Net模型的概念图。我们使用边缘监督分支和噪声敏感分支来学习用于篡改检测的语义不敏感特征，并使用多尺度监督来在模型敏感性和特异性之间取得平衡。不可训练的层，如sigmoid（σ）和全局最大池化（GMP），显示为灰色。0根据抑制发生的阶段，我们将现有方法分为两组，即噪声视图方法[14，16，26，27，30]和边缘监督方法[21，29]。鉴于通过切片和/或修复引入的新元素与真实部分在噪声分布方面存在差异，第一组方法旨在利用这种差异。输入图像的噪声图，可以通过预定义的高通滤波器[9]或可训练的对应物[2，16]生成，然后将其输入到深度网络中，可以单独使用[16，27]，也可以与输入图像一起使用[14，26，30]。请注意，这些方法对于检测不引入新元素的复制移动是无效的。第二组方法集中于找到作为篡改痕迹的边界伪影，通过添加一个辅助分支来重构区域的边缘[21，29]。请注意，先前的方法[29]统一连接来自骨干的不同层的特征作为辅助分支的输入。因此，存在一种风险，即负责操作检测的更深层特征仍然是语义感知的，因此不具有普适性。0为了衡量模型的普适性，常见的评估协议[14，21，26，29]是首先在公共数据集上训练模型，例如CASIAv2[8]，然后在其他公共数据集上进行测试，例如NIST16[12]，Columbia [13]和CASIAv1[7]。然而，令人惊讶的是，评估仅针对篡改图像进行，报告基于像素级操作检测的指标。模型的特异性，即它如何处理真实图像，对于实际应用至关重要，但被忽视了。如图1所示，它们对真实图像的严重误报0真实图像导致在实际工作中无法使用。事实上，由于当前方法[14，21，26]主要使用像素分割损失，一个真实示例可以贡献的内容是边缘的，这对于这些方法通过学习真实示例来提高其特异性是非常困难的。受到边界网络[28]的启发，该网络逐步聚合特征以预测物体边界，以及Le-sionNet[24]，该网络通过视网膜病变分割中的图像分类损失来融合图像分类损失，我们提出了用于图像操作检测的多视图特征学习和多尺度监督。据我们所知（表1），我们是第一个共同利用噪声视图和边界伪影来学习操作检测特征的人。而且，这种联合利用是非常困难的。为了结合两个世界的优点，需要新的网络结构。我们的贡献如下：•我们提出了MVSS-Net作为图像操作检测的新网络。如图2所示，MVSS-Net包含了为学习语义不可知特征而设计的新元素。•我们使用多尺度监督训练MVSS-Net，使我们能够从被先前方法忽视的真实图像中学习，并且从而大大提高了模型的特异性。•在两个训练集和五个测试集上进行了大量实验，结果显示MVSS-Net与最先进的方法相比具有优势。02. 相关工作0本文受到一些最近的工作的启发，这些工作尝试了学习语义不可知特征的新方法141870方法视图骨干级别的监督0RGB噪声融合像素边缘图像0Bappy等人。2017年，J-LSTM [1] + - - Patch-LSTM + - -0Salloum等人。2017年，MFCN [21] + - - FCN + + -0Zhou等人。2020年，GSR-Net [29] + - - Deeplabv2 + + -0Li＆Huang 2019，HP-FCN [16] - 高通滤波器 - FCN + - -0Yang等人。2020年，CR-CNN [27] - BayarConv2D - Mask R-CNN + - -0Zhou等人。2018年，RGB-N [30] + SRM滤波器后期融合（双线性池化）Faster R-CNN * - -0Wu等人。2019年，ManTra-Net [26] +SRM滤波器，BayarConv2D0早期融合（特征串联）Wider VGG + - -0Hu等人。2020年，SPAN [14] + SRM滤波器BayarConv2D0早期融合（特征串联）Wider VGG + - -0MVSS-Net（本文）+ BayarConv2D后期融合（双重注意力）FCN + + +0表1.图像篡改检测的最新技术分类。注意，本文中使用的边缘和图像标签是从像素级注释中自动提取的。因此，我们的多尺度监督不需要额外的手动注释。0图像篡改检测，请参见表1。接下来，我们简要描述这些尝试是如何实现的，并根据此解释我们的创新点。我们专注于深度学习方法来进行复制-移动/拼接/修复检测。对于高斯模糊和JPEG压缩等低级篡改的检测，我们参考[2]。为了抑制内容信息，Li和Huang[16]提出使用可训练的高通滤波器实现FCN的第一个卷积层，并将其HP-FCN应用于修复检测。Yang等人使用BayarConv作为他们的CR-CNN[27]的初始卷积层。尽管这种受限制的卷积层有助于提取噪声信息，但仅使用它们会带来丢失原始RGB输入中其他有用信息的风险。因此，我们看到越来越多的工作在利用RGB视图和噪声视图的信息[14，26，30]。Zhou等人。[30]开发了一个名为RGB-N的双流FasterR-CNN，它以由SRM滤波器[9]生成的RGB图像和其噪声对应物作为输入。Wu等人。[26]和Hu等人。[14]都使用了BayarConv和SRM。鉴于来自不同视图的特征，需要进行特征融合。[14，26]采用了早期阶段的特征串联。我们的MVSS-Net更接近RGB-N，因为两者都在后期进行特征融合。然而，与RGB-N中使用的不可训练双线性池化不同，MVSS-Net中使用的双重注意力是可训练的，因此更具选择性。在给定图像中篡改特定区域不可避免地在篡改区域和其周围留下痕迹，如何利用这种边缘伪迹对于篡改检测也很重要。Salloum等人。开发了一个多任务FCN来对称预测篡改区域及其边界[21]。在最近的一项工作中[29]，Zhou等人。引入了一个边缘检测和细化分支，该分支接受来自不同层次的特征。鉴于区域分割和边缘检测本质上是两个不同的任务，挑战在于如何在两者之间取得适当的平衡。0在两者之间。直接使用深层特征进行边缘检测，如[21]中所做的那样，有可能影响操作分割的主要任务，而将所有特征放在一起，如[29]中所用的那样，可能会导致边缘分支忽视深层特征。我们的MVSS-Net具有一个边缘监督分支，可以有效解决这些问题。最后但并非最不重要的是，我们观察到图像篡改检测器的特异性，即它对真实图像的响应，很少有报道。事实上，主流解决方案是在图像语义分割网络中开发的。自然地，它们在篡改分割的上下文中训练和评估，都是在篡改图像上进行的[29]。在训练和测试阶段都没有真实图像的情况下，自然会引起对检测器特异性的担忧。在本文中，我们尝试在训练和测试中包含真实图像，这是迈向实际部署的重要一步。03. 提出的模型0给定尺寸为W×H×3的RGB图像x，我们的目标是设计一个多头深度网络G，不仅可以确定图像是否被篡改，还可以确定篡改像素的位置。设G(x)为网络估计的图像被篡改的概率。类似地，我们定义G(xi)为像素级概率，其中i=1,...,W×H。因此，我们将完整尺寸的分割图表示为{G(xi)}。由于图像级别的决策自然受到像素级证据的影响，我们通过对分割图进行全局最大池化（GMP）来获得G(x)，即0G(x) ← GMP({G(xi)})。0为了提取具有普适性的篡改检测特征，我们提出了一个新的网络，可以接受输入图像的RGB视图和噪声视图。为了在检测灵敏度和特异性之间取得适当的平衡，多视角特征学习过程由三个尺度的注释共同监督。141880视图特征学习过程由像素、边缘和图像的注释共同监督。03.1. 多视角特征学习0如图2所示，MVSS-Net由两个分支组成，它们的主干网络都是ResNet-50。顶部的边缘监督分支（ESB）专门设计用于利用篡改区域周围的细微边界伪影，而底部的噪声敏感分支（NSB）旨在捕捉篡改区域与真实区域之间的不一致性。这两个线索都是语义无关的。03.1.1 边缘监督分支0理想情况下，通过边缘监督，我们希望网络的响应区域更集中在篡改区域上。设计这样一个边缘监督网络是非常困难的。正如第2节所述，主要挑战在于如何构建适合边缘检测头的输入。一方面，直接使用来自最后一个ResNet块的特征是有问题的，因为这将强制深层特征捕捉低级边缘模式，从而影响到篡改分割的主要任务。另一方面，使用来自初始块的特征也是有问题的，因为这些浅层特征中包含的细微边缘模式在多次深度卷积后很容易消失。因此，必须联合使用浅层和深层特征。然而，我们认为之前在[29]中使用的简单特征串联是次优的，因为特征被混合在一起，无法保证深层特征能够充分受到边缘头的监督。为了克服这个挑战，我们提出以浅层到深层的方式构建边缘头的输入。如图2所示，不同ResNet块的特征以渐进的方式进行组合，用于篡改边缘检测。为了增强与边缘相关的模式，我们引入了Sobel层，如图3(a)所示。来自第i个块的特征首先经过Sobel层，然后经过一个边缘残差块（ERB），如图3(b)所示，然后与下一个块的对应特征进行组合（通过求和）。为了防止累积效应，组合特征在下一轮特征组合之前经过另一个ERB（图2中的顶部）。我们相信这样的机制有助于防止深层特征过度受到边缘头的监督或完全被忽略。通过在图4中可视化最后一个ResNet块的特征图，我们观察到所提出的ESB确实在篡改区域附近产生了更集中的响应。ESB的输出有两部分：来自最后一个ResNet块的特征图，表示为{f esb, 1,...,fesb,k}，用于主要任务，以及通过将最后一个ERB的输出经过sigmoid（σ）层进行转换得到的预测的篡改边缘图，表示为{G edge(xi)}。0(a) Sobel层0（b）边缘残差块（ERB）0图3.ESB中使用的（a）Sobel层和（b）边缘残差块的示意图，用于篡改边缘检测。0图4.最后一个ResNet块的平均特征图的可视化，较亮的颜色表示更高的响应。从上到下的篡改是修复、复制移动和拼接。从第三列开始是w/oedge，即没有任何边缘残差块的ResNet，GSR-Net，即带有类似GSR-Net的边缘分支的ResNet，以及提出的ESB，它在篡改区域附近产生了更集中的响应。0该分支的数据流通过方程2在概念上表示为0[fesb,1,...,fesb,k]{Gedge(xi)}0� ← ERB-ResNet(x)。03.1.2 噪声敏感分支0为了充分利用噪声视图，我们在ESB旁边建立了一个噪声敏感分支（NSB）。NSB被实现为一个标准的FCN（其骨干网络是另一个ResNet-50）。关于噪声提取的选择，我们采用了BayarConv[2]，发现它比SRM更好141890滤波器[27]。该分支的输出是来自其骨干网络最后一个ResNet块的 k 个特征图的数组，即0{fnsb,1,...,fnsb,k} ← ResNet(BayarConv(x))。03.1.3 双重注意力的分支融合0给定来自ESB和NSB的两个特征图数组 {fesb,1,...,fesb,k} 和{fnsb,1,...,fnsb,k}，我们提出使用可训练的双重注意力（DA）模块[10]将它们融合。这是新的，因为之前的工作[30]使用双线性池化进行特征融合，这是不可训练的。DA模块有两个并行工作的注意力机制：通道注意力（CA）和位置注意力（PA），参见图5。CA将通道特征与相互依赖的通道特征图进行选择性强调。同时，PA通过对所有位置的特征进行加权求和，选择性地更新每个位置的特征。CA和PA的输出相加，并转换为大小为 W的特征图016，表示为 {G'(xi)}，通过一个 1×1卷积进行转换。通过无参数双线性上采样，然后经过逐元素的sigmoid函数，{G'(xi)} 被转换为最终的分割图{G(xi)}。双重注意力融合在概念上表示为 �{G'(xi)}←DA([fesb,1,...,fesb,k,fnsb,1,...,fnsb,k])，{G(xi)}←σ(bilinear-upsampling({G'(xi)}))。0图5.双重注意力，其中蓝色表示通道注意力模块，绿色表示位置注意力模块。03.2. 多尺度监督0我们考虑三个尺度上的损失，每个尺度都有自己的目标，即用于改善模型对像素级篡改检测的像素尺度损失，用于学习语义无关特征的边缘损失，以及用于改善模型对图像级篡改检测的图像尺度损失。像素尺度损失。由于篡改像素在给定图像中通常是少数，我们使用Dice损失，发现它0对于从极度不平衡的数据中学习非常有效 [24]：0loss seg(x) = 1 - 2 ∙ �W × Hi=1 G(xi) ∙ yi�W × Hi=1G2(xi) + �W × Hi=1 y2i，(5)0其中 y i ∈ {0, 1} 是一个二进制标签，表示第 i个像素是否被篡改。边缘损失。由于边缘像素被非边缘像素所压倒，我们再次使用Dice损失进行篡改边缘检测，表示为 lossedg。由于篡改边缘检测是一个辅助任务，我们不会在完整的 W × H 大小上计算 lossedg。相反，损失在较小的 W 大小上计算04，见图2。这种策略在训练过程中减少了计算成本，同时稍微提高了性能。图像尺度损失。为了减少误报，训练阶段必须考虑真实图像。然而，对于当前的工作[16, 21, 26,29]来说，这是非常困难的，因为它们都依赖于分割损失。以广泛使用的二元交叉熵（BCE）损失为例。一个有一小部分像素被错误分类的真实图像对BCE损失的贡献微不足道，这使得有效减少误报变得困难。还要注意的是，Dice损失在定义上无法处理真实图像。因此，需要一种图像尺度的损失。我们采用图像尺度的BCE损失：0loss clf(x) = -(y ∙ log G(x) + (1 - y) ∙ log(1 - G(x))) (6)0其中y =max({yi})。组合损失。我们使用三个损失的凸组合：0损失 = α ∙ loss seg + β ∙ loss clf + (1 - α - β) ∙ loss edg (7)0其中α，β∈(0, 1)是权重。注意，真实图像仅用于计算lossclf。04. 实验04.1. 实验设置0数据集。为了与最先进的方法进行直接比较，我们采用CASIAv2进行训练，COVER、Columbia、NIST16和CASIAv1进行测试。同时，我们注意到最近发布的大规模数据集DEFACTO，其中包含从MS-COCO中采样的149k张图像，并通过复制-移动、拼接和修复进行自动操作。考虑到DEFACTO的挑战性质，我们选择在这个新数据集上进行消融研究。由于该数据集没有真实图像，我们构建了一个名为DEFACTO-84k的训练集，从DEFACTO中随机采样了64k个正样本和来自MS-COCO的20k个负样本。以类似的方式，我们构建了一个名为DEFACTO-12k的测试集，从中随机采样了6k个正样本。4.2. Ablation Studybranch fusion. So for a fair comparison, we adopt FCN-16 with DA, making it essentially an implementation ofDANet [10]. The improved FCN-16 scores better than itsstandard counterpart, e.g. UNet [20], DeepLabv3 [5] andDeepLabv3+ [6], see the supplement.This competitivebaseline is referred to as Seg in Table 3.Inﬂuence of the image classiﬁcation loss. ComparingSeg+Clf and Seg, we see a clear increase in speciﬁcity anda clear drop in sensitivity, suggesting that adding lossclfmakes the model more conservative for reporting manipu-lation. This change is not only conﬁrmed by lower pixel-level performance, but is also observed in the fourth col-umn of Fig. 6, showing that manipulated areas predicted bySeg+Clf are much reduced.141900DEFACTO的其余部分和来自MS-COCO的6k个负样本。注意，为了避免任何数据泄漏，用于训练（测试）的操作图像的源图像不包含在测试（训练）集中。总共，我们的实验使用了两个训练集和五个测试集，见表2。0数据集负样本正样本 cpmv spli inpa0训练集DEFACTO-84k [19] 20,000 64,417 12,777 34,133 17,5070CASIAv2 [8] 7,491 5,063 3,235 1,828 00测试集COVER [25] 100 100 100 0 00Columbia [13] 183 180 0 180 00NIST16 [12] 0 564 68 288 2080CASIAv1 [7] 800 920 459 461 00DEFACTO-12k [19] 6,000 6,000 2,000 2,000 2,0000表2.我们实验中的两个训练集和五个测试集。DEFACTO-84k和DEFACTO-12k用于消融研究（第4.2节），而对于SOTA比较（第4.3节），我们在CASIAv2上进行训练，并在所有测试集上进行评估。0评估标准。对于像素级别的操作检测，我们计算像素级别的精确度和召回率，并报告它们的F1值，参考之前的研究[21,29,30]。对于图像级别的操作检测，为了衡量漏检率和误报率，我们报告敏感度、特异度和它们的F1值。作为一种无阈值的决策指标，我们也报告AUC值。仅使用测试集中的真实图像进行图像级别评估。对于像素级别和图像级别F1值的计算，除非另有说明，默认阈值为0.5。综合性能通过Com-F1来衡量，定义为像素级别和图像级别F1值的调和平均值。Com-F1对于像素级别F1值和图像级别F1值的最低值非常敏感。特别地，当像素级别F1值或图像级别F1值为0时，Com-F1得分为0，而算术平均值则不满足这一条件。实现。MVSS-Net使用PyTorch实现，并在NVIDIA Tesla V100GPU上进行训练。输入大小为512×512。ESB和NSB中使用的两个ResNet-50模型初始化为在ImageNet上预训练的模型。我们使用Adam[15]优化器，学习率从10^-4逐渐衰减到10^-7。根据在DEFACTO的验证集上的模型性能，将组合损失中的两个权重设置为α=0.16和β=0.04。我们对训练进行了常规的数据增强，包括翻转、模糊、压缩和简单的操作，如裁剪和粘贴一个正方形区域，或使用内置的OpenCV修复函数[3, 22]。0为了揭示各个组件的影响，我们逐步评估了所提出模型在不同设置下的性能。我们从没有多视角多尺度监督的FCN-16开始。回想一下，我们使用了一个DA模块进行分支融合。因此，为了公平比较，我们采用带有DA的FCN-16，使其本质上成为DANet的实现[10]。改进的FCN-16比其标准对应物（如UNet[20]、DeepLabv3[5]和DeepLabv3+[6]）得分更高，详见补充材料。这个竞争基线被称为Seg。影响图像分类损失。将Seg+Clf与Seg进行比较，我们可以看到特异性明显增加，敏感性明显下降，表明添加损失clf使模型更加保守地报告操作。这种变化不仅在像素级性能上得到了证实，而且在图6的第四列中也观察到，Seg+Clf预测的操作区域大大减少。0图6.MVSS-Net在不同设置下的像素级操作检测结果。最后一行的测试图像是真实的。0NSB的影响。由于Seg+Clf+N是通过将NSB添加到Seg+Clf中得到的，其更好的性能验证了NSB在提高操作检测的像素级和图像级方面的有效性。ESB的影响。0Seg+Clf+E 对比 Seg+Clf证明了ESB的有效性。从Seg+Clf+E中去除Sobel操作得到Seg+Clf+E/s，因此其性能退化，特别是在复制-移动检测方面（从0.405降至0.382，表3中的cmpv），表明了这个操作的必要性。ESB与GSR-Net的对比。用GSR-Net的边缘分支替换我们的ESB得到Seg+Clf+G。Seg+Clf+G的整体性能低于Seg+Clf+E。此外，在复制-移动检测方面有更大的性能差距（ESB为0.405，GSR-Net为0.363）。结果清楚地证明了所提出的ESB优于现有技术。两个分支融合的影响。通过双重注意力将ESB和NSB融合的完整设置表现最佳。3https://github.com/ISICV/ManTraNet4https://github.com/HuizhouLi/Constrained-R-CNN5https://github.com/pengzhou1108/GSRNet141910设置组件像素级操作检测（F1）图像级操作检测 Com-F1损失 ESB NSB cpmv. spli. inpa. 平均AUC 敏感性特异性 F10Seg - - - 0.453 0.722 0.463 0.546 0.840 0.827 0.620 0.709 0.6170Seg+Clf + - - 0.341 0.673 0.376 0.463 0.858 0.768 0.778 0.773 0.5790Seg+Clf+N + - + 0.393 0.706 0.426 0.508 0.871 0.763 0.821 0.791 0.6190Seg+Clf+E + + - 0.405 0.715 0.435 0.518 0.870 0.773 0.811 0.792 0.6260Seg+Clf+E/s + 无sobel - 0.382 0.710 0.422 0.505 0.869 0.792 0.789 0.790 0.6160Seg+Clf+G + GSR-Net - 0.363 0.714 0.421 0.499 0.864 0.813 0.779 0.796 0.6130完整设置 + + + 0.446 0.714 0.455 0.538 0.886 0.797 0.802 0.799 0.6430Ensemble(N, E) + + + 0.384 0.708 0.437 0.510 0.878 0.731 0.876 0.797 0.6220表3.MVSS-Net的消融研究。训练：DEFACTO-84k。测试：DEFACTO-12k。复制-移动、拼接和修复分别缩写为cmpv、spli和inpa。每列最佳数字以粗体显示。完整设置的最佳性能证明了MVSS-Net中使用的各个组件的必要性。0显示了各个组件的互补性。为了进一步证明我们基于双重注意力的融合的必要性，我们采用模型平均的方式将Seg+Clf+N和Seg+Clf+E集成起来，称为Ensemble(N,E)。完整设置优于Ensemble(N,E)，显示了我们融合方法的优势1。图6展示了一些定性结果。从左到右，结果展示了MVSS-Net在敏感性和特异性之间取得了良好的平衡。请注意，FCN的最佳像素级性能是因为训练集和测试集是同源的。接下来，我们评估FCN和MVSS-Net的泛化能力。04.3. 与最先进方法的比较0基线。为了公平和可重复的比较，我们必须选择满足以下三个条件之一的最先进方法：1）论文作者发布的预训练模型，2）公开可用的源代码，或者3）遵循一个公共的评估协议，其中CASIAv2用于训练，其他公共数据集用于测试。因此，我们编制了以下六个已发表的基线列表：•可用的模型：HP-FCN [ 16]，在一个私有的修复图像集上进行训练2，ManTra-Net [26]，在一个包含数百万张篡改图像的私有数据集上进行训练3，以及CR-CNN [ 27]，在CASIAv2上进行训练4。我们直接使用这些模型。•可用的代码：GSR-Net [ 29]，我们使用作者提供的代码进行训练5。我们在适当的地方引用他们的结果，并仅在必要时使用我们重新训练的模型。• 相同的评估协议：MFCN [ 21 ]，RGB-N [ 30]，引用了同一团队的数据[ 29]。我们从头开始重新训练FCN ( Seg )和MVSS-Net ( fullsetup )在CASIAv2上。01 与双线性池化融合的比较见补充材料。2https://github.com/lihaod/Deep_inpainting_ localization0(a) 对JPEG压缩的性能曲线0(b) 对高斯模糊的性能曲线0Figure 7. 对CASIAv1上的JPEG压缩和高斯模糊进行鲁棒性评估。0像素级篡改检测。不同模型的性能见表4。MVSS-Net在整体性能方面表现最好。我们将ManTra-Net在DEFACTO-12k上的明显更好的性能归因于其大规模的训练数据，这些数据也来自于DEFACTO-12k的MS-COCO。由于MVSS-Net是从FCN派生而来的，它在这种跨数据集的设置中表现出更好的泛化能力。由于HP-FCN专门设计用于修复检测，我们将比较范围缩小到在NIST16和DEFACTO-12k中检测修复子集。同样，MVSS-Net在NIST16上的性能优于HP-FCN：0.565对0.284，在DEFACTO-12k上的性能优于HP-FCN：0.391对0.106。MethodOptimal threshold per model & testsetFixed threshold (0.5)NIST Columbia CASIAv1 COVER DEFACTO-12k MEAN NIST Columbia CASIAv1 COVER DEFACTO-12k MEANMFCN [21]0.4220.6120.541n.a.n.a.n.a.n.a.n.a.n.a.n.a.n.a.n.aRGB-N [30]n.a.n.a.0.4080.379n.a.n.a.n.a.n.a.n.a.n.a.n.a.n.aHP-FCN [16]0.3600.4710.2140.1990.1360.276 0.1210.0670.1540.0030.0550.080ManTra-Net [26] 0.4550.7090.6920.7720.6180.649 0.0000.3640.1550.2860.1550.192CR-CNN [27]0.4280.7040.6620.4700.3400.521 0.2380.4360.4050.2910.1320.300GSR-Net [29]0.4560.6220.5740.4890.3790.504 0.2830.6130.3870.2850.0510.324FCN0.5070.5860.7420.5730.4010.562 0.1670.2230.4410.1990.1300.232MVSS-Net0.7370.7030.7530.8240.5720.718 0.2920.6380.4520.4530.1370.394MethodColumbiaCASIAv1COVERDEFACTO-12kAUCSen.Spe.F1AUCSen.Spe.F1AUCSen.Spe.F1AUCSen.Spe.F1ManrTra-Net [26]0.701 1.000 0.000 0.0000.141 1.000 0.000 0.0000.491 1.000 0.000 0.0000.543 1.000 0.000 0.000CR-CNN [27]0.783 0.961 0.246 0.3920.766 0.930 0.224 0.3610.566 0.967 0.070 0.1310.567 0.774 0.267 0.397GSR-Net [29]0.502 1.000 0.011 0.0220.502 0.994 0.011 0.0220.515 1.000 0.000 0.0000.456 0.914 0.001 0.002FCN0.762 0.950 0.322 0.4810.796 0.717 0.844 0.7750.541 0.900 0.100 0.1800.551 0.711 0.338 0.458MVSS-Net0.980 0.669 1.000 0.8020.839 0.615 0.969 0.7520.731 0.940 0.140 0.2440.573 0.817 0.268 0.404FCN0.3050.5620.1890.203MVSS-Net0.7110.5650.3170.205141920Table 4. 像素级篡改检测性能。每个测试集中的最佳结果以粗体显示。所有模型都是在CASIAv2上训练的，除了ManTra-Net和HP-FCN。0表5. 哥伦比亚，CASIAv1，封面和DEFACTO-12k上图像级篡改检测的性能。Sen.：敏感性。Spe.：特异性。不包括没有真实图像的NIST16。所有模型都使用默认的决策阈值0.5。0方法哥伦比亚CASIAv1封面DEFACTO-12k0ManrTra-Net [26] 0.000 0.000 0.000 0.000 CR-CNN [27] 0.4130.382 0.181 0.198 GSR-Net [29] 0.042 0.042 0.000 0.0040表6. 四个测试集上像素级F1和图像级F1的调和平均值Com-F1。0图像级别的篡改检测。表5显示了不同模型的性能，所有模型都使用默认的决策阈值0.5。MVSS-Net再次成为最佳表现者。由于能够从真实图像中学习，MVSS-Net在大多数测试集上获得了更高的特异性（因此误报率更低）。我们的模型还具有最佳的AUC分数，这意味着在广泛的操作点上优于基线模型。表6提供了像素级和图像级篡改检测的整体性能。鲁棒性评估。在CASIAv1上分别应用了JPEG压缩和高斯模糊。ManTra-Net使用了各种数据增强技术，包括压缩，而CR-CNN和GSR-Net没有使用这种数据增强技术。因此，为了进行更公平的比较，我们还训练了不包括压缩和模糊的MVSS-Net，表示为MVSS-Net（w/oaug）。图7中的性能曲线显示了MVSS-Net和MVSS-Net（w/oaug）的更好鲁棒性。效率测试。我们以每秒帧数（FPS）来衡量推理效率。在NVIDIA Tesla上进行测试。0V100GPU，CR-CNN，ManTra-Net和GSR-Net的FPS分别为3.1、2.8和31.7。MVSS-Net的FPS为20.1，足够实时应用。05. 结论0我们在五个基准数据集上进行的图像篡改检测实验使我们得出以下结论。对于学习语义不可知特征，噪声和边缘信息都是有帮助的，但当单独使用时，边缘信息更好。对于利用边缘信息，我们提出的边缘监督分支（ESB）比先前使用的特征串联更有效。ESB使网络更加集中在篡改区域上。关于篡改检测的特异性，我们经验证明现有技术在特异性方面表现不佳。图像分类损失的引入提高了特异性，但对于像素级篡改检测来说，性能明显下降。多视图特征学习必须与多尺度监督一起使用。结果得到的MVSS-Net是图像篡改检测的新的最先进技术。0致谢。本研究得到了国家自然科学基金委员会（U1703261）、北京市自然科学基金（4202033）、中央高校基本科研业务费专项资金和中国人民大学研究基金（No.18XNLG19）以及中国人民大学公共计算云的支持。本研究最初受阿里巴巴安全提供的“安全AI挑战赛：证书图像伪造检测”启发。2, 5, 6141930参考文献0[1] J. Bappy, A. Roy-Chowdhury, J. Bunk, L. Nataraj, and B.Manjunath. Exploiting spatial structure for localizingmanipulated image regions. In ICCV, 2017. 1, 30[2] B. Bayar and M. Stamm. Constrained convolutional neuralnetworks: A new approach towards general purpose imagemanipulation detection. IEEE Transactions on InformationForensics and Security, 13(11):2691–2706, 2018. 2, 3, 40[3] M. Bertalmio, A. Bertozzi, and G. Sapiro. Navier-stokes,fluid dynamics, and image and video inpainting. In CPVR,2001. 60[4] L. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A.Yuille.DeepLab：使用深度卷积网络、空

下载后可阅读完整内容，剩余1页未读，立即下载