自适应神经网络用于图像取证中无监督的马赛克一致性分析

13 浏览量更新于2023-10-24 收藏 14.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Quentin BammeyRafael Grompone von GioiJean-Michel MorelCMLA, CNRS, ENS Paris-Saclay, Universit´e Paris-Saclay{quentin.bammey, grompone, morel}@ens-paris-saclay.fr1https://en.wikipedia.org/wiki/List_of_scientific_misconduct_incidents1141940一种自适应神经网络用于图像取证中无监督的马赛克一致性分析0摘要0通过拼接，修补或复制移动自动查找潜在伪造图像中的可疑区域仍然是一个广泛开放的问题。在基准数据上训练的盲检测神经网络正在蓬勃发展。然而，这些方法不提供其检测的解释。更传统的方法尝试通过指出图像噪声，JPEG压缩，色差或马赛克中的局部不一致性来提供这样的证据。在本文中，我们开发了一种盲方法，可以直接在未标记和潜在伪造的图像上进行训练，以指出局部马赛克不一致性。为此，我们设计了一个受到去马赛克算法启发的CNN结构，并通过它在图像块的位置上进行分类，该位置在图像模数（2×2）上。使用各种去马赛克方法创建一个多样化的基准数据库，我们探索了该方法的效率及其快速适应任何新数据的能力。01. 引言0检测图像伪造是一个具有关键应用的问题，范围从在线媒体和社交网络中控制假新闻[59]到避免涉及图像处理的科学不端行为[1]。图像很容易以视觉逼真的方式进行修改，但这些修改很难自动检测到。最常见的图像伪造技术是复制移动，包括内部和外部（拼接），修补和增强，可能包括对图像的色调，对比度，亮度等进行修改，以隐藏对象或改变其含义[22,75]。创建和分发这些图像的设置可能进一步改变图像并阻碍某些检测方法。例如，未压缩图像具有特征的去马赛克和噪声签名，这些特征几乎被弱化了0强压缩。另一方面，篡改的JPEG图像的检测可能基于拼接引起的JPEG编码的不一致性[56, 33, 21, 43, 6, 7,42]。然而，这种检测方法非常高效，对反取证的研究非常活跃，并提出了在伪造后重新恢复一致的JPEG编码的有效方法[62, 63, 66,20]。关于伪造检测技术有两种并行的范式。第一种方式是开发许多不同的方法，分别解决由这些伪造产生的各种伪造和不一致性。误差级别分析（ELA）[34]属于这一类别，并通过重新压缩图像并可视化差异来创建热图。正如我们刚才提到的，许多方法寻找JPEG编码中的不一致性；许多其他方法尝试检测噪声差异[36, 58, 14, 27, 48, 49, 5, 51, 48, 49,5, 51, 41, 67, 35, 16, 54, 47, 44, 76,73]，或者试图直接检测内部复制移动操作[68, 71, 70, 61,1,23]。伪造前后设置的多样性使得穷举变得困难，然而这些特定方法得到的结果是不言自明的。然而，除了最近发展的Siamese网络等少数例外，大多数这些方法都是手动创建的，这可能限制了它们的性能，特别是当伪造图像是通过多种方法而不仅仅是一种移动创建时。另一种可能性是将伪造检测视为一个独特的学习问题，并开发一个结构 -通常是一个神经网络 -来独立地对伪造进行分类和/或定位，而不考虑设置和伪造类型。例如，在[74]中计算了一个热图，在[3]中，网络将图像分割为伪造和非伪造部分。还可以参考[10]和[4]。虽然这些方法在理论上可以实现穷举，但实际上受到数据库本身的限制：它们学习如何检测在训练数据库中看到的伪造，因此当面对以不同方式制作伪造的图像时可能会失败。在本文中，我们选择专注于检测去马赛克伪影以检测图像上的伪造区域。大多数相机无法直接捕捉颜色。为了141950图1：拜耳矩阵是最常用的CFA。每个像素表示相机采样的颜色。0相机在创建彩色图像时，不是直接使用彩色传感器，而是在光线到达相机传感器之前使用一种名为彩色滤光阵列（CFA）或马赛克的滤光器。因此，每个像素只采样一种颜色，其他颜色必须从采样其他颜色的相邻像素进行插值。这些插值算法会留下可以检测到的伪影，以了解每个像素采样的颜色。最常用的CFA是拜耳矩阵，如图1所示，它对绿色像素采样两个像素，对红色和蓝色像素分别采样一个像素。虽然还有其他CFA存在，但它们的使用非常少。因此，我们在本文中只考虑拜耳矩阵。当通过将该图像的一部分或另一幅图像的一部分复制到该图像上来伪造图像时，伪造区域的马赛克与主图像的马赛克可能不对齐，导致在图像中局部检测马赛克的位置可以发现由伪造引起的不一致性。虽然使用当前最先进的方法可以可靠地检测到去马赛克的存在，但对这些伪影的解释仍然是一个挑战。大多数方法假设插值是线性的，甚至假设颜色通道是独立去马赛克的。这些假设对于大多数常用的去马赛克方法都是无效的，因此即使是最先进的马赛克检测算法也往往会产生大量的误报。此外，存在许多不同的去马赛克算法，而且商用相机中使用的大多数算法都是未公开的。因此，基于学习的方法必须考虑到不可能对所有现有算法进行学习。在本文中，我们通过使用无监督的卷积神经网络来检测马赛克伪影的潜在模式变化，克服了上述限制。该网络可以在未标记的真实图像上进行训练，以检测新图像中的伪造。类似于零样本学习，它还可以直接在潜在伪造图像的数据库上进行训练，以适应JPEG压缩。本文的贡献有三个方面。我们创建了一个新的卷积神经网络（CNN）结构，专门用于马赛克伪影检测，并且超过了最先进的马赛克检测方法。它可以04存在一个问题，即伪造区域的马赛克可能与主图像的马赛克不对齐。因此，在图像中局部检测马赛克的位置可以发现由伪造引起的不一致性。虽然使用当前最先进的方法可以可靠地检测到去马赛克的存在，但对这些伪影的解释仍然是一个挑战。大多数方法假设插值是线性的，甚至假设颜色通道是独立去马赛克的。这些假设对于大多数常用的去马赛克方法都是无效的，因此即使是最先进的马赛克检测算法也往往会产生大量的误报。此外，存在许多不同的去马赛克算法，而且商用相机中使用的大多数算法都是未公开的。因此，基于学习的方法必须考虑到不可能对所有现有算法进行学习。在本文中，我们通过使用无监督的卷积神经网络来检测马赛克伪影的潜在模式变化，克服了上述限制。该网络可以在未标记的真实图像上进行训练，以检测新图像中的伪造。类似于零样本学习，它还可以直接在潜在伪造图像的数据库上进行训练，以适应JPEG压缩。本文的贡献有三个方面。我们创建了一个新的卷积神经网络（CNN）结构，专门用于马赛克伪影检测，并且超过了最先进的马赛克检测方法。它可以0可以完全无监督地进行训练，甚至可以直接在一组图像上进行重新训练，以适应其特定条件。为此，我们提出了一种新的方法，即在神经网络中使用像素卷积。它们在文献中的主要用途是在执行更重的空间操作之前，减少网络的维度，例如在[64]中。我们认为它们也可以堆叠在一起，以处理先前计算的空间特征之间的因果关系，因为它们可以具有更多和更大的层，而与空间卷积相比，它们不会增加任何更多的空间依赖性。最后，我们使用德累斯顿图像数据集[28]创建了一个新的数据集，专门用于基于去马赛克伪影的伪造检测的基准测试。代码和数据集都可以在以下链接找到：0https://github.com/qbammey/adaptive cfa forensics .02. 相关工作0检测去马赛克伪影以进行伪造检测并不是一个新的课题。[57]提供了该领域的一篇开创性论文。他们提出独立地处理不同的颜色通道，并使用期望最大化（EM）算法来联合计算去马赛克算法的线性估计，并找到每个像素被插值或原始采样的概率。然后，他们对伪概率图应用快速傅里叶变换（FFT）来检测幅度和相位在2周期性峰值处的变化，这些变化可以对应于CFA伪影的变化。[29，2]改进了[57]，将EM算法替换为所有四个可能位置的直接线性估计。[29]使用离散余弦变换（DCT）代替FFT，以便看到马赛克的变化，这可以对应于复制移动伪造，因为DCT的符号变化比FFT的相位变化更容易观察。[2]指出，在需要使用许多不同的方法来检测各种伪造的情况下，严格控制每种方法的误报数量尤为重要。他们提出了一种简单的方法来检测显著CFA模式的存在，通过将误差图分块汇总，每个块为四个网格之一投票。在没有去马赛克的情况下，投票应在四个网格之间均匀分布。因此，他们观察每个位置的投票数，并根据在没有去马赛克的情况下至少发生一次与之相当显著的检测的速率对检测进行阈值处理。这三种方法都有两个强假设：0• 他们假设每个颜色通道的解码是独立进行的，和0• 他们假设线性估计足以表示解码算法。3. Proposed methodA standard approach to ﬁnding copy-move forgeriesthrough demosaicing artefacts would be to ﬁrst detect theimage’s initial mosaic, and then detect if parts of the imageactually have a different mosaic. Our manual attempts todetect the original mosaic were not successful. Indeed, cri-141960尽管这两个假设在2005年常用的大多数解码算法中的绿色通道中可能至少部分成立，但现在情况远非如此。另一种重要的方法由[40]提供。他们建议直接检测图像中使用的马赛克，并为此将图像在所有四个可能的位置上进行马赛克处理，并使用诸如双线性插值之类的简单算法对其进行重新解码。他们的推理是，当在正确的位置进行重新马赛克处理和解码时，解码应该产生一幅更接近原始图像的图像。因此，他们通过比较残差图来检测使用了哪种可能的马赛克。他们声称解码伪影通常在绿色通道中更清晰可见，因此他们首先确定绿色采样像素的位置。然后，他们使用红色和蓝色通道中最显著的通道来确定剩余的位置。自那时以来，这种决策顺序已经在大多数文献中使用。他们对双线性算法的使用限制了他们的方法，就像[57，29]一样，因为双线性算法的线性性和颜色独立性并不是大多数现代解码算法所共有的。然而，他们的方法不依赖于算法的选择，因此在已知研究图像的解码算法的罕见情况下，他们可以提供非常好的结果。为了摆脱特定算法，[11]指出像素更有可能在其采样通道中具有局部极值，并且在插值时取中间值。因此，他们计算所有四个位置的中间值的数量，以决定正确的位置，使用了[40]中引入的决策流程。像素更有可能在其采样通道中取极值的假设通常可以通过大多数算法进行验证，这导致该方法产生良好的分类分数。然而，当算法广泛使用其他通道的高频率时，概率偏差有时可能会反转，这可能导致图像的某些区域在错误的位置上以很高的置信度被检测到。[60]是第一种试图减轻颜色通道独立性假设的方法。他们不是在每个通道中单独工作，而是分别计算绿色通道与红色和蓝色通道的差异。通过使用这些差异的方差，他们使用与上述类似的流程来确定正确的位置。尽管颜色独立性是硬编码的，但颜色差异在许多当前算法中被使用。因此，使用这个而不是原始通道是正确理解解码伪影的第一步。据我们所知，[45]是目前唯一一种提供使用神经网络进行马赛克检测的方法。他们注意到大多数伪造检测方法首先计算残差误差图，如[40]中所示，或类似的特征图，如[57，29，11，60]中所示，然后对其进行解释，例如使用[57]中的FFT。他们首先基于绿色通道计算误差图，然后使用CNN解释误差图，并区分伪造和后处理步骤，如JPEG压缩。然而，区分解码伪影和JPEG或重采样伪影已经可以使用简单的方法，如[57]的FFT或[2]的逆否方法来看到。在大多数当前方法中，特征图中不可区分的错误的第一个来源不是来自应用于图像的后处理（这可能会阻碍CFA检测而不会在手动方法中可见地创建错误检测），而是来自检测方法与图像的解码之间的不匹配。因此，我们认为CFA检测方法在特征图的计算中使用神经网络比在其解释中更有益。他们声称具有高准确性的结果。不幸的是，他们的测试是在德累斯顿数据库[28]的原始图像上进行的，他们自己对其进行了解码，但没有指明使用了哪种算法，并且没有提供代码来验证结果。神经网络也以Siamese网络的形式在图像取证中变得流行[8]。这些网络的目标是比较两个样本。两个样本的特征都经过一个具有共享权重的第一个网络处理，然后将第二个网络应用于两个样本之间的残差，以确定它们的相似性。这种方法已经成功应用于取证的几个领域，包括相机源检测[50]和预测两个补丁共享相同EXIF数据的概率[32]以进行拼接检测。虽然我们可以使用Siamese网络来比较不同补丁的CFA模式，但是当分类复杂时，Siamese网络特别强大-例如由于高数量的类别，其中一些可能不存在于训练数据中-在这种情况下，直接比较补丁而不需要显式分类可能更实用。另一方面，图像的马赛克属于四个类别之一。这意味着Siamese网络不一定对CFA网格检测提供优势，我们可能可以直接使用一个分类网络，这样更简单，因为我们不需要比较所有补丁对。0他们注意到大多数伪造检测方法首先计算残差误差图，如[40]中所示，或类似的特征图，如[57，29，11，60]中所示，然后对其进行解释，例如使用[57]中的FFT。他们首先基于绿色通道计算误差图，然后使用CNN解释误差图，并区分伪造和后处理步骤，如JPEG压缩。然而，区分解码伪影和JPEG或重采样伪影已经可以使用简单的方法，如[57]的FFT或[2]的逆否方法来看到。在大多数当前方法中，特征图中不可区分的错误的第一个来源不是来自应用于图像的后处理（这可能会阻碍CFA检测而不会在手动方法中可见地创建错误检测），而是来自检测方法与图像的解码之间的不匹配。因此，我们认为CFA检测方法在特征图的计算中使用神经网络比在其解释中更有益。他们声称具有高准确性的结果。不幸的是，他们的测试是在德累斯顿数据库[28]的原始图像上进行的，他们自己对其进行了解码，但没有指明使用了哪种算法，并且没有提供代码来验证结果。神经网络也以Siamese网络的形式在图像取证中变得流行[8]。这些网络的目标是比较两个样本。两个样本的特征都经过一个具有共享权重的第一个网络处理，然后将第二个网络应用于两个样本之间的残差，以确定它们的相似性。这种方法已经成功应用于取证的几个领域，包括相机源检测[50]和预测两个补丁共享相同EXIF数据的概率[32]以进行拼接检测。虽然我们可以使用Siamese网络来比较不同补丁的CFA模式，但是当分类复杂时，Siamese网络特别强大-例如由于高数量的类别，其中一些可能不存在于训练数据中-在这种情况下，直接比较补丁而不需要显式分类可能更实用。另一方面，图像的马赛克属于四个类别之一。这意味着Siamese网络不一定对CFA网格检测提供优势，我们可能可以直接使用一个分类网络，这样更简单，因为我们不需要比较所有补丁对。teria to do this heavily depend on the demosaicing method.Instead, we designed a convolutional neural network (CNN)to train on blocks of the image and directly predict their po-sition in the image modulo (2, 2). The only cue to this rela-tive position are the periodic artefacts, such as CFA, resam-pling and JPEG artefacts. Hence, a change of the mosaiccan lead to forged blocks being detected at incorrect posi-tions modulo (2,2) and thus ﬂagged as forged. Because thetarget output is only the relative position of blocks on theimage, all that is required to train the network is a set ofdemosaiced images, without additional labels.In a standard unsupervised scenario, the CNN can betrained with many authentic images and then used on newimages to detect forgeries on them. However, if we haveto detect forgeries on a large database, and if we can as-sume that the images in the database are similar in terms ofdemosaicing and post-processing – and in particular JPEGcompression –, then we can retrain the CNN, performingunsupervised transfer learning directly on the test data. Asthe forged regions generally occupy a small part of the im-ages, and only a small proportion of the images under studyare forged, the risk that the CNN will overﬁt on the forgedregions will be small.The network consists of several parts, all of which serv-ing different purposes. It only uses 31,504 trainable param-eters. In the initial training phase, overﬁtting can occur bothon the image contents and on the speciﬁc algorithms usedfor demosaicing. Although the former can easily be avoidedby using more images for training, avoiding overﬁtting onthe algorithms is harder. The small size of the network thushelps to avoid overﬁtting during training. It is even moreuseful when retraining on the same images to be studied, asoverﬁtting on those images is much harder to avoid, and canmake the network miss forgeries.3.1. Spatial networkThe ﬁrst layers extract spatial features from the images.Due to the nature of demosaicing, we make use of two spe-ciﬁc types of convolutions.Most demosaicing algorithms try to avoid interpolatingagainst a strong gradient [25], which would lead to visualartefacts. As a consequence, they often interpolate in onedirection along edges. To mimic this, the ﬁrst layers per-form 10 horizontal, 10 vertical and 5 full convolutions,which are concatenated at the end of each layer.In a mosaiced image, only one in four pixels is red andone in four is blue. As visualised in Fig. 2, this means that atthe location of a sampled pixel, the closest sampled neigh-bours are all located at 2 pixels distance horizontally and/orvertically of the current position. We can take advantage ofthis by using dilated convolutions, which will only involvepixels belonging to the same mosaic.We ﬁrst use a sequence of two layers of 10 horizontalFigure 2: If we use a 3 × 3 convolution with a dilation of2, the convolution at the central pixel sampled in blue onlyinvolves pixels sampled in the same colour. More generally,a 2-dilated convolution will look at pixels that all belong tothe same colour channel.Input5×10×10×Leaky ReLU, Concatenate10×10×5×10×10×5×Leaky ReLUConcatenate10×10×5×141970泄漏ReLU，连接010×010×05×010×010×010×0泄漏ReLU0连接0空间输出0图3：空间部分的网络，包含17160个可训练参数01×3，10个垂直1×3和5个全3×3卷积。同时，我们进行10个水平、10个垂直和5个全卷积，它们都是2倍扩张的。两部分的输出与输入图像之间通过跳跃连接进行连接。对这个输出应用了类似的序列，包括两层10个水平、10个垂直和5个全卷积，与10个水平、10个垂直和5个2倍扩张的全卷积并行。空间输出是第二个和第四个非扩张卷积的输出以及两个扩张卷积的连接。0该网络的这一部分的所有层都由一个泄漏整流线性单元[46]分隔。该结构的图示如图3所示。3.3. Blocks preparation.(2)141980空间输出030×0Softplus015×0Softplus0连接0连接0Softplus0逐像素输出030×03.2.逐像素因果网络0图4：网络的逐像素（1×1）卷积部分，包含6105个参数03.3. 块准备0总结一下，该网络使用距离每个像素水平和垂直方向上最多四个像素的值（因此感受野为9×9）。我们认为这个空间范围足够。实际上，大多数去马赛克算法在去马赛克给定像素时并不会查看更远的像素。然而，一些算法仍然在不同颜色通道之间进行复杂的转换，特别是在高频率上。因此，我们网络的第二部分由逐像素（1×1）卷积组成，这使我们能够捕捉到复杂的因果关系，而不会增加卷积的空间依赖性。尽管逐像素卷积在文献中经常被使用，但它们的主要用途通常是减少数据的维度。Inception网络[64]在大卷积之前使用逐像素卷积来减少维度。其他网络使用深度可分离卷积，其中标准卷积被一个深度卷积和一个逐像素卷积所替代[12,31]。然而，在我们的网络中，我们不是将它们堆叠起来减少维度，而是在计算完空间特征之后执行复杂的操作。将逐点卷积与彼此连接起来使我们能够以较低的计算成本、较少的参数和不增加空间依赖性的方式表示复杂的关系。该网络的这一部分由四层逐像素（1×1）卷积组成，分别为30、15、15和30个卷积。第一个卷积的输出与第三个和第四个卷积相连接，第二个卷积的输出与第四个卷积相连接。因此，最后一个卷积将考虑到所有先前逐点层的结果，为下一步准备特征。该网络中的所有层都由Softplus激活函数[18]分隔。该结构的图示如图4所示。0虽然相对位置可以在像素级别上检测到，但将像素分组成块可以更可靠地进行预测。然而，必须小心地创建这些块，以避免任何偏差。0逐像素输出0平均池化0块输入0图5：将图像处理成块0给定形状为(2Y, 2X,C)的输入图像I，其中C是通道数（在像素级网络之后为30），2Y和2X表示空间维度，我们首先将该图像分割成四个模（2,2）的位置。因此，我们创建了四个图像I00、I01、I10和I11，每个图像的形状为(Y, X, C)，定义如下：0I δ x δ y [ y, x, c ] = I [2 y + δ y, 2 x + δ x, c ] . (1)0然后，我们以不同的方式将这四个图像连接成四个新图像J00、J01、J10和J11，每个图像的形状为(Y, X,4C)，定义如下：0J δ x δ y [ y, x, 4 c ] = I δ x δ y [ y, x, c ] J δ x δ y [y, x, 4 c + 1] = I (1 − δ x ) δ y [ y, x, c ] J δ x δ y [ y,x, 4 c + 2] = I δ x (1 − δ y ) [ y, x, c ] J δ x δ y [ y, x,4 c + 3] = I (1 − δ x )(1 − δ y ) [ y, x, c ]0这四个图像仅仅是彼此之间的通道排列，这使得网络能够在四个模式之间保持平衡。最后，我们将每个图像分解成块。由于在前面的部分已经计算出了所有空间和像素级特征，我们可以直接将块级分解视为一个大的平均池化，使得每个块由一个像素来表示。因此，我们得到四个输出图像B00、B01、B10和B11，每个图像的形状为(Y016,4C)。每个图像的空间尺寸比原始图像小32×32倍。通过这种排列，检测问题略微改变：Jδxδy中的像素被移动，以便Bδxδy的所有块应该在相同的相对位置模（2,2），δxδy上被检测到。这个过程在图5中解释。03.4. 块级因果网络0因为块是通过平均池化来表示的，所以每个块由一个像素来表示。因此，创建新的逐点卷积层就是在每个块中独立地处理数据，但是使用共享的权重。此外，对于i∈(0, 1, 2,3)，四个值Bδxδy[y, x, 4c +i]表示相同的特征，独立地进行平均。141990块级输入0分组180×0Softplus0分组90×0Softplus0分组90×0Softplus045×0Softplus045×0Softplus04×0块级预测0图6：网络的块级部分，包含8,239个可训练参数0在每个可能的拼接位置上，我们分别堆叠了三层分别为180、90和90的分组像素卷积层，其中每个通道在给定的块-位置上的输出仅使用相同特征在四个拼接位置上的值。最后，我们使用两个额外的层将这些特征合并在一起，每个层都是45个全深度逐点卷积层。与像素级网络一样，这些层之间使用Softplus激活函数进行分隔。块级因果网络的结构如图6所示。03.5. 决策和损失模块0最后一层由四个逐点卷积层组成，用于预测每个位置的得分。在真实图像中，每个图像块都应该能够检测到自己的位置。如果训练多个图像，它们的主要拼接可能不同，我们允许网络在水平、垂直或对角线方向上对四个图像的输出进行排列，以便在计算局部损失之前得到四个全局损失中的最小值。这样可以考虑到不同图像可能具有不同的主要位置的可能性。03.6. 训练的辅助预测0由于空间和像素网络在完整分辨率上使用，而图像的分辨率在块状网络中减小了32×32倍，所以网络的第一部分比其余部分的计算开销更大。为了加快训练速度，我们采用类似于[64]的方法，开始时同时训练空间和像素网络。我们在像素网络的末尾添加了4个逐点卷积层，并使用交叉熵损失训练它，以检测每个像素的位置模(2,2)。一旦网络的第一部分训练完成，我们将删除这个辅助层，并将训练图像的输出处理成块，如3.3节所述。然后，我们使用像素网络的预处理输出来训练块状网络。通过单独训练网络的第一部分，并且更重要的是使用完整分辨率计算的损失，我们可以在更少的迭代次数和更快的速度下进行训练。将图像处理成块，这也需要相当长的时间，只需在两个全局训练步骤之间应用一次即可。最后，块状网络的训练速度非常快，因为每次迭代无需在完整分辨率网络中进行传播，使得每个单独的迭代更快。训练首先在空间网络（图3）和像素网络（图4）上进行，使用上述的辅助层。然后，单独训练块状网络（图6），使用像素网络的结果，如图5所示，处理成块。所有训练都使用交叉熵损失和Adam优化器[39]进行，学习率为10^-3。0我们可以在较少且更快的迭代次数下进行训练。将图像处理成块，这也需要相当长的时间，只需在两个全局训练步骤之间应用一次即可。最后，块状网络的训练速度非常快，因为每次迭代无需在完整分辨率网络中进行传播，使得每个单独的迭代更快。训练首先在空间网络（图3）和像素网络（图4）上进行，使用上述的辅助层。然后，单独训练块状网络（图6），使用像素网络的结果，如图5所示，处理成块。所有训练都使用交叉熵损失和Adam优化器[39]进行，学习率为10^-3。04. 数据集0存在多个用于图像伪造检测的基准数据集，最著名的是Coverage [69]、CoMoFoD [65]、Casia[17]和[13]。然而，这些数据集是为通用的复制移动检测而创建的。它们不允许基于解马赛克的检测。事实上，这些数据集的图像要么没有任何解马赛克的痕迹，要么都是使用相同的算法进行解马赛克。因此，它们对于基于CFA的伪造检测算法的基准测试是无用的。德累斯顿图像数据库[28]提供了16,961张由27台不同相机拍摄的真实图像。其中，有1,491张由三台不同相机（尼康D200、D70和D70s）拍摄的照片以原始RAW格式提供，这使我们能够自行进行解马赛克。使用这些图像，我们创建了一个新的伪造检测数据库，专门用于通过分析CFA解马赛克不一致性来检测伪造。为了创建数据库，我们随机裁剪了这1,491张图像中的每一张，得到更小的648×648像素的图片。我们使用了11种公开可用的解马赛克算法之一对它们进行解马赛克：双线性插值、LMMSE [25]、Hamilton-Adams [30]、RI [37]、MLRI[38]、ARI [52]、GBTF[55]、轮廓模板[26]、自适应通道间相关性[19]、Gunturk[24]和自相似性[9]。然后，我们将得到的图像集分成三等份。其中三分之一的图像保持不变。在第二个三分之一中，我们取其中一半的图像，并将它们用于将另一半进行拼接。每对图像都已经使用相同的算法进行解马赛克。在最后的三分之一中，我们再次取其中一半的图像，并将它们用于伪造另一半的图像。然而，在这个集合中，我们没有强制要求图像对使用相同的算法进行解马赛克。请注意，伪造图像的源图像不是结果数据集的一部分；因此，真实图像和伪造图像的数量相同。至少一半的伪造图像是使用与目标图像相同的算法对源图像进行解马赛克创建的。142000图7：我们数据库中伪造图像的示例。0图8：网络结果。对于每个图像，按照以下顺序：伪造图像，每个4个网格的像素级预测（辅助网络输出），每个4个网格的块级预测（完整网络输出），检测到的伪造块，真实情况。最后一行的两个图像的镶嵌与伪造是对齐的，这解释了为什么我们的方法无法进行检测。0为了伪造一张图像，我们在伪造图像上裁剪了源图像，并将其粘贴到伪造图像上。掩码是由随机贝塞尔曲线围成的区域创建的。它们被强制包含至少一个64×64的正方形块，并且覆盖的面积不超过图像的10%。我们数据库中的伪造图像示例可以在图7中看到。05. 实验0我们使用一个小型数据库的19个图像对网络进行了训练，将其降采样四倍以消除任何解码痕迹。每个图像的大小最多为774×518像素，并通过三种不同的算法进行解码：双线性插值，LMMSE [25]和Hamilton-Adams[30]。我们对网络的第一部分进行了1500次迭代训练，第二部分进行了500次迭代训练。检测示例可以在图8中看到。我们还通过在数据库上直接重新训练预训练网络来将其适应数据库，第一部分网络进行了1000次迭代训练，第二部分进行了500次迭代训练。这种训练是在不知道哪个图像是伪造的还是真实的情况下进行的。我们将结果与中间值镶嵌检测[11]、颜色差异方差[60]以及ManTraNet [72]等进行了比较。0与ManTraNet[72]一样，我们还使用了一种先进的伪造检测方法，该方法直接训练神经网络以在标准数据集上检测各种伪造。结果是通过检测到的伪造块数量的ROC曲线来衡量的。由于解码的特性，由复制移动伪造的区域具有1的概率与主要图像的镶嵌对齐。04具有与主要图像镶嵌对齐的概率，并且在这种情况下，它无法通过其CFA位置被检测到。在我们的数据库中，对齐的伪造占总块数的26.7％。我们算法在整个数据集上的结果如图9b所示。这些结果更接近实际应用中可以检测到的结果。然而，由于具有对齐镶嵌的伪造无法被镶嵌检测算法检测到，我们提供了其他使用修改后的真实情况的结果，在这种情况下，只有当块的镶嵌与原始图像的位置不同时，我们才认为该块是伪造的。因此，这些分数是相对于在完全了解镶嵌的情况下理论上可以检测到的内容。在图9a中可以看到这种真实情况下的结果。数据库中还包含了三种算法，这三种算法也用于预训练网络：双线性插值，LMMSE[25]和Hamilton-Adams解码[30]。为了确保比较的公平性，我们删除了所有使用这三种算法解码或包含使用这三种算法解码的伪造区域的图像。结果如图9c所示。我们可以看到结果与整个数据库上的结果相似，这表明网络很好地推广到了新的算法。最后，我们通过将所有图像压缩为质量为95的JPEG格式来测试我们模型对JPEG压缩的鲁棒性。结果如图9d所示。[60]的全局评估AUC得分为0.52，局部评估为0.49，仅略好于随机猜测，而[11]和我们的预训练网络稍微好一些。另一方面，自适应网络通过直接适应数据库并学习检测JPEG伪影上的CFA位置，能够表现得更好。06. 讨论0我们已经证明了一个小型的卷积神经网络可以准确地检测和解释CFA伪影，并随后利用它们来检测图像中的伪造。即使没有新的训练，该网络也能很好地适应使用未见过的更复杂的图像解码算法的图像。我们的神经网络很小，几乎可以像文献中提出的方法一样快速处理图像，同时提供更高质量的检测。我们数据库中的伪造非常基础，因为它们只是用来评估CFA检测。尽管如此，ManTraNet等最先进的通用方法产生的检测结果几乎与随机相当，甚至更差。0.00.20.40.60.81.0False Positive Rate0.00.20.40.60.81.0True Positive RateProposed (pretrained), AUC: 0.926Proposed (adapted), AUC: 0.919IV, AUC: 0.676VCD, AUC: 0.843ManTraNet, AUC: 0.5340.00.20.40.60.81.

下载后可阅读完整内容，剩余1页未读，立即下载