CFL-Net:对比学习的图像伪造定位

135 浏览量更新于2023-10-16 收藏 13.85MB PDF 举报

对比学习

通用方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

46420CFL-Net: 使用对比学习进行图像伪造定位0Fahim Faisal Niloy †，Kishor Kumar Bhaumik ‡和Simon S. Woo ‡0† 孟加拉国独立大学计算与数据科学中心，‡ 韩国成均馆大学计算机科学与工程系0niloy9542@gmail.com，{kishor25，swoo}@g.skku.edu0摘要0传统的伪造定位方法通常依赖于不同的伪造痕迹，如JPEG伪影、边缘不一致、相机噪声等，并使用交叉熵损失来定位篡改区域。然而，这些方法的缺点是过度拟合并且只关注少数特定的伪造痕迹。另一方面，现实生活中的操纵图像是通过各种伪造操作生成的，因此留下了各种各样的伪造痕迹。因此，我们需要一种更通用的图像伪造定位方法，可以在各种伪造条件下良好工作。在底层伪造区域定位的一个关键假设是，在每个伪造图像样本中，未篡改区域和篡改区域之间的特征分布仍然存在差异，而与伪造类型无关。在本文中，我们旨在利用特征分布的差异来帮助图像伪造定位。具体而言，我们使用对比损失来学习映射到特征空间，其中未篡改区域和篡改区域的特征在每个图像中得到了很好的分离。此外，我们的方法具有在不需要任何关于伪造类型的先验知识或假设的情况下定位篡改区域的优势。我们证明了我们的方法在三个基准图像处理数据集上优于几种现有方法。代码可在https://github.com/niloy193/CFLNet找到。01. 引言0图像伪造已成为一个严重的新兴社会技术问题，随着越来越先进的人工智能技术被利用来创建假图像。图像是一种重要的信息传递媒介。为了制造假故事、学术欺骗和非法行为，利用图像编辑技术创建的操纵照片经常被误认为是真实的。当数字图像被0原始图像操纵图像地面真实掩膜0图1：图像篡改示例。前两行显示了图像拼接的示例，下两行显示了复制移动伪造和删除的示例。0年龄被操纵时，我们经常假设图像取证调查将能够发现篡改区域。然而，收集具有各种伪造类型（包括拼接、复制移动、删除等）的篡改区域的区分特征仍然具有挑战性，并且通常需要利用众多篡改工件的特殊特性。一般来说，图像伪造可以广泛分为：拼接[12, 25]，复制移动[11, 36,35]，删除[42]，增强[4,9]等。首先，在图像拼接中，内容是从其他源图像复制并粘贴的，而不是从同一图像中获取内容的复制移动伪造。另一方面，删除or inpainting techniques remove a selected region fromthe image and fills the space with new pixel values esti-mated from background [37]. Image enhancement exploitsa wide collection of local manipulations, such as sharpen-ing, brightness adjustment, etc. Each of the broader cate-gories can be further divided into more fine-grained forgerytypes. For example, Gaussian blurring or JPEG compres-sion may be applied to the tampered region before commit-ting splicing or copy-move forgery. Recently, more general-purpose image forgery localization methods have been pro-posed, which can detect or localize more than one forgerytype, such as RGB-N Net [41], Manipulation Tracing Net-work (ManTraNet) [37], Spatial Pyramid Attention Net-work (SPAN) [22], etc.These general image forgery detection or localizationmethods usually rely on different forgery clues or footprintsleft by the forgery operation, such as JPEG artifacts [27, 1],edge inconsistency [32, 39], noise pattern [13, 38], cam-era model [31], EXIF inconsistency [23], etc., to detect orlocalize forgery. Table 1 of [37] summarizes existing ma-jor forgery localization methods and the forgery clues themethods focus on. For example, [2] employs LSTM basedpatch comparison to focus on edge inconsistency betweenthe tampered patches and authentic patches. CAT-Net [26]leverages DCT coefficients to focus on resampling clues.However, training models to focus on specific forgeryclues has a major disadvantage. Because then, the modelcan only detect forgery if that particular forgery footprint isprominent in the forged image. This is unacceptable be-cause, in real-life, different manipulation techniques canleave behind wide variety of forgery clues. Thus, focus-ing on specific forgery clues is not optimal. For example,if a method focuses on edge inconsistency to detect forgery,the method will not perform well on a forged image wherethe boundary between untampered and manipulated regionis smooth. Again, if a method focuses on resampling fea-tures, it will struggle to detect forgery if an image has thesame JPEG compression applied several times to both theuntampered and manipulated regions.Another major disadvantage of existing methods is thatthese methods use cross-entropy loss without additionalconstraints for training.Recently, [40] stated that tra-ditional cross-entropy based methods assume that all in-stances within each category should be close in feature dis-tribution. This ignores the unique information of each sam-ple. Thus, cross-entropy loss encourages the model to ex-tract similar features for same category. This might be help-ful for classification or segmentation of datasets such as Im-agenet or Cityscapes, where objects of the same categoryshould have similar features. However, in the case of imageforgery localization, extracting similar features for all thetampered regions in the dataset is not optimal as differentmanipulation operations leave behind different forgery foot-46430在未添加额外约束的情况下，基于常见的交叉熵损失的框架容易过度拟合特定的伪造模式[28]。这对于泛化不利。考虑到所有这些限制，我们提出了一种名为对比伪造定位网络（CFL-Net）的新型伪造定位方法，基于最近提出的对比损失[24]。我们的方法依赖于底层伪造区域定位的一般假设，即未篡改区域和篡改区域之间的特征统计差异（如颜色、强度、噪声等）[22]，无论伪造类型如何。在本文中，我们专注于利用特征空间中的这种差异通过对比损失来帮助图像伪造定位。具体而言，我们的模型学习将每个图像的未篡改区域和篡改区域的特征分离和分散的映射到特征空间中。因此，我们的方法不专注于特定的伪造线索。此外，我们为每个样本计算对比损失。因此，我们的方法对待每个样本的伪造线索有所不同，这有助于泛化。我们的主要贡献总结如下：0•我们提出了一种名为CFL-Net的新型图像伪造定位方法。我们的方法利用每个图像样本的未篡改区域和篡改区域之间的特征分布差异，不专注于特定的伪造痕迹。因此，我们的方法更适合检测真实生活中的伪造。0•我们解决了在通用图像伪造定位中使用交叉熵损失而没有任何约束的问题。我们结合对比损失并特别针对解决这个问题进行了调整。0•我们在基准操纵数据集上进行了大量实验，以展示我们的方法优于几种现有的图像伪造定位方法。02. 相关工作02.1. 图像伪造定位0图像伪造方法涉及伪造分类或定位。分类基本上是预测图像是伪造的还是非伪造的，而伪造定位则涉及定位伪造区域。后者是一个分割任务。在深度学习之前的时代，方法使用手工制作的特征，如局部噪声分析[16,10]，CFA伪影[15]，JPEG压缩[5]等。最近的工作通常使用基于深度学习的方法与这些伪造痕迹结合起来定位伪造区域。Bappy等人[2]利用LSTM来利用边缘不一致性痕迹定位伪造。该工作在[3]中得到改进，其中46440图2：所提出的CFL-Net的整体架构。我们使用两个流编码器，一个用于RGB输入图像，另一个用于SRM滤波后的图像。编码器产生的特征被融合并传递到ASPP模块。ASPP块的输出特征然后经过分割头和投影头，前者产生最终的预测掩码，后者产生进入对比学习模块的特征。0作者进一步利用拉普拉斯滤波器对重采样痕迹进行利用。他们还使用了一个独立的编码器-解码器结构来优化预测的掩码。RGB-N[41]提出了一个双流快速R-CNN网络，一个用于RGB图像，另一个用于由Ste-ganalysis Rich Model(SRM)滤波器[16]生成的噪声信息痕迹。SRM滤波器是高通滤波器，可以增强高频信息，在伪造定位中非常有帮助。然而，由于R-CNN架构的限制，RGB-N仅限于定位到矩形框，而真实对象不一定是矩形的。Mantra-Net[37]同时检测和定位伪造图像。ManTra-Net由基于VGG的特征提取器和基于LSTM的检测模块组成。特征提取器经过训练，可以检测各种类型的图像处理痕迹。SPAN[22]提出了空间金字塔注意力网络模型，通过构建一个局部自注意力块金字塔，对多尺度图像块之间的关系进行建模。CAT-Net[26]使用了与RGB-N类似的双流网络，一个用于RGB像素流，另一个用于DCT系数。DCT有助于提取重采样痕迹特征。02.2. 对比学习0最近，对比学习[19,8]在无监督学习问题上取得了很大进展。SimCLR[8]提出了一个简单的框架来进行对比学习，其中使用同一图像的两个随机增强视图生成正样本对，使用不同图像生成负样本对，形成一个图像级别的判别任务。此外，MoCo[19]维护一个负样本队列，并将孪生网络的一个分支转换为动量编码器以提高一致性。0队列的扩展。最近，[24]将无监督对比学习扩展到完全监督的设置中，可以有效利用标签信息。这种设置已经在语义分割中被用来提高最先进的性能。[34,21]以监督方式对比不同语义类别之间的像素嵌入，以帮助分割。孙等人[33]还使用监督对比损失来补充交叉熵损失，用于伪造检测任务。然而，他们的工作针对的是伪造人脸图像分类。相比之下，我们的方法旨在通用图像伪造定位，这是一个分割任务。而且，我们的对比损失的形成方式不同。Fung等人[17]使用无监督对比学习进行深度伪造人脸图像检测。该方法也仅针对伪造分类。03. CFL-Net0在本节中，我们首先描述了模型的总体框架。然后详细介绍了对比学习部分。03.1. 总体框架0我们在这里介绍我们方法的总体框架。总体框图如图2所示。我们选择了一个类似于[41,26,33]的双流网络。一个流接受输入的RGB图像I∈R3×H×W作为输入。我们对RGB图像使用SRM滤波器[16]，并将其作为另一个流的输入。SRM滤波器是高通滤波器，可以增强输入图像的高频信息，从而更突出边缘信息，有助于定位伪造。我们使用ResNet[20]作为骨干网络。然后通过按通道连接特征来融合两个流的特征。我们在融合的特征图上使用ASPP模块[7]，以便提取多尺度信息。[41]中报告了全局上下文有助于收集更多线索，如对比差异等，以进行操作检测。ASPP模块通过提取不同尺度的信息来帮助实现这一目标，从而提供全局上下文以及更细粒度的像素级上下文信息。然后，我们使用一个分割头/解码器头和一个投影头，将ASPP模块提取的上采样多尺度特征作为输入。我们选择了DeepLab风格的分割头，输出大小为H×W的最终分割图。投影映射由Conv-BatchNorm-Conv层组成，将特征图投影到F∈R256×H×W，其中256是嵌入维度。嵌入特征图F传递给对比学习模块。在评估过程中不使用投影头。both the streams. We then fuse features from both streamsby concatenating features channel-wise. ASPP module [7]is used on the fused feature map so that multi-scale infor-mation can be extracted. It is reported in [41] that globalcontext helps to collect more clues, such as contrast differ-ence, etc., for manipulation detection. ASPP module helpsin this regard by extracting information in different scales,such that global context as well as more fine-grained pixellevel context information becomes available.We then use a segmentation head/decoder head and aprojection head that takes the upsampled multi-scale fea-ture extracted by the ASPP module as input. We opt for aDeepLab style segmentation head which outputs the finalsegmentation map of size H × W. The projection map iscomposed of Conv-BatchNorm-Conv layer that projects thefeature map to F ∈ R256×H×W , 256 being the embeddingdimension. The embedded feature map F is passed on tothe contrastive learning module. The projection head is notused during evaluation.Li= 1|Ai|�k+∈Ai− logexp(zi·k+/τ)exp(zi·k+/τ) + �k− exp(zi·k−/τ)(1)46450图3：对比学习模块：为了便于可视化，图中的投影头显示输出形状为256×8×8的特征图F。然后，将特征图分成4×4个补丁。然后，每个补丁中的4个空间向量的平均值得到大小为4×4的嵌入（在图中表示为'k×k带标签的嵌入'）。地面真实掩码也被分成4×4个补丁，并计算每个补丁中出现最多的像素标签，得到4×4的输出掩码（在图中表示为'k×k掩码'）。然后，使用公式（2）计算'k×k带标签的嵌入'的每个像素嵌入的对比损失。03.2. 对比学习模块0我们的目标是对每个样本的未篡改和篡改像素嵌入进行对比，以便两个区域之间的特征分布得到很好的分离。由于我们的嵌入特征图在空间上的大小为 H × W，0我们有相应的与之大小相似的真实掩码M，我们知道每个像素嵌入的标签。因此，我们可以使用监督对比学习。对于每个查询像素嵌入 zi，该嵌入的对比损失函数为：0这里，k+或正键是具有与查询 z i 相同标签的像素嵌入。A i表示投影头输出特征图 F 中所有 k+的集合。类似地，k-或负键是 F 中与 z i不同标签的像素嵌入。然而，以这种方式计算 L i存在一些主要限制。首先，基于单个像素嵌入计算对比损失不考虑邻近嵌入的上下文信息。此外，为了计算损失，需要存储一个大小为 HW × HW的点积矩阵，这会消耗内存。一种可能的解决方案是从 F中随机采样一些与两个不同Li= 1|Ai|�k+∈Ai− logexp(fi·k+/τ)exp(fi·k+/τ) + �k− exp(fi·k−/τ)(2)LCON =46460类似于[34]，然后使用这些嵌入来计算(1)。这样，内存需求大大减少。然而，这种解决方案没有考虑到邻近像素的上下文信息。此外，类似于[21]，另一种解决方案是对两个区域的所有像素嵌入求平均值，然后使用平均嵌入计算损失。尽管这对于计算机视觉任务（如语义对象的分割等）可能有帮助，但对于图像篡改检测任务来说是不合适的。因为最近的研究表明，池化对于需要细微信号的任务是不可取的，因为池化会增强内容并抑制类似噪声的信号[6]。这些细粒度的痕迹对于检测伪造是有帮助的。因此，为了在上下文和细粒度痕迹之间找到平衡，我们选择将 F 分成局部区域。我们首先将 F 在空间上划分为 k × k的块，从而得到 f i ∈ R 256 × h × w，其中 i ∈ { 1 , 2 , 3 ...k 2 }，h = H k，w = Wk。然后我们对每个局部区域中的像素嵌入取平均值。从而使每个 f i 的形状变为 R256。以类似的方式，我们将真实掩码 M 划分为 k × k 的块。M在未篡改区域的值为0，在伪造区域的值为1。我们得到 m i ∈ R h × w，其中 i ∈ { 1 , 2, 3 ...k 2 }，h = H0k 和 w = W0k . 要获得每个 m i 的标签值，我们计算 h × w区域中0和1的数量。然后将 m i的值赋为区域中出现次数最多的值。现在，我们有像素嵌入f i 和每个嵌入的对应标签 m i。现在，我们可以使用监督对比损失函数：0这里，A i 表示所有其他具有与 f i 相同标签的像素嵌入 k+的集合。类似地，k-是所有与 f i不同标签的负像素嵌入。损失函数中的所有嵌入都经过 L 2归一化。对于单个图像样本，通过对所有嵌入求平均值得到最终的对比损失：0k 20i ∈ k 2 Li0我们要优化的最终损失函数如下：0L = L CE + L CON0这里，L CE 是交叉熵损失。04. 实验0在本节中，我们描述了在三个不同的篡改数据集上进行的实验，以探索CFL-Net的有效性。这些数据集是包含多种篡改类型的通用篡改数据集，并不仅限于单一的篡改类型。我们使用像素级别的曲线下面积（AUC）得分[22]作为评估指标。04.1. 数据集0• IMD-20 [30]是由未知人员制作的现实生活篡改数据集，从互联网上收集而来。因此，该数据集包含各种类型的篡改。数据集中共有2010个图像样本。0• CASIA [14]CASIAv2包含5123张图像，CASIAv1包含921张图像。该数据集的样本经过拼接和复制移动伪造进行篡改。此外，还对样本进行了滤波和模糊等图像增强技术的后处理。0• NIST-16 [29]包含584个带有地面真值掩码的图像样本。NIST16的样本经过拼接、复制移动和去除篡改，并进行后处理以隐藏可见痕迹。0对于每个数据集，我们使用与[18]相同的训练-验证-测试分割过程。值得注意的是，以前的方法如[22, 3,26]通常在大型（≈1M样本）合成篡改数据集上预训练模型，然后在上述数据集上微调模型以报告最终结果。然而，在本文中，为了仅评估模型的性能，我们没有创建合成篡改数据集来预训练我们的模型。有趣的是，即使没有使用任何大型合成篡改数据集，我们的模型仍然优于基准模型。04.2. 实现细节0我们将ResNet-50用作两个流的编码器。我们使用Adam优化器训练CFL-Net，学习率为1e-4。我们在每20个epoch后将学习率降低20%。我们将输入图像调整为256×256。我们将F划分为总共64×64个补丁。公式(2)中的温度τ设置为0.1。交叉熵损失加权，给予篡改类十倍的权重。我们将批量大小设置为4，并在NVIDIA RTX TitanGPU上训练100个epoch。04.3. 基准模型0我们将我们的方法与各种基准模型进行比较，这些模型如下所述：46470方法 NIST CASIA IMD-200J-LSTM (ICCV’17) - - 48.7 RGB-N (CVPR’18)93.7 79.5 - Mantranet (CVPR’19) 79.5 81.7 81.3SPAN (ECCV’20) 96.1 83.8 - Transforensics(ICCV’21) - 85.0 84.8 我们的方法 99.7 86.3 89.90表1：AUC得分（以%表示）。0• J-LSTM [2]采用混合CNN-LSTM架构来捕捉未篡改区域和篡改区域之间的区别特征。0• RGB-N [41] 采用两个并行流网络分别发现篡改特征。0• ManTraNet [37]使用特征提取器捕捉篡改痕迹，并使用本地异常检测网络定位篡改区域。0• SPAN [22]使用金字塔架构和自注意力块来建模图像补丁的依赖关系。0• Transforensics [18]使用视觉变换器与密集自注意编码器和密集校正模块来建模不同尺度上局部补丁之间的所有成对交互。05. 结果0在本节中，我们报告了我们实验的结果。为了分别展示定量和定性结果，我们将结果部分分为两个子部分。我们还进行了消融研究。05.1. 定量分析0我们在表1中报告了我们的方法和基准模型的AUC分数（以%表示）。需要注意的是，这里所述的RGB-N和SPAN的结果是它们各自论文中报告的微调结果。J-LSTM和Transforensics没有进行任何预训练。虽然ManTraNet在合成篡改数据集上预训练了他们的模型，但他们没有在特定数据集上进行微调。从表中可以看出，CFL-Net在所有数据集上的定位性能都优于基准模型。特别是在IMD-20数据集上，CFL-Net的性能大大优于其他基准模型。具体而言，CFL-Net在IMD-20数据集上的AUC分数为89.9%，比第二名模型Transforensics提高了5.1%。因此，验证了我们的CFL-Net的优势。0数据集 NIST CASIA IMD-200NIST w/o 98.3 67.1 66.40w 99.7 67.6 69.80CASIA w/o 79.3 84.9 75.50w 79.9 86.3 77.80IMD-20 w/o 74.37 74.1 85.20w 91.8 75.6 89.90表2：最左列显示模型训练的数据集。后面的列是模型在哪些数据集上进行评估的。'w/o' -CFL-Net没有对比损失进行训练，'w' -CFL-Net使用对比损失进行训练。结果以% AUC表示。0CFL-Net非常适合定位真实篡改。我们的模型在其他数据集上也优于基准模型 - Ca-sia和Nist。此外，值得指出的是，CFL-Net在没有在合成篡改数据上进行预训练的情况下取得了这些结果。我们认为，由于添加了对比损失，我们提出的模型不仅关注特定的篡改特征，而且学习到了更广义的特征。因此，我们的模型在不同的篡改数据集上应该具有更好的泛化能力，而不是在没有对比损失进行训练的模型。因此，在我们的下一个实验中，为了了解我们的方法在不同数据集上的泛化能力如何，我们将在一个数据集上训练模型，并在其他数据集的测试集上进行评估。表2显示了结果。显然，使用对比损失训练的CFL-Net在不同数据集上的泛化能力非常好。在所有情况下，这个模型的表现都优于没有对比损失训练的模型。当在IMD-20数据集上训练并在NIST的测试集上进行评估时，我们提出的模型甚至超过了ManTraNet的AUC分数。在训练集为IMD-20数据集时，性能提升最明显。IMD-20是真实的图像篡改数据集，因此在这个数据集上训练有助于模型学习到最具有泛化能力的特征。因此，我们提出的模型在IMD-20上训练并在其他数据集上评估，可以获得最大的性能提升，超过没有对比损失训练的模型。还应注意，训练在NIST上并在其他数据集上进行评估的两个模型表现不佳，因为NIST数据集中的图像非常少，即数据集中只有584张图像。因此，使用NIST难以推广到其他数据集。尽管如此，我们提出的模型仍然比没有对比损失训练的模型表现更好。05.2. 定性分析0这里我们展示了测试集中一些预测掩码的可视化结果。我们还展示了ManTraNet[37]的相应预测掩码，以与我们的CFL-Net进行比较。ManTraNet的实现和保存的模型都是公开提供的。46480篡改图像 GT掩码 ManTraNet预测 CFL-Net预测0图4：CFL-Net预测掩码与ManTraNet的比较。可以明显看出，CFL-Net的预测结果与真实掩码更接近。0作者公开提供的数据，我们在实验中使用了这些数据。结果如图4所示。从图中可以明显看出，CFL-Net预测的掩码更接近真实掩码。另一方面，ManTraNet在大多数情况下难以检测到篡改区域。0接下来，为了展示我们的对比损失通过避免相同类别特征的聚类来保留特征变化，我们通过t-SNE可视化了从分割头部获得的类别特征。图5的左列显示了在IMD-20和CASIA测试集上使用CFL-Net进行训练时的每个图像样本的平均特征向量。0仅交叉熵损失。显然，这里的特征对应于未篡改（图中的绿色）和篡改（图中的红色）区域。另一方面，右列显示了当CFL-Net使用交叉熵损失和对比损失进行训练时的平均特征。在这里，对应于两个区域的特征更加分散。因此，不同的篡改痕迹更具可分性。这个实验表明，传统的交叉熵损失由于类内变异性而降低了图像伪造定位的泛化能力，而我们提出的方法可以通过分散特征分布来改善泛化能力。46490（a）CE损失（IMD-20）0（b）CE + CON损失（IMD-20）0（c）CE损失（CASIA）0（d）CE + CON损失（CASIA）0图5：左列显示了当CFL-Net仅使用交叉熵损失进行训练时，在IMD-20和CASIA测试集上的平均特征的t-SNE图。右列对应于当CFL-Net同时使用交叉熵损失和对比损失进行训练时的情况。绿色=未篡改特征，红色=篡改特征。05.3. 割舍研究0在本小节中，我们进行割舍实验，研究CFL-Net的提出损失如何影响定位性能。具体而言，我们训练CFL-Net时不使用对比损失，然后报告结果以了解对比损失的影响。0方法 NIST CASIA IMD0CE损失 98.3 84.9 85.2 CE + CON损失99.7 86.3 89.90表3：使用不同损失设置训练的CFL-Net的AUC分数（以%表示）。CE = 交叉熵损失，CON = 对比损失。0从表3中可以清楚地看出，添加对比损失确实有助于定位。在真实生活的图像处理数据集IMD-20上，改进效果更为显著。对比损失将AUC分数提高了4.7%。值得注意的是，即使没有对比损失，我们的方法已经取得了非常好的结果。原因是我们的模型0与RGB-N[41]类似，我们也使用了两个流网络，即RGB和SRM流。此外，我们还仔细补充了ASPP模块和Deeplab解码器头，这有助于改善整体性能。使用对比损失进一步改善了我们的结果，并帮助我们超越了所有其他基准模型。06. 结论0在本文中，我们从新的角度，即使用对比学习，来解决通用图像伪造定位问题。我们发现现有方法存在一个主要缺点，即专注于特定伪造痕迹，并使用交叉熵损失而没有任何约束来定位伪造。为了解决这些缺点，我们将交叉熵损失与对比损失相结合，提出了一种名为对比伪造定位网络（CFL-Net）的新型图像伪造定位方法。我们在三个基准图像处理数据集上进行了实验，并将结果与近年来的主要伪造定位方法进行了比较。CFL-Net在AUC指标方面表现优于所有方法。此外，在真实生活的图像处理数据集IMD-2020上的改进效果更为显著。在未来的工作中，可以考虑使用更复杂的融合机制来融合RGB和SRM流的特征图。例如，可以使用注意力模块或最近提出的视觉变换器作为融合机制。07. 致谢0这项工作得到了孟加拉国ICT部门和孟加拉独立大学(IUB)的支持。此外，该工作部分得到了韩国科学与信息通信部(NRF)资助的基础科学研究计划的支持(编号：2020R1C1C1006004)，以及韩国科学与信息通信部(IITP)资助的研究所的计划和评估(IITP)资助的研究所的计划和评估(编号：2022-0-01199，成均馆大学收敛安全研究生院)，(编号：2022-0-01045，自主多模态智能解决未知的开放领域问题)，(编号：2022-0-00688，AI平台全面适应和反映隐私政策变化)，(编号：2021-0-02068，人工智能创新中心)，(编号：2019-0-00421，成均馆大学AI研究生院支持计划)，以及(编号：2021-0-02309，低质量视频条件下的目标检测研究)。46500参考文献0[1] Irene Amerini, Tiberio Uricchio, Lamberto Ballan, andRoberto Caldelli.通过多域卷积神经网络定位jpeg双重压缩。在2017年IEEE计算机视觉和模式识别研讨会(CVPRW)上，页码1865-1871。IEEE，2017年。0[2] Jawadul H Bappy, Amit K Roy-Chowdhury, Jason Bunk,Lakshmanan Nataraj, and BS Manjunath.利用空间结构定位操纵图像区域。在IEEE国际计算机视觉会议论文集上，页码4970-4979，2017年。0[3] Jawadul H Bappy, Cody Simons, Lakshmanan Nataraj, BSManjunath, and Amit K Roy-Chowdhury.混合lstm和编码器-解码器架构用于图像伪造检测。IEEE图像处理交易，28(7):3286–3300，2019年。0[4] Belhassen Bayar and Matthew C Stamm.限制卷积神经网络：一种新的通用图像操纵检测方法。IEEE信息取证与安全交易，13(11):2691–2706，2018年。0[5] Tiziano Bianchi, Alessia De Rosa, and Alessandro Piva.在jpeg图像中改进的dct系数分析用于伪造定位。在2011年IEEE国际声学、语音和信号处理会议(ICASSP)上，页码2444-2447。IEEE，2011年。0[6] Mehdi Boroumand, Mo Chen, and Jessica Fridrich.深度残差网络用于数字图像隐写分析。IEEE信息取证与安全交易，14(5):1181–1193，2018年。0[7] Liang-Chieh Chen, George Papandreou, Florian Schroff,and Hartwig Adam.重新思考用于语义图像分割的扩张卷积。arXiv预印本arXiv:1706.05587，2017年。0[8] Ting Chen, Simon Kornblith, Mohammad Norouzi, andGe- offrey Hinton.对视觉表示进行对比学习的简单框架。在机器学习国际会议上，页码1597-1607。PMLR，2020年。0[9] Hak-Yeol Choi, Han-Ul Jang, Dongkyu Kim, Jeongho Son,Seung-Min Mun, Sunghee Choi, and Heung-Kyu Lee.基于深度神经网络的复合图像操纵检测。在2017年国际系统、信号和图像处理会议(IWSSIP)上，页码1-5。IEEE，2017年。0[10] Davide Cozzolino, Diego Gragnaniello, and LuisaVerdoliva.通过相机、基于特征和基于像素的技术融合进行图像伪造定位。在2014年IEEE国际图像处理会议(ICIP)上，页码5302-5306。IEEE，2014年。0[11] Davide Cozzolino, Giovanni Poggi, and Luisa Verdo- liva.高效的密集场复制-移动伪造检测。IEEE信息取证与安全交易，10(11):2284–2297，2015年。0[12] Davide Cozzolino, Giovanni Poggi, and Luisa Verdoliva.Splicebuster: 一种新的盲目图像拼接检测器。在2015年0IEEE国际信息取证与安全研讨会(WIFS), 页码1-6, 2015年.0[13] Davide Cozzolino 和 Luisa Verdoliva. Noiseprint:基于CNN的相机模型指纹. 《IEEE信息取证与安全交易》, 第15卷,页码144-159, 2019年.0[14] Jing Dong, Wei Wang, 和 Tieniu Tan.Casia图像篡

下载后可阅读完整内容，剩余1页未读，立即下载