150340自监督域自适应用于JPEG压缩图像的伪造定位0Yuan Rao 1 , Jiangqun Ni 2 , 301. 电子与信息技术学院,中山大学,中国广州 2. 计算机科学与工程学院,中山大学,中国广州 3.广东省信息安全重点实验室,中山大学,中国广州0raoy3@mail2.sysu.edu.cn, issjqni@mail.sysu.edu.cn0摘要0随着图像编辑工具的广泛应用,伪造图像(拼接、复制移动、删除等)已成为公众关注的焦点。尽管现有的图像伪造定位方法在几个公共数据集上取得了相当好的结果,但在图像被压缩为JPEG格式时,它们的性能通常较差,因为这种压缩通常在社交网络中进行。为了解决这个问题,本文提出了一种自监督域自适应网络,由具有连体结构的骨干网络和压缩近似网络(ComNet)组成,用于抵抗JPEG压缩的图像伪造定位。为了提高对JPEG压缩的性能,通过自监督学习,定制了ComNet以近似JPEG压缩操作,生成具有一般JPEG压缩特征的JPEG代理图像。然后,使用域自适应策略训练骨干网络,以定位篡改边界和区域,并减轻未压缩图像和JPEG代理图像之间的域偏移。在几个公共数据集上进行的大量实验结果表明,所提出的方法在图像伪造定位方面优于或与其他最先进的方法相媲美,特别是对于未知QFs的JPEG压缩。01. 引言0对于图像伪造取证,一个基本任务是精确定位伪造区域,而在存在后处理操作(如滤波、重采样和压缩)的情况下,这更具挑战性。在这些内容保留的操作中,JPEG压缩在社交网络中被广泛使用以减少传输带宽或存储空间。然而,微小的篡改痕迹会在压缩后被消除。0(源域)骨干网络0未压缩图像0JPEG代理图像0共享0参数0源域0特征0区域损失0边缘损失0压缩近似0网络0(目标域)骨干网络0领域损失0目标域0特征0图1.自监督域自适应网络的架构,由具有连体结构的骨干网络和压缩近似网络组成。0JPEG压缩强度较大,降低了伪造取证方法的性能。另一方面,图像篡改操作的多样性,例如拼接、复制移动、删除等,也严重影响了取证方法对未知伪造的泛化能力。通常,传统的基于手工特征的方法依赖于特定篡改痕迹的假设,并通过探索颜色滤波阵列(CFA)[14,30]、光响应非均匀噪声(PRNU)[23,8]、JPEG块状伪影[35, 19]、纹理单元[25, 18]、光照[12,6]和基于隐写术的局部描述符[32, 10,22]等局部不一致性来揭示伪造。相反,大多数最先进的图像伪造取证方法[29, 27, 4, 34, 11,24]采用深度学习技术,因为它具有强大的特征表示能力。利用大量的训练样本和多种伪造,这些基于深度学习的方法在图像伪造定位方面比传统方法表现得更好。另一方面,为了在JPEG压缩方面获得更好的鲁棒性能,基于深度学习的方法通常使用针对不同质量因子(QFs)的篡改JPEG图像的有针对性的数据增强策略来训练网络模型。然而,这表明存在不足之处。150350在以下两个方面存在问题:1)在某种程度上削弱了边界的过渡,这对应于JPEG压缩丢弃的高频分量,因此增加了捕捉伪造操作的内在特征表示的难度;2)需要多样化的JPEG样本来缓解训练和测试阶段之间的JPEG压缩不匹配。这两个问题在进行JPEG压缩方面的数据增强时降低了基于深度学习的方法的性能,特别是在训练集较小的情况下。本文提出了一种自监督领域自适应网络,由主干网络和压缩逼近网络(ComNet)组成,用于抵抗JPEG压缩的图像伪造定位,如图1所示。关键思想是通过自监督学习任务定制ComNet来逼近JPEG压缩操作,生成具有更具普适性的JPEG压缩特征的JPEG代理图像。结合ComNet,采用Siamese架构的主干网络通过领域自适应策略进行训练,以提高对JPEG压缩的性能。本文的主要贡献总结如下:0•提出了基于条件随机场(CRF)的注意力模块,用于突出伪造区域的过渡边界。与[9]中的简化CRF模型不同,该模型采用了标准CRF来更好地表征局部模式相关性,并仅实现了一次均值场近似[21]进行CRF推断。0•提出了基于编码器-解码器的ComNet,通过自监督学习任务逼近JPEG压缩操作,生成具有一般JPEG压缩特性的JPEG代理图像。0•为了提高对JPEG压缩的性能,采用领域自适应策略来缓解源(未压缩图像)和目标(JPEG压缩图像)之间的领域偏移。02. 相关工作02.1. 基于手工特征的方法0传统的基于手工特征的方法通常通过对自然图像建模揭示像素之间的统计依赖关系,并基于这种统计模型捕捉由图像篡改操作引起的统计偏差。例如,在[38]中,提出了一个二维非因果马尔可夫模型,用于表征图像的统计特征。0在图像伪造检测中,[32,10]将广泛应用于图像隐写分析的空间丰富模型(SRM)[15]推广到提取基于残差的特征,用于图像伪造检测和定位,通过支持向量机(SVM)分类器和多维高斯模型。后来,李等人[22]通过利用统计特征和复制移动检测器获得的可能性图,改进了[32],其中包含了空间颜色丰富模型(SCRM)[16]用于拼接和擦除检测。另一方面,篡改操作可能不可避免地引起图像中视觉元素的变化,这可以通过局部图像描述符有效捕捉到,用于伪造检测。在这个背景下,[6]结合了各种局部描述符提取的统计特征,探索纹理、光照、形状和颜色特征,以检测由图像拼接引起的失真。02.2. 基于深度学习的方法0与传统方法中费力的特征工程过程不同,基于深度学习的方法可以直接学习和优化伪造取证的特征表示。在[26]中,提出了一种新的初始化策略,强制卷积层学习伪造检测的残差特征。作为[26]的扩展,[27]提出了一种改进的初始化策略,并采用了Siamese网络进行拼接检测和定位。Noiseprint[11]中也使用了Siamese网络,基于噪声残差捕捉相机模型的伪造定位。类似地,提出了一种基于CNN的取证相似性网络[24],用于确定一对图像块是否包含相同或不同的取证痕迹,即源相机模型和处理历史。总的来说,以上所有方法都是基于块的伪造定位,难以生成细粒度的结果。为了解决这个问题,网络模型在语义分割方面表现良好,可以用于进行像素级别的伪造分类。在[29]中,使用了多任务全卷积网络(MFCN),通过对伪造区域和边界的真值进行训练,实现了伪造定位。最近,在[4]中,基于重采样和空间特征,提出了一种混合LSTM和编码器-解码器网络,用于像素级别的伪造定位,其中LSTM用于捕捉伪造和真实块之间的不一致性。ManTra-Net[34]将伪造定位问题形式化为局部异常检测,并通过自监督学习任务捕捉一般图像处理痕迹,以分类多种处理类型。在数据增强方面,[39]提出了一种基于生成对抗网络(GAN)的操纵图像生成过程,通过混合操纵生成篡改图像。×ASPPConv_RGB (5×5)Conv_SRM (5×5)CConv (3×3)Residual featureSpatial featureAttentionConv (3×3)Conv (1×1)Region LossStructure of Res_1/3/5/7Structure of Res_2/4/6/8Edge labelRegion labelEdge LossAttention-aware featureRes_1 (256×256×30)Stride = 1Res_2 (256×256×30)Stride = 1Res_3 (128×128×60)Stride = 2Res_4 (128×128×60)Stride = 1Res_5 (64×64×120)Stride = 2Res_6 (64×64×120)Stride = 1Res_7 (64×64×240)Stride = 1Res_8 (64×64×240)Stride = 1Conv (3×3)Conv (3×3)Minxi E(x) = Minxi (�iψu(xi) +�i