相机痕迹擦除方法

53 浏览量更新于2023-10-25 收藏 15.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

129500相机痕迹擦除0陈畅 � 1 ，熊志伟 � 1 ，刘晓明 2 ，吴锋 101 中国科学技术大学 2 密歇根州立大学0changc@mail.ustc.edu.cn，{zwxiong,fengwu}@ustc.edu.cn，liuxm@cse.msu.edu0摘要0相机痕迹是数字图像处理过程中产生的一种独特噪声。大多数现有的取证方法通过分析相机痕迹来识别图像的来源。在本文中，我们解决了一个新的低级视觉问题，即相机痕迹擦除，以揭示基于痕迹的取证方法的弱点。对现有的反取证方法进行全面调查发现，在避免破坏内容信号的同时有效地擦除相机痕迹是非常困难的。为了解决这两个需求，我们提出了Siamese TraceErasing（SiamTE），其中基于Siamese架构设计了一种新型混合损失用于网络训练。具体来说，我们提出了嵌入相似度、截断保真度和交叉身份来构成混合损失。与现有的反取证方法相比，SiamTE在相机痕迹擦除方面具有明显的优势，这在三个代表性任务中得到了证明。代码和数据集可在https://github.com/ngchc/CameraTE上获得。01. 引言0数字图像处理过程中不可避免地会产生噪声。相机痕迹是一种特定于每种类型成像设备的噪声。具体来说，相机痕迹是由相机传感器对光的不同响应特性产生的，然后由相机内部的处理流程进行处理。因此，相机痕迹以噪声的形式将相机类型的信息隐含在成像结果中。基于对相机痕迹的分析，研究人员提出了各种图像取证任务的方法，包括来源识别[14，29]、篡改检测[7，52，53]和伪造定位[10，32，47]等。这些方法在基于图像的社交网络的稳定发展中起着重要作用。然而，在对抗性案例中，这些取证方法的性能很少有系统性的研究。在本文中，我们解决了相机痕迹擦除问题，以揭示基于痕迹的取证方法的弱点。0� 部分工作是在访问密歇根州立大学期间完成的，陈畅的邮箱为changc@mail.ustc.edu.cn。0（a）原始图像0（b）滤波0（c）去噪0图1. 在分类任务中相机痕迹擦除的示例。（a）给定一张图像，最先进的分类器[29]可以以高置信度（通过归一化的逻辑值来衡量）预测正确的图像来源（红色条）。（b）中值滤波器有效地擦除了相机痕迹，导致预测错误（深蓝色条），但代价是信号的破坏。（c）一个真实世界的图像去噪方法[48]虽然可以轻松去除可见噪声，但对于擦除相机痕迹来说效果不够好。（d）我们提出的方法SiamTE可以有效擦除相机痕迹，而不会对内容信号造成可见破坏。放大以获得更好的视觉体验。0如图1所示的示例中，中值滤波器有效地降低了取证方法的分类准确性[29]，但代价是信号的破坏。虽然实际世界的图像去噪器[48]可以轻松去除可见噪声，但处理后图像中的残余相机痕迹仍足够分类器进行正确预测。因此，在避免破坏内容信号的同时有效地擦除相机痕迹是一个非常困难的问题。我们提出了Siamese TraceErasing（SiamTE）来解决这两个需求，它是通过卷积神经网络（CNN）实现的。具体来说，我们设计了一种基于Siamese架构[9]的新型混合损失用于网络训练。这个混合损失包含三个项：嵌入相似度、截断保真度和交叉身份。对于嵌入相似度损失，我们将不同类型相机拍摄的图像作为一组输入，并测量网络输出之间的相似度。理论上，给定适当的相机痕迹度量，不同类型相机拍摄的图像的相似度将会29510随着相机痕迹的减少，相似度会增加。因此，可以通过计算这种相似度来衡量相机痕迹擦除的程度。受到深度度量学习[27]的启发，我们采用学习嵌入空间中的归一化欧氏距离作为度量。然而，仅仅嵌入相似性损失不足以引导网络朝着期望的输出方向发展，主要是由于过度操纵的问题。然后，我们引入了一个截断保真度损失，通过最小化网络输入和输出之间的曼哈顿距离来限制图像操纵的程度。具体来说，我们将距离值截断到阈值以下为零，这样可以在保留相机痕迹擦除的基本操纵的同时避免潜在的过度操纵。除了上述两个损失项之外，我们还提出了一个交叉身份损失，以更好地区分相机痕迹和内容信号。为了评估SiamTE的反取证性能，我们在两个数据集上进行了实验，其中图像是由不同类型的相机拍摄的。我们考虑了三个取证任务，即分类、聚类和验证。在分类任务中，我们采用基于CNN的方法进行评估[29]。在聚类任务中，我们对CNN提取的特征进行K均值聚类[3]。在验证任务中，我们采用一种使用手工特征的经典取证方法[14]。与现有的方法，即滤波、压缩、去噪、去块和基于梯度的对抗方法相比，SiamTE在所有三个任务中显著提高了反取证性能，而不会对内容信号造成明显的破坏。这证明了SiamTE在相机痕迹擦除方面的明显优势。本文的贡献总结如下：•我们解决了一个新的低级视觉问题，称为相机痕迹擦除，揭示了基于痕迹的取证方法的弱点。•我们提出了SiamTE作为一种先进的解决方案，并设计了一种基于Siamese架构的新型混合损失进行网络训练。•SiamTE在不同数据集和任务上相对于现有的反取证方法取得了显著且一致的性能改进。02. 相关工作0图像反取证。为了对抗图像取证，研究人员提出了各种反取证方法来掩盖图像的操纵历史（图2）。在这些方法中，中值滤波和JPEG压缩引起了最多的研究兴趣。Kirchner等人采用中值滤波来隐藏图像重采样的痕迹[25]。虽然有效，但中值滤波本身会留下一个独特的模式，称为条纹伪影[4, 21,49]。为了补偿这一点，研究人员提出了条纹伪影去除的方法，以掩盖操纵。0im反取证0滤波0压缩痕迹擦除im*0取证0分类0聚类验证0图2. 图像反取证和图像取证。当通过反取证方法将im处理为im�时，取证可能失败。0中值滤波的历史[7,23]。对于JPEG压缩，Fan等人提出了一种变分方法来隐藏压缩的痕迹（即阻塞伪影）[12]。此外，还提出了基于字典的方法[2]和基于GAN的方法[31]用于JPEG反取证。除了压缩后的去块处理，研究人员还提出了在JPEG压缩过程中的反取证方法，通过向变换系数添加抖动[39, 44,45]。相机痕迹擦除可以归类为图像反取证。与现有的设置相比，我们在解决更现实的痕迹问题上迈出了一步。与中值滤波引起的条纹伪影和JPEG压缩引起的阻塞伪影不同，由于相机之间的差异，很难得出相机痕迹的固定模式。此外，我们还涉及滤波、压缩和去块方法进行比较，并对相机痕迹擦除问题中的这些反取证方法进行了全面调查。对抗技术。对抗技术旨在验证防御系统的安全性[40]。在这个研究方向上，由于学习方法的快速发展，对抗机器学习引起了很多关注[28]。研究人员发现，通过向网络输入添加基于梯度的扰动，对抗方法可以轻松触发训练好的神经网络的故障[15, 16,17]。我们提出的SiamTE可以被视为一种对抗方法，因为它降低了基于痕迹的取证方法的性能。但与常见的解决方案不同，SiamTE在没有梯度信息的支持下工作，这使其能够处理更多种类的图像，其相机类型超出了已知标签。现实世界的图像去噪。图像去噪是低级计算机视觉中的经典研究课题。最近，研究人员将焦点从合成噪声（例如高斯噪声）[5, 8,11, 26, 46, 50]扩展到现实世界的噪声[1, 6, 20, 34, 37,48]。由于很难描述由复杂和多样的相机处理流水线产生的现实世界噪声，研究人员必须定义无噪声图像，以便获得用于评估的基准真值。已经提出了两种方法来定义这个定义，即（a）多帧平均[1,34]和（b）在低ISO值下进行成对采集[38]。相机痕迹可以被视为一种现实世界噪声。然而，现有的无噪声图像定义不适用于相机痕迹擦除。对于（a），研究人员提出了一种基于中值滤波的方法来隐藏图像重采样的痕迹[25]。虽然有效，但中值滤波本身会留下一个独特的模式，称为条纹伪影[4,21,49]。为了补偿这一点，研究人员提出了条纹伪影去除的方法，以掩盖操纵。++-- sig1sig2im1im2lb1lb2trs1trs229520研究人员发现，即使在帧平均之后，相机痕迹的一部分仍然可以存活或甚至被增强[19,30]。对于（b），即使以低ISO设置拍摄，图像仍然无法摆脱相机痕迹。因此，我们根据其特点直接定义相机痕迹。据我们所知，这是第一次为现实世界的噪声提供了一个具体的定义。此外，我们采用了两种代表性的现实世界去噪方法进行比较，并展示了我们提出的方法的优势。03. Siamese Trace Erasing03.1. 问题定义0我们将捕获的图像（简称为im）视为两个部分。一个是相机痕迹（简称为trs），另一个是内容信号（简称为sig），可以表示为0im = sig + trs。（1）0相机痕迹消除方法F(∙)的目标是实现F(im) =sig。如第2节所述，现有的方法无法为单个图像的sig部分或trs部分提供合适的定义。为了解决这个问题，我们提出同时考虑多个图像。首先，我们定义相机痕迹应该是图像中的一个可区分部分。换句话说，当这两个图像由不同类型的相机拍摄时，某种相机痕迹应该与另一种相机痕迹不同。根据这个定义，图像之间应该存在某种相似性，随着每个图像中可区分部分（即相机痕迹）的减少而增加。以两个图像（im1和im2）为例，我们将φ(∙,∙)表示为两个图像之间的相似性。根据这些符号，我们有一个不等式0φ(F1(im1), F1(im2)) > φ(F2(im1), F2(im2))，（2）0当一个痕迹消除方法F1(∙)优于F2(∙)。此外，我们定义相机痕迹应该是唯一可区分的部分，而不考虑内容信号。理想情况下，当sign = F(imn)，trsn = imn - F(imn)，n = 1,2时，我们有一个等式0φ(sig1 + trs2, sig2 + trs1) = φ(sig1 + trs1, sig2 +trs2)。（3）我们使用上述公式来定义相机痕迹并推动我们提出的痕迹消除方法。03.2. 以混合损失为指导的SiamTE0设FΘ(∙)表示相机痕迹消除的参数化方法，其中Θ是可训练参数。在本文中，我们采用[6]中提出的CNN结构作为FΘ(∙)的实现。值得一提的是，本文的重点不是网络设计。FΘ(∙)可以通过其他网络结构实现。0交叉身份0Ltf0Les0Lce0Lce0C(•)0C(•)0E(•)0E(•)0F�(•)0F�(•)0Ltf0图3. 训练策略流程图。imn（n = 1,2）表示由第n种类型的相机拍摄的图像，具有标签lbn（n = 1,2）。sign和trsn分别表示估计的内容信号和相机痕迹。FΘ(∙)表示相机痕迹消除的参数化方法。E(∙)表示图像嵌入的映射。C(∙)表示图像来源识别的分类器。混合损失包含嵌入相似性损失Les，截断保真度损失Ltf和带有交叉熵损失Lce的交叉身份部分。蓝色：可训练模型，绿色：固定的预测模型，红色：损失函数。0对于网络的设置，我们采用了[9]中提出的Siamese架构。以两个图像为例，我们在图3中说明了Siamese架构，其中FΘ(∙)在两个分支中具有共享参数。通过增加更多的分支，这种设计可以很容易地推广到多个图像。根据架构的名称，我们将我们提出的方法称为Siamese TraceErasing（SiamTE）。为了训练网络，我们提出了一个混合损失，如下所述并在图3中显示。嵌入相似性损失Les。受不等式（2）的启发，我们提出了嵌入相似性损失来指导网络训练。受到深度度量学习[27]的启发，我们采用了一个学习的度量来计算图像之间的相似性，通过将图像嵌入到与E(∙)相关的空间中。在这个嵌入空间中，我们计算特征之间的归一化欧氏距离以获得相似性。嵌入相似性损失的计算过程总结在算法1中。截断保真度损失Ltf。通常，相机痕迹的强度与内容信号相比是有限的，因为它是成像过程中的副产品。受到这个先验知识的启发，我们提出了截断保真度损失来限制相机痕迹方法FΘ(∙)的操作。具体而言，我们计算im和FΘ(im)之间的曼哈顿距离来衡量操作的程度。为了保留必要的操作同时避免潜在的过度操作，我们将距离值截断到低于阈值T的零，可以表示为0Ltf =0|im - FΘ(im)|, |im - FΘ(im)| > T0, |im - FΘ(im)|≤ T. (4)0交叉身份损失Lci。受方程（3）的启发，我们提出了交叉身份损失以实现更好的摆脱相机迹线和内容信号之间的混淆。假设我们有G个图像。1 2 3 41 2 3 4432143211432̸̸29530算法1 计算嵌入相似性损失需要：01: im[∙]: 不同相机拍摄的G个图像; 2: FΘ(∙):用参数Θ进行迹线擦除的方法; 3: E(∙):用于图像嵌入的学习映射; 4: N(∙):用于L2归一化的操作符; 5: S(∙, k):带有k步长的循环移位操作符; 6: D(∙, ∙):07: M:欧几里得距离的边界。输出：嵌入相似性损失im的嵌入相似性损失Les 8: 对于每个g∈[1, G]9: 跟踪擦除：sig[g] = FΘ(im[g]); 10:嵌入：feat[g] = E(sig[g]); 11: 归一化：feat[g]012: end for 13: 将Les初始化为零; 14: 对于k = 1; k< G; k = k + 1 do 15: dist = max(0, D(feat,S(feat, k)) - M); 16: Les = Les + mean(dist); 17:end for018: 平均值：Les = Les / (G - 1); 19: return Les01 2 3 4 4 1 2 3 (a) (b)0k = 10k = 20图4.以并行计算友好的方式计算一对一操作。给定一个组中的G个图像（在本例中G =4），顺序执行的次数可以从（a）P2G（或当操作可交换时为C2G）减少到（b）G - 1。通过循环移位S(∙,k)，可以并行计算红色箭头所示的操作。对于每次执行，循环移位的步长k从1到G - 1。0不同类型相机，从不同类型相机拍摄的图像被分组为网络输入imn，n = 1, 2, ..., G。trsm表示由第m个相机产生的相机迹线。交叉身份损失旨在最大化合成图像sig n + trs m，n = 1, 2, ..., G（n ≠m）被识别为由第m个相机设备拍摄的概率。在我们的实现中，我们将估计的迹线im m - FΘ(imm)与其他设备的信号FΘ(im n)，n = 1, 2, ..., G（n ≠m）相结合，以获得这些合成图像。然后，我们将它们传递到经过训练的分类器C(∙)中以获得反馈。交叉身份损失的计算过程总结在算法2中。03.3. 实现细节0在算法1和算法2中，我们采用循环移位操作符S(∙,k)，步长为k，以便在并行计算友好的方式下计算多个图像之间的一对一操作。0算法2 计算交叉身份损失需要：01: im[∙]: 不同相机拍摄的G个图像; 2: lb[∙]:im[∙]的相应原始标签; 3: FΘ(∙):用参数Θ进行迹线擦除的方法; 4: C(∙):图像原始分类的方法; 5: S(∙, k):带有k步长的循环移位操作符; 6: Lce(∙, ∙):计算交叉熵损失的操作符。输出：im的交叉身份损失Lci 7:对于每个g∈[1, G] 8: 跟踪提取：trs[g] = im[g] -FΘ(im[g]); 9: end for 10: 将Lci初始化为零; 11: 对于k =1; k < G; k = k + 1 do012: 交叉身份：pred = C(FΘ(im) + S(trs, k)); 13: Lci = Lci + mean(Lce(pred, S(lb,k))); 14: end for 15: 平均值：Lci = Lci / (G - 1); 16: return Lci0并行计算友好的方式。我们在图4中说明了循环移位的操作。对于图像原始分类器C(∙)，我们在KCMI+上训练了一个ResNet[18]（在第4.1节中详细介绍的数据集）。ResNet中的卷积权重通过ImageNet预训练模型[35]进行初始化。训练后，我们将该网络中的堆叠卷积用作嵌入函数E(∙)用于Les。最后，我们线性组合上述三个损失函数形成混合损失，即λ1Les + λ2Ltf + λ3Lci，其中λn（n = 1, 2,3）表示权重因子。04. 实验和结果04.1. 数据集和设置0KCMI.Kaggle相机型号识别（KCMI）是IEEE信号处理学会提出的一个数据集[43]。在KCMI中，共有2750张图像是由10种类型的相机拍摄的。我们从中分离出550张图像构建一个测试集KCMI-550，每个相机有55张图像。对于训练和验证，我们首先检索和下载额外的2800张图像，这些图像是用相同的10种类型的相机拍摄的。然后，我们将它们与KCMI中的其他2200张图像结合起来构建KCMI+，每个相机有500张图像。VISION.这是一个用于源识别的大规模数据集[42]，其中的图像是由30种类型的相机拍摄的。其中28种相机与KCMI中的相机不同。我们从VISION中采用1500张图像构建一个测试集VISION-1500，每个相机有50张图像。训练设置.我们采用KCMI+来训练SiamTE。从KCMI+中随机裁剪出尺寸为336×336的补丁。我们随机聚集4个补丁ORI 199.80 ± 0.1899.87 ± 0.123.083-CP30 [36]56.31 ± 1.6458.35 ± 1.064.2833.632CP40 [36]77.02 ± 1.5175.27 ± 1.223.8383.202CP50 [36]91.29 ± 0.7386.56 ± 1.373.5102.91729540(a) ORI0(b) MF50(c) CP300(d) AD20(e) DB0(f) DN-I0(g) DN-E0图5. KMCI-550上的视觉比较。0作为一组（即G =4），其中的补丁是从不同类型相机拍摄的图像中裁剪出来的。64个组随机聚集成一个小批量用于随机梯度下降。我们采用Adam[24]进行训练，动量因子设置为0.9。在我们的实现中，我们将λ1:λ2:λ3设置为3:1000:1或3:500:1用于混合损失。对于超参数，我们将边界M设置为0.5，阈值T设置为3。04.2. 图像取证任务和度量标准0分类.在这个任务中，给定一个输入图像，取证方法预测输出一个相机类型。我们采用了[29]中提出的两种基于CNN的分类器进行评估，分别命名为ResNet50和DenseNet201，根据各自的网络结构。由于分类网络的输入尺寸（224×224）远小于整个图像的尺寸，我们随机裁剪4个补丁作为其代表，并选择4个补丁中的多数预测作为最终输出。由于分类准确性因不同的裁剪补丁而异，我们重复每个实验10次，并报告平均结果。我们采用KCMI-550进行评估。聚类。除了在KCMI-550上进行的分类任务外，我们还在VISION-1500上进行聚类，以评估我们提出的方法的泛化能力。具体而言，对于在KCMI+上训练的SiamTE，VISION-1500上的大多数相机类型在训练过程中都是未知的。因此，聚类是一项更具挑战性的任务。我们采用01未知的相机类型是指在训练集中没有包含的相机类型（即对方法来说是未知的），但我们仍然知道它的来源。0表1. 分类任务的定量比较.0方法准确性 NIQE L1与ORI的距离 ResNet50 DenseNet2010MF3 [7] 66.62 ± 2.08 75.95 ± 1.43 3.939 2.055 MF5 [7] 21.33 ±1.09 44.33 ± 1.64 4.799 3.849 GF3 [41] 90.18 ± 0.66 93.07 ± 1.024.256 2.186 GF5 [41] 73.46 ± 1.56 80.18 ± 1.29 4.593 3.1150AD1 [16] 45.49 ± 1.43 55.53 ± 1.34 3.265 0.988 AD2 [16] 21.13 ±1.25 32.73 ± 1.53 3.934 1.9730DB [50] 90.04 ± 1.03 92.82 ± 1.05 3.044 1.301 DN-I [48] 59.49 ±1.79 64.87 ± 1.06 3.961 2.017 DN-E [6] 44.42 ± 1.66 56.82 ± 1.324.008 2.7100我们的方法 20.42 ± 1.19 28.11 ± 1.76 3.676 2.00401 采用KCMI-550（ORI）中的图像进行评估。0在ResNet50和DenseNet201[29]中使用堆叠的卷积层进行特征提取，并对提取的特征进行K-means聚类[3]。由于VISION-1500包含30种类型的相机，我们分别设置聚类中心数K =30、60和90进行评估。为了提供聚类性能的定量结果，我们定义了聚类准确度。具体来说，在一组聚类图像中，我们将其中大多数相机类型分配为预测，并将这些预测与已知的图像来源进行比较。因此，当具有不同相机类型的图像被错误聚类在一起时，这种聚类准确度将降低。29550表2. 聚类任务的定量比较。采用VISION-1500（ORI）中的图像进行评估。0方法1 准确度 NIQE L1与ORI的距离 ResNet50（K = 30） 2 ResNet50（K = 60） ResNet50（K = 90） DenseNet201（K = 30） 2DenseNet201（K = 60） DenseNet201（K = 90）0ORI 56.79 ± 2.08 70.27 ± 1.01 75.44 ± 1.30 59.06 ± 1.79 73.09 ± 1.27 78.77 ± 1.53 3.585 -0MF3 [7] 43.03 ± 1.36 54.42 ± 1.15 58.60 ± 1.08 45.23 ± 1.14 55.73 ± 1.13 61.79 ± 1.32 4.043 1.959 MF5 [7] 31.45 ± 1.06 38.53 ± 0.63 42.79± 1.15 34.97 ± 1.02 42.79 ± 0.98 48.14 ± 0.76 5.227 3.525 GF3 [41] 49.95 ± 1.74 61.68 ± 1.55 64.99 ± 1.25 51.17 ± 0.98 61.02 ± 1.74 66.19± 0.86 4.413 2.029 GF5 [41] 44.69 ± 1.27 51.82 ± 0.93 55.87 ± 0.56 41.47 ± 1.49 52.43 ± 1.56 57.40 ± 1.02 4.795 2.8470CP30 [36] 26.55 ± 1.06 35.32 ± 1.55 39.41 ± 0.74 25.23 ± 1.08 33.27 ± 0.80 37.68 ± 1.12 4.811 3.564 CP40 [36] 33.57 ± 1.62 43.45 ± 1.6147.82 ± 1.60 31.44 ± 1.13 40.28 ± 0.89 44.12 ± 1.10 4.253 3.175 CP50 [36] 40.91 ± 1.30 49.62 ± 1.76 53.70 ± 0.95 35.95 ± 1.24 45.78 ±0.84 50.87 ± 1.19 3.965 2.9180DB [50] 52.87 ± 1.61 64.13 ± 1.68 70.22 ± 1.56 53.62 ± 1.92 67.44 ± 0.90 72.44 ± 1.64 3.299 1.327 DN-I [48] 35.83 ± 1.11 46.44 ± 0.8751.23 ± 0.73 37.06 ± 1.09 46.31 ± 1.17 51.84 ± 0.81 4.275 2.214 DN-E [6] 28.47 ± 0.89 37.83 ± 1.40 42.64 ± 0.86 28.45 ± 1.01 37.76 ± 0.7143.71 ± 0.82 4.128 2.6130我们的方法 23.44 ± 0.82 33.37 ± 1.06 37.30 ± 0.83 22.94 ± 0.97 31.99 ± 1.05 37.24 ± 0.98 4.082 2.09701 AD不参与比较，因为它不能推广到具有未知相机类型的图像，详见第4.3节。2采用堆叠的卷积层提取的特征进行K-means聚类[3]。0(a) ORI0(b) MF50(c) GF50(d) CP300(e) DB0(f) DN-I0(g) DN-E0图6. VISION-1500中一张图像的视觉比较。0错误地聚类在一起。我们随机裁剪图像中的128个补丁作为其代表，并重复每个实验10次以获得平均结果。验证。此外，我们还在验证任务中进行评估。给定两个输入图像，该任务中的法医方法预测它们是否由同一类型的相机拍摄。我们采用KCMI+为每种类型的相机构建指纹，通过对由同一类型相机拍摄的图像提取的噪声残差进行平均。我们采用手工方法提取噪声残差[14]。然后，我们采用峰值相关能量（PCE）[13]来衡量KCMI-550中的图像与其对应的相机指纹之间的相关性。0较高的PCE意味着取证方法可以更有信心地确定图像的来源[22]。图像评估指标。除了每个任务的具体指标外，我们还提供了一个辅助指标来衡量痕迹擦除方法的处理程度，即计算输入和输出之间的曼哈顿（L1）距离。通常，较大的L1距离表示输入图像已经被严重处理，这通常会导致内容信号的破坏。而较小的L1距离可能表示方法未能对输入进行有效处理。此外，我们使用非参考指标NIQE[33]进行客观质量评估（较小的值表示较高的质量）。29560表3. 验证任务中的定量比较。采用KCMI-550（ORI）的图像进行评估。0方法峰值相关能量 NIQE L1与ORI的距离 1 2 3 4 5 6 7 8 9 10 平均值 10ORI 647.7 390.7 1604.0 300.2 2068.2 1388.6 1170.4 11.9 2896.0 2592.8 1307.1 3.772 -0MF3 [7] 236.7 133.9 630.8 119.9 623.6 612.2 400.6 5.9 686.4 921.8 437.1 4.699 2.325 GF3 [41] 411.9 275.6 1143.9 271.1 1290.1 1066.1 897.5 9.01850.8 1717.5 893.3 4.589 2.521 CP50 [36] 65.7 58.4 250.3 61.1 274.4 144.0 148.7 2.5 343.9 493.5 184.3 4.070 3.104 AD2 [16] 321.4 196.5 1061.8152.2 1118.9 637.7 643.8 7.1 1802.2 1568.0 751.0 4.855 1.994 DB [50] 399.2 267.4 1197.9 229.8 1407.9 877.0 862.0 8.2 2388.6 1740.8 937.93.832 1.312 DN-I [48] 226.5 147.0 553.4 58.7 339.4 418.0 311.3 5.5 183.9 471.2 271.5 4.600 2.097 DN-E [6] 263.0 198.8 854.7 209.6 989.5 584.3682.7 6.3 1613.2 1219.6 662.2 4.801 3.0070我们的方法 53.7 66.9 107.1 74.1 271.9 74.9 233.4 2.1 410.6 266.5 156.1 4.652 2.4910附录中描述了由序列号表示的10种相机类型。为了简化计算，图像被居中裁剪。04.3. 反取证性能评估0我们对各种现有的相机痕迹擦除的反取证方法进行了全面调查，包括中值滤波器（MF），高斯滤波器（GF），JPEG压缩（CP），基于梯度的对抗方法（AD）[16]，盲图像去块（DB）[50]，基于内部相似性的真实世界去噪（DN-I）[48]和基于学习的真实世界去噪（DN-E）[6]。MF和GF后面的数字（即3和5）表示滤波器的核大小，CP后面的数字（即30、40和50）表示质量因子，AD后面的数字（即1和2）表示对抗性抖动的比例因子。如第4.2节所述，我们采用L1距离来衡量图像处理的程度。以表1中CP的结果为例，较大的处理程度（例如CP30与CP50）可以实现更好的反取证性能。然而，这种性能改进是以更严重的信号破坏为代价的（通过较大的NIQE值反映）。因此，为了衡量相机痕迹擦除方法的效率，我们需要同时考虑处理程度。一种高效的方法应该在尽可能少的处理情况下实现良好的反取证性能。根据表1中列出的定量结果，0根据2、3和图5、图6中的可视化结果，我们分析了上述反取证方法的性能。中值滤波器和JPEG压缩对于擦除相机痕迹是有效的，但处理后的图像会出现模糊和阻塞伪影。高斯滤波器的效果较差，即使在大幅度处理的情况下，也无法显著降低取证方法的性能。去块方法[50]无法提供有效的处理来擦除相机痕迹，因为它只能去除相机痕迹中的部分阻塞伪影。两种真实世界图像去噪方法[6,48]的整体性能相对较好，但与我们的方法仍然存在明显差距。基于梯度的对抗方法是专门为基于CNN的分类器设计的[16]。因此，它实现了0表4. 混合损失的消融研究。0混合损失准确率 1 NIQE L1距离到原始图像 L_es L_tf L_ci ResNet50DenseNet2010� � � 20.42±1.19 28.11±1.76 3.676 2.004 � � 37.45±1.19 42.65±2.26 3.6952.030 � � 10.89±1.11 11.71±0.85 5.291 17.724 � � 11.02±0.4310.42±0.26 4.610 2.04501 在分类任务中，对KCMI-550进行比较。0（a）原始图像（b）没有L_ci的我们的方法（c）我们的方法0图7.消融研究的视觉比较。采用了来自KCMI-550的两个图像块进行比较。0在基于CNN的分类器上，我们的方法表现出令人满意的反取证性能，与我们提出的方法相当（如表1所示）。然而，这种对抗方法的泛化能力较差。一方面，对抗性抖动在验证任务中不如我们的方法有效，因为在该任务中采用了使用手工特征而不是基于CNN的经典取证方法（如表3所示）。另一方面，梯度的计算依赖于标签。因此，对抗性方法无法推广到具有未知相机类型的图像，这使其无法处理聚类任务中的图像，因此未列在表2中。与上述基线方法相比，我们提出的SiamTE在相机轨迹消除方面更加高效。具体而言，在类似（或更低）的操纵程度下，SiamTE显著降低了分类准确性。29570impatch0trs（空间）0trs（频率）0iPhone 4S EVA-L09 iPhone 5C Lenovo P70A VNS-L31 RIDGE 4G Redmi Note3 SM-G900F NEM-L51 OnePlus A30030图8.SiamTE在空间和频率域中提取的相机轨迹的可视化。平滑区域中的图像块从VISION中裁剪，大小为500×500。为了获得更好的视觉体验，调整了相机轨迹在空间域中的亮度和对比度。0ResNet50的准确率从99.80%降低到20.42%，如表1所示。在聚类任务中，K-means聚类的性能被SiamTE减半，如表2所示。在验证任务中，SiamTE在图像与其相机类型之间的相关性上实现了87.2%的降低，如表3所示。从在图5和图6中进行的视觉比较来看，我们的结果在感知质量上是令人满意的，这也通过表1和表2中列出的较低的NIQE值得到了验证。综合实验证明了SiamTE在相机轨迹消除方面相对于现有的反取证方法具有明显的优势。04.4. 混合损失的消融研究0我们提出的混合损失由三部分组成：嵌入相似性损失L_es，截断保真度损失L_tf和交叉身份损失L_ci。在本节中，我们进行了消融研究，以展示每个部分的功能。如表4所示，混合损失的每个部分对整体性能都有贡献。没有L_es，反取证性能在分类准确率方面显著减弱。没有L_tf，操纵程度失去控制，导致内容信号严重破坏，如大的NIQE和L1距离所反映的那样。没有L_ci，会引入不利的伪影到视觉结果中，降低图像质量并可能揭示对抗过程，如图7所示。04.5. 相机轨迹分析0在本节中，我们分别分析提取的相机轨迹。使用训练好的SiamTE，我们从KCMI+和KCMI-550中分别提取相机轨迹。然后我们在KCMI+上训练了一个DenseNet201分类器，用于通过提取的相机轨迹而不是图像本身来识别原始图像。在KCMI-550上，我们使用相机轨迹实现了93.21±0.31%的准确率，接近于使用原始图像的99.87±0.12%的准确率。这证实了提取的相机轨迹包含了大部分可区分相机的信息。0图9.GalaxyN3拍摄的单个图像中相机痕迹的可视化。从左到右：原始图像，SiamTE提取的相机痕迹，以及空间和频率域中的补丁。0从原始图像中提取相机痕迹。我们在图8中可视化提取的相机痕迹，它展示了不同类型相机的相机痕迹的变化。相比之下，单个图像中的补丁具有相似的相机痕迹，如图9所示。05. 结论0我们解决了一个新的低级视觉问题，称为相机痕迹擦除，以揭示基于痕迹的取证方法的弱点。验证图像取证的安全性非常重要。我们对现有的反取证方法进行了全面调查，并提出了SiamTE作为先进的解决方案，它显著提高了三个代表性任务中的反取证性能。我们在Siamese架构的基础上设计了一种新颖的混合损失，指导SiamTE在不可见破坏内容信号的情况下有效擦除相机痕迹。0致谢0我们感谢中国国家重点研发计划在2017YFA0700800号下的资助，中国国家自然科学基金会在61671419号下的资助，以及中国国家留学基金委员会在201906340108号下的资助。29580参考文献0[1] Abdelrahman Abdelhamed，Stephen Lin和Michael S.Brown。用于智能手机相机的高质量去噪数据集。在CVPR，2018年。20[2] Nasser Afshin，Farbod Razzazi和Mohammad-ShahramMoin。基于字典的JPEG反取证方法。在智能系统国际会议上，2016年。20[3] David Arthur和Sergei Vassilvitskii。K-means++：小心种子的优势。在ACM-SIAM离散算法研讨会上，2007年。2，5，60[4] AlanconradBovik。中值滤波图像中的条纹。IEEE声学、语音和信号处理交易，35（4）：493-503，1987年。20[5] Chang Chen，Zhiwei Xiong，Xinmei Tian和FengWu。图像去噪的深度增强。在ECCV，2018年。20[6] Chang Chen，Zhiwei Xiong，Xinmei Tian，Zheng-JunZha和FengWu。深度增强的实际图像去噪。IEEE模式分析与机器智能交易，2019年。2，3，5，6，70[7] Jiansheng Chen，Xiangui Kang，Ye Liu和Z JaneWang。基于卷积神经网络的中值滤波取证。IEEE信号处理通信，22（11）：1849-1853，2015年。1，2，5，6，70[8] Yunjin Chen和PockThomas。可训练的非线性反应扩散：快速有效的图像恢复的灵活框架。IEEE模式分析与机器智能交易，39（6）：1256，2017年。20[9] Sumit Chopra，Raia Hadsell和YannLeCun。学习相似度度量鉴别性，应用于人脸验证。在CVPR，2005年。1，30[10] Davide Cozzolino和LuisaV

下载后可阅读完整内容，剩余1页未读，立即下载