自监督描述符在图像复制检测中的应用

149 浏览量更新于2023-10-25 收藏 14.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

145320一种用于图像复制检测的自监督描述符0Ed Pizzi Sreya Dutta Roy Sugosh Nagavara Ravindra Priya Goyal Matthijs Douze0Meta AI0摘要0图像复制检测是内容审核的重要任务。我们介绍了SSCD，这是一个基于最近的自监督对比训练目标的模型。我们通过改变架构和训练目标来将这种方法适应于复制检测任务，包括从实例匹配文献中引入的池化运算符，并将对比学习适应于组合图像的增强。我们的方法依赖于熵正则化项，促进描述符向量之间的一致分离，并且我们证明这显著提高了复制检测的准确性。我们的方法产生了一个紧凑的描述符向量，适用于实际的网络规模应用。可以将背景图像分布的统计信息合并到描述符中。在最近的DISC2021基准测试中，SSCD在所有设置中都明显优于基准复制检测模型和为图像分类设计的自监督架构。例如，SSCD的性能比SimCLR描述符提高了48%。代码可在https://github.com/facebookresearch/sscd-copy-detection获取。01. 引言0所有在线照片分享平台都使用内容审核来阻止或限制传播被认为有害的图像：恐怖主义宣传、虚假信息、骚扰、色情等等。对于明确的数据（如色情图片），可以自动进行内容审核，但对于复杂的数据（如表情包或虚假信息），这就更加困难了。在这些情况下，内容需要手动进行审核。对于病毒式的图像，同一张图像可能会被上传数千次，对每个副本进行手动审核是繁琐和不必要的。相反，可以将每个手动审核决策的图像记录在数据库中，以便以后进行重新识别并自动处理。本文关注的是这个基本的重新识别任务。这是一个非常重要的任务，因为复制的图像是0图1.用于图像复制检测的SSCD架构。它基于SimCLR，并添加了熵正则化、cutmix/mixup-aware InfoNCE和推理时的分数归一化。0由于技术原因（例如，用户分享了一个捕捉到额外内容的手机截图）或用户可能进行对抗性编辑以逃避审核，图片经常被修改。图像重新识别是一个图像匹配问题，还有两个额外的挑战。首先是复制检测系统部署的巨大规模。在这个规模下，唯一可行的方法是将图像表示为短描述符向量，可以使用近似最近邻搜索方法进行高效搜索。复制检测系统通常分为两个阶段：检索阶段产生候选匹配的短列表和验证阶段，通常基于局部描述符匹配，对候选进行操作。本文关注的是第一阶段。图1显示了我们的自监督复制检测（SSCD）方法的整体架构。第二个挑战是需要进行一个困难的匹配/非匹配决策，而正面图像对很少。我们希望使用阈值限制验证候选项，这是比典型的图像检索设置更严格的约束，典型的图像检索设置只关注结果的顺序。SSCD使用差分熵正则化来限制验证候选项。Massachusetts Dept. of Environmental ProtectionParker KnightweisserstierZHANG HONGFENGdanperry.comjaycrossChristopher S HeadJim, the Photographer145330促进统一的嵌入分布，具有三个效果：（1）使来自不同嵌入区域的距离更具可比性；（2）避免了[29]中描述的嵌入崩溃，充分利用嵌入空间；（3）它还改进了不需要一致阈值的排名指标。分数归一化对于排名系统很重要。高级分数归一化依赖于将查询图像与一组背景图像进行匹配。在这项工作中，我们展示了如何将这种归一化方法纳入图像描述符本身。我们预计这项工作将为图像复制检测建立一个强大的单模型基准。我们计划发布我们方法的代码和模型。第2节讨论了与本文相关的工作。第3节在简化的设置中阐述了使用熵损失项的动机。第4节仔细描述了SSCD。第5节介绍了我们方法的结果和消融实验。第6节指出了关于复制检测任务的一些观察。02. 相关工作0内容追踪方法。在用户生成的照片共享平台上进行的内容追踪旨在在图像流通到平台外部并重新进入平台时重新识别图像。追踪方法分为三大类：基于元数据的[1,3]，基于水印的[13, 32, 51,63]和基于内容的。这项工作属于最后一类。经典的用于内容追踪的图像数据集，如Casia [16,36]，侧重于图像的修改，如拼接、删除和复制移动变换[16,44,54]，这些变换仅改变图像表面的一小部分，因此可以可靠地使用简单的基于兴趣点的技术进行重新识别。挑战在于检测篡改的表面，通常使用受图像分割启发的深度模型来解决[34,62]。相关的研究方向是图像谱系：目标是识别在初始状态和最终状态之间应用于图像的一系列编辑[14, 15,33]。由NIST组织的Nimble/Media取证系列竞赛旨在对这些任务进行基准测试[40,57]。在这项工作中，我们专注于识别本身，涉及强变换和需要区分的近似副本（见图2）。0语义和感知图像比较。关于近似复制图像匹配的几个定义，形成了一个从像素级复制到实例匹配的连续[18,28]。我们在这项工作中使用的定义是：如果图像来自同一个2D图像源，则认为它们是副本。更宽松的定义允许例如匹配视频中的相邻帧。关于解决实例匹配的大量文献[7, 11,26, 35, 37,46-48]，即识别具有视点/摄像机变化的相同3D对象的图像。在这个0查询SSCD SimCLR0图2.DISC2021数据集的示例检索结果。每一行是一个示例。从左到右：查询图像，SSCD返回的第一个结果，SimCLR基线返回的第一个结果。0工作，我们借鉴了这些文献，因为它涉及复杂的图像匹配，而据我们所知，最近的工作和严格的复制检测基准很少[17,53]。0实例匹配。经典的实例匹配依赖于3D匹配工具，如兴趣点[26, 35,43]。基于CNN的方法使用来自图像分类的主干网络，可以是预训练的[4, 20, 49]，也可以是端到端训练的[21,38]，并进行两个适应：(1)将最后一个CNN激活图转换为向量的池化层是最大池化[49]，或者更一般的GeM池化[39]，一种Lp归一化的形式，其中p适应图像分辨率[7]；(2)对向量进行仔细的归一化。除了简单的L2归一化[4]之外，通常还使用“白化”来比较描述符[25,49]。另一种归一化技术是将距离与图像的背景分布进行对比[18,27]。在这项工作中，我们将这些池化和归一化技术应用于复制检测。0对比自监督学习。最近的自监督学习研究线路使用对比目标学习图像表示，这些图像表示可以带来转换后的图像66145340年龄一起。这些方法要么区分图像特征[10, 22,24]，要么区分这些图像特征的聚类分配[8]。这些方法要么依赖于内存库[24,56]，要么依赖于大批量大小[10]。特别地，SimCLR[10]使用匹配的转换图像副本作为替代任务，学习一个通用的图像表示，可以很好地转移到其他任务，如图像分类。使用对比的InfoNCE损失[52]将相同源图像的副本映射到嵌入空间中的附近位置。0差分熵正则化。增加媒体描述符的熵会强制它们在表示空间中扩散。Sablayrolles等人[42]观察到可以使用Kozachenko-Leonenko差分熵估计器[6]在本地估计熵，该估计器可以直接合并到损失中以最大化描述符的熵。El-Nouby等人的工作[19]与我们的方法最接近。它在微调时将熵项添加到对比损失中，以提高类别和实例检索的准确性。我们的方法类似，应用于自监督目标和图像复制检测。03. 动机0在本节中，我们从SimCLR[10]方法开始，然后进行一个简单的实验，将其与[42]中的熵损失相结合，并观察它对分类和复制检测任务的影响。03.1. 准备工作：SimCLR0SimCLR训练最好在小批量级别上描述。对于N个图像的批次，它创建每个图像的两个增强副本（重复增强），得到2N个转换后的图像。匹配图像的正对为P = {(i, i + N), (i +N, i)} i = 1..N。我们将图像i的正匹配表示为P i = {j | (i, j) ∈P}。每个图像都经过CNN主干网络的变换。CNN的最终激活图被平均池化，然后使用两层MLP投影到L2归一化的描述符z i ∈ Rd。描述符使用余弦相似度进行比较：sim(z i, z j)= z > i zj。对比的InfoNCE损失最大化了副本之间的相似性相对于非副本的相似性。对于推断（例如转移到图像分类），SimCLR丢弃了训练时的MLP，直接使用CNN主干的全局池化特征。0InfoNCE损失。SimCLR的InfoNCE损失是带有温度的softmax交叉熵，将描述符与其他描述符进行匹配。设 s i,j为温度调整后的余弦相似度 s i,j = sim(z i, z j)/�。InfoNCE损失被定义为正对数对(i, j) ∈ P的`i,j项的均值：0` i,j = -log exp0k 6 = i exp( s i,k ) (1)0L InfoNCE = 1 |P |0i,j ∈ P ` i,j. (2)03.2. 熵正则化0我们使用[42]中提出的差分熵损失，基于Kozachenko-Leononenko估计器。我们通过仅对来自不同源图像的邻居进行正则化来将其适应于重复增强设置：0L KoLeo = -10N0i = 1 log � min j 62 ˆ P i k z i - z jk �, (3)0其中ˆ P i = P i[{i}。由于该熵损失是到最近邻的距离的对数，它对于附近的向量影响非常大，但当描述符相距较远时，其影响迅速减弱。其效果是“推开”附近的向量。0图3.初步实验：我们在ImageNet上训练SimCLR模型，使用不同的差分熵正则化强度（常规SimCLR：λ =0）。我们测量：ImageNet线性分类准确率和DISC2021微平均精度（µAP），可选的分数归一化（µAPSN）。ImageNet和DISC2021的度量不可比较，但每个曲线内的趋势是显著的。03.3. 实验：SimCLR和熵0对于这个实验，我们将我们的对比损失与熵损失相结合，使用权重因子λ，类似于[19, 42]：0L basic = L InfoNCE + λ L KoLeo. (4)0然后我们评估组合损失对图像分类设置和复制检测设置的影响，详见第5.1节。图3显示了变化的熵损失权重λ对这两个任务的影响。随着熵损失权重的增加，ImageNet线性分类准确率下降：这个损失项对分类没有帮助。相反，对于复制检测，准确率显著增加。图4显示了匹配图像（正对）与最近的非匹配邻居（负对）之间距离的分布。应用熵损失增加了所有距离，并使负距离分布更窄。结果是正对和负分布的模之间存在更大的对比度，即它们更明显地分离。term is not helpful for classiﬁcation. Conversely, for copydetection the accuracy increases signiﬁcantly.Figure 4 shows the distribution of distances betweenmatching images (positive pairs) and the nearest non-matching neighbors (negative pairs). Applying the entropyloss increases all distances and makes the negative distancedistribution more narrow. The result is that there is a largercontrast between positive pairs and the mode of the negativedistribution, i.e. they are more clearly separated.145350图4.初步实验：DISC2021匹配图像和非匹配最近邻的平方距离直方图。上方：基准SimCLR。下方：结合熵正则化的SimCLR（权重λ=30），无白化或相似性归一化。04. 方法0在看到熵损失如何提高复制检测准确性后，本节中我们将其扩展为一个稳健的图像复制检测方法：SSCD。这涉及到调整架构、数据增强、池化，并添加一个归一化阶段，如图1所示。04.1. 架构0SSCD使用ResNet-50卷积主干提取图像特征。我们选择这个架构是因为它被广泛使用，经过优化，并且在图像分类方面仍然非常有竞争力[55]，但是任何CNN或Transformer主干都可以使用（参见第5节）。0池化。对于分类，最后一个CNN激活图通过平均池化转换为向量。我们使用广义均值（GeM）池化，据证明[7,39]可以提高描述符的区分能力。这对于实例检索和我们的复制检测案例都是有益的。GeM引入一个参数p，当p=1时等价于平均池化，当p！=1时等价于最大池化。SSCD使用p=3，遵循图像检索模型的通用做法[7,39,49]。0类型详细信息0SimCLR水平翻转，随机裁剪，颜色抖动，灰度化，高斯模糊0强模糊50%大半径高斯模糊（σ2 [1, 5]）0高级10%旋转，10%文本，20%表情符号，20%JPEG压缩0高级+混合2.5%混合，2.5%切割混合0表1.SSCD使用的数据增强方法列表。增强方法是递增的：每个增强方法都包括前面所有行的增强方法。百分比是应用每个增强方法的概率。0虽然在推断时使用GeM池化可以系统地提高准确性，但我们观察到在训练时只有与差分熵正则化结合使用时才有益，即在使用普通的InfoNCE训练时最好使用平均池化。我们推测，GeM池化可能降低了训练任务的难度，而不需要最大化分离嵌入点的附加目标。我们观察到，对于对比学习来说，学习标量p（如[39]中提出的）会失败：池化参数会无限增长，直到训练变得数值不稳定。0描述符投影。SimCLR在训练时使用了一个2层的MLP投影。在推断时，MLP被丢弃，直接使用CNN主干的特征。MLP的部分动机是为了保留基础网络中的变换协变特征，尽管训练任务要求一个变换不变的描述符。Jing等人[29]还发现，MLP可以防止嵌入坍缩到一个低维空间，这是由InfoNCE损失引起的。对于SSCD，训练和推断任务是相同的，不需要变换协变特征，差分熵正则化可以防止维度坍缩。我们将MLP替换为一个简单的线性投影到目标描述符大小，并在推断时保留这个投影。04.2. 数据增强0自监督对比目标学习通过匹配图像在图像变换中的对应关系。这些方法对训练时所见的数据增强非常敏感[10]，因为对这些变换的不变性是唯一的监督信号。表1列出了我们实验中使用的SSCD数据增强方法。需要注意的是，由于我们的主要评估数据集（DISC2021）部分使用了数据增强，存在过拟合于该数据集的风险。这通过以下方式得到缓解：（1）DISC2021的增强集合没有精确的了解，（2）我们使用简单的模糊增强来训练得到强大的结果。我们的起始基线是SimCLR默认的一组增强方法。61j2Pi.(8)145360强模糊。经验上，复制检测受益于比对比学习通常使用的更强的模糊。我们将模糊增强与SimCLR相比进行了加强。我们认为对模糊的不变性赋予了低频偏差，降低了模型对现实世界复制品常见的高频噪声的敏感性。我们在大多数消融步骤中使用这个设置，因为它易于复现，并为比较方法提供了一个良好的基准设置。这个增强最初是在一个专有数据集上调整的，不太可能过拟合于DISC2021。0高级增强。我们使用额外的增强来评估我们的方法，以展示随着增加增强的方式SSCD的扩展。一半的旋转是90度的倍数，另一半是不受限制的。文本具有随机的字体、文本、不透明度、字体大小和颜色。我们添加了随机大小的表情符号。我们使用随机采样的压缩质量对图像进行JPEG压缩。这些增强在某种程度上受到DISC2021的启发，但对于图像复制检测问题来说仍然是相当通用的。0混合图像。我们使用两种将两个图像的内容组合在一个训练批次中的增强。在复制检测的背景下，这些增强模拟了部分复制，其中图像的一部分包含在复合图像中。Mixup[61]是两个图像（a和b）的像素加权平均，参数γ∈[0,1]：γ∙a + (1-γ)∙b。CutMix[59]将一个图像的矩形区域移动到另一个图像中。有关实现细节，请参见附录D。混合图像与批次中的多个图像匹配，需要对我们的损失进行更改，如下所述。04.3.损失函数0SSCD使用对比InfoNCE和熵损失的加权组合，如方程（4）所示。然而，我们需要为混合图像增强的情况调整这两个损失，其中Pi可能包含多个匹配图像。0使用MixUp/CutMix增强的InfoNCE。我们将InfoNCE损失（见第3.1节）调整为适应将多个图像的特征混合的增强。给定一个图像i和完全或部分匹配j∈Pi，我们将方程（1）中的成对损失项修改为:0ˆ ` i,j = -log 0exp(si,j) + P0k 62 ˆPi exp(si,j), (5)0其中ˆPi =Pi[{i}。然后通过对每个图像取平均值来组合这些项，以使每个图像对整体损失的贡献相似，并计算每个图像的平均损失。注意，这等效于非混合图像的InfoNCE。0L InfoNCE - mix =1/2N02 NX0i=10| P i |0X0ˆ ` i,j . (6)0熵损失。我们在方程（3）中对熵损失的表述保持不变，只是将ˆPi更新为包含多个匹配图像。0组合。损失通过熵权重参数λ进行组合:0L = L InfoNCE - mix + λ L KoLeo (7)0多GPU实现。对比匹配任务受益于大批量处理，因为这提供了更强的负样本。在全局批次上评估损失，将图像描述符在多个GPU上聚合。所有GPU的描述符都包含在负样本InfoNCE匹配中，并且我们从全局批次中选择最近邻来进行熵正则化。为了避免在批次内泄露信息，批次归一化统计数据在GPU之间进行同步。我们使用LARS[58]优化器来稳定训练大批量数据。04.4.推理和检索0对于推理，损失项被丢弃。从图像中提取特征，使用卷积主干、GeM池化、线性投影头和L2归一化。然后对描述符进行白化处理。白化矩阵是在DISC2021训练集上学习得到的。描述符可以通过余弦相似度或等效的简单L2距离进行比较。04.5.相似性归一化0我们遵循[18]使用相似性归一化[12,27]作为我们的评估设置之一。它使用图像的背景数据集作为噪声分布，并仅为那些参考相似性大于其与背景数据集中最近邻的相似性的查询产生高相似性分数。给定查询图像q和参考图像r，其相似性s(q, r) = sim(zq,zr)，调整后的相似性为ˆs0(q, r) = s(q, r) - βs(q,bn)，其中bn是背景数据集中的第n个最近邻，β≥0是一个权重。我们通过对背景数据集中的多个邻居(n到nend)聚合平均相似性来推广这一方法:0ˆs(q, r) = s(q, r) - β01 + nend - n0nen0i = ns(q,0|{z}bias(q)0集成偏差。携带偏差项使得描述符的索引更加复杂。因此，我们将偏差作为附加维度包含在描述符中：0ˆzq = [zq - bias(q)] ˆzr = [zr 1] (9)145370然后我们回到ˆs(q, r) = sim(ˆzq,ˆzr)。描述符未归一化，即点积相似度不等同于L2距离。如果索引偏好L2距离，可以使用[5]中的方法将最大点积搜索任务转换为L2搜索。相似性归一化始终改善指标。但是它增加了操作复杂性，并且可能使得难以检测到与背景分布相似的内容。因此，我们报告带有和不带有此归一化的结果05. 实验0在本节中，我们评估SSCD用于图像复制检测。尽管相对简单，但它依赖于各种设置，我们在广泛的消融研究中进行评估05.1. 数据集0DISC2021.大多数评估都是在图像相似性挑战的验证数据集DISC2021[18]上进行的。DISC2021包含自动图像变换和手动编辑。其中有100万个参考图像和5万个查询图像，其中1万个是真实副本。一个不相交的100万图像训练集用于模型训练和分数归一化的背景数据集。训练集不包含副本或标签，但它代表了数据集的图像分布。性能使用微平均精度（µAP）进行评估，该指标测量了在统一距离阈值下的精确度-召回率权衡0ImageNet. 对于一些实验，我们在ImageNet[41]的训练集上训练模型（忽略类别标签）。我们使用ImageNet线性分类来衡量我们的复制检测方法对语义表示学习的影响。0Copydays[17]是一个小型的复制检测数据集。按照常见做法[7,9]，我们使用来自YFCC100M[45]的10k个分散物进行增强，这被称为CD10K，并使用平均平均精度（mAP）评估强鲁棒变换副本的检索性能。除了这个标准度量之外，我们还评估整个数据集上的µAP05.2. 训练实现0我们使用SimCLR [10]的训练计划和超参数：批量大小N =4096，分辨率224×224，学习率为0.3×N/256，权重衰减为10^-6。我们在ImageNet或DISC训练集上训练模型100个epoch，使用余弦学习率调度而不重启和线性斜坡上升。我们使用LARS优化器以实现大批量训练的稳定性。我们以空间分辨率224×224进行训练。我们使用比SimCLR更低的温度，� =0.05，而不是0.1，根据[10]的观察，这个设置可以获得更好的结果0在训练任务上提高准确性，同时降低下游分类任务的准确性。05.3. 评估协议0推理。我们将图像的小边缘调整为大小288，保持纵横比以适应完全卷积模型。我们使用比训练中看到的更大的推理尺寸，以避免训练和测试之间的差异[50]。我们使用DINO [9]ViT基线的不同预处理方法，遵循他们的复制检测方法。有关详细信息，请参见附录D。0描述符后处理。图像检索受益于PCA白化。SSCD描述符被白化，然后进行L2归一化。对于使用CNN主干特征的基线方法，我们在白化之前和之后都进行L2归一化。SimCLR投影特征通常占据低维子空间，使得在完整描述符大小上进行白化不稳定，并且许多表示在排除低方差维度的情况下进行白化时表现更好。对于基线方法，我们尝试维度 {d, 3}04, . . . }并选择使最终准确性最大化的那个。对于SSCD，我们在完整的描述符大小上进行白化。我们使用FAISS[30]库应用嵌入后处理并执行穷举的k最近邻搜索。我们在DISC2021训练数据集上训练PCA，遵循该数据集的标准协议。05.4. 结果0在变换维度µAP µAP SN上训练的方法0Multigrain [7, 18] ImageNet � 1500 16.5 36.5 HOW [18, 48] SfM-120k �17.3 37.20Multigrain [7] ImageNet � 2048 20.5 41.7 DINO [9] † ImageNet 1500 32.253.8 SimCLR [10]主干ImageNet SimCLR 2048 13.1 33.9 SimCLR [10] projImageNet SimCLR 128 9.4 17.30SimCLR CD主干ImageNet强模糊 2048 39.8 56.8 SSCD ImageNet强模糊512 50.4 64.5 SSCD ImageNet高级 512 55.5 71.0 SSCDImageNet高级+mixup 512 56.8 72.20SSCD DISC强模糊 512 54.8 63.6 SSCD DISC高级 512 60.4 71.1 SSCDDISC高级+mixup 512 61.5 72.50SSCD large † DISC adv.+mixup 1024 63.7 75.30表2.DISC2021数据集上的复制检测性能，以µAP为度量。�：使用有监督标签的方法。†：主干大于ResNet50。DINO基准使用ViT-B/16。0DISC结果。表2报告了[18]中发布的基准方法和SSCD的DISC2021结果。我们的评估协议为Multigrain基准方法（第3行）获得了稍微更强的结果。首先观察到，在进行任何调优之前，SSCD将基线的准确性提高了2到5倍。145380得分归一化，表明复制检测受益于特定的架构和训练调整。我们在ImageNet或DISC2021上训练了几个不同的SSCD模型，使用我们提出的三种数据增强设置。中间模型SimCLRCD除了熵损失外，具有我们所有的建议更改。SSCDlarge模型使用更大的描述符大小和ResNeXt-101主干。我们评估SimCLR使用主干特征和投影特征，并发现主干特征（µAP =13.1）在有和没有得分归一化的情况下都优于投影头的特征（µAP =9.4）。进一步的实验（附录A）显示在使用熵损失进行训练时相反的情况：尽管表示更紧凑，但投影特征的准确性与主干特征相似。SimCLR CD（没有得分归一化的µAP =39.8）相对于SimCLR（13.1）的增益在第5.5节中进行了分解。在SSCD中引入熵损失额外贡献了10%的µAP绝对值，这进一步增加了更强的数据增强（+6.2%）和在具有较少领域偏移的数据集上训练（+4.7%）的µAP。这些发现在得分归一化后得到了确认。0Copydays结果。表3报告了使用公开发布的模型的基准方法的结果，但省略了我们无法复现的Multigrain设置。我们使用基线和白化的已发布预处理设置。我们的DINO结果优于已发布的结果。0模型主干维度大小mAP µAP0Multigrain [7] ResNet50 1500 长边800 82.3 77.3 DINO [9]ViT-B/16 1536 224 2 82.8 92.3 DINO [9] ViT-B/8 1536 320 2 86.188.40SSCD ResNet50 512 短边288 86.6 98.10SSCD large ResNeXt101 1024 长边800 93.6 97.10表3.在“strong”子集上以mAP为度量的Copydays（CD10K）准确性，以及在整个数据集上以µAP为度量的准确性。0我们的DISC2021实验中，第一个SSCD结果是使用所有设置，其中将每个图像的短边调整为288像素。在此数据集上没有进行调优的情况下，我们的方法优于已发布的结果。我们还展示了使用ResNeXt101主干和1024个描述符维度的SSCDlarge结果，在更大的推理尺寸上。我们在附录B中报告了更多关于CD10K的结果。除了使用常规的mAP排名指标获得的最新准确性外，我们的方法在全局µAP指标上提供了显著的改进，表明距离校准更好。在常用于图像检索的高分辨率图像上，我们观察到mAP有所提高，但µAP有所下降。SSCD描述符比基线更紧凑。05.5. 消融实验0与SimCLR的比较。我们在表4中逐步比较了SimCLR和我们的方法。SimCLR投影特征在这个任务中并不特别强大，直到我们应用了几个自适应方法。SimCLR无法利用R512描述符，只略优于R 128设置。SimCLRCD代表了我们在添加差分熵表示之前的架构和超参数更改。仅仅差分熵正则化就增加了17.4%的µAP和12.9%的µAPSN，超过了其他任何步骤。0得分归一化：否是名称方法维度 µAP 256d µAP SN 256d0SimCLR主干特征 2048 13.1 7.3 33.9 26.8 + GeM池化 2048 21.5 12.145.3 35.80SimCLR投影 128 9.4 9.4 17.3 17.3 + GeM池化 128 11.1 11.1 18.8 18.8+ 强模糊 128 14.1 14.1 26.0 26.0 + 低温 128 26.0 26.0 41.5 41.5 +512d投影 512 27.5 27.5 43.5 43.5 SimCLR CD + 线性投影 512 33.0 32.451.6 50.50SSCD + 熵损失 512 50.4 44.0 64.5 57.8 SSCD + 对抗增强 512 55.5 49.771.0 65.8 SSCD + mixup 512 56.8 51.1 72.2 67.10表4.从SimCLR到我们的方法的消融实验，显示在ImageNet上训练的模型的DISC2021µAP性能。为了比较不同大小的描述符，我们还展示了经过PCA降维到256维后的指标。0熵权重。表5比较了熵损失权重（λ）对复制检测准确性的影响，使用SimCLRCD作为基线。此实验中的模型使用强模糊增强设置进行训练。0模型 µAP µAP SN 召回率@1 平均倒数排名0SimCLR CD 33.0 51.6 58.6 60.5 λ = 1 33.1 51.958.7 60.9 λ = 3 38.0 56.1 62.9 65.1 λ = 10 45.361.5 67.7 69.5 λ = 30 50.4 64.5 69.8 71.40表5. 在ImageNet上训练的模型中，使用不同的熵权重λ的DISC2021准确性指标。0随着熵权重的增加，我们看到全局准确性指标相应增加。我们还看到排名指标（如召回率和平均倒数排名）也有类似增加。排名指标的增加表明，差分熵正则化在提高复制检测准确性方面起到了作用，不仅仅是创造了更均匀的距离概念。145390与度量学习环境中使用熵正则化不同，复制检测受益于更高的λ值。我们的标准设置是λ = 30，而[19]报告了λ >1时准确性降低，[42]使用的值小于0.1。在λ >40时，训练变得不稳定，并且倾向于以牺牲InfoNCE损失为代价来最小化熵损失：嵌入被均匀分布，但由于图像副本不再靠近，变得毫无意义。0额外的消融实验。我们在附录A中探讨了批量大小、训练计划、描述符维度和得分归一化对准确性的影响。06. 讨论0维度崩溃。我们发现，与[29,60]类似，当在512维度中训练时，SimCLR会坍缩到大约256维的子空间。表4显示，当描述符大小从128增加到512维时，SimCLR的准确性并没有显著提高。SSCD的熵正则化解决了这种坍缩，并允许模型使用完整的描述符空间。0熵正则化和白化。与没有白化或相似性归一化的基线相比，SSCD在没有白化或相似性归一化的情况下要准确得多：在ImageNet上训练时，λ =30的模型的µAP为47.8，而等效的λ =0模型为26.8。熵损失和训练后的PCA白化都旨在创建更均匀的描述符分布。然而，PCA白化可能会扭曲训练期间学习到的描述符空间，特别是当许多维度具有微小方差时。差分熵正则化促进了一个近似均匀的空间，使模型能够在训练过程中适应近似白化的描述符，减少了白化引起的扭曲。0均匀分布作为感知先验。在本文的大多数实验中，我们专注于需要在固定阈值下将匹配和非匹配分开的µAP指标。然而，表5显示，随着熵损失权重的增加，排名指标也得到了改善，即更好的查询校准并不能完全解释熵正则化的好处。差分熵正则化充当一种先验，选择一个均匀分布的嵌入空间。我们认为，当应用于对比学习时，这种正则化是一种感知先验，选择更强的复制检测表示。理想的复制检测描述符应该将相同图像的副本映射在一起，同时保持语义上相似的（相同“类别”）图像相距较远，即描述符分布是均匀的。这与用于传递学习到分类的表示的理想属性不同，在该表示中，描绘相同类别的图像应该是相邻的（一个密集的区域），并且与其他类别（类别之间的稀疏区域）相互分离。0视觉结果。图2显示了一些检索结果，其中SSCD优于普通的SimCLR。前两个示例演示了训练时更合适的数据增强对结果的影响：SSCD忽略了文本覆盖和模糊/颜色平衡。最后两个示例显示，当SSCD正确恢复源图像时，SimCLR会退回到低级纹理匹配（草地）。0限制。我们的方法在使用文本增强训练时明确地不受文本影响，即使在没有使用文本增强训练时，我们发现它在某种程度上也不受文本影响。因此，当匹配完全由文本组成的图像时，SSCD不是很精确。即使照片是不同的，同一场景的不同照片（例如地标）可能被识别为副本。有时，图像被合并以创建复合图像或拼贴画，其中复制的内容可能仅占复合图像的一小部分区域。这种“部分”复制很难用SSCD这样的全局描述符模型检测出来，这种情况下可能需要使用局部描述符方法。最后，高精度匹配通常需要进行额外的验证步骤。0伦理考虑。我们将调查重点放在DISC2021数据集上，该数据集在处理人物图像时非常谨慎，仅使用了经过认可的付费演员的可识别照片用于研究。用于内容审核的复制检测是对抗性的。发布针对此问题的研究存在一个风险，即会更好地向试图规避检测的人提供信息。我们认为，这一风险可以通过开放研究带来的改进来抵消。这项技术可以扩大手动审核的规模，有助于保护用户免受有害内容的侵害。然而，它也可以被用于政治审查等方面。我们仍然相信推进这项技术是有益的。07. 结论0我们提出了一种训练有效的图像复制检测模型的方法。我们展示了架构和目标的改变，以使对比学习适应复制检测。我们展示了差分熵正则化显著提高了复制检测的准确性，促进了图像描述符的一致分离。我们的方法在DISC2021上展示了强大的结果，显著超过了基线，并且在Copydays上也取得了最先进的结果。我们的方法效率高，因为它依赖于标准的主干网络，使用比图像检索通常更小的推理尺寸，并产生紧凑的描述符。此外，它的校准距离度量限制了验证候选项。我们相信这些结果展示了均匀嵌入分布与复制检测任务之间的独特兼容性。145400参考文献0[1]2019年社交媒体网站照片元数据测试结果。https://iptc.org/standards/photo-metadata/social-media-sites-photo-metadata-test-results-2019/。访问日期：2020年10月20日。0[2] Hunt Allcott，Matthew Gentzkow和ChuanYu.社交媒体上虚假信息传播的趋势。研究与政治，6（2）：2053168019848554，2019年1月。0[3] J Aythora，R Burke-Ag¨uero，A Chamayou，SClebsch，M Costa，J Deutscher，N Earnshaw，L Ellis，PEngland，CFournet等。多利益相关方媒体来源管理以应对新闻发布中的合成媒体风险。在国际广播大会（IBC）会议记录中，卷1，页码8，2020年2月。0[4] Artem Babenko，Anton Slesarev，Alexandr Chigorin和VictorLempitsky.图像检索的神经编码。在ECCV会议记录中，页码584-599。Springer，2014年2月。0[5] Yoram Bachrach，Yehuda Finkelstein，RanGilad-Bachrach，Liran Katzir，Noam Koenigstein，NirNice和Ulrich Pa-quet.使用欧几里德变换加速Xbox推荐系统。在第8届ACM推荐系统会议记录中，页码257-264，2014年6月。0[6] Jan Beirlant，E J. Dudewicz，L Gyor和E.C.Meulen.非参数熵估计：概述。国际数学和统计科学杂志，6，1997年3月。0[7] Maxim Berman，Herv´e J´egou，AndreaVedaldi，Iasonas Kokkinos和MatthijsDouze.多粮食：一种统一的类和实例图像嵌入。arXiv预印本arXiv:1902.05509，2019年2月4日6日7日13日。0[8] Mathilde Caron，Ishan Misra，Julien Mairal，PriyaGoyal，Piotr Bojanowski和ArmandJoulin.通过对比聚类分配进行无监督学习的视觉特征。arXiv预印本arXiv:2006.09882，2020年3月。0[9] Mathilde Caron，Hugo Touvron，Ishan Misra，Herv´eJ´egou，Julien Ma

下载后可阅读完整内容，剩余1页未读，立即下载