基于深度正交融合的单级图像检索

50 浏览量更新于2023-10-13 收藏 2.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11772DOLG：基于深度正交融合的单级图像检索局部和全局特征Min Yang*，Dongliang He*，†，Miao Fan，BaorongShi，Xuetong Xue，Fu Li，Errui Ding，JizhouHuang†百度公司，中国{yangmin09，hedongliang01，fanmiao，shibaorong}@ baidu.com，{xuexuetong，lifu，dingerrui，huangjizhou01}@ baidu.com摘要图像检索是从数据库中获取与查询图像相似的图像的基本任务。常见的图像检索实践是首先通过使用全局图像特征的相似性搜索来检索候选图像，然后通过利用它们的局部特征来对候选图像进行重新排序。以往基于学习的研究主要集中在全局或局部图像表示学习来解决检索任务。在本文中，我们放弃了两个阶段的范例，并寻求设计一个有效的单阶段的解决方案，通过将图像内部的局部和全局信息集成到紧凑的图像表示。具体-阶段1：回收查询数据库在此基础上，提出了一种深度正交局部和全局（DOLG）的端到端信息融合框架。(a) 现有两级管道(b) 我们的单级管道年龄检索该算法首先利用自关注和多核卷积的思想，集中提取具有代表性的局部信息然后从局部信息中提取与全局图像表示正交的分量。最后，将正交分量与全局表示连接作为互补，然后执行聚集以生成最终表示。整个框架是端到端可区分的，并且可以使用图像级标签进行训练。大量的实验结果验证了我们的解决方案的有效性，并表明，我们的模型实现了国家的最先进的图像检索performances上的牛津和巴黎的数据集。11. 介绍图像检索是计算机视觉中的一项重要工作，其主要目的是从大规模的数据库中找出与查询图像相似的图像。通过设计各种手工制作的功能[25，6，50]，对其进行了广泛研究。由于深度学习的发展--*同等贡献。†通讯作者。1代码：PaddlePaddle实现。图1：当前两级和我们的单级阶段图像检索先前的方法（a）首先经由全局深度表示从数据库中获得与查询相似的候选，然后提取局部描述符我们的方法（b）通过正交融合聚合全局和局部特征以生成最终的紧凑描述符，然后执行单镜头相似性搜索。近年来，技术取得了很大进展[1，29，37，9]。图像的表示（也称为描述符），用于编码图像内容和测量它们的相似性，在这项任务中起着核心作用。在基于学习的解决方案的文献中，两种类型的图像表示被广泛探索。一个是全局特征[4，3，44，1]，它充当高级语义图像签名，另一个是局部特征[5，36，29，18]，其可以包括关于特定图像区域的判别几何信息。通常，全局特征可以被学习为对视点和光照不变性因此，以前的最先进的解决方案查询月1数据库第2第二阶段：重新排名查询月1第2Orth月1第211773[38，29，9]总是在两阶段范式中工作如图1（a）所示，通过具有高召回率的全局特征检索候选，然后利用局部特征执行重新排序以进一步提高精度。在本文中，我们还专注于使用深度网络的图像检索领域。虽然通过先前的两阶段解决方案已经实现了最先进的性能，但是它们需要对图像进行两次排名，并且使用昂贵的RANSAC进行第二重新排名阶段[13] 或AMSK [42]用于具有局部特征的空间验证。更重要的是，错误在这两个阶段都不可避免地存在。两阶段解决方案将遭受误差累积，这可能是进一步性能改进的瓶颈为了缓解这些问题，我们放弃了两阶段框架，并试图找到一个有效的统一的单阶段图像检索解决方案，如图1（b）所示。以往的观点认为全局特征和局部特征是图像检索中两个相互补充的基本要素。直观地说，将局部特征和全局特征集成到一个紧凑的描述符中可以实现我们的目标。一个令人满意的局部和全局融合方案可以利用这两种类型的特征，以相互促进对方的单级检索。此外，可以避免误差累积。因此，我们从技术上回答了如何为端到端的单级图像检索设计一种有效的全局和局部融合机制具体地说，我们提出了一种深度正交局部和全局特征融合模型（DOLG）。它包括一个局部和全局分支，用于联合学习两种类型的特征和一个正交融合模块来组合它们。具体地，从局部特征分解与全局特征正交的局部分量。随后，正交分量与全局特征连接作为互补部分。最后，它被聚集成一个紧凑的描述符。与我们的正交融合，可以提取最关键的局部信息和冗余组件的全球信息被淘汰，使本地和全球组件可以相互加强，以产生最终的代表性描述符与面向对象的训练。为了增强局部特征学习，受来自先前研究的教训的启发，局部分支配备有多atrous卷积[10]和自我注意[29]机制，以专注地提取代表性的局部特征。我们在正交特征空间学习方面认为FP-Net [31]相似，但DOLG的目标是正交空间中特征的互补融合。在Revisited Oxford和Pairs [32]上的大量实验表明了我们框架的有效性DOLG还在两个数据集上实现了最先进的性能总结起来，我们的主要贡献如下：• 我们提出了一个新的正交的全局和局部特征融合框架，它可以产生一个组合的单阶段模式检索图像。Pact代表性图像描述符并且是端到端可学习的。• 为了集中地提取有区别的局部特征，设计了一个具有多个atrous卷积层的模块，然后是一个自注意模块，用于改进我们的局部分支。• 进行了大量的实验和全面的分析，以验证我们的解决方案的有效性。我们的单阶段方法显着优于以前的两阶段国家的最先进的。2. 相关工作2.1. 局部特征在深度学习之前，SIFT [25]和SURF [6]是两个众所周知的手工设计的局部特征。通常，这样的局部特征与KD树[7]、词汇树[28]相结合，或者通过聚合方法（例如[49，22]）进行编码以用于（近似）最近邻搜索。通过将局部特征与RANSAC [13]匹配以重新排名候选检索结果[2，30]的空间验证最近，在深度学习发展的推动下，在从图像中学习局部特征方面取得了显着进展，如[48，16，15，5，36，29，18]。深度局部特征学习的全面综述可以在[51，12]中找到在这些方法中，最先进的局部特征学习框架DELF [29]，其提出了用于大规模图像检索的细心的局部特征描述符，与我们的工作密切相关。我们当地分支机构的设计选择之一，即注意特征提取，是受到其优点的启发。然而，DELF仅使用单尺度特征图，并忽略自然图像中的各种对象尺度。我们的局部分支被设计为通过多atrous卷积层[10]模拟SIFT [252.2. 全局特征传统解决方案通过BoW [39，33]、Fisher向量[24]或VLAD [23]聚集局部特征来获得全局特征。后来，聚合选择性匹配内核（ASMK）[42]试图将基于聚合的技术与基于匹配的方法（如汉明嵌入[21]）统一起来。在深度学习时代，全局特征是通过sum-pooling [43]和GeM pooling [34]这样的可微聚合操作获得的。为了训练深度CNN模型，提出了基于三元组[8]，四元组[11]，角[46]和列表[35]的损失或基于分类的损失[45，14]有了这些创新，现在，大多数高性能的全局特征都是用深度CNN获得的，用于图像检索[4，3，44，1，17，34，35，29，27，9]。在我们的工作中，我们利用以前研究的经验教训，在训练阶段使用ArcFace损失[14]，并11774∈∈∈×××本地分行多阿图斯自ATTConvC×正交融合模块最终Res4描述符干Res1 Res2 Res3P全局分支图2：我们的深度正交局部和全局（DOLG）信息融合框架的框图使用ResNet[19]为了说明，我们在Res3之后构建了一个本地分支和一个全局分支。本地分支使用多属性层以模拟空间金字塔，从而考虑图像之间的比例变化。自我注意力是利用的重要性建模以下的教训现有作品[29，9]。全局分支生成描述符，该描述符与局部特征一起馈送到正交融合模块中，用于将两种类型的特征集成到最终的紧凑描述符中。“P”, “C” and “X” denote pooling, concatenation and element-wise multiplication,以探索不同的池化方案来改进性能。我们的模型还产生了一个紧凑的描述符，同时，它明确地考虑融合局部和全局特征的正交方式。2.3. 联合本地和全局CNN特征联合考虑局部和全局特征是自然的，因为来自图像表示模型的特征映射可以被解释为局部视觉词[38，40]。联合学习局部匹配和全局表示可能对双方都有利。因此，在[37]中提出将预训练的局部特征[15]和全局特征[1]提取为紧凑的描述符。DELG [9]更进一步，提出以端到端的方式联合训练局部和全局特征然而，DELG仍然以两阶段的方式工作。我们的工作与[29，9]有本质的不同，我们提出了正交的全局和局部融合，以执行准确的单阶段图像检索。3. 方法3.1. 概述我们的DOLG框架如图2所示。遵循[29，9]，它建立在最先进的图像识别模型ResNet [19]上。全局分支与原始ResNet保持相同，除了1）全局平均池被GeM池[34]取代; 2）在生成全局表示fgRC×1时使用FC层来降低特征维度。具体地，让我们将Res4的输出特征图定义为f4RC4× h × w，则GeM池化可以形式化为其中p>0是超参数，并且p>1推动输出以更多地关注显著特征点。在本文中，我们遵循DELG [9]的设置，并根据经验将其设置为3.0。为了联合提取局部描述符，在ResNet的Res3块之后附加局部分支。我们的本地分支由多个atrous卷积层[10]和一个自我关注模块。然后，设计了一种新的正交融合模块，用于融合fg和局部分支得到的局部特征张量flRC× H × W。在正交融合后，最终的紧凑的描述符，其中局部和全局信息是很好地集成，生成。3.2. 本地分行我们的局部分支的两个主要构建块是多atrous卷积层和自注意力模块。前一个模块模拟特征金字塔，可以处理不同图像实例之间的尺度变化，后一个模块用于性能重要性建模。该分支的详细网络配置如图3所示。多atrous模块包含三个扩张卷积层，以获得具有不同空间感受野和全局平均池化分支的特征图。这些特征被级联，然后由11卷积层处理。然后，输出特征图被递送到自注意模块，用于进一步建模每个局部特征点的重要性。具体地，首先使用11 conv-bn模块处理其输入，然后通过经由11卷积层生成的注意力图对随后的特征进行归一化和调制，随后进行SoftPlus操作。1 Σp1/p3.3. 正交融合模块fg，c=hw（i，j）f4，（c，i，j）c=1，2，…C 4、（1）我们的正交融合模块的工作流程如图4a所示。它把fl和fg作为输入然后11775×××不l，projnLf=L·||2C××左、北Ll，projW ∈lc=1l，c2（,（（你好，你好多阿图斯自ATTRes3D6，512，3D12，512，3CRBRSXD18，512，3C，1024，1C，1024，1C，1024，1PRL2范数C，512，1图3：我们当地分支机构的图 “C, “R”, “B” and “S” denote ReLU, BN and Softplus,(b)展示在用C1向量fg对这个张量的每一点，然后新的张量被聚合为C01向量。最后，使用全连接层来产生512_1描述符。通常，C在ResNet中等于1024 [19]。这里，我们简单地利用池化功能来聚合关联的张量，也就是说，图4a中的“A”在我们当前的实现中是池化的。实际上，它可以被设计成其他可学习的模块来聚合张量。我们将在第4节和第5节对此进行进一步分析。3.4. 培养目标在DELG [9]之后，我们的方法的训练仅涉及一个L2归一化的N类预测头(a)我们建议正交融合模块“A” denotes全球特征和COM-与全局特征正交的分量。R512× N，只需要图像级标签。ArcFace marginloss [14]用于训练整个网络：经验值γ×AF。ωTfg，1ΣΣ计算投影f（i，j）L每个局部特征点L=−logΣn exp（γ×AF（ωTg，yn））（6）f（i，j）到全局特征fg上。从数学上讲，亲-射可以被公式化为：其中ωi指第i个w和fg是L2-（i，j）l，projf（i，j）·fg|FG|2fg，（2）fg的归一化版本。 y是独热标签向量，并且t是groundtruth类索引（yt=1）。γ是比例因子。AF表示ArcFace调整后的余弦相似性，并且其可以计算为AF（s，c）：其中f（i，j）fg是点积运算，fg2是L2fg的范数：AF（s，c）=cos（acos（s）+m），如果c=1s，如果c=0（七）f（i，j）·fg=ΣCf（i，j）fg，c（3）其中s是余弦相似度，m是ArcFace边距，c=1表示这是地面实况类。|= Σ c = 1（f g，c）.|=Σc=1(fg,c).（4）如图4b所示，正交分量是局部特征与其投影之间的差。因此，我们可以通过以下方式获得与fg正交的分量fi，j=f（i，j）− f（i，j）.（五）4. 实验4.1. 实现细节数据集和评估指标 Google landmarks 数据集 V2（GLDv2）[47]是为大规模和细粒度的地标实例识别和图像重建而开发的。trieval。它总共包含200K不同的5M图像以这种方式，可以提取每个点与fg正交的C H W之后，我们添加512 × 1FC��× 1一−C��×项目：��∙�� ∗|��|��×.11776实例标记。它是由谷歌收集，以提高下的地标识别系统所面临的11777×尽可能多的工业场景。来自Google Landmark RetrievalCompetition 2019 的研究人员进一步清理并修订了GLDv 2，使其成为GLDv 2-clean。它总共包含1，580，470个图像和81，313个类。该数据集用于训练我们的模型。为了评估我们的模型，我们主要使用具有修订注释的牛津和巴黎数据集[32]，在下文中分别称为Roxf和Rpar。Roxf（Rpar）数据集中有4，993（6，322）个图像，每个图像有不同的查询集，都有70个图像。为了与最先进的方法进行公平比较[29，9，27]，平均平均精度（mAP）被用作我们对两个数据集的中等和硬分割的评估指标。mAP提供了跨召回水平的检索质量的鲁棒测量，并且已经显示出具有良好的区分度和稳定性。本文中的所有实验都是基于GLDv 2-clean数据集进行训练的。我们随机划分80%的数据集用于训练，其余20%用于验证。ResNet50和ResNet101主要用于实验。模型从Ima-geNet预训练的权重初始化。图像首先通过随机裁剪/扭曲纵横比进行增强;然后，将其大小调整为512512分辨率。我们使用批量大小为128，在8个V100 GPU上训练我们的模型，每张卡16G内存，异步运行100个epochs。一个完整的培训阶段对于ResNet50 来说大约需要3.8天，对于ResNet101来说大约需要6.3天。使用了动量为0.9的SGD优化器。权重衰减因子设为0.0001，采用余弦学习率衰减策略请注意，我们用5个预热时期来训练我们的模型，初始学习率为0.05。对于ArcFace余量损失，我们经验性地将余量m设置为0.15并且将ArcFace比例γ设置为30。对于GeM池，我们将参数p固定为3.0。至于特征提取，遵循以前的工作[29，9]，我们在推理时使用图像金字塔来产生多尺度表示。具体来说，我们使用5个尺度，即0.3535，0.5，0.7071，1.0，1.4142，以提取最终的压缩特征向量。为了融合这些多尺度特征，我们首先对它们进行归一化，使得它们的L2范数等于1，然后对归一化的特征进行平均，最后应用L2归一化以产生最终的描述符。4.2. 结果4.2.1与最先进方法的我们将之前的最先进的方法分为三组：（1）局部特征聚合和重新排序;（2）全局特征相似性搜索;（3）全局特征搜索，然后用局部特征匹配和空间验证（SP）进行重新排序。从某种角度来看，我们的方法属于全局特征相似性搜索组。结果总结在表1中，我们可以看到我们的解决方案始终优于现有的解决方案。与基于本地特征的解决方案进行比较。在除了DELF [29]之外，值得一提的是，当前工作R50-How [43]提供了一种使用ASMK [42]学习局部描述符的方式，并且优于DELF。其在Roxf-培养基上实现了高达3.4%的增强然而，该工作的复杂性是相当大的，其中n=2000示出其最终使用2000个最强局部关键点。我们的方法在Roxf-Medium上的性能优于它1.1%，在具有相同ResNet 50骨干的Rpar-Medium上的性能优于它8.21%。对于硬样品，我们的R50-DOLG在Roxf和Rpar上的mAP分别达到58.82%和77.7%，这显著优于R50- How达到的56.9%和62.4%。结果表明，我们的单阶段模型是优于现有的局部特征聚合方法，增强了第二次重新排名阶段。与基于全局特征的解决方案的比较。我们的方法完成了图像检索与单阶段和全局特征为基础的解决方案做同样的。可以发现由DELG [9]学习的全局特征表现最好。特别是当使用GLDv 2- clean数据集训练模型时。我们的模型也在这个数据集上进行了训练，并且经过验证，它们比DELG更好。我们的解决方案显著提高了性能。例如，对于Res50骨架，mAP为80.5% v.Roxf- 培养基上为 77.51% ，而 Roxf- 培养基上为58.82%54.76%在Rofx-硬。请注意，我们的R50-DOLG性能优于R101-DELG。这些结果很好地证明了我们的框架的优越性。与基于全局+局部特征的解决方案的比较。在全局特征之后是局部特征重新排序的解决方案中，R50/101-DELG仍然是现有的最先进的方法。与DELG的最佳结果相比，我们的方法R50-DOLG优于R50-DELG ，在 Roxf- 培养基上提高了 1.42% ，在 Rpar-Medium上提高了1.03%，在Roxf-Hard上提高了0.42%，在Rpar-Hard上提高了1.5%。我们的R101-DOLG性能优于 R101-DELG ，在 Roxf-Medium 、 Rpar-Medium 和Rpar-Hard 上的性能提升分别高达 0.3% 、 3.82% 和7.5%。从这些结果中，我们可以看出，虽然两阶段的解决方案可以很好地促进他们的单阶段同行，我们的解决方案结合了本地和全球的信息是一个更好的选择。比较单位为mP@10。我们在表中比较了mP@10二、结果表明，DOLG的mP@10性能在RPar和Roxf上均优于两级DELGr这样的结果验证了我们的单阶段解决方案比最先进的2阶段DELG更精确，这是由于端到端训练和无误差累积的优点。“+1M”干扰物。从表1中，DOLG和2级DELG的性能大大优于官方的2级DELG。这是合理的。首先，DELG和我们的DOLG都被训练了100个时期，而官方的DELG只被训练了25个时期，所以原始的DELG特征不是那么鲁棒。11778†DELF-ASMK +SP[29，32]R101-GeM-AP[35]R50-DELG[9]R50-DELG[9]表1：按照Roxf和Rpar的中等和硬评价方案获得不同溶液的结果（% mAP）。 r表示我们的重新实现。最先进的表演被标记为粗体，我们的总结在底部。下划线的数字是最好的表现。模型Roxf-MRoxf-HRpar-MRpar-HR50-DELGrR50-DOLG90.7992.5269.0071.1495.5798.4392.0093.71表2：不同方法的mP@10的结果。Globalr 在 Roxf-M上的mAP中优于DELG-Global 3.9个点，并且 Rpar 上的重新排名甚至略差于 DELG-Global）。当存在大量干扰项时，不太鲁棒的全局和局部特征将导致更严重的误差累积（DELG-Globalr>具有“+1M”的2级DELG因此，显着的性能差距出现在我们重新实现的DELG和其的fatif版本。从最后两排我们看到DOLG还在当存在+1M干扰项时，优于2级DELGr定性分析我们在图5中展示了查询图像的前10个检索结果。我们可以看到，具有全局特征的最先进的方法将导致许多在语义上与查询相似的误报。通过重新排序，可以消除一些假阳性，但是具有相似局部模式的那些假阳性仍然存在。我们的解决方案结合了全局和本地信息，并进行了端到端优化，因此它更善于找出真正的积极因素。4.2.2消融研究为了从经验上验证我们的一些设计选择，使用Res50主干进行消融实验。在哪里融合检查哪个块更适合方法罗克斯夫介质+1M Rpar+1M罗克斯夫硬+1M Rpar+1M(A)局部特征聚合+重新排序HesAff-rSIFT-ASMK +SP[42]60.646.8061.4042.3036.7026.9035.0016.80HesAff-HardNet-ASMK+SP[26]65.60-65.20-41.10-38.50-HesAff–rSIFT–ASMKDELF-R-ASMK+SP[41]R50-How-ASMK，n=2000[43]79.1067.8076.0079.4074.3053.8064.0065.8091.0076.9080.2081.6085.9057.3059.7061.8052.7043.1052.4056.9048.7031.2038.1038.9081.0055.4058.6062.4073.2026.4058.6033.70(B)全局特征R101-R-MAC[17]60.9039.3078.9054.8032.4012.5059.4028.00R101-GeM↑[38]R101-GeM-AP（GLDv1）[35] R152-GeM[34]ResNet101-GeM+SOLAR† [27]R50-DELG（GLDv2-clean）[9]R50-DELG（GLDv2-clean）r[9] R101-DELG[9]R101-DELG（GLDv2-clean）[9]65.3067.5066.3068.7069.9069.7073.6077.5173.2076.3046.1047.50--53.5055.0060.6074.8054.8063.7077.3080.1080.2079.7081.6081.6085.7087.9082.4086.6052.6052.50--59.2059.7068.6077.361.8070.6039.6042.8042.5044.2047.9045.1051.0054.7651.2055.6022.2023.20--29.9027.8032.7050.4030.3037.5056.6060.5060.8060.3064.5063.4071.5073.8264.7072.4024.8025.10-- 三十三块四34.1044.4061.0135.5046.90(C)全局特征+局部特征重新排序R101-GeM↑+DSM[38]R50-DELG（GLDv2-clean）[9]R50-DELG（GLDv2-clean）r[9] R101-DELG[9]R101-DELG（GLDv2-clean）[9]65.3075.1078.3079.0878.5081.2047.6061.1067.2075.9062.7069.1077.4082.3085.7088.7882.9087.2052.8060.5069.6077.6962.6071.5039.2054.2057.9058.4059.3064.0023.2036.8043.6052.4039.3047.5056.2064.9071.0076.2065.5072.8025.0034.8045.7061.6037.0048.7011779L位置Roxf RparE M H E M H本地分支中每个组件的影响。设计了一个多通道模块和自注意模块仅限全球90.65 78.21 56.31 95.65 89.00 76.17保险丝f4-仅92.08 79.39 58.13 95.9389.92 77.92保险丝f3-仅93.17 80.50 58.8295.95 89.81 77.70两个f3 f4 92.34 79.41 57.0896.01 89.78 77.69表3：在不同位置进行正交融合的DOLG变体的实验结果。池化罗克斯夫Rpar全球OrthoE MHE MH创业板创业板92.62 78.28 55.30 96.20 89.50 76.99AVGAVG92.20 78.14 56.14 95.86 89.25创业板AVG93.17 80.50 58.82 95.95 89.81 77.70AVG创业板89.63 73.48 44.88 94.67 86.76表4：使用不同池化函数时的差异。“AVG” meansordinary global average整体和局部正交积分，我们提供了经验结果来验证我们的选择。具体来说，已知浅层不适合局部特征表示[29，9]，因此我们主要检查res3和res4块。我们已经实现了DOLG变体，其中本地分支仅源自f4（f3和f4）。因此，融合f3、f4和fg意味着存在基于Res3和Res4的两个正交融合分支，并且从两个融合分支生成的两个正交张量与fg级联并合并。结果总结于表3中。我们可以看到，1）没有本地分支，全局唯一设置的性能更差。2）融合f3或f4或f3和f4可以提高“仅全局”的性能在Roxf上融合f3明显优于融合f4融合f3和 f4并没有提供比 f3-only的改进，但它比 f4-only更好。上述现象是合理的。f3具有足够的空间分辨率，并且其网络深度也足够，因此它比f4更好地用作局部特征。F3和F4都将使模型更加复杂。此外，fg也是从f4导出的，那么两个f3f4设置都可能更强调f4，从而降低整体性能。总的来说，f3-only是最好的我们的本地分支来模拟空间要素金字塔通过扩张卷积层[10]和使用注意力机制[29]对局部特征重要性进行建模。我们提供的实验结果，以验证这些组件中的每一个的贡献，从整个框架中删除个别组件。性能示于表5中。显然，融合局部特征有助于显著地提高整体性能。在Roxf-培养基和Rpar-Medium上，mAP分别从78.2% 提高到 80.5% 和 89.0% 提高到 89.8% 。当移除Multi-Atrous模块时，性能将在中分割和硬分割上略微下降，特别是对于硬分割。例如，在Roxf-Hard和Rpar-Hard上， mAP分别从58.82%降低到58.36%和从77.7%降低到76.52%。然而，对于简单的情况，多Atrous将使性能稍微变差，但这几乎没有区别，因为mAP已经非常高，并且对于简单的情况，检索性能下降非常有限。这些结果验证了Mutli- Atrous模型的有效性.当去除自我注意模块时，性能也显著下降，这与[9]获得的结果一致。正交融合的验证在正交融合模块中，我们提出将局部特征分解为两个分量，一个与全局特征fg平行，另一个与全局特征fg正交.然后将互补正交分量与fg进行融合为了表明这种正交融合是更好的选择，我们通过去除图4a中所示的正交分解过程并直接连接fl和fg来进行实验。我们还尝试通过Hadamard乘积（也称为逐元素乘积）来融合f l和f g，该乘积通常用于融合两个向量。我们可以从经验结果（见表6）中发现，在三种融合方案中，我们提出的正交融合表现最好。这样的实验结果也在我们的预期之内。利用正交融合，从每个局部特征点f（i，j）中排除与全局特征f g相关的信息。在这这样，输出的局部特征点是最具信息性的一个且与fg正交。他们不仅会提供Roxf Rpar合并的影响。在这个实验中，我们研究了GeM池化[34]和平均池化将如何产生差异-ConfigE M H E M H我们的整体框架。我们报告的结果DOLG时，池功能的全球分支和正交融合模块改变。在其他设置保持相同的情况下，R50-DOLG的性能如表4所示。有趣的是，看到使用GeM池化用于全局分支，而使用平均池化用于正交融合模块产生最佳组合。不含本地90.65 78.21 56.31 95.65 89.00 76.17不带MultiAtrous93.48 80.48 58.3696.66 89.27 76.52不带自动ATT 90.64 78.15 55.34 95.73 89.48 77.16完整型号93.1780.50 58.82 95.9589.81 77.70表5：在我们的框架中对局部分支的组分的消融实验。11780--||查询检索结果DELG月6月6月7月7第八第九第八第九月10月10我们月6月7月8月9月10图5：前10个检索结果的演示检索到的前5个图像都是正确的，并在此图中排除从上到下显示了DELG全局、DELG全局+本地和我们的DOLG的结果。绿色框和红色框分别表示正图像和负图像。Roxf RparE M H E MH连接†91.29 78.40 56.55 95.88 89.37 76.80阿达玛92.21 79.20 56.76 95.9489.91 77.40正交93.17 80.50 58.82 95.9589.8177.70表6：正交融合与其他融合策略的比较。研究了级联和Hadamard 积其中m=2。0，对于ArcFace边缘损失，γ=30，否则训练不收敛。这些特征可以是互补信息以更好地描述图像，但是它们也不会因为它们的不相关性而对全局特征fg5. 讨论在这里，我们想对我们当前的实现和模型复杂性进行一些讨论。首先，我们没有广泛地研究和调整许多超参数，例如GeM的p、ArcFace边缘损失的γ和m以及膨胀卷积层的膨胀率s相反，我们直接遵循DELG中的实践[10][11][12][13][14]我们这样做是为了显示我们提出的构建块的有效性，而不是调整更好的模型，尽管我们相信调整这些参数可能会获得更好的性能。另一个值得一提的是正交融合模块。我们着重于通过聚集正交的局部和全局信息来发展单阶段解。在图4a中表示为“A”的聚合操作的设计选择请注意，平均池化是一个在这种情况下，正交融合模块相当于先将局部特征集中起来，再进行投影和相减，因此其计算可以进一步简化。简而言之，我们当前的正交融合模块足够简单但有效。我们相信探索图4a中的基于更复杂学习的聚集至于复杂度，与DELG[9]和DELF [29]，额外的计算成本来自多Atrous模块和正交融合模块。前者由几个膨胀的卷积层组成，而后者目前可以减少到合并液（fl）（合并液（fl）fg）fg/ fg2.因此，我们的解决方案的开销是相当有限的。此外，我们的检索过程可以在一个单一的阶段完成6. 结论在本文中，我们第一次尝试融合本地和全球的功能，在一个有效的单级图像检索正交的方式。我们设计了一个新的局部特征学习分支，其中多atrous模块用于模拟空间特征金字塔来处理图像之间的尺度变化，并采用自注意模块对每个局部描述符进行重要性建模我们还设计了一个新的正交融合模块，以结合互补的局部和全局信息，相互加强，并产生一个代表性的最终描述符，通过面向对象的训练。为了验证概念的目的，已经示出了广泛的实验结果，并且我们还显著地改善了Roxf和Rpar上的最先进的性能。方法11781引用[1] Relja Arandjelovic，Petr Gronat，Akihiko Torii，TomasPa-jdla，and Josef Sivic. Netvlad：用于弱监督位置识别的CNN架构。在IEEE计算机视觉和模式识别会议论文集，第5297-5307页，2016年。一、二、三[2] 亚尼斯·阿夫里西斯和乔治·托利亚斯。Hough金字塔匹配：加速大规模图像检索的几何重新排序。International Journal of Computer Vision，107（1）：12[3] Artem Babenko和Victor Lempitsky。聚合局部深度特征用于图像检索。在IEEE计算机视觉国际会议论文集，第1269- 1277页一、二[4] Artem Babenko，Anton Slesarev，Alexandr Chigorin，and Victor Lempitsky.图像检索的神经代码。欧洲计算机视觉会议，第584Springer，2014. 一、二[5] Vassileios Balntas ， Edgar Riba ， Daniel Ponsa ， andKrystian Mikolajczyk.使用三元组和浅层卷积神经网络学习局部特征描述符。在Bmvc，第1卷，第3页，2016中。一、二[6] Herbert Bay，Andreas Ess，Tinne Tuytelaars，and LucVan Gool.加速健壮功能（冲浪）。计算机视觉和图像理解，110（3）：346-359，2008。一、二[7] Jeffrey S Beis和David G Lowe。高维空间中使用近似最近邻搜索的形状索引。在IEEE计算机协会计算机视觉和模式识别会议论文集，第1000- 1006页IEEE，1997年。2[8] Michael M Bronstein，Alexander M Bronstein，FabriceMichel，and Nikos Paragios.通过使用相似性敏感散列的跨模态度量学习的数据融合。在2010年IEEE计算机协会计算机视觉和模式识别上，第3594IEEE，2010。2[9] Bingyi Cao，Andre 'Araujo，and Jack Sim.统一图像搜索的深度在European Conference on Computer Vision，第726Springer，2020年。一二三四五六七八[10] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 二三七八[11] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.除了三重态损失：一个深度的四元组网络用于人的重新识别。在 Proceedings of the IEEEconference on computer vision and pattern recognition，pages 403-412，2017中。2[12] Wei Chen，Yu Liu，Weiping Wang，Erwin Bakker，Theodoros Georgiou，Paul Fieguth，Li Liu，and MichaelS Lew. 深度图像检索：综述。 arXiv 预印本arXiv ：2101.11282，2021。2[13] 随机抽样共识。模型拟合的范例及其在图象分析和自动制图中的应用。MA Fischler，RC Bolles，6：381-395，1981. 2[14] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE/CVF计算机视觉和模式识别会议论文集，第4690二、四[15] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich. Superpoint：自监督兴趣点检测和描述。在IEEE计算机视觉和模式识别研讨会会议论文集，第224-236页，2018年。二、三[16] Mihai Dusmanu、Ignacio Rocco、Tomas Pajdla、MarcPolle-feys、Josef

下载后可阅读完整内容，剩余1页未读，立即下载