相关性验证网络：一种新型的图像检索重新排序方法

63 浏览量更新于2023-10-26 收藏 18.65MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

53740图像检索的相关性验证0Seongwon Lee Hongje Seong Suhyeon Lee Euntai Kim *韩国首尔延世大学电气与电子工程学院0{ won4113, hjseong, hyeon93, etkim } @yonsei.ac.kr0摘要0几何验证被认为是图像检索中重新排序任务的事实上的解决方案。在本研究中，我们提出了一种名为相关性验证网络（CVNet）的新型图像检索重新排序网络。我们提出的网络由深度堆叠的4D卷积层组成，逐渐将密集特征相关性压缩为图像相似度，同时从各种图像对中学习不同的几何匹配模式。为了实现跨尺度匹配，它构建特征金字塔，并在单次推理中构建跨尺度特征相关性，以取代昂贵的多尺度推理。此外，我们使用课程学习与困难负样本挖掘和Hide-and-Seek策略来处理困难样本，而不会失去普遍性。我们提出的重新排序网络在几个检索基准上显示出最先进的性能，与最先进的方法相比，差距显著（在ROxford-Hard+1M集上的mAP提高了12.6%）。源代码和模型可在网上获得：0https://github.com/sungonce/CVNet01. 引言0图像检索是计算机视觉中一个长期存在的问题。该任务旨在根据与给定查询图像的相似性对数据库中的图像进行排序。对于这个任务，主要采用全局检索和局部特征匹配后的几何验证。这些方法通常包括图像检索框架的两个主要组成部分，它们相互补充。全局检索快速地在数据库中进行粗略检索，而几何验证通过仅对潜在候选项进行精确评估来对粗略结果进行重新排序。随着深度学习的发展，图像检索也取得了显著进展。特别是，一些研究[8, 30, 41, 45, 46,53]专注于使用深度学习提取全局和局部表示的代表性和独特特征。然而，在局部特征匹配后的几何验证仍然在重新排序中发挥着重要作用。0* 通讯作者。0第一步：匹配0第二步：0验证0(a) 几何验证 (b) 相关性验证（我们的方法）0CVNet0内点数量图像相似度0密集0相关性0图1.一种名为相关性验证的新型图像检索重新排序方法，通过卷积方式利用密集特征相关性直接预测图像相似度。0尽管存在缺点，几何验证在图像检索中被认为是一种事实上的解决方案。由于其“匹配后验证”的结构，仅基于稀疏和阈值化的特征对应进行几何验证。此外，它既不可学习也不可微分，并且即使在测试期间也需要迭代优化。此外，几何验证不包括可以处理多尺度操作的组件。因此，一些研究[8,30, 32,45]尝试通过使用图像金字塔重复推理来提取多尺度局部特征来解决尺度问题。然而，这是一个非常昂贵的过程。0在本研究中，我们提出了一种名为相关性验证网络（CVNet）的端到端可学习的重新排序网络，以更好地取代几何验证的作用。所提出的网络通过卷积方式利用密集特征相关性直接评估语义和几何关系。在代表性的2D卷积神经网络（CNN）的成功架构设计的基础上，我们设计了一个具有金字塔结构的深度堆叠4D卷积层的4DCNN。它将语义线索之间的相关性压缩到图像相似度中，同时从大量图像对中学习多样的几何匹配模式。为了确保对于大尺度差异问题的鲁棒性，它53750将单尺度特征扩展为每个图像的特征金字塔，形成特征金字塔之间的跨尺度相关性。这种结构使得可以通过单一推理进行跨尺度匹配，同时替代了图像检索中常用的多尺度推理。我们的模型不需要额外的推理来提取局部信息；因此，与其他重新排序方法相比，特征提取延迟（对在线检索时间有重大影响）大大减少。与几个计算机视觉问题类似，图像检索面临着困难样本的问题。我们通过在训练阶段使用困难负样本挖掘和Hide-and-Seek[43]策略的课程学习来解决这些挑战。这样可以在专注于困难样本的同时，不失去一般性能。我们提出的重新排序网络在几个图像检索基准测试上展现了最先进的性能，与几种最先进的方法相比具有显著的优势。我们的主要贡献如下：0•我们提出了相关验证网络（CVNet），它是一种强大的重新排序模型，可以基于密集特征相关性直接预测图像对的相似性。0•为了替代昂贵的多尺度推理，我们在模型内部构建了跨尺度相关性，并使用单一推理进行跨尺度匹配。0•我们提出了课程学习，使用困难负样本挖掘和Hide-and-Seek策略来处理困难样本，同时不失去一般性。0•提出的模型在几个图像检索基准测试上实现了新的最先进性能：R Oxford（+1M），RParis（+1M）和GLDv2-retrieval。02. 相关工作图像检索。在过去的几十年中，图像检索[1, 8,20, 21, 35, 36, 44,46]一直是计算机视觉研究的主要关注点之一。在开创性的研究中，手工制作的局部特征[6,23]被用于全局检索和重新排序。首先进行全局检索，使用聚合手工制作的局部特征的全局描述符[19-21, 32, 33,44]，然后通过局部特征匹配和RANSAC[12]进行空间验证[2, 32,33]来重新排序潜在的检索结果。随着深度学习的进展，从深度学习网络中提取的全局[1, 3, 4, 8, 13, 36, 48,53]和局部特征[5, 8, 11, 24, 27, 28, 30,54]已经取代了手工制作的特征。尽管全局和局部表示技术取得了显著进展，但几何验证仍然是图像检索重新排序的事实解决方案，无论是在传统研究[32, 33,51]还是最近的研究[8, 30, 41,46]中。最近的研究提出了RerankingTransformers（RRT）[45]作为几何验证的替代方法。0通过利用Transformer结构[49]，但是没有报道性能上的显著改进。在本研究中，我们提出了一种新颖的重新排序解决方案，具有强大的检索性能。0扩散/查询扩展。在重新排序方法中，存在一些方法，如扩散[9, 18]和查询扩展[10,36]，需要额外的开销来遍历整个数据库。然而，由于本研究侧重于改进单个图像对的图像匹配，我们不考虑这些重新排序方法。04D卷积神经网络。4D卷积是一种有前景的解决方案，已经受到了广泛关注，用于需要解释两个图像之间关系的任务（例如，视觉密集对应预测[22, 25, 38,52]和少样本分割[26]）。前述任务与图像检索的主要区别在于前者旨在获得2D（单个图像边缘）[26]或4D（两个图像边缘）[25, 25,52]的密集输出，而后者需要一个单一的相似性值。因此，在本研究中，我们提出了一种新颖的结构，通过深度堆叠的4D卷积层逐渐压缩4D特征相关性。0Hide-and-Seek. Hide-and-Seek[43]是一种增强技术，旨在提高弱监督领域中的目标定位性能。为了解决网络仅关注最显著区域的缺点，图像的几个随机补丁被屏蔽，以引导网络在仅有较不显著区域的视觉访问条件下进行鲁棒预测。我们发现Hide-and-Seek方法可以通过在课程方式下应用于我们的模型，确保在处理困难样本时具有鲁棒性，而不会失去普遍性，从而提高图像检索性能，即使在涉及遮挡或截断的困难样本上也能进行准确匹配。03.全局主干网络（CVNet-Global）在本节中，我们介绍了我们提出的全局主干网络CVNet-Global。CVNet-Global的概述如图2所示。我们提出的全局主干网络接受单个图像I∈R3×H×W作为输入，用于提取全局图像检索的全局描述符dg∈RCg和重新排序阶段的局部特征图F∈RCl×Hl×Wl。我们采用多目标损失[7]，共同优化分类损失和对比损失，以使网络学习更具区分性和鲁棒性的全局和局部表示。3.1. 结构受到MoCo[15]的动量对比结构的启发，我们构建了两个网络：全局主干网络f和其动量网络¯f。这两0作为输入，用于提取全局描述符dg∈RCg进行全局图像检索和局部特征图F∈RCl×Hl×Wl进行重新排序。我们采用多目标损失[7]，共同优化分类损失和对比损失，以使网络学习更具区分性和鲁棒性的全局和局部表示。3.1. 结构受到MoCo[15]的动量对比结构的启发，我们构建了两个网络：全局主干网络f和其动量网络¯f。这两个网络都基于ResNet[16]。fi表示第i个ResBlock。̅53760CVNet-Global0查询全局描述符��0正动量全局描述符��0白化LL2范数0白化LL2范数入队0出队0动量0更新对比损失（LLcc）0分类损失（LLcc）0动量网络0��0停止梯度0全局网络0查询0正样本0图2.展示了提出的全局主干网络（CVNet-Global）及其训练目标。该网络有两个目标：分类损失和对比损失。为了在对比学习中利用多个样本而不增加计算负担，我们采用了来自MoCo[15]的动量网络和队列结构。这些目标的组合使得网络能够学习类内变异性和类间差异性，这对于图像检索任务是必需的。0全局平均池化被可学习的GeM池化[35]取代，初始功率为3.0，并在池化层后添加了一个白化FC层[14]和L2归一化。我们构建了一个队列Q∈{¯dig}Ki=1，用于保存每次迭代的动量全局描述符，并将它们用作对比样本。03.2. 训练目标0分类损失。在每次迭代中，将查询图像Iq输入全局网络f，计算查询全局描述符dqg。使用dqg，计算CurricularFace[17]边界化的分类损失Lcls如下：0Lcls = -log e0∑Ni=1 exp(C(WyiTdqg, 1iq)/τ), (1)0其中 W 是类别权重，τ 是缩放参数，yg 是真实类别，1iq是一个指示器，用于显示第i个类别yi是否与yg相同。C是一个函数，将查询-正样本余弦相似度添加到CurricularFace边界。0动量对比损失。在每次迭代中，采样具有与查询图像Iq相同标签的正样本图像Ip，并将其输入动量网络¯f，计算正动量全局描述符¯dpg。将描述符¯dpg更新到队列Q中，同时出队队列的最后一个元素。然后，队列Q至少保存一个与查询具有相同标签的动量样本，包括¯dpg。因此，我们使用CurriculurFace边界化的动量对比损失Lcon：0Lcon = -10|P(q)|0p∈P(q)logexp(¯Cdqg∙¯dpg, 1/τ)0i∈{p}N(q)exp(¯Cdqg∙¯dig,1/iq/τ),0（2）其中¯C与C相同，但其移动平均参数与C分别更新。P(q)和N(q)分别是正队列和负队列。0总损失。最后，我们全局主干网络Lg的总损失是分类损失Lcls和对比损失Lcon的加权和。0Lg = λclsLcls + λconLcon。（3）0请注意，优化器仅更新全局主干网络f。动量网络¯f的动量更新为η。04. 重新排序网络（CVNet-Rerank）0在本节中，我们介绍了我们提出的重新排序网络CVNet-Rerank。CVNet-Rerank的概述如图3所示。我们提出的重新排序网络以图像对的局部特征图(Fq,Fk)作为输入，用于预测两个图像之间的相似度sq,kl∈R1。然后，它根据预测相似度的结果重新排列全局图像检索结果。局部特征图(Fq,Fk)是从全局主干网络f的中间层提取的，该网络经过完全训练并冻结。代表性的2DCNN架构（例如VGG [42]和ResNet[16]）堆叠了几个2D卷积层，然后进行空间维度下采样，以捕捉图像中不同级别的特征并将其压缩为细粒度信息。受到上述结构的启发，提出的重新排序网络通过深度堆叠的4D卷积层逐渐压缩特征相关性，并使用分类器预测图像相似性。4.1. 跨尺度相关构建0由于图像检索必须对尺度差异具有鲁棒性，一些使用局部特征的图像检索方法通过使用图像金字塔进行多次推理来构建多尺度局部特征集。在这里，我们按照[25]的方法将提取的特征图扩展为多尺度特征金字塔，以捕捉模型内不同尺度的语义线索，从而避免了昂贵的任务。��∈ ℝ��2×��0×��0×��0×��0∈ ℝ16×��02 ×��02 ×��02 ×��02∈ ℝ32×��04 ×��04 ×��04 ×��04∈ ℝ64×��08 ×��08 ×��08 ×��08∈ ℝ128×��08 ×��08 ×��08 ×��08�Fsqq (pq) · Fskk (pk)Fsqq (pq) ∥Fskk (pk)∥�, (4)��0 ∈ ℝ��2×��0×��0×��0×��0��2 ∈ ℝ32×��04 ×��04 ×��04 ×��04��4 ∈ ℝ128×��08 ×��08 ×��08 ×��08��3 ∈ ℝ64×��08 ×��08 ×��08 ×��08��1 ∈ ℝ16×��02 ×��02 ×��02 ×��02(�� = 3,�� = 1,�� = 128)537704D0AvgPool02层MLP0P0N0Zqk∈�20共享，冻结0CVNet-Rerank0调整大小和尺度卷积0跨尺度相关0特征图提取0（CVNet-全局）0相关构建相关编码相似性预测0全局网络0查询特征0关键特征0查询0正/负0调整大小和尺度卷积0图3.提出的重新排序网络（CVNet-Rerank）的示意图。该网络以从训练的CVNet-Global模型中提取的特征图对作为输入，构建跨尺度特征相关性，并通过深度堆叠的4D卷积层逐渐将其压缩为图像对的相似性。0多尺度推理。给定查询图像和关键图像Iq，Ik∈R3×H×W，我们使用全局主干网络f提取局部特征图Fq，Fk∈RCl×Hl×Wl。特征提取后，我们通过重复调整提取的特征图F以缩放因子1/√构建特征金字塔{Fs}Ss=1，其中S是尺度的数量。02. 特征金字塔的每个级别通过尺度为 3 × 3 的卷积层，从而将每个层的通道维度减小到 C′ l，以捕捉具有不同感受野大小的语义信息，同时减少我们图像检索框架的内存占用。通过构建查询特征金字塔 { F s q } S s =1 和关键词特征金字塔 { F s k } S s =1，我们计算一个大小为 S 2 的4维跨尺度相关性集合 { C s q ,s k qk } ( S,S ) ( s q ,s k )=(1, 1)。0使用余弦相似度和ReLU函数：0C s q ,s k qk ( p q , p k ) =ReLU0其中 p q 和 p k是每个特征图中的像素位置。最后，我们插值所有的相关性，以获得每个图像边的原始特征分辨率 H l × W l，堆叠所有的相关性，并构建一个跨尺度相关性集合 C 0 qk∈ R S 2 × H l × W l × H l × W l 。04.2. 4D相关编码器我们的相关编码器将跨尺度相关性集合 C 0qk ∈ R S 2 × H l × W l × H l × W l逐渐压缩为二进制类别对数 Z qk = { z 0 , z 1 } ∈ R 2。我们构建了一个由一系列4D卷积块、全局平均池化层和2层MLP分类器组成的编码器。除了最后一个4D卷积块外，其余的块通过将每个最后的卷积层构造为步幅卷积来执行空间维度下采样。朴素的4D卷积计算量大，因此不适用于在线重新排序。根据以前研究的发现，我们采用中心轴4D卷积[26]来减少使用高维核的负担，并实现实时图像重新排序。通过这种4D卷积的金字塔结构，跨尺度特征相关性集合被编码为细粒度的相关性线索 C 1:4 qk。然后，通过空间维度平均池化和二元分类器将其转换为类别对数 Z qk 。0CP-Conv4D0Group Norm0（�� = 4）0ReLU0�� 10CP-Conv4D0（ �� = 3,�� = 1,�� = 16 ）0Group Norm0（�� = 4）0ReLU0�� 20CP-Conv4D0Group Norm0（�� = 4）0ReLU0CP-Conv4D0（ �� = 3,�� = 1,�� = 32 ）0Group Norm0（�� = 4）0ReLU0�� 30ReLU0CP-Conv4D0（ �� = 3,�� = 1,�� = 32 ）0Group Norm0（�� = 4）0CP-Conv4D0Group Norm0（�� = 4）0ReLU0CP-Conv4D0（ �� = 3,�� = 1,�� = 64 ）0Group Norm0（�� = 4）0ReLU0�� 40ReLU0CP-Conv4D0（ �� = 3,�� = 1,�� = 64 ）0Group Norm0（�� = 4）0CP-Conv4D0Group Norm0（�� = 4）0ReLU0图4.所提出的4D相关编码器的详细结构。所提出的编码器结构逐渐将跨尺度相关性压缩为细粒度的相关性线索。0采用中心轴4D卷积[26]来减少使用高维核的负担，并实现实时图像重新排序。通过这种4D卷积的金字塔结构，跨尺度特征相关性集合被编码为细粒度的相关性线索 C 1:4 qk。然后，通过空间维度平均池化和二元分类器将其转换为类别对数 Z qk 。04.3. 训练目标我们的重新排序网络的训练目标是最小化查询和关键词对（q，k）的交叉熵损失：0Lqkr = CE(Softmax(Zqk), 1kq). (5)0我们通过颠倒查询-键位置将损失Lqkr转换为Lkqr。然后，我们分别将它们应用于正样本p和负键样本n。我们重新排序网络的最终损失构建如下：Lr = (Lqpr + Lpqr + Lqnr +Lnqr) / 4. (6)Figure 6. With Hide-and-Seek, the re-ranking network can ef-fectively learn hard-matching cases by randomly hiding parts ofmatching pairs to give images an occlusion-like effect.5. Experiments5.1. Implementation DetailsCommon setting.Our proposed CVNet is implementedusing PyTorch [31].We use the ‘clean’ subset [55] ofGoogle Landmarks dataset v2 (1.58M images from 81klandmarks) [50] as a training set. The input image is aug-mented with random cropping/aspect ratio distortion and re-sized to 512 × 512. We use an SGD optimizer with a mo-mentum of 0.9 and use cosine learning rate scheduling.Global backbone network.We use ResNet-50 (R50) andResNet-101 (R101) as the encoder of global backbone net-works with ImageNet [39] pre-trained weights, whereasResNet-50 is used for ablation studies. We use a ShufflingBatch Normalization [15], global descriptor size of 2048,and a queue size of 73,728. We set the τ to 1/30, m to 0.15,η to 0.999, and λcls and λcon to 0.5. The global model istrained for 25 epochs (39.5M steps) for the training dataset,using a learning rate of 0.005625, and a batch size of 144.Re-ranking network.For cross-scale correlation con-struction, we use S = 3 scales (i.e. {1/2, 1/√2, 1}). Weextract the feature map F from the f3 output and compressits channel dimension to C′l = 256. Our training set con-tains various views of landmarks, including cases with nooverlap. To avoid query-positive non-overlapping, we selectverified match pairs for each class with help of deep localfeatures [30] and exclude only those classes with a numberof verified match pairs. Please see the supplementary mate-rial for a more detailed explanation of the data selection andsampling process used for the CVNet-Rerank. Finally, weselect 1M images from 31k landmarks, and the proposed re-ranking model is trained for 200 epochs (6.3M steps) for allclasses, using a learning rate of 0.00375 and a batch size of96. rH and phas linearly increase from 0.2 to 1.0 and from0 to 0.2 while training, respectively.Feature extraction and matching.For global descrip-tor extraction, we follow the convention of previous stud-53780查询难负样本难负样本查询0图5.GLDv2-clean数据集中查询和难负样本的示例。这些对看起来在第一眼看起来相似，但仔细观察会发现几个差异。04.4.使用难样本进行训练由于图像重新排序是在第一眼看起来相似的图像上进行的，因此它必须对难样本具有鲁棒性。因此，我们提出了一种通过难负样本挖掘和捉迷藏增强来训练网络的方法。虽然难样本对模型训练有益，但在正常样本的情况下可能会失去普遍性。考虑到这一问题，我们以课程学习的方式应用难负样本挖掘和捉迷藏增强，以便在集中关注难样本的同时，训练重新排序网络以更准确地预测而不失去正常样本的普遍性。难负样本挖掘。我们利用训练好的全局描述符选择难负样本。对于训练数据集中的每个样本，按照最高全局描述符匹配分数的顺序选择前10个负样本。难负样本挖掘的示例结果如图5所示。捉迷藏。与几个计算机视觉研究类似，遮挡是图像检索任务中的主要障碍。为了解决这个问题，我们应用捉迷藏增强来合成生成涉及遮挡的匹配情况。在原始的捉迷藏方法中，输入图像被分割成网格，并对每个网格部分应用概率性去激活。类似地，我们随机去激活每个输入特征图的每个像素值。这可以产生类似于将遮挡应用于原始图像中对应于特征图中一个像素的感受野的效果。这个概念在图6中有所说明。课程学习。为了防止难样本干扰早期学习，我们以课程学习的方式应用难负样本挖掘和捉迷藏。不是从一开始就集中关注难负样本，而是随着学习的进行逐渐增加选择难负样本的比率rH和捉迷藏增强的概率p。这种课程学习有助于网络保持其普遍性，以确保即使重新排序范围扩展，它仍然能够始终表现良好。0捉迷藏0匹配0随机遮挡0随机遮挡0匹配53790方法中等困难多尺度0R Oxf +1M R Par +1M R Oxf +1M R Par +1M 全局局部0（A）局部特征聚合（+局部特征重新排序）DELF-ASMK*+SP [30, 34] 67.8 53.8 76.9 57.3 43.1 31.2 55.4 26.4 - 7DELF-D2R-R-ASMK*（GLDv1）[46] 73.3 61.0 80.7 60.2 47.6 33.6 61.3 29.9 - 7+SP（Rerank Top-100）[46] 76.0 64.0 80.2 59.7 52.438.1 58.6 29.4 - 7 R50-How-ASMK，n=2000 [47] 79.4 65.8 81.6 61.8 56.9 38.9 62.4 33.7 - 70（B）全局特征（+局部特征重新排序）R101-GeM ↑ [36, 41] 65.3 46.1 77.3 52.6 39.6 22.2 56.6 24.8 3-+DSM（Rerank Top-100）[41]65.3 47.6 77.4 52.8 39.2 23.2 56.2 25.0 3 3 R101-GeM-AP（GLDv1）[37] 66.3 - 80.2 - 42.5 - 60.8 - 1-R101-GeM+SOLAR（GLDv1）[29] 69.9 53.5 81.6 59.2 47.9 29.9 65.5 33.4 3- R50-DELG（仅全局，GLDv2-clean）[8] 73.6 60.6 85.7 68.651.0 32.7 71.5 44.4 3-+GV（Rerank Top-100）[8] 78.3 67.2 85.7 69.6 57.9 43.6 71.0 45.7 3 7+GV（Rerank Top-200）[8, 45] 79.2 68.285.5 69.6 57.5 42.9 67.2 44.5 3 7+RRT（Rerank Top-100）[45] 78.1 67.0 86.7 69.8 60.2 44.1 75.1 49.4 3 7+RRT（Rerank Top-200）[45]79.5 68.6 87.8 71.5 62.5 46.3 77.1 52.3 3 7 R101-DELG（仅全局，GLDv2-clean）[8] 76.3 63.7 86.6 70.6 55.6 37.5 72.4 46.93-+GV（Rerank Top-100）[8] 81.2 69.1 87.2 71.5 64.0 47.5 72.8 48.7 3 7+RRT（Rerank Top-100）[8] 79.9 - 87.6 - 64.1 - 76.1 - 37+SuperGlue（Rerank Top-100）[8, 40] 79.7 - 87.1 - 62.1 - 71.5 - 3 7 R50-DOLG（GLDv2-clean）[53] 80.5 76.6 89.8 80.8 58.8 52.277.7 62.8 5 R101-DOLG（GLDv2-clean）[53] 81.5 77.4 91.0 83.3 61.1 54.8 80.3 66.7 50（C）我们的方法R50-CVNet-Global（GLDv2-clean）81.0 72.6 88.8 79.0 62.1 50.2 76.5 60.2 3-+CVNet-Rerank（Rerank Top-100）86.177.6 89.4 79.9 72.8 61.1 78.6 63.9 3 1+CVNet-Rerank（Rerank Top-200）87.2 78.9 90.0 81.2 74.5 62.9 79.5 66.0 31+CVNet-Rerank（Rerank Top-400）87.9 80.7 90.5 82.4 75.6 65.1 80.2 67.3 3 1 R101-CVNet-Global（GLDv2-clean）80.2 74.0 90.380.6 63.1 53.7 79.1 62.2 3-+CVNet-Rerank（Rerank Top-100）85.6 79.6 90.6 81.5 72.9 64.5 80.4 66.2 3 1+CVNet-Rerank（RerankTop-200）86.4 81.0 91.1 82.7 74.6 66.6 81.0 68.0 3 1+CVNet-Rerank（Rerank Top-400）87.2 81.9 91.2 83.8 75.9 67.4 81.1 69.3 3 10表1. 与最先进方法的比较。在R Oxf/ RPar和1M-added实验（简称+1M）中，使用中等和困难的评估协议进行性能比较。所提出的图像检索框架在每个指标上都大幅优于最先进的图像检索方法。最佳和次佳分数以粗体和下划线文本呈现。02�。最终的全局描述符通过对三个描述符的平均值进行L2归一化来计算。在重新排序过程中，最终的排名基于全局描述符的余弦相似度sg +αsr的最终得分决定，其中sg是全局描述符的余弦相似度，sr是重新排序网络的输出得分，α是sr的权重。与先前的研究[8, 29, 37, 46]一样，权重α在R Oxf/ RPar中进行调整，并在其大规模实验和GLDv2检索测试中固定。最后，我们将α设置为0.5。05.2. 评估基准我们主要在R Oxford5k [32, 34]（简称ROxf）和R Paris6k [33, 34]（简称RPar）数据集上评估我们的模型。这两个数据集分别包含70个查询和4933个和6322个数据库图像。此外，还使用了一个R1M分散器集合[34]来衡量大规模检索性能。性能使用平均准确率（mAP）指标进行衡量。此外，我们还在Google地标数据集v2[50]的实例级大规模图像检索任务上评估我们的模型（简称GLDv2检索）。GLDv2检索包括750个测试查询图像和762k个数据库图像。在这个任务中，性能使用平均准确率@100（mAP @100）指标进行评估。05.3. 结果在本节中，我们将我们的模型与最先进的图像检索方法进行比较。0与最先进方法的比较。（表1，表2）表1显示了所提出模型与最先进图像检索方法在R Oxf和RPar以及它们的+1M实验上的结果比较。对于所有设置，所提出的CVNet优于最先进方法。我们的全局模型在不使用额外模块的情况下表现出与最先进方法相当的性能，而我们提出的重新排序网络在不使用昂贵的多尺度推理的情况下表现出更好的性能。由于重新排序的特性，所提出的模型在困难数据集（ROxf）和困难协议（Hard）以及大量图像干扰（+1M）的情况下表现出显著优越的性能。我们的重新排序方法使性能提高了高达14.9%（R50-ROxf-Hard+1M），远高于任何最先进方法。此外，即使重新排序样本数量增加，所提出的方法也能很好地保持普适性。表2将CVNet与先前研究的GLDv2检索测试结果进行了比较。即使在这个比较中，我们提出的CVNet也优于所有最先进方法。Par +1M0CVNet-Global81.072.6 88.8 79.062.150.2 76.5 60.2100GV† [8]82.274.0 89.0 79.364.251.9 77.1 60.8RRT† [45]82.272.4 88.8 78.866.152.3 75.6 57.4CVNet-Rerank86.177.6 89.4 79.972.861.1 78.6 63.9200GV† [8]82.774.8 89.1 79.465.052.3 77.5 60.8RRT† [45]82.171.6 88.7 77.966.051.3 75.2 53.5CVNet-Rerank87.278.9 90.0 81.274.562.9 79.5 66.0400GV† [8]82.574.8 89.1 79.563.852.1 77.5 61.1RRT† [45]81.771.2 88.2 75.265.250.4 74.8 49.9CVNet-Rerank87.980.7 90.5 82.475.665.1 80.2 67.353800方法 mAP@1000DELF-R-ASMK*+SP [46] 18.8 R101-GeM+ArcFace [50]20.7 R101-GeM+CosFace [55] 21.4R50-DELG（GLDv2-clean）[8] 24.1 + GV（RerankTop-100）[8] 24.3 R101-DELG（GLDv2-clean）[8] 26.0+ GV（Rerank Top-100）[8] 26.8R50-CVNet-Global（我们的方法）30.2 +CVNet-Rerank（Rerank Top-100）（我们的方法）32.4R101-CVNet-Global（我们的方法）32.5 +CVNet-Rerank（Rerank Top-100）（我们的方法）34.90表2.GLDv2检索评估。GLDv2检索的测试集结果。每个ResNet主干的最佳分数以粗体文本呈现。0与其他重新排序方法的比较。（表3）为了公平比较，我们将DELG[8]的局部分支连接到我们的全局主干，以学习局部DELG特征。利用这些学习

下载后可阅读完整内容，剩余1页未读，立即下载