使用平均精度进行学习：基于列表损失的图像检索方法

166 浏览量更新于2023-10-16 收藏 13.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

151070使用平均精度进行学习：使用列表损失训练图像检索0J´erˆome Revaud Jon Almaz´an Rafael S. Rezende C´esar Roberto de Souza0NAVER LABS Europe0摘要0图像检索可以被看作是一个排序问题，目标是按照与查询的相似度递减的顺序对数据库图像进行排序。最近的图像检索深度模型通过利用针对排序的损失函数优于传统方法，但仍存在重要的理论和实践问题。首先，它们不是直接优化全局排序，而是最小化对基本损失的上界，这不一定会得到最优的平均精度（mAP）。其次，这些方法需要进行大量的工程努力才能良好运行，例如特殊的预训练和难负样本挖掘。在本文中，我们提出了一种直接优化全局mAP的方法，利用了最近在列表损失函数中的进展。使用直方图分箱近似，可以对AP进行微分，从而用于端到端学习。与现有的损失函数相比，所提出的方法在每次迭代中同时考虑了数千个图像，并消除了临时技巧的需要。它还在许多标准检索基准上建立了新的技术水平。模型和评估脚本已经在以下网址提供：https://europe. naverlabs.com/Deep-Image-Retrieval/。01. 引言0图像检索是在大型数据库中查找与查询相关内容的所有图像。这里的相关性是在实例级别上定义的，检索通常是将具有与查询中的对象实例相同的数据库图像排名在前几位。这项重要技术是流行应用程序的基础，例如基于图像的物品识别（例如时尚物品[13, 35,60]或产品[53]）和个人照片的自动组织[20]。大多数实例检索方法依赖于计算对视角变化和其他类型噪声鲁棒的图像签名。有趣的是，最近深度学习模型提取的签名已经超过了基于关键点的传统方法[17, 18, 45]。0深度模型利用一系列适用于排序问题的损失函数的能力使性能得以提升。与以前用于检索的分类损失相比[3, 4,47]，直接优化面向最终任务的排序损失函数可以强制执行类内区分和更细粒度的实例级图像表示[18]。迄今为止使用的排序损失函数考虑了图像对[44]、三元组[18]、四元组[11]或n元组[52]。它们的共同原则是对一小组图像进行子采样，验证它们是否在局部上符合排序目标，如果不符合，则进行小型模型更新，并重复这些步骤直到收敛。尽管它们有效，但仍存在重要的理论和实践问题。特别是，已经证明这些排序损失是称为“基本损失”的数量的上界，而“基本损失”又是标准检索指标（如平均精度mAP）的上界[34]。因此，优化这些排序损失不能保证也能优化mAP。因此，在实际系统中，这些方法没有理论保证能够产生良好的性能。也许出于这个原因，需要许多技巧才能获得良好的结果，例如用于分类的预训练[1, 18]，组合多个损失[10,12]和使用复杂的难负样本挖掘策略[15, 21, 37,38]。这些工程启发式方法涉及额外的超参数，并且在实施和调整时非常复杂[25,58]。在本文中，我们研究了一种新类型的排序损失，通过直接优化mAP来解决这些问题（见图1）。它不是一次考虑一对图像，而是同时优化数千个图像的全局排序。这实际上使前面提到的技巧变得不必要，同时提高了性能。具体而言，我们利用了最近在列表损失函数中的进展，该函数允许使用直方图分箱来重新定义AP[24, 25,58]。AP通常是非平滑且不可微分的，并且不能在基于梯度的框架中直接优化。然而，直方图分箱（或软分箱）是可微分的，并且可以用于替代AP中的不可微分的排序操作。51080图1.局部排序损失（这里是三元组损失）和我们的列表损失之间的差异示意图。三元组损失（左图）基于少量示例进行梯度更新，不能保证与排序度量对齐。相反，列表损失（右图）同时考虑大量图像，并直接优化从这些图像计算出的平均精度。0使其适用于深度学习。He等人[25]最近在补丁验证、补丁检索和基于此技术的图像匹配方面取得了杰出的成果。在这项工作中，我们沿用了相同的路径，提出了一种直接针对mAP进行优化的图像检索方法。为此，我们使用大批量的高分辨率图像进行训练，这通常会远远超出GPU的内存。因此，我们引入了一种优化方案，使得训练对于任意批量大小、图像分辨率和网络深度都是可行的。总之，我们的主要贡献有三个：0•我们首次提出了一种利用直接优化mAP的列表排序损失的图像检索方法。它依赖于一种专门的优化方案，可以处理任意批量大小、图像分辨率和网络深度。0• 通过对损失进行 ceteris paribus分析，我们展示了使用我们的列表损失在编码工作量、训练预算和最终性能方面的诸多好处。0• 我们在可比较的训练集和网络上超越了最先进的结果。0本文的结构如下：第2节讨论相关工作，第3节描述了提出的方法，第4节进行了实验研究，第5节总结了我们的结论。02. 相关工作0早期的实例检索工作依赖于局部块描述符（例如，SIFT[36]），使用词袋表示[14]或更复杂的方案[16, 19, 55,30]进行聚合，以获得可以相互比较的图像级签名以找到最接近的匹配项。最近，使用CNN提取的图像签名已经成为一种替代方法。虽然最初的工作使用了从用于分类的预训练网络中提取的神经元激活[3, 4, 44, 47,56]，但后来表明网络可以通过使用连体网络[18,45]以端到端的方式专门为实例检索任务进行训练。关键在于利用一种损失函数0优化排序而不是分类的函数。这类方法代表了全局表示图像检索的最新技术[18,45]。实际上，图像检索可以被看作是一个学习排序问题[6,9, 34,57]。在这个框架中，任务是确定训练集中的元素应该以哪种（部分）顺序出现。它使用度量学习结合适当的排序损失来解决。图像检索中的大多数工作都考虑了成对（例如，对比[44]）或元组（例如，三元组[17,50]，n-元组[52]）损失函数，我们称之为局部损失函数，因为它们在计算梯度之前作用于固定和有限数量的示例。对于这样的损失，训练包括反复采样随机和困难的图像对或三元组，计算损失，并反向传播其梯度。然而，一些工作[15,25, 28, 40,48]指出，正确优化局部损失可能是一项具有挑战性的任务，原因有几个。首先，它需要一些特定的启发式方法，如用于分类的预训练[1, 18]，组合多个损失[10,12]以及通过挖掘困难或半困难的负例来偏置图像对的采样[15, 21, 37, 38]。除了非常复杂[22, 51,59]，挖掘困难示例通常也是耗时的。迄今为止被忽视的另一个主要问题是局部损失函数只优化真实排序损失的上界[34,58]。因此，没有理论保证损失的最小值实际上对应于真实排序损失的最小值。在本文中，我们采用了一种不同的方法，直接优化平均精度均值（mAP）指标。虽然AP是一个非平滑和非可微的函数，但He等人[24,25]最近表明，它可以基于可微分的直方图分箱近似来近似计算（也在[7]中使用）。这种方法与基于局部损失的方法截然不同。在[34]中，使用直方图近似到mAP的方法被称为列表法，因为损失函数同时考虑了变量（可能很大）数量的示例并共同优化它们的排序。He等人[24]提出的AP损失专门用于处理在图像哈希的上下文中由汉明距离引起的分数相等的情况。有趣的是，相同的公式也适用于51090对于补丁匹配和检索已经取得了成功[25]。然而，它们的关注度感知公式存在重要的收敛问题，并且需要几个近似才能在实践中使用。相比之下，我们提出了一个稳定且性能更好的AP损失的直接表达。我们将其应用于图像检索，这是一个相当不同的任务，因为它涉及到具有显著杂乱、大视角变化和更深的网络的高分辨率图像。除了[24,25]之外，文献中还提出了几种松弛或替代公式，以允许直接优化AP[5, 23, 25, 27, 39, 54,61]。Yue等人[61]提出了通过结构化学习框架下的损失增强推理问题[23]来优化AP的方法，使用线性SVM。Song等人[54]随后将该框架扩展到非线性模型。然而，这两个方法都假设在损失增强推理中的结构化SVM公式中的推理问题可以高效地解决[27]。此外，他们的技术需要使用动态规划方法，这需要对优化算法本身进行更改，使其使用更加复杂。直到最近，AP损失才被应用于使用任意学习算法训练的深度神经网络的一般情况[25,27]。Henderson和Ferrari[27]直接优化目标检测的AP，而He等人[25]优化补丁验证、检索和图像匹配的AP。在图像检索的背景下，还必须克服其他障碍。直接优化mAP确实存在内存问题，因为在训练和测试时通常使用高分辨率图像和非常深的网络[17,44]。为了解决这个问题，已经为图像三元组的情况开发了智能多阶段反向传播方法[18]，我们展示在我们的设置中稍微更复杂的算法也可以用于同样的目标。需要注意的是，Cakir等人[8]同时独立提出了类似的工作。03. 方法0本节介绍基于AP的训练损失的数学框架以及我们在高分辨率图像情况下采用的适应性训练过程。03.1. 定义0我们首先引入数学符号。设I表示图像空间，S表示C维空间中的单位超球面，即S = {x∈RC |∥x∥=1}。我们使用深度前馈网络fΘ：I→S来提取图像嵌入，其中Θ表示网络的可学习参数。我们假设fΘ(∙)配备有L2归一化输出模块，使得嵌入di =fΘ(Ii)具有单位范数。然后，两个图像之间的相似度可以在嵌入空间中自然地评估。0使用余弦相似度：0sim(Ii, Ij) = di�dj∈[-1, 1]。 (1)0我们的目标是训练参数Θ，对于每个给定的查询图像Iq，对于数据库中的每个图像{Ii}1≤i≤N（大小为N），我们要对其与查询图像的相似度进行排名。通过我们网络的前向传播计算出与所有图像相关联的嵌入，使用公式（1）在嵌入空间中高效地测量每个数据库项到查询的相似度sim(Iq, Ii)=Sqi，对于N={1, 2, ...,N}中的所有i。然后，根据它们的相似性按降序对数据库图像进行排序。让R: RN×N→N表示排名函数，其中R(Sq,i)是Sq的第i个最高值的索引，通过扩展，R(Sq)表示数据库的索引的排序列表。然后，可以根据与地面真实图像相关性来评估排名R(Sq)，用{0,1}N表示，其中Yqi是如果Ii与Iq相关则为1，否则为0。排名评估使用信息检索（IR）度量之一，例如mAP、F-score和折现累积增益。在实践中（尽管存在一些缺点[33]），当地面真实标签是二进制时，AP已成为IR的事实上的标准度量。与其他排名度量（如召回率或F-score）相比，AP不依赖于阈值、排名位置或相关图像数量，因此更容易使用并且更适用于不同的查询。我们可以将AP写成Sq和Yq的函数：0AP(Sq, Yq) =0k = 1 Pk(Sq, Yq)∆rk(Sq, Yq), (2)0其中Pk是第k个rank处的精确度，即前k个索引中相关项的比例，由以下公式给出：0Pk(Sq, Yq) = 10k0k0i = 10j = 1 Yqj 11[R(Sq, i) = j], (3)0∆rk是从rank k-1到k的增量召回率，即在rankk处找到的总共Nq = ∑Ni=1Yqi相关项的比例，由以下公式给出：0∆rk(Sq, Yq) = 1/Nq0j = 1 Yqj 11[R(Sq, k) = j], (4)0而11[∙]是指示函数。03.2. 使用平均精度进行学习0理想情况下，fΘ的参数应该使用随机优化进行训练，以使其在训练集上最大化AP。由于指示函数的存在，这对于原始AP公式来说是不可行的。�̸∆ˆrm(Sq, Y q) =N q,(10)APQ(Sq, Y q) =mAPQ(D, Y ) = 1B5110011[∙]。具体来说，函数R → 11[R = j]对于所有R ≠0，其导数关于R等于零，而在R =0处其导数未定义。因此，这个导数对于优化提供不了信息。受直方图的列表损失启发[58]，最近提出了一种计算AP的替代方法，并应用于描述符哈希[24]和补丁匹配[25]的任务中。关键是使用AP的放松训练，通过将硬分配11替换为可以反向传播的函数δ，将相似性值软分配到固定数量的bin中。在本节中，为了简单起见，我们将几乎处处可微分的函数称为可微分函数。0量化函数。对于给定的正整数M，我们将区间[-1,1]划分为M-1个相等大小的区间，每个区间的度量为∆ = 2/M。0M-1，并且从右到左受到bin中心{bm}1≤m≤M的限制，其中bm = 1 -(m-1)∆。在公式(2)中，我们在{1,...,N}的每个rankk处计算精确度和增量召回率。我们放松的第一步是，相反，计算每个bin中的这些值：0Pbinm(Sq, Yq) = bm′]0∑m′=1 ∑Ni=1 11[Sqi ∈ bm′], (5)0∆rbinm(Sq, Yq) = ∑Ni=1 bm]0Nq, (6)0其中区间¯bm = [max(bm - ∆, -1), min(bm + ∆,1))表示第m个bin。第二步是使用软分配替代指示函数。与[24]类似，我们定义函数δ: R × {1, 2, ..., M} → [0,1]，使得每个δ(∙,m)是以bm为中心、宽度为2∆的三角核。即0δ(x, m) = max(1 - |x - b0∆, 0 ≤ . (7)0δ(x, m)是x的软分箱，当M→∞时，它逼近指示函数11[x ∈bm]，同时对x可微分0∂δ0∂x = - sign(x - b0∆11[|x - bm| ≤ ∆]. (8)0通过扩展符号，δ(Sq, m)是[0, 1]N中的一个向量0它指示了Sq对bin¯bm的软分配。因此，Sq的量化{δ(Sq,m)}Ni=1是指示函数的平滑替代。这使得我们可以根据量化重新计算精确度和增量召回率，如前面的公式(3)和(4)所示。因此，对于每个binm，计算量化精确度ˆPm和增量召回率∆ˆrm的公式如下：0ˆ P m ( S q , Y q ) = � m m ′ = 1 δ ( S q , m ′ ) � Y q0� m m ′ = 1 δ ( S q , m ′ ) � 1 ,(9)0而由此得到的量化平均精度，表示为AP Q，是关于S q的平滑函数，计算公式如下：0m = 1 ˆ P m ( S q , Y q ) ∆ˆ r m ( S q ,Y q ) . (11)0训练过程。训练过程和损失定义如下。设B = {I1, ...,IB}表示一批带有标签[y1, ..., yB] ∈ NB的图像，D = [d1, ...,dB] ∈SB表示它们对应的描述符。在每次训练迭代中，我们计算批量的平均APQ。为此，我们将批量图像中的每个图像都视为潜在的查询图像，并将其与所有其他批量图像进行比较。查询Ii的相似性分数用Si ∈ [−1, 1]B表示，其中Si j = d�idj是与图像Ij的相似性。同时，令Yi表示相关的二进制真值，其中Yij = 11[yi =yj]。我们计算该批次的量化mAP，表示为mAPQ，计算公式如下：0B0i = 1 AP Q � d � i D, Y i � (12)0由于我们希望在训练集上最大化mAP，因此损失自然定义为L ( D, Y ) = 1 − mAP Q ( D, Y ) 。03.3. 高分辨率图像的训练0He等人[25]已经证明，在补丁检索的背景下，大批量大小可以达到最佳性能。在图像检索的背景下，同样的方法不能直接应用。实际上，批量所占用的内存比补丁所占用的内存大几个数量级，使得在任何数量的GPU上进行反向传播变得困难。这是因为（i）通常使用高分辨率图像来训练网络，以及（ii）实际使用的网络要大得多（ResNet-101大约有4400万个参数，而[25]中使用的L2-Net大约有2.6万个参数）。训练使用高分辨率图像已被证明对于在训练和测试时都能获得良好性能至关重要[18]。馈送到网络中的训练图像通常具有约100万像素的分辨率（与[25]中的51×51补丁相比）。通过利用链式法则，我们设计了一种多阶段反向传播算法来解决这个内存问题，并允许训练任意深度、任意图像分辨率和批量大小的网络而不需要近似损失。该算法在图2中进行了说明，包括三个阶段。51110图2.多阶段网络优化的示意图。在第一阶段，我们计算所有批量图像的描述符，丢弃内存中的中间张量。在第二阶段，我们计算得分矩阵S（公式1）和mAP Q损失ℓ =L（D，Y），并计算描述符相对于损失的梯度。在最后阶段，给定批量中的一张图像，我们重新计算其描述符，这次存储中间张量，并使用该描述符的计算梯度继续通过网络进行反向传播。在最后更新网络权重之前，梯度会逐个图像累积。0在第一阶段，我们计算所有批量图像的描述符，丢弃内存中的中间张量（即在评估模式下）。在第二阶段，我们计算得分矩阵S（公式1）和损失ℓ =L（D，Y），并计算描述符相对于损失的梯度∂ℓ ∂d i。换句话说，我们在进入网络之前停止反向传播。由于所有考虑的张量都是紧凑的（描述符、得分矩阵），这个操作消耗的内存很少。在最后阶段，我们重新计算图像描述符，这次存储中间张量。由于这个操作占用了大量内存，我们逐个图像执行此操作。给定图像Ii的描述符di和该描述符的梯度∂ℓ ∂d i，我们可以继续通过网络进行反向传播。因此，我们在最后更新网络权重之前，逐个图像累积梯度。多阶段反向传播的伪代码可以在补充材料中找到。04. 实验结果0我们首先讨论我们实验中使用的不同数据集。然后报告在这些数据集上的实验结果，研究所提出方法的关键参数，并与现有技术进行比较。04.1. 数据集0地标。原始的Landmarks数据集[4]包含213,678张图像，分为672个类别。然而，由于该数据集是通过查询搜索引擎自动创建的，其中包含大量错误标记的图像。在[17]中，Gordo等提出了一种自动清理过程来清理该数据集以与他们的检索模型一起使用，并公开了清理后的数据集。这个Landmarks-clean数据集包含42,410张图像和586个地标，这是我们在所有实验中用来训练我们的模型的版本。0牛津和巴黎重访。Radenović等最近修订了牛津[42]和巴黎[43]建筑数据集，纠正了注释错误，增加了它们的大小，并为它们的评估提供了新的协议[46]。重访的牛津（ROxford）和重访的巴黎（RParis）数据集分别包含4,993和6,322张图像，每个数据集还有70张用作查询（例如查询示例请参见图3）。这些图像根据识别其所代表的地标的难度进一步标记。然后使用这些标签确定这些数据集的三个评估协议：Easy，Medium和Hard。还可以向每个数据集添加一百万个分心图像（R1M），以使任务更加真实。由于这些新数据集本质上是原始牛津和巴黎数据集的更新版本，具有相同的特征但更可靠的真实值，我们在实验中使用这些重访版本。04.2. 实现细节和参数研究0我们使用Adam[32]在[17]的公共Landmarks-clean数据集上使用随机梯度训练我们的网络。在所有实验中，我们使用在ImageNet[49]上预训练的ResNet-101[26]作为骨干网络。我们附加了一个广义均值池化（GeM）层[45]，最近的研究表明它比R-MAC池化[18,56]更有效。使用反向传播训练GeM的幂。除非另有说明，我们使用以下参数：将权重衰减设置为10^-6，并应用标准的数据增强（例如，颜色抖动，随机缩放，旋转和裁剪）。训练图像被裁剪为固定大小的800×800，但在测试时，我们将原始图像（未缩放和未失真）输入网络。我们尝试在测试时使用多个尺度，但没有观察到任何显著的改进。由于我们在单一尺度上操作，这使得我们的描述符提取比具有可比较的网络骨干的最先进方法[18,46]快大约3倍。现在我们根据不同的实验研究讨论其他参数的选择。q⊤qm−1q′ ⊤q51120图3. ROxford的示例查询和训练过程中列表损失的演变示意图。随着训练的进行，图像按照与查询图像的描述符距离进行排序，降低了损失值。0学习率。我们发现，不会导致发散的最高学习率可以获得最佳结果。我们使用从10^-4线性衰减到300次迭代后为0的学习率。0批次大小。正如[25]所指出的，我们发现较大的批次大小会导致更好的结果（见图4）。性能在4096之后饱和，并且训练速度显著减慢。我们在所有后续实验中使用B = 4096。0类别采样。我们通过从每个数据集类别中随机采样图像来构建每个批次（因此，所有类别都在单个批次中表示）。我们还尝试过对类别进行采样，但没有观察到任何差异（见图4）。由于数据集不平衡，某些类别在批次级别上始终过度表示。为了抵消这种情况，我们在公式（12）中引入了一个权重，以在批次内平等加权所有类别。我们训练了两个模型，一个带有这个选项，一个没有，并在图5中呈现了结果。使用类别加权的mAP改进约为+2％，显示了这种平衡的重要性。0Tie-aware AP.在[24]中，针对整数值汉明距离的排名问题，提出了一种tie-aware版本的mAPQ损失。[25]使用相同版本的AP处理实数值欧氏距离。我们在原始的mAP Q损失之外，使用了简化的tie-awareAP损失进行模型训练（参见[24]的附录F.1），记为mAPT。我们将mAPT写成类似于公式（11），但用更准确的近似替换精度：01 + δ ( S q i , m ) T 1 + 2 � m − 1 m ′ =1 δ ( S q i , m ′) � 1 (13)图4中显示了mAP的绝对差异。我们发现，直接从AP的定义中导出的mAPQ损失在小但显著的程度上始终优于tie-aware公式。这可能是因为在实际实现中使用的tie-aware公式实际上是理论tie-awareAP的近似（参见[24]的附录）。我们在所有后续实验中使用mAP Q损失。0表1. 白化的影响。0中等难度0方法 W R Oxford R Paris R Oxford R Paris0GeM（TL-64）63.0 77.6 38.8 56.3 � 64.9 78.4 41.7 58.70GeM（AP）65.1 78.8 38.8 58.6 � 67.5 80.1 42.8 60.50缩写：（W）白化；（TL）三元组损失；（AP）我们提出的mAP Q损失。0分数量化。我们的mAPQ损失取决于公式（7）中的量化bin数M。我们在图4中绘制了不同M值下的性能。与之前的研究结果[25,58]一致，该参数对性能影响较小。在所有其他实验中，我们使用M =20个量化bin。描述符白化。正如常见的做法[29, 30,031, 44,46]，我们在评估之前对描述符进行白化。首先，我们从Landmarks数据集中提取描述符学习PCA。然后，我们使用它来对每个测试数据集的描述符进行归一化。与[29]一样，我们使用平方根PCA。表1显示了使用和不使用白化的检索性能。白化对所有数据集和损失都带来了持续的改进（约1�4%）。我们在所有后续实验中使用白化。04.3. Ceteris paribus分析0在本节中，我们详细研究了使用所提出的列表损失与最先进损失相比的好处。为此，我们将我们的方法中的mAPQ损失替换为三元组损失（TL），并采用硬负样本挖掘（HNM），如[18]中所述（即使用64个三元组的批次）。然后，我们重新训练模型，保持管道不变，并分别重新调整所有超参数，如学习率和权重衰减。收敛后的性能如表2的前两行所示。我们的三元组损失实现，标记为“GeM（TL-64）”，与[18]相当或更好，这可能是由于从R-MAC到GeM池化的切换[45]。更重要的是，我们观察到0.550.650.750.85RParis6K, mediumROxford5K, medium0.30.40.50.60.70.8RParis6K, mediumRParis6K, hardROxford5K, mediumROxford5K, hard0.00.20.40.60.8RParis6K, mediumROxford5K, mediumRParis6K, hardROxford5K, hardRParis6KmediumROxford5KmediumRParis6KhardROxford5Khard−0.010.000.010.020.03∆ mAPRParis6KmediumROxford5KmediumRParis6KhardROxford5Khard−0.0050.0000.0050.0100.015∆ mAPQQWe now compare the results obtained by our model withthe state of the art. The top part of Table 3 summarizes theperformance of the best-performing methods on the datasetslisted in section 4.1 without query expansion. We use thenotation of [46] as this helps us to clarify important as-pects about each method. Namely, generalized-mean pool-ing [45] is denoted by GeM and the R-MAC pooling [56] isdenoted by R-MAC. The type of loss function used to trainthe model is denoted by (CL) for the contrastive loss, (TL)for the triplet loss, (AP) for our mAPQ loss, and (O) if noloss is used (i.e. off-the-shelf features).511305 10 15 20 25 30 35 40 量化bin数M00 1000 2000 3000 4000 5000 6000 7000 8000 批次大小0204 315 409 586 每个批次采样的类别数0mAP0图4. 左图：对于不同的量化bin数M（公式7），R Paris和ROxford的中等基准的mAP，显示该参数对性能影响较小。中图：不同批次大小B的mAP。最佳结果是使用较大的批次大小。右图：假设模型在每次迭代中看到来自不同类别的图像可能是有益的，我们通过从有限的随机类别集合中采样图像来构建每个批次。这对最终性能几乎没有影响。0使用提出的mAPQ损失（最多3%的mAP）时，即使没有使用hard-negativemining方案，也可以获得显著的改进。我们强调，使用更大的批次（即在更新模型之前看到更多三元组），如GeM(TL-512)和GeM(TL-1024)，并不会提高性能，如表2所示。请注意，TL-1024对应于每次模型更新看到1024 × 3 =3072张图像，这大致相当于使用我们的mAPQ损失的批次大小B = 4096。这表明mAPQ损失的良好性能不仅仅是由于使用更大的训练批次。0我们还在表2中指示了每种方法的训练工作量（反向和正向传递次数，更新次数，总训练时间），以及相对于基本实现所需的超参数和额外代码行数（有关更多详细信息，请参阅补充材料）。可以观察到，我们的方法比使用局部损失要少得多的权重更新。它还导致前向和后向传递的显著减少。这支持我们的观点，即使用列表损失同时考虑所有图像要更加有效。总体而言，我们的模型比三元组损失训练快3倍。0这些方法还可以根据所涉及的工程量进行比较。例如，hard negativemining往往需要数百行额外代码，并伴随着许多额外的超参数。相比之下，我们提出的反向传播的PyTorch代码只比普通反向传播多5行。AP损失本身只需要15行代码实现，我们的方法只需要2个超参数（bin的数量M和批次大小B），它们具有安全的默认值并且对于更改不太敏感。0图5.左：在计算AP损失时平衡AP权重，使得批次内的所有类别权重相等，可以提高1到3%的性能。右：从平均mAP T损失到平均mAPQ损失的改进。我们的AP公式相对于[24]中的tie-awareAP公式可以带来小但持续的改进。0现在我们将我们的模型与现有技术的结果进行比较。表3的上部分总结了在第4.1节列出的数据集上最佳方法的性能，没有使用查询扩展。我们使用[46]的符号表示，这有助于我们澄清每种方法的重要方面。即，广义均值池化[45]用GeM表示，R-MAC池化[56]用R-MAC表示。用于训练模型的损失函数类型用(CL)表示对比损失，(TL)表示三元组损失，(AP)表示我们的mAP Q损失，(O)表示未使用损失（即现成的特征）。04.4. 与现有技术的比较0表2. 对损失进行等价分析。0中等难度反向传递次数正向传递次数更新次数超参数数量 ‡ 额外代码行数训练时间方法 R Oxf R Par R Oxf R Par0GeM (AP) [我们的方法] 67.5 80.1 42.8 60.5 819K 1638K 200 2 20 1天 GeM (TL-64) [我们的方法] 64.9 78.4 41.7 58.7 1572K 2213K8192 6 175 (HNM) 3天 GeM (TL-512) [我们的方法] 65.8 77.6 41.3 57.1 2359K 3319K 1536 6 175 (HNM) 3天 GeM (TL-1024)[我们的方法] 65.5 78.6 41.1 59.1 3146K 4426K 1024 6 175 (HNM) 3天0R-MAC (TL) † [18] 60.9 78.9 32.4 59.4 1536K 3185K 8000 6 100+ (HNM) 4天 GeM (CL) † [45] 64.7 77.2 38.5 56.3 1260K 3240K36000 7 46 (HNM) 2.5天0† 为了完整起见，我们在表格的最后两行中包含了来自[18]和[45]的指标，尽管由于使用了不同的训练集或白化和池化机制，它们并不完全可比。‡请参阅补充材料以获取这些参数的列表。51140表3. R Oxford 和 R Paris 的性能评估（平均准确率）。0中等困难0R Oxf R Oxf+1M R Par R Par+1M R Oxf R Oxf+1M R Par R Par+1M0局部描述符 HesAff-rSIFT-ASMK � + SP [46] 60.6 46.8 61.4 42.3 36.7 26.9 35.0 16.8 DELF-ASMK � + SP [41] 67.8 53.876.9 57.3 43.1 31.2 55.4 26.40全局表示 MAC（O）[56] 41.7 24.2 66.2 40.8 18.0 5.7 44.1 18.2 SPoC（O）[3] 39.8 21.5 69.2 41.6 12.4 2.8 44.7 15.3CroW（O）[31] 42.4 21.2 70.4 42.7 13.3 3.3 47.2 16.3 R-MAC（O）[56] 49.8 29.2 74.0 49.3 18.5 4.5 52.1 21.3R-MAC（TL）[18] 60.9 39.3 78.9 54.8 32.4 12.5 59.4 28.0 GeM（O）[45] 45.0 25.6 70.7 46.2 17.7 4.7 48.7 20.3GeM（CL）[45] 64.7 45.2 77.2 52.3 38.5 19.9 56.3 24.7 GeM（AP）[ours] 67.5 47.5 80.1 52.5 42.8 23.2 60.5 25.10查询扩展 R-MAC（TL）+α QE [18] 64.8 45.7 82.7 61.0 36.8 19.5 65.7 35.0 GeM（CL）+α QE [45] 67.2 49.0 80.758.0 40.8 24.2 61.8 31.0 GeM（AP）+α QE [ours] 71.4 53.1 84.0 60.3 45.9 26.2 67.3 32.30所有全局表示都是从ResNet-101骨干网络中学习的，使用不同的池化层和微调损失。缩写：（O）现成特征；（CL）使用对比损失微调；（TL）使用三元组损失微调；（AP）使用mAP损失微调（我们的方法）；（SP）使用RANSAC进行空间验证；（α QE）加权查询扩展[45]。0总体而言，我们的模型在大多数数据集和协议上比现有技术领先1%至5%。例如，在 R Oxford 和 R Paris的难协议上，我们的模型比最佳报告结果[45]领先4个多点。在使用100万个干扰图像增强的相同数据集上，我们的方法除了 R Paris+1M 外，超过了所有其他方法，只有Gordo 等人[18]获得了更好的结果。值得注意的是，我们在R Oxford+1M的中等和困难协议上，相对于[18]的差异分别为+8.2%和+10.7%，而在 R Paris+1M上只有+2.3%和+2.9%的优势，这是非常显著的，因为我们的模型在测试时只使用单一尺度（即原始测试图像），而其他方法通过汇集在多个尺度上计算的图像描述符来提高性能。此外，我们的网络不需要经过任何特殊的预训练步骤（我们使用ImageNet训练的权重初始化我们的网络），这与现有技术中的大多数竞争对手不同。根据经验，我们观察到mAP Q损失使得这种预训练阶段变得过时。最后，训练时间也大大缩短：在单个P40GPU上从头开始训练我们的模型只需要几个小时。我们还在表3底部报告了使用查询扩展（QE）的结果，这是文献中的常见做法[2, 18, 46,45]。我们使用带有α权重的版本[45]，其中α=2，k=10个最近邻。我们的带有QE的模型在8个协议中的6个协议中优于其他也使用QE的方法。我们注意到，我们的结果与Noh等人[41]提出的方法相当，该方法基于局部描述符。0即使我们的方法依赖于全局描述符，因此缺乏任何几何验证，但在没有添加干扰物的 R Oxford 和 R Paris数据集上，它仍然优于局部描述符。05. 结论0在本文中，我们提出了将列表排序损失应用于图像检索任务。我们通过直接优化可微分的mAP松弛度mAP Q来实现这一目标。与用于此任务的标准损失函数相比，mAPQ不需要昂贵的图像样本挖掘或仔细的预训练。此外，我们使用多阶段优化方案高效地训练我们的模型，使我们能够在任意批次大小的高分辨率图像上学习模型，并在多个基准测试中取得了最先进的结果。我们相信我们的发现可以通过展示优化目标指标的好处来指导更好的图像检索模型的开发。我们的工作还鼓励在实例级别之外利用可以同时从任意大小的排序列表中学习的度量标准，而不是依赖于局部排序。0致谢0我们感谢ChristopherDance博士对研究的洞察和专业知识，对改进手稿起到了很大的帮助。51150参考文献0[1] Relja Arandjelovi´c, Petr Gronat, Akihiko Torii, TomasPajdla, and Josef Sivic. NetVLAD: CNN architecture forweakly supervised place recognition. In CVPR, 2016. 1, 20[2] Relja Arandjelovi´c and Andrew Zisserman. Three thingseveryone should know to improve object retrieval. In CVPR,2012. 80[3] Artem Babenko and Victor Lempitsky. Aggregating localdeep features for image retrieval. In ICCV, 2015. 1, 2, 80[4] Artem Babenko, Anton Slesarev, Alexandr Chigorin, andVictor Lempitsky. Neu

下载后可阅读完整内容，剩余1页未读，立即下载