没有合适的资源?快使用搜索试试~ 我知道了~
Yash PatelGiorgos ToliasJiˇr´ı MatasVisual Recognition Group, Czech Technical University in Prague{patelyas,toliageo,matas}@fel.cvut.cz 1 2 3 4 5 6 7 8 9 1075020使用大批量和相似性混合的recall@k代理损失0摘要0本文重点研究了通过探索新的损失函数、批量大小和新的正则化方法之间的相互作用来学习用于检索的深度视觉表示模型。当检索中的评估指标不可微分时,无法通过梯度下降直接优化,这是检索中的召回率的情况。本文提出了一种可微分的召回率代理损失。使用一种绕过GPU内存硬件限制的实现,该方法使用非常大的批量大小进行训练,这对于在整个检索数据库上计算指标至关重要。它还借助一种高效的混合正则化方法,该方法在成对的标量相似性上操作,并且可以进一步增加批量大小。当用于深度度量学习时,建议的方法在几个图像检索基准测试中实现了最先进的性能。例如,对于实例级别的识别,该方法优于使用平均精度的近似训练的类似方法。01. 引言0对于许多计算机视觉和自然语言处理任务,通过最小化测试时评估指标的损失已被证明是有益的。例如,交并比作为损失函数可以提高目标检测[48,70]和语义分割[37]的性能,结构相似性[34]、峰值信噪比[4]和感知[40]作为图像压缩的重建损失可以根据相应的评估指标获得更好的结果。当评估指标不可微分时,无法通过梯度下降在评估指标上训练深度网络。深度学习方法采用代理损失,即可微分函数,作为一种解决方法,这在经验上可以获得合理的性能,但可能与评估指标不太一致。在目标检测[70]、场景文本识别[42, 43]、机器翻译[3]和图像检索[6,41]等领域存在这样的例子。0查询排名的数据库图像0相似性:0.940 0.870 0.850 0.800 0.775 0.650 0.570 0.430 0.400 0.320recall@4 = 0.33,recall@8 = 0.67 rs@4 = 0.310,rs@8 = 0.6160相似性:0.940 0.870 0.850 0.800 0.775 0.774 0.570 0.430 0.400 0.320recall@4 = 0.33,recall@8 = 0.67 rs@4 = 0.315,rs@8 = 0.6320相似性:0.940 0.870 0.850 0.800 0.790 0.775 0.570 0.430 0.400 0.320recall@4 = 0.33,recall@8 = 0.67 rs@4 = 0.334,rs@8 = 0.6660相似性:0.940 0.880 0.870 0.850 0.820 0.800 0.775 0.570 0.430 0.320recall@4 = 0.67,recall@8 = 1.0 rs@4 = 0.577,rs@8 = 0.9570图1.recall@k和rs@k之间的比较,即提出的可微分的recall@k代理。示例显示了一个查询,根据相似性排序的排名数据库图像以及recall@k和rs@k的相应值以及它们对相似性分数变化的依赖性。请注意,recall@k和rs@k的值接近。在某些情况下,相似性和排名的变化可能不会影响原始的recall@k,但可能会影响代理,后者的影响比前者更显著。为了便于理解,所有负例的相似性值都是固定的。在第2、3和4行中更改的正例的相似性值已经用下划线标出。0本文涉及将图像检索训练为深度度量学习和欧氏搜索在学习的图像嵌入空间中。它是根据与查询相关性对所有数据库示例进行排序的任务,这对于许多应用非常重要。标准评估指标是在前几个检索结果中的精确度和召回率以及平均平均精度(mAP)。这些指标在信息检索中是标准的,它们反映了检索结果的质量,并允许灵活地关注前几个顶级结果或整个排序列表的示例。在本文中,我们主要关注召回率在前k个检索结果中的情况,记为recall@k。75030与非可微评估指标的优化相关的问题也适用于recall@k。估计正样本在检索结果列表中的位置,并计算在固定大小的短列表中出现的正样本数量涉及到非可微操作。需要注意的是,用于训练非可微损失的方法,如actor-critic[3]和学习替代物[42],不能直接应用于recall@k。这是因为这些方法仅限于可分解函数,其中可用每个示例的性能度量。Engilberge等人尝试了一种替代方法[13],其中LSTM学习基于排序的度量,但由于训练速度慢,没有在随后的工作中进行调整。作为替代方案,用于图像检索的深度度量学习方法通常使用排名代理损失,称为成对损失。在嵌入空间中,损失函数(如对比损失[18],三元组损失[53]和边际损失[69])将来自同一类别的示例拉近,将来自不同类别的示例推开。这些损失是手工设计的,以反映检索任务和评估指标的目标。损失值取决于图像对或三元组的图像之间的相似度,而不考虑整个排序列表。如果相似度值发生变化而整体排序没有变化,则损失值的变化表明它们与排序不相关[6]。最近的方法专注于优化平均精度(AP),并使用替代函数作为损失[6, 7, 19, 47,49]。评估指标的替代函数是一种以可微的方式近似它的函数。0所提出的方法在4个细粒度检索数据集(即iNaturalist[61],Ve- hicleID [61],SOP [39]和Cars196[27])以及2个实例级检索数据集(即RevisitedOxford和Paris[45])上取得了最先进的结果。这是通过以下三个要素之间的协同作用实现的。首先,提出了一种新的损失作为已建立的检索评估指标(即topk的召回率)的替代,并通过实验证明始终优于现有竞争对手。评估指标和提出的损失之间的比较如图1所示。其次,使用非常大的批量大小,即在单个GPU上处理数千个大分辨率图像。这受到实例级检索文献的启发[47],并首次引入到细粒度分类的上下文中。在最近的一项工作中,验证了深度度量学习在细粒度分类中的先前结果[36],其中批量大小被认为是固定的,是在不同损失的大量比较中选择的一个小值;而在本文中,我们达到的批量大小比Musgrave等人的工作[36]大两个数量级。第三个要素是所提出的mixup正则化技术,它在计算上是高效的,并且实际上扩大了0该方法的效率是通过在相似度估计的最后阶段操作标量相似度来实现的,即混合标量相似度,而其适用性超出了与本文中提出的损失的组合。所提出的损失用于训练广泛使用的ResNet架构[20],以及最近的视觉转换器(ViT)[10]。通过这两种架构,证明了该损失相对于现有损失的优越性,而在使用ViT-B/16时,以较低的吞吐量实现了最佳结果,而不是使用ResNet。02. 相关工作0在这一部分中,将针对两种不同类型的深度度量学习方法进行相关工作的回顾,这两种方法涉及优化的损失类型,即分类损失和成对损失。在前者中,给定一个将输入图像映射到高维空间的嵌入网络,损失是嵌入和单个图像的相应类别标签的函数;而在后者中,损失是两个嵌入之间的距离或相似度以及相应成对标签的函数。还回顾了与嵌入学习相关的mixup [72]技术的先前工作。分类损失。Zhai和Wu[71]的工作支持标准分类损失,即交叉熵(CE)损失是深度度量学习的一种强大方法。他们的发现得到了层归一化和类平衡采样的支持。在面部度量学习领域,提出了几种不同的分类损失,例如SphereFace [30],CosFace[64]和ArcFace[8],其中的贡献都体现了大边界分类的精神。尽管这些损失的特定领域是面部,但它们适用于面部之外的其他领域。另一种变体是邻域组件分析(NCA)损失,该损失在Movshovitz-Attias等人的工作中使用[35],后来通过基于温度的缩放和类原型向量的更快更新(在他们的工作中也称为代理)进行了改进[58]。Qian等人[44]放弃了每个类别一个原型向量的限制,而是为每个类别存储多个代表。与成对损失相比,分类损失对每个图像进行独立优化。Elezi等人的工作[12]是一个例外,其中相似性传播模块捕捉了批次内的组间交互。然后使用交叉熵损失,通过考虑这些交互,现在取得了显著的改进。通过用注意模型替换传播模块,最近对CE损失与一些广泛使用的成对损失之间的关系进行了互信息的研究[5]。将CE损失视为最小化成对损失的近似界优化;CE最大化互信息,这些成对损失也是如此。3. MethodThis section presents the task of image retrieval and theproposed approach for learning image embeddings.Task. We are given a query example q ∈ X and a collec-tion of examples Ω ⊂ X, also called database, where X isthe space of all images. The set of database examples thatare positive or negative to the query are denoted by Pq andNq, respectively, with Ω = Pq ∪Nq. Ground-truth informa-tion for the positive and negative sets per query is obtainedaccording to discrete class labels per example, i.e. if twoexamples come from the same class, then they are consid-ered positive to each other, otherwise negative. This is thecase for all (training or testing) databases used in this work.Terms example and image are used interchangeably in thefollowing text. In image retrieval, all database images areranked according to similarity to the query q, and the goalis to rank positive examples before negative ones.Deep image embeddings. Image embeddings, otherwisecalled descriptors, are generated by function fθ : X → Rd.In this work, function fθ is a deep fully convolutional neu-ral network or a vision transformer mapping input images ofany size or aspect ratio to an L2-normalized d-dimensionalembedding. Embedding for image x is denoted by x =fθ(x). Parameter set θ of the network is learned during thetraining. Similarity between a query q and a database im-age x is computed by the dot product of the correspondingembeddings and is denoted by s(q, x) = q⊤x, also denotedas sqx for brevity.Evaluation metric. Recall@k is one of the standard met-rics to evaluate image retrieval methods. For query q, it isdefined as a ratio of the number of relevant (positive) exam-ples within the top-k ranked examples to the total numberof relevant examples for q given by |Pq|. It is denoted byRkΩ(q) when computed for query q and database Ω and can75040以下将对其进行回顾。成对损失。这项任务引入的第一个成对损失是所谓的对比损失[18],其中相关对的嵌入尽可能靠近,而不相关对的嵌入则要足够远。由于目标任务通常是排序任务,三元损失[53]是一种流行且广泛使用的损失,通过形成锚点、正例和负例示例的训练三元组来改进。该损失是锚点到正例距离和锚点到负例距离之差的函数,如果这种差异足够大,则损失为零,因此满足了排序任务的目标。对所有成对或三元组进行优化是不可行的,而且被观察到是次优的[69]。因此,很多注意力都集中在寻找信息丰富的成对和三元组上[32, 36, 51, 55,56],通常包括启发式方法。文献中提出了几种其他损失[56,65,69],并将其添加到旨在学习嵌入在排序或类似任务中转移良好的手动设计的代理损失的长列表中。少数情况下采用了一种合理的方法来获得适用于排序任务的损失。这是Ustinova等人的工作[60],其目标是最小化非相关对的嵌入相似性大于相关对的概率。这个概率是通过量化可能相似性的范围和直方图损失来近似的,直方图损失是在单个批次中估计的。他们的工作不需要任何采样来构建小批量。一种名为RankMI的信息论损失函数,通过使用神经网络最大化同一语义类别内样本之间的互信息。另一种合理的方法专注于优化AP,这是一种标准的检索评估指标。通常在文献中使用其平滑近似[19, 47,49],而Brown等人的工作[6]与我们的工作最接近。结合这样的基于AP的损失,大批量大小至关重要,这符合硬件设备的限制。Revaud等人的工作[47]克服了这些限制,他们使用了一个包含4000个高分辨率图像的批次。嵌入混合。Manifoldmixup[63]通过鼓励更平滑的决策边界,通过混合两个示例的中间表示和标签,改善了监督学习的泛化能力。这些技术在嵌入学习和图像检索中得到了研究,通过混合两个示例的嵌入来实现。Duan等人[11]使用对抗训练从观察到的负样本中合成额外的负样本。Kalantidis等人[24]通过混合两个最难的负样本的嵌入以及将它们与查询本身混合来合成对比自监督学习的困难负样本。Zheng等人[74]使用嵌入之间的线性插值来操纵困难度。0在Gu等人的工作中[15],使用来自同一类别的两个嵌入向量生成对称的合成样本,并在原始样本和合成样本集中进行难负样本挖掘。这进一步扩展到基于代理的损失,其中混合来自不同类别和标签的示例的嵌入以生成合成代理[16]。线性插值标签存在生成错误负样本的风险,如果插值因子接近0或1。Venkataramanan等人的工作[62]克服了这些限制,为成对损失函数混合来自不同类别的示例提供了一般化。所提出的SiMix方法与前述技术不同,它操作的是相似性分数而不是嵌入向量,不需要训练额外的模型,因此计算效率高。此外,与现有的混合技术不同,它使用合成样本作为查询、正例和负例的角色。be expressed asRkΩ(q) =�x∈PqH(k − rΩ(q, x))|Pq|,(1)where rΩ(q, x) is the rank of example x when all databaseexamples in Ω are ranked according to similarity to queryq. Function H(.) is the Heaviside step function, which isequal to 0 for negative values, otherwise equal to 1. Therank of example x is computed byrΩ(q, x) = 1 +�z∈Ω,z̸=xH(sqz − sqx),(2)Therefore, (1) can now be expressed asRkΩ(q) =�x∈PqH(k − 1 −�z∈Ω,z̸=xH(sqz − sqx))|Pq|.(3)Recall@k surrogate loss. The computation of recall in (3)involves the use of the Heaviside step function. The gradi-ent of the Heaviside step function is a Dirac delta function.Hence, direct optimization of recall with back-propagationis not feasible. A common smooth approximation of theHeaviside step function is provided by the logistic func-tion [21, 22, 28], a common sigmoid function στ : R → Rcontrolled by temperature τ, which is given byστ(u) =11 + e− uτ ,(4)where large (small) temperature value leads to worse (bet-ter) approximation and denser (sparser) gradient. This ap-proximation is common in the machine learning literaturefor several tasks [17, 33, 52] and also appears in the ap-proximation of the Average Precision evaluation metric [6],which is used for the same task as ours. By replacing thestep function with the sigmoid function, a smooth approxi-mation of recall is obtained as˜RkΩ(q) =�x∈Pqστ1(k − 1 −zΩ̸στ2(sqz − sqx))00.20.40.60.81g(u)dg(u)du00.20.40.60.81u = sqz − sqx1357900.20.40.6dσk = 1k = 2k = 4K = {1, 2, 4}∫⟩}⇕ ≀⟩⌈ ⊓ ∫⌉ ⌈ ⊔ ≀ ⌋ ≀⊓ \ ⊔⊔ ⟨⌉⟩‡⌉75050| Pq |, (5)0它是可微的,并且可以用于使用反向传播进行训练。这两个sigmoid函数具有不同的函数域和不同的温度(见图2)。在大小为M =|B|的小批量B中,查询q∈B的最小化单查询损失由以下公式给出:0Lk(q) = 1 - ˜RkB\q(q). (6)0而使用给定的损失进行多个k值的合并,由以下公式给出:0LK(q) = 1 | K|0k ∈ KLk(q). (7)0-5 0 50u = k - 1 - r Ω(q, x)0g(u) = στ1(u), τ1 = 10-1 - 0.5 0 0.5 10g(u) = στ2(u), τ2 = 0.010图2.用于计算短列表中正例数量的两个sigmoid函数(左)和用于估计示例排名的sigmoid函数(右),替代了Heaviside阶跃函数。0r0du,u= k- r0图3.用于计算短列表中正例数量的sigmoid函数的梯度幅度与正例示例x的排名r(等于rΩ(q,x),参见(2))之间的关系。它显示了正例示例根据其当前排名被推向较低排名的程度。在存在多个k值的情况下,总梯度等于各个梯度的总和。0图3显示了使用单个或多个k值的影响。小批量中的所有示例都用作查询,并且在训练过程中最小化所有查询的平均损失。所提出的损失被称为Recall@k Surrogateloss,或简称为RS@k损失。为了允许当k小于正例数时损失为0(注意,精确的recall@k定义上小于1),我们在训练过程中稍微修改了(5)。我们将分母从|Pq|改为min(k,|Pq|),因此,我们将分子中大于k的值剪切以避免负损失值。相似性混合(SiMix)。给定原始批量B,通过混合原始批量中所有正例对来创建虚拟批量ˆB。使用示例x∈B和z∈B的嵌入来生成混合嵌入:0vxzα = αx + (1 - α)z | α � U(0, 1), (8)0对于一个以xzα∈ˆB表示的虚拟示例,原始示例w∈B与虚拟示例xzα∈ˆB的相似度由以下公式给出:0s(w, xzα) = w � vxzα = αs wx + (1 - α)s wz, (9)0)75060其中原始和虚拟示例可以是查询示例和数据库示例,或者反之亦然。如果两个示例都是虚拟的,例如,xzα1∈ˆB用作查询,ywα2∈ˆB用作数据库的一部分,那么它们的相似度由以下公式给出:0s(xzα1, ywα2) = v � xzα1 v ywα2 = α1α2s xy + (1 -α1)(1 - α2)s zw + α1(1 - α2)s xw + (1 - α1)α2s zy.0在前面的公式右侧出现的成对相似度,例如(9)中的s wx和swz,是通过原始的非虚拟示例的嵌入计算得出的,并且对于计算没有任何虚拟示例的RS@k也是必需的。因此,通过添加不需要显式构建相应嵌入或通过点积计算相似度的虚拟示例的简单混合,将小批量扩展为B∪ˆB;只需混合相应的成对标量相似度即可。由于混合嵌入的缺乏重新归一化,SiMix简化为混合成对相似度,这与先前工作中的现有实践不同[15, 16, 24,62],并带来了训练效率的好处。虚拟示例仅在相同类别的示例之间创建,并根据混合的原始示例的类别进行标记。虚拟示例既用作查询示例,也用作数据库示例,而混合应用于小批量内的所有正示例对。概述。使用提出的损失和SiMix的训练过程概述如算法1所示。如果不使用SiMix,则跳过第11行、第13行、第14行和第15行。假设训练中的每个图像都标记为一个类别。通过从M /m个采样类中随机采样每个类m个图像,生成大小为M的小批量。04. 实验04.1. 数据集0训练和评估是在四个广泛使用的图像检索基准上进行的,分别是iNaturalist [61],PKU VehicleID [29],StanfordOnline Products [39](SOP)和Stanford Cars[27](Cars196)。在这些基准中,检索到前k个图像的召回率,用r@k表示,是标准的评估指标之一。如果在前k个列表中至少有一个正样本图像出现,则指标r@k为1,否则为0。该指标在所有查询中进行平均。请注意,这与(1)中召回率的标准定义不同。iNaturalist[61]首次由Brown等人使用[6],我们遵循他们的设置:训练使用5,690个类别,测试使用2,452个类别。对于VehicleID,根据标准设置[29],使用13,134个类别进行训练,并在预定义的小型(8000算法1 使用RS@k和SiMix进行训练。01: 过程TRAIN-RS@K(X,Y,M,m)2: X:训练图像03: Y: 类别标签04: M: mini-batch大小05: m: 每个类别的图像数量06: 7: θ ← 根据预训练进行初始化 � 使用ImageNet08: 对于iteration ∈ [1, ..., number-of-iterations]进行循环09: 损失←0 � 将批次损失设置为零010: B ← BATCH-SAMPLER(X, Y, M, m)011: ˆB ← VIRTUAL-BATCH(B) � 枚举虚拟样本012: 对于(x, z) ∈ B × B进行循环计算s(x, z) � 使用x�z013: 对于(x, z) ∈ B × ˆB进行循环计算s(x, z) � 使用(9)014: 对于(x, z) ∈ ˆB × ˆB进行循环计算s(x, z) � 使用(10)015: B ← B ∪ ˆB � 扩展批次以包含虚拟样本016: 对于q ∈ B进行循环 � 使用批次中的每个图像作为查询017: 损失←损失+LK(q) � Recall@k损失(7)018: 结束循环019: θ ← MINIMIZE(损失0| B | ) � SGD更新020: 结束循环021: 结束过程0数据集 #图像 #类别 #平均0iNaturalist Train [61] 325,846 5,690 57.3 iNaturalistTest [61] 136,093 2,452 55.5 VehicleID Train [29]110,178 13,134 8.4 VehicleID Test [29] 40,365 4,8008.4 SOP Train [39] 59,551 11,318 5.3 SOP Test [39]60,502 11,316 5.3 Cars196 Train [27] 8,054 98 82.1Cars196 Test [27] 8,131 98 82.90R Oxford [45] 4,993 11 n/a R Paris [45] 6,322 11 n/aGLDv1 [38] 1,060,709 12,894 82.30表1. 训练和评估的数据集组成。0类别), medium (1600类别)和large(2400类别)测试集。对于SOP [39]和Cars196[27],遵循Song等人的标准实验设置[56]。前一半类别用于训练,剩余类别用于测试,结果为SOP使用11,318个类别,Cars196使用98个类别。0该方法在Revisited Oxford(R Oxford)和Paris(RParis)基准测试上进行了实例级别的搜索评估[45],评估指标为平均精度(mAP)。训练使用GoogleLandmarks数据集(GLDv1)[38]与Revaud等人的工作[47]和他们的AP损失进行比较。验证根据Tolias等人的工作[59]进行。0可以在表1中找到示例、类别和每个类别的平均示例数量。请注意,这些数据集在训练示例数量、类别数量和每个类别的示例数量上具有多样性,从平衡的类别[27]到长尾的类别[61]。750704.2. 实现细节0四个图像检索基准的实现细节相同,但对于R Oxford/RParis,与之前的工作[47]相比有所不同。需要时会进行解释差异。架构。使用ImageNet[9]预训练的ResNet-50[20]作为深度图像嵌入的主干。在[51]的标准实现基础上,训练期间保持BatchNorm参数冻结。在卷积层之后,使用广义均值池化[46]和层归一化[1],类似于[58]。对于视觉变换器[10],使用ViT-B/32和ViT-B/16,使用timm库[68]中的ImageNet-21k初始化。模型的最后一层是一个d维的全连接(FC)层,带有L2归一化。在R Oxford/RParis的情况下,使用ResNet-101[20],不添加层归一化,而FC层使用白化的结果进行初始化[46]。训练超参数。对于ResNet架构,使用Adam优化器[26],对于视觉变换器,使用AdamW[31]。本文采用标准的类平衡采样[6, 36,58],每个数据集每个类别使用4个样本进行训练,少于4个样本的类别不用于训练。除非另有说明,训练的批量大小设置为4000,对于Cars196数据集,批量大小等于4×类别数=392。按照ProxyNCA++[58]的设置,训练集被分为训练集和验证集,使用前一半类别进行训练,另一半类别进行验证。通过这种划分,使用网格搜索确定学习率、衰减步数、衰减大小和总的训练轮数。一旦固定了超参数,就在整个训练集上进行一次训练,并在测试集上进行评估。在GLDv1上训练并在R Oxford/RParis上测试时,批量大小设置为4096[47],并进行500个批次的训练,而其他训练超参数设置与Radenovic等人的工作和GitHub实现[46]相同。需要注意的是,每个数据集的超参数将在实现中发布。RS@k超参数。提出的Recall@kSurrogate(RS@k)损失(5)包含三个超参数:对相似性差异应用的sigmoid温度τ2,对排名应用的sigmoid温度τ1,以及计算损失的k的值集合。两个sigmoid温度在所有实验中保持不变,即τ2=0.01(与[6]相同)和τ1=1。k的值保持不变,分别为k={1, 2, 4, 8, 16}(不使用SiMix)和k={1,2, 4, 8, 12, 16, 20, 24, 28,32}(使用SiMix)。对于GLDv1[38],k的值分别为k={1, 2,4}和k={1, 2, 4,8}。k的值在补充材料中进行了研究,sigmoid温度τ1在第4.4节中进行了调查,观察到该方法对这些超参数不太敏感。0大批量大小。为了摆脱GPU硬件限制并能够使用大批量大小进行训练,我们遵循Revaud等人的多阶段反向传播方法[47]。首先进行前向传播以获取所有嵌入,同时将中间张量从内存中丢弃。然后计算损失以及嵌入的梯度。最后,重新计算每个嵌入,这次允许梯度的传播。需要注意的是,目前还没有该方法的在线实现,但本文的代码将会公开。算法1不包括这种实现细节,但它与此类扩展兼容。在第4.4节中验证了所提出的RS@k损失函数对批量大小的影响。讨论。文献中的方法使用不同的嵌入大小d,因此RS@k损失的模型使用了两个嵌入大小,即d=128和d=512,用于图像检索基准[27, 29, 39, 61],以及d=2048用于R Oxford/RParis[45],以便进行公平比较。在标准分割中,图像检索基准[27, 29, 39,61]不包含显式的验证集;因此,图像检索方法通常在测试集上调整超参数,导致使用测试集反馈进行训练的问题。这个问题在[36]中进行了研究,提出使用相同的超参数训练不同的方法。[36]的设置不能直接用于RS@k损失的实验,因为大批量大小对于准确估计召回率@k至关重要。此外,他们的设置不允许混合。因此,我们不采用[36]的方法,而是使用训练集的一部分作为验证集,如上所述,来消除这个问题。04.3. 评估0除非另有说明,竞争方法的结果取自原始论文。带有 †标记的方法是由本文作者使用与RS@k损失相同的实现进行训练的。图像检索基准测试[27,29,39,61]的结果与使用ResNet-50[20]或Inception网络[57]的方法进行比较。在表格中,ResNet-50[20]表示为Rd50,标准Inception网络[57]表示为Id1,带有BatchNorm的Inception网络表示为Id3(与[58]相同)。这里的d是嵌入大小。在所有数据集上,基线方法Smooth-AP(SAP)[6]的性能也使用广义均值池化[46]和层归一化[1]进行了报告,表示为SAP†(+Gem+LN)。这是为了消除由架构引起的比较中的任何性能提升。请注意,除非在我们的实验中另有说明,否则SAP的批量大小设置为384,与原始实现[6]相同。此外,我们还展示了SAP和RS@k在ViT-B架构上的性能。使用32×32的补丁大小的ViT-B变体表示为ViT-B/32和ProxyNCA [35]I128161.6 77.4 87.0 90.673.7---------73.282.486.488.7Margin [69]R12858.1 75.5 86.8 90.772.786.293.898.0------79.686.591.995.1RS@kR1285069.3 82.9 90.6 93.180.691.696.498.8 95.6 97.8 94.4 96.8 93.5 96.6 78.185.891.194.5RS@k† +SiMixR1285069.6 83.3 91.2 93.8 80.9 91.7 96.5 98.8 95.4 97.5 93.8 96.693.096.2 84.7 90.9 94.7 96.9+21% +26% +32% +33% +1.5% +1.2% +7.9% +7.7% +17% +31% +11% +24% +7.1% +19% +25%+33%+35%+37%R5067.2 81.8 90.3 93.180.191.596.699.094.9 97.6 93.3 96.491.996.2 76.184.389.893.8SAP† [6] +GeM +LNR51268.7 82.7 90.9 93.580.392.096.999.094.2 97.2 92.7 96.291.095.8 78.285.690.894.3+14% +16% +16% +17%+11%+5.3%+12%+10%+16% +13% +18% +14%+11%+10% +13% +6.7% +4.7% −13%SAP† [6]ViT-B/32512 72.2 84.6 91.6 93.983.794.097.899.394.8 97.7 93.5 96.892.196.3 78.185.791.094.8†512of 392; it provides a performance of 79.5%, 86.6%, 91.2%,and 94.4% and when combined with SiMix a performace of85.4%, 91.0%, 94.3% and 96.7% on r@1, r@2, r@4 andr@8 respectively. SiMix makes a large difference in perfor-mance for both RS@k and SAP [6], primarily because of asmaller batch size (392), as constrained by the low numberof classes. With SiMix, RS@k reaches the state-of-the-artresults on three out of four recall@k values. If the batchsize is further increased to 588 by changing the number ofsamples per class from 4 to 6, then RS@k provides a largergain with performance 88.3%, 93.3%, 95.9% and 97.6%.Results with ViT-B. The results by replacing the ResNet-50 [20] b
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功