基于内存的虚拟类提升深度度量学习

169 浏览量更新于2023-10-13 收藏 1.8MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11792使用基于内存的虚拟类进行深度度量学习ByungsooKo1*NAVER/LINEVisionkobiso62@gmail.comGeonmoGu1*NAVER/LINEVisionkorgm403@gmail.comHan-Gyu KimNAVER Clova演讲hangyu.kim邮件navercorp.com摘要深度度量学习（DML）的核心涉及在高维嵌入空间中学习视觉相似性。主要挑战之一是从可见的训练数据类推广最近的工作集中在利用过去的嵌入来增加所见类的实例数量。这样的方法通过增强来实现性能改进，同时仍然保持对可见类的强烈关注。这对于DML来说是不希望的，因为训练和测试数据表现出完全不同的类。在这项工作中，我们提出了一种新的DML训练策略，称为MemVir。与以前的作品不同，MemVir记忆嵌入功能和类权重，以利用它们作为额外的虚拟类。虚拟类的开发不仅利用增强的信息进行训练，而且还allevi- ates一个强大的重点看到类更好的推广。此外，我们嵌入课程学习的想法，通过慢慢增加虚拟班级的学习难度逐渐增加，这提高了学习的稳定性以及最终的表现。MemVir可以很容易地应用到许多现有的损失函数，而无需任何修改。在著名的基准测试上进行的大量实验结果证明了MemVir优于最先进的竞争对手。MemVir的代码是公开可用的1.1. 介绍深度度量学习（DML）对于在各种视觉任务中学习视觉相似性非常重要，例如图像聚类[17]，无监督学习[4，15，5]和图像检索[43，10，24，12]。学习视觉相似性的目的是建立一个良好的广义嵌入空间，反映视觉相似性的图像使用一个定义的距离度量。通常，训练和测试数据在DML中表现出完全不同的类。因此，主要的挑战是最大限度地提高从训练分布到移位测试分布的泛化性能，这与处理i.i.d.的经典分类任务不同。*作者贡献相同。1https://github.com/navervision/MemVir图1.在常规训练中，损失函数与实际类别一起计算。另一方面，在MemVir中，使用前面步骤中的类（虚拟类）与实际类一起计算损失函数。此外，类和嵌入的数量通过添加虚拟类而逐渐增加，其中C和B表示类的数量和批量大小，N和M是MemVir的超参数。训练和测试分布[31，37]。当前的DML方法专注于学习具有目标函数的视觉相似性，其考虑成对相似性（基于对的损失）[6，38，46]或样本和类别代表之间的相似性（基于代理的损失）[41，40，28，7，42]。最近的研究提出利用来自过去训练步骤的额外嵌入，其在存储器队列中保存和控制，以增加小批量中的样本数量和硬否定对的数量[15，5，45，22]。然而，这些利用过去嵌入的方法仍然限于训练数据的可见类。因此，经训练的模型可能导致对测试数据中的可见类过度拟合，而对未可见类表现不佳。因此，为了学习一个泛化的嵌入空间，我们需要在训练阶段减轻对可见类的强烈关注[37，31，30]。类数常规MemVir损失公司简介小批量（N+1）C（N+1）B（N+1）C（N+1）BCBCB0端0端步骤步骤：嵌入、类：当前步骤的实际类：类权重：来自过去步骤的virtual类-（M+1），-2（M+1）嵌入数量类数嵌入数量11793→→X我I→X联系我们|X|·| X|i=1我我在本文中，我们提出了一种新的训练策略，训练模型与基于内存的虚拟类（MemVir），为DML。在MemVir中，我们为类权重和嵌入特征维护内存队列。而不是使用它们来增加实例的数量如图1所示，在所看到的类中，它们被视为虚拟类，以与实际类一起计算损失函数。此外，我们将课程学习（CL）的想法，逐步增加学习难度，通过慢慢增加虚拟课堂。所提出的MemVir具有以下优点：1）MemVir用增强的信息训练模型，其包括增加数量的类（C（N+1）C）和实例（B（N+1）B），而没有额外的特征提取。2）类CL逐步增加学习难度，提高了优化稳定性和最终性能。3）利用虚拟类通过减轻对训练数据的可见类的过度强烈关注来帮助实现更4）MemVir可以很容易地应用于许多现有的损失函数，以获得显着的性能提升，而无需对损失函数进行任何修改。捐款. 1)我们提出了一种新颖的训练策略对于DML，它利用过去的嵌入和类权重作为虚拟类来提高泛化能力。通过引入合作学习的思想，进一步2）我们详尽地分析了我们提出的方法，并证明了采用虚拟类通过从理论和经验上减轻对可见类的强烈关注来改善泛化。3）MemVir在传统和度量学习现实检查（MLRC）[33]评估协议中的三个流行的DML基准上实现了最先进的性能。2. 相关工作样本生成和基于记忆的学习。在DML中，已经研究了硬样本的生成，以使用更多信息样本进行训练[8，49，12，24]。DAML [8]和HDML [49]利用生成网络生成合成样本，而Symm [12]和EE [24]通过几何关系生成合成样本。同时，在许多计算机视觉任务中已经探索了利用前面步骤中的信息[15，5，45，22]。在有监督的DML中，提出XBM [45]使用记忆的嵌入来扩展基于对的损失中的负样本在XBM中，基于“慢漂移”现象忽略过去和当前嵌入之间的状态另一方面，[22]认为由状态差异引起的大的累积误差可能会降低训练过程。他们提出用于softmax变量损失的BroadFace方法来控制关于增加所看到的类的实例的数量的已记录或已存储的信息然而，这可能导致模型对可见的类过度优化，而对测试数据中的不可见的类表现不佳。所提出的MemVir不是忽视或控制状态差异，而是通过将所存储的嵌入和类权重用作虚拟类来利用状态差异，虚拟类被视为与实际（看到的）类不同的类。虚拟类的开发有助于实现更广义的嵌入空间，通过allevi- ating看到的类的强烈关注与XBM w.r.t“慢漂移”现象的其他虚拟课堂。在图像识别任务中，虚拟soft-max [3]通过将虚拟类注入softmax损失来增强嵌入的区分性。但是，它不仅受到单个虚拟类的限制，而且不能与softmax变体一起使用L2归一化。相比之下，MemVir利用多个虚拟类，可以与任何softmax变体和基于代理的损失一起使用。课程学习。机器学习中的CL受到人类学习课程的思想的激励，其中模型首先从较容易的样本中学习，然后从较在许多机器学习任务中，将CL用于模型训练已被证明可以加速和改善训练过程[1，47，13，18]。利用CL时，必须考虑两个关键因素：（1）对每个样本的难度进行评分;（2）调度将样本呈现给网络的速度。为了定义难度，已使用自举和迁移学习来对每个样本的难度进行评分[47，13]。对于调度，可以在固定或自适应步骤中确定要呈现给网络的样本[47，18]。传统CL和MemVir之间的主要区别是前者在训练数据中的时间表，而后者（MemVir）增加了虚拟类的学习难度，虚拟类是增强信息。3. 该方法3.1. 初步我们将深度神经网络定义为f：，它是从一个输入数据空间映射而来的一个嵌入-丁空间设X=[x1，x2，. . . .，Xh]表示D维嵌入特征，并且每个特征Xi具有对应的标签yi1，. . .、C.目标函数的广义形式可以写成如下：L（X，W）=−1Σl（x，y），（1）通过补偿状态差和梯度控制来控制误差上述方法的重点是利用基因其中W表示类权重，并且I（）可以是下面定义的任何损失函数。11794联系我ey→→ΣJJǁ ǁǁǁǁǁǁǁΣ+∈∈小批量B网站地图嵌入N + 1 B×权重（N + 1）C×CNN步骤-N（M+1）- （M+1）-M-1嵌入队列D权重队列…...M使用步骤数（彩色）N余量M图2. MemVir概述。保持过去的嵌入和类权重队列。我们选择N个步骤的过去嵌入和权重，在所选步骤之间具有余量M，并将它们用作附加的虚拟类以及实际类以用于损失计算。最广泛使用的分类损失函数，软最大损失，已被重新评估为度量学习中的竞争目标函数[48，2]。softmaxloss用于优化网络f和类权重W：WTxi我以利用增加的信息并获得更好的泛化。当传统的度量学习使用给定的C类和来自训练数据的B嵌入来训练模型时，MemVir会逐渐增加类的数量（C（N+1）C）和嵌入（B（N+1）B）与虚拟类。我们使用命名约定lsoftmax（xi，yi）= logCj=1 eWTxi 、（二）MemVir（N，M）的超参数，其指示其中WjRD表示权重WRD X C的第j列。偏置b被设置为0，因为它不影响性能[28，7]。权重Wj是每个类的中心[7，42]并用作代表。为了提高性能和更好的解释，[41，40，28]建议将权重和嵌入特征归一化，以将它们放置在具有固定半径的超球体上。我们执行l2-归一化以将权重的大小和嵌入特征固定为以下内容：W，j=1和特征x，i=1。随后，我们可以通过将 W Txi=WJXicosθj=cosθj，并将Norm-softmax损耗定义如下：eγcosθyi所提出的方法将在下面定义排队通过嵌入和权重。为了在损失计算中形成类，需要一对类表示特征（权重）和嵌入特征。因此，在MemVir中，我们维护两种类型的内存队列：嵌入队列E和权重队列W，其中队列的每个实体是如图2所示的每个步骤的嵌入或类权重的集合。对于每个步骤，嵌入集合X和权重W分别被排队到E和W。每个队列的大小被确定为N（M+1），其中N是用于损失计算的所选步骤的数量，并且M是所选步骤之间的余量。类群集的形状和位置随每个步骤而变化，因为l（x，y）=log、（3）规范i ieγcosθyiCj=1，jeγcosθj我网络参数在训练过程中不断变化等其中 γ 是比例因子。所提出的方法MemVir可以与softmax变体以及基于代理的损失一起使用，因为代理是一个类代表特征，非常像softmax变体的类权重。因此，我们在补充部分A中包括其他损失函数的细节（CosFace [42]、Arc- Face [7]、CurricularFace [18]、Proxy-NCA [32]和Proxy-Anchor [213.2. 基于记忆的虚拟课堂我们提出了一种名为MemVir的新训练策略，该策略使用过去步骤中的虚拟类来训练模型在MemVir中通过利用来自先前步骤的权重和嵌入作为虚拟类来利用步骤之间的方差。这里，所选择的步长之间的差可以由裕度M控制。安排虚拟课堂的使用。在MemVir中，将利用虚拟课程逐渐增加学习难度，作为CL。虚拟类使用的调度包括两个时段：热身和步速训练我们打开MemVir并在预热步骤U（时期Ue）之后开始管理队列，因为初始阶段的嵌入通常是分散的而不形成集群。实际M虚拟数控×中文B×......y11795≥˜˜·，−min（[，N）+1算法一：MemVir的伪代码//f：编码器网络// weight/embed queue：加权嵌入存储队列//Ue，N，M：预热时期，步数，余量1 对于输入，加载程序中的标签do2embed =f.forward（输入）3weight =f.get class weight（）//当MemVir正在使用并且经过预热时期时打开它4如果MemVir为真，并且epoch为Ue，则5cur weight = weight.copy（）6cur embed = embed.copy（）7cur label = label.copy（）//通过step-pacing//每个队列的顺序是从新到旧8如果len（权重队列）> M，则9对于范围（M，len（权重队列），M+ 1）中的idx，do10预权重=权重队列[idx]11预嵌入，预标签=嵌入队列[idx]//为虚拟类12新标签=创建新标签（预标签）13weight.concatenate（weight，pre weight）14embed.concatenate（embed，pre embed）15label.concatenate（label，new label）16端部//更新内存队列17enqueue（weight queue，cur weight）18enqueue（embed queue，（cur embed，cur label））19如果len（权重队列）> N（M+ 1），则N（M+1）U U+（M+1）U+N（M+1）U(a)不同的调度方式。(b)按计划执行。图3.调度的影响。(a)添加虚拟课堂的不同调度方式。(b)使用MemVir（5，100）和Norm-softmax作为CARS196上的基线的每个调度情况的性能。学习多个虚拟课堂。当我们从队列中选择N步过去的嵌入和权重时，它表明我们有NC个虚拟类。我们将所选择的过去嵌入和权重的集合分别表示为X和W。随后，我们计算具有虚拟类的目标函数如下：1|XΣ∪X~|20出队（权重队列）21出队（嵌入队列）//计算损失和反向传播L（X∪X~，W∪W~）=−|XX|i=1l（xi，yi），（5）222324月25日结束loss =计算loss（weight，embed，label）loss.backward（）optimizer.step（）其中l（）可以是任何类型的损失函数。简单的-MemVir的片段化是简单的，没有任何修饰。损失函数，它给出了一个显着的性能改善DML没有任何额外的计算成本在推理阶段。这会分散训练的注意值得注意的是我们使用没有学习率衰减的MemVir，因为衰减学习率会改变步骤之间的差异;因此，学习速率衰减可以与MemVir的超参数M的修改一起使用。在预热之后，通过将每个步骤的嵌入和权重存储在它们各自的队列中并将它们重新用于损失计算来进行步进算法，如在Al出租m1中所描述的。随着队列大小的增长，在计算每个步骤的损失时，将来自每M+1个步骤的先前存储的嵌入和权重选择为虚拟类虚拟类的所选步骤的数量将从0逐渐增加到由当前队列大小确定的N。这导致通过阶梯函数增加类的数量，并且类的数量的函数s可以被写为：3.3. 讨论及分析3.3.1调度分析图3显示了不同的调度方式和每种情况下的性能在图3a中，当MemVir在预热步骤U处打开时，它在每个M+1步骤之后开始逐渐添加虚拟与MemVir相比，对于“无热身”的情况，训练以降级的性能开始，但最终，性能高于基线。实际上，在初始步骤中，来自虚拟类的嵌入将是分散的，而不会形成集群;因此在初始步骤中它可能是一种分散。与此同时，C、对s（i）=C×i UM+1iU，（四）、i彡U，在预热步骤U之后立即抑制轻微的性能下降。这是因为同时放置NC数量的虚拟类对于训练模型来说可能太困难了。通过考虑这两种情况，MemVir能够其中i表示当前步长。MemVir的调度功能由图3a中的红线示出。逐步增加训练难度，以获得更稳定的优化。.、11796Σ→-Σe我Σe我我我我我我UU(a) 边缘的困难(b) 步骤的难度(a) 余弦相似度（xi，Wyi）。（b）推广业绩。图5.使用Norm-softmax进行泛化分析图4.使用Norm-softmax作为基线的难度对CARS 196的影响。难度以每一步的损失值来衡量。(a)通过以固定的步骤数N=1改变边缘参数M的难度。(b)通过改变步骤N的数量与M=100的固定裕度的难度。3.3.2难度分析MemVir通过以下超参数控制学习难度：步数N和余量M。为了查看每个超参数对学习难度的影响，我们通过遵循[27，47]来测量损失值的难度。如图4a所示，M的较小裕度导致更大的难度，这是显而易见的，因为来自最近步骤的嵌入将类似于来自当前步骤的嵌入。此外，图4b示出了添加更多虚拟班级增加了学习效率。CARS196的基线。(a)训练数据中所见类的嵌入和相应类权重之间的相似性。(b)测试数据中看不见的类的性能。(a) Softmax损失。（b）MemVir + softmax损失。图6.嵌入（xi）和对应的类权重（Wyi）学习的图示，其中Wyi（n）是源自类yi的虚拟类权重。eα（xi，yi）的困难。值得注意的是，在预热步骤U之后，通过添加虚拟类梯度，损耗值缓慢增加。τ=1−Cj=1.（八）eα（xi，j）逐步起搏（step pacing）;之后，它开始下降。达到顶峰。详细性能按不同很明显，当x为暗示一Wyi，超参数在第4.4节中给出。3.3.3广义梯度分析考虑到训练和测试数据中的分布偏移，在迁移学习问题的一般化中必须减轻对可见类的强烈关注，例如DML [37，x i试图尽可能接近W yi，如图6a所示。这可能导致对目标权重Wy，i的强烈关注以及对训练数据的所见类别的过拟合。相比之下，MemVir + softmax loss在嵌入特征xi上的梯度可以归纳如下：l（x，y）Σ（N+1）Ceα（xi，j）Wj31、30]。为了演示MemVir的一般工作原理-在训练模型时，我们分析了softmax损失的梯度。为了方便分析，softmaxMemV ir i ixi=Wyij=1（N+1）Cα（xi，j）j=1等式2中的损耗被重写如下：Leα（x，y）≈Wy−Nn=0ΣNeα（xi，y（n））W（个）我softmaxi iJCj=1（xi，=τ0Wyi+Στn Wy（n），（9）其中α（xi，j）=WTxi。softmax损失的梯度在嵌入特征X1上，可以归纳如下：我n=1softmax（xi，yi）Cj=1α（xi，j）Wj我eα（xi，yi）τ=1−，τ我eα（xi，y（n））=−（10）=Wyi−ΣCeα（x，j）我0Σ（N+1）Ceα（x，j）nΣ（N+1）Ceα（x，j）eα（xi，yi）WyU步进起搏U难难ΣyΣ（N+1）Cα（xi，j）（x，y）=log、（6）j=1exij=1j=1j=1显然，τ>0。然而，τ0011797无论xi是否在Wyi附近，因为分母其中，（个）（ 0）≈Wyi−ΣCeα（x，j）yi（n >0）是虚拟类，并且yi=yi。是j=1不会接近于零=τ Wyi，（7）11798我：类权重，嵌入颜色（步长）：（当前）（-1（M +1））（-2（M +1））（-3（M+1））（-4（M+1））（-5（M+1））(a) 第50个时期，类的数量=C（b）第60个时期，类的数量= 6C（c）第200个时期，类的数量= 6C图7.512维嵌入空间的t-SNE可视化嵌入特征通过在CARS196训练数据上用MemVir（5，100）训练的模型来提取每种颜色表示嵌入特征的步骤。的值将很大，因为虚拟类接近Wyi。如图6b所示，这使得xi很难高度接近Wyi，从而避免了嵌入特征变得非常接近目标Wyi的现象。此外，因为τ n<0，xi试图远离虚拟类Wy（n）。因此，al-leviation将更广泛，并且可以有效地缓解softmax损失的强烈关注，从而导致更实质性的泛化。这在图5中经验性地示出。基线逐渐增加相似性是-在嵌入和相应的类权重之间相比之下，当在步骤U处开启MemVir时，通过减轻对所看到的类的强烈关注而略微降低相似性，并且如图5b所示实现更好的泛化。补充部分B.1中提供了详细的归纳。4. 实验在本节中，我们进行了一系列实验来分析和验证MemVir的有效性。请参考补充材料了解更多实验：内存和计算成本分析（第D.1节）、学习率的影响（第D.2节）、预热的影响（第D.3节）、对输入变形的鲁棒性（第D.4节）、虚拟类中嵌入和类权重的影响（第D.6节）等。4.1. 实验环境我们使用三种流行的数据集在DML中进行评估：CUB-200-2011 （ CUB 200 ） [39] 、 CARS 196 [25] 和Stand-福特在线产品（SOP）[34]。我们执行两种类型的评估程序：常规评估和MLRC评估。常规评估基于[34，21]中描述的常见培训和评估程序。所有的实验都是在Inception网络上进行的，该网络具有批处理归一化[20]和512维嵌入特征除非实验中另有说明，否则采用128的批量大小、具有10−4的学习率的Adam优化器[23]以及预热时期Ue=50考虑到最近的工作[33，9]提出了改进的公平性评估程序，我们包括MLRC评估协议[33]。在MLRC评估中，该过程包括具有4重交叉验证的超参数搜索、系综评估以及公平度量（P@1、RP和MAP@R）的使用。有关数据集和实施的详细信息，请参见补充章节C。4.2. 嵌入式空间可视化在图7中，我们通过t-SNE [29]可视化训练数据的嵌入空间，以展示MemVir如何学习嵌入空间。在图7a中的第50个时期，模型仅用实际类进行训练，并获得集中在实际类上的稀疏嵌入空间。当在图7b中的第60个时期添加所有虚拟类时，虚拟类倾向于接近实际类，并且嵌入空间仍然稀疏，如图7a所示。这表明该模型没有充分利用嵌入空间，并且高度集中在所看到的类上。在足够的训练时期之后，在图7c中的第200个时期处，模型获得在所有实际和虚拟类上具有足够辨别能力的密集嵌入空间总之，MemVir通过减轻对用于泛化的可见类的强烈关注来提供对嵌入空间的更好利用我们在补充章节D.8中包括扩展可视化。4.3. 批量大小和类MemVir的一个优点是它可以利用增强信息，包括增加数量的嵌入特征和类，而无需额外的特征提取。要查看嵌入次数的影响11799×(a) 步数N的影响（b）裕度M的影响（c）成对相互作用图8.我们使用fANOVA [19]来估计超参数的影响。报告的性能是来自fANOVA的随机森林的预测值，其用MemVir在CARS 196上的实验结果训练批量81632641282565121024Norm-softmax79.182.883.183.583.382.881.078.5+MemVir80.483.685.085.585.085.084.884.6Diff+1.3+0.8+1.9+2.0+1.7+2.2+3.8+6.1(a)批量的影响。班级比例（%）102030405060708090100Norm-softmax56.467.369.674.877.778.879.481.782.083.3+MemVir58.570.172.877.280.081.382.683.884.185.0Diff+2.1+2.8+3.2+2.4+2.3+2.5+3.2+2.1+2.1+1.7(b) 班级数量的影响表1.批次大小和类别数量对CARS196数据集的影响。我们报告Recall@1（%）性能，并在MemVir（1，100）超过基线Norm-softmax的最佳性能时加下划线。特征和类，我们进行实验，通过改变批量大小和类的数量，其中的训练类是随机抽样的类比。如表1a所示，Norm-softmax基线的性能从批量大小8增加到64，然后下降，表明批量大小的增加不能保证性能改善[26，11]。将MemVir应用于基线允许模型以虚拟类的两倍数量的嵌入特征 MemVir的性能提高了2. 5%，并且超过批量64的基线的最佳性能，而批量仅为16。此外，我们观察到，由于批量较大，使用MemVir对性能下降如表1b所示，降低类别比使Norm-softmax基线的性能从83.3%降低至56.4%。使用MemVir，它将虚拟类的类数量增加了一倍，我们观察到性能平均提高了2.4%，并且超过了基线的最佳性能，只有80%的类。4.4. 超参数的影响对于超参数分析，我们使用fANOVA框架[19]，其可以估计每个超参数和成对相互作用的模式和重要性。我们在补充章节C.3和D.5中报告了CUB200和SOP的超参数分析以及fANOVA的详细信息。如图8所示，CARS196的性能随着步数N的增加而提高。性能提高，直到marginM=20，然后在轻微退化后稳定。然而，超参数的影响模式对于每个数据集是不同的，因为每个数据集的特征和类的数量是不同的我们在所有数据集中观察到两种常见模式。首先，大于零的余量M通常比M=0更好;这是因为来自相邻步骤的类将太相似而不能充当不同的类，因此成为干扰。其次，N超过1通常好于N=1。这是因为通过使用更多的步骤N，可以通过用更长的时间调度虚拟类的添加来更有效地4.5. 与相关方法的我们将MemVir与图像识别任务的相关方法进行了比较，包括虚拟类（Virtual soft- max [3]），基于内存的（BroadFace [22]）和CL（CurricularFace [18]）方法。此外，我们还包括DML的XBM [45为了进行公平的比较，我们遵循[22，18]的实验设置，其中包括随机梯度下降（SGD）优化器，学习率为510−3，批量大小为512，以及ResNet50骨干[16]。如表3所示，Vir-tual softmax降低了性能，而MemVir + softmax提高了两个数据集的性能当我们将XBM与ArcFace结合时，我们观察到内存大小较大时的性能下降，如BroadFace[22]中所报告的那样。性能还可以进一步提高1180069.81±0.2838.57±0.1427.83±0.1686.40±0.1840.27±0.2030.58±0.2077.80±0.1753.21±0.12 50.35±0.13表2. [MLRC评价]图像检索任务中三个著名数据集的性能（%）。我们报告的性能级联512-dim超过10个训练运行。粗体数字表示相同损失和数据集内的最佳分数。CARS196 SOP方法R@1R@2R@4R@1R@10R@100SoftMax78.386.491.976.689.495.8虚拟SoftMax75.184.190.174.587.994.8MemVir+ SoftMax79.287.092.178.990.696.2ArcFace78.886.491.776.989.195.0XBM + ArcFace78.986.291.978.189.795.8宽面+弧面79.587.392.080.291.095.9MemVir+ ArcFace80.788.192.780.891.396.5CurricularFace79.987.392.079.890.795.6MemVir+ CurricularFace81.087.992.981.391.798.8表3.在CARS196和SOP数据集上与相关方法的性能（%）比较在BroadFace中加入补偿技术和梯度控制然而，利用记忆的功能作为MemVir中的虚拟类显示出更高的性能提升，而不是仅仅利用它们来增加XBM和BroadFace中的实例数量。考虑到CurricularFace已经包含CL的想法，MemVir可以通过提供虚拟课程作为更难的案例来进一步提高性能。此外，值得注意的是，实验结果显示了MemVir对于不同类型的主链和优化器的灵活性。在补充章节D.7中提供了具有不同实验设置的扩展实验。4.6. 与最新技术水平的最后，我们将所提出的方法与DML中最先进的方法进行了比较。在表4所示的常规评估中，每个softmax变体和基于代理的损失与MemVir组合在每个数据集中显示出显著改善的性能。平均性能改进为2。3%，3.4%，1。对于CUB200、CARS196和SOP，分别为1%。与基于内存的（XBM），样本生成（Symm，EE）和其他最近的方法（MS，SoftTriple和ProxyGML）相比，MemVir在所有数据集上都显示出具有竞争力的性能即使在表2中所示的MLRC评估中，这是专门针对公平性设计的，MemVir也可以提高每个数据集和指标的性能。表4.[常规评价]图像检索任务中三个著名数据集的Recall@1（%）†表示在补充第C.2.1节中描述的公平环境中进行的评价。基本上。这些结果证明了MemVir在DML中的灵活性和有效性。有关指标的扩展结果和与传统评价中现有方法的比较，以及MLRC评价中分离的128-dim的附加性能报告，请参见补充章节D.95. 结论在本文中，我们提出了一种新的训练策略，利用基于内存的虚拟类和incor- porates CL的想法。理论和实证分析表明，采用虚拟类作为增强信息，有助于实现更好的泛化，减轻了强烈的关注，看到的类。此外，我们表明，通过缓慢添加虚拟类来逐渐增加学习难度可以改善训练过程和最终性能。考虑到MemVir很容易应用于现有的损失函数以获得更好的泛化，因此它是DML中有竞争力的训练策略。公司简介CARS196SOP方法P@1RpMAP@RP@1RpMAP@RP@1RpMAP@R[41]第四十一话65.65 ±0.3035.99 ±0.1525.25± 0.1383.16 ±0.2536.20 ±0.2626.00 ±0.3075.67± 0.1750.01 ±0.2247.13 ±0.22MemVir+ Norm-softmax69.22± 0.1537.92± 0.1627.10± 0.1385.81± 0.1838.78± 0.1928.92± 0.1775.77± 0.2050.24± 0.2247.45± 0.25[42]第四十二话67.32 ±0.3237.49 ±0.2126.70± 0.2385.52 ±0.2437.32 ±0.2827.57 ±0.3075.79± 0.1449.77 ±0.1946.92 ±0.19MemVir+ CosFace69.79± 0.2637.85± 0.2327.08± 0.2887.57± 0.1339.10± 0.2129.56± 0.2675.88± 0.2749.95± 0.3747.18± 0.38ArcFace [7]67.50 ±0.2537.31 ±0.2126.45± 0.2085.44 ±0.2837.02 ±0.2927.22 ±0.3076.20±0.2750.27 ±0.3847.41 ±0.40MemVir+ ArcFace69.33± 0.4137.82± 0.2826.96± 0.2588.02± 0.1839.12± 0.1529.63± 0.1576.05± 0.3050.56±0.3347.75± 0.32代理-NCA [32]65.69 ±0.4335.14 ±0.2624.21± 0.2783.56 ±0.2735.62 ±0.2825.38 ±0.3175.89± 0.1750.10 ±0.2247.22 ±0.21MemVir+ Proxy-NCA69.25± 0.3237.31± 0.1226.43± 0.1787.02± 0.1538.51± 0.1528.76± 0.1676.97± 0.3150.81± 0.2648.02± 0.27代理锚[21]MemVir+代理锚69.73 ±0.3138.23 ±0.3727.44± 0.3586.20 ±0.2139.08 ±0.3129.37 ±0.2975.37± 0.1550.19 ±0.1447.25 ±0.15方法公司简介CARS196SOP多相似性（MS）†[44]64.582.176.3[36]第三十六话65.484.578.3ProxyGML [50]66.685.578.0Symm [12] + MS [38]64.982.476.9EE [24] + MS [44]65.182.977.0[14]第四十四话：我的世界65.882.079.5Softmax64.281.576.3MemVir+ Softmax66.8（+2.6）86.5（+5.0）77.8（+1.5）[41]第四十一话64.983.378.6MemVir+ Norm-softmax67.3（+2.4）86.8（+3.5）79.6（+1.0）[42]第四十二话65.783.678.6MemVir+ CosFace67.7（+2.0）86.6（+3.0）79.7（+1.1）ArcFace [7]66.183.778.8MemVir+ ArcFace67.4（+1.3）86.5（+2.8）80.0（+1.2）代理-NCA [32]64.382.078.1MemVir+ Proxy-NCA68.3（+4.0）86.5（+4.5）79.2（+1.1）11801引用[1] YoshuaBengio ， Je´ ro meLouradour， RonanCollobert ，andJa-son Weston.课程学习。第26届机器学习国际年会论文集，第41-48页，2009年[2] MalikBoudiaf ， Je´ro meRony ， ImtiazMa sudZik o ，EricGranger ， Marco Pedersoli ， Pablo Piantanida ， andIsmail Ben Ayed.度量学习的统一互信息视图：交叉熵与成对损失arXiv预印本arXiv：2003.08983，2020。[3] Binghui Chen，Wehong Deng，and Haifeng Shen. 虚拟类增强判别嵌入学习。神经信息处理系统的进展，第1942-1952页，2018年[4] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。[5] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。[6] Sumit Chopra Raia Hadsell和Yann LeCun。学习相似性度量有区别地，与应用到人脸验证。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2005年。[7] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别会议论文集，第4690- 4699页[8] 段跃奇，郑文钊，林旭东，卢吉文，周杰。深度对抗度量学习。在IEEE计算机视觉和模式识别会议论文集，第2780-2789页，2018年[9] Istvan Fehervari，Avinash Ravichandran，and Srikar Ap-palaraju.深度度量学习算法的无偏评估。arXiv预印本arXiv：1911.12528，2019。[10] 阿尔伯特·戈多、乔恩·阿尔玛·赞、杰罗姆·雷沃德和黛安·拉鲁斯。深度图像检索：学习图像搜索的全局表示。在欧洲计算机视觉会议上，第241-257页。施普林格，2016年。[11] PriyaGo yal ， PiotrDolla´r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确、大的小批量sgd：1小时内训练imagenet。arXiv预印本arXiv：1706.02677，2017。[12] 古健茂和高炳洙深度度量学习的对称合成。arXiv预印本arXiv：2001.11658，2020。[13] 盖伊·哈科恩和达芙娜·温肖尔关于当前学习在训练深度网络中的作用。 arXiv 预印本 arXiv ： 1904.03626 ，2019。[14] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习不变映射进行降维在2006年IEEE计算机协会计算机视觉会议上，燕鸥识别（CVPR’06），第2卷，第1735-1742页。IEEE，2006年。[15] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrec

下载后可阅读完整内容，剩余1页未读，立即下载