深度度量学习中基于对和代理的损失及其局限性

107 浏览量更新于2023-10-23 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3238深度度量学习Sungyeon Kim Dongwon Kim Minsu Cho Suha Kwak POSTECH，Pohang，Korea{tjddus9597，kdwon，mscho，suha.kwak}@ postech.ac.kr摘要现有的度量学习损失可以分为两类：基于对的损失和基于代理的损失。前一类可以利用数据点之间的细粒度语义关系，但由于其高训练复杂性，通常会减慢收敛相比之下，后一类能够实现快速且可靠的收敛，但不能考虑丰富的数据到数据关系。本文提出了一种新的代理为基础的损失，同时利用对和代理为基础的方法，并克服其局限性。由于使用代理，我们的损失提高了收敛速度，并且对噪声标签和离群值具有鲁棒性。同时，它允许嵌入数据向量通过其梯度相互交互，以利用数据到数据的关系。我们的方法在四个公共基准上进行了评估，其中使用我们的损失训练的标准网络达到了最先进的性能，并且收敛速度最快。1. 介绍学习语义距离度量对于许多应用来说是至关重要的一步，例如基于内容的图像检索[14，21，27，29]，人脸验证[18，25]，每儿子重新识别[3，38]，少量学习[24，26，30]，和表征学习[14，33，41]。在视觉识别方面取得巨大成功之后，深度神经网络最近被用于度量学习。网络被训练以将数据投影到其中语义相似的数据（例如，同一类别的图像嵌入空间的这种质量主要由用于训练网络的损失函数给出，并且大多数损失被分为两类：基于对和基于代理。基于对的损失建立在嵌入空间中数据之间的成对距离上。一个开创性的例子是对比损失[4，9]，它旨在最小化一对数据之间的距离，如果它们的类标签相同，否则将它们分开。最近的基于对的损失考虑一组成对距离来处理两个以上数据之间的关系[14，25，27，29，32，34，35，39]。0.90.80.70.60.50.40.3培训时间（分钟）图1.在Cars- 196 [17]数据集上，Recall@1与训练时间的准确性请注意，所有方法都是在单个Titan Xp GPU上以 150的批量大小进行训练的我们的损失能够实现最高的准确度，并且在epoch数量和实际训练时间方面比基线收敛得更快。这些损失提供了丰富的监督信号，用于通过比较数据和检查它们之间的细粒度关系来训练嵌入网络，即，数据到数据的关系。然而，由于它们将数据元组作为单元输入，因此损失导致过高的训练复杂度 1，O（M2）或O（M3），其中M是训练数据的数量，因此收敛缓慢。此外，一些元组对训练没有贡献，甚至降低了学习的嵌入空间的质量。为了解决这些问题，使用基于对的损失的学习通常需要元组采样技术[10，25，37，40]，然而，这必须手动调整，并且可能增加过拟合的风险。基于代理的损失通过引入代理解决了上述复杂性问题[1，21，23]。代理是训练数据的子集的代表，并作为网络参数的一部分学习。这一类别中的现有损失将每个数据点视为锚点，将其与代理而不是其他图像相关联，并鼓励锚点靠近相同类别的代理而远离不同类别的代理。基于代理的损失减少了训练1训练复杂度表示处理整个训练数据集所需的计算量[1，6，10，23，35]。每个时期的方法Proxy-Anchor（Ours）27.10sMS[34]28.43s[21]第二十一话[25]第二十五话[27]第二十七话20406029.97s28.41s80 100R@13239(a)三重(e)我们图2.比较流行的度量学习损失和我们的。小的节点是批量数据的嵌入向量，黑色的表示代理;它们的不同形状代表不同的类别。由损失定义的关联由边缘表示，并且较厚的边缘获得较大的梯度。而且，如果与锚点相关联的嵌入矢量属于锚点的同一类（即，正的）和蓝色的其它（即，阴性）。(a)三重损失[25，32]将每个锚点与一个正数据点和一个负数据点相关联，而不考虑其硬度。(b)N对损失[27]和（c）提升结构损失[29]反映了数据的硬度，但未利用批次中的所有数据。(d)Proxy-NCA loss [21]不能利用数据到数据的关系，因为它只将每个数据点与代理相关联。(e)我们的损失处理批处理中的整个数据，并将它们与每个代理相关联，并考虑由数据到数据关系确定的相对硬度。更多详情请参见正文。复杂性，并且由于代理的数量通常基本上小于训练数据的数量，因此能够实现更快的收敛。此外，这些损失往往对标签噪声和离群值更然而，由于它们仅将每个数据点与代理相关联，因此基于代理的损失只能利用数据到代理关系，这与可用于基于对的损失的丰富的数据到数据关系相比有所改善在本文中，我们提出了一种新的代理为基础的损失称为代理锚损失，它采取了代理为基础的和对为基础的损失的优点与现有的基于代理的损失不同，建议的损失利用每个代理作为锚，并将其与一批中的所有数据相关联。具体来说，对于每个代理，丢失的目的是将同一类的数据拉近代理，并将其他数据推离嵌入空间。由于使用了代理，我们的损失提高了收敛速度，没有元组采样的超参数，并且对噪声标签和离群值具有鲁棒性同时，它可以像基于对的损失那样考虑数据到数据的关系;该属性通过将一批中的所有数据与每个代理相关联来给出，使得相对于数据点的梯度通过其与代理的相对接近度来加权（即，相对硬度）受该批中其它数据的影响。由于上述优点，使用我们的损失训练的标准嵌入网络达到了最先进的精度，并且收敛速度最快，如图1所示。本文的贡献有三个方面：• 我们提出了一种新的度量学习损失，它具有基于对和基于代理的方法的优点，利用丰富的数据到数据关系，实现快速可靠的融合。• 用我们的损失训练的标准嵌入网络在度量学习的四个公共基准上达到了最先进的性能[17，19，29，36]。• 我们的损失大大加快了收敛速度，数据采样;它的收敛速度甚至比Proxy-NCA [21]和多相似性损失[34]的收敛速度更快。2. 相关工作在本节中，我们将度量学习损失分为两类，基于对的损失和基于代理的损失，然后回顾每个类别的相关方法。2.1. 基于对的损失对比损失[2，4，9]和三重损失[25，32]是深度度量学习损失函数的开创性例子对比损失将一对嵌入向量作为输入，如果它们属于同一类，则将它们拉到一起，否则将它们分开三重丢失将数据点视为锚点，将其与正数据点和负数据点相关联，并将锚点-正数据点对的距离约束为小于嵌入空间中的锚点-负数据点对的距离，如图2（a）所示。最近基于对的损失旨在利用数据之间的高阶作为三重损失的概括，N对损失[27]和提升结构损失[29]将锚点与单个正数据点和多个负数据点相关联，并将正数据点拉到锚点，并将负数据点推离锚点，同时考虑其硬度。然而，如图2（b）和2（c）所示，这些损失并不利用批处理中的整个数据，因为它们对每个负类采样相同数量的数据，因此在训练期间可能会丢失信息示例。相比之下，Ranked List loss [35]考虑了一批中的所有正面和负面数据，旨在分离正面和负面数据集。多相似性损失[34]还考虑了一批中的每一对数据，并根据三种互补的相似性类型为每一对分配权重，以更多地关注有用的对，以提高性能和收敛速度。3240基于对的损失享受丰富和细粒度的数据到数据的关系，因为他们检查元组（即，数据对或它们的组合）。然而，由于元组的数量随着训练数据的数量呈多项式增加，因此它们的训练复杂度非常高并且收敛缓慢。此外，大量的元组是无效的，有时甚至会降低学习的嵌入空间的质量[25，37]。为了解决这个问题，大多数基于对的损失需要元组采样技术[10，25，37，40]来选择和利用有助于训练的元组。然而，这些技术涉及必须仔细调整的超参数，并且可能增加过拟合的风险，因为它们主要依赖于批处理内的局部成对关系。缓解复杂性问题的另一种方法是在训练过程中为更有用的对分配更大的权重，如[34]所示，然而，这也包含了采样技术。我们的损失解决了这个复杂性问题，采用代理，这使得更快，更可靠的收敛相比，基于对的损失。此外，它不需要额外的超参数元组采样。2.2. 基于代理的损失基于代理的度量学习是一种相对较新的方法，可以解决基于对的损失的复杂性问题。代理表示训练数据的子集的代表，并且被估计为嵌入网络参数的一部分。在这方面数据的硬度，并允许它们的嵌入向量在训练过程中相互作用。3. 我们的方法我们提出了一个新的度量学习损失称为代理锚损失，以克服固有的局限性，以前的方法。损失采用代理，使快速和可靠的收敛，在基于代理的损失。此外，虽然它是建立在数据代理关系的基础上，但我们的损失可以在训练过程中利用数据到数据的关系，就像基于对的损失一样，因为它使数据点的嵌入向量能够通过其梯度相互影响。我们的损失的这个属性实质上提高了学习的嵌入空间的质量。在本节中，我们首先回顾代理NCA损失[21]，代表性的基于代理的损失，用于与我们的代理锚损失进行比较。然后，我们详细描述了我们的代理锚损失，并分析了其训练复杂度。3.1. 代理NCA丢失在标准设置中，Proxy-NCA loss [21]为每个类分配一个代理，以便代理的数量与类标签的数量相同。给定一个输入数据点作为锚点，同一类输入的代理被认为是正的，其他代理是负的。设x表示输入的嵌入向量，p+是iv eproxy，p−是iv eprox y处的n eg。损失是由类别是推断一小组代理，这些代理捕获嵌入空间的全局结构，并将每个数据点与代理相关联，而不是与其他数据点相关联。X（X）=Σx∈Xes（x，p+）-log−es（x，p）p−∈P−（一）ing训练。由于代理的数量明显小于训练数据的数量，因此可以大大降低训练复杂度。Σ=x∈X-s（x，p+）+LSEs（x，p−）p−∈P−、、（二）第一个基于代理的损失是Proxy-NCA [21]，它是使用代理的邻域分量分析（NCA）[8]的近似。在其标准设置中，代理- NCA损失为每个类别分配单个代理，将数据点与代理相关联，并鼓励正对接近，负对远离，如图2（d）所示。SoftTriple loss [23]是SoftMaxloss用于分类的扩展，类似于Proxy-NCA，但分配其中X是一批嵌入向量，P-是n个g ativ e代理的集合，s（·，·）表示两个向量之间的余弦相似性此外，LSE在Eq.（2）表示Log-Sum-Exp函数，它是最大值的平滑近似功能 Proxy-NCA损失相对于s（x，p）由下式给出：如果p=p+，每个类的多个代理以反映类内差异。电子邮件（X）es（x，p）Manifold Proxy loss [1]是N-pair loss的一个推广.=− ，否则。（三）ing代理，并通过采用流形感知距离而不是欧几里得距离来提高性能，s（x，p）p−∈P−es（x，p）在嵌入空间中测量语义距离。在这些损失中使用代理有助于极大地提高训练收敛性，但作为副作用具有固有的局限性：由于每个数据点仅与代理相关联，因此可用于基于对的方法的丰富的数据到数据关系不再可访问。我们的损失可以克服这个限制，因为它的梯度反映了相对论。当量（3）表明，最小化损失会促使x和p+彼此接近，而x和p-彼此远离。特别是r，x和p+被常数p o we r拉在一起，而x和p-彼此更接近（即，更硬的N（g）被更强烈地推开。Proxy-NCA损失由于其低训练复杂度O（MC）而实现快速收敛，其中M是数字3241pppppp−C是类的训练数据，这大大低于基于对的损失的O（M2）或O（M3关于s（x，p）的损失，由下式给出：自CM起;详情请参见第3.3节。此外，代理对离群值和噪声标签是鲁棒的，因为它们被训练成表示数据组。然而，由于损失电子邮件（X）1|P+|1个以上−αh+（x）Σph+（x′）x′∈X+，<$x∈X+，将每个嵌入向量仅与代理相关联，它可以-而不是利用细粒度的数据到数据关系。这场平局-=S（x，p）α h−（x）Σp，<$x∈X−，（六）|P|−′p限制了嵌入训练网络的能力代理NCA的损失。联系我们x′∈X−hp（x）3.2. 代理锚丢失其中h+（x）=e−α（s（x，p）−δ）和h−（x）=eα（s（x，p）+δ）p p我们的代理锚损失是为了克服极限-是用于嵌入的正和负硬度度量向量xgiv en代理p，respectively;h+（x）是大的，当代理-NCA的作用，同时保持低的训练复杂度-p-复杂性其主要思想是将每个代理作为锚点，并将其与批量中的整个数据相关联，如图2（e）所示，以便数据在训练期间通过代理锚点相互交互我们的损失为每个类分配一个代理，遵循Proxy-NCA的标准代理分配设置，公式为：正嵌入向量x远离p，且hp（x）为当负的嵌入向量x接近p时大。缩放参数α和边缘δ控制数据点的相对硬度，从而决定了如何强烈地拉动或推动它们的嵌入向量。如上述等式所示，s（x，p）的梯度不仅受x的影响，还受其他嵌入向量的X（X）=1|P+|Σp∈P+.log 1+ Σx∈X+Σe−α（s（x，p）−δ）在批次中;当x比其它的硬时，梯度变得更大。通过这种方式，我们的损失使得批处理中的嵌入向量能够相互作用并反映1Σ。+ log 1 +|P| p∈PΣΣeα（s（x，p）+δ）、−x∈Xp（四）它们通过梯度的相对硬度，这有助于提高学习的嵌入空间的质量。与Proxy-NCA的比较主要区别和广告其中δ>0是裕度，α >0是缩放因子，P表示所有代理的集合，并且P+表示批中数据的正代理的集合。此外，对于每个代理p，一批嵌入向量X被分成两个集合：X+，p的嵌入向量的集合，以及X−=代理-锚点相对于代理-NCA的优势在于基于数据-数据关系考虑相对硬度。这个属性使得Proxy-Anchor loss能够在训练过程中为嵌入网络提供更丰富的监督信号两种损失的梯度表明p+p这一点很清楚。在Proxy-NCA损失中，梯度的尺度X-Xp 建议的损失可以用更简单的方式重写-将形式解释为是常数的每一个积极的例子和一个消极的例子是通过计算只有少数代理到1X（X）=|P+|Σp∈P+Σ软加.ΣΣLSE−α（s（x，p）−δ）x∈X+如图所示，Eq.（三）、特别是，正例的恒定梯度尺度损害了灵活性和嵌入网络的泛化性[37]。在…1+|P|ΣΣp∈P.软加LSEα（s（x，p）+δ）x∈XpΣΣ、（五）相反，Proxy-Anchor损失通过考虑相对硬度来确定梯度的尺度，如等式2所示，（六）、我们的损失的这个特征允许嵌入网络控制-其中Softplus（z ）=log（1+ez ），z∈R ，并且是ReLU的光滑近似工作原理：将Log-Sum-Exp视为最大函数，很容易注意到损失旨在拉动p及其最不相似的正例（即，最难的正例），并将P和它最相似的负例（即，最难的负面例子）。由于对数和经验的性质，在实践中的损失拉和推批次中的所有嵌入向量，但具有由其相对硬度确定的不同程度的强度。这一特点体现在梯度上--3242在Proxy-NCA中被忽略的sider数据到数据关系，并且在训练期间观察到比Proxy-NCA大得多的嵌入空间区域。图3说明了这两种损失在处理嵌入向量的相对硬度方面的差异。此外，与Proxy-Anchor损失不同，损失中施加的余量导致类内紧致性和类间可分性，从而产生更具鉴别力的嵌入空间。3.3. 培训复杂性分析令M、C、B和U表示每个时期的训练样本、类、批次的数量，以及每个样本、类、批次和代理的数量。3243正面例子反面例子(a) 代理-NCA（b）代理-锚点（c）代理-NCA（d）代理-锚点图3. Proxy-NCA和Proxy-Anchor在训练过程中处理代理和嵌入向量的差异。每个代理都是黑色的，三种不同的颜色表示不同的类。由损失定义的关联由边缘表示，并且较厚的边缘获得较大的梯度。(a)相对于阳性实施例的Proxy-NCA损失的当量具有相同的标度，而不管它们的硬度。(b)代理锚损失动态地确定关于所有阳性样本的相对硬度的梯度尺度，以便更强地拉动更硬的阳性样本。(c)在Proxy-NCA中，每个负样本仅由少量代理推送，而不考虑嵌入向量的分布细节。（d）Proxy-Anchor loss更详细地考虑了嵌入向量的分布，因为它使所有负样本的梯度相互影响。类，分别。U是1，因此在大多数基于代理的损失中被忽略，包括我们的损失，但对于那些管理每个类的多个代理（如SoftTriple损失）来说，U是不平凡的[23]。表1比较了我们的损失与流行的基于对和代理的损失的训练复杂度。的我们的损失的复杂度是O（MC），因为它将每个代理与批中的所有正面或所有负面示例进行比较。更具体地说，在 Eq. （ 4 ），第一次求和的复杂度为 O（MC），第二次求和的复杂度也为O（MC）。因此，总的训练复杂度为O（MC）。Proxy-NCA的复杂度也是O（MC），因为每个数据点与一个正代理和C-1个负代理相关联，如等式2所示。（二）、另一方面，SoftTriple loss [23]是SoftMax的一种修改，每个类使用多个代理，将每个数据点具有U正代理和U（C−1）负代理。因此，这种损失的总训练复杂度为O（MCU2）。总之，我们的损失的复杂性是相同的，甚至低于其他基于代理的损失。基于对的损失的训练复杂度高于基于代理的损失。由于对比损失[2，4，9]以一对数据作为输入，因此其训练复杂度为O（M2）。另一方面，三元组丢失检查三元组的数据具有O（M3）的复杂性，这可以通过三元组挖掘策略来降低。例如，半硬挖掘[25]通过选择位于锚点邻域内但距离锚点足够远的类似地，智能挖掘[10]通过采样将复杂度降低到O（M2）类型损失训练复杂性代理代理锚（我们的）[21]第二十一话[23]第二十三话O（MC）O（MC）O（MCU2）对对比[2，4，9]三重态（半硬）[25][10]第十届中国国际汽车工业展览会[27]第二十七话建筑结构[29]O（M2）O（M3/B2）O（M2）O（M3）O（M3）表1.训练复杂性的比较使用近似最近邻索引的硬三元组然而，即使使用这些技术，三重损失的训练像三重损失一样，N对损失[27]和提升结构损失[29]将每个正数据对与多个负数据对进行比较也具有O（M3）的复杂性。这些损失的训练复杂度随着训练数据M的数量增加而变得非常高，这会减慢收敛速度，如图1所示。4. 实验在本节中，我们的方法将在深度度量学习的四个基准数据集上进行评估并与当前最先进的方法进行比较[17，19，29，36]。我们还研究了超参数和嵌入维数对损失的影响，以证明其鲁棒性。WW3 3E EWW3 3E EW3EW3EW3EW3E3244召回@KCub-200-2011汽车-19612481248[28]第二十四话BN48.261.471.881.958.170.680.387.8[21]第二十一话BN49.261.967.972.473.282.486.487.8智能采矿64[10]G49.862.374.183.364.776.284.290.2MS64 [34]BN57.469.880.087.877.385.390.594.2[23]第二十三话BN60.171.981.288.578.686.691.895.4代理锚钉64BN61.773.081.888.878.887.092.295.5[37]第37话R5063.674.483.190.079.686.591.995.1HDC384 [40]G53.665.777.085.673.783.289.593.8[22]第二十二话G57.568.778.386.282.089.093.296.1ABE512 [15]G60.671.579.887.485.290.594.096.1HTL512[7]BN57.168.878.786.581.488.092.795.7RLL-H512[35]BN57.469.779.286.974.083.690.194.1MS512[34]BN65.777.086.391.284.190.494.096.5[23]第二十三话BN65.476.484.590.484.590.794.596.9代理锚钉512BN68.479.286.891.686.191.795.097.3†Contra+HORDE512 [13]BN66.376.784.790.683.990.394.196.3代理锚512BN71.180.487.492.588.393.195.797.5表2. CUB-200-2011和Cars-196数据集上的召回@K（%）。上标表示嵌入大小，†表示使用较大输入图像的模型。模型的主干网络由缩写表示：G-GoogleNet [ 31 ]，BN-Inception with batch标准化[12]，R504.1. 数据集我们采用CUB-200-2011 [36]，Cars-196 [17]，Stan-ford Online Product （ SOP ） [29] 和 In-shop ClothesRetrieval（In-Shop）[19]数据集进行评估。对于CUB-200-2011，我们使用前100个类的5，864张图像进行训练，使用其他类的5，924张图像进行测试。对于Cars-196，前98个类别的8，054张图像用于训练，其他类别的8，131张图像用于测试。对于SOP，我们遵循[29]中划分的标准数据集，使用11，318个类的59，551个图像进行训练，其余类的60，502个图像进行测试。同样对于In-Shop，我们遵循[19]中的设置，使用前3，997个类的25，882张图像进行训练，其他类的28，760张图像进行测试;测试集进一步划分为3，985个类的14，218张图像的查询集和3，985个类的12，612张图像的图库集。4.2. 实现细节嵌入网络：为了与以前的工作进行公平的比较，我们采用了为ImageNet分类[ 5 ]预先训练的具有批量归一化[ 12 ]的Inception网络作为我们的嵌入网络。我们根据嵌入向量的维数改变其最后一个全连接层的大小，并对最终输出进行L2训练：在每个实验中，我们使用AdamW 优化器[20]，它具有与Adam [16]相同的更新步骤，但分别衰减权重我们的模型在CUB-200- 2011和Cars-196上训练了40个epoch，初始学习率为10−4，在SOP和In-shop上训练了60个epoch，初始学习率为6·10−4学习率为代理的规模扩大了100倍，以加快收敛速度。输入批次在训练期间随机抽样。代理设置：我们为Proxy-NCA [ 21 ]之后的每个语义类分配一个代理。使用正态分布初始化代理，以确保它们均匀分布在单位超球体上。图像设置：输入图像在训练过程中通过随机裁剪和水平翻转来增强，而在测试中则是中心裁剪。裁剪图像的默认大小为224×224，与以前的大多数工作一样，但对于与HORDE [13]相比，我们还实现了模型使用256×256裁剪图像进行训练和测试。超参数设置：α和δ在方程中对于所有实验，（4）分别设置为32和10−14.3. 与其他方法的我们证明了我们的代理锚损失的优越性定量评估其图像检索性能的四个基准数据集。为了与以前的工作进行公平的比较，我们的模型的准确性在三种不同的设置下进行测量：64/128嵌入尺寸默认图像尺寸为224×224，默认图像尺寸为512嵌入维数，较大图像尺寸为256×256，嵌入维数为512。CUB-200-2011和Cars-196数据集的结果如下：总结见表2。我们的模型优于所有以前的艺术，包括合奏方法[15，22]在所有三个设置。特别是，在具有挑战性的CUB- 200-2011数据集上，它大幅提高了先前的最佳得分，在Recall@1中提高了2.7%如表3中所报告，3245查询前4个检索（一）(a)表3.在SOP中的K（%）处召回。上标表示嵌入大小，†表示使用较大输入图像的模型。(b)(c)图4. CUB-200-2011（a）、Cars-196（b）、SOP（c）和车间（d）的定性结果。对于每个查询图像（最左边），呈现前4个检索。具有红色边界的结果是失败情况，然而，其在外观方面与其查询图像基本相似。表4.在In-Shop上调用@K（%）。上标表示嵌入大小，†表示使用较大输入图像的模型我们的模型在SOP数据集上也达到了最先进的性能它在所有情况下都优于以前的模型，除了Recall@10和Recall@100与64维嵌入，但即使在这些情况下，它也达到了第二好的效果。最后，在In-Shop数据集上，它在所有三个设置中获得了最佳分数，如表4所示。对于所有数据集，我们的模型具有更大的裁剪尺寸和512维嵌入，达到了最先进的性能。还要注意的是，我们的低嵌入维数模型通常优于现有的高嵌入维数模型，这表明我们的损失允许学习更紧凑但有效的嵌入空间。最后，但并非最不重要的是，我们的损失大大提高了收敛速度，如图1所示。4.4. 定性结果为了进一步证明我们的损失的优越性，我们提出了定性检索结果，我们的模型上的四个数据集。如图4所示，这些数据集中的类内外观变化非常大，特别是CUB 200 - 2011中的姿势变化和背景杂乱，Cars-196中的不同对象颜色以及SOP和In-Shop数据集中的视点变化。即使有这些挑战，用我们的损失训练的嵌入网络也能稳健地执行检索。4.5. 超参数的影响批量大小：为了研究批量大小对损失性能的影响，我们在四个基准数据集上改变批量大小时检查了损失的Recall@1。分析结果总结见表5和表6，其中可以观察到较大批量可改善每批次，因为我们的损失可以考虑每个批次内的大量另一方面，当批量较小时，性能略有降低，因为难以确定此设置中的相对硬度。在具有大量图像和类的数据集上，即，SOP和In-shop，我们的损失需要利用更多的例子来充分利用关系-召回@K1101001000[28]第二十四话67.083.793.2-[21]第二十一话73.7---MS64 [34]74.187.894.798.2[23]第二十三话76.389.195.3-代理锚钉6476.589.095.198.2[37]第37话72.786.293.898.0HDC384 [40]69.584.492.897.7[22]第二十二话74.286.994.097.8ABE512 [15]76.388.494.898.2HTL512[7]74.888.394.898.4RLL-H512[35]76.189.195.4-MS512[34]78.290.596.098.7[23]第二十三话78.390.395.9-代理锚钉51279.190.896.298.7†Contra+HORDE512 [13]80.191.396.298.7代理锚51280.391.496.498.7召回@K1102040HDC384 [40]62.184.989.092.3HTL128[7]80.994.395.897.4MS128[34]88.097.298.198.7代理锚钉12890.897.998.599.0[19]第十九话53.073.076.079.0[22]第二十二话83.195.196.997.8ABE512 [15]87.396.797.998.5MS512[34]89.797.998.599.1代理锚钉51291.598.198.899.1†Contra+HORDE512 [13]90.497.898.498.9代理锚51292.698.398.999.3324683.6686.6786.2986.186.2685.5184.1183.6685.6683.5185.7186.3585.13R@1908076.477.9483.5877.7379.156484.5232表5.我们的模型在召回@1与批量中的准确性CUB-200-2011和Cars-196。7064.4860065.5666.6879.141668.248α69.090.1δ0.20.30.446487图6.在召回@1与δ和α在汽车上的准确性-196。表6.我们的模型在召回@1中的准确度与SOP和车间内批量的准确度。85.082.580.077.575.072.5我们的损失的α和δ：我们还研究了损失的两个超参数α和δ对Cars- 196数据集的影响。我们的分析结果总结在图6中，其中我们通过改变超参数α∈的值来检查Proxy- Anchor的Recall@1{4，8，16，32，64}和δ ∈ {0，0. 1，0。2，0。3，0。4}。结果当α大于16时，模型高且稳定，因此对超参数设置不敏感。我们的损失优于当前最先进的任何α大于16。此外，增加δ可以提高性能，尽管当α较大时其影响相对请注意，我们在4.2节中报告的超参数设置并不是最好的，尽管它优于数据集上所有现有的方法，因为我们没有调优32 64 128 256 512 1024嵌入维数图5.在Cars-196上，Recall@1与嵌入维数的准确性补间数据点。当批量大小等于或大于300时，我们的损失达到最佳性能。嵌入尺寸：在图像检索系统中，嵌入向量的维数是决定检索速度和精度的关键因素。因此，我们研究了嵌入维度对代理锚损失中检索准确性的影响。在[34]中的实验之后，我们使用嵌入维数从64到1，024来测试我们的损失，并进一步检查嵌入维数为32的情况分析结果在图5中进行了量化，其中比较了我们的损失与MS损失的检索性能[34]。我们损失的概率相当稳定，等于或大于128。此外，我们的损失在所有嵌入维度上都优于MS损失，更重要的是，它的准确性即使在非常高维的嵌入下也不会降低，这与MS损失不同。超参数来优化测试精度。5. 结论我们提出了一种新的度量学习损失，同时利用代理和配对的损失。与基于代理的损失一样，它可以实现快速可靠的收敛，与基于对的损失一样，它可以在训练期间利用丰富的数据到数据关系。因此，我们的模型在四个公共基准数据集上达到了最先进的性能，同时，在没有仔细的数据采样技术的情况下，收敛速度最快。在未来，我们将探索深度哈希网络的损失扩展，以提高其在测试和训练中的计算效率。鸣谢：这项工作得到了IITP基金、基础科学研究计划和由科学部资助的NRF&先进集成智能识别研发计划的支持，ICT（No.2019-0-01906人工智能研究生院计划（POSTECH），NRF-2018 R1 C1 B6001223，NRF-2018 R1 A5 A1060031，NRF-2018M3E3A1057306 ， NRF-2017R1E1A1A01077999）。MS代理锚钉R@1批量召回@1Cub-200-2011汽车-1963065.984.66067.086.29068.486.212068.586.315068.686.418069.086.2批量召回@1SOP店内3076.091.36078.091.39078.591.512078.991.715079.191.930079.392.060079.391.73247引用[1] 尼古拉斯·阿齐埃和希尼萨·托多罗维奇。使用硬代理进行深度流形相似性学习。IEEE计算机视觉与模式识别会议（CVPR），2019年。第1、3条[2] 简布罗姆利伊莎贝尔盖永 Yann 勒康Sakinger和RoopakShah。使用“连体”时间延迟神经网络的签名验证神经信息处理系统（NeurIPS），1994年。二、五[3] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi煌除了三重态损失：一种用于人员重新识别的深度四元组网络。IEEE计算机视觉和模式识别会议，2017年。1[4] S.乔普拉河Hadsell和Y.乐存。学习相似性有区别地度量，并应用于人脸验证。IEEE计算机视觉和模式识别会议（CVPR），2005年。一、二、五[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，还有李飞飞ImageNet：一个大规模的分层图像数据库。在proc IEEE计算机视觉和模式识别会议（CVPR），2009年。6[6] Thanh-Toan Do，Toan Tran，Ian Reid，Vijay Kumar，TuanHoang和Gustavo Quartiiro。理论上合理的三重损失上限，以提高深度距离度量学习的效率在proc IEEE计算机视觉和模式识别会议（CVPR），2019年。1[7] Weifeng Ge ， Weilin Huang ， Dengke Dong ， andMatthew R.Scott. 深度度量学习与分层三元组丢失。在proc 欧洲计算机视觉会议（ECCV），2018年。六、七[8] Jacob Goldberger，Geoffrey E Hinton，Sam T Roweis，and鲁斯兰·萨拉胡季诺夫。邻域成分分析。神经信息处理系统（NeurIPS），2005年。3[9] R. Hadsell，S.Chopra和Y.乐存。降维-通过学习一个不变的映射。在proc IEEE计算机视觉与模式识别会议（CVPR），2006年。一、二、五[10] Ben Harwood，Vijay Kumar B G，Gustavo Carneiro，Ian里德和汤姆·德拉蒙德深度度量学习的智能挖掘。在Proc. IEEE International Conference on Computer Vision（ICCV），2017年。一二三五六[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE计算机视觉和模式识别会议（CVPR），2016年6月。6[12] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议（ICML），2015年。6[13] 皮埃尔·雅各布、大卫·皮卡德、艾默里克·希斯泰斯和爱德华克莱恩使用horde进行度量学习：深度嵌入的高阶正则化子。在 Proc. IEEE International Conference onComputer Vision（ICCV），2019。六、七[14] Sungyeon Kim、Minkyo Seo、Ivan Laptev、Minsu Cho和苏哈·郭超越二进制监督的深度度量学习。IEEE计算机视觉与模式识别会议（CVPR），2019年。1[15] Wonsik Kim，Bhavya Goyal，Kunal Chawla，JungminLee，和权根柱深度度量学习的基于注意力的集成欧洲计算机视觉会议（ECCV），2018年。六、七[16] Diederik P. Kingma和Jimmy Ba。亚当：一种方法随机优化2015年国际学习表征会议（ICLR）。6[17] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3d对象表示。在2013年IEEE计算机视觉研讨会国际会议论文集，第554-561页。一、二、五、六[18] 刘未央，温延东，余智定，李明，比丘拉吉和勒松。Sphereface：用于人脸识别的深度超球面在proc IEEE计算机视觉和模式识别会议（CVPR），2017年。1[19] Ziwei Liu ， Ping Luo ， Shi Qiu ， Xiaogang Wang ， andXiaoou唐Deepfashion：通过丰富的注释实现强大的服装识别和检索在 procIEEE 计算机视觉和模式识别会议（CVPR），2016。二五六七[20] 伊利亚·罗希洛夫和弗兰克·哈特。解耦重量衰减正则化在Proc.国际会议上学习- ING代表（ICLR），2019年。6[21] Yair Movshovitz-Attias，Alexander Toshev，Thomas KLe-ung，Sergey Ioffe，and Saurabh Singh.没有大惊小怪的距离 - ric 学习使用代理。在 Proc. IEEE InternationalConference on

下载后可阅读完整内容，剩余1页未读，立即下载