基于对加权的深度度量学习及其应用

160 浏览量更新于2023-10-18 收藏 748KB PDF 举报

深度度量学习

损失函数

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于广义对加权的深度度量学习王迅，韩新彤，黄伟玲，董登科，Matthew R.Scott MalongTechnologies，深圳，中国深圳马龙人工智能研究中心，中国深圳{xunwang，xinhan，whuang，dongdk，mscott}@ malong.com摘要在文献中已经提出了一系列建立在基于对的计算上的损失函数，其为深度度量学习提供了无数的解决方案。在这篇文章中，我们提供了一个通用的加权框架来理解最近的基于对的损失函数。我们的贡献有三个方面：（1）建立了一个通用对加权（GPW）框架，通过梯度分析将深度度量学习的采样问题转化为对加权的统一观点，为理解最近的基于对的损失函数提供了一个强有力的工具;（2）我们表明，使用GPW，可以全面地比较和讨论各种现有的基于对的方法，并识别出明显的差异和关键限制;（3）我们在GPW下提出了一种称为多相似性损失（MS损失）的新损失，其在两个迭代步骤中实现（即，采矿和称重）。这使得它能够充分考虑对加权的三个最后，所提出的MS损失在四个图像检索基准上获得了新的最先进的性能，其中它比最近的方法（诸如ABE[14]和HTL [4]）表现更好，例如，六十岁。6%→65。7%，CUB200和80。9%→88。在Recall@1时，In-Shop Clothes Retrieval数据集为0%。代码可在https：//github上获得。www.malongtech.com1. 介绍度量学习的目的是学习一个嵌入空间，其中相似样本的嵌入向量被鼓励更接近，而不相似的样本被彼此推开[22，23，39]。随着近年来深度神经网络在计算机视觉中的巨大成功，深度度量学习受到越来越多的关注，并已被应用于各种领域。图1.提出了多相似性损失的目标，其目的是收集信息对，并通过它们自己的和相对的相似性加权这些对。[36]，零射击学习[42，1，15]，视觉跟踪[19，31]人的再认识[41]。许多最近的深度度量学习方法都建立在样本对上。形式上，它们的损失函数可以用嵌入空间1中的成对余弦相似度来表示。我们把这组方法称为基于配对的深度度量学习;并且该族包括对比损失[6]、三重损失[10]、三重中心损失[8]、四重损失[ 18]、提升结构损失[25]、N对损失[29]、二项偏差损失[40]、直方图损失[32]、角损失[34]、基于距离加权边缘的损失[38]、分层三重损失（HTL）[4]等。对于这些基于配对的方法，训练样本被构建成配对、三元组或四元组，导致训练对的多项式增长，这是高度冗余和较少的信息。这给基于对的方法带来了一个关键问题，其中随机采样的训练可能会被冗余对淹没，导致收敛缓慢和模型退化，性能较差。最近的努力已经致力于改进采样方案的配对为基础的度量学习技术。对于前-任务，包括图像检索[37，8，5]，人脸识别1为了简单起见，我们使用余弦相似性而不是欧几里得相似性。通讯作者：whuang@malong.com通过假设嵌入向量是L2归一化的。50225023例如，Chopra等人 [3]引入了对比损失，丢弃相似性小于给定阈值的负对。在三重损失[10]中，通过使用从随机选择的正对的相似性计算的裕度来对负对进行采样。或者，提升结构损失[25]和N对损失[29]通过设计平滑加权函数将更大的权重分配给信息量更大的对，引入了新的加权方案。虽然动机不同，但这些方法都有一个共同的目标，那就是从信息量更大的配对中学习。因此，对此类信息对进行采样是基于配对的深度度量学习的关键，而精确识别这些对尤其具有挑战性，尤其是对于数量与数据集大小成二次的负配对。在这项工作中，我们将深度度量学习的采样问题我们调查了最近基于成对的损失函数的各种加权方案我们观察到，影响对权重的一个关键因素是计算一对的多种类型的相似性，这可以被定义为自相似性和相对相似性，其中相对相似性严重依赖于其他对。此外，我们发现现有的方法大多只对这一因素进行了部分探索，这大大限制了它们的能力。例如，对比损失[6]和二项式偏差损失[40]只考虑了一对的余弦相似性，而三重损失[10]和提升结构损失[25]主要关注相对相似性。我们提出了一种多相似性损失，充分考虑了多个相似性样本加权。本文的主要贡献概括如下。– 我们建立了一个通用对加权（GPW）框架，它将深度度量学习公式化为对加权的统一视图。它通过梯度分析提供了理解和解释各种基于对的损失函数的一般公式。– 我们用GPW分析了影响对权重的关键因素，其中可以全面分析各种基于对的方法，明确识别主要差异和关键限制。这允许我们为一对定义三种类型的相似性：一个自相似和两个相对相似。相对相似度的计算，通过比较其他对，这是非常重要的现有的基于对的方法。– 我们提出了一种新的多相似性（MS）损失，它是使用两个迭代步骤与采样和加权，如图所示。1.一、MS损失考虑自相似性和相对相似性，这使得模型能够收集和加权信息更有效、更准确地配对，从而提高性能。– MS损失在用于图像检索的多个基准上被广泛地评估，其中它在很大程度上优于当前最先进的方法，例如。，在CUB 200上以+5.0%Recall@1改进最近的ABE [14]，在In-Shop Clothes Retrieval数据集上以+7.1%Recall@1改进HTL [42. 相关工作经典的基于对的损失函数。暹罗网络[6]是一种典型的基于对的方法，它学习一个em-通过对比损失的铺垫。在嵌入空间中，它鼓励来自正对的样本更接近，并推动来自负对的样本彼此分开。在[10]中，通过使用三元组作为训练样本引入了三元组损失每个三元组由正对和负对组成，共享相同的锚点。三元组损失的目的是学习一个嵌入空间，其中负对的相似性低于正对的相似性，通过给出一个裕度。从三重态损失扩展，四重态也被应用于最近的工作中，例如直方图损失[32]。最近，Songet al. [25]认为对比损失和三重损失都难以探索小批量中样品之间的完整成对他们提出了一种提升结构损失，试图充分利用这种成对关系.然而，提升结构仅随机地丢失与正对数量大致相等的负对，从而任意地丢弃大量有信息的负对。在[40]中，Donget al.提出了一种基于二项偏差的二项偏差损失估计方法，该方法利用二项偏差来估计标签与相似度之间的代价，强调了较难的对。在这项工作中，我们提出了一个多相似性损失能够探索更有意义的成对关系，共同考虑自相似性和相对相似性。硬样本挖掘。基于对的度量学习生成大量的成对样本，这些样本是高度冗余的，并且包括许多无信息的样本。利用随机采样的训练可能会被这些冗余样本淹没，这显著降低了模型的能力，并且还减慢了收敛速度。因此，采样在基于对的度量学习中起着关键作用。硬负开采的重要性已被广泛讨论[28，7，38，4]。Schroff等人[28]提出了一种半硬开采方案，通过探索半硬三元组，其定义为负对比正对远。然而，这种半硬开采方法仅生成少量有效的半硬三元组，使得其通常需要大批量来生成足够的半硬三元组，例如，，1800年，5024不.....ij..[28]第10段。Harwood等人[7]提供了一个名为smartmining的框架最近，计算如下：...L（S，y）.L（S，y）. 你好。=Ge等人[4]提出了一种分层三重损失（HTL），它构建了所有类的分层树，其中很难θSΣmΣm.tθ。不.L（S，y）.你好。（一）=.. .通过动态容限收集负对。讨论了深度嵌入学习中的采样问题，i=1j=1这是我的。不θ[38]提出了一种距离加权抽样方法，以相对于两两距离均匀地收集负样本与这些方法主要集中在采样或硬样本挖掘不同，我们提供了一个更一般化的公式，将采样问题转化为一般问题，当量计算1以优化模型参数θ，深度度量学习事实上，Eq。1可以通过一个新的函数F重新公式化为一个新的形式，用于对加权，其梯度w.r.t.第t次迭代时的θ的计算方法与Eq.1.一、F如下公式化对加权实例权重。实例加权已被广泛应用于各种任务。例如，Linet al.[20]提出了一个焦点损失，使模型能够专注于ΣmΣmF（S，y）=i=1j =1L（S，y）..L（S，y）.. Sij.（二）∂Sijt在训练对象检测器期间的硬否定示例。注意伊斯伊杰. 被认为是一个常数标量，在[2]中，开发了一种主动偏置学习，以在训练神经网络进行分类时强调高方差样本探索了自定进度学习[17]，它对具有较高置信度的样本给予更多关注不参与Fw.r.t.的梯度θ。因为深度度量学习的中心思想是鼓励积极的对更接近，并将消极的对分开从EA C。霍特河对于基于配对的损失L，我们。可以假设设计噪声鲁棒算法[12]。这些方法L（S，y）.∂Sijt对于负对，> 0，并且L（S，y）。∂Sijt 对于a≤0[20，13，2，17]是为加权仅依赖于自身的个体情况而开发的（称为自正对因此，在Eq. 2可以转化为对加权的形式如下：相似性），而我们的方法旨在计算自相似性和相对相似性，这是一个更COM-ΣmΣm.L（S，y）.mF=0。Sij+. Sij需要测量多个样本的复杂问题本地数据分布中的相关性。i=1yj yi这是我的。不yj=yi这是我的。不3. 广义对加权Σm=i=1Σmyj/=yi.wijSij−.Σmyj=yi当我看到你的时候，（三）在这一节中，我们用公式表示. L（S，y）. .度量学习到一个统一的加权视图，并提供其中wij=。. .这是我的。一个通用的对加权（GPW）框架，用于分析各种基于对的损失函数。3.1. GPW框架设xi∈ Rd是实值实例向量。然后我们有一个实例矩阵X∈Rm×d，和一个标签向量y∈ {1，2，. . .，C}m分别用于m个训练样本。然后实例 xi通过f（·;θ）：Rd→ Sl投影到l维空间中的单位球面上，其中f是由θ参数化的神经网络。形式上，我们将两个样本的相似度定义为Sij。=，其中<·，·>表示点积，从而得到m × m相似矩阵S，其在（i，j）处的元素为Sij。给定基于对的损失L，它可以用公式表示为关于S和y的函数：L（S，y）。在第t次迭代时关于模型参数θ的导数可以是不.不5025如Eq. 3、一个基于对的方法可以用于-被模拟为成对相似性的加权，其中对{xi，xi}的权重是w ij。使用基于对的损失函数L的学习现在从等式（1）转换为等式（2）。1到计算的重量对方程。3 .第三章。它是一个一般的对加权（GPW）公式，采样只是它的特殊情况之一。3.2. 重新审视基于对的损失函数为了证明GPW框架的泛化能力，我们重新审视了深度度量学习的四个典型的基于对的损失函数：对比损失[6]，三重损失[10]，二项式偏差损失[40]和提升结构损失[25]。对比损失。Hadsell等人[6]提出了一种连体网络，其中设计了对比损失以鼓励正对尽可能接近，而负对在给定阈值λ内彼此分开：我不知道。=（1−Iij）[Sij−λ]+−IijSij，（4）5026w=IJKi其中Iij=1表示正对，0表示对比损失中的负铰链功能而不是铰链主动一通过计算关于在Eq. 4，我们可以发现，所有的积极对和硬好吧1L二项式=Σ日志Σ Σ1+eα（λ−Sij）+具有Sij>λ的负对被赋予相等的i=1Piy=yJ I重量. 这是我们的对加权方案的一个简单和特殊的情况，没有考虑1 Σ日志Σ ΣΣ1+eβ（Sij−λ），（九）选择对。三重丢失。在[10]中，提出了一种三元组损失来学习深度嵌入，这使得负对的相似性在给定的保证金λ上小于随机选择的正对的相似性：Ltriplet：=[San−Sap+λ]+，（5）Ni yJ yi其中Pi和Ni分别表示具有锚xi的正对和负对的数量λ、α、β是固定的超参数。对{xi，xj}的权重是等式中的w ij。 1，其可以通过对S ij上的L二项式微分导出为：+1αeα（λ−Sij）ijα（λ−S），yj=yi其中San和Sap表示负对的相似性{xa，xn}和正对{xa，xp}，具有锚sam，Pi1+eij-1βeβ（Sij−λ）（十）eplxa. 根据为Eq. 5，a三元组损失对有效三元组wij=我 1+eβ（Sij−λ），yj/=yi其中S_an+λ> S_ap被选择，而S_an+λ≤S_ap的三元组被认为是信息较少的，并且被丢弃。三重损失是不同的对比损失对选择方案，但这两种方法考虑所有选择的对平等，这限制了他们的能力，以确定更多的信息对中选择的。提升结构损失。Song等人[25]设计了一种提升结构损失，[9]中进一步改进为更通用的版本它利用小批量中的所有正负对，如下所示：可以发现，二项式偏差损失是一个软版本对比损失。由方程式3.具有较高相似性的负对被分配有较大的权重，这意味着通过区分来自不同类别（其形成负对）的两个相似样本，其信息量更大。4. 多相似性损失在本节中，我们首先分析影响深度度量学习中样本选择和权重的三种相似性然后，我们提出了一个多相似性损失，我举起来了。=Σmi=1Σ日志Σyk=yieλ−Sik+ log Σyk/=yi锡克Σ、（6）+通过迭代样本挖掘和加权联合考虑所有三个相似性。4.1. 多重相似性其中λ是固定的裕度。由方程式如图6所示，当锚xi的铰链函数返回非零值时，我们可以通过根据等式2对在S ij上提升的L求微分来获得对{xi，xj}的权重值w ij。3.第三章。然后，正对的权重计算为：eλ−Sij1w+==，（7）虽然有不同的配方，各种基于对的损失函数，通常侧重于从更多的信息对学习，可以在我们的GPW框架内投到一个对加权问题。此外，我们观察到，大多数基于配对的方法基于自余弦相似性或与其他配对相比的相对相似性来对配对进行加权。为简单起见，我们以负对为例，描述三种不同的类型IJyk=yieλ−Sikyk=yi eSij−Sik我们定义的相似性。对阳性对的分析是类似的。基于对的方法的三个相似之处是负对的权重为：描述如下。S：自相似性。自相似性计算如下：w−=eSijyk/=yi eSik=1 .一、（八）y/=yeSik−Sij这是最重要的相似之处具有较大余弦相似性的负对意味着更难区分两个配对样本与不同的样本。当量图7示出了确定正对的权重通过其相对相似性，通过将其与具有相同锚的剩余阳性N5027对进行比较来测量。负对的权重类似地基于等式（1）计算。8.二项式偏差损失。Dong等人在[40]中介绍了利用softplus函数的ent类。这种对被称为硬否定对，其对于学习区分特征更有信息量和意义。对比损失[6]和二项式偏差损失[40]都是基于这个标准。如图1所示，2、当负样本接近时，三个负样本对的权值增大。5028图2.否定对的三个相似性的违反案例-1：负对的余弦相似度随着它们靠近锚点而增加;情况-2：与否定词相比的相对相似度随着其他否定词的余弦相似度的增加而减小;情况-3：随着相关正对变得更接近，相对相似性降低。N对NCA直方图对比三重提升结构二项式BinLiftedMSS✗✗✗✓✗✗✓✓✓N✓✓✗✗✗✓✗✓✓P✗✓✓✗✓✗✗✗✓表1.该表显示了这些基于对的方法用于在一个负对上分配权重的相似性在该表的第一列中是三个视角显然，自相似性很难完全描述嵌入空间中的样本分布，而其他对的相关性会对相似性度量产生重大影响在图1的情况下，2）或所有阴性样本（图3的情况-3）。2）与锚同步移动。这个conclu-也可以直接从方程（Eq.）8、只有一个人，保证我们通过考虑挂在y=yeSij−Sik。哦，太可怕了，如此可靠的山姆-Ki与当前对具有相同锚点的所有对，以及定义两种类型的相对相似性。N：负相对相似度。它是通过考虑相邻负对的关系来计算的。如图2的情况2所述。2、相对相似性的自相似性是不变的。这是因为它的相邻负样本移动得更近，这增加了这些相邻对的自相似性，从而降低了相对相似性。升力结构损失[25]是基于这种相对相似性，如方程所示。 8.P：正相对相似性。类似地，相对相似性还考虑来自其他正对（具有相同锚）的关系如图3的情况所示。2、当这些正样本变得更接近锚点时，当前对的相对相似性降低，因此对权重应相应降低。基于该相似性计算三重损失，如等式（1）所示。五、在我们的GPW框架中，我们分析了许多基于经验的损失函数，这些损失函数基于定义的三个相似性，并在表1中对它们进行了比较。这些函数的详细可以发现，提升结构损失仅考虑负的相对相似性，通过与负的相邻对进行比较来加权。当前对的权重将保持不变，当所有正的sam-事实（正面或负面）通常包含有意义的信息。信息，并且对于学习区分特征非常重要，但是被任意丢弃，这可能会大大降低模型的能力。虽然之前已经探索了基于每个个体相似性的加权或采样方法，但据我们所知，现有的基于对的方法都没有充分利用所有三个相似性对分配权重。4.2. 多相似性损失如所讨论的，与[2，20]中为分类和检测任务描述的采样或加权方案不同，其中实例的权重是基于交叉熵损失单独计算的，很难基于其单独的余弦相似性精确地测量一对的信息量应考虑相关样本或对之间的成对相似性，这使得测量和加权问题更加复杂和具有挑战性。如表1所示，列出的每种方法都可以考虑三个相似性中的一个或两个。据我们所知，没有一个现有的基于对的方法可以同时考虑所有的三个相似性。为此，我们提出了多相似性（MS）损失，它通过使用两个迭代步骤实现新的对加权方案来考虑所有三个方面：采矿和称重。 (i)信息对首先通过MEA进行采样，5029IJIJik+的IJe−α（Sik−Sij）确定相似性-P;然后（ii）联合使用相似性-S和相似性-N对所选择的对进行进一步加权。两个步骤的细节描述如下。配对挖矿。我们首先通过计算相似性P来选择信息对，该相似性P测量具有相同锚点的负参与正对之间具体地说，一个负对与最难的正对进行比较正对（具有最低相似性），而正对通过与具有最大相似性的负对进行比较来采样形式上，假设xi是一个锚点，一个负对如果Sij满足以下条件，则选择{xi，xj}S−>minSik−，（11）yk=yi其中，n是给定的裕度。如果{xi，xj}是正对，则条件为：S+

下载后可阅读完整内容，剩余1页未读，立即下载