深度度量学习：寻找最佳的硬否定方法分析

198 浏览量更新于2023-10-13 收藏 742KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10634Loop：寻找深度度量学习3* RitzCarlton酒店，莫斯科3*摘要深度度量学习已被有效地用于学习针对不同视觉任务（如图像检索、聚类等）的距离度量。为了辅助训练过程，现有方法要么使用硬挖掘策略来提取信息量最大的样本，要么使用附加网络来寻求生成硬合成物。这种方法面临着不同的挑战，在前一种情况下可能导致有偏见的嵌入，以及（i）更难优化(ii)较慢的训练速度（iii）在后一种情况下较高的模型复杂度。为了克服这些挑战，我们提出了一种新的方法，在嵌入空间中寻找最佳的硬否定（LoOp），通过计算一对阳性和一对阴性之间的最小距离来充分利用每个元组。与基于挖掘的方法不同，我们的方法考虑了嵌入对之间的整个空间结合我们的方法和代表性的度量学习损失的广泛实验揭示了三个基准数据集1的性能显着提高。1. 介绍深度度量学习尝试学习嵌入空间，其中嵌入之间的接近度编码数据样本之间的语义相似性水平。这是通过利用深度神经网络来学习数据样本和嵌入空间之间的映射，并强制属于同一类的嵌入靠近，同时将属于不同类的嵌入推得更远来完成的。基于深度度量学习的方法已经在几个任务中取得了最先进的（SOTA）结果，如人脸识别[2，24，20，8]，重新识别[35，19，41，30]、图像检索[31，7]等。为了训练深度网络，已经制定了具有期望性质的若干损失函数，这使得能够实现深度网络。*同等贡献1代码可在https://github.com/puneesh00/LoOp图1：所提出的方法的图示。给定嵌入空间中的两对点，来自A类的x1，x2和来自B类的y1，y2，我们的方法通过计算连接这些点的曲线之间的最小距离来神经网络学习从数据空间到嵌入空间的映射。传统方法，例如采用具有两个样本的元组的对比损失[2，9]和采用三个样本元组的三重损失[24，33]，考虑了几个样本之间的相似性相比之下，像提升结构损失[25]这样的方法旨在利用批次中存在的所有样本来学习更多信息表示。还提出了利用损失中的几个样本的其他方法[28，21然而，即使当考虑整个批次时，并非所有样品都能够对损失项做出贡献。这是因为它们中的许多已经满足损失中存在的约束。结果，这些样本不是足够的信息，并且导致低梯度值。为了克服这个问题，使用硬样本的想法已经被提出。10635C的·Z→−XZX在一些实施例中，考虑了两个样本，即位于远处的阳性样本和位于较近的阴性样本。已经提出了几项关于硬负开采的工作[21，11，13，37，24]。基于挖掘的策略通常在数据集中寻找信息量最大的样本，并且容易学习有偏见的映射，这不能很好地推广到整个数据集。另一方面，基于硬否定生成的方法[5，40，39]利用附加的子网络，即自动编码器或生成对抗网络[6]作为生成器。这可能会导致更难的优化[1]以及训练时间和计算量的增加。为了解决现有的硬负挖掘和生成方法的局限性这是通过找到最小化连接一对阳性和一对阴性的曲线之间的距离的点来完成的，如图1所示。连接属于同一类的一对点的曲线位于属于该类的区域中。因此，找到与另一条曲线的最小距离，这是一些其他类别的代表，允许我们考虑用于计算损失的最具信息量的样本对，如第3.1节所述。与基于挖掘的方法不同，我们的方法不会忽略任何样本，与基于生成的方法不同，它不会增加训练复杂度或优化难度。它可以很容易地与各种基于度量学习的损失集成。我们在第4节中包括几个实验结果，以证明我们的方法的有效性。贡献我们提出了一种新的方法，LoOp，它发现最佳的硬否定的嵌入空间中，并最大限度地提高每个元组在计算基于对的我们的方法提出了一个一般问题的解决方案，即寻找两个有界曲线之间的最小距离，这可能是有用的，在其他应用中。在嵌入空间中生成硬否定，我们的方法利用所有训练样本，而不依赖于样本的子集，如基于挖掘的方法。它还避免了由基于生成的方法引入的计算负荷和训练复杂性。我们还探讨了最优的Loop与基于梯度的理论分析的损失函数。我们的方法很好地推广到各种度量学习的损失，它可以很容易地结合在优化难度或额外的参数没有任何增加。它在三个基准数据集Cars 196 [17]，CUB- 200-2011 [29]和Stanford Online Products [25]上的表现优于最先进的挖掘和2. 相关工作满足用于训练的标准的样本不会导致损失，并导致较小的梯度和较慢的收敛。到为了解决这个问题，已经开发了几种采样和挖掘策略[21，11，13，37，24]，它们使用硬阳性和阴性进行训练。Schroff等人。[24]提出了Harwood等人。 [11]提出了一种基于智能挖掘的方法，该方法自适应地选择信息量最大的样本。这样的方法的缺点是训练的模型在硬样本的子集上过拟合并且在“容易”样本上欠拟合由于它们依赖于训练样本的子集，因此无法利用其他样本提供的信息。与基于挖掘的方法相比，基于生成的方法[5，40，39]试图通过提取生成充当硬否定的合成样本所需的语义信息来深度对抗度量学习（DAML）[5]以对抗的方式训练嵌入网络和硬否定在硬度感知深度度量学习（HDML）[40]中，通过嵌入空间中的插值来创建合成样本。这是其次是找到相应的标签保持映射的特征空间中使用的自动编码器。他们还控制训练时的硬度水平。虽然这些方法利用了所有的训练样本，但它们需要一个额外的网络作为生成器。这增加了训练时间和计算负荷，也可能导致优化困难[1]。一些方法[36，16]直接增加嵌入空间以获得有用的合成样本。 Yin等人 [36]假设所有类别都遵循高斯分布，并将来自不同类别的样本关于其均值进行转换以生成新的样本。嵌入式扩展（EE）[16]是一种基于线性插值的方法，用于通过考虑不同类别的真实点和合成点之间的成对距离来生成合成样本并挖掘硬否定。它表现出硬负的质量和计算成对距离的计算负荷之间其他作品试图通过引入正则化来优化样本的位移方向[23]或最大化特征描述符的扩展来补充度量学习损失[38]。另一项工作引入了二阶相似性[27]，其灵感来自图匹配和聚类，作为学习局部特征描述符的正则化器3. 方法令表示数据点的集合，表示集合嵌入，h（;θ）：表示由具有参数θ的神经网络h学习的映射。表示数据点所属的类的集合。令Z表示为训练而采样的数据点的阵列。对于任何索引i，Z[i]表示数据样本，X[i]表示数据样本。c[i]表示它的类。10636·Σ1不不X3.1. 问题公式化考虑嵌入空间中的两对点：x1，x2和y1，y2，属于两个不同的类。它们是l2-正规化的，并且位于单位半径的超球面上大多数基于成对度量学习的损失试图以某种方式考虑d（x1，x2）和d（x1，y1）之间的差距，其中d表示欧几里得距离。为了考虑允许损失函数的较大值的信息样本，我们可以尝试增加这个差距。由于d（x1，x2）表示两个正之间的距离，因此它利用来自该批中可用的该类的两个样本，并且尽管我们可以尝试生成x3使得d（x1，x3）> d（x1，x2），但在没有更多信息（或假设）的情况下，在数学上难以确保其类另一方面，我们可以通过利用剩余的样本（x2，y2）来最小化由d（x1，y1）换句话说，我们可以找到两个点，p1和p2，它们分别位于连接x1和x2，y1和y2的测地线上，使得driguez定理，如下：R=I+ sinα（n2 n1T−n1 n2T）-（1−cosα）（n1 n1+n2 n2），其中I是单位矩阵，并且（）T是转置运算符。最后，我们发现p 1= Rx 1。简化，我们得到：p1=n1cosα+n2sinα。（3）类似地，p 2被获得为：p2=n3cosβ+n4sinβ，（4）其中n3和n4是对y1和y2通过Gram-Schmidt正交化得到的基向量。结合（1）中p1和p2的这些表达式并简化，要最小化的目标f由下式给出f（α，β）=−p1·p2=asinαsinβ+bcosαsinβ+csinαcosβ+dcosαcosβ，（5）d（p 1，p 2）= ||p1− p2||2=√2（1 − p 1·p2），（1）其中a=−n2·n4，b=−n1·n4，c=−n2·n3，并且d=−n1·n3。被最小化。这在图1中可视化。1.一、一个玩具的例子，演示使用不同的p1，p2和基于梯度的分析三重损失的行为包括在补充。数据分布假设我们假设位于超球面上的不同类的数据分布是球面-同方差的[10]，定义如下。定义1. 如果两个分布的协方差具有相同的本征值，即：分布形状相同。1.提案如果点对x1 X 2 和y1，此外，我们需要考虑对α的两个约束，因此p1保持在x1和x2之间。它们被给出为：g1=−α≤0; g2=α−α0≤ 0。（6）类似地，对β的约束给出为：g3=−β≤0; g4=β−β0≤ 0。（七）约束优化问题的拉格朗日函数由下式给出：4L（α，β，λ1，λ2，λ3，λ4）=f（α，β）−λi gi，（8）i=1y2（来自两个不同的类）属于球面-同方差分布，则曲线上的点其中λ i，i = 1，2，3，4是Karush-Kuhn-Tucker（KKT）[14，18]乘数。>1x2 且>y1y2更有可能属于3.2. 寻找最佳距离分别与x1，x2和y1，y2相同的类，而不是其他类。在补充材料中可以找到我们的管道中的数据分布假设（定义1）的实验验证和命题1p1是通过沿x轴向x2旋转x1得到的由于约束是可微的，没有任何临界点，我们考虑KKT条件[14，18]来获得该问题的解。它们列示如下：Lα=acosαsinβ−bsinαsinβ+ccosαcosβcurv ex>x2，角度α介于0和α0之间=106371·cos−1（x1·x2）。类似地，p2是通过旋转y1-dsinαcosβ+λ1−λ2=0，（9）沿着y>y2以角度β朝向y2，该角度β位于0且β0=cos−1（y 1 y 2）。这分三步完成。首先，使用Gram-Schmidt正交化来计算由x1和x2所跨越的空间的基向量，即x2−（x1·x2）x1Lβ=asinαcosβ+bcosαcosβ−csinαsinβ-dcosαsinβ+λ3−λ4=0，（10）λi gi=0;i= 1，2，3，4，（11）n1=x1;n2=||X 2 -（x1 ·X2）x1||2.（二）λi≤0;i=1，2，3，4，（12）第二，使用Ro计算旋转矩阵Rg i≤ 0; i = 1，2，3，4.（十三）10638.β0 000无所谓5 0 0 −无所谓0 −.7α000无所谓−- -asinβ0+ccosβ 0bsinβ0+dcosβ 0fβα=ααα=0，β=β0βα=0，β=β0αα=α0，β=β 0..情况α β λ1λ2λ3λ410tan−1。 b− f。ˆ000csinα0+dcosα 0αα=α0，β=β.dΣαα=0，β=β2α0tan−1asinα0+bcosα0000f。ˆ003tan−1。 c Σ000−f。0.dΣβα=ααα=0，β =060β0−f。βα=0，β=0000 f.fαα=α0，β=08α0β00 f.βα=α0，β=00000f。表1：8例互补松弛的α、β4tan−1βα=α0，β=β 010639y图2：9个案例的说明，其中KKT最小化>x1x2和其中A=a2b2+c2d2和B=a2+b2c2d2.所得到的α和β用来验证（13）的有效性类似地，还针对剩余8种情况检查KKT条件。表1列出了各种情况下α、β和KKT乘数的表达式。该表的前4行涵盖了其中一个最佳点是曲线的端点，而另一个可以是另一条曲线上的任何点的情况。表中接下来的4行涵盖了两个最佳点都是两个端点之一的情况。使用这些表达式获得的值用于验证（12）和（13）中的条件。在违反任何条件的情况下，丢弃解决方案。一旦获得α和β，则y在⑶中被替换以及（4）获得p1和p2。最后，d由我们计算ing（1），其用于不同的度量学习损失，如下所述>1y210640可以得到满足。在0情况下，p1和p210641位于10642.√Σ±−1β=tan−1BB+ 4（ac+bd）2（ac+bd）、其中[·]+ 表示铰链函数，并且P表示集合各个曲线的端点。在1-4例中，只有一个是相应曲线的端点在案例5-8中，10643它们都是各自曲线的端点。有16种可能的方法来满足（11）。然而，在这方面，10644某些约束不能同时绑定（例如，如果10645s表示相似性，由s=1 -1给出。i，j.让i，ji，j3.3. 深埋问题的最优硬负嵌入度量学习10646设di，j表示X[i]和X[j]之间的距离，D22di，j，k，l表示曲线连接点之间的最佳距离X[i]和X[j]，以及X[k]和X[l]，使得c[i]=10647g1=0，g2/= 0），这留下9种情况要考虑，它们是10648c[j]c[k]=c[l]。我们评估我们的方法为以下-10649示于图二、下文将简要讨论这些解决方案证据可以在补充材料中找到。10650我们首先考虑的情况下，没有约束具有约束力（案例0）。为了满足（11），对于i=10651λi=0，一，二，三，四。在这种情况下，（12）也满足。杠杆10652（9）和（10），我们得到一个tanα的二次方程。力量解决10653并且使用（9）或（10）找到β的相应值我们得到两组解：

下载后可阅读完整内容，剩余1页未读，立即下载