无采样的SoftTripleLoss:扩展SoftMax损失的深度度量学习

125 浏览量更新于2023-10-13 收藏 13.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

distM(xi, xj) = (xi − xj)⊤M(xi − xj)164500SoftTriple Loss: 无需三元组采样的深度度量学习0骞琪 1 尚磊 2 孙百贵 2 胡菊花 3 李浩 2 金蓉 101 阿里巴巴集团，华盛顿州贝尔维尤，98004，美国2 阿里巴巴集团，杭州，中国 3华盛顿大学塔科马分校工程与技术学院，华盛顿州塔科马，98402，美国0{qi.qian, sl172005, baigui.sbg, lihao.lh, jinrong.jr}@alibaba-inc.com, juhuah@uw.edu0摘要0距离度量学习（DML）是学习嵌入空间，使得同一类别的示例比不同类别的示例更接近。它可以被看作是一个带有三元组约束的优化问题。由于三元组约束的数量庞大，采样策略对于DML是必要的。随着深度学习在分类任务中的巨大成功，它已经被应用于DML。当使用深度神经网络（DNN）学习嵌入时，每次迭代只有一个小批量的数据可用。三元组约束集必须在小批量内进行采样。由于小批量无法很好地捕捉原始集合中的邻居，这使得学习到的嵌入不够优化。相反，优化SoftMax损失，即分类损失，与DNN在某些DML任务中表现出卓越的性能。这启发我们研究SoftMax的公式。我们的分析表明，SoftMax损失等价于一个平滑的三元组损失，其中每个类别有一个单独的中心。在现实世界的数据中，一个类别可以包含多个局部聚类，而不是一个单一的聚类，例如不同姿势的鸟类。因此，我们提出了SoftTriple损失，通过为每个类别保留多个中心来扩展SoftMax损失。与传统的深度度量学习算法相比，优化SoftTriple损失可以在轻微增加最后一个全连接层的大小的情况下学习嵌入，而无需采样阶段。在基准细粒度数据集上的实验证明了所提出的损失函数的有效性。01. 引言0由于其广泛的应用范围，距离度量学习（DML）在过去几十年中得到了广泛的研究，例如 k近邻分类[29]，图像检索[24]和聚类[31]。通过适当的距离度量，同一类别的示例应该比不同类别的示例更接近0SoftMax中的FC SoftTriple中的FC0图1.所提出的SoftTriple损失的示意图。在传统的SoftMax损失中，每个类别在最后一个全连接层中有一个代表性中心。同一类别的示例将被折叠到同一个中心。这对于现实世界的数据可能是不合适的，如图所示。相反，SoftTriple损失在全连接层中保留多个中心（例如，本示例中每个类别有2个中心），并且每个图像将被分配给其中一个中心。这对于建模现实世界数据集中的类内变异更加灵活。0比不同类别的示例更接近。已经提出了许多算法来学习良好的距离度量[15, 16, 21,29]。在大多数传统的DML方法中，示例是由手工设计的特征表示的，而DML是学习一个特征映射，将示例从原始特征空间投影到一个新的空间。距离可以计算为马氏距离[11]0其中 M是学习到的距离度量。在这个公式中，DML的主要挑战来自输入空间的维度。作为一个度量，学习到的矩阵 M必须是半正定的（PSD），而保持矩阵PSD的成本最高可达O(d^3)，其中 d是原始特征的维度。早期的工作直接应用PCA来缩小原始空间[29]。后来，出现了各种策略来降低计算成本[16,17]。这些方法可以从中获得良好的度量64510输入特征，但是手工特征是任务无关的，可能会导致信息的丢失，从而限制了DML的性能。随着深度神经网络在分类方面的成功[7]，研究人员考虑直接从深度神经网络中学习嵌入[15,21]。没有显式的特征提取，深度度量学习通过很大的边际提升了性能[21]。在深度度量学习中，输入特征的维度不再是一个挑战，因为神经网络可以直接从原始材料（例如图像、文档等）中学习低维特征。相比之下，为优化生成适当的约束对于深度度量学习来说是具有挑战性的。这是因为大多数深度神经网络是使用随机梯度下降（SGD）算法进行训练的，每次迭代只有一个小批量的示例可用。由于嵌入是通过在锚定示例及其邻居（例如成对[31]或三元组[29]约束的活动集）上定义的损失进行优化的，小批量中的示例可能无法很好地捕捉整体邻域，特别是对于相对较大的数据集。此外，一个小批量包含O(m^2)对和O(m^3)个三元组，其中m是小批量的大小。即使对于一个小批量（例如32），一个有效的采样策略也是学习嵌入的关键。已经有很多努力致力于研究采样一个信息丰富的小批量[19,21]和在小批量内采样三元组[12,24]。一些工作还尝试通过代理[14,18]来减少三元组的总数。小批量和约束的采样阶段不仅会丢失信息，还会使优化变得复杂。在这项工作中，我们考虑在不进行约束采样的情况下学习嵌入。最近的研究表明，直接从优化SoftMax损失中获得的嵌入，在简单的基于距离的任务[22,30]和人脸识别[2,9,10,27,28]中表现良好。这启发我们研究SoftMax损失的形式。我们的分析表明，SoftMax损失等价于平滑的三元组损失。通过在最后一个全连接层中为每个类别提供一个单独的中心，可以在原始示例、其对应的中心和来自不同类别的中心之间定义由SoftMax损失导出的三元组约束。因此，通过优化SoftMax损失获得的嵌入可以很好地作为距离度量。然而，现实世界的数据中的一个类别可能由多个局部聚类组成，如图1所示，一个单独的中心无法捕捉数据的内在结构。因此，从SoftMax损失中学到的嵌入在复杂场景中可能失败[22]。在这项工作中，我们提出通过引入每个类别的多个中心来改进SoftMax损失，新的损失被称为SoftTriple损失。与单个0中心，多个中心可以更好地捕捉数据的隐藏分布，因为它们有助于减少类内方差。这个属性对于在训练过程中保留原始示例的三元组约束也至关重要。与现有的深度度量学习方法相比，SoftTriple中的三元组数量与原始示例的数量成线性关系。由于中心被编码在最后一个全连接层中，SoftTriple损失可以在不采样三元组的情况下进行优化。图1说明了提出的SoftTriple损失。显然，SoftTriple损失必须确定每个类别的中心数量。为了缓解这个问题，我们开发了一种策略，即在开始时为每个类别设置足够多的中心，然后应用L2,1范数来获得一个紧凑的中心集合。我们在细粒度视觉分类任务上展示了提出的损失，其中捕捉局部聚类对于良好的性能至关重要[17]。本文的其余部分组织如下。第02回顾了传统距离度量学习和深度度量学习的相关工作。第3节分析了SoftMax损失并相应地提出了SoftTriple损失。第4节对基准数据集进行了比较。最后，第5节总结了这项工作并讨论了未来的方向。02. 相关工作0距离度量学习当输入特征被提供时，许多DML方法已经被开发出来[29，31]。由于PSD投影，输入特征的维度是这些方法的一个关键挑战，并且已经提出了许多策略来减轻它。最直接的方法是通过PCA减少输入空间的维度[29]。然而，PCA是任务独立的，可能会损害学习嵌入的性能。一些工作尝试通过低秩假设减少有效参数的数量[8]。[16]通过减少PSD投影的数量来降低计算成本。[17]提出在由随机投影引入的低维空间中学习双变量，然后在原始空间中恢复度量。解决了来自维度的挑战后，手工制作的特征成为性能改进的瓶颈。这些方法中也发展了度量学习的约束形式。早期的工作集中于优化成对约束，这些约束要求来自同一类的示例之间的距离小于来自不同类的示例之间的距离[31]。后来，[29]开发了三元组约束，其中给定一个锚点示例，锚点与相似示例之间的距离应该小于锚点与不相似示例之间的距离的较大间隔。显然，成对约束的数量是O(n^2)，而三元组约束的数量可以高达O(n^3)，其中n是示例的数量。Pr(Y = yi|xi) =exp(w⊤yixi)Cj exp(w⊤j xi)ℓSoftMax(xi) = − logexp(w⊤yixi)j exp(w⊤j xi)∀i, j, k,∥xi − xk∥22 − ∥xi − xj∥22 ≥ δ∀i, j, k,x⊤i xj − x⊤i xk ≥ δ(1)ℓtriplet(xi, xj, xk) = [δ + x⊤i xk − x⊤i xj]+(2)ℓSoftMaxnorm(xi) = − logexp(λw⊤yixi)j exp(λw⊤j xi)(3)ℓSoftMaxnorm(xi) = maxp∈∆ λ�jpjx⊤i (wj − wyi) + H(p)(4)64520与成对约束相比，三元组约束优化了局部聚类的几何形状，更适用于建模类内变异性。在这项工作中，我们将重点放在三元组约束上。0深度度量学习旨在通过深度神经网络直接从原始材料（例如图像）中学习嵌入[15，21]。通过任务相关的嵌入，度量学习的性能有了显著的改进。然而，大多数深度模型是使用SGD进行训练的，每次迭代只允许一个小批量的数据。由于小批量的大小较小，其中的信息与原始数据相比是有限的。为了缓解这个问题，算法必须开发一种有效的采样策略来生成小批量数据，然后从中采样三元组约束。一种直接的方法是增加小批量的大小[21]。然而，大型小批量将受到GPU内存限制的限制，并且还可能增加采样三元组的挑战。后来，[19]提出从邻近类中生成小批量。此外，还有各种采样策略用于获取约束[3，12，21，24]。[21]提出采样半硬负例示例。[24]采用每个正对之间的边界内的所有负例示例。[12]开发了根据与锚点示例的距离采样示例的距离加权采样。[3]从层次类级树中选择具有动态违反边界的困难三元组。然而，所有这些策略可能无法捕捉整个数据集的分布。此外，它们使深度DML中的优化变得复杂。0最近，一些研究人员考虑通过减少三元组的总数来减轻大量三元组带来的挑战。[14]使用一个原始示例和两个代理构建三元组损失。由于代理的数量明显少于原始示例的数量，可以将代理保存在内存中，以避免在不同批次之间进行采样。然而，当标签信息可用时，它只为每个类提供一个代理，这与SoftMax类似。[18]提出了一种传统的DML算法，仅使用潜在示例构建三元组损失，为每个类分配多个中心，并进一步减少三元组的数量。在这项工作中，我们提出通过优化提出的SoftTriple损失来学习嵌入，以消除采样阶段并同时捕捉每个类的局部几何。03. SoftTriple损失0在本节中，我们首先介绍SoftMax损失和三元组损失，然后研究它们之间的关系0为了推导出SoftTriple损失，将第i个示例的嵌入表示为x i，相应的标签表示为y i，那么深度神经网络输出的条件概率可以通过SoftMax运算符估计0其中[ w 1 , ∙ ∙ ∙ , w C ] ∈ R d ×C是最后一个全连接层。C表示类别的数量，d是嵌入的维度。相应的SoftMax损失为0通过最小化示例上的损失来学习深度模型。这种损失已经广泛应用于分类任务[7]。给定一个三元组(x i , x j , x k)，DML旨在学习良好的嵌入，使得来自同一类别的示例比来自不同类别的示例更接近，即0其中x i 和x j来自同一类别，xk来自不同类别。δ是预定义的间隔。当每个示例具有单位长度（即∥ x ∥ 2 = 1 ）时，三元组约束可以简化为0其中我们忽略了δ的重新缩放。相应的三元组损失可以写成0从方程1可以明显看出，总三元组的数量可以是示例数量的立方，这使得对于大多数基于三元组的DML算法来说，采样是不可避免的。当w和x都具有单位长度时，归一化的SoftMax损失可以写成0其中λ是一个缩放因子。令人惊讶的是，我们发现通过平滑项λ最小化归一化的SoftMax损失等价于优化平滑的三元组损失。0命题1.0其中p ∈ R C是类别的分布，∆是单纯形，即∆ = { p | �0j p j = 1 , � j, p j ≥ 0 } . H ( p ) 表示分布p的熵。pj =exp(λx⊤i (wj − wyi))�j exp(λx⊤i (wj − wyi))ℓSoftMaxnorm(xi) = λ�jpjx⊤i (wj − wyi) + H(p)= log(�jexp(λx⊤i (wj − wyi))) = − logexp(λw⊤yixi)�j exp(λw⊤j xi)∀i, j,x⊤i wyi − x⊤i wj ≥ 0maxj {x⊤i wj} − xiwyiRemark 3Applying the similar analysis to the Prox-yNCA loss [14]: ℓProxyNCA(xi) = − logexp(w⊤yixi)�j̸=yi exp(w⊤j xi),we haveℓProxyNCA(xi) = maxp∈∆ λ�j̸=yipjx⊤i (wj − wyi) + H(p)where p ∈ RC−1. Compared with the SoftMax loss, iteliminates the benchmark triplet containing only the cor-responding class center, which makes the loss unbounded.Our analysis suggests that the loss can be bounded as inEqn. 2: ℓhingeProxyNCA(xi) = [− logexp(w⊤yixi)�j̸=yi exp(w⊤j xi)]+. Vali-dating the bounded loss is out of the scope of this work.Despite optimizing SoftMax loss can learn the meaning-ful feature embeddings, the drawback is straightforward.It assumes that there is only a single center for each classwhile a real-world class can contain multiple local clustersdue to the large intra-class variance as in Fig. 1. The tripletconstraints generated by conventional SoftMax loss is toobrief to capture the complex geometry of the original data.Therefore, we introduce multiple centers for each class.3.1. Multiple CentersNow, we assume that each class has K centers. Then,the similarity between the example xi and the class c canbe deﬁned asSi,c = maxkx⊤i wkc(5)Note that other deﬁnitions of similarity can be applicable forthis scenario (e.g., minz∈RK ∥[w1c, · · · , wKc ]z − xi∥2). Weadopt a simple form to illustrate the inﬂuence of multiplecenters.With the deﬁnition of the similarity, the triplet constraintrequires an example to be closer to its corresponding classthan other classes∀j,Si,yi − Si,j ≥ 0As we mentioned above, minimizing the entropy term H(p)can help to pull the example to the corresponding center. Tobreak the tie explicitly, we consider to introduce a smallmargin as in the conventional triplet loss in Eqn. 1 and de-ﬁne the constraints as∀jj̸=yi,Si,yi − Si,j ≥ δBy replacing the similarity in Eqn. 4, we can obtain theHardTriple loss asℓHardTriple(xi) = maxp∈∆ λ� �j̸=yipj(Si,j − (Si,yi − δ))+ pyi(Si,yi − δ − (Si,yi − δ))�+ H(p)= − logexp(λ(Si,yi − δ))exp(λ(Si,yi − δ)) + �j̸=yi exp(λSi,j)(6)HardTriple loss improves the SoftMax loss by providingmultiple centers for each class. However, it requires the maxoperator to obtain the nearest center in each class while thisoperator is not smooth and the assignment can be sensitivebetween multiple centers. Inspired by the SoftMax loss, wecan improve the robustness by smoothing the max operator.64530证明。根据K.K.T.条件[1]，方程4中的分布p具有闭式解0因此，我们有0注1：命题1表明SoftMax损失优化了由一个原始示例和两个中心组成的三元组约束，即(x i , w y i , w j)。与方程1中的三元组约束相比，SoftMax损失的目标是0因此，通过最小化SoftMax损失学习到的嵌入可以应用于基于距离的任务，尽管它是为分类任务设计的。0注2：没有熵正则化器，损失变为max p ∈ ∆ λ �0这等价于0明确地，它惩罚了违反最多的三元组，并且当 x i的最近邻是相应的中心 w y i时，它变为零。熵正则化器减少了异常值的影响，使损失更加鲁棒。λ在三元组的难度和正则化器之间进行权衡。此外，最小化最大熵可以使分布集中，并进一步将示例推离不相关的中心，这意味着具有大边界属性。Consider the problemmaxkx⊤i wkcwhich is equivalent tomaxq∈∆�kqkx⊤i wkc(7)we add the entropy regularizer to the distribution q asmaxq∈∆�kqkx⊤i wkc + γH(q)With a similar analysis as in Proposition 1, q has the closed-form solution asqk =exp( 1γ x⊤i wkc )�k exp( 1γ x⊤i wkc )Taking it back to the Eqn. 7, we deﬁne the relaxed similaritybetween the example xi and the class c asS′i,c =�kexp(̸EmbeddingFC layerSoftMaxEmbeddingFC layerSoftMaxMax OperatorEmbeddingFC layerSoftMaxSoftMax Operator64540γ x � i w k c0� k exp( 10γ x � i w k c ) x � i w k c0通过应用平滑的相似度，我们定义SoftTriple损失如下：0ℓ SoftTriple ( x i )0= -log exp( λ ( S ′ i,y i − δ ))0exp( λ ( S ′ i,y i − δ ))+ �0j ≠ y i exp( λ S ′ i,j ) (8)0图2说明了SoftMax损失和提出的损失之间的区别。0SoftMax损失 HardTriple损失 SoftTriple损失0图2.SoftMax损失和提出的损失之间的区别的示意图。与SoftMax损失相比，我们首先增加了FC层的维度，以包含每个类别的多个中心点（例如，此示例中每个类别有2个中心点）。然后，我们通过不同的运算符为每个类别计算相似度。最后，根据从每个类别获得的相似度计算不同类别之间的分布。0最后，我们将展示应用中心点构建三元组约束的策略可以恢复原始三元组的约束。0定理1. 给定两个来自同一类别且具有相同最近中心点的示例x i 和 x j，以及来自不同类别的示例 xk，如果满足包含中心点的三元组约束，则有0x � i w y i − x � i w y k ≥ δ0并且我们假设对于所有 i，∥ x i − w y i ∥ 2 ≤ �，则有0x � i x j − x � i x k ≥ δ − 2�0证明.0x � i x j − x � i x k = x � i (x j − w y i) + x � i w y i − x �i x k ≥ x � i (x j − w y i) + x � i (w y k − x k) + δ0≥ δ − ∥ x i ∥ 2 ∥ x j − w y i ∥ 2 − ∥ x i ∥ 2 ∥ w y k − xk ∥ 2 = δ − ∥ x j − w y i ∥ 2 − ∥ w y k − x k ∥ 2 ≥ δ −2�0定理 1 证明了优化由中心点组成的三元组，带有间隔δ，可以保留原始三元组约束的大间隔性质。它还暗示了更多的中心点有助于减少类内方差�。在中心点的数量等于示例数量的极端情况下，�变为零。然而，增加更多的中心点将增加最后一个全连接层的大小，使优化变慢且计算昂贵。此外，可能会引发过拟合问题。因此，我们必须为每个类别选择一个适当的中心点数量，以便在保持紧凑的中心点集的同时具有较小的近似误差。我们将在下一小节中展示这个策略。03.2. 自适应中心点数量0为数据找到合适的中心点数量是一个具有挑战性的问题，也出现在无监督学习中，例如聚类。中心点的数量 K在效率和效果之间进行权衡。在传统的DML算法中，K等于原始示例的数量。这使得总的三元组约束的数量达到原始示例数量的立方。在SoftMax损失中，K = 1可以将约束的数量减少到与原始示例数量线性相关，这是高效的但可能不够有效。在没有关于每个类别分布的先验知识的情况下，很难准确设置 K。与为每个类别设置适当的 K的策略不同，我们提出设置一个足够大的K，然后鼓励相似的中心点合并在一起。这可以保持生成的中心点的多样性，同时减少唯一中心点的数量。对于每个中心点 w t j，我们可以生成一个矩阵，如下所示：0M t j = [ w 1 j − w t j , ∙ ∙ ∙ , w K j − w t j ] �64550如果 w s j 和 w t j 相似，它们可以合并为相同的一个，使得∥ w s j − w t j ∥ 2 = 0，这是矩阵 M t j 中第 s 行的 L 2范数。因此，我们规范化矩阵 M t j 中行的 L 2范数，以获得一组稀疏的中心点，可以表示为 L 2,1 范数。0∥Mtj∥2,1 =0K0s∥wsj−wtj∥20通过累积多个中心的L2,1范数，我们可以得到第j类的正则化项0R(w1j, ..., wKj) =0K0t∥Mtj∥2,10由于w的长度为1，正则化项简化为0R(w1j, ..., wKj) =0K0t=10K0s=t+10∑02 − 2ws�jwtj(9)0加上正则化项后，我们的最终目标变为0min 10N0∑0iℓ SoftTriple(xi) + τ∑CjR(w1j, ..., wKj)0CK(K−1)(10)0其中N是总示例数。04. 实验0我们在三个基准细粒度视觉分类数据集CUB-2011、Cars196和SOP上进行实验。我们遵循其他研究中的设置[3,14]进行公平比较。具体来说，我们采用Inception[25]和批归一化[5]作为骨干架构。骨干的参数是在ImageNetILSVRC2012数据集[20]上训练的模型进行初始化，然后在目标数据集上进行微调。图像被裁剪为224×224作为网络的输入。训练过程中，只使用随机水平翻转和随机裁剪作为数据增强。测试时采用单个中心裁剪。模型使用批量大小为32和50个时期进行Adam优化。骨干和中心的初始学习率分别设置为1e-4和1e-2。然后，在第{20,40}个时期将它们除以10。考虑到CUB-2011和Cars196中的图像与ImageNet中的图像相似，我们在这两个数据集上冻结批归一化，并在其余一个数据集上进行批归一化训练。实验中，示例和中心的嵌入具有单位长度。我们将提出的三元组损失与归一化的SoftMax损失进行比较。方程3中的SoftMax损失被表示为SoftMaxnorm。我们将方程10中的目标称为SoftTriple。我们设置τ=0.2和γ=0.1用于SoftTriple。此外，0我们将小间距δ=0.01设置为明确打破并列的情况。中心的数量设置为K=10。我们评估不同方法学习到的嵌入在检索和聚类任务上的性能。对于检索任务，我们使用Recall@k指标，与[24]中的指标相同。聚类的质量通过归一化互信息(NMI)[13]来衡量。给定聚类分配C={c1, ..., cn}和真实标签Ω={y1, ..., yn}，NMI计算为NMI=2I(Ω; C)0其中，I(∙,∙)表示互信息，H(∙)表示熵。04.1. CUB-20110首先，我们在一个细粒度鸟类数据集CUB-2011[26]上比较这些方法。该数据集包含200个鸟类物种和11,788张图像。按照常规做法，我们将数据集分为前100个类用于训练，其余类用于测试。我们注意到不同的研究报告中嵌入维度不同，而嵌入的大小对性能有显著影响。为了公平比较，我们报告了64维嵌入的结果，这是许多现有方法采用的维度，以及512维特征嵌入的结果，该结果在大多数数据集上报告了最先进的结果。表1总结了64维嵌入的结果。请注意，Npairs�应用了多尺度测试，而其他所有方法都采用了单尺度测试。对于SemiHard[21]，我们报告了[23]中记录的结果。首先，令人惊讶的是，SoftMaxnorm的性能超过了现有的度量学习方法。这可能是因为SoftMax损失将示例之间的关系优化为平滑的三元组损失，这在命题1中进行了分析。其次，SoftTriple在所有基准方法中表现最好。与ProxyNCA相比，SoftTriple在R@1上的性能提高了10%。此外，它比SoftMaxnorm好2%。这验证了SoftMax损失不能捕捉到每个类别的单一中心的真实世界数据集的复杂几何结构。当增加中心的数量时，SoftTriple可以更好地描述数据的内在结构。最后，SoftMax和SoftTriple都表现出比现有方法更优越的性能。这表明可以在没有采样阶段的情况下学习到有意义的嵌入。表2将SoftTriple与512维嵌入的方法进行了比较。HDC[32]采用384维。Margin[12]采用128维嵌入，并使用ResNet50[4]作为骨干网络。HTL[3]将嵌入的维度设置为512，并在Inception的骨干网络上报告了最先进的结果。通过大量的嵌入数量，很明显所有方法都优于具有64维嵌入的现有DML方法。SoftMaxnorm57.870.080.187.965.3SoftTriple60.171.981.288.566.2SoftMaxnorm64.275.684.390.268.3SoftTriple65.476.484.590.469.364560图3.在CUB-2011上每个类别中唯一中心数量的比较。初始中心数量设置为20。0表1.在CUB-2011上的比较。所有方法的嵌入维度为64。方法 R@1R@2 R@4 R@8 NMI0SemiHard [21] 42.6 55.0 66.4 77.2 55.4 LiftedStruct [24]43.6 56.6 68.6 79.6 56.5 Clustering [23] 48.2 61.4 71.881.9 59.2 Npairs � [22] 51.0 63.3 74.3 83.2 60.4ProxyNCA [14] 49.2 61.9 67.9 72.4 59.50如表1所示。这是预期的，因为高维空间可以更好地分离示例，这与其他工作的观察结果一致[24]。与其他方法相比，SoftTriple的R@1比具有相同骨干的HTL提高了8%以上。它还比应用比Inception更强的骨干的Margin提高了约2%的R@1。这表明SoftTriple损失适用于大型嵌入。0表2.在CUB-2011上的比较。'-'表示结果不可用。方法 R@1 R@2R@4 R@8 NMI0HDC [32] 53.6 65.7 77.0 85.6 - Margin [12] 63.6 74.483.1 90.0 69.0 HTL [3] 57.1 68.8 78.7 86.5 -0为了验证所提出的正则化器的效果，我们比较了每个类别的唯一中心数量，如图3所示。我们将中心的数量设置为K =20，以使结果明确，并在Eqn.9中运行带有和不带有正则化器的SoftTriple。图3说明没有正则化器的情况下将保持一组相似的中心。相反，带有正则化器的SoftTriple可以显著缩小中心的大小，并使优化有效。此外，我们在图4中展示了SoftTriple的R@1随中心数量变化的情况。红线表示带有正则化器的SoftTriple损失，而蓝色虚线表示没有正则化器。我们发现，当将中心数量从1增加到10时，SoftTriple的性能显著提高，这证实了0通过利用多个中心，学习到的嵌入可以更好地捕捉数据分布。如果添加更多的中心，SoftTriple的性能几乎保持不变，并且表明正则化器可以帮助学习紧凑的中心集，并且不会受到初始中心数量的影响。相反，没有正则化器，蓝色虚线说明当中心的数量过多时，性能会因过拟合而降低。0图4.展示了具有不同中心数量的SoftTriple以及正则化器的影响。红线表示所提出的正则化器，当它足够大时，性能对初始中心数量K稳定。0最后，我们在图5中展示了检索图像的示例。第一列表示查询图像。第2-4列显示根据SoftMaxnorm学习的嵌入检索到的最相似的图像。最后四列是使用SoftTriple嵌入返回的相似图像。显然，SoftMaxnorm的嵌入可以获得有意义的邻居，而目标是用于分类。此外，SoftTriple改善了性能，并且可以消除在SoftMaxnorm中在检索图像的顶部中来自不同类别的图像，这些图像用红色边界框突出显示。04.2. Cars1960然后，我们在Cars196数据集[6]上进行实验，该数据集包含196种汽车模型和16,185张图像。我们使用前98个类进行训练，其余类进行测试。表3总结了使用64个嵌入的性能。观察结果与CUB-2011类似。SemiHard [21]51.563.873.582.453.4LiftedStruct [24]53.065.776.084.356.9Clustering [23]58.170.680.387.859.0Npairs∗ [22]71.179.786.591.664.0ProxyNCA [14]73.282.486.488.764.9SoftMaxnorm76.885.691.395.266.7SoftTriple78.686.691.895.467.0HDC [32]73.783.289.593.8-Margin [12]79.686.591.995.169.1HTL [3]81.488.092.795.7-SoftMaxnorm83.289.594.096.669.7SoftTriple84.590.794.596.970.1SemiHard [21]66.782.491.989.5LiftedStruct [24]62.580.891.988.7Clustering [23]67.083.793.289.5ProxyNCA [14]73.7--90.6SoftMaxnorm75.988.895.291.5SoftTriple76.389.195.391.7Npairs∗ [22]67.783.893.088.1HDC [32]69.584.492.8-Margin [12]72.786.293.890.7HTL [3]74.888.394.8-SoftMaxnorm78.090.296.091.9SoftTriple78.390.395.992.064570查询 SoftMax norm SoftTriple0图5. 使用从SoftMaxnorm和SoftTriple学到的嵌入检索到的最相似图像示例。与查询图像不同的类别的图像用红色边框突出显示。0SoftMaxnorm在R@1上表现出卓越的性能，比ProxyNCA提高了3%。此外，SoftTriple可以进一步提高约2%的性能，这证明了所提出的损失函数的有效性。0表3. 在Cars196上的比较。维度为64。方法 R@1 R@2R@4 R@8 NMI0在表4中，我们展示了使用大型嵌入的比较结果。比较中所有方法的嵌入数量与在CUB-2011上的实验中描述的相同。在这个数据集上，HTL[3]报告了最先进的结果，而SoftTriple超越了它，并将R@1提高了3%。0表4. 在Cars196上进行比较，使用大型嵌入。方法 R@1R@2 R@4 R@8 NMI04.3. 斯坦福在线产品0标准分割，其中11,318个类别用于训练，其余用于测试。注意每个类别大约有5个图像，因此我们设置K =2用于该数据集，并且丢弃了正则化器。我们还将中心的初始学习率从0.01增加到0.1。我们首先在表5中报告了使用64个嵌入的结果。在这个比较中，SoftMaxnorm在R@1上比ProxyNCA好2%。通过将中心的数量从1增加到2，我们观察到SoftTriple在R@1上又获得了0.4%的提升。这证实了多个中心有助于更好地捕捉数据结构。表6给出了使用大型嵌入的性能。我们可以得出与表5类似的结论。SoftMaxnorm和SoftTriple都优于最先进的方法。SoftTriple在R@1上的改进超过3%。这证明了学习嵌入而不进行三元组约束采样的优势。0表5. 在SOP上的比较。维度为64。方法 R@1 R@10R@100 NMI0表6. 在SOP上使用大型嵌入的比较。方法 R@1 R@10R@100 NMI05. 结论0从一个小批量数据中采样三元组可能会降低深度度量学习的性能，因为它在整个数据集上的覆盖率较差。为了解决这个问题，我们提出了新颖的SoftTriple损失来学习不进行采样的嵌入。通过用多个中心表示每个类别，可以使用原始示例和类别之间的相似性定义的三元组来优化损失。由于中心被编码在最后的全连接层中，我们可以使用标准的SGD训练流程来学习嵌入并消除采样阶段。SoftTriple在细粒度基准数据集上的一致改进证实了所提出的损失函数的有效性。由于SoftMax损失在分类中广泛应用，SoftTriple损失也可以适用于分类。在分类任务上评估SoftTriple可以成为我们未来的工作。64580参考文献0[1] Stephen Boyd and Lieven Vandenberghe.凸优化。剑桥大学出版社，

下载后可阅读完整内容，剩余1页未读，立即下载