连续标签下的深度度量学习方法及其在图像检索任务中的优越性能

23 浏览量更新于2023-10-19 收藏 3.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1超越二进制监督的Sungyeon Kim<$Minkyo Seo<$Ivan Laptev<$Minsu Cho<$SuhaKwak<$POSTECH，Pohang，Korea<$Inria/E'coleNormaleSupe' riyang，Paris，France{tjddus9597，mkseo，mscho，suha.kwak}@ postech.ac.kr，ivan. inria.fr摘要视觉相似性的度量学习大多采用二进制监督，指示一对图像是否属于同一类。这样的二进制指示符仅覆盖受此启发，我们提出了一种使用连续标签进行深度度量学习的新方法首先，我们提出了一个新的三重损失，允许标签空间中的距离比保留在学习度量空间中。因此，提出的损失使我们的模型能够学习相似度，而不仅仅是顺序。此外，我们设计了一个三元组挖掘策略，适用于连续标签的度量学习。我们AD-Dress三个不同的图像检索任务与连续的标签，在人体姿势，房间布局和图像标题，并证明我们的方法相比，以前的方法的优越性能。1. 介绍相似感被认为是人类推理的最基本组成部分[36]。同样，理解图像之间的相似性在计算机视觉的许多领域中发挥了重要作用，包括图像检索[19，43，44，50]，面部识别[12，39，46]，位置识别[4]，姿势估计[45]，人重新识别[10，40]，视频对象跟踪[42，47]，局部特征描述符学习[25，58]，零拍摄学习[7，57]和自监督表示学习[52]。此外，相似性的感知已经通过从标记的图像中学习相似性度量来实现，这被称为度量学习。最近的度量学习方法通过采用深度卷积神经网络（CNN）作为其嵌入函数，大大提高了性能。具体地说，这种方法训练CNN将图像投影到流形上，其中两个示例彼此接近，如果它们在语义上相似并且彼此远离。图1.比较现有方法[4，16，27，32，45]和我们的方法的概念图。每个图像都由人类姿势标记，如果其姿势与锚点的相似性很高，则用红色着色(a)现有的方法将邻居分类为正类和负类，并学习一个度量空间，其中正图像靠近锚点，负图像远离锚点。在这样的空间中，一对图像之间的距离不一定与它们的语义相似性相关，因为它们之间的相似性的顺序和程度被忽略。(b)我们的方法允许标签空间中的距离比保留在学习的度量空间中，以克服上述限制。睿的虽然原则上可以使用任何类型的语义相似性标签来学习这样的度量，但先前的方法通常依赖于图像对上的二进制标签，指示图像对是否相似。在这方面，只有一个小的子集的真实世界的图像关系已经解决了以前的方法。事实上，二进制相似性标签不足以表示具有结构化和连续标签的图像之间的复杂关系，例如图像标题[30，35，56]，人体姿势[3，21]，相机姿势[5，13]和场景图[24，31]。符合-22882289在[4，16，27，32，45]中已经解决了具有连续标签的ric学习。然而，这样的方法通过将连续相似性量化为二进制标签（即，相似或不相似）并应用现有的度量学习技术。因此，它们不能充分利用如图1（a）所示的具有连续标签的图像中丰富的相似性信息，并且需要仔细调整用于量化的参数。在本文中，我们提出了一种新的深度度量学习方法我们首先设计了一个新的三重损失函数，充分利用连续标签在度量学习中的优势。与现有的三重损失[39，53，54]不同，它们只对类标签的相等性或标签距离的顺序感兴趣，我们的损失旨在保留学习的嵌入空间中的标签距离的比率。这使得我们的模型能够考虑相似度及其顺序，并捕获图像之间更丰富的相似性信息，如图1（b）所示。目前的方法通过采样一个正（相似）和一个负（不相似）示例来构造三元组以获得二元监督。在这里，我们提出了一个新的三重采样策略。给定一个由锚点及其邻居组成的minibatch与传统的方法不同，我们的方法不需要引入量化参数来将邻居分类到两个类中，并且可以在相同的小批量下利用更多的三元组。我们的方法可以应用于各种问题的连续和结构化的标签。我们证明了三个不同的图像检索任务，分别使用人体姿势，房间布局和图像标题，作为连续和结构化的标签，所提出的方法的有效性。在所有任务中，我们的方法都优于最先进的方法，我们的新损失和三重挖掘策略都有助于提高性能此外，我们发现，我们的方法学习一个更好的度量空间，即使有一个显着较低的嵌入维数相比，以前的。最后，我们证明了通过我们的方法训练的CNN与标题相似性可以作为图像字幕的有效视觉特征，并且它在任务中优于ImageNet预训练的2. 相关工作在本节中，我们首先回顾用于深度度量学习的损失函数和元组挖掘技术，然后讨论之前关于连续标签度量学习的工作。2.1. 深度度量学习的损失函数对比损失[6，12，17]和三重损失[39，50，54]是深度度量学习的标准损失函数。给定一个图像对，对比度损失使它们的距离如果它们的类相同，则在嵌入空间中，否则将它们分隔开一个固定的边距。三重丢失采用锚、正和负图像的三重，并且强制锚和正之间的距离小于锚和负之间的距离他们的扩展之一是四重损失[10，42]，它考虑了四重图像之间的关系，并被公式化为两个三重损失的组合。推广上述损失的一种自然方法是使用高阶关系。例如，n-tuplet loss [41]将其作为其输入一个锚点、一个正图像和n-2个负图像，并联合优化它们的嵌入向量。同样，结构化损失[44]通过在其自身内结合硬负挖掘功能，一次考虑小批量中的所有正和负出于同样的目的，在[48]中，正对和负对的相似性分布之间的交叉区域被最小化，并且在[28，43]中，聚类目标被用于度量学习。所有上述损失都利用图像级类别标签或其等效物作为监督。因此，与我们的不同，他们并不直接考虑图像的连续和/或结构化标签之间的关系。2.2. 训练元组的挖掘技术由于在训练中使用了k个图像的元组，因此可能的元组的数量随着k呈指数增长。挖掘技术的动机是，如此大量的元组中的一些对训练没有贡献，甚至可能导致性能下降。一个代表性的例子是半硬三元组挖掘[39]，它只利用半硬三元组进行训练，因为简单的三元组不会更新网络，而最硬的三元组可能由于标记错误而被如何测量硬度也很重要。一个常见的策略[39，44]是在嵌入空间中利用成对的欧几里得距离，例如。，具有小欧几里得距离的负对被认为是困难的。在[19，20，55]中，考虑了嵌入向量的底层流形，这在欧几里得距离中被忽略，以提高挖掘技术的有效性。此外，在[57]中，一组具有不同复杂性的嵌入模型捕获了多个硬度水平。虽然上述技术大大提高了学习的嵌入空间的质量，但它们通常基于图像对之间的二进制关系，因此它们不直接适用于具有连续标签的度量学习。2.3. 使用连续标签的度量学习已经有几种使用具有连续标签的数据的度量学习方法。例如，人类姿势注释之间的相似性已被用于学习嵌入CNN的图像 [27，32，45]。这种姿态感知的CNN然后有效地提取给定图像的姿态信息2290一J锚邻居锚邻居(a) （b）最近邻搜索图2.二进制量化策略及其局限性。橙色圆圈表示与大多数其他示例不同的罕见示例，橙色五边形是与大量样本相似的常见示例。(a)如果量化是由一个单一的距离阈值，人口的积极和消极的例子将显着不平衡。(b)在最近邻搜索的情况下，罕见示例的正邻居将是不相似的，而常见示例的负邻居将太相似。而没有明确的姿态估计，这可以转移到依赖于姿态理解的其他任务，如动作识别。此外，在[16]中，图像对之间的标题相似性被用作度量学习的标签，并且学习的嵌入空间能够基于对图像内容的更全面理解进行图像检索。已用于满足的连续标签的其他示例3.1. 常规三重态损耗三元组丢失将锚、正图像和负图像的三元组作为输入。它的设计是为了惩罚违反秩约束的三元组，即在嵌入空间中锚点与正点之间的距离必须小于锚点与负点之间的距离损失公式为：ric学习包括用于地点识别的GPS数据[4]，用于相机重新定位的相机截头体[5]。然而，上述方法很难充分利用广告，n（a，p，n）=Σ ΣD（fa，fp）−D（fa，fn）+δ+、（1）连续标签的优点，因为它们都使用基于二元关系的传统度量学习损失。由于它们的损失函数，它们通过距离阈值[4，32，45]或最近邻搜索[16，27]将连续不幸的是，这两种策略对于连续的度量学习来说都是不自然的，并且具有明显的局限性，如图2所示。此外，要找到它们的适当值并不简单其中f表示嵌入向量r，D（·）表示平方欧几里德距离，δ是一个向量，[·]+表示铰链函数。注意，嵌入向量应该因为，如果没有这样的归一化，它们的幅度趋于发散，并且余量变得微不足道。对于训练，通过下式计算相对于嵌入向量n=（a，p，n）.Σ因为没有明确的边界，所以量化参数是正例和负例之间的距离，P.P.=2（fp−fa）·tri（a，p，n）>0，（2）锚是连续的。据我们所知，我们的工作是第一次尝试直接使用连续标签n（a，p，n）=2（ffna-fn.）·Σn（a，p，n）>0，（三）用于度量学习。n=（a，p，n）a=−tri（a，p，n）P.P.-n-tri（a，p，n）fn、（四）3. 我们的框架为了解决上述现有方法的局限性，我们提出了一种新的三重损失称为对数比损失。我们的损失直接利用连续的相似性而不量化。此外，它还考虑了相似度及其等级，以便所得到的模型可以推断出连续标签之间的复杂相似关系。此外，我们提出了一个新的，简单而有效的三元组挖掘策略，支持我们的对数比损失，因为不能使用第2.2节中现有的挖掘技术其中，f是指示函数。可以注意到，梯度仅考虑嵌入向量与秩约束违反指示符之间的方向。如果满足秩约束，则所有梯度都为零。3.2. 对数比损失给定一个带有样本的三元组，我们提出了一个对数比损失，其目的是通过学习的嵌入空间中的距离比来近似标签距离的比率。具体来说，我们将损失函数定义为和我们的损失。在以下章节中，我们简要回顾了传统的三重态损失[39]，以进行清晰的比较，然后介绍lr（a，i，j）=.D（fa，fi）logD（f，f）−logD（y，y）2ai，（5）D（ya，yj）2291我们的对数比损失和新的三重开采技术的细节其中f表示嵌入向量，y是连续标记，并且D（·）表示平方欧几里德距离。还有，2292LRLRLR（a，i，j）是锚点a及其两个邻居i和j的三元组，没有正负分离，不像等式中的p和n。（一）.通过近似标签距离之间的比率而不是距离本身，所提出的损失能够更灵活地学习度量空间，而不管标签的规模对数比损失的主要优点是它允许学习的度量空间反映标签相似性的程度理想情况下，学习的度量空间中两个图像之间的距离将与它们在标签空间中的距离成因此，用我们的损失训练的嵌入网络可以比那些只关注相似性等级（如三重损失）的网络更彻底地表示图像之间的连续对数比损失的这种性质也可以通过其梯度来解释，其梯度由下式给出：lr（a，i，j）=（fi−fa）·fi D（fa，fi）lrlr（a，i，j）（fa−fj） ′首先，我们构建一个训练样本的小批量B，其中包含一个锚点，锚点的k个最近邻居（根据标签距离），以及从其余邻居中随机抽取的其他邻居请注意，包括最近的邻居有助于加快训练.由于锚点与其最近邻之间的标记距离相对较小，因此通常具有最近邻样本的三重峰诱导Eq.（9），这可能会因此增加相关Gra的大小。给定一个minibatch，我们的目标是利用共享锚点的所有三元组，以便我们的嵌入网络可以在训练期间观察到最多的三元组为此，我们通过选择minibatch中的每对邻居（i，j）并将它们与锚点a组合来对三元组进行采样。此外，由于（a，i，j）和（a，j，i）没有差别，在我们的损失中，我们只选择（a，i，j）而忽略（a，j，i）当D（ya，yi）

下载后可阅读完整内容，剩余1页未读，立即下载