学习多个相似性条件的无监督方法

168 浏览量更新于2023-10-16 收藏 1.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10373（底部-顶部子空间）（鞋底子空间）底部顶部（颜色模式兼容性子空间）（类别子空间）SCE-Net学习相似性条件，无需明确监督波士顿大学rxtan@bu.edu玛丽亚岛伊利诺伊大学香槟分校mvasile2@illinois.edu波士顿大学saenko@bu.edu布莱恩A. 波士顿大学bplum@bu.edu摘要许多现实世界的任务需要模型沿着多个相似性条件（例如，颜色、类别或形状的相似性）。现有的方法通常通过学习条件感知嵌入来处理这些复杂的相似关系。虽然这种嵌入有助于模型学习不同的相似性概念，但它们也限制了它们推广到不可见类别的能力，因为它们在测试时需要显式标签为了解决这一缺陷，我们提出了一种方法，联合学习不同的相似性条件及其贡献的代表作为一个潜在的变量，没有明确的监督。在三个数据集上进行的综合实验1，Polyvore-Outfits，Maryland-Polyvore和UT-Zappos 50 k，证明了我们方法的有效性：我们的模型优于最先进的方法，即使是那些先前工作我们的方法标签用预定义的相似性条件，在填空、服装相容性预测和三重预测任务上进行强有力的监督。最后，我们证明了我们的模型可以学习不同的视觉相关的语义子空间，使其能够很好地推广到看不见的类别。1. 介绍关于不同模态的图像或数据之间的相似性的推理是计算机视觉中的固有挑战。除了在图像-句子检索[41，38]，跨域图像匹配[32，16]，归因学习[4，33]和视觉分类[29]等基本问题中的流行之外，它还在时尚和零售领域的计算机视觉问题中发挥着越来越重要的作用，如服装风格建模[14]，时尚物品检索和推荐[10]，22]和自动盖衣柜生成[15]。度量学习（基于监督的相似/不相似对学习特征之间的距离函数的任务）是一种常用方法1https://github.com/rxtan2/学习相似性条件图1：我们提出了SCE-Net学习模型图像之间的多方面相似性，例如两个时尚物品的对比。以前的工作需要用户定义的标签来学习多个特征子空间，以测量相似性的不同方面，例如，一个用于比较上衣和下装而另一个用于比较下装和鞋子（例如，[36，27，35]）。相比之下，我们的方法以数据驱动的方式学习没有此类标签的重要子空间。这些概念及其对最终相似性得分的贡献作为单个端到端训练模型一起学习用于解决上述问题，并且通常通过学习统一的嵌入空间中的对象的表示来解决，其中距离提供了它们相似性的度量。然而，这并不能自然地代表现实世界。对象通常可以用多种视觉属性来考虑这样一个例子，一件红色衬衫在颜色上类似于一双红色鞋子，但在对象类别上不同。单个嵌入空间无法学习这些相互矛盾的相似性概念的表示通过对这些有价值的信息进行贴现，这些嵌入无法10374图像卷积神经网络条件权重分支结果语义子空间颜色和图案......图2：相似性条件嵌入网络（SCE-Net）概述，该网络作为单个模型进行端到端训练图像首先被传递到卷积神经网络（CNN）中，以在一般嵌入空间中提取它们的特征，表示为V1和V2。为了确定哪个语义子空间与它们的比较相关，两个视觉特征都被传递到条件权重分支，这是一个简单的神经网络。权重分支的输出是维度M的特征向量，由W1，···，WM表示。它执行相似性条件掩码的动态分配表示为C1，···，CM的图像对。每个相似性条件掩码Ci具有与视觉相似性条件掩码Ci相同的维度D。特征，并通过逐元素乘积作为掩模应用。掩码嵌入乘以权重向量以产生最终表示E1和E2。这些最终的表示诱导一个相关的语义子空间，在该子空间内比较两个图像之间的相似性我们注意到，图中所示的“颜色和图案”的子空间提供了由子空间编码的相似性的可能概念的示例，但我们实际上并不限制模型学习从V2到E2的箭头被删除，以防止图形过于拥挤。全面地推理对象之间的相对相似性。最近的趋势是训练以某个给定的相似轴为条件的嵌入模型，例如对象类别（例如， [36 ， 27 ， 35]），以学习解开表示（即，在图1的顶部示出）。这有助于简化复杂的相似性关系，通过允许模型一次只关注然而，依赖于这样的标签，这些方法不能推广到看不见的类别和属性，这是嵌入模型的主要优点之一。因此，我们试图通过用户定义的标签在没有明确监督的情况下联合学习多个相似性概念。在本文中，我们的目标是学习如何分离数据，其中不同的相似性条件及其贡献被视为一个潜在变量，并以弱监督的方式学习。为了获得更丰富的视觉相似性表示，我们提出了一个相似性条件嵌入网络（SCE-Net）模型，从一个统一的嵌入空间联合学习多个相似性条件。图2提供了我们的模型的说明性概述。首先，使用卷积神经网络将图像投影到统一的嵌入空间中。核心COM-我们的模型的一个组成部分是一组并行的相似性条件掩码，在图2中表示为C1，...，CM。这些口罩应用于一般嵌入空间中的图像特征。通过重新加权与特定相似性概念相关的维度，鼓励每个相似性条件掩码学习编码不同语义子空间的表示每个条件掩码与对象的相关性由以它们在统一嵌入空间中的视觉表示为条件的权重分支来确定条件权重分支可以被认为是一种注意力机制[42]，它将每个条件掩码动态分配给被比较的对象我们的工作是由Veit等人的条件相似网络（CSN）的动机。[36]第30段。CSN模型预先定义了相似性条件来监督解纠缠表示的学习。我们的模型试图在没有明确监督的情况下通过这种预定义的条件来学习这种表示。Plummer等人[27]发现，考虑到训练过程中项目之间的Vasileva等人[35]调整CSN模型以学习类型感知嵌入，从而为服装兼容性建模。这些方法的另一个缺点是它们在每个期望的相似性条件的条件数量上表现出线性（[36，27]）或二次[35]相比之下，我们发现，我们往往可以实现更好的每-SOFTMAXFCReLUFC10375具有少得多的学习子空间（例如，Vasileva等人学习66个条件子空间用于Polyvore Outfits上的时尚计算任务，而我们用5个学习的子空间获得更好的性能）。我们的论文的贡献总结如下：• 我们提出了相似性条件嵌入网络（SCE-Net），它从图像中学习不同相似性概念的更丰富的表示，明确的类别或属性监督。• 我们证明了SCE-Net可以很好地推广到零射击任务中的新类别和属性。• 最重要的是，我们证明了动态加权机制在帮助弱监督模型学习不同表示方面是不可或缺的。相似性的概念我们在三个数据集上进行了广泛的实验，Polyvore-Outfits [35]，Maryland-Polyvore [12]和UT-Zappos 50 K[43]，其中我们的方法分别在服装兼容性预测，填空服装完成和三重预测任务方面优于最先进的技术，而不需要在测试时在先前工作中使用的强有力的监督（通过类别或属性标签）。2. 相关工作度量学习。大量的先前工作[40，5，11]集中在测量单个相似性上下文中图像之间的相似性为了实现这一点，通常将图像投影到一般嵌入空间中，其中对象之间的相应距离提供它们的相对相似性的度量。这种方法的一个显著缺点是它没有考虑不同类型的视觉特征。响应于此，最近出现了跨多个相似性轴比较图像的趋势如在引言中所讨论的，几篇论文已经提出了尝试学习解纠缠表示的方法，这些解纠缠表示通过预定义的相似性条件的监督来捕获相似性的不同概念[36，28，35]。然而，由于这些方法被训练成仅沿着已知的相似性轴比较项目，因此它们不能在测试时在新类别我们的想法overcoming- ING这个限制，通过使用相似性条件的权重分支是类似的短语本地化的方法utilized由Plummer等人。[28]第10段。然而，他们的工作主要集中在测量图像区域和文本之间的相似性，并且它们的条件也由文本去重来监督学习距离度量也引起了计算机视觉社区的极大兴趣。Hsieh等人[14]利用具有隐式反馈的协同过滤来学习对用户-用户和用户-项目相似性进行编码的联合度量，而Sohn等人.[34]引入多类N对损失目标来改进深度度量学习。视觉属性。视觉属性（例如颜色和图案）需要大量的信息，并且已经被证明是人类和人工智能体之间的有效通信模式[7，2]。例如，Batraet al.[2]试图通过使用视觉属性作为其主要的通信模式来提高代理的性能。At-tribute也被用于解决图像搜索和分类[19，18]和场景理解[31，25，20]等任务。然而，研究人员经常面临的一个主要限制是监督的稀疏性（即，缺少示例图像和/或标签）。为了解决这个问题，Yuet al. [44]在合成图像上训练属性排序模型，以确定每个属性的相关性，用于一对图像的比较。其他人专注于自动发现图像中属性的方法[3，30，39，9]。例如，Ferrariet al. [9]介绍了一种视觉属性的概率生成模型以及从图像中学习其参数的方法。推荐和检索。相似性学习还被广泛用于解决其他领域中的计算机视觉问题，例如时尚和零售（例如，[12，35，37]）。使用视觉属性是一种自然的直觉，描述时尚物品的最佳方式（例如，颜色、剪裁和款式）。因此，识别时尚产品视觉表现中的相关属性如上所述，通过将图像投影到一般嵌入空间中来比较图像的不足在对时尚服装兼容性建模的现有工作中尤其明显[21，12，35，37]。在他们的方法中，Veitet al.[37]不通过项目的类型来区分项目，而是尝试从用户数据中项目的异质二元同现中学习兼容性和相似性这些视觉属性也构成了许多交互式时尚搜索引擎和推荐系统的基础[45，1，15，27]。3. 相似条件嵌入网络在本节中，我们将描述SCE-Net，我们的模型通过将它们及其贡献视为潜在变量来联合学习数据集中可能存在这允许我们以弱监督的方式训练端到端模型，我们只知道一对图像在某些未知条件下是否相似。首先，图像通过CNN投影到一个公共特征空间中，我们称之为通用嵌入空间。我们将此操作-其中x和θ分别表示图像和参数的集合。我们的网络由两个components -一组并行相似性条件掩码，我们将在3.1节中讨论，以及一个条件权重分支，我们将在3.2节中讨论。我们在第3.3节中讨论了条件权重分支的变量以及不同模态的输入103763.1. 学习相似性条件我们模型的一个核心组成部分是一组Mparal-维度D的lel相似性条件掩码，在图2中表示为C1，...，CM。M的值是用实验数据确定的相似条件通过元素级乘积将掩码应用于一般嵌入空间中的图像特征，并且在训练期间学习它们对相似性关系的影响。通过对相关维数的重新加权，相似性条件模板将图像特征投影到RD的二级语义子空间中，这些子空间编码不同的相似性被定义为具有在所有可能的相似性条件的集合下的所有对象之间的相似性的真实测量的一般实体。通常，Oracle采用众包数据集的形式，这些数据集使用人类标签进行注释。最终的三重态损失如下：ltriplet（xi，xj，xk）=max{0，d（Ei，Ej）−d（Ei，Ek）+μ}，（四）其中d（Ei，Ej）表示对象xi和xj的表示之间的欧几里得距离，并且边缘μ是超参数。三重态损失要求d（Ei，Ej）比d（E，E）小一个边际μ，其中最终im-I k子结构对于每个相似性条件掩码Cj和对于一般图像特征Vi，如下执行掩蔽操作：Eij=Cj<$Vi，（1）其中， Eij是掩码嵌入，并且Eij表示Hadamard乘积。对所有相似性条件掩码和图像特征vi的掩码操作的输出是维度M×D的矩阵。令O表示掩码操作的输出，其中O=[Ei1，···，EiM]。然后，图像特征的最终表示被计算为矩阵-向量乘法运算：Ei=wOT，（2）其中w是由下面描述的条件权重分支计算的维度M3.2. 条件权重分支我们没有预先定义一组相似性条件，而是条件权重分支基于被比较的对象对来确定每个条件掩码的相关性。对于一对图像xi和xj，条件权重分支的输入特征计算如下：y=concat{Vi，Vj}，（3）which concat{. }表示连接操作。如图2所示，在连接这些图像特征它们被馈送到一系列全连接和ReLU层中。softmax被用于最终激活，从而产生维度M的向量w，其被用于确定每个相似性条件掩码与被比较的对象的相关三元组丢失是学习具有复杂相似性关系的表示的自然直观的方式。我们定义一个三元组的对象作为一个集合{xi，xj，xk}，其中xi是引用。ence对象和xj和xk是正对象和负对象它们分别在某个未观察到的条件C下被预言机确定为语义上与xi在这项工作的背景下，一个神谕如上所述计算年龄表示E如Veitet al. [36]，我们对相似性条件掩码施加L1此外，我们用l2惩罚正则化学习的图像表示g（x;θ）因此，我们模型的最终目标函数由下式给出：lfinal=ltriplet（x）+λ1l1++λ2l2，（5）其中λ1和λ2是标量超参数。3.3. SCE网的多峰变体除了在我们的网络中使用的条件权重分支的视觉版本之外，我们还尝试了利用多模态特征的变体，这些特征可以在我们希望学习的不同条件之间提供一些语义关系。这些变体是：文本特征。我们使用“文本”这个词句子被标记化并且每个标记使用预先训练的单词嵌入（例如，[26，24]）。对于对应于图像对（xi，xj）的一对文本特征（Ti，Tj），条件权重分支的输入特征根据下式计算：对于上述配方：y= concat{Ti，Tj}。（六）视觉文本特征。对于一对图像特征（Vi，Vj）和它们的文本特征（Ti，Tj），条件权重分支确定每个条件的相关性基于输入功能：的y=concat{（Vi<$Ti），（Vj<$Tj）}。（七）我们注意到，有不同的方法来组合视觉和文本特征，例如将两种模态连接和投影到同一嵌入空间中，但在我们的实验中，元素级产品表现最好。4. 实验分析我们评估了SCE-Net模型捕捉不同相似性概念的能力，以及它在10377将其推广到在训练过程中看不到的新图像类别。为了将我们的方法与其他基线模型进行公平比较，我们对Maryland-Polyvore [12]、Polyvore-Outfits[35]和UT-Zappos 50 k [43]数据集。Maryland Polyvore和Polyvore Outfits数据集包含两个评估任务-服装兼容性预测和填空（FITB）。对于服装相容性预测，任务是评估服装中一组时尚物品的相容性。如Hanet al. [12]用受试者工作特征曲线下面积（AUC）评价该任务的性能。在FITB实验中，给定一组候选物品和一套服装中的一个子集，任务是选择最兼容的候选物品。该模型的有效性进行评估的基础上的整体精度。尽管使用较大的最终嵌入已经显示出具有性能益处（例如，[12，35]），这在测试时带来更高的计算成本。我们比较具有相同最终嵌入大小的方法进行公平比较。我们还评估了我们的模型在UT-Zappos 50 k数据集上使用[36]我们注意到，表1和表5所示的监督级别是指我们和基准模型在测试期间所需的监督量（即：e.模型明确地知道在哪个相似性轴上比较对象）。4.1. 数据集[12]第十二话该数据集收集了来自社交电商网站Polyvore的21,799套服装。我们使用作者提供的服装分割，其中训练集中有17，316套服装，测试集中有3，076套，验证集中有1，407套。在作者提供的测试集中，相容性预测和基于鞋的类型、鞋的性别、鞋跟的高度和鞋的闭合机构这四个相似条件Veit等人为每个特征生成200k训练、20k验证和40k测试三元组。在训练SCE-Net时，我们将每个特征的所有三元组组合成一个训练集。4.2. 实现细节马里兰州Polyvore和Polyvore服装。为了公平比较，我们采用Vasileva等人详细描述的实现。[35]第35段。我们使用18层深度残差网络[13]作为共享特征提取器，该特征提取器已在ImageNet [8]上进行了预训练，并在此任务的训练期间进行了微调。统一嵌入空间中的特征具有64维的嵌入大小。为了表示文本描述，我们还使用word2vec [24]的HGLMM Fisher向量[17]，其已被PCA减少到6000维。Vaslieva等人也利用了它们的一般嵌入空间上的附加正则化器（即，外-在第3节中讨论的g（x;θ）的放置），这有助于提高性能。其中包括：• VSE：视觉语义损失，要求图像xi嵌入得更靠近其描述ti，以与三元组内的其他两个图像相似。• Sim：鼓励相似图像彼此嵌入的损失（类似地，相似的文本也应该彼此嵌入）。对于我们在这两个数据集上的实验，我们将VSE和Sim损失包括在目标函数中。因此，我们的目标函数变为：FITB任务是随机抽样的，没有考虑对于项目兼容性或类别（即，他们可以取代l最终 =l三重态（x）+λ1l1+λ2l2+λ3IVSE+λ4 辛，戴着“太阳镜”的服装中的“顶部”）。因此，我们在Vasileva等人提供的更具挑战性的测试集上评估我们的模型。[35]，其中在对阴性样本进行采样时考虑项目类别。[35]第三十五话该数据集比Maryland Polyvore大得多，包含53，306套用于培训的服装，10，000套用于测试，5000套用于验证。也是来自Polyvore网站，但与Maryland Polyvore数据集不同，它包含细粒度项目类型的注释，并提供项目的文本描述。[43]第四十三话该数据集包含50，000张带有元数据标签的鞋子图像。我们使用Veit等人提供的三元组。[36]这是一种[2]最近，[6]提出了一个时尚兼容性模型，并在Maryland Polyvore数据集上进行了评估此外，他们使用更大的基础网络，ResNet-50（他们的）与ResNet-18（我们的）;我们省略了他们的结果，因为它们不能直接比较。（八）其中λ3和λ4是标量超参数。我们使用与Vasileva等人相同的设置。学习率和损失函数的超参数。UT-Zappos 50 k数据集。一个18层的ResNet也被用作我们在这个数据集上的基本图像编码器。由于数据集的三元组格式，我们修改了权重分支，使其以三元组中的所有三个图像为条件。给定一个三元组{xi，xj，xk}，条件权重分支的输入（在训练和测试时间）如下：y=concat{Vi，Vj，Vk}，（9）其中Vi、Vj和Vk分别是图像xi、xj和xk在第4.3.2节中，我们证明了在三重视觉表示上调节权重分支有助于我们的模型学习数据集中明确定义的不同相似性概念10378方法检测时间监督Polyvore服装马里兰多食动物Compat AUCFITB接入Compat AUCFITB接入[35]第三十五话没有一0.8152.90.8554.4类型感知嵌入网络[35]强0.8655.30.9059.9SCE-Net没有一0.9161.60.9060.8表1：在Maryland Polyvore和Polyvore Outfits数据集的测试集上，不同方法对服装兼容性预测和填空任务的比较。(a) 相容性AUC结果（b）FITB准确度结果图3：我们报告了我们的模型在Polyvore-Outfit测试集上的平均嵌入和随机嵌入为64和256 D的结果。X轴上的值表示SCE-Net中使用的相似性条件掩码的数量。在这两个图中，红线表示我们的SCE-Net模型获得的最佳结果。4.3. 结果4.3.1Polyvore Outfits和马里兰Polyvore表1报告了Maryland Polyvore和Polyvore Outfits数据集的兼容性预测和填空任务的性能在这两个数据集上，我们的模型在这两个任务中都比以前的工作得到了一致的改进。特别是，我们的方法在兼容性预测和FITB任务上的表现分别优于最先进的类型感知嵌入网络[35]5%和6.3%，表明它可以更好地捕获项目之间的兼容性关系，而无需在测试时比较每个项目的类型。此外，我们只使用5个相似性条件表现得更好，而[35]学习Polyvore Outfits的66个相似性条件为了表明我们的条件权重分支提供了有意义的分配，我们比较了图3中的条件对图像对的随机分配我们还比较了平均嵌入，这表明我们的方法中的附加参数（对每个图像对使用多个条件）不能解释我们在[35]中看到的大部分改进（对每个图像对使用单个条件重要的性能-一些条件Compat AUCFITB准确度10.8653.220.9059.750.9262.1100.9160.8200.8959.7表2：相似性条件掩码的数量如何影响我们的模型在Polyvore Outfits验证集上的性能的SCE-Net与平均或随机嵌入之间的差距表明，我们的动态加权机制是实现良好性能的必要条件。我们还在表2中显示了相似性条件的数量如何影响性能，在表2中我们发现仅使用几个相似性条件就可以获得最佳性能（例如，5为Polyvore Outfits）。为了评估我们的模型仅基于视觉特征推广到不可见类别的能力，我们从训练集中重新移动属于围巾和配饰类别的时尚物品。我们选择这两个类别是因为它们通常不是10379未知类别（FITB准确性）方法围巾配件一些问题144248暹罗网46.6250.82SCE-Net59.4656.55表3：不同方法对Polyvore-Outfits测试集的FITB问题子集的比较，其中候选选项属于在训练期间不可见的类别。、表4：通过SCE-Net模型的变体获得的Polyvore-Outfit测试集的结果，其中将不同模态的输入特征输入到条件权重分支中。服装和出现在更少的服装比其他类别的训练集。为了评估的目的，我们提取的FITB问题从测试集的候选人的选择是-长到删除的类别。作为基线比较，我们训练了一个基于Vasileva等人使用的模型的暹罗网络。在修改后的训练集上。两种模型的结果见表3。我们的模型在这两个类别中的表现都明显优于暹罗网，证明了我们的模型能够很好地推广到新的类别和属性。我们的多峰变体的性能如表4所示。令人惊讶的是，单独使用项目标签的语言特征使用视觉和语言功能的组合不会导致性能增益。然而，这可能是由于项目标签的语言特征不包含太多语义信息的事实如果使用项目描述的语言特征，我们可能会观察到更大的改进。但是，并非此数据集中的所有项目都包含相应的描述。4.3.2UT-Zappos50K我们评估了我们的方法对Veit等人的强监督CSN模型的三重预测任务的有效性。[36]第30段。回想一下，测试集被分为4个相似性条件。特别是，在推理过程中，Veitet al.使用查询{xi，xi，xi，k，c}来确定xi和在相似条件下，xk小于xi和xk表5：UT-Zappos 50 K测试集的结果（a）包含先前工作中报告的结果[36]和（b）报告我们模型的结果。括号中的数字表示使用的相似性条件掩码的数量。迪申角与我们提出的SCE-Net相比，这种在评估过程中的显式监督为他们的模型提供了不公平的优势，SCE-Net表5示出了当使用概念权重分支来组合我们的弱监督条件时，SCE-网络在使用相同数量的学习条件（即，4）.对于我们的模型，将学习条件的数量减少1，我们仍然比CSN模型高出2%。这表明，不将相似性概念的学习限制在单个子空间是有益的相反，使用语义子空间的加权此外，最佳学习所需的相似性条件掩码的数量随着数据集中存在的相似性条件的数量而增加。4.4. 学习子空间为了深入了解我们的模型学习到的条件，我们为图4中的UT-Zappos 50 k数据集的学习子空间的所有相似条件掩码提供了t-SNE [23]可视化。第一个相似性条件掩模学习区分鞋的基础上，他们的类（例如，靴子和高跟鞋）。当我们从图4b中的可视化的顶部移动到底部时，我们可以清楚地看到鞋子的闭合机制逐渐从鞋带变为滑鞋。图4c显示了一个学习鞋跟高度差异的子空间。在这种情况下，鞋的鞋跟高度从嵌入空间的顶部到底部减小。从图4d中，我们看到第四相似性条件掩码已经学会基于目标性别区分鞋子。女鞋这表明，即使在训练期间只有弱监督，我们的方法也能够学习数据集中明确定义的视觉相关的相似性条件。方法错误率测试时间监督（a）CSN固定不相交掩码[36]10.79%强CSN学习面具[36]百分之十点七三强（b）SCE-Net（2）百分之十一点一二没有一SCE-Net（3）8.48%没有一条件权分支的变体一些条件Compat AUCFITB准确度标签0.9060.8视觉效果0.9161.6视觉标签0.9061.510380类鞋带到拖鞋相似性条件1相似性条件2(a) 可视化显示鞋子是按类别区分的（例如，靴子和拖鞋）在这个子空间。(b) 在这个子空间的顶部的鞋通常具有鞋带，而在底部的鞋通常是套穿式的，这表明这种相似性条件已经学会区分闭合机构。相似性条件3相似性条件4降低鞋跟高度性别（从女性到男性）(c) 可视化表明，在这个子空间中，鞋子是通过鞋跟高度来区分的。鞋后跟的高度随着我们从子空间的顶部到底部而降低。(d) 可视化表明，鞋子在这个子空间中按性别区分。女人图4：UT-Zappos 50 k数据集上由我们的4个相似性条件掩码编码的语义子空间的可视化。5. 结论在这项工作中，我们提出了一种方法，将不同的相似性条件及其贡献作为潜在变量，并试图以弱监督的方式学习它们。SCE-Net通过使用以图像的视觉表示为条件的条件权重分支来确定每个相似性条件掩码的上下文相关性，从而通过预定义的相似性条件来消除对强超视的需要。我们证明了我们的模型不仅优于强监督方法，而且还可以很好地推广到新的图像类别和属性。我们表明，一个动态加权机制是必要的-在训练一个弱监督模型来学习不同的相似性概念方面，这是一个很好的方法。特别是，我们的研究结果表明，将相似性条件的学习限制在单个子空间可能不利于模型的学习能力。最后，我们证明了语义子空间的加权组合可以在相似性条件下学习更好的表示。未来工作的一个令人兴奋的途径是学习以无监督的方式确定相似性条件掩码的最佳数量。鸣谢：这项工作得到了 DARPA 和 NSF 奖项 IIS-1724237、CNS-1629700、CCF-1723379的部分支持。10381引用[1] Ziad Al-Halah ， Rainer Stiefelhagen ， and KristenGrauman. Fashion Forward：预测时尚中的视觉风格在IEEE计算机视觉国际会议的Proceedings中，第388-397页[2] 坦迈·巴特拉和德维·帕里克具有视觉属性的合作学习。arXiv预印本arXiv：1705.05512，2017。[3] Tamara L Berg，Alexander C Berg，and Jonathan Shih.从噪声网络数据中发现黄金属性及其特征.欧洲计算机视觉会议，第663-676页。施普林格，2010年。[4] Zhi-Qi Cheng， Xiao Wu ， Siyu Huang ， Jun-Xiu Li ，Alexan- der G Hauptmann，and Qiang Peng.学习迁移：多任务神经模型搜索的可泛化属性学习。在2018年ACM多媒体会议上，第90-98页ACM，2018。[5] Sumit Chopra Raia Hadsell和Yann LeCun。学习相似性度量有区别地，与应用到人脸验证。空，第539-546页。IEEE，2005年。[6] Guillem Cucurull，Perouz Taslakian和David Vazquez。上下文感知视觉兼容性预测。在IEEE计算机视觉和模式识别会议论文集，第12617-12626页，2019年[7] 阿布舍克达斯，萨特维克科图尔，何塞'MF莫拉，斯特凡李和Dhruv巴特拉。用深度强化学习学习协作视觉对话代理。在IEEE计算机视觉国际会议论文集，第2951-2960页[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[9] 维托里奥·法拉利和安德鲁·齐瑟曼。学习视觉能力。神经信息处理系统进展，第433-440页，2008年[10] Xiaoling Gu，Yongkang Wong，Lidan Shou，Pai Peng，Gang Chen，and Mohan S Kankanhalli.用于时尚检索和分析的多模态和多域嵌入学习。IEEE Transactions onMultimedia，2018。[11] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习不变映射进行降维在2006年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2006年。[12] Xintong Han，Zuxuan Wu，Yu-Gang Jiang，and Larry SDavis. 学习与双向 lstms 的时尚兼容性。 ACMMultimedia，2017年。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[14] Wei-Lin Hsiao和Kristen Grauman。学习潜在的外观：从时尚图像中无监督地发现风格一致的在2017年IEEE国际计算机视觉会议（ICCV ）上，第 4213-4222页。IEEE，2017年。[15] Wei-Lin Hsiao和Kristen Grauman。用时尚图片制作胶囊衣柜。在IEEE计算机视觉和模式识别会议论文集，第7161-7170页[16] Junshi Huang ， Rogerio S Feris ， Qiang Chen ， andShuicheng Yan.基于双属性感知排序网络的跨域图像检索。在IEEE国际计算机视觉会议论文集，第1062-1070页，2015年。[17] Benjamin Klein Guy Lev Gil Sadeh和Lior Wolf使用Fisher向量将神经词嵌入与深度图像表示相关联在Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition，pages 4437[18] Adriana Kovashka ， Devi Parikh ，和 Kristen Grauman.Whittlesearch：图像搜索与相对属性反馈。2012年IEEE计算机视觉和模式识别会议，第2973-2980页。IEEE，2012。[19] Neeraj Kumar，Alexander Berg ，Peter N Belhumeur，and Shree Nayar.用于人脸验证和图像搜索的可描述视觉属性。 IEEE Transactions on Pattern Analysis andMachine Intelligence，33（10）：1962[20] Li-Jia Li，Hao Su，Yongwhan Lim，and Li Fei-Fei.对象作为场景分类的属性欧洲计算机视觉会议，第57-69页施普林格，2010年。[21] Yuncheng Li ， Liangliang Cao ， Jiang Zhu ， and JieboLuo.使用端到端深度学习方法在集合数据上挖掘时尚服装组成。IEEE Transactions on Multi- Media，19（8）：1946[22] Ziwei Liu，Ping Luo，Shi Qiu，Xiaogang Wang，andXiaoou Tang. Deepfashion：支持强大的服装识别和检索与丰富的注释。在IEEE计算机视觉和模式识别会议论文集，第1096-1104页[23] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化数据。 Journal of Machine Learning Research ， 9（Nov）：2579[24] Tomas Mikolov 、 Ilya Sutskever 、 Kai Chen 、 Greg SCorrado和Jeff Dean。单词和短语的分布式表示及其组合性。神经信息处理系统的进展，第3111-3119页，2013年[25] 吉纳维芙·帕特森和詹姆斯·海斯日光属性数据库：发现、注释和识别场景属性。2012年IEEE计算机视觉和模式识别会议，第2751-2758页。IEEE，2012。[26] 杰弗里·潘宁顿，理查德·索彻，克里斯托弗·曼宁.Glove：单词表示的全局向量。在2014年自然语言处理经验方法会议（EMNLP）的会议记录中，第1532-1543页，2014年。[27] 布莱恩A. Plummer，M. Hadi Kiapour，Shuai Zheng，and Robinson Piramuthu.给我个提示！使用人在回路反馈导航图像数据库在IEEE Winter计算机视觉应用会议（WACV），2019年。[28] Bryan A Plummer 、 Paige Kordas 、 M Hadi Kiapour 、Shuai Zheng、Robinson Piramuthu和Svetlana Lazebnik。条件图像-文本嵌入网络。InProceedings of the10382欧洲计算机视觉会议（ECCV），第249-264页[29] 齐浅，容靳，祝圣火，林元庆。基于多阶段度量学习的细粒度视觉分类在IEEE计算机视觉和模式识别会议论文集，第3716-3724页[30] 穆罕默德·拉斯蒂加里阿里·法哈迪和大卫·福赛斯通过可预测的鉴别二进制码的属性发现欧洲计算机视觉会议，第876- 889页。Springer，2012.[31] Jing Shao，Kai Kang，Chen Change Loy，and XiaogangWang.深入了解拥挤场景的属性。在IEEE计算机视觉和模式识别会议论文集，第4657-4666页，2015年。[32] Abhinav Shrivastava ， Tomasz Malisiewicz ， AbhinavGupta，and Alexei A Efros.数据驱动的跨域图像匹配视觉相似性。ACMTransactions on Graphics（ToG），第30卷，第154页。ACM，2011年。[33] Krishna Kumar Singh和Yong Jae Lee。端到端的本地化和相对属性的排名。在欧洲计算机视觉会议上，第753施普林格，2016年。[34] 孙奇赫改进的具有多类n对损失目标的深度度量学习。神经信息处理系统进展，第1857-1865页，2016年[35] Mariya I Vasileva，Bryan A Plummer，Krishna Dusad，Shreya Rajpal，Ranjitha Kumar，and David Forsyth.学习类型感知嵌入以实现时尚兼容性。在欧洲计算机视觉会议（ECCV）的会议记录中，第390-405页[36] Andreas Veit，Serge Belongie，and Theofanis Karaletsos.条件相似性网络在IEEE计算机视觉和模式识别会议论文集，第830-838页[37] Andreas Veit 、 Balazs Kovacs 、 Sean Bell 、 JulianMcAuley、Kavita Bala和Serge Belongie。学习视觉服装风格与异质并元同现。在 Proceedings of the IEEEInternational Conference on Computer Vision ，第 4642-4650页[38] Ivan Vendrov 、 Ryan Kiros 、 Sanja Fidle

下载后可阅读完整内容，剩余1页未读，立即下载