学习潜在属性的三元组相似性

135 浏览量更新于2023-10-16 收藏 39.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

. . .{ }{ }{ }. . .. . .4020从三元组相似性中发现潜在属性0Ishan Nigam Pavel Tokmakov Deva RamananRobotics Institute, Carnegie Mellon University0{inigam,ptokmako,deva}@cs.cmu.edu0摘要0本文解决了从三元组相似性比较中学习潜在属性的任务。例如，考虑图1(a)中的三双鞋子。它们可以根据颜色、舒适度、尺寸或形状进行比较，从而得到不同的排名。大多数嵌入学习方法要么做出简化的假设 -即所有输入都可以在一个标准下进行比较，要么需要昂贵的属性监督。我们引入了潜在相似性网络（LSNs）：一种简单而有效的技术，可以在没有任何显式属性监督的情况下发现数据中潜在的相似性概念。LSNs可以通过标准的三元组监督进行训练，并学习多个潜在嵌入，可以用于在多个相似性概念下比较图像。LSNs在UT-Zappos-50k鞋子和Celeb-A人脸数据集上实现了最先进的性能，并且还展示了发现有意义的潜在属性的能力。01. 引言0监督学习无疑在计算机视觉和机器学习领域引起了革命。这种监督通常以高级语义概念的形式提供，对于许多领域（如对象空间）来说，这些概念很容易定义[27, 8,20]。但对于其他领域来说，这些概念就不那么清晰了，比如属性[9, 3, 24]或者动作[5,11]的本体是什么？事实上，即使是对象标签的定义可能也存在文化上的歧义 -例如，在COCO数据集中，海外标注员很难正确标记“热狗”[20]！定义和获取这些标签的困难导致了大量关于无监督学习的研究工作[10, 16, 18, 26,32]。我们的工作探索了通过相似性嵌入进行学习的第三条途径，其中人类标注员为相似和不相似的对象提供标签[4, 7,28,31]。这种监督更容易扩展，因为标签可以从网络规模的点击数据中提取[29]，并且更少依赖于文化和语言规范。心理物理学界关于“刚好能察觉到的差异”的大量研究说明了相似和不相似比较的普遍性[23]。0ConvNet0(a)0(b)0颜色舒适0不相似相似0图1：(a)第一个三元组对应颜色的概念，而第二个三元组对应舒适的概念。相对相似度测量编码了有用的上下文信息。我们探索了从三元组比较中学习潜在属性概念的问题。(b)(左)我们提出的方法从三元组比较数据中学习潜在属性嵌入。(右)我们系统学习到的潜在属性嵌入对于知识表示以及诸如多属性图像检索等应用非常有用。0具体而言，我们的工作表明可以通过大规模基于相似性的对象比较来发现离散的潜在概念。直观地说，概念对应于潜在属性。我们的方法的核心是基于以下观察：对象可以以不同的方式相似（或不相似）。例如，一个标注员可能会根据颜色将两双特定的鞋子标记为相似（图1(a)），但另一个标注员可能会根据舒适度将它们标记为不同。对于鞋子来说，一个单一的嵌入空间无法捕捉到两种相似性概念。一个简单的解决方案是为每种相似性概念学习不同的嵌入，比如颜色、舒适度等。给定一对图像和一个观察到的属性标签，可以在适当的属性特定嵌入中计算图像之间的距离。正如我们上面所说，这样的语义属性标签是非平凡的，有时甚至是不可能获得的。的确，任务3.1. Triplet loss4030从搜索查询中揭示用户偏好是信息检索中一个充满活力的主题[1]。考虑一个在线搜索鞋子的用户。他们可能无法准确表达自己的目标，但可以根据自己的内在偏好轻松比较任何给定的鞋子对，从而生成学习的训练示例。实际的多属性嵌入学习方法必须能够在没有明确监督的情况下发现数据中的隐藏相似性概念。0潜在相似性网络：在本文中，我们提出了潜在相似性网络（LSNs）-一种在相似性比较之外没有任何监督的情况下发现潜在概念的方法。给定一个训练三元组，我们计算多个候选嵌入的损失，并为最佳匹配嵌入生成梯度更新。这可以看作是一种硬分配的期望最大化，其中属性被视为被边缘化的潜在变量。因此，我们的方法隐式地将训练三元组聚类成潜在属性。训练是以端到端的方式进行的，从而学习到一个关于属性的分离表示。我们证明了这个公式是多项选择学习的一个特例[12]。0评估：对潜在属性发现的定量评估具有挑战性，因为它需要对要发现的概念进行地面真实注释。评估这种情况的常见方法是通过处理具有已知地面真实概念的数据来模拟发现过程。在属性发现领域，这对应于构建与已知潜在属性集相关的三元组。我们使用UTZappos-50k鞋子数据集[35]和Celeb-A人脸数据集[21]进行定量评估。0贡献：我们的工作具有以下贡献：（1）我们提出了第一个基于深度学习的无监督属性发现方法；（2）我们的方法在无监督学习场景下在UT-Zappos-50k和Celeb-A数据集上取得了最先进的结果；（3）我们对发现的潜在属性进行了定性分析。02. 相关工作0嵌入学习在计算机视觉领域有着悠久的历史[4, 7, 33, 30,25,28]。在本节中，我们重点关注最相关的主题：监督和无监督的多属性嵌入学习，以及学习预测多个输出。监督的多属性嵌入学习利用多个明确标记的相似性度量。WhittleSearch[17]使用多属性反馈进行交互式图像搜索，允许用户根据相对属性[24]推理图像，通过交互式地缩小搜索空间来检索图像。0兴趣。Yu和Grauman[35]引入了UT-Zappos50k，这是一个多属性鞋子数据集，用于训练条件相似性网络（CSN）[34]，用于编码多个属性特定嵌入。重要的是，CSN需要具有地面真实属性标签的训练示例，而我们的方法发现了相似性的潜在概念（使其适用于无法获得地面真实属性或难以用语言表达的场景）。0无监督的多属性嵌入学习受到相对较少的关注，重要的例外是Amidi和Ukkonen[2]。他们的工作将属性空间表示为一组固定的手工制作特征的软线性组合，而我们联合学习特征嵌入和离散的潜在属性概念，以端到端的方式。此外，他们在单个嵌入中使用潜在属性作为隐藏变量，因此不会根据不同的相似性概念比较图像（这是我们的重点）。第5节详细比较了我们的方法和他们的方法，证明了端到端学习对于高性能的潜在属性发现至关重要。0多项选择学习（MCL）[ 12 , 19]是一种用于学习多个假设预测器的方法，其使用“oracle”损失函数，给定一个训练样本，评估所有假设，但只更新最小损失的假设。这被用于训练生成多个图像分类、分割和标题的系统。我们证明可以将这个损失函数重新用于潜在属性发现（而不是多个假设预测）。03. 准备工作0我们首先介绍本文中使用的一些概念和相关符号。0我们希望学习一个图像嵌入，其中 f θ ( x i ) 是一个由 θ参数化的图像非线性嵌入。通常的做法是通过最小化相似图像之间的欧氏距离，最大化不相似图像之间的欧氏距离来实现：D ij = || f ( x i ) − f ( x j ) || 2 2 , (1)0大多数现代方法依赖于三元组监督[ 25 , 28 ]，其中 T = { (x q , x p , x n ) i } K i =1 是由查询图像 x q ，正图像 x p和负图像 x n 组成的三元组集合。目标是学习一个嵌入函数f，其中正图像与查询图像的相似度大于负图像与查询图像的相似度：对于所有 ( x q , x p , x n ) ∈ T ，有 D qp < Dqn (2)0这通常通过Triplet Loss来实现：L triplet ( x p , x q , x n )= [ D qp − D qn + M ] + (3)0其中 M 是边界，[ ∙ ] +是铰链函数。该损失函数明确地鼓励正图像与查询图像比负图像更接近，边界是固定的 M 。Dij(A) = ||fθA(xi) − fθA(xj)||22,∀A ∈ A.(4)Dij(A) = ||f(xi) ⊙ mA − f(xj) ⊙ mA||22,(5)LSUP (xp, xq, xn, A) = [Dqp(A) − Dqn(A) + M]+ (6)40403.2. 多属性网络0经典的嵌入学习方法基于一个假设，即 T中的所有三元组都具有相同的相似性概念。然而，在许多实际场景中，这个假设可能不成立。回到图1，鞋子可以根据舒适度、颜色、风格等不同属性进行比较。在极端情况下，一个特定的鞋子三元组 ( x i , x j , x k )可以根据特定的属性交换正负图像。一个简单的解决方案是为每个属性 A 学习一个单独的嵌入 f θ A ( x ) ：0与学习单独的属性特定网络不同，Veit等人[ 34]学习了一个单一嵌入上的单独线性投影掩码 m A ：0其中 ⊙表示逐元素乘积。上述内容可以通过使用带有监督属性标签的三元组进行学习 T = { ( x q , x p , x n , A ) i } K i =1。相关的监督损失可以写成：0在实践中，获得这种基于真实属性的监督是困难的，有时甚至是不可能的。在下一节中，我们提出了一种能够在没有这种监督的情况下学习多属性嵌入的方法。04. 潜在属性发现0我们现在描述一种在没有任何属性监督的情况下学习多属性嵌入的方法。重要的是，我们的方法可以发现编码在训练集中的离散属性的潜在概念。04.1. 我们的方法0我们的关键见解是将属性视为潜在变量，并在方程 6的损失函数中对其进行最小化。我们将得到的函数称为潜在损失：0L LAT ( x p , x q , x n ) = 最小化 A ∈A [ D qp ( A ) − D qn ( A ) + M ] +(7)0我们的方法的详细信息，我们将其称为潜在相似性网络（LSN），如图3所示。LSN依赖于多项选择学习（MCL）算法[12]，如图2所示，从三元组中学习。在这种情况下，一个三元组由一个红色运动鞋、一个红色女性高跟鞋和一个蓝绿色运动鞋组成，通过嵌入网络。然后，图像嵌入通过应用掩码 mA投影到对应于潜在属性的子空间中。选择具有最小三元组损失的属性嵌入（在这种情况下是颜色），并用于反向传播该三元组的损失。我们的潜在损失函数实质上0形状0颜色0Q0P0N0反向0前向0图2：多选学习：由查询（Q）、正例（P）和负例（N）表示的三元组通过多任务网络传递。有效的三元组（Q，P，N）要求Q和P之间的距离小于Q和N之间的距离。这些分离（DQP 和 D QN）在每个任务特定空间（i）中计算。三元组被分配到最好分离的任务空间（max i (D i QN − D i QP)）。在上图中，三元组在颜色嵌入空间中分离得最好。因此，它被分配到颜色嵌入空间，并更新与该嵌入空间相关的参数，以及共享嵌入网络的参数。0将训练三元组聚类为不同的潜在属性，同时学习每个属性的嵌入。我们的方法可以看作是多选任务中预测同一输入示例的多个假设的MCL实例。这个损失函数通常被称为“oracle”损失，因为它对于多选任务预测正确答案。相反，我们使用MCL来学习多属性图像嵌入学习任务中的相似性的潜在概念。我们注意到，除了提供一个根据几个潜在标准比较图像的模型外，我们的方法还隐式地使用三元组监督在共享嵌入空间中学习解缠的图像表示[6, 22]。MCL[12]通过在将示例分配给其最小损失预测器和使用分配给它们的示例训练模型之间交替来优化多选损失。然而，这种方法对于深度网络来说是不可行的，因为训练可能需要几天的时间。相反，随机MCL[19]将分配步骤与随机梯度下降中的批量更新交错进行。我们采用随机MCL进行优化，允许我们在每个小批量中同时学习 f θ 的非线性参数并估计潜在变量A。总体而言，我们提出的方法的训练目标函数如下所示：0L ( x q , x p , x n ) = L LAT ( x q , x p , x n ) + λ 1 L θ ( x )+ λ 2 L ( m )，(8)其中 L θ = || f θ ( x , θ ) || 2 2是嵌入正则化器，L ( m ) = || m || 1 强制集合 m = { m A }的稀疏性，λ 1 ，λ 2 是平衡三个项的相对贡献的超参数。T1= (A1,P1,N1)T2= (A2,P2,N2)4050发现的嵌入0线性子空间0通用嵌入0卷积网络0图像对0图像三元组0≈0≠0≈0≠0≠0≈0≠0≈0只有 T 1 满足0只有 T 2 满足0T 1，T 2 不满足0图3：所提出方法的详细信息：基于从相似和不相似对象的成对隐式监督中挖掘的三元组构建图像。卷积网络将图像嵌入到（共享的）通用嵌入中。在通用嵌入上学习多个线性子空间，每个子空间对应一个不同的潜在属性。多选学习算法（图2）将三元组分配给（潜在属性）子空间。这使得我们的方法能够发现多个相似性概念。04.2. 评估潜在属性发现0评估潜在属性发现是具有挑战性的。在最现实的情况下，三元组是从野外用户交互中收集的[17]，所提出的方法可以用于分析潜在用户偏好。然而，在这种情况下，由于缺乏地面真实属性注释，定量评估是具有挑战性的。CSN[34]提出了一条替代路径，其中作者利用带有地面真实属性注释的数据集[35]根据这些属性挖掘三元组。我们使用模拟三元组进行评估，以验证我们的方法发现真实用户偏好的能力，并与之前的工作进行定量比较。我们引起读者的注意并再次强调一个关键细节 -虽然我们利用地面真实属性构建模拟三元组，但这些属性不会提供给我们的学习算法，而只用于评估。有关如何构建三元组的更多细节，请参见补充材料。接下来，我们描述论文中用于评估的度量。在监督设置中，训练和测试三元组包括地面真实属性，(x p , x q , x n ,A)。监督评估指标将测试误差定义为在相应嵌入下不满足的三元组的比例：01 |S |0(xq,xp,xn,A) ∈ SI � Dqp(A) > Dqn(A) � (9)0其中S是三元组的测试集，A是根据其进行图像比较的地面真实属性。Supervised-Eval指标要求将学习到的潜在嵌入映射到底层地面真实属性。为此，我们建议利用一小部分已注释的三元组的保留集（数据的5%）来确定0将发现的潜在嵌入映射到地面真实属性。这使我们能够将无监督方法与完全监督方法进行比较。我们现在描述两种执行此映射的策略。一对一映射：一对一映射找到学习到的潜在嵌入和底层地面真实属性之间的最佳映射。这种映射策略的目标是衡量无监督方法恢复所有底层地面真实属性的能力。让E表示学习到的潜在嵌入的数量（与一对一映射的地面真实属性数量相等）。我们考虑所有E!个潜在嵌入和地面真实属性的组合来报告Supervised-Eval性能。一对多映射：实际上，潜在学习可能会发现与多个相关属性相对应的变化因素（例如，男性鞋可能倾向于舒适和运动）。为了允许这种一对多映射，我们贪婪地将每个地面真实属性分配给产生在保留测试集上产生最佳验证错误的潜在嵌入。这使我们能够在O(EK)的时间内计算出最佳的一对多映射。05. 实验0现在我们展示LSN在定性和定量上发现潜在属性的有效性。我们首先描述我们分析中使用的数据集。05.1. 数据集0我们简要讨论了我们评估中使用的数据。数据和三元组构建策略的详细描述请参见补充材料。我们的定性和定量分析集中在UT-Zappos鞋子数据集[35]和Celeb-A人脸数据集[21]上。4060UT-Zappos-50k鞋子：Yu和Grauman [35]引入了UTZappos-50k鞋子数据集，包括50,025张鞋子图像以及成对人类偏好 -感知舒适度，视觉开放性，视觉尖锐性和感知运动性。我们将这个三元组比较数据称为Zappos-Human。图4a展示了这些属性的一般性质。此外，UT-Zappos鞋子还包含元数据标签，这些标签在Veit等人的研究中被视为属性标签。这些属性是类型，性别，鞋跟高度和闭合机制。我们将这个三元组相似性比较数据称为Zappos-Meta。0Celeb-A人脸数据集：Celeb-A数据集[21]包含202,599张带有40个二进制视觉属性标签的人脸图像。我们选择了八个视觉属性进行割除分析 -眼镜，男性，微笑，年轻，有吸引力，涂口红，胡子，和眼袋。图4b展示了其中一些属性的一般性质。我们还研究了我们的方法在整个40个属性数据集上的性能。我们注意到这两个数据集的基本属性仅用于生成三元组，不会在训练期间提供给无监督学习方法。05.2. 方法0我们研究了提出的潜在相似网络与其他三种方法的有效性。Singular Similarity Networks(SSN)：基于Resnet的模型，使用单个嵌入空间执行所有三元组相似性比较。Multi-View Triplet Embeddings(MVTE)[2]：一种多属性模型，通过预测软标签分配来学习固定嵌入空间上的投影。Latent Similarity Networks(LSN)：一种多属性端到端可训练模型，通过预测硬标签分配来发现多个潜在属性，并学习一个解缠的嵌入空间。0年轻的眼镜0男性0微笑0(b)0(a)舒适0开放的0尖锐的0运动型0图4：展示属性存在或不存在的平均对象图像：（a）UT-Zappos-50k的人工标记属性，（b）Celeb-AFaces的四个属性。（补充材料展示了所有Celeb-AFaces的属性）。0条件相似性网络（CSN）[34]：一种多属性模型，以完全监督的方式有条件地学习多个属性。SSN提供了与我们提出的方法进行比较分析的下界。另一方面，CSN以完全监督的方式进行训练，并为无监督的LSN方法提供了上界。我们在补充材料中讨论了具体的架构差异。0实现细节：提出的潜在相似性网络架构包括在Imagenet[27]上预训练的Resnet-18[13]编码器。按照[34]的方法，我们将UTZappos-50k图像调整为112×112，并去除编码器中的最后一个最大池化层以适应较小的图像尺寸。Celeb-A图像被调整为224×224并提供给Resnet-18模型。我们在编码器中添加了一个全连接层，它作为网络的通用嵌入。实验使用通用嵌入维度为16，这是不会导致过拟合的最小嵌入维度。在通用嵌入上学习的线性子空间以16维正态分布的投影初始化。模型使用随机梯度下降进行训练，初始学习率为5-6。惩罚通用嵌入和线性子空间嵌入的损失超参数分别为λ1=5-3和λ2=5-4。每个小批量均匀采样自三元组列表。我们对每个模型进行40个epoch的训练，并在验证集上进行早停。我们将多视图三元组嵌入（MVTE）[2]实现为我们提出的潜在相似性网络（LSN）的基准，通过在Imagenet[27]上预训练的固定Resnet-18编码器上学习线性分类器。05.3. 恢复潜在属性0在本节中，我们评估了所提方法在从三元组相似性中准确恢复潜在属性的能力。我们首先在小规模的UT-Zappos数据集上进行实验（第5.3.1节）。接下来，我们使用规模更大的Celeb-A数据集来确认我们的方法可以随着潜在属性数量的增加而扩展（第5.3.2节）。在这些实验中，我们将学习到的潜在嵌入数量设置为属性数量，并在评估过程中使用一对一映射（第4.2节）。05.3.1 UT-Zappos鞋子上的潜在属性恢复0我们在UT-Zappos鞋子数据集的两个属性标签集上研究了潜在属性恢复问题：（1）Zappos-Human由Yu和Grauman[35]构建，包含4个人工标记的二进制属性；（2）Zappos-Meta由Veit等人 [34]从元数据中构建，包含4个多类属性。CSN [34]97.3689.27CSN [34]99.4798.2395.0590.434070(a)0(b)0图5：Celeb-AFaces数据集中发现的潜在属性的嵌入可视化：（a）发现的属性对应于眼镜属性。我们的方法成功地识别出不同年龄、种族和性别的眼镜。（b）发现的微笑属性。我们的方法学会在不同年龄、姿势和性别中发现微笑。0表1总结了所有方法在属性恢复任务上的性能。LSN明显优于SSN，表明多属性潜在学习是有益的。LSN还优于MVTE；我们方法更强大的性能可能归因于我们的硬标签分配策略更加健壮。完全监督的CSN受益于额外的属性监督，在性能上优于所有无监督方法。0方法 Zappos-Human Zappos-Meta0SSN 80.52 76.24 MVTE [ 2 ] 77.94 77.53LSN（提出的方法）88.91 83.090表1：UT-Zappos鞋子上的潜在属性恢复，包括四个人工标注的属性（Zappos-Human）和四个元数据属性（Zappos-Meta）。我们的方法在两个数据集上的表现优于所有无监督方法。我们的无监督学习算法在性能上仅次于完全监督的CSN算法。0最后，我们观察到MVTE最初由Amid和Ukkonen [ 2]提出，学习了固定嵌入空间上的投影。然而，我们的方法（LSN）以端到端的方式学习嵌入。为了更直接的比较，我们也以端到端的方式训练了MVTE。这个基准在Zappos-Human上的表现比我们的方法差3.14%，进一步验证了我们方法的优越性。05.3.2 Celeb-A人脸数据集上的潜在属性恢复0我们现在转向在规模更大的Celeb-A人脸数据集上进行潜在属性恢复。40个属性的存在使我们能够研究改变潜在属性数量的影响。为此，我们基于2、4、6、8个视觉属性构建三元组，并为每组属性学习单独的模型。实验中使用的属性在补充材料中有描述。表2总结了所有方法的性能。随着潜在属性数量的增加，分布变得更加复杂，所有方法的性能都会下降。LSN优于所有无监督方法。完全监督的CSN的性能超过了所有无监督方法。我们还将与Celeb-A上端到端训练的MVTE进行比较。这个基准在这个数据集上比我们的方法差4.72%。我们将较高的差距归因于Celeb-A的真实属性具有重叠性质，这使得对于MVTE来说任务更加困难。05.3.3 定性分析0我们现在对我们的方法发现的潜在嵌入进行定性分析。我们使用PCA [ 14]来可视化在UT-Zappos鞋子和Celeb-A人脸数据集上学习到的嵌入。图5可视化了Celeb-A人脸数据集中发现的两个潜在属性。在第一个嵌入中，发现的属性对应于眼镜。我们的方法能够在年龄、种族、性别上识别眼镜，但无法识别无框眼镜。在第二个嵌入中，我们的方法能够在年龄、姿势、性别上发现微笑。图6展示了UT-Zappos鞋子上发现的四个潜在属性。图6(a)显示了发现的属性对应于舒适性。图6(b)显示了我们的方法学会了捕捉开放性。图6(c)表示嵌入能够捕捉到尖锐性属性在各种视觉外观差异中的表现。图6 (d)显示了我们的方法学会了运动属性。0方法2 4 6 80SSN 86.38 81.12 75.54 71.40 MVTE [ 2 ] 88.2483.38 81.18 75.78 LSN（提出的方法）92.3390.36 87.71 83.530表2：Celeb-A人脸数据集上的潜在属性恢复。我们的方法在学习恢复潜在属性的同时始终优于所有无监督方法。(a)(b)(d)(c)60%70%80%90%00%60%70%80%90%00%4080图6：UT Zappos-50k数据集中发现的潜在属性的嵌入可视化：(a)发现的属性对应于舒适性属性。我们的方法学会了捕捉跨越各种视觉外观差异的舒适性概念。(b)我们的方法学会了捕捉开放性。(c) 我们的方法能够相当准确地捕捉尖锐性属性，并能够处理各种视觉外观差异。(d)我们的方法学会了运动属性，并学会了推理正式鞋（底部负例中的两个例子）是运动属性的反义词。0属性对应于舒适性。图6(b)显示了我们的方法学会了捕捉开放性。图6(c)表示嵌入能够捕捉到尖锐性属性在各种视觉外观差异中的表现。图6 (d)显示了我们的方法学会了运动属性。0到目前为止，我们假设潜在属性是不相关的，并且我们恢复了所有的潜在属性。现在，我们转向一个更现实的情景 -几个真实属性可能对应于一个单一的相似性概念 -并评估我们的模型是否能以无监督的方式发现这些潜在属性。05.4.发现潜在属性0现在，我们尝试通过学习少量的潜在嵌入来发现数据中的潜在概念，并检查哪些真实属性最终被分组在一起。我们使用多对一的映射策略进行评估（第4.2节）。此外，我们定量地检查了发现的潜在属性的实用性。为此，我们将我们的方法与通过将真实属性随机分配给少量潜在嵌入而学习到的基线进行比较。05.4.1 使用UT-Zappos鞋进行潜在属性发现0我们研究了UT-Zappos数据集的两个标签集上的潜在属性发现问题。图7（a）显示，我们的方法在使用两个潜在嵌入（LSN-2）训练时是足够的。0监督评估0Zappos-Human0SSNLSN-20LSN-4CSN0监督评估0Zappos-Meta0SSNLSN-20LSN-4CSN0图7：UT-Zappos鞋上的潜在属性发现。（a）使用2个潜在嵌入（LSN-2）训练的LSN在Zappos-Human上的性能优于使用4个潜在嵌入（LSN-4）训练的LSN，表明真实属性相关并且可以用2个潜在概念建模。（b）在Zappos-Meta上，使用4个潜在属性可以最大化性能，表明真实属性不相关。Gray-HairReceding-HairlineWearing-EarringsBlond-HairBangsBrown-HairNarrow-EyesBags-Under-EyesSmilingMalePale-SkinRosy-CheeksMouth-Slightly-OpenHigh-CheekbonesHeavy-MakeupNo-BeardBlack-HairWearing-NecktieSideburnsBig-NoseYoungBig-LipsDouble-ChinStraight-HairWearing-HatBlurryChubby5-o-Clock-ShadowBushy-EyebrowsBaldEyeglassesOval-FaceAttractiveWavy-HairMustachePointy-NoseArched-EyebrowsWearing-NecklaceWearing-LipstickGoatee60%70%80%90%100%4090在Zappos-Human中，我们的方法在建模四个真实属性方面表现出与使用四个潜在嵌入（LSN-4）训练的方法几乎相同的监督评估性能。相关属性comfort、pointy和sporty映射到第一个潜在嵌入，而open映射到第二个嵌入。图7（b）表明，我们的方法在Zappos-Meta上使用两个潜在嵌入（LSN-2）训练的四个真实属性并没有达到与使用四个潜在嵌入（LSN-4）训练的方法相同的监督评估性能，这表明closure、gender、heel和type不相关。为了进一步验证发现的潜在属性的实用性，我们将它们与随机分配基线进行比较。具体而言，我们将Zappos-Human的真实属性随机分配给潜在嵌入，并使用这样随机获得的监督训练网络。与将4个真实属性随机分配给2个嵌入空间的3个随机分配相比，监督评估性能降低了6.69±0.53%，低于我们的方法。这个基线更接近于SSN而不是我们的方法，证明我们的方法学习到了真实属性的有意义的聚类。05.4.2 使用Celeb-A Faces进行潜在属性发现0我们现在使用整个属性标签集在更大的Celeb-AFaces数据集上研究潜在属性发现。图9总结了使用不同数量的潜在嵌入学习的所有方法的性能。我们的方法（绿色显示）的性能从2个到8个潜在嵌入增加，但稍后略有下降。这个结果表明，40个Celeb-A属性可以用8到16个分离的潜在概念来捕捉。图8提供了发现的属性聚类的定性可视化。我们还将我们的方法与Celeb-A Faces上Sec.5.4.1中描述的随机基线进行了比较。平均0图8：使用8个潜在嵌入训练的LSN以最高的监督评估性能最优地模拟40个Celeb-AFaces属性。如补充材料中所示，40个属性的平均脸部图像表明上述最优聚类在视觉上确实是相似的。02 4 8 16 32 潜在嵌入数量0监督评估0Celeb-A Faces的潜在属性发现0SSN MVTE LSN CSN0图9：Celeb-AFaces上的潜在属性发现。我们提出的LSNs在40个真实属性上训练，具有8个潜在嵌入，实现了最佳的监督评估性能。结果表明，Celeb-A Faces中存在8到16个潜在的潜在概念。0在将40个属性分配到8个嵌入空间的5个随机分配中，我们发现的属性聚类的性能比随机基线低3.21±0.68％。我们将在该数据集上随机基线与我们的方法之间的较小差距归因于其属性之间的重叠性质。06. 结论0我们介绍了潜在相似性网络（LSNs）-一种从三元组相似性比较中发现潜在概念的方法。我们的模型在UT Zappos-50kShoes和Celeb-AFaces数据集上展示了最先进的性能，而不使用真实属性。此外，我们进行了定性实验，以证明LSNs学到的子空间在语义上是可解释的。LSNs的设计和成功的实验验证表明，实际的图像检索系统可能受益于对相互矛盾的用户偏好进行建模。我们希望我们提出的方法能够激发社区进一步研究从相似性数据中学习潜在概念。0致谢：本研究部分基于NSF Grant1618903、Intel视觉云系统科技中心（ISTC-VCS）、Google和国家情报总监办公室（ODNI）的支持，情报高级研究项目活动（IARPA）通过内政部/内政业务中心（DOI/IBC）合同号D17PC00345提供支持。美国政府有权为政府目的复制和分发重印件，尽管上面可能有任何版权注释。免责声明：本文所包含的观点和结论仅代表作者本人，不应被解释为必然代表IARPA、DOI/IBC或美国政府的官方政策或认可，无论是明示还是暗示。4100参考文献0[1] Eugene Agichtein, Eric Brill和SusanDumais。通过整合用户行为信息来改进网络搜索排名。在ACMSIGIR，2006年。[2] Ehsan Amid和AnttiUkkonen。多视图三元组嵌入：在多个地图中学习属性。在ICML，2015年。[3] Tamara L. Berg，Alexander C. Berg和JonathanShih。从嘈杂的网络数据中自动发现和表征属性。在ECCV，2010年。[4] Jane Bromley，Isabelle Guyon，Yann LeCun，EduardSäckinger和RoopakShah。使用孪生时延神经网络进行签名验证。在NeurIPS，1994年。[5] Joao Carreira和Andrew Zisserman。QuoVadis，动作识别？一种新模型和动力学数据集。在IEEECVPR，2017年。[6] Xi Chen，Yan Duan，ReinHouthooft，John Schulman，Ilya Sutskever和PieterAbbeel。Infogan：通过最大化生成对抗网络的信息来进行可解释的表示学习。在NeurIPS，2016年。[7] Sumit Chopra，RaiaHadsell和YannLeCun。学习相似度度量并应用于人脸验证。在IEEECVPR，2005年。[8] Mark Everingham，Luc VanGool，Christopher KI Williams，John Winn和AndrewZisserman。Pascal视觉对象类（VOC）挑战。计算机视觉国际期刊，88（2），2010年。[9] Ali Farhadi，Ian Endres，DerekHoiem和David Forsyth。通过属性描述对象。在IEEECVPR，2009年。[10] Ian Goodfellow，JeanPouget-Abadie，Mehdi Mirza，Bing Xu，DavidWarde-Farley，Sherjil Ozair，Aaron Courville和YoshuaBengio。生成对抗网络。在NeurIPS。2014年。[11] ChunhuiGu，Chen Sun，Sudheendra Vijayanarasimhan，CarolinePantofaru，David A. Ross，George Toderici，YeqingLi，Susanna Ricco，Rahul Sukthankar，CordeliaSchmid和JitendraMalik。AVA：一个时空定位的原子视觉动作视频数据集。[12]Abner Guzmán-Rivera，Dhruv Batra和PushmeetKohli。多项选择学习：学习生成多个结构化输出。在NeurIPS，2012年。[13] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差网络中的身份映射。在ECCV，2016年。[14] Ian TJolliffe。主成分分析和因子分析。在主成分分析中，第115-128页。斯普林格，1986年。[15] Kun Ho Kim，Oisin MacAodha和Pietro Perona。上下文嵌入网络。在IEEECVPR，2018年。[16] Diedrik Kingma和MaxWelling。自动编码变分贝叶斯。在国际学习表示会议论文集中，2014年。[17] Adriana Kovashka，Devi Parikh和KristenGrauman。WhittleSearch：使用相对属性反馈的图像搜索。在IEEECVPR，2012年。[18] Quoc V. Le，Marc'Aurelio Ranzato，RajatMonga，Matthieu Devin，Kai Chen，Greg S. Corrado，JeffDean和Andrew Y.0Ng. 使用大规模无监督学习构建高级特征。在ICML 2012年。[19]Stefan Lee，Senthil Purushwalkam，Michael Cogswell，VireshRanjan，David Crandall和DhruvBatra。随机多项选择学习用于训练多样化的深度集合。在NeurIPS2016年。[20] Tsung-Yi Lin，Michael Maire，SergeBelongie，James Hays，Pietro Perona，Deva Ramanan，PiotrDollár和C Lawrence Zitnick。MicrosoftCOCO：上下文中的常见对象。在ECCV 2014年。[21] ZiweiLiu，Ping Luo，Xiaogang Wang和XiaoouTang。野外深度学习人脸属性。在IEEE ICCV 2015年。[22]Michael F Mathieu，Junbo Jake Zhao，Junbo Zhao，AdityaRamesh，Pablo Sprechmann和YannLeCun。使用对抗训练解开深度表示中的变异因素。在NeurIPS2016年。[23] Stephen EPalmer。视觉科学：从光子到现象学。MIT出版社，1999年。[24]Devi Parikh和Kristen Grauman。相对属性。在IEEE CVPR2011年。[25] Omkar M Parkhi，Andrea Vedaldi，AndrewZisserman等。深度人脸识别。在BMVC 2015年。[26] AlecRadford，Luke Metz和SoumithChintala。使用深度卷积生成对抗网络进行无监督表示学习。在ICLR 2016年。[27] Olga Russakovsky，Jia Deng，HaoSu，Jonathan Krause，Sanjeev Satheesh，Sean Ma，ZhihengHuang，Andrej Karpathy，Aditya Khosla，MichaelBernstein等。ImageNet大规模视觉识别挑战。国际计算机视觉杂志，115（3）：211-252，2015年。[28] FlorianSchr

下载后可阅读完整内容，剩余1页未读，立即下载