通过群元非欧嵌入学习的更好视觉数据相似性

89 浏览量更新于2023-10-15 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9918通过新的群元非欧嵌入学习更好的视觉数据相似性张彦福1，罗磊1，冼文涵1，黄恒1，2*1电气与计算机工程，匹兹堡大学，2JD Explore Academyyaz91@pitt.edu，zzdxpyyll@gmail.com，wex37@pitt.edu，henghuanghh@gmail.com摘要在许多计算机视觉问题中，希望学习有效的视觉数据相似性，从而可以提高预测精度。深度度量学习（DML）方法已经被积极地研究以测量数据相似性。基于对和基于代理的丢失是DML中的两个主要范例。然而，成对方法涉及昂贵的训练成本，而基于代理的方法在表征数据点之间的关系方面不太准确。在本文中，我们提供了一个混合的grou- plet范式，它继承了准确的pair-wise关系在基于对的方法和高效的训练在基于代理的方法。我们的方法还装备了一个非欧空间的DML，它采用了一个分层表示流形。更具体地说，我们提出了一个统一的图形的角度来看，不同的DML方法学习不同的数据点之间的本地连接模式基于图的解释，我们构建了一个灵活的数据点的子集，被称为grouplet。我们的分组大量的实验结果表明，我们的方法显着优于国家的最先进的基线上的几个基准。消融研究也验证了我们的方法的有效性。1. 介绍学习视觉数据之间的语义相似性对于许多机器视觉任务都很重要，包括聚类[49]，图像检索[25，34]，人员重新识别，识别[48，8]和少量学习[36，33]。传统上，利用在手工特征上定义的马氏距离[24，46]来表征数据*这项工作得到NSF IIS 1845666、1852606、1838627、1837956、1956002、IIA 2040588的部分支持。图1：顶部：不同颜色的边界指示来自不同聚类的图像。我们的方法采用grouplet（黄色阴影），它可以被看作是随机分裂的图像在一批。底部：在一个小分组内，我们通过最佳传输动态地确定数据方面的关系。不同的颜色表示不同的聚类。所有数据对（具有数字的圆圈）和代理（具有字母的圆圈）经由共同考虑数据方面的关系（例如，自动确定（1，2）是正对，并且（2，3）是负对）来评估。如果不匹配，则数据嵌入被更难地拉（内箭头）或推（外箭头）到/远离代理，例如（3，a）分布良好，并且推弱（细线）;（4，c）分布不好，导致了一个苛刻的推动（粗线）。相似性。在深度表示学习的新兴进步的推动下，在最近的工作中提出了精确的距离度量[17，39]，以准确地捕获数据嵌入的几何结构。现有的监督DML方法可以分为两种范式，基于对的方法和基于代理的方法9919-- ×≥方法.基于对的方法，例如对比损失[9，4]和三重损失[43，32]，考虑数据点之间的成对关系。详细地，具有相同标签的一对数据是正的，否则是负的。基于对的损失然后定义一些规则来选择对的元组并学习这些对内的数据关系。为了加速训练，在基于对的方法中经常利用检测信息元组的采样技术。替代地，基于代理的方法，例如代理NCA [25]和软三元组[31]引入代理以总结训练数据的子集，并通过数据代理关系间接地学习数据关系基于代理的方法解决了基于对的方法中的复杂性问题。虽然基于对和基于代理的范例各有其优点，但是这两种范例都有一些固有的缺点。在基于配对的方法中，训练需要明确的配对关系。一个明显的优点是，局部结构的评估更准确。然而，在基于对的损失中，候选训练样本由数据点的所有有效组合组成（例如，对比损失[9]中的训练样本的数量是总数据数量的平方），这大大增加了训练时间。另一方面，基于代理的方法的训练是基于单个数据样本的，与基于对的方法相比，其具有显著更好的计算效率。然而，在基于代理的方法中学习的数据关系通过代理来估计这指示编码可能导致次优嵌入流形。为了解决上述问题，在本文中，我们提出了一种用于非欧几里德深度度量学习的混合分组范式，其可以被视为评估由多个数据点（称为分组）和代理组成的扩大的bipartite子图（图11）。①的人。我们的群是免费的显式对建设，并不需要用尽所有的数据点组合。经由受约束的最优传输层动态地确定数据方面的关系为了进一步利用代理和数据点的层次结构，我们求助于非欧几里德嵌入空间和相关的相似性。我们的贡献可以总结如下，我们为深度度量学习提供了一个图的视角，它概括了两个主要的DML范式，基于对和基于代理的方法（图1）。2）的情况。我们制定了一个分组深度度量学习方法，它继承了基于对的方法对成对关系的准确估计，以及基于代理的方法的有效我们建议学习非欧几里德嵌入和相关的嵌入代理相似性。实验结果表明，显着改善国家的最先进的方法在几个基准。消融研究证明了我们的方法的有效性。符号：在整个论文中，粗体大写和粗体小写符号分别用于表示矩阵和向量。 A0表示矩阵A的元素大于或等于0。G=V，E表示图的节点集V和边集E。一个n n-单位矩阵用In表示，In是一个n维一向量，0表示零矩阵.2. 相关作品2.1. 非欧表示学习表示学习学习无处不在的高维嵌入，可以被各种任务利用。基于表示，分类或聚类模型通常学习超平面以指示类边界。传统上，由模型学习的嵌入生活在欧几里得空间中。最近，非欧几里得空间已经成为一个新兴的研究领域[23]，其中空间由曲率参数化，超平面被定义为测地线。例如，球面嵌入用于少量学习[40]和人员重新识别[41]。双曲空间也有重要的应用，特别是在与图形相关的任务中[27，6]。例如，树可以以任意精度嵌入庞加莱球。双曲神经网络[11]用于自然语言处理和图像检索[16]。2.2. 深度度量学习基于对的损失：基于对的方法在显式正或负对上定义其损失。在这些方法中，对比丢失[9，4]和三重丢失[43，32]是两个开创性的例子。广义三重损失，例如N对损失[34]和提升结构损失[29]，将多个正或负数据点与锚点相关联。基于这些工作，通用对加权（GPW）[44]提出了一个统一对加权的框架。基于代理的损失：最初的基于代理的工作是Proxy-NCA [25]，这是邻域分量分析的近似版本，通过计算嵌入和集群代理之间的距离。最近开发了几个扩展，包括 SoftTriplet loss [31] ， Proxy Anchor [17] 和ProxyNCA++ [39]。基于代理的方法是有效的，但代价是数据到数据关系的粗糙化捕获。最近，还有一个统一的基准，用于深度度量学习方法的综合视图[26]。2.3. 深层隐含层深度神经网络严重依赖于基于梯度的优化，例如动量随机····9920→对比三重代理grouplet嵌入代理用于数据分发。基于对的损失显式地考虑从不同聚类采样的数据点之间的关系例如，三元组损失考虑由锚、正样本和负样本诱导的所有有效子图。具体地，三重丢失试图将数据嵌入到流形，使得锚点强连接到阳性样本，并且弱连接到阴性样本。或者，基于代理的方法引入辅助代理来总结不同的集群，这可以被解释为一个层次化的emc。图2：DML的图示。左：嵌入（实线圆）用于数据点和代理（虚线圆）。不同的颜色表示不同的聚类。中间：三个代表性DML损失和相关子图。节点之间的彩色实线表示正对，黑色虚线表示负对。右：一个群和相关的子图。边（由最优传输计算的权重）表示小分组与代理之间的关系。[ 37 ][38][39][39][39][39]然而，约束优化很少被集成到深度神经网络中，由于边界自动微分的困难。最近，神经常微分方程[7]为剩余神经层提供了一种新的解释，它指出每个剩余层可以被视为一个微分运算。受此观点的启发，深度神经网络可用于解决凸约束问题，称为可微优化[1]。例如，OptNet [2]设计了一个特殊的深层来解决二次规划问题。3. 方法在本节中，我们首先在§3.1中提出了一个统一的深度度量学习图。从这个角度来看，我们在§3.2中描述了我们的群DML范式，并在§3.3中介绍了我们的非欧几里德嵌入。§3.4中讨论了可微分的最优传输层，这使得我们的方法具有端到端的可训练性。3.1. 从图形的角度DML方法通过约束数据点之间的距离来学习数据点的嵌入。在介绍我们的小组非欧几里德方法之前，我们首先提出了理解深度度量学习的图形视角，如图所示二、从图形的角度来看，我们consider加权图的嵌入被视为节点表示编码的数据点。我们定义f：R R将节点距离映射到边缘权重。在此公式下，流行的DML范例可以被解释为学习受约束的局部结构。层理构造基于代理的损失表征代理和数据点之间的关系，其可以被视为加权二分图。与基于对的损失并行，二部子图的局部连接模式被优化以适应数据关系。与基于代理的损失相比，基于对的损失可以学习更准确的局部结构，作为直接评估子图的结果。然而，它们涉及关于子图的组合数量的相当昂贵的训练成本。基于代理的损失是有效的，因为它们的训练是在二分数据代理子图上定义的点估计3.2. 分组深度度量学习在本文中，我们提出了一种混合范式-层次子图组成的多个数据点（简称为grouplet）和代理。与基于对的方法相比，我们的分组更灵活-既不指定数据点的精确数量，也不指定数据点的聚类。相反，我们明确地学习的二部子图的结构值得注意的是，我们的混合方法继承了基于代理的方法的计算效率，同时通过灵活的grouplet保存成对的关系，因为数据关系被编码在最优传输问题的约束中。在下一部分中，我们将详细介绍非欧几里德嵌入的选择和相关的相似性。我们认为集群明智的代理的c集群，这是一个标准的步骤，基于代理的方法。k-群被定义为k个随机采样的数据点。我们的群损失被定义在二部子图，由一个k-群和代理。值得注意的是，我们的小组没有集群考虑，即。未指定正对和负对的数量。相反，我们通过最优运输成本来表征二部子图，其中正对和负对是自动识别的。形式上，k-群的嵌入被去-记为Y∈Rn×k和代理P∈Rn×c。yi∈Rn和pj∈Rn分别是第i次数据嵌入和第j次假设我们有dp：Y × P →R定义嵌入空间YRn和代理空间PRn之间的相似性。假设运输成本为嵌入代理9921−.ΣΣ̸Σi=1{|联系我们·+pxij与计算的xiti配对，并插入负对i=1i-约束中的关系，其中-|CP|0IJIJp0IJIJIJΣ联系我们i=1j=1数据��′骨干非欧几里得层庞加莱球图3：骨干h′的输出被转换为非欧几里德嵌入y。代理P和决策超平面在相同的非欧几里德空间中。庞加莱球中的数据表示是分散和分层的。彩色线表示不同聚类的决策超平面。类似于欧几里德的情况，不同超平面之间的边缘-由非欧几里德空间中的测地线表征-受到约束。c ij=1f（dp（yi，pj）），即表示数据相似性的边权重。我们有关于嵌入和代理的最优传输成本W（Y，P）log1+{i|ti=j}（1+xi j）exp（di j）和|·|在集合上，去注释基数。 α和δ是代理锚引入的参数，我们遵循kc原始文件。请注意，与天真的代理相比W（Y，P）=minΣΣcij xij，（1）锚丢失，我们用正代理嵌入代替k c表示不匹配的xij。S.T.xij≥0，Σxij=sj，Σxij=di，i，ji=1j=1这里xij是对数据点yi和代理pj之间的关系进行编码的流。在训练阶段，我们有数据标签，表示为ti。因此，x ii对yi和pii之间的正向关系进行编码，并且当j = t i时，xi j对负向关系进行编码。与硬编码对相比，最优传输问题显式地考虑了我们的小组范式显式地和自动地去-时间运输问题此外，我们的方法是基于随机选择的数据点。群的构造不需要特定的正或负对选择，也不迭代群的所有可能组合。从最优传输计算的流也允许我们的方法受益于基于代理的方法的加速训练。data-wise-via（数据方式经由）IJ继承了基于对的方法中精确的局部结构估计。我们将x ij解释为数据i与聚类j在一起的概率。因此，对于所有i，di自然地被设置为1。我们让sj=K其中I是指示函数，其对应于正代理和数据标签的理想匹配。（1）可以通过可微层求解，我们将讨论保留到§ 3.4。给定i，x ij j1，. . .，c表示数据点i和所有代理之间的关系。内grouplet（即数据方面）的关系被分解的约束的最佳运输。我们可以安全地将xij插入到基于代理的损失中。在本文中，我们采用代理-锚损失[17]，并且我们的分组损失可以写为，1Σ+（X，P）=f（{d}，{x}）+（2）j∈C+为了从基于代理的方法中继承树状分层数据结构，我们建议采用非欧几里德嵌入，这可以凭经验提高模型性能。在以前的工作中，数据嵌入和代理是在欧氏空间。最近，非欧空间被证明是适合于分层数据。例如，图像的双曲嵌入[16]可以通过少量学习任务有效地利用。受非欧表示学习成功的启发，我们提出在非欧空间中学习数据嵌入和代理，并定义相似度dp（）具体来说，我们使用的是庞加莱球模型，该模型在图像嵌入中被证明是成功的，在我们的模型中也能很好地工作。庞加莱球1f（d−，x），|C P|j∈Cp这里C+={j| i，ti=j}，d+=−α（dp（xi，pj）−δ），Cp={1，. . . ，c}，d−ij=α（dp（xi，pj）+δ），f0（{dij}，{xij}）=定义了欧氏空间的并行运算，包括指数/对数算术映射、M ¨ bius加法等. .关于几种不同几何结构的综合评价总结在消融研究§4.3.2中。有关更多详细信息，我们建议读者重新-通过受约束的操作来终止数据明智的关系Cj=1 X=d3.3.非欧几里得数据嵌入模型是从黎曼流形推导出来的。Poincare球可以用M¨bius回转空间来刻画，在9922--→⌊⌋×∈˜X00000000K··×→文学作品[11，22]。我们的非欧几里德嵌入的详细结构如图所示。3.第三章。为了公平比较，涉及对先前工程中的结构的最小修改。我们只用相同大小的非欧几里德层替换欧几里德层，其余部分不动。唯一的附加超参数是庞加莱球的半径。值得注意的是，骨架结构产生欧几里得表示。因此，中间表示法应在-这里，N=ck，f（x，θ）=cx，xRN，以及第k个条目是x ij，其中i=k/n并且j=kmodn。是运输成本的向量化形式。G（θ）= diag（1N），其中diag（）将给定向量映射到对角矩阵。注意G（θ）通常是一个函数在θ上，在我们的问题中，我们取一个常数函数。设s∈Rm和d∈Rn是向量化的 sj （θ）和di（θ）. h（x，θ）= Ax − [s，d]，其中[s，d]是s和d的级联。 A ∈ RM ×N，其中M = c + k，定义为，将其馈送到非欧几里得层。为了简单起见，给定一个半径为c的庞加莱球Dc，我们假设中间表示y′在原点Tc处的庞加莱球的切空间中。变形可以写成-⊺KA=. ..⊺.（四）十个项目c0 c′. 在这里，c是expo-diag（1k）· · ·diag（1k）y=（exp0（y））exp0（·）将T c中的点投影到华盛顿特区在非欧几里德层之后，嵌入也非欧几里德为了一致性，代理也表示在同一个庞加莱球中，我们在（2）中定义dp（y，p）：T0DcT0DcR为非欧余弦相似性dp（y，p）=gD（ logc（y），logc（p））。这里，logc（）是到Tc的对数映射，并且gD（）是Dc上的黎曼度量。还应当强调的是，对于变换或非欧几里德余弦相似性计算，不需要额外的参数。通过非欧几里得表示学习和相关的相似性，我们可以利用数据分布的层次结构。具体来说，我们的非欧几里德DML只引入了一个额外的超参数，这使得调整我们的模型的工作量最小3.4. 可微最优传输层在我们的深度模型中直接积分（1）将导致难以处理的梯度。为了解决这个难题，我们L（x，v，λ，θ）=cx+λG（θ）x+vh（x，θ），（5）这里v和λ分别是约束中等式和不等式的对偶变量很容易证明（3）满足Slater因此，（5）的KKT条件是（3）的充分必要更具体地，令z=（x，v，λ），我们定义g（z，θ）= ΣxL（z，θ），diag（λ）G（θ）x，h（x，θ）Σ. （六）如果对于某个z~=（x~，v~，λ），g（z ~，θ）=0，其中x~和v~都是可行的，则满足KKT条件并且x~是最优的。关于z的部分雅可比矩阵是，DxxL（z，θ） G（θ）<$Dxh（x，θ）<$Dzg（z~，θ）=diag（λ~）G（θ）G（θ）x~0，借助于对最优传输计算进行编码的深隐式层。（1）是一个线性规划问题，计算小群和代理之间的1-Wasserstein距离。cij、sj和di是与嵌入相关的参数Dxh（x~，θ） 00关于θ的部分雅可比矩阵是（七）dings，它可以被视为定义在某个输入θ上的函数。在我们的情况下，θ可以被解释为骨架模型和其他相关模型参数的中间嵌入。深层隐式层利用KKT（w.r.t. 使用隐函数定理。因此，我们可以通过插入隐式最佳传输层来计算（1）中的xij，从而对于自包含性，下面给出对最优传输进行编码的深度隐式层我们首先以紧凑的形式重写（1）W= min f（x，θ），s.t. G（θ）x ≤ 0，h（x，θ）= 0，（3）Dθg（z~，θ）=[DθxL（z~，θ），0，Dθh（x~，θ）]。（八）下面的定理描述了凸优化的可微性。定理1. （可微凸优化[3]）给定凸问题，假设（1）Slater条件成立，（ 2 ）所有导数存在，（ 3 ） {i|λi=0 且 fi （ x ，θ）}=∞，（4）D×g（x，v，λ，θ）是非奇异的r. 如果g（x~，v~，λ~ ，θ）=0，则解映射具有围绕x~，v~，λ~的单值局部化s，其在θ的邻域Q中连续可变Dθs（θ）=−Dzg（z~，θ）−1Dθg（z~，θ），11（3）是一个约束凸问题，其拉格朗日量为，9923θ∈Q。（九）9924×××备注。定理1是隐函数定理[ 20 ]的直接结果。回想一下，在我们的问题中，θ是子图的嵌入。定理1指出梯度w.r.t. θ可以通过组合（7）和（8）来计算。换言之，反向传播是可行的。我们的最优运输问题的优点是，数据明智的关系被明确考虑的约束。同时，上述结果允许可区分的最优运输问题被公式化为插入到我们的分组损失中的可训练层，这使得我们的范例端到端可训练。4. 实验结果4.1. 实验设置数据集实验是在CUB-200-2011 [42]，Cars 196 [21]和Stanford Online Products [29]数据集上进行的图像我们按照常规协议[29]分割训练集和CUB-200-2011 [42]包含了200种鸟类的11，788张图片。前100个物种（5864张图像）用于训练，其余100个物种（5924张图像）用于测试。Cars196 [21]包含196个类和16，185个汽车图像。前98类（8054个图像）用于训练，其余98类（8131个图像）用于测试。Stanford Online Products [29] 包含 22 ， 634 个类和120，053个产品图像。前11，318个类（59，551个图像）用于训练，其余11，316个类（60，502个图像）用于测试。评估指标我们计算了im的Recall@n年龄检索任务对于每个查询图像，返回标识的前n个最相似的图像，并且与查询共享标签的检索到的图像是正的，其余的是负的。此外，我们使用归一化互信息（NMI）的基础上的K-均值算法的聚类性能进行评估。实施详情：我们使用ResNet-50作为在ImageNet数据集上使用无监督预训练模型初始化的骨干模型[5]。非欧几里德层是从双曲图卷积网络[6]的实现中采用的，使用的是c=4的庞加莱球流形。我们采用ProxyAn中的默认设置-Chor [17]，α=32和δ=0。1、不需要任何调整。的grouplet大小为4。训练批次是相同的意思-使用常规的基于代理的方法。例如，批量大小为64意味着我们从训练集中采样64张图像然后将图像分成16个小组。我们强调，我们的方法我们采用OptNet [2]反向传播是通过定制的QP求解器1经由自动差分来完成的。为了使我们的问题适合OptNet，我们只需要在目标函数中插入一个小的二次项10−4（xx）。最佳运输可以被视为目标的一部分其不涉及测试阶段。CUB-200-2011 [42]和Cars 196 [21]的类数适中，使用所提出的方案可以有效地解决。Stanford Online Products [29]的类号明显较大，这可能导致内存不足问题。因此，对于每个批次，我们仅使用与该批次共享标签的代理计算最佳传输，其余的从计算中排除。我们的方法在PyTorch中实现，并使用NVIDIA P40GPU进行训练。用于训练和测试的输入图像大小都在224中。在训练过程中，我们使用随机裁剪和水平镜像进行数据增强。对于测试阶段，我们将图像大小调整为256 - 256，然后根据中心裁剪计算嵌入。我们使用Adam优化器，骨干模型的学习率为0.0001。代理的学习率乘以100以加速训练。我们使用批量大小64训练模型60个epochs。我们使用余弦退火调度器，具有5步预热。此外，我们使用5 epoch的热身代理，这可以稳定的训练。4.2. 与最新方法的表1总结了我们的方法与最先进的DML方法的比较图像大小对模型性能有重要影响，因此，我们只包括裁剪大小为224 224的方法。在所有数据集上，我们的方法优于以前的各种嵌入大小的艺术。在CUB-200-2011和Cars-196上，我们的方法的结果明显优于所有以前的方法。例如，在CUB-200-2011上，我们的方法（嵌入大小为512）比第二好的方法好5。R@1中的7%与CUB- 200-2011相比，Cars-196是一个相对简单的数据集。在这个数据集上，我们的方法也产生了3的改进。8%，与第二种最佳方法相比。请注意，我们的方法的结果是在64的小批量大小上计算的，而代理锚的最佳性能因此，我们的方法不仅实现了最佳的性能为不同的嵌入大小，但也有较低的硬件要求的训练。SOP的数据统计与CUB-200-2011和Cars-196有显著差异SOP中每个类平均约有5个图像，而CUB-200-2011和Cars-196有50多个图像。该差异可以来解决最优运输问题。 OptNet设计用于解决二次规划（QP）问题。的1https://github.com/locuslab/qpth9925Cub-200-2011中国人196斯坦福在线产品NMIR@1R@2R@4NMIR@1R@2R@4NMIR@1R@10R@100[29]第二十九话G五十六6四十三6五十六668岁6五十六9五十三0六十五7七十六。088岁762. 5八十891. 9[28]第二十四我五十九2四十八261岁4七十一8五十三451岁563岁8七十三。589岁。566岁。782岁491. 9ProxyNCA64 [25]智能采矿64[13][31]第三十一话我GI五十九5五十九966岁。2四十九2四十九8六十岁。161岁962. 3七十一967岁974岁181. 2六十四9五十九569岁。3七十三。2六十四7六十五482岁4七十六。2七十六。486岁。484. 284. 5九十6−91. 7七十三。7−七十六。3−−89岁。1−−九十五3ProxyGML64 [53]我六十五1五十九4七十1八十467岁978岁987岁591. 989岁。8七十六。289岁。4九十五4ProxyAnchor64 [17]我−61岁7七十三。081. 8−78岁887岁092. 2−七十六。589岁。0九十五1建议64R七十一566岁。5七十七。3八十五2七十三。883岁9 九十494 1九十779岁。1九十8九十六。2保证金128[47]R69岁。063岁674岁483岁169岁。179岁。686岁。591. 9九十7七十二786岁。2九十三8建议128R七十三。5七十079岁。987岁075. 687岁8 92. 5九十五5九十9八十891.9九十六。7HDC384 [51]ProxyGML384 [53]G我−68岁4五十三6六十五2六十五7七十六。4七十七。084. 3−七十9七十三。784. 583岁2九十489岁。594 5−九十169岁。5七十七。984. 4九十092. 8九十六。0建议384R75. 774岁082岁889岁。278岁7 91. 094 5九十六。8九十982岁192. 8九十七2HDML512 [52]G62. 6−−−−69岁。3−−−69岁。069岁。8−−五十三7五十七1五十七4五十七5六十岁。6六十五4六十五762. 566岁。7六十五566岁。668岁469岁。7六十五768岁869岁。768岁7七十一5七十六。4七十七。0七十三。9七十七。4七十七。0七十七。679岁。2八十0七十六。778岁779岁。278岁379岁。884. 586岁。383岁086岁。2八十五086岁。486岁。888岁169岁。7−−−−七十1−−−七十二7七十二4−−79岁。181. 474岁082岁0八十五284. 584. 186岁。383岁4八十五6八十五586岁。187岁787岁188岁083岁689岁。0九十5九十7九十492. 389岁。891. 291. 891. 7九十三092. 192. 7九十1九十三294 094 594 0九十五494 194 9九十五3九十五0九十六。189岁。3−−−−92. 0−−−91. 1九十2−−68岁774岁8七十六。174岁2七十六。378岁378岁278岁078岁375. 778岁079岁。1−83岁288岁389岁。186岁。988岁4九十3九十591. 2九十588岁2九十6九十8−92. 494 8九十五494 094 8九十五9九十六。0九十六。7九十六。194 8九十六。2九十六。2−HTL512 [12]我RLL-H512 [45]我A-BIER512 [30]GABE512 [18]G[31]第三十一话我MS512 [44]我TML512 [50]R[35]第三十五话我GL512 * [10]GProxyGML512 [53]我ProxyAnchor512 [17]我ProxyAnchor512 [17]R建议512R七十六。475. 483岁4九十1七十七。691. 594 8九十六。991. 182岁092. 7九十七2表1：与现有技术方法的比较。上标表示嵌入维数。最好的结果用黑体表示，亚军用下划线表示。如果结果无法从9926×原始论文中获得，则单元格用“-”填充骨干网络由基线旁边的缩写表示：I-Inception with batch normalization [15]，G-GoogleNet [38]和R-ResNet-50 [14]。请注意，GL512 *[10]使用227×227图像而不是224 ×224。导致不同数据集之间的性能改进差距。然而，我们的方法与大多数最先进的方法相比具有更好的值得注意的是，TML [50]和GL [10]是两种相关的方法，它们也使用随机生成的数据组来计算数据相似性。然而，TML [50]需要迭代元组和专门的挖掘技术的所有组合，与我们的方法相比，这远远没有那么高效，也没有那么可扩展与GL [10]相比，我们的方法自动计算数据关系并学习非欧几里德嵌入。此外，我们的模型表现明显优于TML [50]（12. 9%高于CUB-200-2011的R@1）和GL [10]（9. CUB- 200-2011上的R@1高9%）。为了进一步证明我们的方法的性能，我们提出了一些定性的结果图。4.第一章该方法的嵌入可以准确地检索各种挑战下的相似实例，包括姿态变化。CUB-200-2011和Cars- 196中的背景和背景杂波，以及SOP中的视点变化。4.3. 消融研究4.3.1模型灵敏度和效率如上所述，我们的方法继承了基于代理的方法的计算效率。此外，与基本方法Proxy-Anchor相比，我们的方法表2比较了Proxy-Anchor和我们的方法的计算资源。对于代理锚点，我们包括两个设置。批量大小对模型性能有着巨大的影响，为了实现最佳性能，需要高达16 G的内存。与Proxy-Anchor相比，我们的方法具有可比较的每历元训练时间，并且消耗的内存显着减少。例如，Proposed16 4（等于批大小64）的性能要好得多，并且只消耗9927×× ××（一）（b）第（1）款查询前4个检索请参见CUB-200-2011的实证答案。第一，非欧层是否改善了嵌入学习。为了证明集成非欧几里德层的影响，在表3中，我们检查了两种最先进的方法ProxyGML和ProxyAnchor在不同嵌入流形下的模型性能。我们使用作者提供的原始实现并改变嵌入层。在这里，欧氏指的是原始模型，双曲面和庞加莱球是两种不同的非欧氏流形。结果表明，非欧几里德层导致更好的嵌入，无论特定类型的损失。欧超P. 球ProxyGML512 [53]66岁。6六十五967岁1ProxyAnchor512 [17]68岁468岁168岁8建议51274岁8七十三。675. 4（c）第（1）款图4：（a）CUB-200-2011、（b）Cars-196和（c）SOP的定性结果。我们提出了前4个检索每个查询图像。绿色边界的反演为正例，红色边界的反演为失败例。即使对于失败的检索，基本上类似的视觉外观也与查询共享。表3：具有不同歧管的包埋层的比较。欧：欧几里德;超：双曲面; P.鲍尔：庞加莱的鲍尔。欧与标准设置相同。第二，关于歧管参数的性能有多敏感。非欧几里德层引入了额外的超参数，庞加莱球的半径c。在图5中，我们示出了模型性能与C.有信心我们相信模型的性能不是如果c≥2，则敏感。7776757473720.5 1 2 4 8半径表2：CUB-200-2011的资源需求对于所提出的方法，批由grou-plet grouplet大小表示，并且它们的乘积是代理锚中相同意义上的实际批量大小。Mem.是以千兆字节为单位的用于训练的最大存储器，并且Time是以秒为单位的每时期与ProxyAnchor64相比，内存减少30%。在表2中还包括群子k的大小的灵敏度。对于类似批量（16四、八8和126），模型性能对k值不太敏感。4.3.2嵌入流形为了证明非欧几里德层的影响，在这一节中，我们考虑两个重要的问题，第 512 章第512 章第 512章第5128× 416× 432× 48× 812× 63 .第三章。2六、111个国家。9六、1六、881736六十五七十五463755七四七四970747NMI召回@1数值（%）批记忆时间R@1ProxyAnchor512 [17]64六、04367岁1ProxyAnchor512 [17]180十六岁14069岁。09928图5：模型性能与c CUB-200-2011。基于上述结果，我们证明深度度量学习可能受益于正确定义的非欧几里德层。特别是，我们建议庞加莱球模型与c=4一般DML任务。5. 结论在本文中，我们提出了一个新的DML范式，在精确的成对关系的基于对的方法，和计算效率的基于代理的方法。我们的方法通过非欧几里德表示学习和相关的相似性利用数据嵌入的层次结构，并采用可微分的最优传输层来自动学习数据关系。实验结果表明，我们的方法显着优于以前的艺术在几个标准的基准数据集，消融研究也表明了我们的设计的有效性。9929\引用[1] Akshay Agrawal ， Brandon Amos ， Shane Barratt ，Stephen Boyd，Steven Diamond和Zico Kolter。可微凸优化层。arXiv预印本arXiv：1910.12430，2019。3[2] 布兰登·阿莫斯和J·齐科·科尔特。Optnet：作为神经网络层的微分优化。国际机器学习会议，第136-145页。PMLR，2017年。三、六[3] 谢恩·巴拉特。解的可微性凸优化问题。arXiv预印本arXiv：1804.05098，2018。5[4] Jane Bromley、Isabelle Guyon、Yann LeCun、Eduard S ¨ckinge r和RoopakShah。使用“连体”时间延迟神经网络的签名验证神经信息处理系统进展，第 737-737页，1994。2[5] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。 arXiv 预印本 arXiv ：2006.09882，2020。6[6] InesChami，R e xYing，ChristopherR e'，andJureLeskovec.双曲图卷积神经网络。神经信息处理系统的进展，32：4869，2019。二、六[7] Ricky TQ Chen，Yulia Rubanova，Jesse Bettencourt和David Duvenaud 。神经元常微分方程 arXiv 预印本arXiv：1806.07366，2018。3[8] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.除了三重态损失：一个深度的四元组网络用于人的重新识别。在 Proceedings of the IEEEconference on computer vision and pattern recognition，pages 403-412，2017中。1[9] Sumit Chopra Raia Hadsell和Yann LeCun。学习相似性度量有区别地，与应用到人脸验证。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2005年。2[10] IsmailElezi，SebastianoVascon，AlessandroTorcinovich，MarcelloPelillo，andLauraLeal-T ai xe´. 深度度量学习的组损失欧洲计算机视觉会议，第277-294页。Springer，2020年。7[11] 欧根·加内亚、加里·贝西纽和托马斯·霍夫曼。双曲神经网络arXiv预印本arXiv：1805.09112，2018。二、五[12] 葛伟峰。深度度量学习与分层三元组丢失。在欧洲计算机视觉会议（ECCV）的会议记录中，第269-285页，2018年。7[13] Ben Harwood，Vijay Kumar BG，Gustavo Carneiro，IanReid，and Tom Drummond.深度度量学习的智能挖掘。在IEEE计算机视觉国际会议论文集，第2821-2829页，2017年。7[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。7[15] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协作加速深度网络训练变量移位在机器学习国际会议上，第448-456页。PMLR，2015. 7[16] Valentin Khrulkov，Leyla Mirvakhabova，Evgeniya Usti-nova，Ivan Oseledets，and Victor Lempitsky.双曲线图像嵌入。在IEEE/CVF计算机视觉和模式识别会议论文集，第6418-6428页二、四[17] Sungyeon Kim 、 Dongwon Kim 、 Minsu Cho 和 SuhaKwak。用于深度度量学习的代理锚丢失在IEEE/CVF计算机视觉和模式识别会议论文集，第3238-3247页一、二、四、六、七、八[18] Wonsik Kim、Bhavya Goyal、Kunal Chawla、JungminLee和Keunjoo Kwon。深度度量

下载后可阅读完整内容，剩余1页未读，立即下载