自学框架：一种无监督度量学习的新方法

32 浏览量更新于2023-10-25 收藏 819KB PDF 举报

非监督学习

自学框架

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7431†无标签的Sungyeon Kim1Dongwon Kim1Minsu Cho1，2Suha Kwak1，2 Dept.CSE，POSTECH1人工智能研究生院， POSTECH2{sungyeon.kim，kdwon，mscho，suha.kwak} @postech.ac.krhttp://cvlab.postech.ac.kr/research/STML/摘要我们提出了一种新的自学框架，用于非监督度量学习，该框架通过嵌入模型的移动平均来预测数据之间的类等价关系，并使用预测的关系作为伪标签来学习在我们的框架的核心在于一个算法，调查嵌入空间上的数据的上下文，以预测它们的类等价关系作为伪标签。该算法实现了高效的端到端训练，因为它不需要现成的伪标记模块。此外，类等价关系为学习嵌入空间提供了丰富的监督信号。在度量学习的标准基准上，它明显优于现有的非监督学习方法，有时甚至击败使用相同骨干网络的监督学习模型。它还被应用于半监督度量学习，作为利用额外的未标记数据的一种方式，并通过大幅提高监督学习的性能来实现最新技术水平。1. 介绍理解数据之间的相似性是许多机器学习任务的核心，例如数据检索[29，37，47，48]，人脸验证[35，45]，人重新识别[7，56]，少量学习[41，46，49]，以及表示学习[29，52，61]。度量学习通过学习一个嵌入空间来体现相似性的感知，在这个空间中，一对数据之间的距离表示它们的逆语义相似性。此外，从数据到这样的空间的映射通常由深度神经网络建模度量学习的最新进展严重依赖于使用大规模数据集的监督学习。然而，对这些数据集的手动注释是昂贵的，并且因此可能限制训练数据的类别多样性，并且因此限制学习模型的泛化能力。无监督度量学习已经被研究来解决这个问题。存在-62585450464232 64 128 256 512 1024 2048嵌入维数图1.使用GoogleNet [50]主干的CUB-200-2011 [54]数据集上Recall@1与嵌入维度的准确性。上标表示嵌入维数，并表示监督学习方法。我们的模型具有128个嵌入维度，优于所有以前的使用更高嵌入维度的技术，有时甚至超过监督学习方法。这一研究领域的方法主要通过为每个训练实例分配代理类来合成训练数据的类信息[13，55，59，60]或发现伪通过k-均值聚类[3，4，26，33，34，57]，分层聚类[57]或随机游走[25]进行分类尽管这些方法在训练中不使用地面实况标签的情况下表现出令人印象深刻的结果，但由于现成的技术[3，4，25，26，33，34，57]，它们通常无法捕获类内变化[13，55，59，60]或施加大量计算负担在本文中，我们提出了一种新的无监督度量学习方法如图1所示。本文的主要贡献是双重的。首先，我们介绍了一种新颖的端到端自学度量学习框架（STML），其整体流水线如图2所示。与现有的工作不同，它预测类等价关系的数据在每个小批量的自我探索，并利用预测的关系作为度量学习的综合监督我们的框架管理两个嵌入网络，即STMLUHMLROULSanPSLRISIF妈妈DeepClusterABIER方法[27][28]第二十八话STML[28]第二十八话SAN [34]STML[39]第三十九话UHML [59]Arch.G64G64G64G128G128G128G512G512G512R@145.352.055.056.755.959.757.558.960.6召回@17432向前落后由EMA更新由EMA更新用于评价用于评价仅用于培训图2.我们的STML框架概述。首先，在教师网络的嵌入空间上估计一对数据之间的上下文语义相似性。然后将语义相似度用作伪标签，并通过具有KL发散度的松弛对比损失来粉色箭头表示向后梯度流。最后，教师网络由学生的指数移动平均值更新学生网络通过多次迭代这些步骤来学习，其浅绿色的骨干和嵌入层被认为是我们的最终模型。教师和学生，其主干被相同地初始化。一对数据之间的类等价性被近似地估计为它们在教师网络的嵌入空间上的语义相似性预测的相似性被用作用于学习学生模型的软伪标签，并且教师模型进而通过学生的基于动量的移动平均来迭代这个过程会逐步演化学生模型。STML的成功很大程度上取决于预测语义相似性的质量，我们的第二个贡献在于使用上下文来估计语义相似性的方法。具体来说，给定一对数据，我们计算它们的语义相似度，考虑它们的上下文的重叠（即，嵌入空间中的邻域）以及它们的成对距离。我们发现，上下文化的语义相似性近似类等价精确。此外，由于它具有指示语义相似度的真实值，因此它提供了超越二进制类等价的丰富信息。此外，由于它不需要外部模块也不需要内存库[20，31]，它使STML高效和简洁。为了进一步提高预测语义相似度的质量，我们设计了教师网络来学习比学生网络更高维的嵌入空间。两个网络的这种不对称设计允许教师提供更有效的监督，这要归功于其改进的表达能力，而学生，即，我们的最终模型仍然很紧凑。据我们所知，STML是唯一的无监督度量学习方法，可以在端到端训练中考虑数据之间的语义关系，而无需引入现成的技术。与实例级代理类[13，55，59，60]相比，STML生成和利用的伪标签更合适以捕获数据之间的语义关系，因为它们指示类等价关系。此外，与以前基于伪标记的工作不同[3，4，25，26，33，57]，STML不使用外部算法，因此允许训练高效，端到端，并且对超参数不敏感此外，它自然地应用于半监督度量学习[14]以及无监督度量学习。我们首先在度量学习的标准基准上评估STML [32，48，54]，它在很大程度上优于现有的无监督学习方法。令人惊讶的是，有时它甚至击败了一些使用相同骨干网络的监督学习模型，如图所示如图1所示。除此之外，它的有效性在半监督度量学习的两个基准上得到了证明[14]，在那里它也大大优于以前的工作。2. 相关工作无监督度量学习主要在两个不同的方向上解决，实例判别[13，55，59，60]和伪标记[3，4，25，26，33，34，57]。福尔-根据对比学习策略[2，6，8，20]，实例判别方法为每个训练实例分配唯一的标签，并学习其中不同实例被很好地判别的嵌入空间。不幸的是，他们在建模每个潜在类中的变化时遇到了麻烦。另一方面，伪标记方法通过将k均值聚类[3，4，26，33，34]，分层聚类[57]和随机游走[25]等现成算法应用于未标记的训练数据来发现伪类。这些方法可以通过利用现有的监督度量学习损失[19，45，53]与伪标签来考虑训练数据之间的类等价关系。怎么-7433k=1KIJ−IJ我 J 2KK这些方法的主要缺点是辅助算法所带来的过高的复杂性，这阻碍了端到端的训练。Duan等人最近引入的半监督度量学习 [14]假设训练数据集由标记和未标记数据组成。以前的工作是通过k-均值聚类发现和分配伪标签到未标记的训练数据。不幸的是，它也遭受使用伪标记的无监督学习的上述缺点自监督表示学习旨在学习高质量的中间特征，以推广到其他下游任务。为此，已经提出了各种无注释的文本前任务，例如：旋转预测[17]，解决拼图[38]，图像彩色化[62]和IM-年龄修复[40]。伪标签也被广泛算法1自学度量学习输入：教师模型t，学生模型s，内核带宽σ，动量m，批量大小n。1：设θt=θt<$θgt，θs=θs<$θgs2：相同地初始化t和s的主干。3：对于epochs的数量，4：使用最近邻构造小批量批量施工第一步5：对于迭代次数，6：对于小批次{xk}n中的所有样品，7：zt←（gtt）（xk）8：zfs←（fss）（xk），zgs←（gss）（xk）9：结束10：对于所有i∈{1，···，n}和j∈{1，···，n}，执行步骤#211：wP←exp（−||2/ σ）||2/σ)12：使用等式计算wC。（7，8，9）。13：wij←1（wP+wC）因为它允许使用常规损失来学习模型;14：结束2ij ij在这个方向上的现有方法通过聚类[4]发现伪类，或者将每个训练实例作为替代类[6，13，20，55]。此外，作为代理类的扩展，最近邻已被用作自监督学习的正集[15，23，31]，但它们通常会产生噪声标签，除非预先提供经过充分3. 该方法本节首先概述了我们的自学度量学习框架，称为STML。然后详细描述了STML的各个步骤，以及如何对上下文语义相似度进行估计，这是对我们框架的综合监督。3.1. 概述STML能够在不使用任何现成技术的情况下实现高效的端到端训练，同时通过生成和利用近似其类等价的伪标签来捕获数据之间的图图2展示了STML的整体流水线它管理两个具有相同初始化主干的嵌入网络：教师和学生。教师网络用于估计数据之间的语义相似性作为它们的近似类等价关系，而这些类等价关系又用作训练学生网络的综合监督。特别是，教师模型利用了高维（例如，1024或2048）将层GT与教师的骨干编码器GNT嵌入。高维空间的使用允许教师嵌入层编码更丰富的信息并产生更可靠的语义相似性。我们的学生模型有两个共享主干编码器的par-bandwidth嵌入层fs和gs。 f s是我们最终模型的嵌入层，并且具有较低的维度（例如，128或512）来学习紧凑的嵌入空间。gs是一个辅助层，15：使用等式15计算LSTML。（3）优化t.第三步16：θt←mθt+（1−m）θs<$步骤#417：结束18：结束19：返回学生模型s连续地更新教师嵌入层Gt，并因此具有与Gt相同的输出维度。算法1详细描述了STML的实现过程。首先，教师网络估计近似数据之间的类等价关系的语义相似性，这反过来又被用作训练学生网络的合成监督。然后，教师网络由学生的基于动量的移动平均值更新我们的最终模型是通过迭代这种交替优化预定义的次数获得的学生网络在下一节中，我们将详细介绍STML的每个步骤。3.2. 自学度量学习框架步骤#1：最近邻批处理构造。构建小批量训练的方式对度量学习的性能有很大的影响[16，44]。最广泛使用的批量构造方法之一是pk- sampling：它随机选择p个唯一的类，然后对每个类随机采样k个由于这种方法利用了训练数据的类标签，因此它在无监督学习设置中是有限的相反，我们提出了一个新的策略，基于最近邻搜索。对于每个小批量，它随机采样q个查询，然后搜索每个查询的k1个最近邻居;包括查询和它们的最近邻居，小批量的大小为qk。我们的策略简单、快速，但允许小批量生产，包括不同的相关样品。步骤#2：生成合成监督。监督度量学习方法通常采用数据之间的监督类等价关系，这是如何-7434我∈fsfsnZIJIJ我Jnk=1我Kfs和fs之间的有效距离，则损失由下式给出：−我J 2KLnIJ（−dfs）我我ΣΣΣ+电源（1−wij+·在我们的环境中从来没有。STML替代地通过教师嵌入空间上的数据之间的语义相似性来近似类等价关系，其被用作学习学生模型的合成软监督。主要的挑战是教师嵌入空间不够成熟，无法在无监督学习的早期阶段掌握数据之间的语义关系因此，我们提出了上下文语义相似性，它衡量一对数据之间的相似性，同时考虑到它们在教师嵌入空间上的上下文;它的细节在第二节中介绍。三点三步骤#3：学习学生模型。我们同时优化学生模型的两个分支，使用上下文语义相似性作为综合监督。然而，由于它的值是软的，因此上下文化的语义相似性不能与以离散标签作为监督的普通度量学习损失合并。因此，我们采用了放松的对比损失[28]，它旨在利用软关系标签进行度量学习。设Wij为语境化语义，xi与xj之间的相似度，z fs表示fs生成的xi的学习嵌入向量. 定义dfs：=||zfs−zfs||2/（1n||z−z||（2）相对论--步骤#4：教师模型的动量更新教师模型应该随着学生模型的训练而更新，使得从教师嵌入空间计算的合成监督逐渐增强。最简单的更新策略是在每次迭代中用学生模型替换教师模型然而，这可能会恶化迭代过程中合成监督的一致性，从而导致学生模型的不稳定训练因此，我们通过学生的基于动量的移动平均来更新教师模型，除了嵌入层fs，因为教师模型只有一个高维模型。设θt是教师模型的参数，θt是教师模型的参数，θ t是教师模型的参数，gt是教师模型的参数。然后θt更新为θt<$−mθt+（1−m）θs，（4）其中m[0，1]是控制动量更新速率的系数，随着其值的增加，教师模型的更新速度会减慢。3.3. 语境化语义相似度预测的语义相似性的质量在STML中是至关重要的，因为它们是STML的唯一监督。训练然而，计算Reli并不简单I j尤其是在早期阶段，n nLRC（Zfs）=1wi=1ji. dfs2（一）在教师网络显著的地方，不完整为了克服这一挑战，我们建议使用上下文，即数据流形上的邻域。n n1尼伊季i=1j=i）δ−dfs2，我们的核心思想是不依赖于仅考虑两个感兴趣的图像的关系，而是通过它们的上下文来确定它们的间接语义关系他们的多样性--其中fs是由fs生成的所有学生嵌入向量，n是批次中的样本数，δ是边缘。上下文语义相似性作为吸引和排斥损失项的权重，从而确定在学生嵌入空间上拉动或推动一对数据的力的大小请注意，gs在fs上以相同的方式训练。此外，我们应用自蒸馏进一步利用复杂的高维信息的低维空间。在[43]之后，我们使用Kullback-Leibler散度作为自蒸馏的目标nnGs矩形关系可以有助于捕获在每个类中经常观察到的公共模式，从而理解底层的类等价关系。为此，我们设计了语境化的语义相似度。给定一对样本，它们的上下文语义相似度被定义为它们在教师嵌入空间上的成对相似度和上下文相似度两两相似。两个样本的两两相似度由WP表示的xi和xj由下式给出：.||2 Σ||2 ΣL（Zfs，Zgs）=1（−dgs）log（−dij），（2）其中，softmax（）是softmax操作。注意g的梯度流被截断了.总之，STML通过最小化定义为的总体损失来训练学生模型的两个分支fs和gs，LSTML（Zfs，Z gs）=1<$LRC（Zfs）+LRC（Zgs）<$其中z t是x的教师嵌入向量而σ是高斯核带宽。这种相似性已知当教师嵌入空间以完全监督的方式预训练时，对关于xi和xj的关系的丰富信息进行编码[28]，但在无监督度量学习中经常被破坏。因此，我们用上下文相似性来补充它，这在下面详细描述。上下文相似性。的基本假设2+LKL（Zfs，Zgs）.（三）上下文相似性是两个样本语义上越相似，它们的上下文重叠越大人们可以IJIJwP= expσ、（五）i=1j=iIJIJ7435∈IJIJ2HJIJIJw=IJ|R k（i）|K1将教师嵌入空间上的数据点的最近邻居视为其上下文，但是当嵌入空间还没有被充分训练时，它们经常包括不相关的数据。因此，我们将k-倒数最近邻视为上下文，因为已知它们会发现高度相关的候选项[42，63]。数据点xi的k-倒数最近邻的集合由下式给出：Rk（i）={j|（j∈Nk（i））<$（i∈Nk（j））}，（6）其中， Nk （i ）是x i的k 个最近邻，包括它自身（即，，i Nk（i））。上下文相似度的初始形式是在考虑xi和xj是否为k-倒数最近邻关系的情况下，度量Rk（i）和Rk（j）之间的重叠程度。由于x i和x j的邻居集的大小不同，我们设计了一个不对称的Jaccard相似度，如下所示：|Rk（i）<$Rk（j）|、如果j∈R（i），IJ4.1. 无监督度量学习我们将STML训练的学生嵌入模型作为我们的最终模型，并与最先进的无监督度量学习方法和代表性的自监督学习方法进行评估和4.1.1实验装置数据集和评估。在三个基准数据集上对模型进行了评估和比较，即。，CUB-200-2011（CUB）[54]，Cars-196（Cars）[32]和斯坦福在线产品（SOP）[48];对于他们的训练测试拆分，我们直接遵循[60]中提出的标准协议这些数据集上的性能由Recall@k评估，Recall@ k是在学习的嵌入空间上的k嵌入网络。为了与以前的工作进行比较，我们采用GoogleNet [50]和Inception-BN [24]作为我们的教师和学生嵌入模型架构。该迪-0，否则。此外，我们还采用了查询扩展的思想[1，10，11]来进一步提高其可靠性。具体地，y，w，C被重新公式化为xi和xi的最近邻居之间的上下文相似度的平均值，如下所示：将嵌入层的数量gt和gs设置为最后池化的输出大小，并且fs的数量遵循每个实验设置。我们在老师的顶部附加一个l2归一化层，以便等式中的欧几里得距离。（5）稳定地计算语义相似度。实作详细数据。STML的学生模型是wC=1|Nk (i)| h∈<$Nk（i）W.（八）在单个Titan RTX上使用Nesterov动量[22]进行90个epoch的AdamP优化;初始化学习率10- 4，并通过余弦衰减函数缩小[36]。在Eq中的扩展版本（8）不再是对称为了确保对称性，上下文相似性的最终形式被定义为w_C和i_ s转置的平均值，其由下式给出：wC=wC=1（w<$C+w<$C）。（九）ij ji2ij ji上下文语义相似性。最后，xi和xj之间的上下文化语义相似度被定义为它们在等式中的成对相似度的平均值。（5）和上下文的相似性方程。（九）：w ij=（w P+ w C）。（十）2ij ij注意，wP和wC都在[0，1]内，因此它们的尺度是平衡的。上下文语义相似度通过考虑数据的两两关系和上下文，有效地表示数据之间的语义相关性我们发现，语境化语义相似度与groundtruth类等价高度相关，这在Sec.4.1.4.4. 实验本节验证了STML在两个缺乏监督的度量学习任务上的有效性，即：非监督度量学习和半监督度量学习。2（七）7436××训练图像被随机裁剪为227 227，并随机水平翻转，而测试图像被调整大小为256 256，然后中心裁剪。对于所有实验，Eq.（1）设为3。边界δ、动量系数m和最近邻数k均为1。0，0。999和10在CUB和汽车数据集，和0。九比零。9和4在SOP数据集上。请注意，最近邻批次构造中的k和等式（1）中的k。（6）相同。批量建设。在STML中用于构造小批量的最近邻在学生嵌入空间上计算，并在每个时期更新在CUB和Cars数据集上，每个小批次由120个图像组成，包括24个查询及其4个最近的邻居。自SOP以来数据集每个类的样本数量很少，我们构建了一个包含60个查询及其在数据集上的前1个此外，所有图像都按照[28]中的多视图增强策略随机增强4.1.2定量结果为了与以前的工作进行公平的比较，性能评估是在以下设置中完成的： GoogleNet 的嵌入维数为64/128/512，Inception的嵌入维数为512本实验中的所有三个数据集的结果总结见表1。7437幼崽汽车SOP方法拱R@1R@2R@4R@1R@2R@4R@1R@10R@100监督[39]第三十九话57.569.778.382.089.093.274.286.994.0ABE [30] G51263.074.583.385.290.594.076.388.494.8MS [53] BN51265.777.086.384.190.494.078.290.596.0美国[27]69.178.986.186.491.995.079.290.796.2无监督（使用ImageNet预训练的嵌入网络）[25] G6445.357.868.6------罗马尼亚[26] G6452.064.074.5------STML G6455.067.578.642.054.465.964.979.689.3[25]第128话---35.548.260.643.357.273.2实施例[13] G12838.250.362.836.548.159.245.060.375.2[55]第55话51.463.737.548.759.846.662.376.8DeepCluster [4] G12842.954.165.632.643.857.034.652.666.8ISIF [60] G12846.259.070.141.352.363.648.964.078.0PSLR [59] G12848.160.171.843.754.866.151.166.579.8罗马尼亚[26]68.478.345.056.968.453.468.881.7SAN [34] G12855.968.078.644.255.566.858.773.184.6STML G12859.771.281.049.060.471.365.880.189.9UDML-SS [3] G512 54.766.977.445.156.166.563.578.088.6TAC-CCL [33] G51257.568.878.846.156.967.563.977.687.8[57]第512话70.680.447.758.970.365.178.288.3STML G51260.671.781.550.561.871.765.379.889.8UDML-SS [3] BN51263.775.083.8------STML BN51268.078.886.466.274.581.969.782.791.2表1.无监督和监督度量学习方法在三个数据集上的性能。它们的网络架构由缩写尤其是，由于不使用现成的算法，STML能够比现有的伪标记方法更有效地学习，特别是在大规模SOP数据集上。表2.使用ResNet18在没有预先训练权重的情况下对SOP数据集的性能在所有数据集上，我们的模型在每种设置下都达到了最先进的性能。它大幅提高了之前的最佳分数，在128个嵌入维度的Recall@1下从3.8%提高到7.1%。我们注意到，我们的模型明显优于所有现有的模型，其嵌入维数是所有数据集的4倍，有些是8倍。此外，在CUB数据集上，它甚至优于一些监督学习方法，例如。，ABIER [39]和MS [53]，给定相同的嵌入网络。这些结果表明，我们的框架允许模型通过提供高质量的合成监督来学习紧凑而有效的嵌入空间。最后但4.1.3无监督度量学习我们证明了STML对于从头开始的度量学习也是有效的，而无需在ImageNet上进行预训练。在[60]之后，我们使用随机初始化的ResNet18 [21]，其中128个嵌入维度作为骨干网络，并评估我们在SOP数据集上训练的模型。如表2所示，我们的模型基本上优于现有的方法，包括在这种情况下用于自监督表示学习的方法这一结果表明，STML可以生成可靠的伪标签，即使在一个随机初始化的嵌入空间，和我们的模型训练STML很好地推广到看不见的类。4.1.4深入分析相似性和类等价性之间的相关性。为了证明上下文语义相似性，我们比较了我们的三个相似性度量（即，，成对相似度wP，上下文相似度wC，上下文语义相似度w C，ij ijSOP方法R@1R@10R@100NCE [55]34.449.065.2ISIF [60]39.754.971.0PSLR [59]42.357.772.5[26]第二十六话45.460.574.8SAN [34]46.361.977.0STML60.774.885.27438W PIJWCIJwij召回@10.9750.9500.9250.9000.8750.850CUB w/预训练权重不含预训练权重的SOP1.000.956262580.90 58540.8554500.8050462022242628210 212 214对数（迭代）2022242628 210212214216对数（迭代）42246810121416461.01.52.0二点五3.0第3.5节4.0图3. 语境化的语义相似性比较最近邻数k高斯核带宽在具有预训练权重的CUB数据集（左）和没有预训练权重的SOP数据集（右）上，相似性及其两个分量的类等价预测准确性图4. Recall@1与CUB和Cars数据集上的超参数k和σ。较大的标记表示我们的默认实验设置。表3. CUB和Cars数据集上STML组件的消融研究。相似性w ij），就它们与类等价的相关程度而言，即，，监督度量学习的基础。具体来说，我们预测类等价的每对数据的阈值其语义相似性，并计算在不同的阈值设置这样的预测的准确性。图3给出了我们在训练过程中的情境化语义相似度及其两个分量的AUROC分数结果表明，成对相似性的准确性在很大程度上依赖于教师嵌入空间的质量，而上下文相似性有助于正确地推断类等价性，即使在没有预先训练的权重的训练的早期阶段。语境化语义相似度一致性最好，这也表明两两相似度和语境相似度是互补的。消融研究。表3报告了STML中每个组件的影响。表中的结果是通过使用GoogleNet获得的，嵌入维数为512。分析表明，上下文相似性对性能的贡献最大，而成对相似性的影响最小;图3也支持这一观察结果。即使使用两种相似性，当使用传统的对比损失[19]而不是放松版本时，性能也会大大降低教师模型的基于动量的更新和最近邻批量构建策略也有显著的影响;当教师模型表4. STML和最近使用动量编码器的自监督表示学习方法之间的比较。由学生对应物直接更新，或者用随机抽样代替批量与其他组件相比，KL发散损失的影响相对较小。超参数的影响。我们研究了STML对超参数k和σ的敏感程度。具体来说，我们使用GoogleNet在CUB和Cars数据集上测量STML的性能，同时改变k和σ的值。结果如图所示4表明，当k14时，STML的性能始终很高，并且如果σ >1，则σ对两个数据集的性能几乎没有影响此外，当k> 14时，我们的模型优于所有现有的无监督度量学习方法。请注意，我们在表1中报告的最终结果并不是图4中的最佳分数，因为我们没有调整测试分割上的超参数与最近的SSL方法比较。STML的组件用于最近的自我监督表示学习（SSL）方法，如动量编码器。为了验证我们的框架的改进不源于其结构，这些方法进行了比较，在相同的设置下与STML。表4显示，MoCo和BYOL在所有设置中明显低于我们的方法，并实现了与基于实例级代理类的无监督度量学习方法相似的性能。虽然它们在结构上类似于STML，但性能下降的原因是它们不能像我们的方法那样捕获类内变化，数据集：CUB汽车AUROC幼崽汽车SOPR@1R@1R@148.337.253.347.731.548.746.030.541.659.749.065.851.039.053.450.938.551.249.632.547.860.650.565.3幼崽汽车方法R@1R@1方法拱STML60.650.5[20]第二十话w/o上下文成对相似性44.240.2[18]第十八话w/o成对相似性56.045.0无国界医生组织[31] G128无松弛对比损失53.438.7STML G128无动量更新56.846.1[20]第二十话w/o NN批处理构造54.644.8[18]第十八话无KL发散59.249.4无国界医生组织[31] G512STML G5127439联系我们{幼崽汽车方法拱Init.MAP@RRpR@1MAP@RRpR@1监督对比[9] R50512ImageNet25.035.865.326.036.481.2[53]第53话26.437.566.328.338.385.2[27]第二十七话28.339.169.930.539.987.7[5]第五届中国国际航空航天博览会29.339.871.231.741.288.1[53]第五届中国国际航空航天博览会29.240.270.833.442.789.3[27]第五届中国国际航空航天博览会31.742.074.635.144.190.4半监督（标记数据集+其他未标记数据集）SLADE（MS）[14] R50512ImageNet30.941.969.632.141.587.4STML（MS）R50512ImageNet37.847.975.538.446.193.0SLADE（MS）[14] R50512SWAV [5]33.944.474.138.046.991.5STML（MS）R50512SwAV [5]35.245.376.238.246.593.2表5.监督和半监督方法在两个数据集上的性能。这些方法的网络架构都是ResNet50（R50）[21]，上标表示它们的嵌入维数。此外，列“初始化”。指示模型是在ImageNet上还是通过SwAV进行预训练。我们的模型和SLADE都与MS损失进行了微调。在表示数据之间的语义相似性方面受到限制。4.2. 半监督度量学习半监督度量学习旨在通过利用额外的未标记数据来提高监督度量学习的性能[14]。STML可以自然地用于此任务，因为它提供了一种使用未标记数据进行训练的方法在本节中，我们验证了STML用于半监督度量学习的有效性，并将其与SLADE [14]进行了比较，SLADE是CUB和Cars数据集上第一个也是唯一存在的任务方法。4.2.1实验装置数据集和评估。我们直接采用SLADE的评估方案。具体来说，我们采用了两个标记和未标记数据集的组合，CUB [54]，NABIrds [51]和Cars [32]，CompCars[58]，以及三个性能指标，MAP@R，RP和Recall@1。嵌入网络。为了与SLADE进行比较，我们使用具有512个嵌入维度的ResNet50 [21]作为教师和学生模型的骨干网络。在应用STML之前，这些模型在ImageNet[12]或SwAV [5]上进行预训练，然后在标记数据集上使用MS损失[53]进行微调（即，、CUB或Cars）。实作详细数据。在这个任务中，STML采用在标记数据集上训练的嵌入式模型作为初始教师和学生模型，并使用标记和未标记的数据来训练它们。请注意，它计算并利用上下文语义相似性作为标记数据和未标记数据的监督。对于所有实验，m在Eq.（4）和等式中的σ。（10）被设置为0.9999和2，重新定义，其余设置与无监督度量学习的设置相同。4.2.2结果STML与SLADE和最先进的监督度量学习方法在两个数据集上进行了比较表5中总结的结果表明，STML提高了其监督学习对应物（即，MS）显著地与模型初始化方案无关。特别是，它在ImageNet预训练集的两个数据集上的Recall@1中将性能提高了5%以上此外，STML在所有设置中都明显优于SLADE，只有一个设置除外，在RP中它们的差距仅为0.4%。5. 结论我们已经提出了STML，一种新的端到端的非监督度量学习框架，估计和利用样本之间的语义关系作为伪标签。STML中的伪标签是通过研究数据的上下文以及它们在嵌入空间上的两两距离来估计的。STML在三个无监督度量学习的基准数据集上达到了最先进的水平，即使没有预先训练的权重，也表现出令人印象深刻的此外，它已被应用于半监督学习，并在两个基准数据集上表现优于现有技术。不幸的是，与其他方法一样，STML有一个局限性，即它在某些设置中使用在未来，我们将探索我们的方法的扩展，其中类标签从不参与训练。谢谢。这项工作得到了NRF赠款，IITP赠款和韩国科学和信息通信技术部资助的高级集成智能识别研发计划的支持（ NRF-2021R1A2C3012728 ， NRF-2018R1A5-A1060031 ， NRF-2018 M3 E3 A1057306 ， No.2019-0-01906）。社会智能研究生院7440引用[1] Relja Arandjelovic和Andrew Zisserman每个人都应该知道的三件事在Proc.IEEE计算机视觉和模式识别会议，2012中。5[2] PhilipBachman ， RDevonHjelm ， andWilliamBuchwalter.通过最大化跨视图的互信息来学习表示在Proc.神经信息处理系统（NeurIPS），2019。2[3] Xuefei Cao，Bor-Chun Chen，and Ser-Nam Lim. 不超-通过辅助旋转损失的动态深度度量学习。arXiv预印本arXiv：1911.07072，2019。一、二、六[4] 玛蒂尔德·卡隆彼得·波亚诺夫斯基阿曼德·朱兰，还有Matthijs Douze用于视觉特征的无监督学习的深度聚类。在Proc.欧洲计算机视觉会议（ECCV），2018年。一、二、三、六[5] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Pi-Otr Bojanowski和Armand Joulin。通过对比聚类分配的视觉特征的无监督学习。神经信息处理系统（NeurIPS），2020年。8[6] Ting Chen，Simon Kornblith，Mohammad Norouzi，andGe-奥弗里·辛顿。视觉表征对比学习的一个简单框架。国际机器学习会议（ICML），2020年。二、三[7] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi煌Beyond Triplet Loss：A Deep Quadriplet Network forPerson Re-identification. IEEE计算机视觉和模式识别会议，2017年。1[8] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。2[9] S.乔普拉河Hadsell和Y.乐存。学习相似性度量有区别地，与应用到人脸验证。IEEE计算机视觉和模式识别会议（CVPR），2005年。8[10] Ond Zarrej Chum、Andrej Mikulik、Michal Perdoch和JiZarr's马塔斯全面召回ii：重新访问查询扩展。在Proc.IEEE计算机视觉和模式识别会议，2011年。5[11] Ondrej Chum、James Philbin、Josef Sivic、Michael Isard和安德鲁 · 齐瑟曼。 Total Recall ： Automatic queryexpansion with a generative feature model for objectretrieval.IEEEInternationalConferenceonComputerVision（ICCV），2007年。5[12] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，还有李飞飞ImageNet：一个大规模的分层图像数据库。在proc IEEE计算机视觉和模式识别会议（CVPR），2009年。8[13] Alexey Dosovitskiy Philipp Fischer Jost Tobias SpringenBerg，Martin Riedmiller，and Thomas Brox.使用示例卷积神经网络进行区分性无监督特征学习。 IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI），2015年。一、二、三、六[14] Jiali Duan，Yen-Liang Lin，Son Tran，Larry Davis，andC-C郭杰。Slade：一个远程度量学习的自我训练框架。IEEE计算机视觉和模式识别会议（CVPR），2021年。二、三、八[15] Debidatta Dwibedi ， Yusuf Aytar ， Jonathan Tompson ，Pierre7441Sermanet和Andrew Zisserman。在朋友们的帮助IEEE计算机视觉与模式识别会议（CVPR），2021年。3[16] Weifeng Ge ， Weilin Huang ， Dengke Dong ， andMatthew R.Scott. 深度度量学习与分层

下载后可阅读完整内容，剩余1页未读，立即下载