没有合适的资源?快使用搜索试试~ 我知道了~
挖掘类间特征以改进度量学习
8000MIC:挖掘类间特征以改进度量学习KarstenRoth.,BiagioBrattoli.,BjoürnOmmerHCI/IWR,海德堡大学,德国firstname. iwr.uni-heidelberg.de摘要度量学习寻求嵌入对象的图像,使得类定义的关系被嵌入空间捕获。然而,图像中的可变性不仅是由于不同的描绘对象类,而且还取决于其他潜在的特征,如视点或照明。除了这些结构化属性之外,随机噪声进一步阻碍了感兴趣的视觉关系。度量学习的常见方法是强制执行一种表示,该表示在除感兴趣的因素之外的所有因素下都是不变的相比之下,我们建议显式地学习对象类之间共享的潜在这样,我们就可以直接解释结构化的视觉变化,而不是假设它是未知的随机噪声。我们提出了一个新的代理任务,学习跨类共享的视觉特性与单独的编码器。该编码器通过减少它们的互信息与编码器一起训练用于类信息。在五个标准的图像检索基准的方法显着提高后,国家的最先进的。代码 可 在 https://github.com/Confusezius/metric-learning-mining- interclass-characteristics上获得。1. 介绍图像存在于一个富含结构信息和非结构噪声的高维空间中。因此,图像可以通过潜在特征的有限组合来描述。计算机视觉的目标是学习解决给定任务所需的相关潜在特征。特别是在对象分类中,区分特征(例如,汽车形状)用于根据预定义的类别对图像进行分组。 为了解决类内可变性,现代分类器可以很容易地学习对非结构化噪声(例如,随机杂波、遮挡、图像亮度)。然而,相当一部分的可变性是由于类之间共享的结构化信息(例如,颜色的观点和概念)*表示平等贡献图1.(左)图像可以通过潜在特征和白噪声的组合来描述(绿色)标准度量学习编码器提取类别判别信息α,同时忽略对象特定属性β(例如颜色、方向)。实现这些特性的不变性需要大量的训练数据。相反,模型可以通过明确地学习它们的结构来解释它们。我们的新方法在训练过程中显式地分离了类特定的和共享的属性,以提高区分性编码的性能。对于度量学习来说,这一点变得尤为重要。由于度量学习方法将图像投影到高维特征空间中以测量图像之间的相似性,因此每个学习的特征都有贡献。这意味着找到一个强大的潜在特征集是至关重要的。因此,学习跨类共享的特征应该有利于模型[20],因为它可以更好地解释类内的对象差异。例如,一个模型只在某个类别的白色汽车上训练。这个模型将很可能无法识别同一类别的蓝色汽车(图1)。1右上)。在这个例子中,编码器忽略了特定类别的“颜色”概念,即使它可以从数据中学习,作为所有汽车共享的潜在变量(图10)。1右下角)。这是一个典型的泛化问题,传统上通过提供更多的标记数据来解决。然而,除了昂贵的8001图2.概述我们的方法。我们的目标是学习两个独立的编码空间s.t.由Eα提取的类别信息α通过辅助编码器Eβ明确地描述它们而不受共享属性β的影响。 给定一组图像/标签对(x,y),它们的CNN特征表示f(x)通过类特定(汽车型号)和共享(方向,颜色)特征对图像进行分组。 我们通过使用地面真实标签(边界颜色)训练分类判别编码器Eα来分离这些。同时,辅助编码器Eβ在代理任务(右)的标签上进行训练,以解释类间特征。通过标准化每个类的嵌入式训练数据并执行聚类来生成所需的代理标签这恢复了表示共享结构β(轮廓线样式)的标签。同时训练这两个任务,Eα学习到一个鲁棒的、无β的编码,现在由Eβ明确解释。解决方案,度量学习模型还需要推广到未知类,这是一项应该独立于所提供的标签数量而工作的任务。显式建模类内变化已经被证明是成功的[20,15,1],例如空间Transformer层[15],它显式地学习对象类别的可能旋转因此,我们提出了一个模型来区分类,同时学习对象的共享属性。为了从我们的主要类编码器中剥离类内特征虽然类编码器可以使用地面实况标签进行训练,但辅助编码器是通过一种新的代理任务来学习的最后,附加的互信息损失通过消除从辅助编码器学习的信息来进一步净化该解决方案可以与任何标准度量学习损失一起使用,如结果部分所示我们的方法在零射击学习的三个标准基准CUB 200 -2011 [37],CARS 196 [19]和斯坦福在线产品[28]以及两个最近的数据集In-Shop Clothes[43]和PKU VehicleID [21]上进行了评估结果表明,所提出的方法一致地增强了现有方法的性能。2. 相关工作在深度学习在对象分类方面取得成功之后,许多研究人员一直在研究用于度量学习的神经网络。用于分类的网络只提取用于区分类别的必要特征。相反,度量学习将图像编码到欧几里得空间中,在该空间中,语义相似的图像被更紧密地分组在一起。这使得度量学习在各种计算机视觉应用中有效,例如对象检索[28,39],零拍摄学习[39]和面部验证[7,34]。三重范式[34]是该领域的标准,并且已经做了很多工作来改进原始方法。由于可能的三元组的指数数量使得计算不可行,许多文章提出了更有效地挖掘三元组的解决方案[39,34,12,11,14]。最近,Duanet al. [8]提出了一个生成模型,直接产生硬否定。ProxyNCA [24]生成一组类代理并优化锚到所述代理的距离,解决了三元组复杂性问题。其他人通过扩展三重态范式探索了正交方向,例如。8002αβαβ算法1:通过MIC训练模型输入:数据X,完整编码器E,类间/类内编码器{Eα,Eβ},CNNf,类目标Yα,批量bs,聚类数C,更新频率TU,(对抗)互信息损失ld和权重γ,投影网络R,梯度反转opr,Eα,β lα,β的度量学习损失函数Yβ←Cluster(Stand(Embed(X,E,f)),C)epoch←0当不收敛时重复bα,bβ←GetBatch(X,Yα,Yβ,bs)eα,β←Embed(bα,β,Eα,β,f)Lα←lα(eα,Yα)+γ·ld(er,R(er))Eα,f←向后(Lα)eα,β←嵌入(bα,β,Eα,β,f)Lβ←lβ(eβ,Yβ)+γ·ld(er,R(er))Eβ,f←向后(Lβ)直到时代结束;如果epochmod TU==0,则Yβ←Cluster(Embed(X,Eβ,f),C)端epoch←epoch+1端一次使用(特别构造的)批次中的每个样本[28,35],强制执行角度三重约束[38],最小化聚类质量替代[27]或优化正相似度直方图和负相似度直方图之间的重叠[36]。此外,通过组合多个编码空间[29,30,41,9]来最大化其效率,已经相当成功地使用了集成。我们的工作利用了数据的类不可知分组(参见例如[2,3]),并与Liu等人的提议相似。[20],他们使用生成模型将图像显式分解为类特定的和类内嵌入,以及Bai等人。[1],在训练之前,将每个图像类分成子组,以找到可以包括在损失中的类内方差的近似器。然而,与[1]和[20]不同的是,我们显式地搜索类之间共享的结构,而不是对每个样本[20]或类的图3.基于Z(参见第3.3节)对两个数据集的数据进行聚类的示例:1996年,《易经》卷十九,《易经》卷二十八。我们将数据集分为5个聚类(行),并选择前5个类(列),每个聚类至少有一个样本。对于每个条目,我们选择最接近每个类的质心的样本。左边是我们对集群结构的解释。结果表明,通过标准化减去类特定特征有助于基于更通用的属性(如汽车方向和自行车部件)对图像进行分组。过滤器初始化之前。我们的方法以类似的方式包括这种潜在的数据结构,但是我们使用它作为辅助信息来改进度量学习任务。3. 改进度量学习我们的方法背后的主要思想是将类共享特征纳入度量学习过程,以帮助模型解释它们。在这样做时,我们将获得对数据的内在非区分属性的鲁棒性,这与简单地迫使它们不变性的常见方法相反然而,这一办法产生了三个主要问题,即:(i)使用单个编码器提取类别和类别无关特征两者是不可行的并且不利于主要目标。(ii) 我们缺乏提取这些潜在属性的标签。(iii) 我们需要显式地从类嵌入中删除不需要的属性我们在3.2、3.3和3.4节中提出了这些问题的解决方案。3.1. 预赛度量学习将区分类别的特征编码为嵌入向量,[1]的文件。此外,与[1]不同的是,我们假设类独立的类内方差,并迭代地训练第二个编码器来模拟类内特征,从而从非区分特征中纯化主编码器并实现显著更好的结果。最后,一些工作已经利用数据的潜在结构作为监督信号[25,26,6,4,5,33,32]。特别是Caronet al.[6]通过聚类数据来学习无监督的图像表示,从Sobel目标是训练编码器E,使得给定嵌入空间中的标准距离,来自相同类别y的图像xi在 深 度 度 量 学 习 中 , 使 用 神 经 网 络 f :RHeight×Width×3→RF提取图像特征,产生图像表示向量f(x),该向量用作嵌入E的编码器的输入:RF→RD。后者实现为全连接层,8003R@k昏暗124NMIDVML[20]51252.765.175.561.4比尔[29]51255.367.276.9-HTL[11]51257.168.878.7-A-BIER[30]51257.568.778.3-[42]第四十二话-59.571.881.3-DREML[40]921663.975.083.167.8半硬[34]-42.655.066.455.4半硬 *12857.269.479.963.9MIC+半小时12858.870.881.266.0ProxyNCA[24]6449.261.967.964.9ProxyNCA*12857.469.279.162.5MIC+ProxyNCA12860.672.281.564.9保证金[39]12863.674.483.169.0保证金 *12862.974.182.966.3MIC+边际12866.176.885.669.7R@k昏暗124NMI[42]第四十二话-76.584.790.4-比尔[29]51278.085.891.1-HTL[11]51281.488.092.7-DVML[20]51282.088.493.367.6A-BIER[30]51282.089.093.2-DREML[40]921686.091.795.076.4半硬[34]-51.563.873.553.4半硬 *12865.576.985.258.3MIC+半小时12870.580.587.461.6ProxyNCA[24]6473.282.486.4-ProxyNCA*12873.081.387.959.5MIC+ProxyNCA12875.984.190.160.5保证金[39]12879.686.590.169.1保证金 *12880.087.792.366.3MIC+边际12882.689.193.268.4表1.调用CUB 200 - 2011上的k最近邻和NMI的@k [37]。我们的模型优于所有以前的方法,即使是那些使用大量参数的方法。(*)表示我们使用ResNet50的最佳重新实现。用于计算相似度的维度为D的嵌入向量。特征f和编码器E然后可以通过标准反向传播来联合训练。与dij为||E(f(xi))−E(f(xj))||2定义图像x i和x j之间的欧几里得距离,我们要求<如果yj=yi且yk=/,则di j di k。伊岛 如果是三元组(xi,xj,xk),其中yj=yi且yk/=yi,则损失被定义为l=max(dij-dik+m,0),其中m是裕度参数。这种损失的许多变体最近提出的,边际损失[39](添加额外的可学习边际β)被证明是最好的。3.2. 辅助编码器为了分离提取类间和类内(共享)特征的过程,我们使用两种单独的编码:一个类编码器E α,其目的是提取类区分特征和一个辅助编码器E β,以找到共享属性。这些编码器一起训练(图。2)的情况。为了有效地训练底层深度神经网络,两个编码器共享相同的图像表示f(x),该图像表示在训练期间由两者更新。在第一个训练任务中,类编码器Eα是使用亲-与每个图像x1,...,xN相关联的可视化地面实况标签y1,...,y N,其中N是样本的数量。可以任意选择相应的基于度量的损失函数,表 2. 调 用 CARS 196 上 的 k 最 近 邻 和 NMI 的 @k [19] 。DREML[40]在大嵌入维数的情况下是不可比较的。(*)表示我们的ResNet50重新实施。从原始数据。然后,该信息被用于提供一组新的训练标签来训练我们的辅助编码器(图1)。2右)。由于训练方案现在等同于主要任务,我们可以从同一组损失函数中进行选择。3.3. 提取类间特征我们寻求一个任务,在没有人类监督的情况下,在数据中发现结构化特征,同时忽略特定于类的信息。由于结构化属性通常由几个图像之间共享的特征定义,因此它们创建了同质组。为了找到这些,集群提供了一个完善的解决方案。这个算法-rithm将图像与代理标签c1,···,cN相关联,其中ci∈[1,···,C]并且C是预定义的聚类数 然而,直接应用于数据,这种方法是偏向于类特定的结构,因为来自同一类的图像共享许多共同的属性,如颜色、上下文和形状,主要通过数据收集过程注入(例如,类可以由来自多个角度的相同对象的图片组成)。为了去除类内共享的特征,我们应用由地面真值类指 导 的 归 一 化 。 对 于 每 个 类 y , 我 们 根 据 特 征 f(xi),xi:yi=y计算均值μ y和标准d e σ y。然后我们得到新的标准化图像表示Z=[z,···,z],其中z=f(xi)−µ yi,其中-通常(例如标准的三重态损失或上述1N iσyi裕量损失),因为这部分遵循用于度量学习问题的一般训练设置。由于没有为辅助编码器的训练提供标签,因此我们定义了一个自动过程来挖掘共享的潜在结构信息。现在通量减少。 之后,辅助编码器Eβ可以使用代理标签[c1,· · ·,cN]进行训练通过聚类空间Z产生。为了达到预期的效果,需要一个强大的先验知识8004R@k昏暗1 10100NMIDVML[20]51270.2 85.293.890.8比尔[29]51272.7 86.594.0-ProxyNCA[24]6473.7---A-BIER[30]51274.2 86.994.0-HTL[11]51274.8 88.394.8-保证金[39]12872.7 86.293.890.7保证金 *12874.4 87.294.089.4MIC+边际12877.2 89.495.690.0表3.调用@k的k最近邻和Stan上的NMI,[28]第二十八话(*)表示我们的ResNet50重新实施。R@k昏暗1103050比尔[29]51276.992.896.297.1[42]第四十二话-80.393.996.697.1HTL[11]51280.994.397.297.8A-BIER[30]51283.195.197.598.0DREML[40]921678.493.796.7-保证金 *12884.595.797.698.3MIC+边际12888.297.098.098.8表4.在In-Shop [43]上调用@k以获得k最近邻和NMI。(*)表示我们使用ResNet50的测试拆分小大图4.基于Eα和Eβ编码及其组合的CUB 200 - 2011、CARS196和SOP的定性最近邻评价结果表明,Eβ利用了与类别无关的信息(姿态、部位),而Eα则独立于这些特征,专注于类别检测。两者的结合重新引入了两者。诱导,因此导致两个编码器学习一些类似的属性。为了减少这种影响,并将区分和共享特征限制在各自的编码空间中,我们引入了互信息损失,通过对抗设置.rr2表5. PKU上的k最近邻和NMI的调用@kld=−Eα(f(x))<$R(Eβ(f(x)))(一)车辆ID [21]。DREML[40]不具有可比性,因为嵌入尺寸较大(*)我们最好的ResNet50重新实施深度度量学习的标准过程是使用ImageNet上预训练的权重初始化表示后端f这为聚类提供了一个足够好的起点,然后通过训练Eβ来加强。图3显示了使用我们的代理任务检测到的集群的一些示例。这个任务和编码器训练是总结于图二、3.4. 最小化互信息然后可以使用相应的标签来训练类编码器Eα和辅助编码器Eβ。当我们使用两种不同的学习任务时,Eα和Eβ学习不同的特征。然而,由于两者共享相同的输入,即图像特征f(x),因此编码器之间的依赖性可以是R是一个有学问的,小的两层全连接的神经网络,其归一化输出将Eβ投影到Eα的编码空间。R代表元素级乘积,而上标r表示梯度反转层[10],它翻转梯度符号s. t。当试图为了最小化Ld(即最大化相关性),实际上降低了两个编码器之间的相似性。[30]采用了类似的方法,其中在编码器的集合之间最小化共享信息相比之下,我们的目标是将非歧视性特征转移到辅助编码器。最后,由于ld与R成比例,我们避免了平凡的解决方案(例如,R(E β)→ ∞),通过强制R(E β)具有单位长度,类似于E α和E β。最后,训练我们的两个编码器和表示f的总损失L通过L=lα+lβ+γld计算,其中γ相对于类三元组损失lα和辅助三元组损失lβ加权互信息损失的贡献。完整的训练在Alg中描述1.一、R@k昏暗1515MixDiff+CCL[21]-49.073.538.261.6GS-TRS[1]-75.083.073.281.9比尔[29]51282.690.676.086.4A-BIER[30]51286.392.781.988.7DREML[40]921688.594.883.192.4保证金 *12885.192.480.488.9MIC+边际12886.993.482.091.08005图5. CARS 196的E α的UMAP投影。选择七个聚类,显示质心附近的六个图像及其地面实况标签。我们看到编码提取了类特定的信息,而忽略了其他的(例如,取向)。4. 实验在本节中,我们提供了我们的方法的定量和定性分析,也在比较以前的工作。在为我们模型的结果提供了技术信息之后,我们给出了一些关于度量学习的标准基准的信息,并与以前的方法进行了比较最后,我们通过研究其关键组件来深入了解该模型。4.1. 实现细节我们使用PyTorch框架实现我们的方法[31]。作为基线架构,我们使用ResNet50 [13],因为它在最近的度量学习工作中得到了广泛的使用。所有实验都使用一台NVIDIA GeForce Titan X。实际上,类和辅助编码器Eα和Eβ使用相同的训练协议(遵循[39],嵌入维数为128),交替迭代以最大化可用的批量大小。辅助编码器Eβ的维度是固定的(除了秒中的消融)。5)Eα的维数,以确保与以前的工作类似的计算效率。然而,由于GPU内存的限制,我们使用112而不是建议的128批大小,在性能上没有相关的变化。在训练过程中,我们随机将大小为224×224的图像裁剪为256×256,然后进行随机水平翻转。对于所有实验,我们使用原始图像没有边界框。我们用亚当训练模型[18]学习率为10−5,并将其他参数设置为默认值。 我们按照[ 39 ]设置三元组参数,初始化β=1。2为保证金损失,α=0。2作为固定的三重边际。对于每个小批量,我们为每个类随机抽取m=4个图像,直到达到批量大小。对于γ(Sec. 3.4eq.)我们利用[100,2000]中通过交叉验证确定的依赖于数据集的值。图6. CARS 196的Eβ的UMAP投影选择七个聚类,显示质心附近的六个图像及其GT标签。结果表明,该编码方法能够独立于GT类提取对象(汽车)的内在特征.在类标准化之后,使用faiss框架[17]通过标准k-means使用本段中提出的超参数,我们的方法引入的为了提高效率,可以使用faiss在GPU上计算集群[17]。在训练之前,将聚类的数量设置为固定的特定于问题的值:CUB 200 -2011为30[37],CARS 196为200[19],Stan为50福特在线产品[28],150为店内服装[43]和50为北大VehicleID [21]。我们每隔一个epoch更新一次集群标签。 然而,值得注意的是,我们的模型是稳健的。因为大范围的参数给出可比较的结果。稍后在第5节中,我们更详细地研究了每个数据集的聚类数和聚类标签更新频率的影响,以激励所选择的数字。最后,通过聚类进行的类分配,特别是在初始训练阶段,对于远离聚类中心的样本变得近乎任意。为了确保我们不会加强这种强烈的初始偏差,我们发现通过随机切换来自不同聚类类的样本(具有概率)p≤ 0。2)的情况。4.2. 数据集我们的模型在深度度量学习中通常使用的图像检索的五个标准基准上进行评估。我们报告了Recall@k度量[16]来评估图像检索和归一化互信息分数(NMI)[22]的聚类质量。培训和评估程序遵循[39]中使用的标准设置。CARS196[19]有196个汽车模型,超过16,185张图像。我们使用前98个类(8054张图像)进行训练,其余98个类(8131张图像)进行测试。Stanford Online Products[28]有120,053个产品图片,22,634个类别。59,551张图片(11,318个类别)8006图7.评价Eα作为Eβ能力的函数 对于CARS 196 [19]和CUB 200 -2011 [37],我们在训练期间绘制了Eα Recall@1与Eβ维度的关系图。 结果表明,E β容量的增加以及学习类间共享属性的能力直接使类编码器Eα受益。用于培训,60 502人(11 316班)用于测试。CUB 200-2011[37]有200种鸟类超过11,788张图片。训练集和测试集分别包含第一个和最后100个类(5,864/5,924张图像)。In-Shop Clothes[43]包含7,986个类中的72,712个服装图像。3 997个班用于培训,3 985个班用于评价。测试集分为查询集(14,218张图像)和图库集(12,612张图像)。北京大学VehicleID[21]拥有26,267辆共享车型的221,736张监控图像。我们遵循[21]并使用13,134个类(110,178张图像)进行训练。测试是在预定义的小型和大型测试子集上完成的,分别具有7,332(小型)和20,038(大型)图像。4.3. 定量和定性结果在本节中,我们将我们的方法与最近文献中的现有模型进行比较。我们的方法应用于三种不同的损失,半硬负挖掘的标准三重损失[34],Proxy-NCA [24]和加权采样的最新保证金损失[39]。为了完全透明,我们还提供了重新实施基线的结果。结果显示,所有数据集的增益均超过最新技术水平,见表1、2、3、4和5。特别是,我们的方法实现了更好的结果比更复杂的合奏。在CUB 200 -2011上,我们甚至超过了DREML[40]并行训练48个ResNet模型定性结果见图。4:类别编码器E α检索共享类别特定特征的图像,而辅助编码器E β找到固有的、类别无关的对象属性(例如,姿势、上下文)。该组合检索具有这两种特征的图像。5. 消融在本节中,我们将研究模型的属性我们通过检查召回的图像来定性地检查所提出的编码器属性图8.作为辅助编码器Eβ维度的函数的类嵌入Eα中的类内方差的度量结果表明,类内方差随Eβ容量的增大而减小。这指向Eβ,使得Eα更容易忽略类无关信息。关于这两种情况,并研究Eβ对回忆率的影响,见5.1节。在第5节中,我们测量类内方差与辅助编码器Eβ的容量之间的关系。此外,进行消融研究以检查每个管道组件和超参数的相关性。我们主要使用最常见的基准CUB 200 -2011,CARS 196和SOP。5.1. 嵌入属性首先,我们将类编码器Eα的特性可视化(图1)。5)和辅助编码器Eβ(图6)通过使用UMAP[23]将嵌入的测试数据投影到二维。图中显示E α提取类别区分信息,而E β编码跨类别共享的特征(例如,汽车定位)。为了评估辅助编码器Eβ对类编码器Eα的影响,我们研究了类编码的性质作为Eβ学习共享特征的能力的函数。首先,我们研究了CARS 196 [19]和CUB 200 -2011[37]上相对于辅助编码器维度的Eα性能。利用不同的Eβ维数,图图7显示了Eβ容量与检索能力之间的直接关系。 尺寸为0的Eβ表示基线法[39]。 对于所有其他评估,Eβ维数等于Eα,以保持计算成本与基线相当[39](见第二节)。4.1)。为了检验我们最初的假设,即学习共享特征会产生更紧凑的类,我们通过计算每个类的平均成对距离来研究类内方差,平均值为所有类。这些距离由平均类间距离归一化,近似为两个类中心之间的距离8我们看到基本保证金损失的类内方差更高(Eβ维度等于0)。但更重要的是,类的紧凑性与辅助编码器Eβ的容量。我们还提供了一个定性的评价图中3 .第三章。在类标准化之后,聚类重新识别跨类共享的数据的潜在结构。8007图9.消融研究:聚类数对Recall@1的影响。使用固定的集群标签更新周期1,具有相等的学习速率和一致的调度。集群站MutInfo汽车幼崽SOP---80.062.973.2+--79.259.171.9++-81.364.975.8+++82.666.177.2表6.消融研究:不同贡献的相关性。每个组件对于达到最佳性能都至关重要。(Clust:带群集的E β训练,Stand:聚类前的标准化(第3.3节),MutInfo:互信息损失(第3.4节))5.2. 测试组件和参数为了分析我们的模块,我们评估了不同的模型,每个模型都缺少一个建议的贡献,请参见选项卡。六、下表显示了如何使用每个组件以获得最佳性能。与第一行中的基线相比,我们看到,简单地引入基于聚类数据的额外任务会降低性能,因为我们添加了另一个类区分训练信号,图10.消融研究:集群标签更新频率对Recall@1的影响。最佳的集群数量(见第二节)。4.1)和一致的调度。同时,在一个范围内,通过大量聚类值达到±1%Recall@1,使模型对该超参数具有鲁棒性。为使用这些累积测试、较高的学习率和较少的基于这些检查,我们为所有其他训练运行设置了一个固定的,但依赖于集群的集群编号,参见第二节。4.1.已经对辅助标签的更新频率进行了类似的评估(图1)。第10段)。频繁地更新聚类显然为我们的模型提供了提升,这表明辅助编码器Eβ在初始聚类的基础上有所改进。然而,在合理的值范围内(每1到10个epoch更新一次),模型的性能没有显著下降因此,我们将此参数固定为每两个时期更新一次6. 结论在本文中,我们介绍了一种新的扩展,提供更糟糕甚至矛盾的信息。然而,通过利用标准化,我们允许我们的第二个编码器显式地学习新功能来支持类编码器,而不是与之对抗,从而显著提高性能。最后的互信息损失强调了特征分离,以进一步改善结果。我们的方法可以与大多数现有的度量学习损失相结合,我们在ProxyNCA[24]和Tab中使用半硬采样[34]进行评估。1和2.在CARS 196和CUB 200 -2011上,我们都看到了图像检索性能的提高。为了检查新引入的超参数,图。图9使用一系列聚类数比较了三个基准测试的性能。该图显示了聚类的数量如何影响最终性能,这意味着辅助编码器Eβ提取的潜在结构的质量对于更好的分类至关重要在标准度量学习方法,将结构化的类内信息纳入学习过程。我们通过将编码空间分成两个不同的子空间来实现。一个包含了类相关的特征信息,剩下的编码器处理共享的、类无关的属性。虽然前者使用标准度量学习设置进行训练,但我们为第二个编码器提出了一个新的学习任务,以学习共享特征并解释组合训练设置。在几个标准图像检索数据集上的实验表明,我们的方法始终提高标准方法,优于当前最先进的方法,并减少类内方差。鸣谢。这 工作具有 被 由拜耳公司和NVIDIA公司捐赠的硬件支持。8008引用[1] Yan Bai,Feng Gao,Yihang Lou,Shiqi Wang,TiejunHuang,and Ling-Yu Duan.将类内方差扩展到细粒度视觉识别。CoRR,abs/1703.00196,2017。二三五[2] MiguelA'ngelBautista , ArtsiomSanakoYeu , andBjoérnOm-mer.使用偏序集的深度无监督相似性学习。CoRR,abs/1704.02268,2017。3[3] Miguel A Bautista , Artsiom Sanakoyeu , EkaterinaTikhonch ev a,andB joürnOmme r.Cliquecnn:深度无监督范例学习。神经信息处理系统进展,第3846-3854页,2016年。3[4] 放大图片作者:J. Sch w ab,andB joérnOmme r. 用于详细行为分析的Lstm自我监督在IEEE计算机视觉和模式识别会议(CVPR),2017。3[5] UtaBuüchler,BiagioBrattoli,andB joürnOmme r. 通过深度强化学习改进时空在2018年的IEEE欧洲计算机视觉会议(ECCV)上。3[6] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。CoRR,abs/1807.05520,2018。3[7] Sumit Chopra Raia Hadsell和Yann LeCun。 学习相似性度量有区别地,与应用到人脸验证。第539-546页。IEEE,2005年。2[8] 段跃奇,郑文钊,林旭东,卢吉文,周杰。深度对抗度量学习。在IEEE计算机视觉和模式识别会议(CVPR)中,2018年6月。2[9] Yoav Freund和Robert E Schapire。在线学习的决策理论推广及其在boosting中的应用。Journal of Computer andSystem Sciences,55(1):119-139,1997. 3[10] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗J.马赫学习. Res. ,17(1):2096- 2030,Jan. 2016. 5[11] 葛伟峰。深度度量学习与分层三元组丢失。在欧洲计算机视觉会议(ECCV)的会议记录中,第269-285页,2018年。二、四、五[12] BenHarwood , BG Kumar , Gustavo Carneiro , IanReid,Tom Drummond,et al.深度度量学习的智能挖掘。IEEE International Conference on Computer Vision,第2821-2829页,2017年。2[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。6[14] Ahmet Iscen,Giorgos Tolias,Yannis Avritis,and OndAmrej Chum. Mining on manifold : Metric learningwithout labels.在IEEE计算机视觉和模式识别会议论文集,第7642-7651页2[15] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。神经信息处理系统的进展,第2017-2025页,2015年。2[16] Herve Jegou、Matthijs Douze和Cordelia Schmid。最近邻搜索的乘积量化。IEEE transactions on pattern analysisand machine intelligence,33(1):117- 128,2011。6[17] Je f fJohnson,MatthijsDouze,andHer ve'Je'gou. 用gpu进行 十 亿 级 相 似 性 搜 索 。 arXiv 预 印 本 arXiv :1702.08734,2017。6[18] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[19] Jonathan Krause,Michael Stark,Jia Deng,and Li Fei-Fei.用于细粒度分类的3d对象表示。在2013年IEEE计算机视觉研讨会国际会议论文集,第554-561页。 二三四六七[20] Xudong Lin,Yueqi Duan,Qiyuan Dong,Jiwen Lu,and Jie Zhou.深度变分度量学习在欧洲计算机视觉会议(ECCV),2018年9月。一、二、三、四、五[21] Hongye Liu , Yonghong Tian , Yaowei Wang , LuPang,and Tiejun Huang.深度相对远程学习:说出相似车辆之间的差异。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第2167-2175页,2016年。二五六七[22] 克里斯托弗·曼宁,普拉巴卡尔·拉加万,辛里奇·舒策。信 息 检 索 简介。自然语言工程,16(1):100-103,2010. 6[23] Leland McInnes , John Healy , and James Melville.Umap:用于降维的均匀流形近似和投影。arXiv预印本arXiv:1802.03426,2018。7[24] Yair Movshovitz-Attias、Alexander Toshev、Thomas KLe- ung、Sergey Ioffe和Saurabh Singh。没有大惊小怪的距离- ric学习使用代理。在IEEE国际计算机视觉会议集,第360-368页,2017年二、四、五、七、八[25] Mehdi Noroozi和Paolo Favaro。通过解决拼图游戏进行视觉表示的无监督学习。欧洲计算机视觉会议,第69施普林格,2016年。3[26] Mehdi Noroozi 、 Ananth Vinjimoor 、 Paolo Favaro 和Hamed Pirsiavash。通过知识转移促进自我监督学习。在IEEE计算机视觉和模式识别会议集,第9359- 9367页,2018年。3[27] Hyun Oh Song、Stefanie Jegelka、Vivek Rathod和KevinMurphy。通过设施位置进行深度度量学习。在IEEE计算机视觉和模式识别会议的论文集,第5382-5390页,2017年。3[28] Hyun Oh Song , Yu Xiang , Stefanie Jegelka 和 SilvioSavarese。通过提升结构化特征嵌入的深度度量学习。在IEEE计算机视觉和模式识别会议论文集,第4004-4012页,2016年。二三五六[29] Michael Opitz、Georg Waltner、Horst Possegger和HorstBischof 。 稳 健 地 提 高 独 立 嵌 入 的 IEEE InternationalConference on Computer Vision,第5189-5198页,2017年。三、四、五8009[30] Michael Opitz、Georg Waltner、Horst Possegger和HorstBischof。使用bier进行深度度量学习:稳健
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功