深度度量学习的分治方法提高了测量学习的效果

107 浏览量更新于2023-10-18 收藏 1.72MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

471度量学习ArtsiomSanakoyeuVadimTschernezkiUtaB uüchler BjoürnOmmerHeidelberg图像处理合作实验室，IWR，海德堡大学摘要学习嵌入空间是许多计算机视觉应用的基石，在嵌入空间中，语义相似的对象靠近在一起，而不相似的对象相距很远现有方法通常在嵌入空间中针对所有可用数据点学习单个度量，其可能具有非常复杂的非均匀分布，其中对象之间具有不同的相似性概念，例如外观、形状、颜色或语义。用于学习单个距离度量的方法通常难以对所有不同类型的关系进行编码，并且不能很好地推广。在这项工作中，我们提出了一种新的易于实现的深度度量学习的分治方法，它显着提高了度量学习的最新性能。我们的方法通过将嵌入空间和数据联合拆分为K个较小的子问题来更有效地利用嵌入空间。它将数据和嵌入空间划分为K个子集，并在嵌入空间的非重叠子空间中学习K个分离的距离度量，这些子空间由神经网络嵌入层中的神经元组定义。该方法提高了收敛速度，提高了泛化能力，因为每个子问题的复杂性相比，原来的一个。在 CUB 200 -2011 、 CARS 196 、 StanfordOnline Products、In-shop Clothes和PKU VehicleID 数据集上，我们的方法在检索、聚类和重新识别任务中的性能大大优于最先进的方法。源代码：https://bit.ly/dcesml。1. 介绍深度度量学习方法学习测量任意数据点组之间的相似性或距离，这对于许多计算机视觉应用来说是至关重要的任务。深度度量学习已成功应用于图像搜索[3，19，32，45]，人员/车辆重新识别[5，29，51]，细粒度重新识别trieval [30]，near duplicate detection [54]，clustering [16]和零射击学习[32，43，2，37，4]。[2]两位作者对这项工作的贡献相当图1：对不同数量学习者的评估。我们在斯坦福在线产品数据集上训练我们的模型，K= 1，2，3，4，8和16个学习者[31]，并报告训练期间Recall@1分数的变化学习者数量的增加导致更高的Recall@1。最佳性能在K= 8时实现。深度度量学习的核心思想是将具有相同类别标签的样本放在一起，并将来自学习的嵌入空间中不同类别的样本分开。具有所需属性的嵌入空间通过基于来自相同或不同类的图像对[13，3]、图像的三元组[38，45，17]或更大数量的图像的元组[20，43，41，1]，其表示数据集中的正或负关系。现有的深度度量学习方法通常从给定的数据分布中为所有样本学习单个距离度量。学习度量的最终目标是解决所有冲突的关系，并将相似的图像拉近，同时将不同的图像推得更远。然而，视觉数据通常不是均匀分布的，而是具有复杂的结构，其中数据分布的不同区域具有不同的密度[20]。分布的不同区域中的数据点通常基于不同类型的相似性（诸如形状、颜色、身份或语义含义）而相关。而理论上，深层神经472图2：我们方法的管道。我们首先将嵌入空间中的数据聚类为K组，并为每个聚类分配嵌入层的单独子空间（学习器）在训练过程中，每个学习者只能看到分配给相应聚类的样本。网络表示足够强大，可以近似任意连续函数[18]，但在实践中，这通常会导致局部极小值和过拟合。这部分是由于嵌入空间的低效使用[32，34]以及试图将单个距离度量直接拟合到所有可用数据[36，26，27]。上述问题激发了一种方法，该方法将通过为数据分布的不同区域学习单独的距离度量来以更深刻的方式使用嵌入空间。我们提出了一种新的深度度量学习方法，灵感来自著名的分而治之算法。我们明确地将嵌入空间和数据分布分成多个部分，给出网络表示，并学习每个子空间及其相应部分的分布的单独距离度量。每个距离度量在嵌入空间的其自己的子空间上学习，但是基于共享特征表示。最终的嵌入空间是通过连接每个非重叠子空间上的解来无缝组合的参见图2的图示。我们的方法可以用作现有深度度量学习方法中通常用于学习嵌入的最终线性层的有效插入式替换，无论用于训练的损失函数如何。当将我们的方法应用于广泛使用的三重损失[38]和更复杂的最先进的度量学习损失（如Proxy-NCA [30]和Margin loss [49]）时，我们表现出一致的性能提升。通过使用所提出的方法，我们在五个基准数据集上实现了新的最先进的性能，用于检索，聚类和重新识别：CUB 200 -2011 [44]、CARS196 [25]、斯坦福在线产品[31]、店内服装[55]和北大车辆ID [29]。2. 相关工作度量学习自其早期开始以来一直是视觉社区的主要兴趣，由于其广泛的应用，包括对象检索[32，43，48]，零次和单次学习[43，32]，关键点描述符学习[40]，面部验证[5]和聚类[16]。随着CNN的出现，已经提出了几种用于监督距离度量学习的方法有些方法使用配对[52]或三个图像[46，38]。其他人使用四元组[41，43]或对较大尺寸的元组施加约束，如提升结构[32]，n对[41]或偏序集损失[1]。使用图像元组作为训练样本会产生大量的训练数据。然而，大小为p的所有Np个可能元组中只有一小部分样本是有意义的，并提供学习信号。最近的一些工作解决了硬和半硬负挖掘的问题，通过设计采样策略提供最大的训练信号[49，14，10，53，21]。然而，现有的采样技术需要对整个数据集和每个时期的数据点数量运行昂贵的二次预处理步骤[14，10]，或者缺乏全局信息，同时基于单个随机绘制的小批量图像[38，49，41]对数据进行局部查看。相反，我们的方法有效地解决了简单样本丰富的问题，因为它联合分割了嵌入空间，并使用到目前为止学习的距离度量对数据进行聚类因此，一个集群内的样本彼此之间的距离比来自另一个集群的样本之间的距离更小，这可以作为挖掘更有意义的关系的代理[38，14]。有关我们方法的更多细节，请参见第3 .第三章。最近，大量的研究工作致力于设计新的损失函数[42，43，41，47，30，35]。例如，设施位置[42]优化了集群质量度量，直方图损失[43]最小化了473图3：PKU Ve- hicleID上的定性图像检索结果[29]。我们为每个随机选择的查询图像显示5个最近的邻居，给出我们训练的特征。查询和检索到的图像取自数据集的测试集。正负距离的分布。Kihyuk Sohn在[41]中提出了N对损失，其在批次中的成对相似性值之间实施在[30]中提出的Proxy-NCA损失计算数据集中原始点的代理，并使用NCA [35]优化到这些代理的距离。我们的工作是正交的这些方法，并提供了一个框架，学习一个距离度量独立于一个特定的损失函数的选择深度度量学习中的另一个与我们的方法更相关的工作是集成学习[51，34，8，12]。以前的作品[51，34]采用了一系列复杂度不断增加的HDC [51]使用特定架构的多个模型的级联，A-BIER [34]应用梯度提升学习算法在单个网络中训练多个学习者，并结合对抗性损失[9，11]。上述方法与我们的方法的关键区别“学习者”在非重叠的数据块上独立训练，这降低了每个学习者的训练复杂度，便于去相关表示的此外，我们的方法不会引入图4：斯坦福在线产品上的定性图像检索结果[31]。我们从Stanford Online Products数据集的测试集中随机选择5个查询图像，并根据我们训练模型的特征显示每个查询图像的5个最近邻。检索到的图像也来自测试集。在训练过程中使用额外的参数，并在单个模型中工作它不需要任何额外的损失函数，可以应用于任何现有的网络架构。3. 方法我们的方法背后的主要直觉是：解决更大的问题通常比解决一组更小的问题更难我们提出了一种有效且易于自适应的深度度量学习分治算法。我们将数据分成多组（子问题），以降低复杂性，并分别解决每个子问题上的度量学习由于我们希望数据分区与嵌入空间的当前状态相耦合，因此我们将迄今为止学习的嵌入空间中的数据进行聚类。然后我们将网络的嵌入层分割成切片。嵌入层的每个切片代表一个单独的学习器。每个学习器被分配到一个聚类中，并在原始嵌入空间的某个子空间中操作在征服阶段，我们合并的解决方案的子问题，获得的个人学习者，以获得最终的解决方案。我们在第二节中详细描述了我们方法的每一步。3.2和3.3。3.1. 预赛我们将训练集表示为X ={x1，. . . ，xn}<$X，其中 X 是原始 RGB 空间，并且对应的类标签为Y={y1，. . .，yn}。卷积神经网络（CNN）学习非线性变换474K图5：店内服装的定性图像检索结果[55]。我们从In-shopclothes数据集的查询集中随机选择5个查询图像，并在给定训练特征的情况下为每个查询图像显示5个最近邻。检索到的图像取自图库集。将图像的深度特征空间转换为m维深度特征空间φ（·;θφ）：X→Rm，其中θφ是CNN参数的集合。为了简洁起见，我们将互换地使用符号φ（xi; θφ）和φi。为了学习到嵌入空间的映射通常将具有d个神经元的线性层f （·;θf）：Rm→Rd附加到CNN，其中θf表示该层的参数。 f（·;θf）通常被归一化为具有单位长度以用于训练稳定性[38]。度量学习的目标是联合学习φ和f，使得（f<$φ）（x;θφ，θf）映射相似的图像彼此接近和不相似它们在嵌入空间中相隔很远形式上，我们将嵌入空间中两个数据点之间的距离定义为df（xi，xj）=||f（φi）−f（φj）||二、（一）为了学习距离度量，可以使用任何带有选项的损失函数，例如[38，43，41，30，49，32]。我们的框架是独立的损失函数的选择。在本文中，我们实验了三种不同的损失：[ 38 ]三重损失[39]，代理NCA损失[30]和保证金损失[49]。为了简单起见，我们将在本节中以三重态损失为例演示我们的方法，三重态损失定义为图6：CARS 196上的定性图像检索结果[25]。我们从CARS196数据集的测试集中随机选择5个查询图像，并根据我们的训练特征显示每个查询图像的5个最近邻。检索到的图像取自测试集。3.2. 嵌入空间我们从我们方法的分裂阶段开始。为了降低问题的复杂性并更有效地利用整个嵌入空间，我们将嵌入维度和数据分成多个每个学习器将仅使用原始嵌入空间的子空间和部分数据来学习单独的距离度量。拆分数据：设K为子问题的个数. 我们将所有数据点{x1，. . . ... |1≤k≤K}，K-means。拆分嵌入：接下来，我们通过将网络的嵌入层拆分为K个连续切片来定义嵌入空间内的K个独立学习者。对于小的y，我们分解嵌入函数f（·;θf）分解为K个函数{f1，. . . ，fK}，其中每个fk映射所述输入。将fk（·;θf）：Rm→Rd/K 放入原 d 维嵌入空间的 d/ K 维子空间中. f1将映射到原始嵌入空间的第一个d/K维，f2将映射到第二个d/K维，因此吧请参见图2作说明。请注意，在我们执行嵌入层的分割之后，模型参数的数量保持不变，因为学习器共享底层表示。3.3. 征服阶段在本节中，我们首先描述解决indi的步骤，l三重态（a，p，n;θφ，θfΣ）=df （a，p）2−df（a，n）2+α、（二）vidual问题。然后，我们概述了合并步骤，其中子问题的解决方案被合并以形成最终的其中，[·]+表示中间部分，α是主要部分。三重丢失努力保持正数据点p比任何其他负点n更接近锚点a。为简洁，我们省略了其他损失的定义，但我们请感兴趣的读者到原来的作品[30，49]。溶液训练：在划分阶段之后，每个聚类Ck被分配给学习者fk，1≤k≤K。由于所有学习器都驻留在单个线性嵌入层中并共享底层特征表示，我们联合训练它们，+475KH（Ω）+H（C）交替的方式。在每次训练迭代中，只有一个学习器被更新。我们对一个集群进行统一Ck，1≤k≤K，并从中抽取一个随机的小批量B。然后，学习者fk最小化自己的损失，定义如下：算法1用我们的方法训练模型输入：X，f，θφ，θf，K，T 线性数据，线性层，CNN权，f的权，# clusters，re-cluster freq.θφ，θfφLk=dfk（a，p）-dfk（a，n）Σ+α，（3）{f，. . .Fn簇af父子关系nxi∈X}←SplitEmbedding（f）学习者的集合（a，p，n）其中triplet（a，p，n）∈B<$Ck表示从当前小批量中采样的triplet，并且dfk是在第k个学习器的子空间中定义作为德-在Eq. 每个反向传递将仅更新共享表示的参数θφ和参数当前学习者的参数θfk。由于学习的嵌入空间在这段时间内不断改进，我们通过使用完整的嵌入空间对每个T历元进行完整的嵌入空间是通过简单地连接各个学习器产生的嵌入组成的合并解决方案：最后，遵循分而治之的范式，在个体学习者收敛之后，我们合并他们的解决方案以获得完整的嵌入空间。合并是通过将嵌入层切片（对应于K学习器）重新连接在一起来完成的在此之后，我们对整个数据集的嵌入层进行微调，以实现各个学习器的嵌入之间的一致性。我们的方法的完整训练过程的概述可以在算法1中找到。4. 实验在本节中，我们首先介绍用于评估我们的方法的数据集，然后提供有关我们框架的训练和测试的其他细节。然后，我们展示了定性和定量的结果，我们比较与国家的最先进的图像检索质量和聚类性能。4.4小节中的消融研究为我们的度量学习方法提供了一些内部信息。4.1. 数据集我们通过将所提出的方法与两个小型基准数据集（CARS 196 [25]，CUB 200 -2011 [44]）和三个大型数据集（ Stanford Online Products [31] ， In-shopClothes [55]和PKU VehicleID [29]）上的最新技术进行为了评估聚类性能，我们使用归一化互信息得分[39] NMI（k，C）=2·I（k，C），其中k表示真实聚类，C表示通过K均值获得的聚类集。这里I代表互信息，H代表熵。对于检索任务，我们报告Recall@k度量[22]。Stanford Online Products [31]是用于评估度量学习方法的最大的公开可用图像集合它由120，053张图像组成，←时代0而不融合则执行如果epochmodT== 0，则f← ConcatEmbedding（{f 1，. . . fK}）emb←ComputeEmbedding（X，θφ，θf）{C1，. . . ，CK} ← SystemData（emb，K）{f 1，. . . fK} ← SplitEmbedding（f）如果重复则结束Ck{C1，. . . ，CK}n样本聚类b←GetBatch（Ck）绘制小批量Lk←FPass（b，θφ，θfk）计算损失学习者fk（等式第三章θφ，θfk<$BPass（L，θφ，θfk）<$更新权重直到Epoch完成epoch← epoch+ 1end whilef← ConcatEmbedding（{f 1，. . . fK}）θφ，θf←Finetune（X，θφ，θf，f）输出：θφ，θf在线产品22634类，其中11318类（59，551幅图像）用于训练，11，316类（60，502幅图像）用于测试。我们遵循与[32]中相同的评估方案。我们计算Recall@k得分其中k= 1，10，100，1000分别用于评价图像检索质量和NMI度量用于评价聚类性能CARS196包含196种不同类型的汽车，分布在16，185张图像上。前98个类（8054幅图像）用于训练，其他98个类（8131幅图像）用于测试。我们在整个图像上进行训练和测试，而不使用边界框注释。CUB 200 -2011是CUB 200数据集的扩展版本，它整合了200种不同鸟类的图像，总共有11，788张图像。前100个类别（5，864张图像）用于训练，后100个类别（5，924张图像）用于测试。我们在整个图像上进行训练和测试，而不使用边界框注释。In-shop Clothes Retrieval [55]包含11，735类服装项目和54，642个图像。我们遵循[55]的评估协议，并使用7，986个类的子集和52，712个图像。3，997班用于培22476训，3，985班用于测试。测试集被划分为查询集和图库集，分别包含14，218和12，612个查询集和477R@k1101001000 NMI直方图[43]63.981.792.297.7-斌[43]第四十三话65.582.392.397.6-[42]第四十二话66.782.491.9-89.5[32]第三十二话63.080.591.797.587.4[42]第四十二话67.083.793.2--[41]第四十一话67.783.793.097.888.1[47]第四十七话70.985.093.598.088.6DAML（N-p）[6]68.483.592.3-89.4HDC [51]69.584.492.897.7-DVML [28]70.285.293.8-90.8比尔[33]72.786.594.098.0-ProxyNCA [30]73.7----A-BIER [34]74.286.99497.8-HTL [10]74.888.394.898.4-保证金基线[49]72.786.293.898.090.7我们的（保证金） 75.988.494.998.190.2表1：斯坦福在线产品上k= 1，10，100，100和NMI的召回@k [31]图像，分别。北京大学VehicleID [29]是一个大规模的车辆数据集，包含由监控摄像头捕获的26，267辆车辆的221，736张训练集包含13，134辆车的110，178张图像，测试集包含13，133辆车的111，585张我们对[29]中定义的3个不同大小的测试集进行评估。小型测试集包含800辆车的7，332幅图像，中型测试集包含1600辆车的12，995幅图像，大型测试集包含2400辆车的20，038幅该数据集具有较小的类内变化，但比CARS196更具挑战性，因为不同身份的车辆被视为不同的类，即使它们共享相同的汽车型号。4.2. 实现细节我们通过密切关注Wu等人的实现来实现我们的方法[49]基于ResNet-50 [15]。我们在我们的所有实验中，使用大小为d= 128的嵌入和224×224的输入图像大小[15]嵌入层是随机初始化的。所有模型都使用Adam [24]优化器进行训练，其中Stanford Online Products和In-shop Clothes数据集的批量大小为80，其他数据集的批量大小为128 我们将图像大小调整为256，并应用随机裁剪和水平翻转来增强数据。为了训练我们的模型，我们为CUB 200-2011和CARS 196设置了学习器的数量K= 4，因为它们的尺寸很小，对于所有其他数据集，K= 8我们已经注意到，我们的方法对1到10之间的T值不敏感。对于所有实验，我们设置T= 2，因为值的改变不会导致实验结果的显著变化表2：CARS 196上k= 1、2、4、8和NMI时的k召回率[25日]类似于[49，38]，我们初始化保证金损失β = 1。2和α = 0时的三重态损失。二、按照[38，49]中定义的程序对小批量进行采样，对于边缘损失[49]和三重损失[38]，每个小批量每个类m= 4个图像，并且对于代理NCA [30]均匀在集群期间（Sec.3.2）和测试阶段，通过连接各个学习器的嵌入来组成图像嵌入4.3. 结果我们现在将我们的方法与最先进的方法进行比较。从表1，2，3，4和5中，我们可以看到我们的方法与保证金损失[49]优于现有的最先进的方法对所有5个数据集，证明其广泛的适用性。请注意，我们使用较小的嵌入大小d= 128，而不是亚军方法HTL [10]，A-BIER[34]，BIER [33]，DVML [28]，DAML [6]和角损失[47]采用的512HDC [51]使用384维嵌入层。此外，我们将我们的结果与深层集成方法DREML [50]进行了比较，DREML[ 50 ]训练了48个ResNet-18[15]具有总数为537M的可训练参数的网络。我们的模型只有25个。5M可训练参数，并且在CUB 200 -2011和In-shop Clothes数据集上仍然优于DREML [50]。我们展示了我们的方法在CUB 200 -2011上的三种不同损失的结果：三重[38]，代理NCA[30]和保证金损失[49]。我们的方法将Re-call @ 1性能提高了至少2. 1%（见表1）。（3）第三章。这证实了我们的方法是通用的，可以应用于各种度量学习R@k1248NMI[42]第四十二话51.563.873.582.453.4[32]第三十二话48.361.171.881.155.1[42]第四十二话58.170.680.387.859.0智能采矿[14]64.776.284.290.2-[41]第四十一话71.179.786.591.664.0[47]第四十七话71.481.487.592.163.2ProxyNCA [30]73.282.486.488.764.9HDC [51]73.783.289.593.8-DAML（N-pairs）[6] 75.183.889.793.566.0HTG [53]76.584.790.494-比尔[33]78.085.891.195.1-HTL [10]81.488.092.795.7-DVML [28]82.088.493.396.367.6A-BIER [34]82.089.093.296.1-保证金基线[49]79.686.591.995.169.1我们的（保证金） 84.690.794.196.570.3DREML [50]86.091.795.097.276.4478三重半硬[42]55.066.477.2 55.4三重半硬基线 * 53.165.976.885.3 60.3我们的（三重半硬）55.4 66.9 77.5 86.5 61.9ProxyNCA [30]49.261.967.972.464.9ProxyNCA基线 *58.770.079.187.062.5我们的（ProxyNCA）61.873.181.888.265.7保证金基线[49]63.674.483.190.069.0我们的（保证金）65.976.684.490.669.6DREML [50]63.975.083.189.767.8表3：CUB 200 -2011 [44]中k= 1、2、4、6、8和NMI时的k召回率。* 表示我们自己的基于ResNet-50的实现，d= 128。损失函数我们注意到，它在大规模数据集上显示出特别大的改进，例如在PKU Ve- hicleID上，我们提高了3。6%超过基线，利润损失[49]，并且在大型测试集上的Recall@1评分方面超过最先进水平1%。我们将这样一个具有挑战性的数据集上的成功归因于更有效地利用大量数据，因为将其划分在不同的学习器之间，这些学习器在整个嵌入空间的非重叠子空间上操作除了定量结果，我们在图3，4，5和6中显示了CUB200 -2011，斯坦福在线产品，店内服装和Cars 196上的定性图像检索结果。请注意，我们的模型对视点和日光的变化是不变的。4.4. 消融研究我们进行了几个烧蚀实验，以证明所提出的方法的有效性，并评估我们的贡献的不同组成部分我们使用Stanford Online Products数据集，并使用Margin loss [49]训练所有模型80个epoch。首先，我们分析了学习者数量K的选择。如可见于图1、Recall@1显著增加分割尺寸小号中号大号R@k151 51 5[29]第二十九话49.0 73.5 42.8 66.838.2 61.6GS-TRS损失[7]75.0 83.0 74.1 82.673.2 81.9比尔[33]82.6 90.6 79.3 88.376.0 86.4A-BIER [34]86.3 92.7 83.3 88.781.9 88.7保证金基线 *[49]85.1 91.4 82.9 88.979.2 88.4我们的（保证金）87.7 92.9 85.790.482.9九十二DREML [50]88.5 94.8 87.2 94.283.1 92.4表5：小型、中型和大型PKU VehicleID [29]数据集上k= 1、5的* 表示我们自己基于ResNet-50的实现，d= 128。K = 2时。最好的结果是在K = 8的情况下实现的，其中每个学习器在16维嵌入子空间中操作。从K> 1开始增加学习器的数量，会导致更快的收敛和更好的局部最优解。接下来，我们研究聚类数据的效果在选项卡中。6我们看到，用随机数据划分代替嵌入空间中的K均值聚类显着降低了性能。另一方面，如果我们在嵌入空间中使用K-means聚类，但不将嵌入f分割为K个子空间f1，. . .，fK在训练中？也就是说，我们进行常规训练，但从聚类中进行采样。从Tab。6我们看到，与所提出的方法相比，它导致性能下降，但是它已经好于基线。这是因为与从整个数据集中提取小批量相比，从聚类中提取小批量会产生更难的训练样本集群内负对之间的距离的期望值低于从整个数据集随机采样的负对之间的距离的期望值，如图2所示7和图8. 这表明：a）从聚类中采样提供了比从整个数据集进行常规采样更强的学习信号，b）为了能够有效地从更难的数据集中学习，R@k1248NMIR@k110203050NMI[32]第三十二话46.658.169.880.256.2时尚网[55]53.0 73.0 76.0 77.0 80.0-[42]第四十二话48.261.471.881.959.2HDC [51]62.1 84.9 89.0 91.2 93.1-智能采矿[14]49.862.374.183.3-比尔[33]76.9 92.8 95.2 96.2 97.1-斌[43]第四十三话52.864.474.783.9-HTG [53]80.3 93.9 95.8 96.6 97.1-[41]第四十一话51.063.374.383.260.4HTL [10]80.9 94.3 95.8 97.2 97.8-DVML [28]52.765.175.584.361.4A-BIER [34]83.1 95.1 96.9 97.5 98.0-DAML（N-pairs）[6]52.765.475.584.361.3保证金基线 *[49]82.6 94.8 96.2 97.0 97.7 87.8直方图[43]50.361.972.682.4-我们的（保证金）85.7 95.5 96.9 97.5 98.0 88.6[47]第四十七话HDC [51]54.753.666.365.776.077.083.985.661.1-DREML [50]78.4 93.7 95.8 96.7--比尔[33]55.367.276.985.1-表4：对于k= 1、10、20、30、50和NMI开启，调用@kHTL [10]57.168.878.786.5[55]第五十五话* 表示我们自己的实现A-BIER [34]57.568.778.386.2-基于ResNet-50，d= 128。HTG [53]59.571.881.388.2-479图7：自然硬负挖掘。在训练过程中，我们只对元组进行采样（例如，对或三胞胎）来自同一簇。当数据点属于不同的聚类时，聚类内的阴性样本与锚点之间的距离的期望值低于我们的方法自然地找到硬否定，而不显式地执行硬否定挖掘过程。图8：负对距离的集群内和集群间分布。红色直方图显示具有不同类别标签但来自同一聚类（聚类内）的样本的成对距离的分布;绿色直方图示出了具有不同类别标签并从不同聚类（聚类间）提取的样本的成对距离的分布。一个集群中的负对具有较低的距离，平均而言更难R@k1101001000样本，我们需要一个单独的学习者为每个集群，显著降低了度量学习基线[49]K-在Emb中的意思。空间，72.7 86.2 93.8 98.0任务我们还将K均值聚类替换为固定无嵌入分裂75.0 87.6 94.2 97.8数据分区，基于地面实况标签，随机数据划分73.2 85.8 93.4 97.6根据语义相似性手动分组（参见GT标签分组74.5 87.1 93.8 97.6标签分组”选项卡中。（六）。我们认识到，K-在Emb中的空间75.9 88.4 94.9 98.1灵活的聚类方案，这取决于数据分布，在嵌入空间中的布局，导致比使用类标签更好的性能。网络复杂度：将嵌入空间分割成子空间并训练K个独立的学习器减少了单个向前和向后传递所需的时间，因为我们只使用d/K维嵌入而不是完整的嵌入。我们每T个epochs执行一次K-means聚类我们使用来自Faiss 库 [23] 的 K-means 实现，其平均复杂度为 O（Kni），其中n是样本数，i是迭代次数。这增加了一个可忽略的开销相比，一个完整的向前和向后通过所需的时间，数据集中的所有图像。例如，在T= 2的情况下，集群将增加25%的开销，而在T= 8的情况下，仅增加25%的开销。百分之二十五5. 结论我们介绍了一种简单有效的深度度量学习的分治方法，该方法将数据划分为K个聚类并将其分配给各个学习者，通过将网络嵌入层拆分为K个不重叠的切片来构建。我们描述了关节的手术过程，表6：在Stanford Online Products [31]上评估不同的数据分组方法，K = 8和边际损失[49]。在一个神经网络中训练多个学习者，并将部分解决方案组合到最终的深度嵌入中。所提出的方法易于实现，并且可以用作现有深度度量学习方法中常用的线性嵌入层的有效替代，与损失函数的选择无关在CUB200 -2011 [44] ， CARS 196 [25] 和斯坦福在线产品[31]，In-shop Clothes [55]和PKU VehicleID [29]上的实验结果表明，我们的方法在所有数据集上的性能都显着优于最先进的方法。这项工作得到了DFG基金OM 81/1-1和NVIDIA公司的硬件捐赠的支持。480引用[1] M. A'. Bautista、A. Sana ko yeu和B. 奥默河使用偏序集的深度非在IEEE计算机视觉和模式识别会议论文集，第1923-1932页，2017年。一、二[2] M. A. Bautista、A. Sanakoyeu，E. Tikhoncheva和B.哦-梅尔。Cliquecnn：深度无监督范例学习。在神经信息处理系统（NIPS）集，第3846-3854页，2016年。1[3] S. Bell和K.巴拉用卷积神经网络学习产品设计的视觉相似性 ACM Transactions on Graphics （ TOG ）， 34（4）：98，2015. 1[4] 联合 Büchle r，B. Brattoli和B. 奥默河通过深度强化学习改进时空在欧洲计算机视觉会议（ECCV）的会议记录中，第770-786页，2018年。1[5] S.乔普拉河Hadsell和Y.乐存。区别性地学习相似性度量，并应用于人脸验证。计算机视觉与模式识别，2005年。CVPR 2005。IEEE计算机协会会议，第1卷，第539-546页。IEEE，2005年。一、二[6] Y. Duan，W.Zheng，X.Lin，J.Lu和J.舟深度对抗度量学习。在IEEE计算机视觉和模式识别会议论文集，第2780六、七[7] Y. Em，F.加格，Y.卢，S。Wang，T.Huang和L.-Y.段。将类内方差简化为细粒度的视觉识别。在多媒体和博览会（ICME），2017年IEEE国际会议上，第1452-1457页IEEE，2017年。7[8] Y. Freund和R. E.夏皮尔在线学习的决策理论一般化及其在Boosting中的应用。Journal of Computer and SystemSciences，55（1）：119-139，1997. 3[9] Y. Ganin，E.乌斯蒂诺娃Ajakan山口Germain，H.拉罗谢尔F.拉维奥莱特M Marchand和V。Lempitsky神经网络的领域对抗训练。机器学习研究杂志，17（1）：2096-2030，2016。3[10] W. Ge，W. Huang，黄氏拟谷盗D. Dong和M. R. Scott.深度度量学习与分层三元组丢失。在欧洲计算机视觉会议（ECCV）的会议记录中，第269-285页，2018年。二六七[11] I. Goodfellow，J.普热-阿巴迪米尔扎湾，澳-地Xu，L.Warde-Farley，S.奥扎尔A. Courville和Y.本吉奥。生成性对抗网。神经信息处理系统的进展，第2672-2680页，2014年。3[12] J.Guo和S.古尔德。用于目标检测的深度cnn数据增强集成arXiv预印本arXiv：1506.07224，2015年。3[13] R. Hadsell，S. Chopra和Y.乐存。通过学习不变映射进行降维。空，第1735-1742页。IEEE，2006年。1[14] B. Harwood，V. Kumar，G.卡内罗岛Reid和T.德拉蒙德。深度度量学习的智能挖掘在proc IEEE国际计算机视觉会议（ICCV），2017。二六七[15] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集，第7706[16] J. R. Hershey，Z. Chen，J. Le Roux，and S.渡边深度集群：用于分割和分离的判别嵌入。在声学，语音和信号处理（ICASSP），2016年IEEE国际会议上，第31-35页。IEEE，2016. 一、二[17] E. Hoffer和N.艾伦使用三重网络的深度度量学习。在基于相似性的模式识别国际研讨会上，第84-92页。施普林格，2015年。1[18] K.霍尼克多层前馈网络的逼近能力。神经网络，4（2）：251-257，1991。2[19] C. 黄角Change Loy和X.唐判别属性和视觉表示的无监督学习在IEEE计算机视觉和模式识别会议论文集，第5175-5184页，2016年。1[20] C.黄角C. Loy和X.唐局部相似性感知深度特征嵌入。神经信息处理系统，第1262-1270页，2016年。1[21] A. Iscen，G. Tolias，Y. Avritis和O.好朋友在流形上采矿：没有标签的度量学习。在IEEE计算机视觉和模式识别会议论文集，2018。2[22] H.杰古湾Douze和C.施密特最近邻搜索的乘积量化。IEEEtransactionsonpatternanalysisandmachineintelligence，33（1）：117-128，2011。5[23] J. 约翰逊，M。 Douze和H. 我去。使用gpu进行十亿级相似性arXiv预印本arXiv：1702.08734，2017。8[24] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[25] J. Krause，M. Stark、J.Deng和L.飞飞用于细粒度分类的3D对象表示。第四届国际IEEE 3D表示和识别研讨会，澳大利亚悉尼，2013年。二四五六八[26] Z. Li和J.唐用于社区贡献图像检索的弱监督深度度量学习IEEE Transactions on Multimedia，17（11）：1989-1999，2015。2[27] Z. Li，J.Tang和T.美. 深度协作嵌入用于社会图像理解。IEEE关于模式分析和机器智能的交易，2018。2[28] X. Lin，Y.段角Dong，J.Lu和J.舟深度变分度量学习在

下载后可阅读完整内容，剩余1页未读，立即下载