深度度量学习中的排名列表损失与相似结构建立的研究

94 浏览量更新于2023-10-19 收藏 739KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5207深度度量学习王新邵1，2，杨华1，科季罗夫2，胡国胜2，1，罗曼·卡尼尔2，尼尔·M。Robertson1，21英国贝尔法斯特女王大学电子、电气工程和计算机科学学院{xwang39，y.hua，n.robertson} @ qub.ac.uk，{elyor，guosheng.hu，romaing} @anyvision.co摘要深度度量学习（DML）的目标是学习可以捕获数据点之间语义相似性信息的嵌入。在DML中使用的现有的成对或三重损失函数是已知的遭受缓慢的收敛，由于大比例的平凡对或三元组的模型改进。为了改善这一点，最近提出了排名驱动的结构损失，包括多个例子，并利用它们之间的结构信息。它们收敛速度更快，并实现最先进的性能。在这项工作中，我们提出了现有的排名动机的结构性损失的两个限制，并提出了一种新的排名列表损失来解决这两个问题。首先，给定一个查询，只有一小部分的数据点被合并，以建立相似性结构。因此，一些有用的例子被忽略了，结构信息量也较少。为了解决这个问题，我们建议建立一个基于集合的相似性结构，利用画廊中的所有实例。样本被分成正集合和负集合。我们的目标是使查询更接近阳性集，而不是由利润率的负面集第二，随机方法的目标是在嵌入空间中尽可能接近正对因此，可能会丢弃组内数据分布相比之下，我们建议为每个类学习一个超球体，以保持其内部的相似结构。我们广泛的实验表明，所提出的方法实现了最先进的性能在三个广泛使用的基准。1. 介绍深度度量学习（DML）在计算机视觉的各种应用中起着至关重要的作用，例如图像检索[28，19]，聚类[10]和迁移学习[20]。此外，DML是一个很好的解决方案，具有挑战性的极端分类设置[22，40]，其中存在大量的类，每个类只有几个图像。例如，通过使用DML，FaceNet [24]在人脸验证方面实现了超人的性能，具有8M身份的260M人脸图1：我们提出的RLL的说明。给定一个查询及其排序列表，RLL的目标是使查询更接近正集而不是负集一个余量m。圆形和三角形代表两个不同的类。蓝色圆圈是一个查询。黄色的形状代表非平凡的例子，而红色的形状代表平凡的例子。箭头指示由相应的非平凡示例确定的查询的梯度方向。查询的最终梯度方向是它们的加权组合。优化后的排名列表显示在底部。损失函数在成功的DML框架中起着关键的作用对比损失[2，6]捕获成对数据点之间的关系，即，相似或相异。基于三重态的损失也被广泛研究[24，33，3]。三元组由锚点、相似（阳性）数据点和不相似（阴性）数据点组成三重丢失的目的是学习一个距离度量，通过该距离度量，锚点比不相似点更接近相似点。一般来说，三重损失优于对比损失[20，24]，因为考虑了正负对之间的关系。受此启发，最近的工作[24，28，20，29，16，19]建议考虑多个数据点中更丰富的结构化信息，并实现令人印象深刻的5208i=1ikIJijii在许多应用中的性能，例如，图像检索和聚类。然而，在当前最先进的DML方法中仍然存在某些限制。首先，我们注意到，只有一部分信息的例子被纳入到以前的排名动机的损失函数的结构。在这种情况下，一些非平凡的例子被浪费了，结构化信息是从更少的数据点中提取的。为了解决这个问题，我们建议利用所有非平凡的数据点来构建一个信息量更大的结构，并利用它来学习更多有区别的嵌入。嵌入空间• 我们在三个受欢迎的基准上实现了最先进的性能，即，CARS 196 [15]、CUB-200- 2011 [32]和SOP [20]。2. 预赛符号。设X={（xi，yi）}N为输入数据，其中（xi，yi）表示第i幅图像及其相应的类标签. 类的总数是C，即，yi∈ [1，2，.，C]。来自第c类的图像被表示为{xc}Nc，具体来说，给定一个查询，我们通过排序获得一个排名列表-根据相似性检查所有其他数据点（图库）。理想情况下，所有的正样本都应该在特征空间中排在负样本之前。为了实现这一点，我们提出了排名列表损失（RLL ）来组织每个查询的样本在一个查询中，optimism其中Nc是第c类中的图像的数量。2.1. 结构性损失2.1.1排名驱动的结构性损失i i=1RLL的作用是将所有的正点排在负点之前，并在它们之间强制一个余量。换句话说，RLL旨在探索基于集合的相似性结构，它包含比基于点的更丰富的信息三重损失[37，24]旨在将锚点拉到更靠近正点而不是负点的固定裕度m：方法，例如，三重态损失其次，我们观察到，在以前的结构性损失中没有考虑组内数据所有出租人[24，20，28，29，19]的目标都是将数据点拉入L（X;f）=1|Γ|Σ（i，j，k）∈Γ2+m-d2]+、（1）尽可能接近同一个班级因此，这些方法试图将同一类的样本收缩到特征空间中的一个点，并且可能容易丢弃它们的相似性结构。为了解决这个问题，我们建议为RLL中的每个类学习一个超球体。具体地说，我们并没有将类内的例子拉得尽可能紧凑，而是只强制正对的距离小于阈值，阈值是每个类的超球面的直径在这种情况下，RLL可以帮助尽可能多地保留每个类内部的相似性结构。根据经验，DML方法的收敛速度高度依赖于看到非平凡样本的可能性[24]。给定一个锚点（查询），当所有其中，r是三元组的集合，i、j和k是锚点、正点和负点。 f是嵌入函数，dij=||f（xi）−f（xj）||2是欧氏距离。 [·]+是铰链函数。N-pair-mc[28]利用多个数据点之间的结构化关系来学习嵌入函数。三重损失拉一个积极的点，同时推动一个消极的一个。为了通过与更多的负类和示例交互来改善三重态损失，N-pair-mc的目标是从N-1个类的N-1个反例中识别出一个正例（每个类一个反例）：1ΣNL（{（xi， x+）}N ;f）=日志{1+考虑数据点。因此，只有少数几个排名随着模型在训练过程中的改进，列表得到了完美的优化。因此，我们的方法可以利用最大的非零损失的元素，并释放学习过程的潜力。建议的RLL为ii=1N i=1Σexp（f<$f+−f<$f+）}J I、（二）如图1所示。其中fi=f（xi）且{（xi，x+）}N有N对测试-i i=1我们在本文中的贡献如下：来自N个不同类别的多个，即，yiyj，yi/=j。在这里，xi和x+分别是查询和正例• 我们提出了一种新的排名动机的结构性损失+i(RLL)来学习区别性嵌入。与以前的排名驱动的损失相比，我们是第一个将所有非平凡的数据点，并利用它们之间的结构。此外，我们为每个类学习了一个超球体，以保持类内的数据分布。{xj，j/= i}是反例。提升结构[20]由Song等人提出，通过合并所有负样本来学习嵌入函数。提升结构的目的是将一个正面的pair（x+，x+）尽可能接近，并将所有neg推到iveI j而不是将每个类收缩为一个点，对应于x+或x+比边距更远的数据点I j[d5209图2：不同排名驱动的结构性损失的图示不同的形状（圆形，三角形和正方形）代表不同的类。为了简单起见，仅示出了3个类。蓝色圆圈是一个锚（查询）。在三联体[24]中，锚只与一个负例和一个正例进行比较。在N-pair-mc [28]，Proxy-NCA [19]和Lifted Struct [20]中，合并了一个正例和多个负类。n-pair-mc随机选择每个负类的一个例子。代理NCA将锚点推离负代理而不是负示例。代理是类级别的，可以表示相应类中的任何实例Lifted Struct使用所有否定类中的所有示例相反，我们提出的排名列表损失不仅利用了所有的负面例子，而且还利用了所有的正面例子。α。数学上：整合所有重要的数据点，并探索内在的L（X;f）=12 |P|Σ（i，j）∈P[2019 - 03 -25]刘晓波（Σ（i，k）∈Nexp（α−dik）、在他们之间的结构化信息图2显示了不同排名驱动损失和我们的方法的图示和比较。Σ+（j，l）∈Nexp（α−djl））}]+（三）2.1.2结构性亏损最近，Struct Clust[29]被提出来学习嵌入式。其中，P和N分别表示位置的集合肯定对和否定对。给定查询xi，提升结构打算从所有对应的负数据点中识别一个正示例。Proxy-NCA[19]建议使用代理解决采样问题。代理W是表示原始数据中的训练类的数据点的小集合u的代理由下式选择：p（u）= argminw∈Wd（u，w），（4）p（u）表示从W到u的最近点。代理- NCA丢失是通过代理而不是原始数据点定义的传统NCA丢失exp（−d（a，p（u）通过优化聚类质量度量来确定函数f。建议的结构化损失函数定义为：L（X;f）=[F（X，y<$;f）+γ△（y，y<$）） −F（X，y;f）]+，（6）△（y，y）=1−NMI（y，y），（7）其中，y和y分别是预测的聚类分配和地面实况聚类分配。 F通过标签分配和距离度量度量X上的聚类质量。 NMI（y，y∈ N）是归一化互信息[25]。如果预测的聚类分配与地面实况一样好，则NMI为1，如果它是最差的，则NMI为0。基于学习到的距离度量f预测，Struct Clust [29]旨在学习f，使得地面实况分配的F为L（a，u，Z）=−log（nz∈Z），（5）exp（−d（a，p（z）大于任何其他预测的聚类分配。然而，这个算法是NP难的，因为我们需要操作-其中Z是负集，p（u）和p（z）分别是正点和负点的近似。a是锚点，d（·，·）是两个点之间的欧几里得距离。使用静态代理分配，即，一个代理，类，性能比动态代理分配好得多。然而，静态代理分配中的代理是在训练期间学习的，并且类似于分类中的全连接层的类向量因此，Proxy-NCA不保留DML的可伸缩性，因为需要考虑类的数量。RLL是一种基于排序的结构化损失，通过引入结构化损失，避免了传统方法的两个局限性，同时设置聚类中心点和距离度量。因此，基于贪婪算法[18]，将损失增强推断和细化应用于选择设施（聚类中心点）。需要足够大的贪婪搜索迭代来找到局部最优，这可能是昂贵的。光谱聚类[16]也旨在优化聚类的质量。谱聚类放宽了Bregman发散[1]的聚类问题，并以封闭形式计算梯度，这减少了现有迭代方法的算法复杂性，例如，[29]第二十九话然而，学习基于深度模型的5210J我c我Jc我J我c我我c我jc，i小批量的实现。需要大批量（1260 = 18个类x每个类70个）来进行聚类，在图1中显示。在每一个列中，有Nc−1个正集合中的正点和kcNk点，小批量因此，光谱聚类迭代地计算负集。相对于查询子矩阵，并将它们连接成单个矩阵，xc表示为Pc，i={xc|Ji}，|PC，I|=Nc−1。模拟I j计算损失和梯度，这可能是昂贵的。类似地，我们将关于xc的负集表示为无论是排名驱动还是聚类驱动的结构，Nc，i={xk|KΣc}，|Nc，i|= k我cNk。约束损失函数利用信息的结构相似性，多个数据点之间的信息。然而，一般来说，聚类驱动的损失比排名驱动的损失更难优化。2.2. 挖掘非平凡实例示例挖掘策略广泛应用于现有方法[24，35，27，11，41，26，3，20，28，36]中，以提供非平凡示例，从而实现更快的收敛和更好的性能。在FaceNet[24]中，他们提出挖掘半硬负样本。在N-pair-mc [28]中，非平凡样本挖掘。采矿信息考试-PLS被广泛采用[24，41，3，20，28，36，9]，因为它允许快速收敛和良好的性能。通过信息示例，我们指的是具有非零损失的非平凡数据点违反关于查询的成对约束。由于它们的梯度为零，因此将它们包括在训练中会我们挖掘非平凡的正面和负面的例子。对于查询xc，在min-建议采矿提供信息丰富的负面检查-ing表示为P={xc|j/=i，dij>（α−m）}。例。在提升结构[20]中，强调了更难的反例。在我们的工作中，我们只是挖掘具有非零损失的示例。类似地，我们将挖掘后的负集表示为N={xk|ki=c，dij<α}。失却本位负面例子权重。对于每个查询xc，存在大量的非3. 方法平凡反例（N）不同幅度我们的目标是学习一个判别函数f（a.k.a.深度度量），使得在特征空间中正对之间的相似性高于负对之间的相似性。每个类中至少存在两个图像，以便可以评估所有类。在这种情况下，给定来自任何类的查询，我们的目标是从所有其他示例中识别其匹配样本。3.1. 成对约束受前人关于两两相似度控制的工作的启发，的损失。为了更好地利用它们，我们建议加权基于其损失值的反面示例，即，每个负对违反约束的程度加权策略的形式表示为：wij=exp（T·（α−dij）），xk∈N<$.（九）我们注意到，在方程中，关于任何嵌入的梯度幅度总是1。（八）、从数学上讲，Lm（xi，xj;f）f（xi）−f（xj）||||2=||||2=1. （十）应变[6，38]，我们的目标是拉积极的例子比f（xj）||2||2预定义的阈值（边界）。此外，我们打算用一个裕度m来分隔正集和负集。为了实现这一点，我们选择成对边际损失[38]作为我们的基本成对约束来构建基于集合的相似性结构。给定一个像xi，我们的目标是把它的负点推到比边界α更远的地方，把它的正点拉到比另一个边界α-m更近的地方。m是两个边界之间的距离。从数学上讲，Lm （ xi ， xj;f ） = （ 1−yij ） [α−dij]++yij[dij−（α−m）]+，（八）其中，如果yi=yj，则y i j = 1，否则yij=0。dij=||2是t w o 之间的欧几里得距离||2istheEuclideandistancebetweentwo因此，任何嵌入的梯度幅度为仅由我们的加权策略wij确定。在这种情况下，评估其影响也很方便，这在第4.3节中进行了研究。由方程式（9）、T≥0是控制负例加权程度（斜率）如果T= 0，则它处理所有非平凡的负-同样的例子。当T=+∞时，它是最难的反例挖矿优化目标。对于每个查询xc，我们建议使其更接近其正集合Pc，i而不是其负集合Nc，i，幅度为m。同时，我们强迫所有的反例都比边界α更远。因此，我们将同一类中的所有样本拉到一个超球体中。的每类超球面的直径为α−m。点为了把P中以─3.2. 排名榜损失学习一个类hypersphere，我们最小化：5211|P给定一个查询xc，我们对所有其他数据点进行排名（图库）L（xc;f）=1ΣL（xc，xc; f）.（十一）我根据它们与查询的相似性，Pic我mi jxc∈Pjc，i|5212i=1i=1c我c我我我我我我c我我我我图3：我们提出的排名列表损失的总体框架。对于每个输入小批，每个图像都充当算法1一个小批量的排序列表损失1：小批量设置：批量大小N，类数C，每个类的图像数Nc。2：参数设置：负例距离约束α，正例与负例的间隔m，加权温度T。迭代查询，并获得排名的其他图像的列表3：输入：X ={（xi，yi）}N={{xc}Nc}C，em-i=1我i=1 c=1通过相似度得分。对于每一个排名列表，我们挖掘非-平凡的数据点，并基于它们相对于查询的成对边际损失来在bedding函数f，学习率β。4：输出：更新f.5：步骤1：前馈所有图像{xi}N到F到O-最后，计算每个查询的排序列表损失得到图像的嵌入{ f （x i ）} N .第六章：步骤2：在线迭代排名和损失计算。7：对于每个f（xc）∈{{f（xc）}Nc}Cdo我们不重视积极的点，因为只有一些正面的例子。类似地，为了将N中的非平凡负点推到边界α之外，我们最小化：Σwi i i=1c=18：挖掘非平凡正集P_n。9：挖掘非平凡的负子集N。10：将负例加权为等式（九）、11：将LP（xc; f）计算为Eq. （十一）：L（xc;f）=吉吉L（xc，xk;f）.12：将LN（xc; f）计算为Eq. （十二）、你我k<$xk∈|N*|IJ13：将LRLL（x; f）计算为等式（13）。x j∈|Nc，i|jc，i（十二）我14：结束在RLL中，我们平等对待这两个最小化目标，并对其进行联合优化：LRLL（xc;f）=LP（xc;f）+λLN（xc;f），（13）其中λ控制正集和负集之间的平衡我们固定λ=1而不进行调优，这在我们的实践中工作得很好。在xc的排序列表中，我们将其他示例的特征视为常数。因此，基于其他元素的加权组合的影响，仅更新f（xc）。3.3. 基于RLL的深度模型为了学习深度模型，我们实现了基于小批量和随机梯度下降的RLL。每个小批是整个训练类的随机采样子集，这可以被视为具有较小图库的简化排名（从较少数量的类中识别匹配示例）。小批量中的每个图像xc每个小批次的RLL表示为：十五：将LRLL（X;f）计算为Eq.（14）。步骤3：梯度计算和反向传播以更新f的参数。十七：f=十八： f=f−β·f(step在获得图像的嵌入（算法1中的因此，RLL的计算复杂度为O（N2），这与现有的排名驱动的结构损失函数相同[20，28，19]。3.4. 实现细节在每个小批量中，我们随机抽取C类和每个类K个我们设C=60，K=3。因此N=180，Nc=K=3，Nc。在这种情况下，排名列表中有2个正面图像和177个负面图像对应于每个查询，这模拟了基于全局集的相似性结构。更准确地说，在一个大的画廊中只有少数匹配的例子我们使用与[20]中相同的数据预处理和增强具体LRLL（X;f）=1NΣL拉克奇山RLL（xc;f）、（14）通常，输入图像首先被调整为256×256，然后被裁剪为227×227。在训练过程中，我们使用随机裁剪和随机水平镜像进行数据扩充，N是批量。基于RLL的深度嵌入函数f的学习在算法1中示出。整个流水线如图3所示。计算复杂性。如算法1所示，我们提出的方法不需要以任何严格的格式准备输入数据，例如，三重态n对重态相反，它随机输入带有多类标签的图像。我们进行在线迭代排名和损失计算第为了测试，我们只使用一个中心裁剪，而不使用镜像。我们按照[16，28]中的设置将所有数据集的嵌入大小设置为512如[29，19]中所做的那样，在训练和测试期间，在计算它们的距离之前，对特征进行L2我们使用GoogLeNet V2 [12]作为我们的骨干网络，以便与[29，19，16]进行公平比较。在这个网络中，有三个完全连接的层用于不同的层。我们-5213基于它们的相对位置，将它们赋值如下：L表示低级层（inception-3c/输出），M表示中级层（inception-4 e/输出），H表示高级层（inception-5 b/输出）。在[29，19，16]之后，ImageNet [23]上的预训练模型用于我们实验中的初始化。三个原始的1000神经元全连接层，然后是softmax层和交叉熵损失，改为三个512神经元全连接层，然后是我们提出的排名列表损失。根据[20]，新层是随机初始化和优化的，其学习速率是其他层的10倍，以实现更快的收敛。我们使用GoogLeNet V2 [12]（具有批量归一化）作为我们的骨干网络，以便与[29，19，16]进行公平比较。在他们之后，ImageNet [23]上的预训练模型用于我们实验中的初始化。三个原始的1000神经元全连接层，然后是softmax层和交叉熵损失，改为三个512神经元全连接层，然后是我们提出的排名列表损失。根据[20]，新层是随机初始化和优化的，其学习速率是其他层的10倍，以实现更快的收敛。我们的方法在Caffe深度学习框架中实现[13]。4. 实验4.1. 数据集和设置数据集。我们在三个流行的基准点上进行实验：（1）CUB-200-2011 [15]有11，788张200种鸟类的图像。前100类的5,864幅图像用于训练，其他100类的5,924幅图像用于测试。(2)CARS196包含196个汽车模型的16，185张图像。我们使用前98个类（8，054张图像）进行训练，其余98个类（8，131张图像）进行测试。(3)SOP[20]包含在eBay.com上销售的22，634种在线产品分别使用11，318个类别的59，551个图像和11，316个类别的60，502个图像训练/测试划分和评估方案与[20]相同。对于CUB-200- 2011和CARS 196，我们的方法在原始图像上进行评估（不使用边界框信息）。指标. 根据标准[20]，我们分别根据Recall@K和NMI[25]报告了图像检索性能和图像聚类质量。培训设置。我们在具有32 GB RAM的单个Tesla V100GPU使用标准的随机梯度下降（SGD）优化器，动量为0.9，权重衰减率为1e−5。我们把基础学习对于CARS196和SOP，速率为1e−2小基数学习rate1e−3更适合CUB，因为它与ImageNet有一点重叠，并且包含较少的图像[15，34]。对汽车和CUB的训练过程收敛于10k次迭代，而SOP的训练过程收敛于16k次迭代我们设置超参数em-具体如下：m = 0。4，T = 10，α = 1。二、4.2. 与现有技术方法的竞争对手我们将我们的方法与以下在相同设置下实现和测试的方法进行了比较：三重半硬、提升结构、N对mc、结构聚类、光谱聚类和代理NCA 1。这些方法已在第2节中描述，除了三重态半硬[24]，其开采半硬负性实例以改善常规三重态损失。结果我们的方法与其他竞争对手在小数据集（CUB-200-2011和CARS 196）和大数据集（SOP）上的比较分别见表1和表2。如3.4节所述，GoogLeNet V2中有三个全连接层。我们报告两组结果。为了公平比较，我们报告了高级嵌入的结果，表示为RLL-H.此外，通过实验发现，将低、中、高层嵌入串联起来的多层嵌入（简称RLL-（L，M，H））可以获得更好的性能。我们从表1和表2中得到以下观察结果：• 总的来说，我们的方法优于所有比较的方法。这验证了我们提出的损失函数的有效性.• 在小型数据集 CARS 196 和 CUB-200-2011 上，RLL-H通过单级嵌入在两个任务上实现了最先进的性能。例如在CUB-2011-2011，RLL-H的Recall@1和NMI分别比之前的最新技术水平高4.2%和4.1%。• 在大数据集SOP上，RLL-H在图像检索任务中的性能也优于所有以前的方法具体而言，Recall@1比代理NCA高2.4%。然而，与代理NCA相比，我们的方法稍显不足。有趣的是，当使用此度量时，所有方法的性能都相似这可能表明NMI不是大规模数据集的良好度量。• RLL-（L，M，H）算法比RLL-H算法在每个数据集上都有更好的性能。这表明多级嵌入比单级fea更具鉴别力在我们的方法中的真实表示。讨论值得一提的是，虽然Proxy NCA在CARS 196和SOP上的性能也很好，1没有报告使用GoogLeNet V1 [30]的[7，34，31，4，17]中的方法和使用ResNet50 [8]的边际损失[38此外，我们不与集合模型[41，21，14，39]进行比较，因为我们是单一模型。虽然HTL [5]也使用GoogLeNet V2，但我们没有对它进行基准测试，因为它通过使用所有原始类作为叶子来构建全局类级层次树，并在每个epoch之后更新树，因此计算成本非常高且不可扩展。5214表1：与CARS 196、CUB-200-2011最新方法在召回率@K（%）和NMI（%）方面的比较。所有比较的方法都使用GoogLeNet V2作为骨干架构。为了公平比较，RLL-H表示单级嵌入，即，高级嵌入。RLL-（L，M，H）表示通过级联低级、中级和高级嵌入的多级嵌入。[24]第二十四话51.563.873.582.453.442.655.066.477.255.4[20]第二十话53.065.776.084.356.943.656.668.679.656.5N-pair-mc [28]53.966.877.886.457.845.458.469.579.557.2[29]第二十九话58.170.680.387.859.048.261.471.881.959.2[16]第十六话73.182.289.093.064.353.266.176.785.359.2[19]第十九话73.282.486.488.764.949.261.967.972.459.5RLL-H74.083.690.194.165.457.469.779.286.963.6RLL-（L，M，H）82.189.393.796.771.861.372.782.789.466.1表2：与SOP中最先进方法的比较。评估设置见表1。The ‘–’ de- notes the corresponding results are notreported in theSOP实际T=10，余量m=0。4在所有实验中。结果如表3所示。我们观察到，一个适当的负约束α是很重要的RLL学习判别嵌入。这与我们的直觉是一致的，因为α控制着负面例子被推开的程度。代理NCA不保留深度度量学习的可扩展性，因为需要考虑类的数量。代理NCA每个类学习一个代理，这也需要更多的学习参数。我们的方法不仅实现了更好的性能，还保留了深度度量学习的可扩展性，如表2所示。4.3. 消融研究4.3.1挖掘非平凡实例如第3.2节所述，对于每个查询，RLL挖掘违反关于查询的成对约束的示例具体来说，我们挖掘距离小于等式中α的负样本。（十二）、同时我们• 当m = α = 1时。2、没有挖矿过度积极表3：α对反例距离分布的影响。使用SOP报告了K（% ）召回率结果在所有实验中，m = 0。4，T=10。m= 0。4，T=10 R@1R@10R@100α = 1。476.289.495.6α = 1。279.891.396.3α = 1。078.790.595.9表4：阴性和阳性示例之间的距离裕度m的影响SOP上的K（%）召回率结果显示为α=1。2，所有实验中T=10挖掘距离大于α−m的正例由方程式（十一）、结果，在每个排名列表中的否定示例和肯定示例之间建立裕度m。由于样本挖掘范围由约束参数α，m决定，因此我们在大数据集SOP上进行实验，分析它们的影响。α的影响。为了研究α的影响，我们设置了温度-α=1。2，T=10R@1 R@10 R@100m=076.1 89.8 95.7m= 0。279.091.296.3m= 0。479.891.396.3m= 0。679.290.696.0m= 1。279.190.595.8CARS196 CUB-200-2011R@1 R@2 R@4 R@8 NMI R@1 R@2 R@4 R@8 NMIR@1R@10R@100NMIM的影响。为了观察m的影响，我们固定α= 1。2[24]第二十四话66.782.491.989.5T=10。不同保证金值的结果是[20]第二十话62.580.891.988.7如表4所示。我们有三个重要的观察：N-pair-mc [28]66.483.293.089.4[29]第二十九话67.083.793.289.5• 当m >0时，RLL的性能好得多，[16]第十六话67.683.793.389.43%，m=0。这表明利润率很重要[19]第十九话73.7––90.6提高RLL的泛化能力。RLL-H76.189.195.489.7• 基于余量的RLL对余量RLL-（L，M，H）79.891.396.390.4值性能差异小于1%当m在0.2至1.2的范围内时。5215点（α−m=0）。在这种情况下，RLL将正例尽可能地拉近，这与传统的对比损失具有相同的效果。4.3.2否定的例子在本节中，我们进行实验以评估不同温度T对等式中的负例加权的影响。（九）、我们固定m=0。4，α=1。所有实验中均为2。温度参数T（T>0）控制加权的斜率结果如表5所示。我们发现：• 当T=0时，RLL平等地对待所有非平凡负样本，即，不应用加权。Recall@1结果为78.8%，仅比使用适当加权的最佳性能低1%。这证明了RLL的优越性，即使没有加权。• RLL对T的设置不敏感。当T范围从0到20时，性能差距约为1%在此外，当T较大时，性能下降。这是因为训练数据中存在“非常”困难的示例（例如，离群值）[24，3]。表5：SOP上不同T的结果，以召回率@K（%）表示。我们固定m=0。4，α=1。2在所有实验中。m= 0。4，α =1。2R@1R@10R@100T=078.890.796.1T=579.191.096.2T=1079.891.396.3T=1579.390.996.0T=2078.690.595.74.3.3单级与多级嵌入如4.2节所示，我们发现RLL使用多级嵌入执行得更好。为了比较不同的单级嵌入与多级嵌入，表 6 ： SOP 上单级嵌入与多级嵌入的召回率 @K（%）。L、M和H分别代表低层、中层和高层嵌入响应。（L，M，H）表示低级、中级和高级嵌入的级联。嵌入R@1R@10R@100L76.188.894.9M76.989.695.5H76.189.195.4（L，M，H）79.891.396.3我们在SOP上进行实验结果见表6。我们注意到：• 所有单级嵌入的性能都比多级嵌入差3%左右。• 与中级和高级嵌入相比，低级嵌入也表现得非常好。不同单级嵌入式系统dings小于1%。注意，低级嵌入可以用于快速推断，这对于资源受限的计算设备是必不可少的，例如，手机4.3.4批量大小的影响批量大小通常在深度度量学习中很重要。它决定了我们在训练过程中每次迭代要解决的问题的大小。如第3.3节和第3.4节所示，批量大小决定了图库中负类的数量。我们对SOP进行了实验，以评估批量大小在我们的应用中的影响接近具体来说，我们固定每个类的图像数量（Nc，Nc=K=3），并且只改变每个小批中的类数量（C∈{40，50，55，60，65}结果报告于表7中。我们可以看到批量大小确实在RLL中不起关键作用当C从120变化到195时，性能差距仅为表7：SOP中不同批量的结果批量R@1R@10R@100120= 40× 379.290.996.2150= 50× 379.591.196.2165= 55× 379.791.296.3180= 60× 379.891.396.3195= 65× 379.891.396.35. 结论在本文中，排名列表的损失，提出了开发所有的信息数据点，以建立一个更多的信息结构学习判别嵌入，这是没有考虑在以前的排名动机的损失。给定一个查询，RLL将它的正集和负集分开，并在它们之间强制一个余量。此外，还利用非平凡样本挖掘和负样本加权来更好地利用所有信息数据点。建议的RLL实现国家的最先进的性能在三个流行的基准使用单级嵌入。此外，我们发现，RLL的工作更好地使用多级嵌入经验。5216引用[1] A.班纳吉河梅鲁古岛S. Dhillon和J.高希与Bregman分歧的比较。机器学习研究杂志，第1705-1749页，2005年。3[2] S.乔普拉河Hadsell和Y.乐存。学习相似性度量有区别地，与应用到人脸验证。在CVPR，2005年。1[3] Y. Cui，F. Zhou，Y. Lin和S.贝隆吉细粒度分类和数据集自举使用深度度量学习与人类在循环中。在CVPR，2016年。一、四、八[4] Y. Duan，W. Zheng，X. Lin，J. Lu，and J.舟深度对抗度量学习。在CVPR，2018年。6[5] W. Ge，W. Huang，黄氏拟谷盗D. Dong和M. R. Scott.深度度量学习与分层三元组丢失。在ECCV，2018。6[6] R. Hadsell，S.Chopra和Y.乐存。通过学习不变映射来降低维数。CVPR，2006。 1、4[7] B. 哈伍德湾库马尔湾，澳 - 地卡内罗岛 Reid ，T.Drummond等人深度度量学习的智能挖掘InICCV，2017.6[8] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。6[9] A.赫尔曼斯湖Beyer和B. Leibe为三胞胎的丢失辩护，进行人员重新鉴定。arXiv预印本arXiv：1703.07737，2017。4[10] J. R. Hershey，Z. Chen，J. Le Roux，and S.渡边深度集群：用于分割和分离的判别嵌入。InICASSP，2016. 1[11] C.黄角C. Loy和X.唐局部相似性感知深度特征嵌入。在NIPS，2016年。4[12] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。五、六[13] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。在ACMMM，2014年。6[14] W.金湾，澳-地Goyal，K. Chawla，J. Lee，and K.权深度度量学习的基于注意力的集成。在ECCV，2018。6[15] J. Krause，M. Stark、J.Deng和L.飞飞用于细粒度分类的3D对象表示。在ICCV工作室，2013年。二、六[16] M. T. 劳河Urtasun和R.S. 泽梅尔深度光谱聚类学习。ICML，2017。一、三、五、六、七[17] X. Lin，Y.段角Dong，J. Lu，and J.舟深度变分度量学习。在ECCV，2018。6[18] B. Mirzasoleiman，A. Badanidiyuru，A. Karbasi，J. Vondra'k和A.克劳斯懒惰比贪婪更懒惰。InAAAI，2015. 3[19]Y. Movshovitz-Attias，A.Toshev，T.K. Leung，S.Ioffe，以及S.辛格. 没有大惊小怪的距离度量学习使用代理。在ICCV，2017年。一、二、三、五、六、七[20] H.哦，宋，Y。Xiang，S. Jegelka和S. Savarese通过提升结构化特征嵌入进行深度度量学习。在CVPR，2016年。一、二、三、四、五、六、七[21] M.奥皮茨湾Waltner，H. Possegger和H.比肖夫Bier-鲁棒地提升独立嵌入。InICCV，2017. 6[22] Y. Prabhu和M. Varma Fastxml：一个快速，准确，稳定的树分类器，用于极端的多标签学习。InSIGKDD，2014. 1[23] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein 等人图像网大规模视觉识别挑战。International Journal of Computer Vision，第211-252页，2015年。6[24] F. Schroff，D. Kalenichenko和J.菲尔宾Facenet：用于人脸识别和聚类的统一嵌入CVPR，2015。一二三四六七八[25] H. Schütze，C. D. Manning和P. 拉一拉。情报检索导论。剑桥大学出版社，2008年。三、六[26] H. Shi，Y.Yang，X.Zhu，S.廖，Z.雷，W。Zheng，和S.Z.李嵌入用于人员重新识别的深度度量：针对大的变化的研究。在ECCV，2016年。4[27] E. Simo-Serra，E.特鲁尔斯湖费拉斯岛Kokkinos，P. Fua，和F.莫雷诺诺格尔深度卷积特征点描述符的判别学习。在ICCV，2015年。4[28] K.孙改进的深度度量学习与多类n对损失目标。在NIPS，2016年。一、二、三、四、五、七[29] H. O.宋，S. Jegelka，V. Rathod，and K.墨菲通过设施位置进行深度度量学习。在CVPR，2017年。一、二、三、五、六、七[30] C. 塞格迪W. 刘先生，Y. 贾， P. SermanetS. 里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A. 拉比诺维奇。更深的回旋。CVPR，2015。

下载后可阅读完整内容，剩余1页未读，立即下载