深度度量学习的正则化与优化

3 浏览量更新于2023-10-23 收藏 940KB PDF 举报

深度度量学习

正则化

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14591朝着正确的方向前进：深度度量学习的正则化Deen Dayal Mohan*，Nishant Sankaran*，DennisFedorishin，Srirangaraj Setlur，Venu Govindaraju，美国纽约州布法罗市布法罗大学计算机科学与工程系摘要深度度量学习利用精心设计的采样策略和损失函数，有助于优化可区分嵌入空间的生成。虽然对的有效采样对于在训练期间形成度量空间是至关重要的，但是对之间的相对相互作用以及因此施加在这些对上的引导它们在嵌入空间中的位移的力可以显著影响良好分离的簇的形成。在这项工作中，我们确定了现有的损失公式的缺点，没有考虑更优的方向对位移作为另一个标准的优化。我们提出了一种新的方向正则化明确占采样对的布局，并试图引入正交的表示。建议的正则化很容易集成到现有的损失函数提供相当大的性能改进。我们在Cars-196、CUB-200和InShop数据集上通过实验验证了我们的假设，并超越了现有方法，得到了最先进的结果。1. 介绍近年来，度量学习领域受到了广泛的传统上，度量学习被用作创建最佳距离度量的方法，该最佳距离度量考虑数据点的特定属性和分布随后，度量学习的研究已经转向试图发现针对特定距离度量或相似性函数（欧几里得距离，余弦距离等）优化的表示它已经在各种各样的任务中得到应用，例如图像检索[12]，人脸验证[17]等。随着深度神经网络的出现，度量学习技术已经适应于利用深度非线性变换来获得更具鉴别力的度量空间。[19]如《易经》中的“阴阳五行”，“阴阳五行”中的“阴阳五行”，“阴阳五行”中的“阴阳五行”，“阴阳五行”中的“阴阳五行”。* 按字母顺序的图1：度量学习优化的难度。蓝色方块是一个特定类别的对象，而红色的星星则代表不同的类别。带有黄色高亮的蓝色正方形是锚点。灰色的对象不被认为是当前对的损失。典型的度量学习公式试图推开属于不同类的对象的嵌入，同时将其移动到更接近具有相同语义标签的对象。然而，如这里所示，当对象向相对的集群移动得更近时，这样的公式可能导致次优解对象识别和分类已经被用于各种度量学习方法。本质上，学习度量空间减少到找到嵌入空间，使得相同类/类别的样本（正样本）被映射到彼此接近的点在这种方法的各种表述中，最早的一种是对比损失[3]。这种损失显式地使正对样本之间的距离最小化，并确保负对样本由裕度分开。三重损失[17]通过在单个损失公式中同时实施正对距离的最小化和负对距离的最大化来这需要仔细选择14592提供双人间。多相似性损失是最近提出的方法之一，该方法确定并非所有样本对都具有相同的权重，并且一对样本的信息量不容易单独从它们的距离/相似性中辨别损失通过计算正样本和负样本之间的相对相似性并采用它来选择对优化最有益的对来解决这些问题所有以前的方法主要集中在要么设计一个强大的采样策略，或改善损失公式，通过联合考虑额外的距离。然而，一个尚未探索的方面是在优化过程中强制执行方向。仅仅将阴性样本推向离当前样本（锚点）最远的方向可能不是最佳方法。图1捕获了一种这样的情况，其中天真地迫使负样本远离锚点导致其进一步移动到正集群中，从而使得在进一步的迭代中难以进行优化。在本文中，我们确定了将排斥的方向作为优化的另一个因素的必要性，并提出了一个新的损失项，量化。通过这种方法，我们能够发现度量空间，这些度量空间是高度可区分的，并且与以前的方法相比，其中的类可以更好地分离。总结起来，本文的主要贡献是：• 识别设计共同优化样本位移方向的度量学习目标的重要性。• 提出了一种新的损失准则，该准则明确地监视被移位的样本的方向并相应地对其进行惩罚。• 以最小的计算复杂度和参数化开销来改进度量学习中的当前最先进方法的性能。2. 相关工作使用度量学习创建高度可分离的特征空间是目前一个活跃的研究领域。我们将重点介绍一些最近的度量学习方法，为我们的工作提供背景，因为所有方法的全面概述都不在本文的范围内。Lecun等人提出了[4]一种具有对比损失的连体网络，其中如果图像属于同一类，则鼓励从输入图像创建的特征嵌入在特征空间中彼此靠近，并且远离属于其他类的嵌入。三重损失[17]包含了特征嵌入之间相对距离的概念。提升结构损失[14]和N对损失[18]通过智能地创建具有以下图像的批次来改进基于三重态的损失的性能：所有类别，确保锚点与所有类别而不是单个类别的负样本分离。角度损失[20]考虑了三元组之间的角度关系，以学习更强的相似性度量。Yair等人提出了基于代理的度量学习[12]，它避免了与创建信息三元组相关的计算开销上面讨论的许多度量学习方法依赖于信息三元组的可用性用于人脸识别的半硬否定挖掘[17]着眼于违反三元组边界约束的特定三元组。[1]中基于课程学习的方法在初始阶段使用更容易的负样本来训练网络，在训练的后期阶段使用更难的负样本。这通常成为计算密集型任务。为了缓解这个问题，[5]提出了智能挖掘，它结合了三元组模型和嵌入空间的全局结构。Wu等人提出了基于相对距离的对加权。[24]，导致更多的信息和稳定的样本。最近，深度度量学习中的集成方法越来越受欢迎。[15]将深度网络的最后一个嵌入层划分为集合，并将训练公式化为在线梯度提升问题。基于注意力的Ensemble [8]提出使用多个注意力掩码，以便每个学习者可以关注图像的不同部分。现有的工作都没有明确考虑到在优化过程中更新的方向。3. 方向正则化度量学习在本节中，我们讨论了当前的深度度量学习方法，并分析了它们的目标，以确定对其公式的潜在改进，目标是改进正在学习的表示空间。首先，我们在第3.1节中回顾了现有的度量学习方法。第3.2节详细介绍了将方向性作为标准的新损失项的动机和设计3.1. 度量学习方法综述当前的度量学习方法试图通过定义损失项来解决发现合适的度量空间的优化问题，该损失项惩罚表示分配的类中心的空间中的所选样本或点之间的距离。通常，标准CNN被用作特征提取器，其针对给定的输入图像样本x产生特征嵌入fx。此特征嵌入用于优化基本上满足前面列出的属性的标准。对每种方法的设计理念进行分析，将使我们深入了解它们如何不仅从考虑距离中受益，而且还考虑表示被推向的一14593下面简要回顾度量学习中的几种主要方法Triplet Loss：Schroffet al. [17]提出三重损失作为对比损失的增加[3]。三重损失联合最小化给定样本（锚点）和另一个样本的特征嵌入之间的距离。通过集中于对最具信息量的对进行采样以进行优化，来解决现有损失公式的不足。他们通过考虑阳性样本和阴性样本之间的相对相似性以及自相似性度量来处理所有三种可用的相似性来实现这一点。损失是从二项偏差损失中推导出来的，同一类（正），同时最大化不同类（负）的合适样本的嵌入到锚的距离。损失定义如下：如：1ΣmL=1log1+Σe−α（Sip −λ）<$+ΣL=a，p，nNΣfa−fpΣ-αfa −fn<$2+α+（一）mαi=11 日志p∈PiΣΣ1个以上eβ（Sin−λ）中国（3）项fa，fp，fn对应于特征嵌入对于锚点，正样本和负样本，其中a、p、n是从训练数据集N中采样的。α定义了锚负嵌入距离和锚正距离之间的界限。选择重要的样本三元组是至关重要的，因此作者对特定的锚正样本对执行半硬负样本挖掘，以确保快速收敛。利用上述公式，损失项将负样本相对于锚样本径向向外推，如图12所示。2a.然而，该公式未能利用采样的正对的存在来达到更优的方向以迫使负样本朝向其移动。代理损失：在[12]中，作者提出使用代理来代替实际样本，以消除从大量正负对子集中采样的需要，这被认为是以前度量学习方法的局限性。代理是静态分配的“占位符”嵌入，使得单个代理嵌入对应于特定的语义标签或类。他们将损失定义为：βn∈Ni第一个对数项处理正样本p∈Pi的相似性得分Sip，其包括对应于第i个锚的正数据点的集合第二个对数项类似地处理负样本的对数项。α、β和λ是超参数。这里的关键方面是集合Pi和Ni的形成，其使用它们的相对相似性仔细地选择最难的正样本和负样本作为锚再一次，模拟-所使用的多数性度量仅仅优化了源自单个对比较的距离和方向，即，正锚和负锚对。在损失项中对源自其他正样本和负样本的排斥方向进行更彻底的推导可能会产生更好的优化性能。3.2. 方向正则化我们在第3.1节中对当前度量学习方法的回顾突出了一个明显的缺点，我们的目标是纠正这个缺点，以改进优化标准。我们首先考虑的最简单的场景包括一个锚点，一个阳性和一个阴性，ΣL=a−对数.2Σe（− <$fa−p（a）<$）Σ2ne（− <$fa−p（n）<$）（二）样品。因为我们处理的是三个样本，这里可以应用的最合适的损失公式是如等式（1）中定义的三重损失。1.一、找到单位归一化的梯度和更新方向对于数据集中的每个样本，损失试图最小化锚嵌入fa到对应于其类别p（a）的代理的距离，同时最大化锚嵌入到对应于每隔一个类别p（n）的代理的距离。这里n表示负的sam-对应于锚点、正样本和负样本的嵌入fa、fp、fn，我们计算损失的导数（等式2）。1）关于他们如下：L当前锚点A的请求。两个样本嵌入并且在训练期间同时学习代理。即使在该公式中，优化准则联合地最大化锚点到所有负向的距离，aLP.P.= 2（fn−fp）= 2（fp−fa）（四）类，缺乏对负代理的最佳方向的显式强制，Lfn= 2（fa-fn）实现更有效的表达。多相似性损失：最近提出的一种方法是多相似性损失[21]，其目的是上面的等式定义了用于更新如图1所示的当前嵌入的向量。2a.如图所示，根据梯度下降期间的该公式14594(a) （b）方向正则化的三重态损失矩阵图2：与结合方向正则化的三重损失相比，基于三重损失的梯度更新步骤的行为。由绿色三角形表示的样本表示单个类别，而红色圆圈表示阴性样本。虚线黑色箭头指示对具有计算出的梯度的嵌入执行的更新步骤对于2b，蓝色虚线箭头表示正则化项的影响，导致与普通三重态损失相比，fa负样本受到沿fn-fa方向的力，该力将负样本相对于fa径向向外推，而正样本被拉向fa，从图中可以看出，NC=fc−fn，PA=fa−fp。因此，Eq。5变为fa−fp的力。在这种情况下，我们还希望负样本沿（fc−fn）·（fa−fp）fc−fn=0（6）正交于a和p的类聚类中心，近似为fc=fa+fp。参照图3、我们要求利用内积的分布规律，我们可以扩展这个等式。关于f =f =的知识2a p到达NCNCPA=公司简介PA·ǁPAǁ=0（5）<$fn<$=1和fc<$PA，这意味着fc·（fa−fp）=0进一步简化了方程。一步一步地休息-关于这一推导，请参阅附录中的附录我们的目标是最小化方程的左手边补充材料。等式最终变为：fn·fp−fn·fa=0（7）加上和减去fa·fa−fp·fa，我们得到（fn−fa）·（fp−fa）=1−fp·fa（8）现在，我们知道，Cos（AN，AP）=Cos（fn−fa，fp−fa）图3：锚点、阳性和阴性样本布局的几何图示线OA、OP和ON=因此，我们得出：（fn−fa）·<$fn−fa<$（fp−fa）fp−fa（九）表示an的单位归一化嵌入向量1−fp·fachor（fa）、阳性（fp）和阴性（fn）。C是PA的中点，OC代表平均嵌入-Cos（AN，AP）=briefn.— fafp（十）— fading vectorfc（not unit-normalized）.14595为了满足Eq。5、我们可以简单地最小化锚点的负嵌入和锚点的正嵌入我们14596fa表示等式。10作为我们应用于标准度量损失项的方向正则化项梯度动力学为了理解最小化Eq.关于嵌入，我们将该项积分到特定三重态对的原始三重态损失公式中，并得到：Lapn=<$fa−fp <$2−< $fa−fn<$2+α项γdk（fn− fa）也占主导地位，因为dk值很高（在锚点附近为负），并且有一个力作用在fa上，使其更靠近fn，从而降低的余弦相似性。它不是天真地向fp移动，而是尝试重新定位自身，使得负样本与锚点-正对正交请注意，在原始的三重损失中，尽管锚被移动，远离阴性样本，它试图靠近-γbriefn.1−fp·fa— fafp−fa（十一）与阳性样本相比较但这阳性样本可以位于阴性样本附近，在这种情况下，锚的位移是次优的。这里，γ是方向正则化参数，其控制应用于原始损失的正则化的幅度尽管负正则化参数似乎违反直觉，但我们必须注意，余弦距离范围为[-1，+1]。直接最小化该项会将其值推向-1，这会导致锚点放置在阴性和阳性样本。为了避免形成这样的共线性，我们最小化−Cos（AN，AP），这将负样本推向余弦距离谱的正象限。当Cos（AN，AP）→0时，负样本与正锚样本并且原始度量损失被优先化以用于优化。当 Cos（AN，AP）→+1时，图1中的情形不再成立。2b播放出来，并且该项充当原始度量损失项的惩罚，并且减少固有地执行对加权的当前三元组上的位移力（如在讨论后）。这也是不使用Cos（AN，AP）项作为主要目标，而是作为自适应地确定原始度量损失的贡献的惩罚器的原因。取导数（逐步分析可以在附录中找到），我们得到新的梯度向量：L我们公式中的方向正则化项有效地解决了这个问题。有趣的是，当考虑到EML时，我们发现，p高c值时，梯度对fp的影响是极小的。以γc的系数表示。起初这似乎是违反直觉的，但我们看到，在负样本接近锚样本和正样本的情况下，该特定三元组对于推导锚嵌入和正嵌入的最终位置来说并不具有信息性，因此低估了由该特定三元组产生的梯度向量的贡献请注意，该加权作为损失公式的一部分固有地完成，并且不需要任何外部监督来实现它（例如，手动评估可用的三元组以获得信息）。负嵌入的梯度fn的行为类似于原始的三元组损失，除非负样本非常接近锚点，在这种情况下，由于损失公式将当前三元组对指定为无信息，负样本将不会显著移位原因在于，在这种情况下，可能不清楚锚样本当前是否是位于由其他负样本占据的空间的区域中的离群值，或者相反地，负样本是否是正样本场中的离群值总体而言，拟议aLP.P.= 2（fn−fp）−γc（fa−fp）−γdk（fn−fa）=2（fp−fa） −γc（fp −fa）方向正则化固有地基于作用在当前样本集上的力来计算对加权，并且因此导致系统挖掘更多信息的前向。如果当前集合为Lfn= 2（fa— fn）−γc d（fa— fn）−1（十二）被认为不适合3.3. 用Direc自适应度量学习损失项c=（fa−fp），d=fn−fa−2和k=fn−fa−1fa−fp是自适应控制梯度贡献的缩放因子它们是配对的。C特别关注负嵌入和正嵌入的相对距离（相对于Anchor）。只有当负嵌入和正嵌入同样非常接近锚点时，c的值才最高正则化在前面的部分中，我们分析了将所提出的方向正则化项包括到损失公式中的效果。我们观察到，系统根据锚点的当前采样布局、正采样布局和负采样布局在这种情况下，γc（fa−fp）在施加更大的样品正如我们在第3.1节中所强调的，自目前以来，在远离负方向上的力有效的嵌入相比，以前的公式方程。4，从而优先增加自身与阴性样本之间的差距（见图4）。第2b段）。但第三Ric学习损失缺乏一个明确的执行orthogg，负样本相对于锚正对的独立性，将方向正则化的性质灌输到它们的公式中以使14597他们健壮。下面的定义提供了一种直观性，并开发了一个指南，可以轻松地将正则化项适应任何标准度量学习损失函数。三重损失：考虑到我们已经在前一节中描述了三重损失的适应，我们可以重写方程。11、更有可读性：Lapn=<$fa−fp <$2−< $fa−fn<$2+α4.2. 汽车196Cars-196数据集包含196类汽车模型的16185张图像。每个类别代表一个品牌，型号，年份三重，例如，2012年特斯拉Model S。前98个类别（8054张图像）用于训练，其余类别（8131张图像）用于测试。-γ Cos（fn −fa，fp−fa）（十三）4.3. 在商店的衣服检索店内服装检索（店内）是一个大规模的代理丢失。关于代理损失，我们注意到，损失公式考虑单个锚嵌入，对应于锚的类的单个代理嵌入作为正样本，并且所有其他类的n个代理嵌入作为负样本。由于方向正则化项在锚和正代理固定的情况下计算Cos（AN，AP），因此对于n个负代理存在n个这样的项。因此，我们将其与等式中的负代理距离项一起包含。2得到：服装检索数据集，包含7，982个图像中的52，712个类（服装类）。3，997个类别中的25，882个用于训练，其余3，985个类中的14，218和12，612个图像分别用于测试查询和图库集。4.4. 与最新技术我们比较了所提出的模型的性能，ΣL=a.−logn2Σe（− <$fa−p（a）<$）e[− <$fa−p（n）<$2−γ Cos（p（n）−fa，p（a）−fa）]（十四）三个数据集上的其他方法我们用方向正则化版本的MS损失，并固定嵌入尺寸为64的实验上的Caltech-UCSD CUB- 200-2011和汽车196和512的实验上的In-多重相似性损失类似于代理损失，由于所选择的负样本是相对于特定的锚和最硬的正样本，我们在等式中的负样本距离中包括正则化项3和Shop Clothes Retrieval数据集。中的超参数当量15α、β、λ分别设为2、50、0。分别为7。参数γ在训练期间学习我们使用标准的Recall@K度量报告获得：L=Σ1mmαi=1log1+ Σp∈Pie−α（Sip −λ）<$+中国（15）表1：CUB-200-2011数据集1 日志βΣ1 +eβ（Sin−λ−γ Cos（fn−fa，fp−fa））n∈Ni4. 实验对于所有实验，我们使用GoogLeNet [19]和批量归一化[7]，以便与其他方法进行公平比较。在ILSVRC2012-CLS [16]上预训练的网络在以下每个方面进行了微调分别提到的数据。所有图像均裁剪为224×224，并采用标准预处理技术。数据通过随机裁剪和随机水平翻转进行训练，并通过中心裁剪进行测试。亚当[9]被用作优化器。我们在三个标准数据集上进行实验：CUB-200-2011[23]，Cars-196 [10]和In-Shop Clothes Retrieval [11]。4.1. CUB 200 2011Caltech-UCSD CUB-200-2011数据集包含了11，788张图片，这些图片包含了200个类别的细粒度鸟类物种前100个类（5，864张图像）用于训练，其余100个类（5，924张图像）用于测试。从表1和表2中，我们注意到我们的方法在细粒度数据集Caltech-UCSD CUB-200-2011和Cars-196上的性能优于所有其他方法。与 MS- Loss 相比，我们在Recall@1中获得了近2%的增加，并且与Proxy- NCA相比，在Recall@1中获得了10%的增加。一个有趣的观察结果是，与其他方法相比， Recall@1 的 per-bandwidth的增加这可以归因于几个因素：1）强制的方向正则化K时的召回率（%）1248[17]第十七话42.655.066.477.2[14]第十四话43.656.668.679.6[13]第十三话48.261.471.881.9Npairs [18]51.964.374.983.2Angular [20]54.766.376.083.9[12]第十二话49.261.967.972.4[24]第二十四话63.674.483.190.0HDC384 [13]53.665.777.085.6[25]第二十五话53.765.776.785.7RLL512 [22]57.469.779.286.9MS64 [21]57.469.880.087.8DR-MS6459.171.080.387.3DR-MS51266.177.085.191.114598表2：汽车性能-196数据集K时的召回率（%）1248[17]第十七话51.563.873.581.4[14]第十四话53.066.776.084.3[13]第十三话58.170.680.387.8Npairs[18]71.179.786.591.6Angular[20]71.481.487.592.1[12]第十二话73.282.486.488.7[24]第二十四话79.686.591.995.1HDC384 [13]73.783.289.593.8[25]第二十五话79.187.192.195.5RLL512 [22]74.083.690.194.1MS64 [21]77.385.390.594.2DR-MS6479.386.791.494.8DR-MS51285.090.594.196.4表3：在车间数据集K时的召回率（%）11020304050HDC384 [13]62.184.989.091.292.393.1ABIER512 [15]83.195.196.997.597.898.0ABE512 [8]87.396.797.998.298.598.7FastAP512 [2]89.097.298.198.598.798.9[21]第二十一话88.097.298.198.598.798.8MS512 [21]89.797.998.598.899.199.2DR-MS51291.798.198.798.999.199.2通过所提出的方法，可以帮助找到样本要移动到的最佳方向，以便在这样的低维中产生更好的分离。2)由于第3节中解释的样本的固有配对加权，在位置更新期间对样本有更严格的约束。当使用嵌入维数为512时，我们的性能明显优于其他方法。此外，从表3中我们可以看到，我们的方法可以很好地扩展到具有大量类的数据集，从而在In-ShopClothes Retrieval数据集上优于其他方法。我们获得了近2%的改善，目前国家的最先进的MS损失。在定性分析（图4）中，我们看到对于Recall@5结果，DR-MS方法能够在检索期间正确选择真阳性样本（红色边界），而不是标准MS损失。分析在训练过程中学习的γ值，我们注意到γ取正值进一步验证了我们的理论分析。4.5. 消融研究为了实验验证我们提出的方法，Caltech-UCSD CUB-200-2011数据集。除了三重态和MS损失之外，我们还选择了Proxy-NCA损失，以研究方向正则化对无采样方法的影响。我们将实验的嵌入维数固定为64，并使用标准Recall@K度量报告性能，如表4所示。表4：消融研究显示了当应用于CUB-200数据集上的标准度量学习方法时方向正则化的效果’*’ indicates a re-implementation of originalK时的召回率（%）1248三胎丢失 *51.964.070.374.1DR-三重态损失54.266.172.577.0代理-NCA49.261.967.9072.4DR-代理-NCA53.865.775.884.6MS57.469.880.087.8DR-MS59.171.080.387.3使用具有批处理规范化的GoogLeNet的较新版本来实现三重丢失。我们在三重损失和方向正则化版本中都没有使用任何样本挖掘策略。我们在等式中固定超参数γ13比0.45在[21]中提出的基于多相似性的三重采样策略用于MS损失和我们的方向正则化版本。α和β在等式中分别设置为2和503 .第三章。从表1中可以看出，我们的方向正则化损失函数优于相应的vanilla版本。原始损耗公式的性能明显受到次优方向的影响，在次优方向上，样本在优化期间被分离。此外，随着三重损失和MS损失的相应版本的性能改进，有趣的是注意到我们基于方向的正则化导致了与是否使用采样策略无关的改进。表5：关于方向正则化（由γ控制）的影响的变化和训练批量大小的变化对回忆性能的影响。K时的召回率（%）18087.416088.332089.560091.7(b)不同批次的性能我们比较我们的方向正则化方法从方程。13、14和15与这些的相应原始版本（a）CUB-200数据集上不同γIn-Shop数据集K时的召回率（%）1γ = 0。057.4γ = 0。158.7γ = 0。259.1γ = 0。360.5γ = 0。457.0可学习γ59.114599图4：CUB-200-2001数据集上的Recall@5定性结果，比较了拟定的DR-MS损失性能与MS损失[21]。带有红色边框的图像表示给定查询图像的真阳性图库图像，DR-MS能够在其前5个结果中正确识别这些图像，而MS无法识别。我们所提出的方法提供了一种简单的方法，将方向正则化纳入现有的度量学习函数，从而调节样本分离的方向。这有助于创建更强的嵌入分离性，从而获得更好的性能。4.6. 正则化因子与性能为了理解度量学习系统在改变应用于损失的方向正则化程度时的行为，我们对正则化因子γ的不同值进行实验。嵌入维数设置为64。表5a显示了γ的某些选择的性能变化，可以看出，在CUB-200数据集上，γ = 0时实现了最佳性能。3 .第三章。我们注意到，当γ是一个可学习参数时，系统获得的性能与静态γ = 0时相比略有下降。3使用。然而，尽管使用了可学习的γ，但当与非正则化的MS损失（γ=0）相比时，我们能够看到足够大的Per-1提升性能开始急剧下降当设定γ≥0时。4随着正则化项开始压倒度量损失的贡献和有意义的在方向正则化的这种严格约束下，更难发现层理从这些分析中，我们可以得出结论，一般来说，在[0. 2，0。4）（在当前的实验设置下）似乎提供了最好的性能改进。4.7. 批量与性能我们研究了具有方向正则化的MS-Loss算法在不同批量下的性能变化。我们在In-Shop数据集上执行实验，因为与Caltech-UCSDCUB-200-2011相比，它是一个更大的数据集，将帮助我们更好地理解结果。我们使用一个可学习的γ，并将嵌入大小固定为512。如表5b所示，我们发现性能随批量大小而增加。这可归因于较大批量有助于鉴定更多信息的三联体。5. 结论深度度量学习试图解决创建丰富的表示空间的挑战性任务，这些表示空间对类内多样性进行编码，同时保持类之间的清晰分离这种空间的发现对优化过程中选择的路径非常敏感。通过明智地使用样本附近的所有可用信息来智能地更新样本嵌入在这项工作中，我们已经确定了现有的度量学习损失公式中的不足之处，因为它们缺乏对最新最优方向的考虑我们提出的解决方案通过引入一个新的方向正则化因子来纠正这一点，该因子迫使对在度量空间中最合适的位置。在这样做时，损失函数固有地实现基于源自相对于锚的正和负的相对分布的梯度的成对加权的形式。该方法在标准图像检索数据集上实现了最先进的结果，并因此验证了在损失公式中需要这样的正则化因子14600引用[1] Srikar Appalaraju和Vineet Chaoji。使用深度cnn和课程学习的图像相似性。arXiv预印本arXiv：1709.08761，2017。2[2] Kunh Cakir，Kun He，Xide Xia，Brian Kulis，and StanScaroff. 深度度量学习排名。在IEEE计算机视觉和模式识别会议论文集，第1861-1870页7[3] 乔普拉。学习相似性度量有区别地，与应用到人脸验证。在IEEE计算机视觉和模式识别上，第539第1、3条[4] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习不变映射进行降维在2006年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2006年。2[5] BenHarwood ， BG Kumar ， Gustavo Carneiro ， IanReid，Tom Drummond，et al.深度度量学习的智能挖掘。IEEE International Conference on Computer Vision，第2821-2829页，2017年。2[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。1[7] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。6[8] Wonsik Kim、Bhavya Goyal、Kunal Chawla、JungminLee和Keunjoo Kwon。深度度量学习的基于注意力的集成在欧洲计算机视觉会议（ECCV）的会议记录中，第736-751页，2018年。二、七[9] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[10] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3d对象表示。在2013年IEEE计算机视觉研讨会国际会议论文集，第554-561页。6[11] 刘紫薇，罗平，邱石，王晓刚，唐晓鸥. Deepfashion：支持强大的服装识别和检索与丰富的注释。在IEEE计算机视觉和模式识别会议（CVPR）的会议中，2016年6月。6[12] Yair Movshovitz-Attias 、Alexander Toshev 、Thomas KLe- ung、Sergey Ioffe和Saurabh Singh。没有大惊小怪的距离- ric学习使用代理。在IEEE国际计算机视觉会议集，第360-368页，2017年一二三六七[13] Hyun Oh Song、Stefanie Jegelka、Vivek Rathod和KevinMurphy。通过设施位置进行深度度量学习。在IEEE计算机视觉和模式识别会议的论文集，第5382-5390页，2017年。六、七[14] Hyun Oh Song ， Yu Xiang ， Stefanie Jegelka 和 SilvioSavarese。通过提升结构化特征嵌入的深度度量学习。InProceedings of the IEEE Conference计算机视觉和模式识别，第4004- 4012页，2016年。二六七[15] Michael Opitz、Georg Waltner、Horst Possegger和HorstBischof。使用bier进行深度度量学习：稳健地推进独立嵌入。IEEE关于模式分析和机器智能的交易，2018。二、七[16] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. 图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211-252，2015. 6[17] FlorianSchroffDmitryKalenichenkoJamesPhilbinFacenet：用于人脸识别和聚类的统一嵌入在IEEE计算机视觉和模式识别会议论文集，第815-823页，2015年。一二三六七[18] 孙奇赫改进的具有多类n对损失目标的深度度量学习。神经信息处理系统进展，第1857-1865页，2016年。二六七[19] Christian Szegedy ， Wei Liu ， Yangqing Jia ， PierreSermanet ， Scott Reed ， Dragomir Anguelov ， DumitruErhan，Vincent Vanhoucke，and Andrew Rabinovich.更深的回旋。在IEEE计算机视觉和模式识别会议论文集，第1-9页，2015年。1、6[20] 王健，周峰，温石磊，小刘，林元庆。带角度损失的深度度量学习在IEEE计算机视觉国际会议论文集，第2593-2601页，2017年。二六七[21] Xun Wang ， Xintong Han ， Weilin Huang ， DengkeDong，and Matthew R Scott.深度度量学习的一般对加权的多相似性损失。在IEEE计算机视觉和模式识别会议集，第5022-5030页，2019年。三六七八[22] Xinshao Wang，Yang Hua，Elyor Kodirov，GuoshengHu，Romain Garnier，and Neil M Robertson.深度度量学习的排名列表损失。arXiv预印本arXiv：1903.03238，2019。六、七[23] P. Welinder，S.Branson，T. 米塔角Wah，F.Schroff，S.Be- longie和P.佩洛娜200.第200章大结局技术报告CNS-TR-2010-001，加利福尼亚理工学院，2010年。6[24] Chao-Yuan Wu，R Manmatha，Alexander J Smola，andPhilipp Krahenbuhl.采样在深度嵌入学习中很重要。在IEEE计算机视觉国际会议论文集，第2840-2848页，2017年。二六七[25] Wenzhao Zheng， Zhaodong Chen ， Jiwen Lu ， and JieZhou.感知硬度的深度度量学习。在IEEE计算机视觉和模式识别会议集，第72-81页，2019年。六、七

下载后可阅读完整内容，剩余1页未读，立即下载