10316基于边缘损失的Elad Levi1,Tete Xiao2,Xiaolong Wang3,TrevorDarrell1,21 Nexar,2UC Berkeley,3UC San Diego摘要度量学习寻求视觉上相似的实例接近而不相似的实例分开的感知嵌入,但是当类内样本的分布不同并且存在不同的子集群时,学习的表示可能是次优的。虽然理论上具有最优假设,但基于保证金的损失(诸如三重损失和保证金损失)具有不同的解决方案族。我们从理论上证明和经验表明,在合理的噪声假设下,基于保证金的损失往往会将具有各种模式的类的所有样本投影到嵌入空间中的一个点上,导致类崩溃,通常会使空间分类或检索排序不良。为了解决这个问题,我们提出了一个简单的修改嵌入损失,使每个样本选择其最近的同类对应的一批作为积极的元素在元组中。这允许在每个类别内存在多个子集群。适应可以被集成到广泛的metric学习损失。我们的方法在各种现有损失的各种细粒度图像检索数据集上表现出明显的优势;定性检索结果表明,具有相似视觉模式的样本在嵌入空间中确实更接近。1. 介绍度量学习旨在学习嵌入函数到低维空间,其中语义相似性转化为嵌入空间中的邻域关系[22]。深度度量学习方法在各种各样的任务中取得了有希望的结果,例如人脸识别[5,44,43],零拍摄学习[9],图像重建[10]。[14][10 ][14][15][16][17][18][19][1在这项工作中,我们研究了家庭的损失,优化嵌入表示,强制所有模式的类内外观变化项目到嵌入空间中的一个点。当类具有不同的外观时,学习这样的嵌入是非常具有挑战性的。这种情况尤其发生在真实世界的场景中,其中类由具有不同vi的多个模式组成。外表将所有这些模式推到嵌入空间中的单个点需要网络记住不同类别模式之间的关系,这可能降低网络的泛化能力并导致低于标准的性能。最近,研究人员观察到这种现象,其中类外观的所有模式他们提出了一种多中心方法,其中每个类别的多个中心与SoftMax损失一起使用,以捕获数据的隐藏分布来解决这个问题。在度量学习领域,已经提出了一种关于N对损失[41]的正采样方法[53],以放松对类内关系的约束。对于基于保证金的损失,如三重损失[3]和保证金损失[51],人们认为它们可能会从类崩溃中提供一些缓解[47,51]。从理论的角度来看,我们证明了在假设空间和训练过程中的最佳假设,基于保证金的损失具有最小的解决方案而不会导致类崩溃。然而,我们制定了一个噪声框架,并证明了在标签上具有适度噪声假设的情况下,基于边缘的损失仍然会遭受类崩溃,并且[53]中提出的简单正采样方法允许更多样化的解决方案。将噪声添加到标签允许对神经网络的任意和近似不确定性两者进行建模,因此它更好地表示具有固定受限网络架构的真实世界数据集上的训练过程我们补充了我们的理论研究与广泛的实证研究,这表明类崩溃的现象在现实世界的数据集,并表明,容易的正采样方法是能够创建一个更多样化的嵌入,从而导致更好的泛化性能。这些发现表明,噪声环境框架更好地适应现实世界用例中神经网络的训练动态。10317·→−联系我们--xi,x j图1:给定一个锚点(带暗环的圆圈),我们的方法将嵌入空间中最接近的正样本作为正元素。这导致将锚点仅推向最近的元素方向(绿色箭头),这允许嵌入每个类具有多个集群。2. 相关工作抽样方法。设计一个好的采样策略是深度度量学习中的一个关键因素。研究人员已经提出了抽样方法时,抽样的负面的例子,以及积极的对。对于阴性样本,研究集中于对硬阴性样本进行采样,以使训练更有效[39,35,48,28,29]。最近,研究表明,在训练中增加负样本可以显着帮助无监督表示学习对比损失[12,52,4]。除了阴性样本,在分类和检测任务中已经开发了用于采样硬阳性样本的方法[21,38,1,6,40,50]。中心思想是执行更好的增强以提高测试中的一般化[6]。相反,Arandjelovic et al.[1],提出通过将来自相同类的近实例分配为正实例来执行正采样。由于正训练集在其设置中是高度噪声的,因此该方法导致对不同视角不变的特征。与这种方法不同的是,我们在一个干净的设置中使用这种方法,其目的是得到相反的结果,即在嵌入空间中保持类内模态。对于N对损失[53],也提出了使用简单的正采样,从理论的角度来看,我们证明了在干净的设置中,这种松弛对于其他流行的度量损失(如三重损失[3]和边际损失[51])是冗余的。我们制定的噪声环境设置,并证明在这种情况下,三重和利润损失也遭受类崩溃,并使用一个简单的正采样方法优化的解决方案,而不类崩溃。我们还提供了一个实证研究,支持理论分析。模型不确定性。不确定性有三种来源:认识论、任意论和近似论[8]。认知不确定性描述了模型知识的缺乏,近似不确定性描述了模型拟合数据的局限性,任意不确定性描述了模型的不确定性。认识不确定性仅在缺少数据的特征空间区域中相关,近似和任意不确定性在有标记数据的在这项工作中,我们模拟的近似和任意的不确定性,通过添加噪声的标签。该噪声可以代表任意不确定性情况下的数据随机性,或者近似不确定性情况下的假设空间内的贝叶斯最优模型深度神经网络中的近似不确定性被认为是可以忽略的[7]。然而,我们证明,即使是少量的噪声导致退化的家庭的最佳解决方案的情况下,基于利润率的损失。当应用于现实世界时,带噪声标签的学习是一个实际问题[36,27,37,33,16,17,23],特别是在使用大规模数据进行训练时[42]。一种工作方式应用了数据驱动的课程学习方法,其中最有可能被正确标记的数据在开始时用于学习,然后在后期阶段将更难的数据用于学习[16]。研究人员还尝试将损耗仅应用于批次中最简单的顶部k元素,由最低电流损耗确定[37]。受此启发,简单的正抽样方法专注于只选择批次中最容易的正关系。超越记忆深度网络被证明非常容易记忆和过度拟合训练数据[54,31,32]。例如,它表明网络可以在ImageNet数据,并获得100%的训练准确率,如果不采用增强。此外,即使CIFAR-10分类器在验证集中表现良好,也表明它并没有真正推广到视觉上不完整的新收集数据。类似于训练和验证集[31]。在本文中,我们表明,当允许网络的自由,不必学习不同的类模式之间的类内关系,我们可以实现更好的泛化,和表示可以应用在零拍摄设置。3. 预赛设 X=x1, ..,Xn是一 组带 标签的 样本yi1,..,M.度量学习的目标是学习一个嵌入f(,θ)Rk,其中嵌入空间中每个样本的邻域只包含来自同一类的样本。度量学习的常见方法之一是使用嵌入损失,其中在每次迭代中,根据相同的采样启发式选择来自相同类的样本和来自不同类的样本。损失的目的是推开来自不同类别的样本的投影,并拉近来自同一类别的样本的投影。在本节中,我们将介绍几种常见的嵌入损失。说明了数据的随机性而记法:设xi,xj∈X,定义:Df=f(xi)−10318ǁ.∈xa,x pFf,βf不FF旅行我 JK1Σ我们也可以将δ重新表示为二元随机变量,使得:简体中文1ΣO(f,β)=Σ保证金t,xnxi,xj∈Xf(x,j)2。在没有歧义的情况下,我们省略f并简单地写为D xi,xj。 我们还定义了函数为了简化本小节的其余部分,我们将假设只有两个类。设AX是一个子集δxi,xj=1如果yi=yj. 最后,对于每个R,表示0否则元素的集合,使得A中的所有元素都属于一个类和所有的元素在Ac属于另一个类。回忆一些基本的集合定义。(a)+:=max(a,0)。[11]对比损失取样本的元组em-床上用品它将来自不同类的样本元组分开定义1. 对于所有集合Y,ZRm定义:1. Y的直径由下式定义:diam(Y)= sup {y − z|y,z ∈ Y}f f fLcon ( xi , xj ) =δxi , xj·Dxi , xj+ ( 1−δxi ,xj) ·(α−Dxi,xj)+这里α是定义来自不同类别的样本之间的期望最小距离的裕度参数。对比损失对一对样本施加约束,而三重损失[3]对三重样本起作用。给定一个三元组xa,xp,xn∈X,令2. Y和Z之间的距离是:Y − Z|y ∈ Y,z ∈ Z}很容易看出,如果f:X→−Rm是一个嵌入,使得diam(f(A))2<·α+<$f(A)−f(B)<$,那么:hf(xa,xp,xn)=(Df-Dxp,xn +α)+旅行F三重态损失定义为Ltrip(xa,xp,xn)=δxa,xp·(1−δxa,xn)·h(xa,xp,xn)O(f)=L(x,x,x)= 0.n3xi,xj,xk∈X更进一步,对于每个xi∈X,固定βxi=α,则:边际损失[51]旨在利用三重损失的灵活性,同时保持对比损失的计算效率。这是通过添加一个变量(βxforx∈X)来完成的,该变量决定了正负对;给定一个锚点t∈ X,令1保证金n2xi,xj∈XLf,β(xi,xj)=0.g(z1,z2)=(z1−z2+α)+损失的定义为可以看出,确实,嵌入的家庭,诱导全球最小值的三重损失和边际损失,是丰富和多样的。然而,正如我们将在下一节中证明的那样,这并不意味着Lmar(t,x)=δt,x·g(D4. 类崩溃t,x,βt)+(1−δt,x)·g(βt,Df)在嘈杂的环境场景中保持真实。4.2.噪声环境分析对比损失目标是将具有相同类的所有样本拉到嵌入空间中的单个点我们称之为类折叠属性。形式上,一个嵌入f:X→−Rm具有类塌缩性质,如果存在标号y和点p∈Rm,使得{f(xi)|yi=y}={p}。4.1.嵌入损耗最优解为了简单起见,我们还将在本节中讨论两个标签的二元情况,然而这可以容易地扩展到多标签情况。噪声环境场景可以通过向标签类别添加不确定性来公式化更正式地,令Y={Y1,…Y n}是一组独立的二元随机数变量 令A1,..,A tX,0. 5