校正三重态损失的三重态选择偏差宝生余1、铜梁刘1、龚明明2、 3、长兴丁4、大成涛11UBTECH Sydney AI Centre and SIT,FEIT,The University of Sydney2匹兹堡大学生物医学信息学系3卡内基梅隆大学4华南理工大学电子信息工程学院bayu0826@uni.sydney.edu.au,铜梁.刘@ sydney.edu.au,mig73@pitt.edu.com,chxding@scut.edu.cn,dacheng. sydney.edu.au抽象。三重丢失是度量学习中的一种常用方法,在图像分类、图像检索、人脸识别等计算机视觉领域取得了巨大的成功。考虑到三联体的数量随着训练数据的大小成立方地增长,因此三联体选择对于在三联体丢失的情况下有效训练是必不可少的然而,在实践中,训练通常对三元组的选择非常敏感,例如,它几乎不收敛于随机选择的三元组,并且选择最难的三元组也导致不良的局部最小值。我们认为,在选择三胞胎的偏见降低了性能的学习与三胞胎损失。在本文中,我们提出了一个新的变体的三重损失,它试图通过自适应地校正所选择的三重峰的分布偏移,以减少在三重峰选择的偏见我们将这种新的三重态损失称为适应的三重态损失。 我们在MNIST和Fashion-MNIST上进行了大量的图像分类实验,并在CARS 196,CUB 200 -2011和StanfordOnline Products上进行了图像检索实验。 实验结果验证了该方法的有效性。关键词:三重损失·选择偏差·领域适应1介绍深度度量学习旨在学习相似性或距离度量,其具有小的类内变化和大的类间变化[42]。三重损失是深度度量学习的一种流行损失函数,在许多计算机视觉任务中取得了巨大成功,例如细粒度图像分类[39],图像检索[17,22],人员重新识别[6,14]和人脸识别[34,31]。最近,采用三重丢失的深度度量学习方法由于其处理大量标签的效率而吸引了大量关注,例如, 极端多标签分类问题[32]。 更具体地,对于常规分类方法,参数的数量将随着时间的推移而线性增加。2B. Yu,T.Liu,M.贡角,澳-地Ding和D.陶123456…K、、、、、、、、128-D、、、、、、、、、、、、、、、、准备数据提取特征嵌入选择三元组评估损失图1:基于三重丢失的深度度量学习的流水线在第一阶段中,从训练数据中采样一个小批量,该训练数据通常包含k个身份,每个身份具有几个图像。然后使用深度神经网络来学习特征嵌入,例如,128维特征向量。在第三阶段中,使用一些三联体选择方法选择三联体的子集。最后,使用所选择的三元组评估损失。标签的数量,并且学习具有数百万个标签的N路softmax分类器是不切实际的[29]。然而,在三元组丢失的情况下,深度度量学习能够通过学习紧凑嵌入来有效地处理极端的多标签分类问题因此,利用三重丢失的深度度量学习对于具有巨大标签的应用非常有效,例如,图像检索中的对象数量[17],人脸识别中的身份数量[34]和人员重新识别[14]。为了学习有区别的特征嵌入,三重损失最大化类内距离和类间距离之间的界限。因此,对于每个三元组(xa,xp,xn),其中xa被称为锚点,xp被称为具有与xa相同标签的正点,并且xn被称为具有不同标签的负点,类内距离d(xa,xp)将小于学习的嵌入空间中的类间距离d(xa,xn)。由于三联体的数量随着训练数据的大小成立方地增长,因此三联体选择对于在三联体丢失的情况下有效训练是必不可少的具体地,三元组选择通常以在线方式工作,即,在每个小批量[34]内构建三元组,并且我们在图中描述了使用三元组损失的深度度量学习的典型管道1.一、然而,三重态损失的性能受到三重态选择方法[6,14]的严重影响,即, 用随机选择的三元组进行训练几乎不收敛,而用最难的三元组进行训练常常导致坏的局部搜索[34]。为了确保一致性,它是选择“好的”三联体的关键[34],并且已经在不同的应用中设计了虽然选择硬三胞胎导致快速校正三重态损失的三重态选择偏差3所有三胞胎移位、、选择性三联体、、诱导诱导、、、、、、、、、、、、、、移位、、、、、、、、图2:示出三重态选择中的分布偏移的示例 在在线三联体选择中,所有 三 联 体 DT 从 每 个 小 批 次 构 建 , 并 且将导 致 etD( T )。对于所述electidttripletsDS ,所述yy isoidat atetDS。我们使用DS和DT之间的分布hift来评估DS和DT之间的分布偏移。收敛,它具有引入选择偏差的风险,这是学习的基本问题。因此,三联体选择方法需要平衡挖掘硬三联体和引入选择偏差之间的权衡。与通过仔细选择三胞胎来努力解决这种权衡相反,我们通过直接最小化选择偏差来解决这个问题更具体地,令DT表示所有可能的三元组,并且DS指示从DT选择的三元组的子集。如果三联体选择是无偏的,则DS和DT共享相同的分布。否则,我们可以通过最小化DS和DT之间的分布偏移来校正三重态选择中的偏差。分布偏移的问题属于域自适应的范围[3,16],当目标域T改变时,从源域S学习预测器时会出现。在具有三元组损失的学习中,使用所选择的三元组DS来训练模型,而目标是使用所有可能的三元组DT来学习模型。为了测量DS和DT之间的分布偏移,我们定义了一组三重态诱导的数据,即,给定一组三元组,例如,DS,在D^S处的三重态密度被定义为如下:DS={(xa,ya),(xp,yp),(xn,yn)|<$(xa,xp,xn)∈DS},(1)I I I I II I II其中yi是xi的对应标签。诱导数据DT 可以定义类似。我们在图2中给出DS和DT为了处理分布移位的问题,分布匹配方法学习域不变表示并且已经被广泛采用[3,2,30]。由于三重态损失通常涉及大量标签,并且受到[48,11]中方法的启发,我们尝试将分布偏移最小化。tweenDSandDT 通过在Φ(X)上构造一个约束条件,即:例如,PS(Φ(X)|Y)≈PT(Φ(X)|Y),其中X和Y为4B. Yu,T.Liu,M.贡角,澳-地Ding和D.陶数据和标签。 更具体地说,我们通过采用最大平均差异(MMD)[16]提出了一种分布匹配损失函数,其等于PS(Φ(X))之间的差异。|Y)和PT(Φ(X)|Y)。作为一个结果,我们学习一个有区别的和条件不变的嵌入通过联合训练与三重损失和分布匹配损失。在本文中,我们首先介绍了三重选择偏差的学习与三重损失的问题。然后,我们通过减少在D S和DT处的triplet-induced之间的分布hift来解决这个问题。由于基于匹配损失的现有分布自适应地校正分布偏移,因此我们参考这个新的分布偏移。三重态损失的变体作为适应的三重态损失。最后,我们在MNIST [23]和Fashion-MNIST [45]上进行了大量实验,用于图像分类,在CARS196 [20],CUB 200 -2011 [38]和斯坦福在线产品[29]上进行了图像检索。实验结果验证了该方法的有效性2相关工作深度度量学习和三重损失。机器学习和计算机视觉中的许多问题在很大程度上依赖于学习距离度量[42]。受深度学习[21]的巨大成功的启发,深度神经网络已被广泛用于学习判别特征嵌入[39,15]。采用三重丢失的深度度量学习由于其在FaceNet [34]上用于面部验证和识别的令人印象深刻的性能而引起了很多关注在那之后,三元组丢失已被广泛用于学习各种应用的判别嵌入,例如图像分类[39]和图像检索[17,22,49,12,47]。三重丢失的大多数应用在于视觉对象识别,例如动作识别[33]、车辆识别[26]、位置识别[1]、3d姿势识别[43]、面部识别[34,31,9]和人的重新识别[10]。46、6、25、4、14]。三联体选择方法。三联体选择是三联体丢失成功的关键,并且各种三联体选择方法已用于不同的应用[39,15,34,31,40,7]。更具体地说,在[39]提出的深度排名模型中,根据成对相关性得分选择三元组在[40]中,基于余量d(xa,xp)-d(xa,xn),使用每个小批中的前k个三元组来选择三元组在[15]中,它只选择硬三元组,即,d(xa,xp)