没有合适的资源?快使用搜索试试~ 我知道了~
深度度量学习中的分层三重丢失方法及其在图像检索和人脸识别任务中的应用
具有分层三重丢失的WeifengGe1, 2, 3, Weilin Huang1,2,Dengke Dong1, 2,and Matthew R.斯科特1, 21Malong Technologies,深圳,中国2深圳马龙人工智能研究中心,中国3香港大学{terrencege,whuang,dongdk,mscott}@ malong.com抽象。 我们提出了一种新的分层三重丢失(HTL)的能力通过定义的编码全局上下文信息的分层树自动收集信息训练样本(三元组)。这使我们能够应对随机采样在训练传统的三元组丢失中的主要限制,这是深度度量学习的核心问题。我们的主要贡献是两方面的。(i)我们构建了一个分层的类级树,其中递归地合并相邻的类。层次结构自然地捕获了整个数据集上的内在数据分布。(ii)我们通过引入一个新的违反余量来表示三元组收集问题,该违反余量是基于所设计的分层树动态计算的。这使得它能够在全局上下文的指导下自动选择有意义的硬样本。它鼓励模型从视觉相似类中学习更多的判别特征,从而加快收敛速度并提高性能。我们的方法进行评估的图像检索和人脸识别的任务,它可以获得相当的性能,少得多的迭代。它比标准的三重态损失高出1%- 18%,并在许多基准测试中达到了最先进的性能关键词:深度度量学习·图像检索·三重丢失·锚点-邻点抽样1介绍距离度量学习或相似性学习是在视觉理解任务中学习图像上的距离函数的任务。它一直是计算机视觉领域的一个活跃的研究课题给定相似性函数,具有相似内容的图像被投影到流形上的相邻位置上,并且具有不同语义上下文的图像被映射为彼此分开。随着深度神经网络(DNN)的蓬勃发展,度量学习已经从学习距离函数转变为学习更好地拟合简单距离函数(诸如欧几里得距离或余弦距离)的深度特征嵌入。Weilin Huang为通讯作者(e-mail:whuang@malong.com)。2W. Ge,W. Huang,黄氏拟谷盗D.董,M. R. 斯科特使用DNN的度量学习被称为深度度量学习,它最近在许多视觉理解任务中取得了巨大成功,包括ing图像或对象检索[26,30,34],单次拍摄对象分类[30,34,32],关键点描述符学习[12,24],面部验证[22,20],人物重新识别识别[30,23]、对象跟踪[29]等。最近,有许多广泛使用的损失函数被开发用于深度度量学习,例如对比损失[27,6],三重损失[22]和四重损失[5]。这些损失函数是在相关样本上计算的,其共同目标是在投影特征空间中鼓励来自相同类别的样本更接近,并相关样本被分组为对比对、三元组或四元组,其形成深度度量学习上的这些损失函数的训练样本。与用于图像分类的softmax损失不同,其中梯度是在每个单独的样本上计算的,深度度量学习损失的梯度通常严重依赖于多个此外,当训练对、三胞胎或四胞胎被分组时,训练样本的数量将呈指数增长。这会生成大量的训练样本,这些样本是高度冗余和信息量较小的使用随机采样的训练可能会被冗余样本淹没,导致收敛缓慢和性能低下。深度神经网络通常使用在线随机梯度下降算法[19]进行训练,其中由于计算能力和内存存储的限制,用于优化网络参数的梯度是用小批量本地很难或不可能将所有训练样本放入单个小批量中,并且网络只能关注小批量内的局部数据这通常会导致局部最优和缓慢的收敛。这种常见的挑战将在深度度量学习中被大幅放大,这是由于样本空间的扩大,其中冗余可能变得更加重要。因此,收集和创建有意义的训练样本(例如,成对、三胞胎或四胞胎)一直是深度度量学习的中心问题,并且有效的采样策略对此任务至关重要最近的文献也表明了这一点[22,35,20,1]。本文的目标是解决常规三重态损失的采样问题在这项工作中,我们提出了一种新的分层三元组损失(HTL),能够自动收集信息的训练三元组通过自适应学习的分层类结构,以优雅的方式编码全球范围内。具体来说,我们探索了流形上的下划线数据分布,然后使用这种流形结构来指导三重样本的生成。我们生成有意义的样本的直觉是鼓励小批量中的训练样本具有相似的视觉外观,但具有不同的语义内容(例如,不同类别)。这使得我们的模型能够通过识别密切的视觉概念之间的细微区别来学习更多有区别的特征我们的主要贡献如下。具有分层三重丢失的3— 我们提出了一种新的分层三重损失,允许模型收集信息丰富的训练样本的指导下,全球类层次树。这消除了随机采样在深度度量学习训练中的主要局限性,并鼓励模型从视觉相似类中学习更多有区别的— 我们制定了三重收集的问题,通过引入一个新的违反保证金,这是动态计算构建的层次树。新的违规保证金允许我们搜索信息样本,这是很难区分视觉相似的类,并将合并到一个新的类在下一级违规边距被自动更新,目标是识别生成违规三元组的梯度的边距,自然地使收集的样本更具信息性。— 所提出的HTL很容易实现,并且可以很容易地集成到标准的三重丢失或其他深度度量学习方法中,例如对比丢失,四重丢失,最近的HDC [38]和BIER [17]。它显着优于标准的三重损失的图像检索和人脸识别的任务,并获得了新的国家的最先进的结果在一些基准。2相关工作深度度量学习。深度度量学习通过深度神经网络将图像映射到流形空间中在这个流形空间中,欧氏距离(或余弦距离)可以直接用作两点之间的距离度量。许多深度度量学习算法的贡献,如[26,22,5,2,3],是设计一个可以学习更多判别特征的损失函数。由于神经网络通常使用随机梯度下降(SGD)在小批量中进行训练,因此这些损失函数很难近似度量学习的目标-将具有相同标签的样本拉到附近的点,并将具有不同标签的样本推开。样本选择信息。给定N个训练图像,大约有O(N2)对,O(N3)三元组和O(N4)四元组。在训练期间遍历所有这些训练元组是不可行的 Schroff在。El. [22]用45个身份构建了一个小批量,每个身份有40个图像。在一个小批量中总共有1800个图像,并且该方法在LFW人脸识别挑战中获得了最先进的结果[8]。然而,由于GPU存储器的限制,使用大规模网络在小批量中拍摄数千张图像是相当不方便的对于深度度量学习,选择信息丰富的训练元组非常重要硬负挖掘[4]被广泛用于选择硬训练元组。我们的工作与[35,7]密切相关,[35,7]启发了当前的工作。距离分布用于指导深度度量学习的元组采样[35,7]。在这项工作中,我们努力进一步构建一个层次树,聚合类级的全球背景下,并制定元组选择优雅地引入一个新的违反保证金。4W. Ge,W. Huang,黄氏拟谷盗D.董,M. R. 斯科特i=1一i=1ǁn(a) Caltech-UCSD鸟类数据集(b)小批量数据分布和三胞胎Fig. 1. (a)加州理工大学-加州大学圣地亚哥分校鸟类数据集[31].每一行中的图像都来自同一个类。有四种不同颜色的班级-红、绿、蓝和黄。(b) 小批量中的数据分布和三元组。顶行中的三重态违反了传统三重态损失中的三重态约束。底行中的三元组在三元组丢失中被忽略,但在分层三元组丢失中被重新访问。3动机:三胞胎损失我们首先重新审视标准三重态损失的主要挑战[22],我们认为这对深度三重态嵌入的性能有重大影响。3.1预赛令(xi,yi)为训练集D={(xi,yi)}N中的第i个样本.关于FEA-xi的真嵌入表示为φ(xi,θ)∈Rd,其中θ是可微深度网络的可学习参数,d是嵌入维数,dyi是xi 的 空间. Φ(·,θ)是用于统一的线性化,以用于训练稳定性和比较简单性,如[22]中所示。在神经网络训练过程中,选择训练样本并将其形成三元组,每个三元组其中Tz=(xa,xp,xn)由一个锚样本xa组成。,正Σ样本和负样本xn。三重态Tz=xz,xz,xz的标号满足a p nya=yp/=yn。三重损失旨在拉取属于同一类的样本到流形表面上的附近点,并将具有不同标签的样本三重态Tz的优化目标是,1Σ¨zz¨2Σz z2ltri(Tz)=2 ¨ −xp¨-ax+ α。+[·]+=max(0,·)de不包含该hi-gelos函数,并且dα是在要求负对的距离xz−xz2大于2a n正对的距离¨xz−xz¨对于训练集中的所有三元组T一个pD={(xi,yi)}N,要优化的最终目标函数是,1L=ZΣTz ∈Tltri(Tz),其中Z是归一化项。在深度度量学习中训练三元组损失时,违规间隔对样本选择起着关键作用。−具有分层三重丢失的53.2挑战挑战1:随机取样的三重丢失。对于许多深度度量学习损失函数,例如对比损失[6],三重损失[22]和四重损失[5],所有训练样本都以恒定的违反余量同等对待,这只允许违反此余量的训练样本产生梯度对于训练集D={(xi,yi)}N,用N个样本,训练一个三元组.Σ损失将产生O N3k=1三胞胎,这是不可行的,把所有的三胞胎到一个单个小批量。当我们在整个训练集上随机采样三元组时,它有收敛速度慢和局部最优的风险我们发现了当模型开始收敛时,大多数训练样本服从违反边界的问题。这些样本不能为学习过程贡献梯度,因此信息量较少,但可以主导训练过程,这显著降低了模型能力,收敛速度慢这启发了目前的工作,制定了样本选择的问题,通过设置一个动态的违反利润,这使得模型专注于一个小的信息样本集。然而,从大量产生的三联体中鉴定信息性样品仍然具有挑战性。这激励我们努力更进一步,通过从结构类树中采样有意义的三元组,结构类树定义了所有类别上的类级关系。这将把硬样本彼此分开的问题转化为鼓励两个混淆类之间的更大距离。这不仅减少了搜索空间,而且还避免了在单个样本上过度拟合模型,从而导致更好地泛化的更具鉴别力的挑战2:局部最优风险大多数流行的度量学习算法,如对比损失、三重损失和四重损失,都是在小批量中局部地描述个体样本之间的相似关系,而没有考虑全局数据分布。在三联体丢失中,所有三联体被同等对待。如图1,当训练在几个时期之后进行时,大多数训练三元组对深度神经网络中的可学习参数的梯度没有贡献最近的工作旨在通过重新加权训练样本来解决这个问题,如[36]。然而,即使使用硬负挖掘或重新加权,三元组也只能看到小批次内的几个样本,而不是整个数据分布。三重态丢失难以合并目标流形空间上的全局数据分布。虽然在训练过程中,深层特征空间中的数据结构会发生动态变化,但数据点的相对位置可以大致保持。这允许我们探索在先前迭代中获得的数据分布利用数据结构的这种先验知识,不违反原始裕度α的三元组可以生成有助于网络训练的梯度,如图所示。1.通过从这些困难但信息丰富的三元组中学习,可以增强辨别能力。6W. Ge,W. Huang,黄氏拟谷盗D.董,M. R. 斯科特4分层三重态损失我们描述的细节,建议的层次三重损失,其中包含两个主要组成部分,构建一个层次的类树和制定一个新的违反保证金的层次三重损失。分层类树的目的是捕捉全局数据上下文,这是编码成三元组采样通过新的违反余量,通过制定分层三元组损失。(a) 层次树(b)通过t-SNE的数据分布可视化图二. (a)层次树H的一个玩具例子。不同的颜色代表CUB-200-2011 [31]中的不同图像类别。叶子是训练集中的图像类。然后递归地合并它们直到根节点。(b)通过使用t-SNE [16]可视化100个类的训练数据分布,以将三元组嵌入的维度从512减少到2。4.1层次流形结构我们在类级别上构建了一个全局层次结构。给定一个神经网络φt(·,θ)(∈Rd),利用样本规则对样本集进行训练,构造了基于样本规则的层次数据结构。将样本xi的深度特征表示为ri=φt(xi,θ)。 我们首先计算整个训练集D中C类的距离矩阵。第p类和第q类之间的距离计算为,d(p,q)=1Σ ri−rjnpnqi∈p,j∈q其中np和nq分别是第p和第q类由于深度特征ri被归一化为单位长度,所以类间距离d(p,q)的值从0变化到4。根据计算出的类间距离,通过创建层次树来构建层次流形结构。分层树的叶是原始图像类,其中每个类表示第0级的叶节点。然后,通过递归地合并不同级别的请假条,基于计算的距离矩阵创建层次结构。层次树是具有分层三重丢失的7Cpl′mnz设置为L级,并且平均内部距离d0被用作合并第0级节点的阈值。1ΣC1Σd0= Cc=1n2−nci∈c,j∈cri−rj其中,是第c个类中的样本的数量。然后用不同的阈值合并节点。在分层树的第l级,合并阈值设置为d=l(4 −d0)+d。距离小于d的两个类是lL0l合并到第l层的节点第1层的节点号为N1.的节点从第0级合并到第L级。最后,我们生成一个分层树H,它从原始图像类的叶子节点开始到最终的顶部节点,如图所示第2段(a)分段。构造的层次树捕获整个数据集上的类关系,并且在训练的某些迭代中交互地更新。4.2分层三重态损失我们制定了一个分层的三重丢失的问题的三重收集。我们引入了一个动态的违反余量,这是从传统的三重态损失使用一个恒定的违反余量的主要区别锚定邻居采样。我们在所构建的分层树H的第0层随机选择l’个节点。每个节点代表一个原始类,在第0级收集类的目的是在小批量中保持训练样本的多样性然后,基于在特征空间中计算的类之间的距离,为l’个节点中的每个节点选择第0级的m-收集最近类的目的是鼓励模型从视觉相似类中学习区分性特征最后,对每个类随机采集t张图像,得到n(n=l′mt)张小批量M.每个小批量内的训练三元组基于类关系从所收集的η个图像为了方便起见,我们将锚-邻采样写三重态生成和动态违反边界。分层三重态损失(在M的小批量上计算)可以用公式表示为,1ΣΣ¨z¨z zΣLM= 2ZM Tz ∈TM¨xa−x¨−xax+ α。+其中T,M是小批量M中的所有三元组,并且Z=A2A2C1是Ml′m不不三胞胎的数量每个三元组被构造为Tz=(xa,xp,xn),并且如下生成训练三元组一个2表示随机选择两个类-一个正类和一个负类,从所有的l′m类中−8W. Ge,W. Huang,黄氏拟谷盗D.董,M. R. 斯科特n更新树的损失(a) 锚定邻域采样(b)卷积神经网络(c)参数优化和树更新t-SNE中的数据分布锚-邻居组层次树图三.(a)每一小批的取样策略。红色的图像代表锚点,蓝色的图像代表最近的邻居。(b)训练具有分层三元组损失的CNN。(c)在线更新分层树。小批量A2意味着选择两个样本-锚样本(xz)和正样本(x z)。不是正样本(xz),从正类,和C1意味着随机选择一个pt负样本(xz)来自负类。一个2,A2和C1是nl′ mt t组合数学详情参见参考文献[13]αz是一个动态的违反裕度,不同于传统的三重态损耗的恒定裕度它是根据在所构造的层次类树上的锚类ya和负类yn之间的类关系来计算的具体地,对于三元组Tz,违规裕度αz计算为,αz=β+dH(ya,yn)−sya,其中β(= 0. 1)是鼓励图像类比先前迭代彼此更远离地驻留的恒定参数。H(ya,yn)是类树上的层次级别,其中类ya和类yn是在此基础上,我们还可以将其扩展到其他级别。dH(ya,yn)是用于生成的holH和s上的两个类=1Σr−rya2ya−nyai,j∈ya i j类y中的样本之间的比。在我们的分层三联体丢失中,一个样本xa被鼓励将附近具有不同语义的点推离自身。此外,它还有助于梯度的数据点,这是非常远离它,通过计算一个动态的违反边缘编码的整体类结构,通过H。对于每个单独的三元组,我们在H上搜索以编码用于优化目标的数据分布的上下文信息。在算法1中描述了具有所提出的分层三元组丢失的训练过程的细节。实施详情。我们所有的实验都使用Caffe [10]实现,并在具有12GB内存的 NVIDIA TITAN X ( Maxwell ) GPU 上 运 行 网 络 架 构 是 GoogLeNet[28],具有批量归一化[9],其在ImageNet数据集[21]上进行预训练。1000路全连接层被移除,并且由d维全连接层代替。新加Conv1池1Conv2池2Conv3池3Conv4池4Conv5池5FC具有分层三重丢失的9k=1表1.店内服装检索数据集的比较[15]。R@11020304050FashionNet+关节[15]41.0 64.0 68.0 71.0 73.0 73.5[15]第十五话42.0 65.0 70.0 72.0 72.0 75.0FashionNet[15]53.0 73.0 76.0 77.0 79.0 80.0HDC[38]62.1 84.9 89.0 91.2 92.3 93.1比尔[18]76.9 92.8 95.2 96.2 96.7 97.1我们的基线62.3 85.1 89.0 91.1 92.4 93.4A-N采样75.3 91.8 94.3 96.2 96.7 97.5电话:+86-21 -88888888传真:+86-21 - 88888888layer是使用“Xai v er”填充的随机和随机数据的初始化。我们修改了Caffe [10]的内存管理,以确保它可以在GoogLeNet的小批量中使用批处理归一化处理650张图像。将输入图像调整大小并裁剪为224×224,然后减去平均值。使用的优化方法是学习率为1e−3的标准SGD。算法一:分层三元组丢失训练输入:在D={(xi,yi)}N处的Traningd . Netw或kφ(·,θ)是独立的使用预先训练的ImageNet模型。层次类树H是根据初始化模型的特征建立的。任何一对类别的裕度αz在开始时设置为0.2。输出:神经网络kφ(·,θ)的可伸缩参数θ。1而不收敛2t←t+1;3根据H随机抽取锚点及其邻域;4通过搜索分层树H来计算不同图像类对的违反裕度;5计算小批量LM中的分层三元组损失;6反向传播在损失层产生的梯度并更新可学习参数;7在每个时期,用当前模型更新分层树H。5实验结果和比较我们评估建议的分层三重损失的任务,图像重新trieval和人脸识别。在一个数字上进行了广泛的实验一系列基准测试,包括In-Shop ClothesRetrieval[15]和Caltech-UCSD Birds 200[31]用于图像检索,以及LFW [8]用于面部验证。数据集和实现细节的描述如下所示10W. Ge,W. Huang,黄氏拟谷盗D.董,M. R. 斯科特图4.第一章店内服装检索训练集上的锚点-邻居可视化[15]。每一排都代表着一种时尚风格。每个奇数行下面的行是奇数行中的时尚风格的邻域之一。5.1店内服装检索数据集和性能指标。店内服装检索数据集[15]在图像检索中非常流行它有11735类服装项目和54642训练图像。根据[15,38]中的协议,3997个类用于训练(25882张图像),3985个类用于测试(28760张图像)。测试集被划分为查询集和图库集,这两个集合有3985个班级。查询集有14218个图像,图库集有12612个图像。与图4、有很多图像类具有非常相似的内容。对于评估,我们使用最常见的Recall@K度量。我们提取每个查询图像的特征,并在图库集中搜索K个最相似的图像。如果K个检索图像中的一个与查询图像具有相同的标签,则召回率将增加1,否则将为0。我们评估召回度量,其中K∈ {1, 2, 4, 8, 16, 32}。实作详细数据。我们的网络基于GoogLeNet V2 [9]。特征嵌入的维度d是128。三元组违规边距设置为0.2. 分层树具有16个级别,包括包含图像类的叶子级别在第一个时期,神经网络使用标准的三元组损失进行训练,该损失随机地对小批量的图像类进行采样。然后在训练过程中,对层次树进行更新和使用在以下步骤中。由于有3997个图像类用于训练,并且有许多类似的类,因此整个训练需要30个epoch,并且批量大小被设置为480。对于每10个epoch,我们将学习率乘以0.1。测试代码来自HDC [38]。结果比较。我们比较我们的方法与现有的国家的最先进的算法和我们的基线三重损失。表1列出了In-Shop Clothes Retrieval上的图像检索结果。该方法的识别率达到80.9%具有分层三重丢失的11表2.与CUB-200-2011数据集的最新技术水平比较[31]。电话:+86-10 - 8888888传真:+86-10 - 88888888[26] 47.2 58.9 70.2 80.2 89.3 93.2二项式离差[30] 52.8 64.4 74.7 83.9 90.4 94.3直方图丢失[30]50.3 61.9 72.6 82.4 88.8 93.7[25]第二十五话51.0 63.3 74.3 83.2HDC[38]53.6 65.7 77.0 85.6 91.5 95.5比尔[18]55.3 67.2 76.9 85.1 91.7我们的基线55.9 68.4 78.2 86.0 92.2 95.5HTL57.1 68.8 78.7 86.5 92.5 95.5Recall@1,并且优于基线算法-三联体损失18.6%。这表明,我们的算法可以提高原来的三重损失的鉴别能力最先进的算法,包括HDC [38]和BIER [18],使用提升和集成方法来利用不同的特征并获得出色的结果。我们的方法表明,通过将全局数据分布纳入深度度量学习,性能将得到极大提高。提出的分层损失得到80.9%的Recall@1,比BIER [18]高4.0%,比HDC [38]高18.8%。5.2加州理工大学-加州大学圣地亚哥分校鸟类200-2011数 据 集 和 性 能 指 标 。 Caltech-UCSD Birds 200 数 据 集 ( CUB-200-2011)[31]包含了200种鸟类的照片和11788张图片。CUB-200-2011是大多数现有深度度量学习和图像检索工作的基准。前100个类别(5864个图像)用于训练,其余类别(5924个图像)用于测试。其余图像被视为查询集和图库集。对于评估,我们使用与“店内服装检索”部分相同的Recall@K度量。这里,K∈ {1, 2, 4, 8, 16, 32}。实作详细数据。特征嵌入的维度d是512。 三元组违规边距设置为0.2。与上一节一样,层次树仍然设置为16级。所有的训练细节与In-Shop Clothes Retrieval数据集几乎相同。但由于只有100个图像类用于训练,因此数据集很容易过拟合。当我们训练10个epoch时,训练停止了。批量大小设置为50。对于每3个epoch,我们通过乘以0.1来降低学习率。结果比较。表2列出了对Caltech-UCSD Birds 200-2011的图像检索结果。基线-三重丢失已经得到最新技术水平的结果,与先前最新技术水平的HDC 54.6%和BIER 55.3%相比,具有55.9%的Recall@1如果我们使用锚点邻居采样和分层损失,我们得到57.1%的Recall@1。由于只有100个类和6000张图像用于训练,因此网络很容易过拟合。通过分层损失获得的性能增益仅为1.2% Recall@1。12W. Ge,W. Huang,黄氏拟谷盗D.董,M. R. 斯科特5.3[26]第196话:我的世界Cars-196和斯坦福在线产品[26]的详细信息在[11,26]中描述。特征嵌入的维度被设置为512。三元组违反余量被设置为0.2,其中深度= 16的分层树。整个训练需要30个epoch,批量大小设置为50。对于每10个epoch,我们将学习率乘以0.1。结果如表3所示,其中提出的HTL优于我们的基线、BIER和HDC,在两个数据集上都有明显的边缘。具体而言,在Cars-196上,HTL实现了81.4%的Recall@1,这比原始三重态损失高出2.2%,比先前的最新 技 术 高 出 3.4% 。 在 斯 坦 福 在 线 产 品 上 , HTL 实 现 了 74.8% 的Recall@1,超过三重损失2.2%,并且超过先前的最新技术水平2.1%。这些结果表明,所提出的HTL可以有效地改善原始三元组的损失,并进一步证明了HTL的泛化能力。表3.与cars-196和斯坦福产品的最新技术水平进行比较汽车-196斯坦福在线产品R@12481632110100100HDC73.7 83.2 89.5 93.8 96.7 98.4 69.5 84.4 92.897.7BIER78.0 85.8 91.1 95.1 97.3 98.7 72.7 86.5 94.098.0基线79.2 87.2 92.1 95.2 97.3 98.6 72.6 86.2 93.898.0HTL(深度=16)81.4 88.0 92.7 95.7 97.4 99.0 74.8 88.3 94.898.45.4LFW人脸验证数据集和性能指标。CASIA-WebFace数据集[37]是公开访问的人脸识别数据集之它一直是人脸识别算法训练中最受欢迎的数据集,例如[1,33,14]。CASIA-WebFace拥有10575个身份和494414张图片。我们遵循[37]中的测试协议来测试我们的算法的性能。报告了LFW数据集[8]上的人脸验证结果实作详细数据。由于三重态损失对噪声非常敏感,我们使用VGG-Face [20]的预训练模型清除CASIA-WebFace,并手动去除一些噪声。大约10%的图像被删除。然后使用剩余的人脸来训练SoftMax分类器。网络参数由预训练的ImageNet模型初始化。我们使用分层损失来微调用于人脸识别的预训练分类网络。结果比较。三重态损失为98。3%的准确率在LFW的脸验证任务,这是1。比SpereFace低12%[14]-99。42%使用相同的数据集进行训练。当我们用hierarchical tipletlos替换三重态损失时,结果是99。2. 这与最新的测试结果很相似这表明分层三重态损失比三重态损失具有更强的区分力。然而,由于基于三元组的方法非常具有分层三重丢失的13对噪声敏感,分层三元组损失与SphereFace [14] 99相比性能较差。42%和FaceNet [22] 99. 百分之六十五5.5抽样问题与局部最优(a) 店内服装的图像检索结果(b)CUB200-2011的图像检索结果图五. (a)不同批量的In-Shop Clothes [15]的图像检索结果。(b)CUB-200-2011上的图像检索结果[31]。取样物质。我们研究了批量大小对In-Shop Clothes Retrieval测试集的影响。图图5(a)示出了当批量大小从60增长到480时,在相同的迭代中准确度增加当训练继续进行时,性能会出现剧烈波动,出现过拟合现象。此外,当在60%Recall@1下得到相同的结果时,具有三重损失的锚-邻居采样和分层损失的收敛速度比随机采样(批量= 480)快约2倍图图5(b)示出了在Caltech-UCSD Birds200的测试集上比较三重损失(我们的基线)、分层三重损失和HDC [38]的收敛速度。 与60000次迭代相比(参见[38]),分层三元组损失收敛于1000次迭代。具有锚邻域采样的分层三重丢失传统收敛更快,并且比HDC [38]获得更好的性能。池 本 地 最 佳 在 表 1 和 表 2 中 , 我 们 可 以 发 现 , 在 In-Shop ClothesRetrieval和Caltech-UCSD Birds 200上,三重损失得到比分层三重损失更差的性能。在图5、三重损失的准确性在损失降到很低后继续训练时开始波动。事实上,在小批even中总是有非常少或零的三元组,其中两个任务没有得到最佳的结果。 该yd不会产生梯度,并且会通过SGD [19]衰减网络中的可学习参数。因此,我们将层次结构,使点在小批量知道的点的位置,已经很远,然后试图推动他们进一步从自己和它的邻居类。14W. Ge,W. Huang,黄氏拟谷盗D.董,M. R. 斯科特5.6消融研究我们对In-Shop Clothes和CUB-200-2011进行了消融研究,如表4所示。首先,直接将硬负采样(HNS)应用于整个训练集难以获得性能增益。实际上,我们的基线模型应用了半HNS,其性能优于HNS。我们设计了一个强大的类级约束-锚定邻居采样的HTL,这鼓励模型学习判别功能,从视觉相似的类。这是提高性能的关键。其次,我们将建议的锚-邻居采样和动态违反余量集成到HDC中,其中使用对比度损失。如表4(底部)所示,HDC+在店内服装检索上获得了7.3%R@1的改进,表明我们的方法在对比损失和HDC的情况下实际上工作得很好。第三,深度为16的HTL在80.9%的R@1处实现最佳性能。这在我们的所有实验中用作默认设置。我们还计算出了具有d_p_h = 1的“flat”r的结果。结果表明,在“平坦”区域表4.对店内衣物检索和CUB-200-2011的消融研究店内服装Cub-200-2011R@1102030405012481632关于带抽样的随机抽样59.3 83.5 87.9 90.5 91.3 93.051.4 63.9 74.8 83.4 90.0硬性负面挖掘60.1 84.3 88.2 90.2 91.5 92.651.6 63.9 74.2 84.4 89.9 94.6半硬负开采62.3 85.1 89.0 91.1 92.455.9 68.4 78.2 86.0 92.2 95.5锚点-邻点采样75.3 91.8 94.3 96.2 96.7 97.556.4 68.5 78.5 86.2 92.4 95.5HTL,A-N采样+动态违规裕度(αz)类代理(平面/深度=1)78.9 93.4 94.8 96.0 96.5 97.556.0 68.1 78.2 86.2 92.3 95.5HTL(深度=8)78.7 93.3 94.6 96.2 96.956.2 68.5 78.3 86.1 92.3 95.5HTL(深度=16)80.9 94.3 95.8 97.2 97.457.1 68.8 78.7 86.5 92.595.5HTL(深度=32)79.3 93.8 95.0 96.9 97.1 97.556.4 68.5 78.5 86.2 92.3 95.5HDC+:使用A-N采样的对比度损失+动态违规裕度(αz)6结论我们已经提出了一个新的分层三重损失(HTL),这是能够选择信息丰富的训练样本(三重)通过自适应更新的分层树,编码的全球范围内。HTL有效地处理了随机采样的主要限制,这是深度度量学习的关键问题。首先,我们在类级别上构建一个层次树,它对整个数据集的全局上下文信息进行视觉上相似的类被递归地合并以形成层次结构。第二,三元组收集的问题,制定了一个新的违反余量,这是动态计算的基础上设计的层次树。这使得它能够在全局上下文的指导建议的HTL的图像检索和人脸识别,在那里它实现了新的国家的最先进的性能在一些标准的基准任务进行评估。HDC62.1 84.9 89.0 91.253.6 65.7 77.0 85.6 91.5 95.5HDC+69.4 88.6 93.4 94.1 95.3 96.554.1 66.3 77.2 85.6 91.7 95.5具有分层三重丢失的15引用1. Amos,B.,Ludwiczuk,B.,Satyanarayanan,M.:Openface:一个带有移动应用程序的通用人脸识别库。CMU计算机科学学院(2016)2. Bai,S.,Bai,X.,田,Q,Latecki,L.J.:用于视觉检索的正则化扩散过程。 In:AAAI. pp. 39673. Bai,S.,周志,王杰,Bai,X.,Latecki,L.J.,Tian,Q.:用于检索的集合扩散。在:IEEE计算机视觉和模式识别会议论文集中。pp. 7744. Bucher,M.,Herbin,S.,Jurie,F.:基于度量学习的Zero-Shot分类的硬否定挖掘。 In:EuropeanConferenceonCom up uterVison。pp. 524-531 Springer(2016)5. 陈伟,陈旭,张杰,Huang,K.:除了三重态损失:一种用于人员重新识别的深度四元组网络。IEEE计算机视觉与模式识别会议(CVPR)(2017年7月)6. 哈德塞尔河Chopra,S.,LeCun,Y.:通过学习不变映射进行降维。In:ComputerVisionandPatternRecognition,2006IEEEcomputersocietyconferenceon. vol. 第2页。 1735- 1742年。02The Dog(2006)7. Harwood,B.Kumar B G,V.,Carneiro,G.里德岛德拉蒙德,T.:深度度量学习的智能在:IEEE计算机视觉国际会议(ICCV)(2017年10月)8. Huang,G.B.,Ramesh,M.,Berg,T.,Learned-Miller,E.:在野外贴上标签的脸:研究无约束环境下人脸识别的数据库。Tech.众议员07-49,马萨诸塞大学阿默斯特分校(2007年10月)9. Ioffe,S.,Szegedy,C.:批次标准化:通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议。pp. 44810. Jia,Y.,Shelhamer,E.,Donahue,J.,Karayev,S.,朗J格尔希克河瓜达尔-拉马,S.,达雷尔,T.:Caffe:用于快速特征嵌入的卷积架构。第22届ACM多媒体国际会议论文集。pp. 675-678 ACM(2014)11. Krause,J.,斯塔克M. Deng,J.,李菲菲:用于细粒度分类的3D对象表示。在:第四届IEEE 3D表示和识别研讨会,ICCV(2013)12. Kumar,B.,Carneiro,G.里德岛等:通过最小化全局损失函数,使用深度连体和三重卷积网络学习局部图像描述符。IEEE计算机视觉和模式识别会议论文集。pp. 538513. van Lint,J.H.,Wilson,R.M.:组合学课程。剑桥大学出版社(2001)14. 刘伟,Wen,Y.,于志,Li,M.,Raj,B.,Song,L.:Sphereface:用于人脸识别的深度超球面嵌入。IEEE计算机视觉与模式识别会议(CVPR)第1卷(2017)15. 刘志,Luo,P.,Qiu,S.,王,X.,唐X:Deepfashion:通过丰富的注释实现强大的In:Proceedings of the IEEE Con-fe-re-nceonComuterVisi onandPaternRecognition. pp. 109616. Maaten , L.v.d. , Hinton , G. : 使 用 t-sne 可 视 化 数 据 。 Journal ofmachinelearn-ingresearch9(Nov),257916W. Ge,W. Huang,黄氏拟谷盗D.董,M. R. 斯科特17. Opitz,M.,Waltner,G. Possegger,H.,Bischof,H.:Bier -鲁棒地提升独立嵌入。在:IEEE计算机视觉国际会议(ICCV)(2017年10月)18. Opitz,M.,Waltner,G.Possegger,H.,Bischof,H.:Bier-boosting独立em-床上用品结实。In:Proceedings of the IEEE Conference on Computer VisionandPatternRecognition. pp. 518919. O rr,G. B、 Müller,K. R. :新的两个工作:尝试该ra的S。02TheDog(2003)20. 帕克希O.M. Vedaldi,A.,Zisserman,A.,等:深度人脸识别。在:BMVC.第1卷,第6页(2015年)21. Russakovsky,O.,Deng,J.,Su,H.,Krause,J.,Satheesh,S.,妈妈,S.,黄志,Karpathy,A.,Khosla,A. Bernstein,M. Berg,A.C.,李菲菲:ImageNet大规模视觉识别挑战。International Journal of Computer Vision(IJCV)115(
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功