没有合适的资源?快使用搜索试试~ 我知道了~
72- -硬感知深度度量学习郑文钊1,2,3,陈照东1,陆继文1,2,3,周杰1,2,31清华大学自动化系2智能技术与系统国家重点实验室3北京国家信息科学技术研究中心zhengwz18@mails.tsinghua.edu.cn;chenzd15@mails.tsinghua.edu.cn;jzhou@tsinghua.edu.cn lujiwen@tsinghua.edu.cn摘要本文提出了一个硬感知的深度度量学习(HDML)框架。大多数以前的深度度量学习方法采用硬否定挖掘策略来缓解训练样本的缺乏然而,这种挖掘策略只利用了训练的一个子集z+zze-z嵌入数据,这可能不足以描述全球嵌入空间的几何学。为了解决这个问题,我们对嵌入执行线性插值以自适应地操纵它们的硬水平,并生成相应的标签保持合成用于再循环训练,使得隐藏在所有样本中的信息可以被充分利用,并且度量总是以适当的难度被挑战。我们的方法在广泛使用的CUB-200-2011,Cars 196和Stanford Online Products数据集上实现了非常有竞争力的性能。11. 介绍深度度量学习方法旨在学习有效的度量标准,以准确和鲁棒地测量数据点之间的相似性。他们利用深度神经网络[17,27,31,11]来构建从数据空间到嵌入空间的映射,以便嵌入空间中的欧几里得距离可以反映实际的se-特征y+yyyye图1.我们提出的硬度感知特征合成的插图。特征空间中的曲线表示一个流形,在该流形附近属于一个特定类别的样本集中。在特征空间和嵌入空间中具有相同颜色的点表示相同的样本,并且相同形状的点表示它们属于相同的类。 所提出的硬度感知扩增首先修改样本y到y。再加上一个标签-−和-硬度保持发生器将其投影到y 这是数据点之间的距离,即,相对大类间样本之间的距离和一个相对较小的流形上最接近y的点合成橡胶的硬度−neg ativ ey可以适应性地控制,并且不会改变类内样本之间的距离。最近各种已经提出了深度度量学习方法,并且已经在各种任务(例如图像检索[30,23,19,5],人员重新识别[26,37,48,2]和地理定位[35,14,34]。*通讯作者1代码:https://github.com/wzzheng/HDML原始标签,使得合成的硬度感知元组可以被有利地用于有效训练。(Best以颜色查看)。深度度量学习模型的整体训练可以被认为是使用由所选样本加权的损失,这使得采样策略成为一个关键组成部分。73nent。关于抽样策略的一个主要问题是缺乏可供训练的信息样本。大部分样本可能满足损失函数所施加的约束,并且不为训练模型提供监督信息这促使许多深度度量学习方法开发有效的硬负挖掘策略[25,13,46,10]用于采样。这些策略通常对训练集进行欠采样,以获得硬信息样本,从而产生具有大幅度的梯度。然而,硬否定挖掘策略仅在样本的子集中进行选择换句话说,一些数据点被重复采样,而其他数据点可能永远不可能被采样,从而导致嵌入空间在过采样数据点附近过拟合,同时在欠采样数据点附近欠拟合。在本文中,我们提出了一个硬度感知的深度度量学习(HDML)框架作为解决方案。我们对训练集中的所有数据点进行统一采样,同时充分利用每个点所包含的信息。而不是只使用原始样本进行训练,我们建议合成硬度感知样本作为原始样本的补充。此外,我们根据模型的训练状态来控制合成样本的硬水平,使得训练得更好的模型受到更硬的合成样本的挑战。我们采用了自适应线性插值的方法,有效地操纵嵌入的硬水平。在获得增强嵌入后,我们利用一个同时训练的生成器将它们映射回特征空间,同时保留标签和增强硬度。这些合成包含比原始信息更多的信息,可以用作循环训练的补充,如图1所示。我们提供了一个消融研究,以证明每个模块的HDML的有效性。在广泛使用的CUB-200-2011 [36],Cars 196 [16]和Stan-fordOnline Products [30]数据集上进行的大量实验表明,我们提出的HDML框架可以提高现有深度度量学习模型在图像聚类和检索任务中的性能。2. 相关工作度量学习:传统的度量学习方法通常采用马氏距离[8,4,41]或基于核的度量[6]来表征数据点之间的线性和非线性内在相关性。对比损失[9,12]和三重损失[38,25,3]是两种传统的度量,广泛用于大多数现有的度量学习方法。对比损失被设计为以固定的裕度分离不同类别的样本,并尽可能接近相同类别的样本三重态损失更灵活,因为它只需要一定的在三胞胎中排名。此外,也有一些工作来探索四联体的结构[18,13,2]。最近提出的深度度量学习方法[30,28,32,29,39,44]中使用的损失考虑了高阶关系或全局信息的描述,因此实现了更好的性能。例如,Song et al. [30]提出了一个提升的结构化损失函数来考虑一个批次中的所有正负对。Wang等人 [39]通过利用三阶几何关系改进了传统的三重态损失。这些精心设计的损失在各种任务中表现出巨大的力量,但更先进的采样框架[42,22,7,20]仍然可以提高其性能。例如,Wu等人。[42]提出了一种距离加权抽样方法,根据相对距离选择样本。 另一个趋势是将集成技术纳入深度度量学习[23,15,43],它集成了几个不同的嵌入,以构成更丰富的表示。硬负面挖矿:在许多机器学习任务中使用了硬否定挖掘来提高训练效率和性能,如监督学习[25,13,46,10,45],基于范例的学习[21]无监督学习[40,1]。该策略旨在逐步选择最有利于训练的假阳性样本。它被广泛用于深度度量学习方法,因为可以形成大量的元组用于训练。例如,Schroff等人。 [25]提出在一个批次内对半硬三元组进行采样,这避免了使用可能由噪声数据导致的过于混乱的三元组。 Harwood等人。 [10]提出了一种智能挖掘程序,利用近似最近邻[46]和[10]的优点在于选择了与模型具有适当硬水平的样本。然而,它们不能精确地控制硬电平,也不能充分利用简单样本中包含的信息。最近提出的方法[5,47]开始考虑生成潜在的硬样本来完全训练模型。然而,当前的方法存在若干缺点。首先,不能控制所生成的样本的硬水平其次,它们都需要一种对抗性的方式来训练生成器,使得模型很难端到端学习,训练过程非常不稳定。因此,所提出的HDML框架可以生成具有适当信息和自适应硬级别的合成硬度感知标签保留样本,进一步提升当前深度度量学习模型的性能3. 该方法在本节中,我们首先阐述了深度度量学习的问题,然后介绍了所提出的HDML框架的基本思想。最后,详细阐述了在该框架下的深度度量学习方法.74H07UDiQiQJlarity关系。通过最小化特定损失函数来学习网络参数θ*=arg minθhJ(θh;{Ti})。(三)公司简介图2.所提出的硬度感知增强的图示。具有相同形状的点来自同一类。我们对嵌入空间中的负对进行线性插值,以获得更硬的元组,其中硬级别由模型的训练状态控制随着训练的进行,越来越难的元组被生成以更有效地训练度量(Best以颜色查看)。3.1. 问题公式化令X表示数据空间,其中我们对一组数据点X=[x1,x2,···,xN]进行采样。每个点xi具有标签li∈{1,···,C},其构成标签集L=例如,三重丢失[25]样本三重态由三个例子组成,锚x,与锚具有相同标记的正x+,以及具有不同标记的负x−三重态的损失迫使锚点和负电极之间的距离比锚点和正电极之间的距离大固定的余量。此外,N-pair Loss [28]对具有不同类别的N个正对的元组进行采样,并试图将N-1个负对一起推开。3.2. 硬度感知增强在训练过程中可能存在大量可以使用的元组,但它们中的绝大多数实际上缺乏直接信息,并且产生近似为零的梯度。为了只在信息性的元组中进行选择,我们将自己限制在一个小的元组集合中。然而,这个小集合可能无法准确地表征嵌入空间的全局为了解决上述局限性,我们提出了一种自适应XfY硬度感知增强方法,如图所示[11,12,···,1N]。设f:X−→Y是来自数据的映射空间到特征空间,其中提取的特征yi具有其对应的数据点xi的语义特征。度量学习的目标是学习距离度量在特征空间中,它可以反映实际的语义距离。距离度量可以定义为:D(xi,xj)=m(θm;yi,yj)=m(θm;f(xi),f(xj)),(1)其中m是一致正对称函数,θm为相应参数。深度学习方法通常使用深度神经网络提取特征。标准的过程是首先将特征投影到嵌入空间(或度量空间)Z中G映射g:Y−→Z,其中距离度量为二、我们在嵌入空间中修改和构造了具有硬度感知的元组,其中对样本之间的距离的操纵将直接改变元组的硬度水平。负对之间距离的减小将导致硬电平的上升,反之亦然。给定一个集合,我们通常可以形成比正对更多的负对,所以为了简单起见,我们只操纵负对的距离。对于元组中的其他样本,我们不执行变换,即, z=z。尽管如此,我们的模型可以很容易地扩展到处理正对。在获得负对(锚z和a negativez−),我们构造一个增广的更硬的负通过线性插值采样然后是简单的欧几里得距离。由于投影可以并入深度网络,我们可以直接学习z−=z+λ(z−−z),λ ∈[0,1].(四)a映射h=g<$f:X−→h Z从数据空间到嵌入空间,这样就可以训练整个模型然而,太靠近锚点的例子很可能共享标签,因此不再构成负对。端到端,无需显式特征提取。 在这种情况下,因此,设置λ0更为合理D+d(z,z−),1],距离度量被定义为:D(xi,xj)=d(zi,zj)=d(θ h; h(xi),h(xj)),(2)其中d表示欧几里得距离d(zi,zj)= ||zi−zj||2,z=g(y)=h(x)是学习的嵌入,θf,θg其中d+是我们用来确定操纵的规模(例如,正对或固定值之间的距离),且d(z,z−)=||z−−z||二、为了实现这一点,我们引入一个变量λ∈(0,1],.和θh分别是映射f,g和h的参数D+d(z,z−),如果d(z,z−)> d+(五)&联系我们Ne一PN度量&联系我们Ne一PN度量(0λ+(1−λ)75而θh={θf ,θg}。01, 如果d(z,z−)≤d+.度量学习模型通常是基于tu来训练的。由几个样本组成的样本{Ti}具有某些相似性,在条件d(z,z−)> d+的情况下,76如果d(z,z+)>d0HWUiFzyJV\Q* 总部JVRIWye同一类别)XOO\RQQHFWHG/D\HUJP$XJPHQWRU公司简介/RVVJUHFRQy0重建图3.我们的HDML框架的整体网络架构。红色虚线箭头从计算损失的部分指向损失直接监控的模块。度量模型是一个CNN网络,后面是一个完全连接的层。增广器是输入的线性操作,生成器由两个完全连接的层组成,并且具有增加的维度。度量的一部分和下面的生成器形成了与众所周知的自动编码器类似的结构(最好是彩色的)。示例可以表示为:3.3. 硬度和标记保持合成z− =z+[λd(z, z−)+(1−λ)d+z−−z]d(z,z−)。(六)在嵌入空间中获得硬度感知元组后,我们的但这由于原始元组的整体硬度在训练过程中逐渐降低,因此可以逐步增加合成元组的硬度以进行补偿。当λ变大时,三重态的硬度增加,- -一种α映射并不是微不足道的,因为按照(7)构造的负样本可能不一定有利于训练过程:不能保证Zz-共享相同的标签在z-。 为了解决这个问题,我们将这个问题从一个多方面的观点,并提出一个硬度和标签-所以我们可以直观地将λ设为eJavg,其中Javg是av-在最后一个历元上的平均度量损失,并且α是用于平衡Javg的尺度的拉动因子。我们利用平均度量损失来控制硬水平,因为它是训练过程的良好指标。如果平均损失较小,则增强的否定更接近锚点,从而随着训练的进行而导致更难的元组。所提出的硬度感知负增强可以表示为:保持特征的合成方法如图1所示,特征空间中的两条曲线表示两个流形,原始数据点分别集中在这两个流形附近在特征和嵌入空间中具有相同颜色的点表示相同的示例。因此,下面我们不区分作用于特征和嵌入的操作。yn是一个真正的−−α−-α+z−−z类ln的数据点,我们首先将其增加到y跟随-z+[e=J平均d(z,z)+(1−eJ平均数d]d(z,z−)ing(7).(七)y−更有可能在外面,离fd(z,z−)≤d+.自适应硬度感知综合的必要性在于两个方面。首先,在训练的早期阶段,嵌入空间不具有准确的语义结构,因此当前硬样本可能不是真正的信息量或有意义的,并且在这种情况下的硬合成可能甚至不一致。此外,硬样本通常会导致网络参数的显著变化因此,使用无意义的参数很容易破坏嵌入空间结构,导致模型从一开始就在错误的方向上训练另一方面,随着训练的进行,模型对硬样本的容忍度更高,因此应该生成越来越硬的合成样本以保持学习效率在高水平。接近于y,属于另一个类别。直观地说,目标是学习一个生成器,该生成器将y−,一个从流形开始的数据点(不太可能属于l−类),映射到位于流形附近的数据点(更可能属于l−类)。此外,为了最好地保持硬度,这个映射点应该尽可能地接近y。这两个条件将目标点限制在y−,这是流形上最接近y−的点。我们通过学习生成器i:Z→−i来实现这一点Y,它将元组的增强嵌入映射回到特征空间进行循环训练。从一个普通的-由于合成特征通常不能完美地将所有嵌入映射回特征空间,因此合成特征必须位于相同的空间中以提供有意义的信息。因此,我们不仅绘制了合成阴性样品,CNN−z−与原始数据点进行比较,因为它是772一个元组中的其他未改变的样本:T(y)=i(θi;T(z)),(8)其中T(y∈)和T(z∈)分别是特征空间和嵌入空间中的元组,θ i是生成映射i的参数。我们利用自动编码器架构来实现映射g和映射i。编码器g将由CNN从图像中提取的特征向量y作为输入,并且首先将其映射到嵌入z。在嵌入空间中,我们使用上一小节中描述的硬度-aware增广将z修改为zz发电机i执行增强的硬水平和硬度和标签保留生成器网络,以生成相应的合成,如图3所示。在获得元组的嵌入之后,我们首先执行线性插值来修改硬水平,通过指示模型当前训练状态的因子进行加权。然后,我们利用一个同时训练的生成器来生成增强的硬度感知元组的合成体与传统的深度度量学习方法相比,我们还利用硬度感知合成来训练度量:映射原始嵌入z和增强嵌入z,θ*=arg minJ(θh;{Ti}<${T<$ i}), (10)dingztoy′H你要尊重我。θh为了有效地利用综合特征,培训,他们应该保留原来山姆的标签以及增强的硬度。我们将生成器的目标公式化如下:J gen =Jrecon+λJ soft其中,Ti是合成硬度-aw是元组。所提出的框架可以应用于各种深度度量学习方法来提高其性能。对于度量学习中的特定损失J,训练度量的目标函数为:=c(Y, Y′)+λJΣ软 (Y,L)ΣJ度量=- -一种βeJgenJm- -一种β+ (1−eJgen)Jsyn=y∈Y′′||2+λ||2+ λy∈Yjsoft(y,l),(9)- -一种β=eJgenJ(T)+(1−eβJgen)J(T),(11)y∈Yl∈L其中β是预定义参数,Jm=J(T)是其中λ是平衡因子,y′=i(θi; z)是未改变的综合特征,y为硬度,w为综合特征原始样品上的损失J,Jsyn=J(T)是损失J在合成样本上,并且T表示合成元组′˜−β具有标签l的原点y,Y,Y和Y是对应的-在特征空间。我们使用eJgen作为平衡因子对于特征分布,c(Y,Y′)是重建成本为合成特征分配较小的权重,Gen在两个分布之间,Jsoft是softmax损失函数注意,Jgen仅用于训练解码器/生成器,并且对度量没有影响。总体目标函数由两部分组成合成否定词应尽可能地接近扩充否定词,这样才能构成一个具有我们所要求的硬度的元组。因此,我们利用重建损失J重建=||y−y′||2,以限制编码器&解码器映射靠近其自身的每个点。 softmax loss J soften-确保增强的合成物不改变原始标签。直接惩罚y和y之间的距离也可以实现这一点,但过于严格,不能保持硬度。或者,我们同时学习一个完全连接的层,其中y上的softmax损失,其中gra-nodes只更新该层中的参数。我们使用学习的softmax层来计算合成硬度-awareng ativeyt和原始标签l之间的softmaxlossjsoft(yt,l)。3.4. 硬度感知深度度量学习是高的,因为生成器没有被完全训练并且合成特征可能不具有现实意义。jm的目标是学习嵌入空间,使类间距离大,类内距离小。Jsyn利用合成的硬度感知样本来更有效地训练随着训练的进行,更难的元组被合成以保持学习的高效率。我们展示了我们的框架上的两个损失与不同的元组形成:[25]第28话,一个人的幸福,一个人的幸福。对于三重态损失[25],我们使用正对的距离作为参考距离,并使用我们的硬度感知合成生成负对J(T<$ (x,x+,x<$−))=[D(x,x+)−D(x,x<$−)+m]+,(12)其中,[·]+=max(·,0),并且m是max。对于N对损失[28],我们也使用正对作为参考距离,但生成所有对于(N+1)元组中的每个锚点,N−1个J(T<$({x,x+,x<$+}i))(13)我们提出了所提出的方法的框架,它主要由三部分组成,一个度量网络,1ΣN=log(1+Σ e xp(D(xi,x+)−D(xi,x<$+)。为了获得嵌入,Niji=1ji−78度量和生成器网络是同时训练的,没有任何辅助采样过程的中断,就像大多数硬负挖掘方法一样。增广器和生成器仅用于训练阶段,这不会对所得到的嵌入计算引入额外的工作量。0.70.64. 实验在本节中,我们进行了各种实验,以评估所提出的HDML在图像聚类和检索任务。我们进行了消融研究,以分析每个模块的有效性对于集群任务,我们采用NMI和F1作为性能指标。nor-0.50.40.30 2000 4000 6000 80001000012000迭代最大化互信息(NMI)定义为:聚类和地面真值标签的互信息及其熵的算术平均值F1是查准率和查全率的调和平均值。[30]详情请见。对于检索任务,我们采用Recall@Ks作为性能指标。它们由K个最近邻中至少存在一个正确检索的样本来确定。4.1. 数据集我们在零拍摄设置下评估了我们的方法,其中训练集和测试集包含没有交集的图像类。我们遵循[30,29,5]来执行训练/测试集分割。• CUB-200-2011数据集[36]包括200种鸟类的11,788张我们把前100个物种(5,864幅图像)用于训练,其余100个物种(5,924幅图像)用于测试。• Cars196数据集由196个汽车品牌和型号的16,185张图像组成我们将前98个模型(8,054张图像)用于训练,其余100个模型(8,131张图片)• 斯坦福在线产品数据集[30]由来自22,634个在线产品的120,053张图像组成,eBay.com.我们将前11,318个产品(59,551张图片)用于训练,其余11,316个产品(60,502张图片)用于测试。4.2. 实验设置我们在整个实验中使用了Tensorflow包。为了与以前的深度度量学习工作进行公平比较,我们使用GoogLeNet [31]架构作为CNN特征提取器(即,f)并添加了完全连接的层作为嵌入投影仪(即,g)。我们实现了生成器(即,i)具有增加的输出尺寸512和1,024的两个完全连接的层。我们将所有三个数据集的嵌入大小固定为512。对于训练,我们使用ImageNetILSVRC数据集[24]和所有其他数据集上预先训练的权重初始化CNN。图4.聚类任务中不同设置的比较。0.80.70.60.50.40.30.20.10 2000 4000 6000 80001000012000迭代图5.检索任务中不同设置的比较具有随机权重的全连接层。我们首先将图像的大小调整为256乘256,然后在227乘227处执行随机裁剪,并进行水平随机镜像以进行数据增强。我们通过对训练集进行5重交叉验证来我们将CNN的学习率设置为10−4,并将其乘以10,用于其他全连接层。对于三重态丢失,我们将批大小设置为120,对于N对丢失,我们将批大小设置为128 我们将平衡因子β和λ固定为104和0。5,并且对于三重态损失将α设置为7,对于N对损失将α设置为90。4.3. 结果和分析消融术研究:我们提出的消融研究所提出的方法。我们在具有N对丢失的Cars196数据集上进行了所有以下实验,但我们在三重丢失的情况下观察到类似的结果。图4和图5显示了聚类和检索任务中不同模型设置的学习曲线,包括基线模型、具有N对损失的拟议框架我们N对HDML(N对)HDML(N对)w/oJsoftHDML(N对),不带J重建NMI召回@1N-pa IRHDMHDML(N对)L(N对)L(N对)不带J软,不带J重建790.740.720.700.680.660.640.620.600 100 200 300 400500α0.800.780.760.740.720.700.680.66表1.与其他方法相比,CUB-200-2011数据集上的实验结果(%)。图6.在聚类和检索任务中使用不同拉取因子的收敛结果的比较表2.在Cars196数据集上的实验结果(%)与其他方法一致。0.80.70.60.50.40 2000 4000 6000 80001000012000迭代图7.在检索任务中使用不同拉动因素的比较。表3.斯坦福在线产品数据集上的实验结果(%)与其他方法相比。注意到softmax损失的缺失导致DRA-方法NMIF1R@1R@10R@100自动性能降低。 这是因为,对比82.410.137.553.971.0示例可能不保留标签信息,DDML83.410.742.157.873.7不一致的元组。 令人惊讶的是,解除87.225.362.680.991.2没有重建损失的方法仍然实现了更好的角87.826.567.983.292.2比基线的结果。 我们推测这是因为三重86.320.253.972.185.7softmax层本身学习区分现实合成三重硬86.722.157.875.388.1在这种情况下,虚假的。DAML(三联体)87.122.358.175.088.0图6和图7示出了不同拉力面的影响。HDML(三联体)87.222.558.575.588.3tors. 较大的α意味着我们每次都生成更难的元组N对87.927.166.482.992.1α=0意味着我们根本不应用硬合成。DAML(N对)89.432.468.483.592.3我们看到,随着α的增长,性能首先会增加HDML(N对)89.332.268.783.292.4在α=90时达到最佳效果,然后逐渐下降。折痕 这证明了元组的合成具有合适的和自适应硬度。 一个太轻的硬合成可能不会充分利用底层信息,而太强的硬合成可能会导致不一致的元组并破坏嵌入空间的结构。定量结果:我们将我们的模型与几种基线方法,包括传统的对比损耗[9]和三重态损耗[41],最近的DDML [41]和三重态损耗与半硬负采矿[25],最先进的提升结构[30],N对损耗[28]和角损耗[39],以及硬负发电机。NMI召回@1α= 90α= 150α= 500召回@1NMI召回@1方法NMIF1R@1R@2R@4R@8对比47.212.527.236.349.862.1DDML47.313.131.241.654.767.1解除56.422.646.959.871.281.5角61.030.253.665.075.383.7三重49.815.035.947.759.170.0三重硬53.417.940.652.364.275.0DAML(三联体)51.317.637.649.361.374.4HDML(三联体)55.121.943.655.867.778.3N对60.228.251.964.374.983.2DAML(N对)61.329.552.765.475.584.3方法NMIF1R@1R@2R@4R@8对比42.310.527.638.351.063.9DDML41.710.932.743.956.568.8解除57.825.159.970.479.687.0角62.431.871.380.787.091.8三重52.917.945.157.469.779.2α= 0三重硬55.722.453.265.474.383.6α= 20DAML(三联体)56.522.960.672.582.589.9HDML(三联体)59.427.261.072.680.788.5N对62.731.868.978.985.890.9DAML(N对)66.036.475.183.889.793.5HDML(N对)69.741.679.187.192.195.580图8. Barnes-Hut t-SNE可视化[33]在CUB-200-2011的测试分割上提出的HDML(N对)方法,其中我们放大了几个区域以获得更好的视图。每个图像边界的颜色代表类别。(放大后效果最佳。)计算方法DAML [5]。如前所述,我们将所提出的框架用于三重态损失和N对损失。我们使用相同的预训练CNN模型评估了上述所有方法,以进行公平比较。表1、2和3分别显示了CUB-200-2011、Cars 196和Stanford Online Products数据集的定量结果。红色数字表示最佳结果,粗体数字表示我们的方法比没有HDML的相关方法我们观察到我们提出的框架可以在这两个任务中的所有三个数据集上实现非常有竞争力的性能。与原始的三重态损失和N对损失相比,我们的框架可以在相当大的范围内进一步提高它们的性能。这证明了所提出的硬度感知合成策略的有效性。与其他两个数据集相比,Stanford Online Products数据集的性能改进相对较小我们认为这种差异来自于训练集的大小。我们提出的框架生成具有合适和自适应硬度的合成样本,与传统的采样策略相比,它可以从有限的训练集中利用更多的信息。这种优势在CUB-200-2011和Cars 196等小型数据集上变得更加明显。定性结果:图8显示了Barnes-Hut t-SNE可视化[33]使用提出的HDML(N对)方法学习嵌入。我们放大几个区域以获得更好的视图,其中每个图像边界上的颜色表示类别。的测试拆分CUB-200-2011数据集包含来自100个不同物种的5,924张鸟类图像两个物种之间的视觉差异往往非常微妙,使人类难以区分。我们观察到,尽管存在细微的类间差异和较大的类内变化,例如照明,背景,视点和姿势,但我们的方法仍然能够对相似的物种进行分组,这直观地验证了所提出的HDML框架的有效性5. 结论在本文中,我们提出了一个用于深度度量学习的硬度感知合成框架。我们提出的HDML框架通过自适应地生成硬度感知和标签保留合成作为训练数据的补充来提高原始metric学习损失我们已经证明了所提出的框架的有效性在三个广泛使用的数据集在聚类和检索任务。在未来,将我们的框架应用于更一般的数据增强问题是很有趣的,它可以用来改进度量学习之外的各种确认这 项 工 作 得 到 了 国 家 自 然 科 学 基 金 61672306 、U1813218、61822603、U1713214和61572271的部分资助81引用[1] MiguelABautista,ArtsiomSanako Yeu,andBjo? rnOm-mer.使用偏序集的深度无监督相似性学习。在CVPR中,第1923-1932页,2017年。2[2] Weihua Chen , Xiaotang Chen , Jianguo Zhang , andKaiqi Huang.除了三重态损失:一个深度的四元组网络用于人的重新识别。在CVPR,第1320一、二[3] De Cheng , Yihong Gong , Sanping Zhou , JinjunWang,and Nanning Zheng.基于改进三重丢失函数的多通道部件cnn的人员再识别。在CVPR,第1335-1344页,2016年。2[4] Jason V Davis,Brian Kulis,Prateek Jain,Suvrit Sra,and Inderjit S Dhillon.信息理论度量学习。ICML,第209-216页,2007年。2[5] 段跃奇,郑文钊,林旭东,卢吉文,周杰。深度对抗度量学习。在CVPR中,第2780-2789页,2018年。一、二、六、八[6] 安德里亚·弗罗姆,约拉姆·辛格,费莎,和吉坦德拉·马力.学习全局一致的局部距离函数用于基于形状的图像检索和分类。ICCV,第1-8页,2007年。2[7] Weifeng Ge , Weilin Huang , Dengke Dong , andMatthew R Scott.深度度量学习与分层三元组丢失。在ECCV,第269-285页,2018年。2[8] Amir Globerson和Sam T Roweis。通过折叠类进行度量学习。NIPS,第451-458页,2006年。2[9] Raia Hadsell,Sumit Chopra,and Yann LeCun.通过学习一个不变映射来降低维数.在CVPR,第1735-1742页,2006中。二、七[10] 本·哈伍德,维贾伊·库马尔B G,古斯塔沃·库塞罗,伊恩·里德和汤姆·德拉蒙德。深度度量学习的智能挖掘。在ICCV,第2840-2848页,2017年。2[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。1[12] Junlin Hu,Jiwen Lu,and Yap-Peng Tan.用于野外人脸验证的判别式在CVPR中,第1875-1882页,2014年。2[13] 陈煌,陈昌来,唐晓鸥。局部相似性感知深度特征嵌入。在NIPS,第1262-1270页,2016年。2[14] Hyo Jin Kim,Enrique Dunn,and Jan-Michael Frahm.用于图像地理定位的学习上下文特征重加权。在CVPR中,第3251-3260页,2017年。1[15] Wonsik Kim、Bhavya Goyal、Kunal Chawla、JungminLee和Keunjoo Kwon。深度度量学习的基于注意力的集成参见ECCV,第760-777页,2018年。2[16] Jonathan Krause,Michael Stark,Jia Deng,and Li Fei-Fei.用于细粒度分类的3d对象表示。ICCVW,第554-561页,2013年。二、六[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NIPS,第1097-1105页,2012中。1[18] 马克·T·劳,尼古拉斯·托米,马修·科德。四元组图像相似性学习。在ICCV,第249-256页,2013年。2[19] Marc T Law,Raquel Urtasun和Richard S Zemel。深度谱聚类学习。在ICML,第1985-1994页,2017年。1[20] Xudong Lin,Yueqi Duan,Qiyuan Dong,Jiwen Lu,and Jie Zhou.深度变分度量学习参见ECCV,第689-704页,2018年。2[21] Tomasz Malisiewicz , Abhinav Gupta , and Alexei AEfros.用于对象检测及其他的范例svms的集成载于ICCV,第89-96页,2011年。2[22] 放大图片创作者:Thomas K. Le- ung,Sergey Ioffe,and Saurabh Singh.没有大惊小怪的距离- ric学习使用代理。在ICCV,第360-368页,2017年。2[23] Michael Opitz、Georg Waltner、Horst Possegger和HorstBischof。Bier -鲁棒地提升独立嵌入。在ICCV,第5189-5198页,2017年。一、二[24] OlgaRussakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein,et al.图像网大规模视觉识别挑战。IJCV,115(3):211-252,2015. 6[25] FlorianSchroffDmitryKalenichenkoJamesPhilbinFacenet:用于人脸识别和聚类的统一嵌入在CVPR,第815-823页,2015年。二三五七[26] Hailin Shi,Yang Yang,Xiangyu Zhu,Shengcai Liao,Zhen Lei,Weishi Zheng,and Stan Z Li.嵌入深度度量用于人员重新识别:针对大变化的研究在ECCV,第732-748页,2016中。1[27] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv , abs/1409.1556 ,2014。1[28] 孙奇赫改进的具有多类n对损失目标的深度度量学习。在NIPS,第1857二三五七[29] Hyun Oh Song、Stefanie Jegelka、Vivek Rathod和KevinMurphy。通过设施位置进行深度度量学习在CVPR中,第2206-2214页二、六[30] Hyun Oh Song , Yu Xiang , Stefanie Jegelka 和 SilvioSavarese。通过提升结构化特征嵌入进行深度度量学习。在CVPR中,第4004-4012页,2016年。一、二、六、七[31] Christian Szegedy , Wei Liu , Yangqing Jia , PierreSermanet,Scott E Reed,Dragomir Anguelov,DumitruErhan,Vincent Vanhoucke,and Andrew Rabinovich.更深的回旋。在CVPR,第1-9页,2015年。1、6[32] 叶夫根尼娅·乌斯季诺娃和维克多·伦皮茨基。使用直方图损失学习深度嵌入在NIPS,第41702[33] 劳伦斯·范德马滕。使用树型演算法加速t-sne。JMLR,15(1):3221-3245,2014. 8[34] Nam Vo Nathan Jacobs James Hays 深 度 学 习 时 代 的im2gps在ICCV,第2640-2649页,2017年。1[35] Nam N Vo和James Hays。使用头顶影像定位和定向街景。在ECCV,第494-509页,2016年。1[36] Catherine Wah,Steve Branson,Peter Welinder,PietroPerona,and Serge J Belongie.加州理工-加州大学圣地亚哥分校鸟类-200-822011年数据集。技术报告CNS-TR-2011-001,加利福尼亚理工学院,2011年。二、六[37] Faqiang Wang , Wangmeng Zuo , Liang Lin , DavidZhang,and Lei Zhang.联合学习的单图像和跨图像表示的人重新识别。在CVPR,第1288-1296页1[38] Jiang Wang , Yang Song , Thomas Leung , ChuckRosenberg,Jingbin Wang,James Philbin,Bo Chen,and Ying Wu.通过深度排名学习细粒度
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功