没有合适的资源?快使用搜索试试~ 我知道了~
9547深度Meta度量学习陈光毅1,2,3,张天仁1,2,3,陆继文1,2,3,周杰1,2,31清华大学自动化系2智能技术与系统国家重点实验室3北京国家信息科学技术研究中心{chen-gy16,ztr15}@ mails.tsinghua.edu.cn;{lujiwen,jzhou}@tsinghua.edu.cn摘要在本文中,我们提出了一种用于视觉识别的深度Meta度量学习(D- MML)方法。与大多数现有的深度度量学习方法通过总体目标来制定学习过程不同,我们的DMML以Meta方式制定度量学习,并证明了softmax和三重丢失在元空间中是一致的。具体来说,我们从原始训练集中抽取一些子集,并在不同的子集上学习度量。在每个采样子任务中,我们也将训练数据划分为支持集作为查询集,并学习基于集合的距离,基于样本的一个,以验证来自多个支持细胞的查询细胞。此外,我们引入硬样本挖掘的集合为基础的距离,以鼓励类内的紧凑性。三种视觉识别的实验结果训练过程测试程序申请,包括重新识别身份、车辆重新登记、识别和人脸验证表明,所提出的DMML方法优于大多数现有的方法。11. 介绍距离度量学习在视觉分析中有着广泛的应用,其目的是学习一个相似样本间距离较近而不相似样本间距离较远的嵌入空间。传统度量学习方法通过线性马氏距离度量学习嵌入空间[13,25,57]。由于线性度量学习方法通常受到样本的非线性相关性的影响,因此已经提出了深度度量学习方法来通过深度神经网络学习判别非线性嵌入[36,44,55]。深度度量学习最重要的应用之一是视觉识别,它试图匹配来自大型图库集的探针样本,例如人员重新识别[4,7],细粒度识别[9,63],以及*通讯作者1代码:https://github.com/CHENGY12/DMML图1.全局优化方法和基于元的方法的区别。上半部分显示,全局优化方法使用所有训练样本学习分类器,这些样本通常过度拟合训练数据的下半部分显示了基于元的方法在采样的多个子集上学习元度量(Best颜色显示)人脸识别[41,58]。传统的深度度量学习方法应用对比损失[8,15]或三元组损失[3,57]来学习判别特征空间以测量视觉样本的相似性。最近,已经提出了N对损失[44],以在每次更新中利用整个训练批次。然而,这些方法很难解释度量从训练数据集到测试数据集的泛化能力。如图1所示,我们以人员重新识别为例。假设训练集中的大多数人都穿着彩色T恤和类似的普通裤子,而其中一些人穿着鲜艳的裤子,全局优化方法(例如,softmax)倾向于仅从彩色T恤中识别人,而忽略了裤子的潜在信息。对于具有相似T恤和不同裤子的查询样本,它们可能由于过度拟合训练集而失败。相反,如果没有...基于元的方法全局优化方法9548由于训练集上的全局目标有限,从原任务中抽取的子任务可能有利于学习潜在的可传递信息。、在本文中,我们提出了一种深度Meta度量学习(D-MML)方法,该方法以元方式制定度量学习过程,并学习基于集合的距离,而不是基于样本的距离。具体来说,我们从原始训练集中抽取多个子集,并在这些子集上定义任务分布。假设看不见的测试任务也满足这种分布,我们的目标是在不同的子集上学习一个通用的度量,称为Meta度量,以便很好地转移到从任务分布中采样的任务。 具体来说,在每一集中,我们将一个子集作为新任务进行采样,并将训练数据分为支持集和查询集。我们将每个类中的支持样本定义为一个“元单元”,并通过基于集合的距离优化模型,使查询样本与正元单元匹配。此外,我们引入了硬样本挖掘过程和边缘策略,提出了基于集合的距离,明确鼓励类内紧凑性和类间可分性。在实验中,我们证明了我们的DMML方法在一些视觉识别问题上的优越性,以基线深度度量学习和分类方法。具体来说,与基线和最先进的方法相比,我们提高了VeRi-776 [31]数据集上车辆重新识别任务的性能。S.我们在Market-1501 [65]和DukeMTMC-reID [37]数据集上的人员重新识别性能以及在Labeled Faces in theWild(LFW)[23]和YouTube Faces(YTF)[59]数据库上的人脸验证准确性方面获得了一致的改进。2. 相关工作度量学习:度量学习的目的是学习一个距离函数来度量一对样本的相似性,它在许多视觉识别问题上取得了巨大的成功,包括人的重新识别,人脸验证和车辆重新识别。早期的度量学习方法学习线性马氏度量用于相似性度量[14,25,57]。例如,LMNN [57]试图确保每个点的邻居总是属于同一个类,而来自不同类的例子则被很大的间隔隔开。为了学习样本之间的非线性关系,通常在度量学习方法中采用核技巧[11,50,61]。最近,几种深度度量学习方法[7,17,22,33,36,41,44,46,51,55]已经提出了对数据点的非线性进行建模,其将特征学习和度量学习统一到联合学习框架中。就训练过程中的输入结构而言,深度度量学习方法主要可以分为三大类:对比损失[8,15]与成对输入,三重输入的三重损失[3,57],以及N对损失[44]与批量输入。对比损失以样本对为输入,学习缩短正样本对的距离,分离负样本。三重损失保留了三重数据点之间的等级关系和余量。最近,Sohn [44]通过使用基于softmax的目标在一个批次中同时推开多个否定示例,解决了传统三元组丢失的缓慢收敛问题。此外,许多方法[47,54]引入了联合识别损失(例如,softmax损失),以增加类间分离性并减少类内变化。总的来说,深度度量学习方法取得了很大的成功,具有很强的区分能力。然而,这些方法很难解释学习的度量的泛化能力,忽略了类内样本之间的关系。在本文中,我们从Meta的角度制定度量学习,这带来了更大的可解释性。Meta学习:Meta学习的目标是通过从一组辅助任务中提取一些可转移的知识,使基本学习算法能够有效地适应新任务。例如,几种Meta学习方法[1,5,19]将梯度更新解释为参数和可学习函数,而不是固定的ad-hoc例程。另一个有前途的方向是由MAM提出的- L [12],它学习学习器的初始参数以进行快速适应。一些最近的作品[24,35,39]保留了记忆增强模型的知识(例如,RNN或外部存储器的隐藏激活),并访问与新遇到的任务相关联的重要的和先前看不见的信息。与我们最相关的方法是匹配网络[52]及其后来的发展[40,43],它学习一组具有先前任务的分类器,并通过加权这些最近邻分类器来解决少数学习问题。与匹配网络和原型网络[43]不同,其目标是通过支持集中的邻居将少镜头样本映射到正确的类中,我们专注于视觉识别问题的更一般的度量学习,而不是少镜头学习。此外,我们改进了基于集合的距离的Meta公式与硬样本挖掘策略,以加快学习过程。3. 方法3.1. 深度Meta度量学习总体配方:大多数全局优化学习算法优化适当的目标函数L以利用训练数据点的单个整体观察来学习深度网络的参数,θ=arg minL(θ;X,Y),(1)θ其中X表示所有训练数据点,Y={1,…,N}是对应的标签。9549QJ..我JJJJ在我们的DMML方法中,我们不是考虑单个目标与训练数据的整体观察,我们制定了一个Meta的方式度量学习,这更好地解释了学习过程和泛化能力的度量。我们将单个训练目标分解为多个子任务,并学习适用于所有子任务的Meta度量。在我们的假设中,测试任务和所有子任务是从任务分布p(T)中采样的实例。我们制定的目标函数的建议D-MML方法为:θ=arg minETkp(T)Lk(θ; Xk, Yk),(2)θ其中Lk(θ;Xk,Yk)表示采样子任务Tk的目标函数。具体来说,对于给定的N类训练集,我们从原始任务中随机抽取M(M≤N)个类来构建一个新任务。类似于 Meta 学 习 的 形 式 , 我 们 随 机 抽 取 支 持 集 S={sm|i=1,…n m}和查询集Q={q m|I =图2.DMML方法中的边际策略示意图对于查询样本,我们学习一个度量,该度量至少保持到正元单元和负元单元的距离之间的余量。(Best颜色显示)对于查询集合Q中的每个查询样本,我们优化模型以最小化其到查询集合Q的元单元的距离我是我1、... n m},其中m=1,.,M表示不同的类. 为了简单起见,我们设置了num-不同类别中的支持样本和查询样本的BER相等,即,n m=n s和n m=n q。在每一集里,我们同一类(即,积极元细胞)并推开其他元细胞消极的。考虑M个元单元{M1,...,MM}和一个查询样本qm′,只有{Mm, m=m′}是正元胞,而其他为负元胞。S Q学习Meta度量以正确验证查询样本来自Q,支持样本在S中。 总的制剂为了保持sam的每个三元组之间的等级关系-因此,我们介绍常规的三重态损耗如下:我们的DMML方法是:ΣL(q)=.m′−dm+τθ=arg minEθTkp(T)ΣES,QTkΣLk(θ;Q,S)ΣΣ.(三)三Jm/=m′ Max0,djj(六)其中m=m′和m m′表示正和负学习在一个事件:要学习Meta度量,在每个事件中,我们假设同一类的所有支持数据点都位于一个流形中,该流形被定义为样本对,τ是限制间隙正负对之间的关系。然后,我们应用连续指数函数来代替max(0,x),并使用. ΣnsMm. ΣnsM m一个对数函数来限制范围[20],导出我们的m优化目标,其与(6)等价:M=i=1αif(si).i=1αi =1,0≤αi ≤1,.ΣL(q)= log 1+′e(dm−dm+τ)(四)其中系数αm由[0,1]限定,以确保EPSJJ JM m′′元细胞的凸性,并且f(·)表示嵌入函数,其由深度神经网络实现。=−log′−dme−dmΣ.−dm+τ(七)网络参数θ与传统的度量学习方法优化样本对的度量不同,我们学习基于集合的距离,测量查询样本和元细胞之间的距离。基于集合的度量考虑元单元之间的类内约束,以学习区分性距离度量。具体来说,我们将查询样本和元单元之间的距离定义为:ej+ejM m′在实践中,我们用−dn=min(−dm+τ,0)的约束来限制边缘τ的尺度,这确保了距离大于零。如图2所示,我们期望查询样本和正元单元之间的距离比嵌入空间中的其他负元单元小一美国dm=D(qm,Mm)= αmd.Σf(qm′),f(sm) 、注意,(7)也是标准的近似值softmax损失,其中查询样本j j ii=1(5)qm′和元单元Mm表示用标签m预测qj的概率。它表明,分类损失其中qm′是类m ′中的第j个样本,Mm表示具有标签m的元单元,并且d(·,·)表示查询样本和支持样本之间的距离。和基于秩的验证损失在Meta空间中几乎是相同的,其中DMML中的元单元充当替代分类标签。有了这座桥,保证金M2M1年q1M3M4Σ9550n我J′2C JJ最小值df(q ),f(s)算法1:中心支撑距离的DMML关系被写为:要求:训练图像集,类数训练集N,每个样本的类数,D(qm′,Mm)=d. f(qm′),cm,(九)episodeM(M≤N),支持实例的数量其中样本的中心点通过平均值获得每个类ns,每个类的查询实例数nq,边缘参数τ,最大发作次数T。年龄合并,cm=1SΣnsi=1 f(s m)。然而,在中心确保:嵌入函数f(·)的参数θ。一曰: 初始化θ。第二章: 对于事件=1,2,···,T做3:从N中随机抽取M个类索引。4:随机抽取每个类的支持集和查询集。5:使用(5)计算每个查询样本与所有元单元之间的距离。6:使用(7)和(8)优化θ7:结束第八章: 返回θ。度量学习损失的技术可以很容易地转化为分类损失,反之亦然。许多基于softmax的方法[29,53]旨在学习分类边界,并为嵌入空间的判别学习留出一定的余地,这鼓励了类内紧凑性和类间可分性。在这里,对于Meta空间,我们自然地提出了一个加性负余量softmax损失,它在负样本上添加余量以优化距离度量,其中不同标记的输入保持较大的距离余量,并且不会威胁到对支撑间距、硬试样和易试样进行了处理同样地,这违反了硬样品开采的原理。因此,我们提出了一种在点到集合距离中寻找硬样本的硬挖掘距离,它从每个元单元中的查询样本中选择最远的样本计算类内距离,同时选择最近的类间距离。在度量学习的优化过程中,硬样本会用极少数数据产生大量梯度。因此,在许多度量学习算法中,否定样本的硬样本挖掘被认为是提高收敛速度和验证性能的重要组成部分。传统的硬样本挖掘算法逐渐选择触发错误警报的负样本进行自举。然而,在不同的元细胞之间的负数据挖掘是不必要的DMM-L,因为我们已经考虑了查询样本和目标中的所有元细胞之间的距离。相反,我们在基于集合的距离内添加硬样本挖掘过程,以减少类内方差。具体地,我们用硬挖掘策略将(5)中的查询样本和元单元之间的距离重新公式化为:。 .m′m ′最大值df(qj ), f(si) m=m互相“侵犯”对方的邻居 与L-D h(q m,Mm)=i. .ΣΣsoftmax [29]、A-softmax [28]和AM-softmax [53],我们的j基于边距的softmax更简单和直观。′M mij im′/=m(十)给定每个事件的损失函数,我们优化在任务分布和支持集、查询集随机分裂下的期望目标。建议的标准DMML方法的最终公式为:硬样本挖掘过程通过寻找Meta单元中的离群值并惩罚它们来学习鲁棒的嵌入空间,从而增强了DMML的区分能力。如图3所示,中心支撑距离推-θ= arg minETp(T)ΣES,QTΣΣL(qm′)。同时删除负元胞中的所有点硬采距以硬采距为主θkkqm′∈Qj(8)每个元单元中的PLE,其倾向于学习更紧凑的度量。在第4.1节中,我们将详细讨论和分析-为了更清楚地解释,我们提供了算法1来详细说明DMML的过程。硬样本挖掘:在我们的DMML方法中,我们提出使用基于集合的距离来代替基于样本的距离,用于从多个支持单元中验证查询单元,其在(5)中被公式化。然而,这个一般定义很难直接优化。在本小节中,我们提出了两种可选的基于集合的距离:中心支撑距离和硬采距离。中心支持距离是基于基线集的距离,其使用元单元中样本的中心点来表示整个元单元,并计算点到点距离作为替代距离[43]。这两个距离的定义。3.2. 实现细节我们使用PyTorch来实现我们的方法。 我们应用平方欧几里德距离d(f ,f′)=f−f′<$2作为(5)中的距离度量,并应用以下等式:S.为了证明所提出的方法对不同应用的推广能力,我们在实验中固定了DMML的所有超参数具体地,我们将每个子任务的类数和每个元单元中的支持样本数分别设置为M=32和ns= 5,并且固定边缘参数τ = 0。4在我们的基于负边际的目标函数(7)中。 在训练中,我们EPS9551之前M2M2后年q1年q1M3M3MM11之前M2之后M2年q1年q1M3M3M1M1中心支撑距离硬采距离图3. DMML中的中心支撑距离和硬采距离。左:中心支持距离通过元单元中所有支持样本的平均值计算中心点,并计算中心点和查询样本之间的点对点距离右:硬挖掘距离自适应地选择离每个负元单元最近的支持点和离正元单元最远的点应用Adam Optimizer并将基本学习率设置为0.0002。在训练阶段的前半部分,学习率保持不变,然后开始呈指数级下降,最终下降到基础学习率的0.005倍。此外,我们应用了0.0001的L2权重衰减。第4节介绍了每个应用程序不同规格的详细实现设置。4. 实验在本节中,我们将在三个视觉识别任务上评估所提出的DMML方法:人员再识别、车辆再识别和面部验证。与图像分类问题不同,图像分类问题旨在将查询样本识别为训练过程中出现的类别,视觉识别中的查询样本对于模型是不可见的。因此,如何将训练好的模型转换到测试数据集而不遭受过拟合是视觉识别的瓶颈。我们将我们的方法与丰富的基线方法和其他最先进的方法进行了比较,以证明我们的方法的有效性和高泛化能力。此外,我们还进行了烧蚀实验和参数分析,以研究DMML的鲁棒性.4.1. 人员重新识别数据集:Person ReID任务旨在从具有许多负面示例的图库中识别相同身份的pedes-trian图像。在我们的实验中,我们将我们的方法应用于两个广泛使用的数据集:Market-1501 [65]和DukeMTMC-reID [38]。 Market-1,501数据集由6个摄像机检测到的1,501个身份的32,668张图像组成。整个数据集被划分为包含751个身份的12,968个图像的训练集和包含750个身份的3,368个查询图像和19,732个图库图像的测试集。DukeMTMC-reID数据集由8台摄像机拍摄的1,404人的36,411张图像组成。其训练集包括702人的16,522幅图像,其测试集包括其余702人,包括2,228幅查询图像和17,661个图库图像。实验设置:在个人ReID实验中,我们采用ResNet-50 [16]作为特征表示模型的基本网络架构,该模型在ImageNet [10]上进行了预训练,以实现快速收敛。网络中的最后一次空间下采样操作被移除以获得高分辨率。我们将输入图像的大小调整为256×128,并采用随机水平缩放和随机擦除[70]来进行数据增强。此外,为了进一步提高系统的性能,我们在骨干网中引入了部分模型.具体地说,我们提出了一个基于部分的DMML,并增加了一个部分分支在ResConv41之后,剩余块由代表不同身体区域的3个垂直部分组成我们分别以软最大损耗和DMML目标来监督部分分支网络和基本骨干网络输入图像被调整为384×128,以获得足够的零件模型分辨率在电子估价阶段有两种可用的协议,单查询和多查询,依赖查询身份的图像的数量。在我们的实验中,结果都是在单查询模式下获得的。我们应用累积匹配特征(CMC)曲线和平均精度(mAP)作为评价指标。CMC曲线记录了前k等级内的真实匹配,而mAP平衡了精度和recal。l评价该方法的总体性能。我们遵循[65]通过删除与查询样本具有相同相机视图的图库样本来计算CMC分数,然后计算所有查询的平均top-k准确度。我们报告我们的方法在秩-1,秩-5和秩-10的CMC精度。此外,为了公平和简洁,我们在实验中没有采用重新排序方法[69],这可以大大提高人员重新识别方法的性能,特别是对于mAP。与基线方法的比较:我们将我们的方法与几种基线方法进行了比较,这些方法包括softmax损失[18],对比损失[8,15],三重损失[3,57]以及最近的N对损失 [44] , 提 升 结 构 化 嵌 入 [36] 和 代 理 NCA [34] 。Softmax损失广泛9552表1.与Market- 1501数据集上的最新方法进行比较。方法基础模型R-1 R-5 mAPSVDNet [48]ResNet-5082.392.362.1[第68话]PAN*82.893.563.4DLE [66]ResNet-5079.5-59.9TriNet [17]ResNet-5084.994.269.1CamStyle [71]ResNet-5088.1-68.7[71]第七十一话ResNet-5087.7-68.9[64]第六十四话MobileNet89.3-70.5JLML [26]ResNet-39*85.1-65.5DFL [6]inception-V388.9-73.1MGCAM [45]ResNet-5083.8-74.3美国有线电视新闻网[27]HA-CNN*91.2-75.7[62]第六十二话ResNet-5091.897.179.3PCB [49]ResNet-5092.397.277.4DMMLResNet-5092.497.381.0DMML+部件ResNet-5093.597.681.6由于其简单性和概率解释而被许多CNN采用。对比损失是传统深度度量学习方法的基本形式,它将样本对作为输入并进行学习以进行验证。Triplet loss ad学习了一个大的边缘度量,它增强了类间的可分性。此外,在提升的结构化嵌入中,每个批次中的所有阴性样本针对每个阳性对被合并。N-pair loss通过对多个负实例进行采样并计算基于softmax的相似性损失来改进传统的度量学习方法。Proxy-NCA引入了可训练的相似和不相似代理,这些代理近似原始数据点,并在训练期间进行优化。同时,中心损失[58]作为辅助损失,以扩大人脸识别和人员ReID任务的类间距离在我们的实验中,为了公平比较,我们对所有方法采用相同的网络架构。我们在两个数据集上比较了我们的DMML方法和其他基线,如表3所示。我们的DMML方法在秩1准确性和mAP性能上都以较大的优势击败了所有基线方法,这表明DMML与其他深度度量学习或基于softmax的方法相比具有优越性。具体而言,与softmax + center loss和提升结构化嵌入方法相比,我们在rank-1和mAP性能上分别获得了1.2%和2.6%的改进。与此同时,我们的DMML方法优于N对损失分别为3.0%和3.6%。与现有技术方法的比较:表1说明了我们的方法的网络架构,CMC精度和mAP得分以及Market-1501数据集上的最新技术。表中的 * 表示网络单独设计。顶级组表2.与DukeMTMC-reID数据集上的最新方法进行比较。方法基础模型R-1 mAPGAN [67]ResNet-5067.747.1[第68话]PAN*71.651.5SVDNet [48]ResNet-5076.756.8DFL [6]inception-V379.260.6CamStyle [71]ResNet-5075.353.5[71]第七十一话ResNet-5078.556.9美国有线电视新闻网[27]HA-CNN*80.563.8PCB [49]ResNet-5081.866.1DMMLResNet-5084.370.2DMML+部件ResNet-5085.973.7是以前的作品,利用输入- s的全球功能作为我们的基本DMML方法。底部组显示使用零件特征的工作结果。如表1所示,我们的基本DMML方法优于大多数现有方法。例如,DLE [66],SVD- Net [48]和TriNet [17]是与我们最相似的方法,它们学习了没有部分特征的人物图像的嵌入,并使用ResNet实现模型50. 我们的DMML获得了较大幅度的改善,这些方法由于元知识的泛化能力更高。此外,通过将DMML与部件模型相结合,我们进一步提高了我们的方法的性能,在Market- 1501上实现了rank-1/mAP = 93.5%/81.6%。表2总结了DukeMTMC-reID数据集上所提出的方法和其他最新技术的性能。我们的DMML方法及其基于部分的变体 显 著 优 于 大 多 数 现 有 方 法 , 达 到 rank-1/mAP =85.9%/73.7%。消融术研究:为了验证DMML中组件的有效性,我们在Market-1501数据集上进行了消融实验,以进行人员重新识别。首先,为了研究所设计的硬样品开采方法的贡献,我们比较了中心支撑距离和硬开采距离的D-MML方法的性能。然后,我们比较了我们方法的三种变体与不同的保证金策略:在目标函数中没有边际,在正样本上有附加边际[53],以及在负样本上有附加边际的建议边际策略。表4总结了我们的DMML方法的不同变体的性能。1) 硬样本挖掘:表4中关于中心支撑距离和硬采矿距离的性能证明了所提议的硬样品采矿过程的显著改进。通过寻找和惩罚每个元单元中的离群值,我们的方法倾向于减少类内方差并学习有区别的特征嵌入。从数量上看,硬采距DMML的1级精度和mAP精度分别为4.3%和10.79553数据集Market-1501dukemtmc-ReidVeRi-776LFW YTF表3.在Market-1501、DukeMTMC-reID、VeRi-776、LFW和YTF数据集上与基线方法进行比较评估指标R-1R-5R-10地图R-1R-5R-10地图R-1R-5地图VRFVRF对比75.888.692.458.968.181.485.149.567.485.049.889.683.4三重89.696.297.676.280.790.793.165.490.095.268.191.084.2N对89.496.197.677.482.091.994.468.388.695.165.190.884.6提升结构90.596.898.078.482.691.293.868.090.896.169.391.485.6代理-NCA88.095.497.171.077.988.291.658.186.793.356.488.181.4Softmax86.794.596.670.277.087.791.759.687.494.657.889.682.2Softmax +中心损耗91.296.597.977.682.391.793.666.390.895.666.091.384.4DMML92.497.398.381.084.392.694.670.291.296.370.191.885.3表4.在Market-1501数据集上对硬挖掘距离和利润策略进行消融实验的结果方法R-1R-5R-10地图DMML w/o hard mining87.195.697.570.3DMML(不含边距)91.797.198.180.8DMML +AM [53]91.996.998.280.7DMML(τ = 0. 四、92.497.398.381.0DMML(τ = 0.(二)92.097.298.280.6DMML(τ = 0. 六、91.796.998.380.9score,分别。2) 利润策略:与无边界参数的普通DMML相比,在阴性样本上添加边界可提高0.7%的rank-1准确率。它展示了所提出的边际策略的贡献,鼓励类间可分性与约束的一个- mong的三元组的数据点。我们评估了阳性样本的附加裕度[53],与我们的裕度相同。结果表明,与正样本上的负界相比,负样本上的正界具有0.5%的rank-1改进,这表明所提出的正界更有效。参数分析:我们还分析了一些重要参数的影响,并证明了所提出的DMML方法的鲁棒性。我们在Market-1501数据集上进行了三种不同参数的参数分析实验,包括间隔尺度τ、每个子任务中的类数M和每个元单元中的支持样本数ns。表4的底部显示了不同裕度设置的结果,而表5总结了不同规模的生成子任务和支持样本数量的性能比较。1) 保证金比例:实验表明,DMML在不同的边缘尺度下都具有较好的鲁棒性。如表4的底部所示,性能随着裕度尺度的变化而平滑地变化。实验上,当裕度参数τ = 0时,我们实现了最佳性能。4,因此将该设置应用于所有实验。当保证金设置波动,我们的DMML方法仍然保持与最佳设置的秩-1和mAP分数的可比性。2) 每个子任务中的类数:如表5的顶部组所示,我们比较了使用16类、32类和64类子任务的实验结果,这些子任务在元单元中具有相同的支持样本,并且随着子任务规模的增加获得了改进的性能。当类数较少时,类数的增加带来相对较大的性能提升-t.然而,当子任务的规模足以估计任务的分布时,改进变得缓慢。例如,32级和64级子任务的性能之间的差异很小。由于上述观察结果和有限的计算资源,我们没有在大量的类上进行实验。3) 元单元中的支持样本的数量表5的底部示出了每个元单元中不同数量的支持样本的影响在32类子任务的设置下,比较了1个支持样本、3个支持样本和5个支持样本从表5中我们可以观察到,随着支撑样品的增加,性能相应地提高。为了平衡子任务类和支持样本的数量,我们最终设置M=32和ns= 5分别在我们的DMML方法的所有实验。 所有除了M=64或ns=7的设置之外,使用2个 GTX 1080TiGPU进行实验。4.2. 车辆重新识别数据集:车辆ReID的目标是从大型图库数据库中检索同一车辆的所有图像。我们在一个大规模数据集上评估了我们的方法:VeRi- 776 [30].该数据集包含776辆汽车的50,000多张图像,由20个监控摄像头拍摄。该数据集包含9种车型和10种颜色,其中576辆用于训练,其余200辆用于测试。VeRi-776数据集总共包含37,778张训练图像、1,678张查询图像和11,579张图库图像。实验设置:与我们的人Reid相似9554表5.在Market-1501数据集上具有不同数量的选定类M和支持样本ns的结果。MnsR-1R-5R-10地图16591.097.198.279.532592.497.398.381.064592.297.498.381.232190.096.297.776.932391.597.398.280.432792.797.198.281.6表6.与VeRi-776数据集上的最新方法进行比较。方法基础模型R-1 R-5 mAP事实[30]GoogLeNet59.775.319.9FACT+ST [31]SNN*61.478.927.8OIFE+ST [56]CNN*68.389.751.4CNN+LSTM [42]ResNet-5083.590.058.3VAMI+ST [72]F-Net*85.991.861.3STP [60]ResNet-5086.394.457.4RAM [32]RAM*88.694.061.5DMMLResNet-5096.3 70.1在实验设置中,我们应用了在ImageNet上预训练的ResNet-50骨干用于嵌入架构,输入的224×224图像通过随机水平扩展来增强。为了公平比较,我们遵循[30]中的评估协议,该协议在单查询模式下使用CMC曲线和mAP评估方法。结果:我们在表3中总结了我们的方法和其他基线方法之间的比较。在这个数据集上,DMML达到rank-1 =91.2%和mAP = 70.1%,优于所有基线。此外,我们还比较了建议的DMML方法与其他国家的最先进的方法,这也证明了我们的方法的有效性。如表6所示,DMML在rank-1(+2.6%)和mAP(+8.6%)中均大幅超过最佳先验方法[32]。4.3. 面部验证数据集:人脸验证任务旨在确定给定的两张人脸图像是否来自同一身份。对于这项任务,我们在一个简化的VG-GFace 2数据库上训练了我们的模型[2],并在另外两个数据库上评估了验证性能:[23]在野外的标签脸(LFW)[23]和YouTube的脸(YTF)[59]。VGGFace2数据库包括一个训练集,包含8,631个身份的3,141,890张图像,以及一个测试集,包含500个身份的169,396张图像。为了简单起见,我们选择了原始训练集中的前800个身份,每个身份都有其前20个图像,以构建我们新的简化数据库。这种小样本的设置更适合于评价方法的推广能力。我们新的训练数据库包含800个身份的16,000张图片LFW数据库是人脸验证任务的广泛使用的基准,其中包含来自5,749个不同身份的13,233个网络收集的图像。该数据库中的图像形成了高度多样化的面部集合,在姿势、表情和照明方面各不相同。YTF数据库包含从Y-ouTube下载的3,425个视频中出现的1,595个不同的人,平均长度为181.3帧。实验设 置:对 于人脸验 证任务, 我们应用 SE-ResNet-50 [21]作为网络架构,该架构经过分类损失预训练。在训练阶段,我们采用随机灰度和随机裁剪作为数据增强方法。对于随机裁剪,我们首先将输入图像的大小调整为256×256,然后将补丁随机裁剪为224×224。在测试阶段,我们采用平均验证准确度(VRF)作为LFW和YTF数据库的评估指标。对于LFW的验证,我们遵循标准协议,提供了6,000个人脸对的测试结果对于YTF,我们报告了分成10个部分的5,000个人脸对的评估结果结果:我们将DMML与其他基线进行了比较,结果见表3。在这个实验中,DMML产生了与最强基线相当的性能,在LFW数据集上的VRF性能上超过了提升的结构化嵌入方法0.4%。这一结果是一个有利的证据,证明我们的DMML方法的有效性。5. 结论在这项工作中,我们提出了一种深度Meta度量学习(DMML)方法,它以元的方式制定度量学习,并优化基于集合的距离,而不是基于样本的距离。在我们的方法中,我们首先将单个总体分类目标视为满足某些未知概率的多个子任务,并在一个事件中随机拆分每个子任务中的支持集和查询集。然后,我们学习Meta度量,以验证给定的查询样本从多个元细胞在每个情节与边缘为基础的目标函数和硬样本挖掘策略。我们在三个视觉识别问题上评估了我们的方法,包括人员重新识别,车辆重新识别和人脸验证,并优于大多数现有方法。在未来,我们将探讨如何学习元知识的度量学习从不同的领域或模式。确认这项工作部分得到了中国国家重点研究与发展计划(2017YFA0700802)的支持,部分得到了中国国家自然 科 学 基 金 ( 61822603 、 U1813218 、 U1713214 、61672306和61572271)的支持。9555引用[1] Marcin Andrychowicz,Misha Denil,Sergio Gomez ,Matthew W Hoffman , David Pfau , Tom Schaul ,Brendan Shillingford,and Nando De Freitas.学习梯度下降法。在NeurIPS,第3981[2] 曹琼,李申,谢伟迪,奥姆卡·M·帕克希,安德鲁·齐瑟曼.Vggface2:一个用于识别跨姿势和年龄的人脸的数据集在FG中,第67-74页[3] Gal Chechik 、 Varun Sharma 、 Uri Shalit 和 SamyBengio 。 大 规 模 在 线 学 习 图 像 相 似 性 通 过 排 名 。JMLR,11(Mar):1109[4] Guangyi Chen,Jiwen Lu,Ming Yang,and Jie Zhou.基于视频的人再识别的时空注意力感知学习TIP,28(9):4192[5] YutianChen, MatthewWHoffman , SergioGo′mezColmenarejo , MishaDenil , TimothyPLillicrap,Matt Botvinick,and Nando de Freitas. 学习无梯度下降的梯度下降法.ICML,2017。[6] Y. Chen,X. zhu和S.龚通过深度学习多尺度表示进行人员重新识别。在ICCVW,第2590-2600页[7] De Cheng , Yihong Gong , Sanping Zhou , JinjunWang,and Nanning Zheng.基于改进三重损失函数的多通道部件cnn的人员再识别。在CVPR,第1335-1344页[8] Sumit Chopra Raia Hadsell和Yann LeCun。有区别地学习相似性度量,并应用于人脸验证。在CVPR,第1卷,第539[9] Yin Cui , Feng Zhou , Yuanqing Lin , and SergeBelongie.使用深度度量学习进行细粒度分类和数据集自举在CVPR,第1153-1162页[10] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,第248-255页[11] 冯哲云,容靳,阿尼尔·杰恩。通过有效和鲁棒的核度量学习进行大规模图像注释在ICCV,第1609-1616页[12] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习ICML,2017。[13] Amir Globerson和Sam T Roweis。通过折叠类进行度量学习NeurIPS,第451-458页,2006年[14] Matthieu Guillaumin , Jakob Verbeek , and CordeliaSchmid
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功