没有合适的资源?快使用搜索试试~ 我知道了~
16702基于后向一致特征嵌入的视觉搜索的持续学习Timmy S. T. 1陈俊成2吴泽义3陈柱松1、*国立台湾大学1中研院2优丰公司公司3{r08944004,chusong}@ csie.ntu.edu.tw,pullpull@citi.sinica.edu.tw,kenny. ucfunnel.com摘要在可视化搜索中,图库集可以逐渐增长并添加到数据库中。然而,现有的方法依赖于在整个数据集上训练的模型,忽略了模型的不断更新。此外,随着模型的更新,新模型必须重新提取整个图库集的特征以保持兼容的特征空间,这对于大型图库集强加了高计算成本。为了解决长期视觉搜索的问题,我们引入了一种持续学习(CL)的方法,可以处理增量增长的画廊集与向后嵌入的一致性。我们加强了会话间数据一致性,相邻会话模型一致性和会话内歧视的损失,以进行连续学习。除了不相交设置之外,我们的CL解决方案还解决了为模糊边界增加新类的情况,而无需假设在开始和模型更新期间已知的所有类别。据我们所知,这是第一个CL方法,既解决了向后一致的特征嵌入问题,又允许新的类出现在新的会话中。 在各种基准上进行的大量实验显示了我们的方法在各种设置下的有效性1。不相交设置空间2空间1第一场会议第二模糊设置空间2空间1第一场会议第二常规增量设置第一节第二节第J图1.使用一般增量设置的拟议方法的图示。我们的解决方案允许新的画廊设置的可见和不可见的类自由和增量添加到数据库中,相对于广泛采用的不相交和最近的模糊设置。此外,它还考虑了向后兼容嵌入的会话序列。这避免了旧会话和新会话的库嵌入在不兼容的特征空间中分离因此,我们的方法是更实际的检索应用。半透明的图标表示迄今为止从先前会话中收集的数据点。随着数据的增长,尽管通过简单的微调来更新模型,但许多观察结果[11,69]表明,catastrophic遗忘会发生。一系列的策略已经被1. 介绍持续学习(CL)旨在学习新任务,同时保持从旧会话中学习的功能。技术一直在迅速发展;然而,CL的主动研究领域集中在图像分类上,而忽略了图像检索(又名视觉搜索)的需求。为了在图像检索中获得强大的特征表示,大多数作品[37,44,57,67]仍然需要在整个数据集上同时训练模型,而不是以增量方式。然而,一个实用的视觉搜索系统应该能够不断地从新的材料中学习,同时巩固旧的知识,以应对随着时间的推移而积累的数据。*表示对应作者。1代码:https://github.com/ivclab/CVS在CL中开发以解决问题[11,29,43]。该方法可以使单个深度模型能够连续地更新自身,同时避免令人失望的整体性能。然而,仍有几个持续存在的问题。首先,CL中的许多作品强调不相交的设置,其中来自旧类的数据在新任务(或会话)的训练期间不会显示类的任务边界限制了CL的使用,因为许多检索系统需要收集所见标签的额外数据以在新会话中改进其模型 虽 然 最 近 的 研 究 ( 例 如 , [2, 4]) allow the classoverlapping among the tasks, the blurry setup in theseworks assumes that all the class la- bels in the futuresessions are pre-given in advance; only the instance ratiosin the classes vary with the session (Fig. 1).这种数据场景对于大多数视觉搜索应用(例如,在电子商务系统中,16703产品在季节内到达)。向更通用的设置发展是满足现实世界场景的理想选择。第二,从新数据中更新的模型将在检索中在线一个重要的步骤是从以前的图库图像中重新提取特征嵌入,以保持一致性。本届会议(j+1)训练数据固定ఏ可学习空间j推拉相邻会话模型相干性损失会话内歧视特征空间上的两两距离度量。对于大规模数据的视觉搜索,是计算密集型的。因此,一个理想的设计,重放数据ሺାାଵሻ ఏ空间(j+1)重播嵌入拉分类器损失连续视觉搜索的一个缺点是,更新的模型仅提取输入图库数据的特征,同时保持错误生成的特征表示不变。然而,它导致了两两相似性……届会(j-1)会议j上一个会话数据1到j从S. es. si.基于. 1.一、-是的-是的-是的-是的-是的-是的届会(j-1)会议j上一个会话嵌入1到j会话间数据一致性丢失不均匀特征空间中的测量。基于此,我们认为目前的CL研究缺乏对正在进行的数据和先前数据之间的特征兼容性的考虑因此,需要设计一种具有向后一致特征嵌入的CL算法。为了解决上述问题,我们介绍了一种新的CL方法,即CVS(视觉搜索的连续学习者CVS可以学习具有向后一致性的有效特征表示.为了学习新知识,我们的学习者获得当前任务的区别特征。我们引入了一个跨任务的画廊嵌入一致性约束,保持当前学习的功能与过时的画廊功能的代表兼容。为了在保持特征一致性的同时巩固旧的知识通过协调各组件,CVS可以有效地实现向后兼容特征嵌入的连续视觉搜索。此外,我们在各种增量数据分布下进行了广泛的实验,特别是对于一般增量设置,以验证CVS的有效性。主要特点包括:一般增量设置:我们引入了一个新的CL sce- nario来模拟真实世界的视觉搜索应用系统。它包括以前的不相交和模糊的设置作为特殊情况,并解决了一般设置,即在即将到来的会话中,类可以被看到或看不到。向后一致的特征空间学习:我们的学习器可以学习不可见类的区分特征它还可以在新会话和旧会话两者中保持对所看到的类有效的学习的距离度量,其中旧会话特征可以保持不变,而不需要在视觉搜索系统中每次重新提取。在多个数据集上进行的实验表明,该方法具有较好的性能.图2显示了我们的系统图。2. 相关工作在2.1节中,我们简要回顾了图像检索的最新进展。然后,我们总结CL并描述其图2.一般情况下CL的拟议方法概述-具有向后嵌入一致性的增量设置,用于长期学习。 我们强制执行三次损失-学习者:会话内鉴别损失,用于主要利用当前会话数据来学习鉴别表示;相邻会话模型相干损失,用于利用前一会话模型来调节当前模型以用于向后兼容嵌入;以及会话间数据相干,用于主要利用当前会话数据和所有前一会话的重放嵌入以用于长期嵌入一致性。半透明的图标表示迄今为止从先前会话中收集的数据点。请注意,为了简化说明,我们省略了重放的数据。第2.2节中基于相似性的视觉搜索的挑战。2.1. 图像检索图像检索按照给定查询图像的顺序对图库图像进行排名。以前的研究依赖于局部特征聚合的描述符[23,39,49]或低级视觉线索[5,35,62],然后执行最近邻搜索。现代方式利用来自神经网络的嵌入(即,神经映射),因为可学习的描述符显示出优越的准确性[10,36,45,50,51,67]和紧凑的存储[7,30,64,65]。为了导出神经映射,度量学习以成对方式或逐点方式优化模型。成对方法导出正对变得更接近而负对彼此排斥的鉴别空间。一个公平的基准点[44]显示了成对方法的最新结果。然而,一个问题是当组中的样本数量超过两个时,样本挖掘的复杂性在数量上增长(例如,[45]四重态[10])。尽管许多研究[17,57另一方面,逐点方法[25,36,41,52,55,67]将优化视为针对每个类别的代表性样本的数据点。代替细致的挖掘,代表性样本可以是可学习的代理[25,36,41,52]或随机采样点[55,67],从而在没有成对比较的情况下为训练带来更快的比如说,16704∈{···}i=1m{个j+1···∈{···}NSoftmax [67]遵循分类训练范式,并将L2归一化应用于图像检索的嵌入层输出。与基准[44]中的成对方法相比,这种微小的修改产生了具有竞争力的结果。我们的方法很容易与上述策略相结合。为了简单和优雅的目的,我们使用NSoftmax进行优化。特征嵌入的后向一致性:尽管图像检索中不同的方法激增,但大多数工作都忽略了对后向一致性的需求,即,使得先前冻结的特征与图库集中新提取的特征可比较特征一致性学习通过两种方式实现这一目标。第一行旨在减少特征重新提取的工作量。R³AN [9]通过单侧变换将旧特征投影到新特征空间; CMC [56]通过一个轻量级的转换模块桥接多个特征空间。然而,它们仍然需要重新提取,这对于大型画廊和长时间会议变得不切实际第二行保持向后一致性而不进行任何特征重新提取。BCT [48]通过同时启用旧分类器和新分类器的梯度流来约束当前特征空间然而,它需要到目前为止看到的整个先前数据此外,在BCT的实验设置中假设图库集是固定的,而没有解决图库集在实践中可能会不断扩大的关键问题与BCT不同,我们的方法对会话间特征嵌入和邻居会话模型都施加了约束;因此,它在向后一致性方面得到了很大的改善。此外,我们研究了一个最多10个会话的情况下(在BCT的实验中,最多只有3个会话2.2. 不断学习CL的目标是一个单一的学习者,可以顺序更新将基于隔离的方法转换为类增量的方法,仍然需要假设任务之间的类是不相交的。为了打破CL中不相交类的限制,最近的研究提出了模糊设置(即,类重叠[2,4,40])。然而,它需要在随后的会话中呈现所有预定义的类,因此对于现实世界的视觉搜索应用来说仍然是不切实际的。此外,大多数的研究都集中在分类问题上,而忽略了图像检索的需求。MMD [11]以蒸馏方式研究基于检索的CL。通过缩小再生核空间中两个分布之间的平均差,当前模型提取了旧模型的然而,该方法忽略了向后兼容的检索需求;因此,随着CL中任务的增长,必须重新提取图库数据的嵌入。因此,这对于现实的系统是不切实际的。3. 持续学习者视觉搜索(CVS)考虑一个具有J会话的CL检索问题 在ses-sionj中1J,学习神经网络模型,并让f j是从输入图像到模型的特征嵌入的映射。在CL训练期间,骨干特征提取器fj+1从fj初始化,fj是紧接在当前会话之前获得的神经映射。 为了满足我们的通用增量设置的要求,图库集可以通过新添加的嵌入进行增量扩展。具体来说,设G j是在时间段j中新添加的图像,gj是G j(通过f j)获得的特征嵌入。嵌入将被添加到库中建立到第j个会话,g1:j=jg1。累积保存的特征嵌入(即,G1:j)然后用作用于将来会话L(> j)的检索的图库集。此外,为了学习f j+1能够处理可能包含现有类和新类的新会话数据,并且还保持所有先前会话数据的性能,我们在CVS方法中进行以下损失 项 , 即 , 数 据 一 致 性 的 会 话 间 项 ( Ld),不忘初心,牢记使命。模型一致性的相邻会话项(1:j;j+1Lj;j+1), andmation 现有的工作[20,53]可以分为任务增量和类增量CL,其中前者假设推理时呈现的任务索引,而后者假设推理期间的任务不可知场景。大多数作品都假设了连续任务中的类别(即,会话)彼此不相交。为了避免过度拟合当前会话,基于正则化的方法[8,26,46,66]对关键神经权重的变化施加约束,基于蒸馏的方法[13,14,29,42,68]将知识从先前的学习器转移到当前学习器,基于重放的方法[4,6,15,31,43]重新访问少量旧数据以防止遗忘和基于隔离的方法[21,33,34,47]为每个任务分配子网容量。虽然自动任务选择器[1]可以帮助扩展届会期间歧视术语(Lc)。3.1. 闭会期间数据一致性先前会话数据的每个训练样本已经被提供有由旧神经映射f1,…,fj之一的嵌入。为了满足每次不重新提取嵌入以更新图库集的条件,一旦在会话k上构建,它们就被固定并保持不变1J.也就是说,在建立嵌入之后,它们可以用于CL中的一系列未来任务。除了希望不要忘记已知标签的分类能力之外,我们还需要忘记基于已经构建的嵌入的检索能力。与数据一起回放嵌入:在CL中,回放数据被广泛采用以避免遗忘为了解决存储-16705i=1--||ΣC·2i=12·{1:j};j+1CJLdILdOJ--|···为了提高老化效率并避免对所有数据进行训练,可以存储来自会话1到j的一小部分数据,并将其重放,以便与会话j + 1中的当前数据进行联合训练。在我们的工作中,旧的数据嵌入已被提取为gi=fiGi。 除了重放数据,我们还重放嵌入以促进CL,这对学习更我们称这种技术为重放嵌入,其中从嵌入空间采样的一小部分特征被重放用于训练。在当前会话j +1中更新的深度模型应该被限制为所看到的类的存储嵌入。因此,我们的学习器的目标是训练f j+1从Gj+1(gj+1=fj+1Gj+1)中提取特征,同时保持现有的过时特征g1:j不变。然而,嵌入是从不同的神经映射建立的随会议而变化会话具有单独的分布,并且对于长序列的会话可以是不同的。由于不同的特征空间不一定具有可比性,为了避免对单个会话的过度拟合,我们通过采用以下期望来聚合先前会话的嵌入。J其中n是最小批量大小。该损失组合重放的嵌入和数据以保持会话1,...,(j+1)的特征空间的一致性。即使聚合嵌入提供了强约束,由于神经网络的自由度在容量上很大,学习器仍然可以很容易地将模型从fj调 整 到fj+1。 在我们的经验中,很好地使用这个先例约束可以帮助构建一个有效的CL学习器,因为固定嵌入可以充当吸引器来正则化深度模型训练。我们的方法只需要Γj+1次重放嵌入,并且我们将会话1:J中总数据的5%左右的样本比例设置为重放数据中所有会话共享的固定预算。由于丢失建立了会话(j +1)与所有先前会话(1:j)之间的联系,与BCT [48]仅采用当前会话(j +1)与会话(j)之前的会话之间的相互关系不同,我们的方法可以有效地增强长期会话的向后特征一致性。此外,我们的重播嵌入解决方案与跨批次学习[58,61]中的思想一致,其中在过去的小批次中预先学习的嵌入指导E=1千克i=1),c∈ C(i),(1)在当前的培训中。这些方法已被证明是有效的,以提高检索性能。我们方法类似于跨会话学习方法。在其中(i)是出现在会话i中的类索引的集合,gic是从Gi中的类c的数据中提取的嵌入的集合,并且()表示期望算子。强制会话间数据一致性的丢失定义如下:通过实验,验证了跨会话CL解决方案的有效性,并对结果进行了深入分析。3.2. 邻居会话模型一致性{1:j};j+1=0fj+1(xi)− Ec)在上面,我们利用了看到的重播材料,其中,j+1=jc∈j+1xi∈cC(i)<$C(j+1)是索引,所有先前会话中的类和用于训练的当前会话数据。本节主要使用当前会话数据,同时使用当前模型i=1当前类和所有先前类之间的节sessions;xi表示当前会话(j+1)中的数据但是,当前会话类可能不包含常规增量设置中以前的所有类例如,对于Disjoint设置的特殊情况,传入会话中根本没有 因此,请-边使用重放的嵌入Ec(在n_j+1中),我们(fj+1)和上次模型(fj)。 它加强了邻居会话模型的一致性。损失是使用蒸馏原理设计的,其中映射f l(学习和固定)作为教师模型来指导学生fl+1的训练。与以前主要用于分类的蒸馏技术研究不同[18],我们进行了蒸馏-使用旧类Γj+1=j的重放数据C(i)基于损失来调节度量学习fj+1 从也不失一般性,我们使用样本挖掘技术iCaRL [43]进行一小部分数据的重放,它搜索每个类平均值周围的随机邻居。重放的嵌入和Γj+1中的数据共同使用如下:基于三元组损失的fj的度量空间,以更好地拟合CL在检索时的性质。在锚点的三元组(xa,xp,xn)中,主要从当前会话数据中分别选择正样本和负样本。训练的目的是缩小{1:j};j+1=0fj+1(xx a和x p,同时放大x a和x n之间的值。从嵌入空间中提取知识c∈Γj+1x<$i∈c其中,x表示重放的数据。然后,会话间数据相干性损失是等式1的组合。2和3,这有助于保持向后特征的一致性:从先前的会话j建立,我们使用fj()生成正样本和负样本的嵌入,并分别获得fj(xp)和fj(xn)。然后,我们使用教师生成的嵌入来指导学生的训练,Ld=(LdI{1:j};j+1 +LdO{1:j};j+1)/n,(4)chorfj+1(xa). 当前会话数据被馈送到cur中,IC16706j+1j;j+1i=1××nyiKi=11J2Lj+1=n−log(对数)C)的情况下,(xi)/T)|租金和以前的模型来约束嵌入分布-总之,为了完成一般增量设置,分别由fj+1和fj产生的分数。损失项Lc提供了一个基本的检索能力,因此,可以执行模型之间的一致性,本届会议(j +1)。第二项Lm使邻居会话此外,通过设置xp = xa,我们可以共同使用xa和xp。因此,我们进行一个2-样本-3-嵌入三重态损失策略,其中三重态嵌入为fj+1(xa),fj(xa)和fj(x n)。这是因为它可以方便地绘制出学生和教师基于同一xa的嵌入分布,以供比较。同时,也节省了选取正样本的计算量,提高了抽样效率。最近的研究表明,挖掘容易的阳性样本(即,类似的积极因素)有利于度量学习[60]。 我们的方法直接从锚点形成正样本的嵌入,这消除了[ 60 ]中在配对采样期间的正挖掘工作。对于负数,我们遵循最难的负数挖掘原则[17]来选择嵌入。表示dj+1(x,y)=<$fj+1(x)−fj(y)<$2。会议-基于当前会话中的新标记数据和所见标记数据两者,神经映射fj +1接近fj。它强制执行预测以模拟前一要素埃克斯特拉托河 第三项Ld{1:j};j+1强制来自重放的嵌入和所有会话(1到j)的数据的向后特征一致性以及仅基于之前看到的标签与当前会话数据的联合训练(即, J(i))。 它有助于偏置特征空间以对齐与一个过时的画廊功能所在。通过加入这三个损失,我们的CVS方法可以很好地处理一般的Incremental设置及其特殊情况(模糊,不相交)。4. 实验我们在不同数据分布下的各种数据集上进行了广泛的实验。五个数据集是包括两个粗粒度数据测试,CIFAR100模型相干性损失写为:Lm=1dj+1(x, x)−dj+1(x, x) +m,和Tiny ImageNet,以及三个细粒度数据集,Stan- fordDog,iNaturalist 2017和Product-10 K。我们用CI-j;j+1njaaXaJAN+(五)FAR100用于基础研究,然后Tiny Imagenet用于更长的会话序列。其中m是设置为0的裕度。默认为1。此外,fj+1(x)和fj(x)是l2归一化的,以减轻根据先前研究的遗忘问题[19,32]。这种损失有助于限制更新模型的行为与前一个一致3.3.会话内歧视最近的研究表明,分类是学习有效特征嵌入的强基线(如果添加适当的l2范数归一化层)[67]。不失一般性,我们采用的方法来建立检索能力的fj+1主要使用当前会话的数据。会话内歧视的损失是数据集总结如下。CIFAR100[27]有100个类别;每个拥有500 32 32个图像用于训练和100个图像用于测试。Tiny ImageNet [28]有100,000个 训练图 像 和10,000个 测试图像(大小64 64从ImageNet的200个类中采样。由于其规模小、类别多,我们对其进行了长序列学习。Stanford Dog [24]包含从ImageNet挑选的120个犬种级别类别,包括8,580张用于测试的图像和12,000张用于训练的图像。对于训练分割,每个类有100个图像。iNaturalist 2017是一个大规模的长尾图像检索数据集,包含5,089个物种级别的类别。我们为200个类每类采样527个图像;每个类至少包含527个样本,以避免非常小的类c1Σi=1exp(wTfj+1(xi)/T)Kexp(wT fj+1(六)以及分区前数据不平衡的问题我们称之为INAT-M在这项工作中。Product-10 K[3]是一个超细粒度的长尾数据集,涵盖了前9691名经常购买的产品,其中(x i,y i)n是数据和标签,w表示分类层的l2归一化权重,f j+1(x i)是为x i提取的l2归一化嵌入,T是设置为0的温度项。05默认全损。 最终学习目标如下:从真实的电子商务系统中提取图像;每个类我们删除训练集中少于20张图像的类别。然后,我们基于原始训练集构建训练-测试分裂,因为官方测试数据最小L=Lc+αLm+βLd{1:j};j+1.(七)不要贴标签。最后,有2,743个班级。我们称fj+1j+1j;j+1在这项工作中,它是产品M。 细粒度的图像更多默认情况下,我们在实验中根据经验将α设置为10,β设置为1,并且在这项工作中使用余弦距离进行检索在会话1中仅使用第一项Lc。 然后,在会话2到J中使用所有三个术语。图2给出了我们的方法的说明。因为只有细微的差别。4.1. 实现细节在所有实验中,嵌入维数默认设置为128。我们使用ResNet-18 [16]进行粗处理,16707−[16]第16章:你是我的女人超参数的细节在补充材料中描述。不相交设置假设以前看到的类在学习新的会话数据时不可用。如图3a,我们将CIFAR100划分为五个会话,每个会话包含20个类。对于Tiny ImageNet,数据集被划分为10个会话,每个会话有20个类。模糊设置[4]在开始时提供所有类别;每个会话示出了来自所有会话的样本的子集。数据分布通过每个会话的主要和次要类的数据百分比来控制。在我们的实验中,CIFAR 100分为五个会话;每个类别包括20个大类和80个小类,如3b所示,90%的样本来自大类,10%来自小类。对于Tiny ImageNet,我们模拟了10个会话的CL;每个都有70%来自大调,30%来自小调。一般增量设置:新类和新的旧类样本可以共存。该模型在初始总共L个会话中从S个类学习。对于后面的情况,我们添加C类,并假设M%的数据来自旧类别,(1M)%来自新类别,记为(S,C,M,L)。我们为CIFAR100设置(20,20,10,5)第3c段)。对于其余的,我们将(20,20,30,10)应用于微小的Im-ageNet,(60,20,30,4)到Stanford Dog,(100,25,30,5)到iNat-M和(1343,700,40,3)到Product-M。所有损失术语均使用重播数据。在[4]之后,我们将CI-FAR 100的重播内存缓冲区大小设置为2,000。请注意,这是一个由所有会话共同使用的有限缓冲区(对于基于重放的方法)。由于规模较小,我们假设Dog的内存预算为600个样本,Tiny ImgNet为4,000,iNat-M为4,000,超细粒度Product-M为3,000。对于Product-M来说,这是相当具有挑战性的,因为它有2,743个类;为每个会话中,将仅存储1到2个图像以供重放。4.2. 评价我们遵循培训-验证-测试协议。选择在验证阶段实现最佳recall@1的模型进行公平比较。然后,我们使用原始测试集作为查询集来报告最终为了在不相交和一般增量设置中收集每个类的验证查询集,我们对iNat-M和Tiny ImageNet的当前训练会话数据进行了5%的采样,对CIFAR 100和Stanford Dog的采样为10%。由于缺乏训练数据,我们从Product-M的每个类中随机抽取2个图像注意,在不相交和一般设置中,随着会话的增长,这样的验证查询集会累积对于模糊设置,我们从整个训练集中保留了一部分固定的数据作为验证查询集(Tiny ImageNet为5%,CIFAR100为10%),因为模型可以在开始时看到所有预定义的类别。添加为当前会话训练数据提取的嵌入(a) 不相交设置(b) 模糊设置(c) 一般设置图3.CIFAR100上不同设置的类分布在完成前面提到的会话之后,将新类别的图像添加到图库集合中;因此,允许在未来的季节中搜索在一个海洋中首次观察到的新类别的图像。这样一个可扩展的图库集与现实世界的场景相匹配我们报告召回@k[22],因为它是最流行的。 细粒度检索中最大度量[44,51]。对于测试查询,我们评估了模糊设置的所有类,以及到目前为止分别针对不相交和一般设置看到的类。最后,我们将各个会话的分数取平均值,表示为AR@K。为了与现有的方法进行比较,我们重新实现了LWF [29]和MMD [11],并从[4]的官方Github重新运行EWC [26],RWalk [8]和Rainbow [4]其中,所有(MMD除外)都是为了分类,因为CL很少在检索时进行研究,我们将所有普通softmax损失替换为标准化softmax损失[67],以便进行公平比较。我们还重新实现了BCT [48],这是一种向后特征兼容的检索方法我们在不相交设置中对BCT应用与我们相同的样本挖掘,因为朴素BCT不是CL解决方案,需要旧类通过。此外,我们提供直接微调作为下限;相反,我们提供迄今为止看到的所有画廊图像的联合训练,允许重新提取作为上限。4.3. 粗粒度数据集CIFAR100的结果:我们对CIFAR100进行了5次实验。结果示于图4(re-call @ 1)和表1(a)(AR@K)。对于所有三种设置,除了作为本实验上限的联合训练外,我们的CVS在两种评估测量中表现最好。在模糊和一般增量设置中,我们观察到BCT的性能甚至比Finetune更差,16708--(a) 不相交设置(b)模糊设置(c)一般设置图4.三种设置的CIFAR100上的Recall@1,其中括号中报告了会话间的平均Recall@1(a)不相交设置(b)模糊设置(c)一般设置图5.三个设置在Tiny ImageNet上的Recall@1,其中在括号中报告了会话的平均Recall@1不相交模糊一般AR@1AR@2AR@4AR@1AR@2AR@4AR@1AR@2AR@4联合培训83.3985.6987.6455.157.7460.3381.9784.686.82Finetune42.0343.2344.7432.5436.841.1160.7964.7368.14BCT60.2464.3868.3731.7135.6939.6158.3162.265.66LWF49.3353.5158.0136.7941.6346.5265.5370.9175.31MMD49.6253.5857.8732.8336.7340.6465.5170.2274.33EWC43.645.6548.1234.7540.8546.7160.8964.8668.2RWalk64.1167.3370.5641.7845.6749.469.973.3776.39彩虹62.2765.0967.4341.4744.9948.2768.471.5674.2我们的(CVS)71.4774.877.5147.4749.8652.1773.9576.7378.84(一)不相交模糊一般AR@1AR@2AR@4AR@1AR@2AR@4AR@1AR@2AR@4联合培训54.4258.6262.3135.4639.2943.1947.4551.9455.99Finetune19.7320.9221.8118.6323.1728.1131.1135.8740.8BCT34.2737.9241.2218.542327.6630.1734.6439.29LWF24.2427.530.6720.0625.1130.5232.2238.2344.56MMD25.8329.2232.7518.5122.6527.2333.3538.2143.06EWC19.9521.8923.8817.3321.4226.0727.8632.6737.78RWalk32.8537.0941.0922.426.1129.9433.8338.4342.97彩虹32.635.5138.3522.6426.4730.437.5341.6445.44我们的(CVS)38.8742.0345.0826.6229.1931.8638.7842.3845.89(b)第(1)款狗iNat-M产品-MAR@1AR@2AR@4AR@1AR@2AR@4AR@1AR@2AR@4联合培训86.9891.0893.9975.8579.9783.6579.3683.8387.73Finetune82.788.3292.2367.7572.687770.9976.2681.16BCT81.7387.4991.5567.3472.0775.9970.4875.6780.47LWF83.2589.2993.0468.5173.7178.1272.9578.3883.1MMD83.288.9892.7168.5873.4877.7972.8978.2182.96EWC81.6488.792.8266.371.475.8266.0172.5378.24RWalk82.4188.3192.4368.7773.8278.1668.7174.6480.13彩虹82.7889.0493.2368.6873.2277.2169.3975.1980.34我们的(CVS)84.7189.492.6172.5776.3979.8775.4780.3684.68(c)第(1)款表1. Results on (a) CIFAR100 and (b) Tiny ImageNet, and (c)Fine-grained datasets, where Joint Train and Finetune specify thetheoretically upper and lower bounds, respectively.在这项工作中。尽管每个增量会话都显示了旧类和新类,但BCT仍然需要之前看到的所有样本进行训练,以获得满意的结果。另一方面,我们发现EWC达到了几乎与下界相同的性能。我们将这种不良性能归因于重要性权重估计的不确定性。亚军是RWalk,它通过对参数空间施加约束来改善EWC,同时通过基于重放的机制避免遗忘。这种混合策略适用于分类,但对于向后兼容的检索并不足够好。相反,我们的CVS额外利用了会话间和相邻会话信息,显示了所有设置下的效率。Tiny ImageNet上的结果:我们使用Tiny ImageNet在这个实验中模拟了10个会话的CL场景。据我们所知,我们是第一个在CL中执行如此长的会话序列进行向后兼容检索的人。根据图5和表1(b),我们的方法在三种设置上的检索长序列设置上始终优于现有的竞争对手这个数据集中的整体亚军变成了Rainbow,这是一种用于分类的数据回放方法。我们的CVS采用重放嵌入来总结一个类跨会话检索除了数据,并执行更有利的召回@1和AR@K的所有情况下,特别是当k是小的。对于一般设置中的大k= 4,性能为铁我们认为差距缩小了,因为只有一个四个回收 标签 具有 到 被 正确. 与其他嵌入式蒸馏的比较:我们将CVS与教师[12,38,63]和知识蒸馏[18]的方法进行了比较,方法是在等式中替换L mj;j+1。7与不同的损失的邻居会话模型的一致性的基础上CIFAR-100。为了进行公平的比较,我们在1,10处仔细调整超参数α,以获得AR@1处的更好结果。我们的2样品3包埋解决方案在所有设置的竞争对手中相比16709亚军结果,我们获得CVS(71.47)vs.角度-不相交设置 中 的 RKD [38] ( 70.45 ) , CVS ( 47.47 ) 与 Ab-solute MLKD [63] (46.9) in blurry setup, and CVS(73.95)V.S.黑暗知识[18](73.18)在一般增量设置中。我们在补充材料中详细说明了结果。分类比较:由于我们的CVS也可以通过NSoftmax层产生分类结果,我们在完成所有会话后,进一步将结果与基于CIFAR-100的CL分类器Rainbow [4我们已经在模糊设置中遵循了[4]中关于类分布比率和重放缓冲区大小的设置。在[ 4 ]中给出的分类准确度为41。35%,在线学习协议(即,只有一个时代,在学习中)。我们使学习器收敛,并获得50的准确率。百分之二。令人惊讶的是,CVS可以达到54。04%的分类准确率甚至更高。我们将有希望的分类结果归功于重播的嵌入式,这些嵌入式可以作为有用的范例(如跨批学习的原理[58,61]),以进一步指导我们的CVS中的训练。我们对其他两个设置(不相交的,一般增量的)和一个ad-classifier RWalk进行了额外的实验,并获得了结果:CVS(50.62)与彩虹(46.69)v.s.不相交设置中的RWalk(46.85)彩虹(50.2)v.s.模糊设置中的RWalk(50.89)和CVS(55.49)与 彩虹(52.26)V.S. RWalk(51.92)一般增量设置。结果证明了CVS治疗CL的有效性。4.4. 细粒度数据集至于细粒度的基准测试,我们考虑一般增量设置只是因为它的实际有用性。我们使用ImageNet预训练的权重初始化模型,因为这是细粒度检索基准中的常见做法。我们假设第一个会话呈现了数据集中一半类的样本。这是现代视觉搜索系统的一个实用设置,因为一个健壮的服务在上线之前应该在一定程度上得到良好的训练。由于数据量的细粒度限制,我们将StanfordDog数据集划分为四个,iNat-M划分为五个,Product-M划分为三个会话。结果示于表1(c)中。我们的CVS在所有细粒度基准和度量方面都优于其他方法,除了在Stanford Dog Dataset上k=4的AR@k总之,与其他最先进方法的评估结果表明,我们的方法对一般增量设置上的粗粒度和细粒度数据集都是有效的,因为我们不仅考虑了相邻会话的向后兼容嵌入,而且还考虑了通过重放嵌入和数据与过去会话的所有数据的此外,这种向后兼容的功能还节省了CL在每个会话期间作为模型更新的图库特征重新提取的昂贵计算成本CIFAR100狗产品-MAR@1AR@2AR@4AR@1AR@2AR@4AR@1AR@2AR@4Lc60.7964.7368.1482.788.3292.2370.9976.2681.16Lc+Lm63.7968.1372.0282.6588.4392.2971.7776.9281.78Lc+Ldw/o replay64.568.1271.1483.2988.7792.3873.9678.6983.02Lc+Ld72.1674.6776.784.3789.0792.4675.680.2784.33Lc+Lm+Ld73.9576.7378.7484.7189.492.6175.4780.3684.68表2.对每个分量的消融研究,其中Lc、Lm和Ld分别是会话内辨别、相邻会话模型一致性和会话间数据一致性的损失讨论:我们发现的一个局限性是,几乎所有的方法(包括我们的方法)都会随着会话的扩展而停滞,特别是在模糊设置中。尽管我们的方法优于其他方法,但我们的方法与上界之间的差距逐渐扩大因此,在长期挑战中仍有改进的空间。消融研究:我们的CVS由三个损失项Lc、Lm和Ld组成。为了验证其有效性,我们进行了消融研究,如表2所示。首先,我们发现Lc+Ld对整体性能的影响最大。与单独的Lc相比,在AR@1中,它带来了1.67%至11.37%的增益。第二,与Lc相比,Lc+Lm对CIFAR100和产品M的影响较弱,尽管略有增加。我们的发现表明,仅采用分类损失和蒸馏损失是不够的。因此,在我们的环境中,寻求像Ld这样的广告信息的统一是可行的。为了更深入地研究一致性损失带来的性能增益,我们将示例重放技术与我们的方法分离。我们把Lc+Ldw/o重放记作上述情形.基于重放的技巧通过标记改善了所有数据集上的一致性损失的普通版本,特别是对于CIFAR100。在不查看示例数据的情况下,在AR@1中,性能下降范围在1.08%和7.66%之间。因此,集成这种设计对于整体性能至关重要。5. 结论在这项工作中,我们提出了一个新的一般增量设置,允许新的画廊集的可见和不可见的类增量添加到数据库中,比广泛采用的不相交和最近的模糊设置更接近真实世界的检索设置。此外,我们还提出了一个CL方法,用于长期的视觉搜索与向后一致的特征嵌入。我们的方法作为一个扩展的跨批次记忆的跨会话记忆的特征嵌入学习CL。我们引入了一个2-sample-3-embedding策略
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C语言快速排序算法的实现与应用
- KityFormula 编辑器压缩包功能解析
- 离线搭建Kubernetes 1.17.0集群教程与资源包分享
- Java毕业设计教学平台完整教程与源码
- 综合数据集汇总:浏览记录与市场研究分析
- STM32智能家居控制系统:创新设计与无线通讯
- 深入浅出C++20标准:四大新特性解析
- Real-ESRGAN: 开源项目提升图像超分辨率技术
- 植物大战僵尸杂交版v2.0.88:新元素新挑战
- 掌握数据分析核心模型,预测未来不是梦
- Android平台蓝牙HC-06/08模块数据交互技巧
- Python源码分享:计算100至200之间的所有素数
- 免费视频修复利器:Digital Video Repair
- Chrome浏览器新版本Adblock Plus插件发布
- GifSplitter:Linux下GIF转BMP的核心工具
- Vue.js开发教程:全面学习资源指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功