没有合适的资源?快使用搜索试试~ 我知道了~
老模型老模型1新嵌入训练集新模式向后兼容的表示学习Yantao ShenXiangYuanjun Xiong Wei XiaStefano Soatto AWS/Amazon AIytshen@link.cuhk.edu.hk,{yuanjx,wxia,soattos}@ amazon.com摘要我们提出了一种学习视觉特征的方法,这些视觉特征与先前计算的视觉特征兼容,即使它们具有不同的维度,并且通过不同的神经网络架构和损失函数学习兼容意味着,如果这些特征用于比较图像,则这使得视觉搜索系统在更新嵌入模型时,可以绕过为所有以前看到的图像计算新特征向后兼容性对于快速部署新的嵌入模型至关重要,这些模型利用不断增长的大规模训练数据集以及深度学习架构和训练方法的改进我们提出了一个框架来训练嵌入式模型,称为向后兼容训练(BCT),作为向后兼容表示学习的第一步在学习用于人脸识别的嵌入的实验中,使用BCT训练的模型成功地实现了向后兼容性,而不会牺牲准确性,从而实现了视觉嵌入的无回填模型更新。查询照片收集新嵌入训练集查询特征新模型老模型橱窗展示图片旧嵌入画廊功能训练集:特征学习:特征提取:视觉搜索/检索收集(a) 没有向后兼容表示的模型更新。查询照片集查询特征旧模式向后兼容训练画廊特色相册照片集旧嵌入训练集收集1. 介绍在“开放宇宙”设置中的视觉分类响应于图像的这样的函数的输出然后,可以通过它们的嵌入向量之间的某种类型的距离来测量一对图像之间的不相似性。一个好的嵌入被期望在嵌入空间中聚类属于同一类的图像。当一个新类的图像变得可用时,它们的嵌入向量被用来在开放宇宙中产生一个新的集群,可能会这个过程被称为现任教于香港中文大学。在AWS工作期间进行的工作(b) 使用向后兼容的表示进行模型更新。图1:如果没有向后兼容的表示,要更新检索/搜索系统的嵌入模型,所有先前处理的图库特征都必须由新模型重新计算,因为新的嵌入不能直接与旧的进行比较。有了向后兼容的表示,直接比较就成为可能,从而消除了回填的需要。索引在现代应用程序中,将数百万(有时为数十亿)图像索引到数百万到数百万个集群中是很常见的。这个图像集合通常被称为图库集。索引图库集的一个常见用途是识别与一个或一组输入图像最接近的聚类,该过程称为63686369视觉搜索或视觉检索。这个任务的输入图像集被称为查询集。除了图库和查询集之外,通常还有一个单独的大型图像存储库用于训练嵌入模型[33,30],称为嵌入训练集。随着时间的推移,数据集不断增长,嵌入的质量随着新训练的模型而提高[37,34,6,35]。然而,为了收获新模型的益处,必须使用新模型来重新处理图库集中的所有图像以生成它们的嵌入并重新创建集群,该过程被称为“嵌入”或“重新创建”索引”在本文中,我们的目标是设计一个系统,使新的模型部署,而不必重新索引现有的图像集合。我们称这样的系统为无回填的,由此产生的嵌入向后兼容的表示,和使能过程向后兼容的训练(BCT)。我们将我们的贡献总结如下:1)我们在开集分类或视觉检索的背景下,将向后兼容的表示学习问题形式化。目标是使新模型能够部署,而不必重新处理以前索引的这个问题的核心是向后兼容性,它要求新嵌入的输出可用于与旧嵌入模型进行比较,而不影响识别精度。2)提出了一种新的后向兼容训练(BCT)方法,该方法通过引入影响损失,将旧嵌入模型的学习分类器用于训练新嵌入模型。3)我们以最小的准确性损失实现向后兼容的表示学习,从而实现模型的无回填更新。我们经验验证了BCT对训练嵌入模型中的多种变化因素具有鲁棒性,例如。、神经网络架构、损失函数和数据增长。最后,4)我们证明了多个模型之间的兼容性可以通过链式成对BCT训练来1.1. 相关工作嵌入学习和开集识别。开集视觉识别[25,26]与检索相关[7,3],人脸识别[29,33,5]和个人重新识别[14,46,1]。常见的方法包括提取视觉特征来实例化测试时分类器[28]。 深度神经网络(DNN)被广泛应用于1)使用封闭世界分类作为替代任务[13,29]学习嵌入模型,使用各种形式的损失函数[35,34,39]和监督方法[10,13]来嵌入读者可能在升级照片集软件时经历过此过程,因此搜索功能不可用,直到软件重新索引整个集合。这在个人照片集合中是一个小的不便,但是对于大规模的画廊,时间和计算的成本可能是令人望而却步的,从而阻碍了系统的连续更新潜力。证明泛化2)执行度量学习[21],对嵌入空间中的表示对[27,1]或三元组[23,9具体来说,[21]学习一个单一的度量,它适用于多任务学习设置中的所有任务。[38]中提出了使用其他版本模型的分类器权重来监督表示学习,以完成无监督表示学习的任务。跨领域和任务学习。在域自适应[20,4,36]中,可以使用诸如MMD [41]和相关方法[32,18,41]的技术来对准新老阶级的(边缘)分布,包括那些接受过对抗训练的人[11]。 [10,16]中的知识蒸馏训练新模型从现有模型中学习,但是,与向后兼容表示学习不同,知识蒸馏不需要新模型的嵌入和现有模型在推理中兼容。持续学习[22,16],迁移学习[2]和终身学习[24,12]都处理现有模型随时间演变的情况在[16]中,当引入新类时,模型化被用作正则化的一种形式。在[24]中,旧的类中心用于正则化来自新类的样本。Hou等人[12]提出了一个在增量设置中学习统一分类器的在[2]中,作者设计了一个再训练损失函数。解决灾难性遗忘的方法[16]与我们的工作关系最密切,因为遗忘的一个常见原因是后续分类器的视觉嵌入的变化。我们正在解决的问题不同之处在于,我们的目标是实现任何一对旧模型和新模型之间的向后兼容性。新模型不需要由旧模型初始化,也不需要与旧模型共享类似的兼容的表示。在[15]中,作者讨论了特征向量之间的可能映射,在同一数据集上训练的多个模型;[45,43,44]介绍了一种设计,其中具有不同通道宽度但相同架构的多个模型共享参数和表示的公共子集,这隐含地在来自不同模型的表示之间施加兼容性我们提出了一种方法来解决深度学习中的向后兼容性问题,在前一节中定义的意义上。我们专注于开放的宇宙分类使用度量判别函数。2. 方法我们首先阐述了向后兼容表示学习的问题,然后描述了一种向后兼容的训练方法及其实现。2.1. 问题公式化作为一个典型的应用程序,我们使用下面的照片集D的情况,充当画廊的角色。63702D被分组为多个类或恒等式Y={y1,. -是的-是的 ,yN}。 我们有一个嵌入模型φold,它将 每 个 图 像 x 映 射 到 一 个 嵌 入 向 量 z=φold ( x )∈RKold,其中x∈D. 在嵌入训练集Tol d上训练嵌入模型Φold。由D产生的n y图像的嵌入然后可以通过某个距离d分配到一个类:RK×RK→R+。在最简单的情况下,去掉下标“old ",Y中的每个类都与一个“原型”或聚类中心φ i,i ∈ Y相关联。类i的向量φi可由集函数 φi=S ({φ( x)}y ( x ) =i )得到, 其中 y(x)是图像x ∈ D的相应类标号.集合函数S的常见选择包括平均和衰减。模型[42]。将测试样本x分配给类y=argmini∈Yd(φ(x),φi)∈Y。 稍后,具有K个新维度嵌入向量的新 模 型 φnew 变得可用,例如用新嵌 入 训 练 集 Tnew(Tnew可以是T ld的超集)中的附加数据训练,或者使用不同的架构。ne w嵌入φnew潜在地存在于不同的嵌入空间中,并且它是模型虽然为了简化讨论,我们假设两个模型的嵌入维数相同(Knew= Kold),但我们的方法更一般,不受此假设的约束。在Eq. 1需要彻底测试画廊,这在大规模和开放式设置中是棘手的。另一方面,假设我们对某些测试协议有一个评估度量M(φq,φg;Q,D,),例如,人脸搜索的真阳性识别率,其中Q表示查询集,D表示图库集,并且我们使用φq用于提取查询集特征,φg用于图库集。然后,应用的经验兼容性标准可以定义为:M(φnew,φold;Q,D)>M(φold,φold;Q,D)。(二)这一标准可解释如下:在一个具有固定查询集和固定图库集的开集识别任务中,当使用φnew进行无回填图库图像查询的准确率超过使用φold时,我们认为实现了向后兼容性和无回填.可能K新老K日期可行。请注意,简单地将φnew设置为φold不会为了利用新嵌入模型φnew的优点,我们希望使用φnew来处理图库集合D中的nynew图像以及查询集合的图像。由于图库集可以获得额外的图像和聚类,我们将其表示为Dnew=D{x|y=N+1,...,其中,Nnew是D new中的簇的数量。那么,问题就变成了如何处理D中的图像。为了使系统无回填,我们希望直接使用这些图像的已经计算的嵌入,并获得{φi}i≤N。因此,我们的目标是设计一个培训过程,新的嵌入模型φ新的,以便一个新的测试图像可以被分配到类,新的或旧的,在D新的,没有满足这个标准。2.3. 基线和典范训练模型φnew与φold兼容的 一种 简单方 法是,假设它们具有相同的维度,最小化在相同图像上计算的嵌入之间的距离。 这对用于训练φold的T o l d中的每个图像强制执行。该准则可以被构造为当训练n-w嵌入时经验损失L(φn-w)的加性正则化子R,如下所示:φnew=argminL(φ,Tnew)+λR(φ),其中φ需要计算φnew(D),即. e. 回填。所得嵌入φn∈w,则与φold向后兼容。2.2. 向后兼容性准则R(φ)=Σx∈Toldφ(x)−φold(x)φ2。(三)2在严格意义上,模型φ新 向后兼容,如果我们把问题的解标为eφnew−φ2。注意,在训练φnew−φ2时,φold将被固定。作为d(φ新 (xi),φ老 (xj))≥d(φ老 (xi),φ老 (xj)),我们在Sect. 3.4,φnew−φ2不满足方程。(2)和并且,在本发明中,i,j∈ {(i,j)|yii=yj}。它将不会被转换为φold,因为训练集已经被改变为Tnew。因此,这种天真的方法不能用于获得向后兼容的表示。d(φnew(xi),φold(xj))≤d(φold(xi),φold(xj)),i,j∈{(i,j)|yi=yj}(.第一章其中d(·,·)是嵌入空间中的距离。这些约束形式化了这样一个事实,即当用于与旧的嵌入进行比较,必须至少与旧的嵌入一样好,将图像从不同的类中分离出来,并将来自相同类的图像分组。注意,解φnew=φold是逆war d相容的。如果体系结构不同,则排除这种简单的解决方案,这通常是在更新另一方面,使用模型φnew在D上执行回填,未经任何正规化训练,可以被视为典范。由于D的嵌入被重新计算,因此我们可以完全享受φn_w的好处,尽管代价是重新处理图库。这将上层无回填更新的准确度界限,以及更新增益的上限。2.4. 向后兼容训练我们现在专注于使用交叉熵损失进行分类的向后兼容训练设Φ为模型16371由两个不相交的权重集wc和wφ参数化。第一个参数化分类器κ,或模型的现在,交叉熵损失可以写为ΣL(wc,wφ; T)=− log κwc(φwφ(xi))yi。(四)(xi,yi)∈T注 意 , 分 类 器 κwc 可 以 采 取 许 多 形 式 , 从 简 单 的SoftMax [29,13]到最近提出的替代方法[17,34,35]。因此,通过求解得到旧模型φoldwcold,wφold=argminL(wc,wφ;Told).(五)W对于新模型φnew,虽然普通训练会产生wcnew,wφnew=argminL(wc,wφ;Tnew), (6)W为了确保向后兼容性,我们在损失中添加了第二项,它取决于旧模型的分类器:wcnew,wφnew=argminLBCT(wc,wφ;Tnew,TBCT),应用影响损失,是Told,它 被用来训练旧的嵌入φold。直觉是,由于旧模型φold与其分类器κold一起在原始训练集Told上优化,因此具有低影响损失的新嵌入模型将与旧模型的分类器一起Sifier,因此具有来自φold的嵌入向 量。TBCT的第二个选择是Tnw;这意味着我们不仅计算φold对旧训练数据的影响损失,也依赖于新的训练数据。然而,这种选择在计算{ x,w φ ; T,n,w}中的图像的损失值L(w,c,wφ;T,n,w)时提出了挑战|x∈Tnew,x∈/Told},这是由于类别的分类器参数未知。我们提出了两个规则计算损失值为这些im-年龄:合成分类器权重。对于T_n_w中不在T_o_d中的类集合中的类,我们通过计算平均特征来创建它们的“合成大小”分类器权重。在每个类中的图像上的φold的向量。 该方法受到使用类向量Φ i t的开集识别的启发,如Sect.2.1.在这种情况下,我们使用平均值作为集合函数。将新类别的合成分类器权重与现有的w_c级联,以形成影响损失项的分类器参数。知识升华。我们惩罚KL发散,W哪里(七)分类器输出在使用φnew和φold与现有分类器参数wc之间的概率。这就消除了向分类器中添加新类的要求LBCT(wc,wφ;Tnew,TBCT)=L(wc,wφ;Tnew)++λL(wcold,wφ;TBCT)。(八)我们称第二个术语为“影响损失”,因为它使解决方案偏向于可以使用旧分类器的解决方案。请注意,影响损失中的wcolding. 在此,TBCT是设计参数r,指的是我们应用影响力损失的图像。它可以是Told或Tnew。将Tnew用作TBCT的 方 法 将在第10节中介绍。2.5 注意,新模型和旧模型的分类器κ可以不同。我们调用这个方法-ward兼容训练,以及结果向后兼容表示或嵌入,我们将在下一节中进行经验评估2.5. 向后兼容训练(Backward在所提出的向后兼容的训练框架中,有几个设计选择。分类器的形式新模型和旧模型的分类器κnew和κold可以具有相同的形式,例如Softmax、角度SoftMax分类器[17]或余弦margin [35].它们也可以是不同的形式,这在提出更好的损失公式并应用于训练新的嵌入模型的情况下很常见。向后兼容性训练数据集。数据集TBCT的最直接的选择,我们在其6372对应于φold。后向兼容训练不限于cer-得到神经网络结构或损失函数。它只需要使用基于分类的损失来训练新旧嵌入模型,这在开集识别问题中很常见[35,14]。它也不需要修改旧模型的结构和参数。3. 实验我们评估了建议的向后兼容性训练在人脸识别中的有效性。我们从几个基线开始,然后在两个人脸识别任务上测试BCT导致向后兼容表示学习的假设:人脸验证和人脸搜索。最后,我们通过将其应用于多因素模型变化的情况,并显示它能够构建多个兼容的模型,展示了BCT的潜力。3.1. 数据集和人脸识别我们使用IMDB-Face数据集[33]来训练人脸嵌入模型。IMDB-Face数据集包含59 K名人的约170万张图像。对于开集测试,我们使用广泛采用的IJB-C人脸识别基准数据集[19]。它拥有来自3,531个身份的大约130k图像。IJB-C中的图像既包含静态图像,6373新新视频帧。我们采用两个标准的测试原型进行人脸识别:1:1验证和1:N搜索(开集)。对于1:1验证,提出了一对模板(模板包含来自同一个人的一个或多个人脸图像),并且需要算法来判定它们是否属于同一个人本方案的评价指标是不同错误接受率(FAR)下的真实接受率我们提出了重新-在FAR为10−4时的TAR结果。对于1:N搜索,一组模板首先被索引为图库集。每一次,查询集中的模板用于搜索索引模板。该协议的质量指标是在不同假阳性下的真阳性识别率(TPIR)识别率(FPIR)。我们给出了10−2FPIR下的TPIR结果。3.2. 实现细节我们使用8个NVIDIA Tesla V-100 GPU来训练嵌入式模型。嵌入模型的输入大小设置为112×112像素[37]。我们使用人脸错位和颜色失真的数据增强。重量衰减已设置到5×10−4,并使用标准随机梯度下降(SGD)来优化损失。初始学习速率设置为0的情况。1,下降到0。010 001和0。0001在8、12和更新执行回填,而不考虑成本和服务中断。请注意,更新增益仅在以下情况下有效:(2)满意。3.4. 基线比较要检验的第一个假设是BCT是否是必要的:有没有可能用更直接的方法实现向后兼容?在本节中,我们将试验几种基本方法,并验证BCT的必要性。独立训练的φnew和φold第一个健全性检查是直接比较独立训练的两个版本模型的嵌入。在[15]中对在同一数据集上训练的多个闭集分类模型进行了类似的 实 验 在 这 里 , 我 们 提 出 了 两 个 模 型 。使 用IMDBFace数据集的随机采样的50%ID子集训练φold [33]。新模型在完整的IMDBFace数据集上训练[33]。这模拟了当嵌入训练数据集的大小增加时新嵌入模型变得可用的情况。根据实验结果,我们将新模型命名为φ在Sect。3.5,表明它目前实现了在所有具有相同设置的新型号中精度最高。我们直接测试这对机型的兼容性分别为14个时期。训练在16个epoch之后停止。∗新 ,φ或d)按照Sect. 三点三批量大小设置为320。除非另有说明,我们使用ResNet-101 [8]作为主干,在其全局平均池化层发出128维特征向量,以及余量=0的余弦余量损失[35]。4作为我们实验中的损失函数。3.3. 测量向后兼容性基于人脸识别数据集上的个体测试的准确性,我们可以测试一对模型是否满足经验向后兼容性标准。对于一对模型(φnew,φold),在每个评估协议上,我们测试它们是否满足等式(1)。(二)、如果是,我们认为新模型与相应任务中的旧模型向后兼容 在使用IJB-C 1:N协议[19]进行测试时,我们使用新模型φnew来提取查询集的嵌入,使用旧模型φold来计算图库集的嵌入。 对于IJB-C 1:1验证协议[19],我们使用φnew提取对中第一个模板的嵌入,使用φold提取第二个模板的嵌入。到 评价 相对 改进 带来 由无回填更新,我们将更新增益定义为G(φnew,φold; Q,D)= M(φnew,φold; Q,D)− M(φold,φold; Q,D)。M(φ,φ结果如表1所示。1.一、在两种协议的向后测试中,我们观察到几乎0%的准确率。 非独立训练的φnew和φold不自然地满足我们的兼容性标准。2.2距离的朴素基线是否有效? 在第2.3节中,我们描述了在训练新模型时,在新旧嵌入之间添加0.2-距离作为正则化器的简单方法。我们使用上面相同的旧模型训练一个新模型,并在整个IMDBFace数据集上使用损失函数(3)训练新模型[3 3]。我们将这个模型命名为φnew−φ2,以反映它是向旧模型正则化的102-距离 的在先前基线中描述的相同的两个协议上,利用这对模型(φnew-φ2,φold)结果见表。1.一、我们可以观察到,这种方法仅导致略高于0%的向后测试准确度,这意味着ne w模型φnew−φ2远不能满足相容性标准一个可能的原因是,实施2002年的距离惩罚会产生一种偏见,这种偏见过于局限,允许新模型满足兼容性约束。3.5. 学习BCT∗新∗新 ; Q,D)−M(φold,φold;Q,D)(九)我们现在用建议的BCT框架进行这里,M(φε∗新 ;Q,D)代表最佳精度对于向后兼容的表示学习,从我们可以从新模型的任何变体中实现的水平由。它表示与执行无回填更新相比,从它的基本形式中所描述的节。2.4. 公司现采用国际与上一节中的旧模型相同对于新模型,我们用等式中描述的目标函数训练它。(八)、(φ,φ6374百分之新√Acc.新型号旧型号 数据额外丢失比较对IJB-C 1:1验证。IJB-C 1:N Retri.TAR(%)@FAR=10−4 TNIR(%)@FPIR=10−2老∗新- 百分百-(φold,φold)77.86 59.34φnew−φ2φold100%φ2距离φold对Tnew的(φnew−β,φnew−β)85.36 73.86φnew−β−sysφold100% Influenceloss onTnew新新(a) 不同向后兼容(新)模型的训练设置。表2:旧模型φold、BCT训练模型φnew−β、φnew−β−kd、φnew−β−sys和‘φ2老了典范/上限模型. 结果表明‘φ‘‘‘训练数据集。BCT不会导致显著的准确度下降,paragon/upper bound模型。观察26的更新增益。26%和44。1:1验证和1:N搜索方案的正确率分别为98%我们还评估了从[16]改编的基线方法比较对真的 是 否 兼 容 向后 更新帐户?增益(%)绝对增益用这种方法训练的模型表示为φnew−LwF. 它使用固定的φold及其分类器wcold来输出n个新添加的样本x∈Tnw\Told的软标签,(φold,φold)(下限) 七十七点八十六分--训练φnew−LwF的伪标签。 从Ta b。1b和1c∗新 ,φold)0.0 ×--我们可以看到,模型对(φ 新−LwF ,φold)并不─(φnew−φ2,φold)3.10 ×--建立了经验向后兼容性准则。显示-(φnew−LwF,φold)77.26(φnew−β,φold)(Ours)80.25×--26.262.39从不断学习中直接调整方法(φnew−β−kd,φold)(我们的) 80.34 27.252.48(φnew−β−sys,φold)(Ours)80.59 30.002.73ing任务不能开箱即用。 然而,它能够在一定程度上改进了反向比较AC,∗新∗新 )(上限)86.96--9.1curacy,这表明,知识蒸馏中使用的持续学习在BCT中可能是有用的我们进一步-(b) IJB-C 1:1验证任务的实验。 验证-测量精度评估指标为TAR(%)@FAR=10−4。在以下实验中考察其应用。BCT与新添加的训练数据。 在第2.5节中,我们比较配对搜索向后更新兼容?增益(%)绝对增益描述了BCT的两个实例,不断增长的嵌入训练集中的新类。的(φold,φold)(下限) 五十九点三十四分--首先是使用综合分类器,我们命名新的∗新 ,φold)0.0 ×--用这种形式的BCT训练的模型为φnew−β−sys。的(φnew−φ2,φold)0.50 ×--(φnew−LwF,φold)59.27×--第二,运用知识升华的思想,获得用于所述新类别的分类器参数,(φnew−β,φold)(Ours)67.23(φnew−β−kd,φold)(Ours)69.02(φnew−β−sys,φold)(Ours)70.7044.98 7.8955.11 9.6864.7711.36嵌入训练集。我们将用这种形式的BCT训练的新模型命名为φnew−β−kd。后面的墙-相容性试验结果总结见表10。1.一、我们可以∗新∗新 )(上限)76.88--17.54这两种新模式都可以实现向后兼容,(c) 在IJB-C 1:N搜索任务上的实验搜索精度评估指标为TNIR(%)@FPIR=10−2。表1:简单基线和我们提出的向后兼容性测试方法的说明。在面部搜索中,我们将每个比较对的第一个模型用于查询集,将第二个模型用于图库集,并且在面部验证中分别用于第一个和第二个模板。模型训练设置的详细信息如表1所示1a.我们报告方程中定义的9 .第九条。这个模型称为φnew−β 。 如Ta b所示。 1b和T a b。 1c中,模型pair r(φnew−β,φold)满足方程1c中的向后相容性准则。(二)、另外我们φ(φ(φ,φ(φ(φφ,φφnew−LwFφold百分之五十学习而不遗忘(φnew−β−kd,φ new−β−kd)84.9573.56φnew−βφnφold百分百百分百对Told的(φnew−β−sys,φ85.5886.9674.4076.886375能力 通过充分利用额外的训练数据,它们也导致了 更 高 的 更 新 增 益 ( 对 于 φnew−β−sys 为30.00%,对于φnew−β−kd为27.25%),与基本形式的BCT(对于φnew−β为26.26%)相比。BCT会影响新模型的准确性吗?一个自然的问题是影响损失是否对新模型的识别性能有害。我们通过在1:1和1:N协议上进行标准的人脸识别实验来该过程可被视为进行回填,或如第3.1节所述的典范设置。2.3 结果总结见表。二、我们可以看到,在这种情况下,没有BCT的训练仍然会产生最好的准确性。因此,我们将没有BCT训练的模型命名为6376新β新β新β√√新β新β(φ,φ)34.70 ×--旧(φ,φ)17.73 ×--老新β新β新β老新β(φCos−NS,φNS)81.8124.931.71(φCos−NS,φNS)71.1654.466.84新-β旧新-β旧新模式旧模式 培训数据使用 壮举. Dim. 模型弧分类器附加损失新−β新−β新−βoldCos−NSnew−βS旧Cos−S新−βφS老s onTold100% 128 ResNet-101 余弦裕度 对Told的(a) ‘使用ResNet-152作为主干,使用所提出的BCT的特征维度为256。‘旧新−β模型与余弦边缘分类器[35]和训练的BCT与φNS作为旧模型。 ‘’: using standard softmax loss as老损失老就像旧模型一样。新β比较配对验证落后更新绝对老比较配对搜索落后更新绝对Acc.兼容?增益(%)增益科目 兼容?增益(%)增益(φold,φold)(下B.)七十七点八六- -(φold,φold)(下B.)五十九点三十四分- -R152新β,φold)80.54√29.45 2.68R152新β,φold)68.71√53.42 9.37(φR152+256D,φold)80.9233.63 3.06(φR152+256D,φold)69.4557.63 10.11ReLU新β(φNS,φNS)(下B.)80.10-ReLU新β(φNS,φNS)(下B.)六十四点三十二分--旧的旧的旧的旧的新-β旧新-β旧S老S老 )(下B.)七十三点二十七分--S老S老 )(下B.)54.16---(φCos−S,φS)67.11 ×--(φCos−S,φS)45.46 ×--∗新∗新 )(上B.) 86.96--9.1∗新∗新 )(上B.) 76.88--17.54(b) IJB-C 1:1验证任务的实验。 验证(c)IJB-C 1:N检索任务的实验。搜索精度准确度评估指标为TAR(%)@FAR=10−4。评估指标为TNIR(%)@FPIR=10−2。表3:针对不同训练因素的BCT的稳健性分析我们用BCT训练新模型,网络结构、特征维数、数据量和监督损失。不同模型的训练详细信息列在选项卡中。3a.∗新 ,以表明它是实现最佳AC的典范当新模型在所有新型号的变体中精确度。请注意,模型用BC T的基本形式φnew−β 训 练,在这两个任务中只会导致不到3%的准确率下降。新的模型φnew−β−sys和φnew−β−kd进一步减小了间隙。3.6. BCT的扩展在下面的实验中,我们将探索BCT是否可以应用于不同类型的模型训练,并实现多模型兼容性。训练中的其他变化φnew。 除了增加嵌入训练集的大小之外,n-w模型φn-w可以具有新的模型架构(例如,,深度),不同的监督损失函数,或不同的嵌入将无法直接将其馈送到wcold。在这里,我们模拟-ply在向后兼容的训练和测试期间将新模型的前128个元素输入到w c old中我们尝试了另一种方法,在训练中添加线性变换器以匹配特征维度,但没有成功。我们还测试了改变几个因子以得到r的情况,记为φR152+256D。结果见表1。3 .第三章。BCT可以使大多数新模型在多个因素同时变化时也是向后这表明BCT可以作为实现向后兼容表示学习的一般框架。有两个失败的情况下,向后兼容-尺寸. 我们实验这些因素对1)(φCos−S,φS),其中新-β旧BCT。对于网络体系结构,我们使用ResNet-152 [8]而不是以前的例子中的ResNet-101 [8]旧模型使用Softmax损失[13],新模型使用余弦裕度损失[35];这可能是由于激烈的实验,表示为φR152. 就损失类型而言,我们损失函数形式的变化。和2)(φReLU,φold),使用Norm-SoftmaxLoss[34]测试旧模式l,φNS,它在新和余弦马氏损失[35]对于新的一个,φCos. 在模型 后者可能是由于分布的转变在嵌入维数方面,我们测试增加di-从128增加到256。 注意由新模型中的ReLU激活引入,使得非负φφφφ(φ(φ(φ(φ,φ,φ(φ,φ(φ,φφNS100% 128 ResNet-101余弦余量影响损失老-百分百128ResNet-101SoftMax-φold-百分之五十128ResNet-101 余弦余量-φR152φ旧百分百128ResNet-152 余弦裕度 对Told的φR152+256Dφ旧百分百256ResNet-152 余弦裕度 对Told的6377新新Acc.×新模式 旧模型数据附加损失φ1-25%-φ 2φ 150%对T1的影响损失φ 3φ 2100% 对T2的影响损失(a)“φ 1”:用25%的训练数据训练的第一版本模型。“φ 2”:第二版本模型在50%的训练数据上训练,BCT朝向φ 1。“φ 3”:在所有训练数据上训练的第三版本模型,其中BCT朝向φ 2。比较配对验证向后更新兼容吗?增益(%)绝对增益图2:多模型兼容性的可视化四十一点四十五分--实验结果 我们训练了三个模型φ1,φ2,56.3440.9014.89φ3。如图所示,以上在蓝色箭头上,我们标记了向后的compati-七十五点九十六分--(φ,φ)77.86--36.41在IJB-C 1:1人脸验证基准上的能力测试准确度,绿色箭头标记典范的准确度2∗2∗86.96--9.1设置.(φ3,φ3)(b) 在IJB-C 1:1验证任务上进行链更新能力测试。实现多模式和顺序兼容性。在这里,我们调查一个简单的情况下,三个模型版本。比较对搜索Acc.向后更新兼容吗?增益(%)绝对增益第一个版本φ1是用T1训练的,T 1是IMDBFace数据集的随机抽样25%子集[33]。的22.57---第二个版本φ2是用T2训练的,T2是50%的子集。和39.0044.6816.43第三个版本φ3是用T3训练的,T3是完整的IMDB。Face dataset [33].我们使用BCT和φ1训练φ2,56.07-(φ,φ)59.34--36.77φ3使用BCT和φ2。因此,在这个过程中,φ3不受φ1的直接影响。向后兼容性测试∗2∗2(φ3,φ3)76.88--17.54(c) 在IJB-C 1:N验证任务上进行链更新能力测试。表4:在用不断增长的数据量训练的三个模型之间的多模型兼容性实验。在选项卡中。在图4a中,我们展示了我们训练的所有模型的训练细节在选项卡中。4B和Tab。4c,我们验证了训练模型的兼容性。请注意,通过比较(φ1,φ2)、(φ1,φ3)和(φ2,φ3)来计算更新增益。结果显示在表中。4和图二、我们观察到,通过用BCT训练,即使φ1不直接参与训练φ3,最后一个模型φ3也与φ1传递兼容。它表明,多个模型之间的传递兼容性确实是通过BCT实现的,这可以实现嵌入模型的顺序更新BCT在其他开集识别任务中的应用。我们使用Market-1501 [46]基准验证了人员重新识别任务的BCT方法。我们用50%的训练数据训练了一个旧的嵌入模型[40],用100%的新训练数据训练了比较配对平均AP(%) 落后更新兼容?增益(%)绝对增益数据 搜索平均精度(平均AP)用作准确度度量。表5示出了反向计算(φold,φold)42.9-(φold,φ)26.7--(φold,φnew−β)45.0<$12.0 2.1(φnew−β,φnew−β)60.1-兼容性测试我们观察到,用BCT训练的φnew−β实现了向后兼容性,而不会牺牲自己的搜索精度。这表明BCT可以作为开集识别问题的一种通用方法。∗新∗新)60.3-4. 讨论表5:市场上的向后兼容性测试-1501 per-儿子重新识别数据集[46]。 型号φold,φ是我们已经提出了一种方法来实现向后-使用50%和100%的训练数据进行训练[40],没有BCT。φnew−β使用100%的训练数据和BCT进行训练。人物搜索平均精度(mean AP)是准确度度量。嵌入向量元素以与旧模型兼容。这表明,需要额外的工作来扩展BCT可以支持的模型集。兼容的表征学习,具体说明在-并将其与基线和典范进行比较。我们的方法有几个局限性。第一个是使用BCT训练的新模型相对于忽略先前约束的新模型虽然通过稍微复杂的BCT形式缩小了差距,但在表征和实现可达到的精度极限方面仍有工作要做。41.45%75.96%85.66%向后兼容!1次治疗25% ID训练!250% ID训练向后兼容训练!$100% ID训练56.34%80.40%53.98%(φ,φ(φ1,φ1)(φ2,φ1)√(φ3,φ1)53.98 34.41 12.53(φ1,φ1)(φ2,φ1)√(φ3,φ1)36.10 36.80 13.536378引用[1] Ejaz Ahmed,Michael Jones,and Tim K Marks.一种用于人员重新识别的改进的深度学习架构。在IEEE计算机视觉和模式识别会议论文集,第3908-3916页,2015年。2[2] Gagan Bansal , Besmira Nushi , Ece Kessels , DanWeld,Walter Lasecki,and Eric Horvitz.人类-人工智能团队的向后兼容性arXiv预印本arXiv:1906.01148,2019。2[3] Abhijit Bendale和Terrance E Boult。开放深度网络。在IEEE计算机视觉和模式识别会议论文集,第1563-1572页,2016年。2[4] Konstantinos Bousmalis , George Trigeorgis , NathanSilber-man,Dilip Krishnan,and Dumitru Erhan.域分离网络。神经信息处理系统的进展,第343-351页,2016年2[5] Q.曹湖,加-地沈,W。Xie,O. M. Parkhi和A.齐瑟曼。Vggface2:一个用于识别跨姿势和年龄的人脸的数据集。在自动人脸和手势识别国际会议上,2018年。2[6] 邓健康,贾国,薛念南,Stefanos Zafeiriou。Arcface:用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别会议论文集,第4690- 4699页,2019年。2[7] 阿尔伯特·戈多,乔恩·阿尔玛·赞,杰罗姆·雷瓦乌德,戴安·拉鲁斯.深度图像检索:学习图像搜索的全局表示。在欧洲计算机视觉会议上,第241-257页。施普林格,2016年。2[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition,第770-778页,2016中。一、五、七[9] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失,进行人员重新鉴定。arXiv预印本arXiv:1703.07737,2017。2[10] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。2[11] Weixiang Hong , Zhenzhen Wang , Ming Yang , andJunsong Yuan.用于结构化域自适应的条件生成对抗网络。在IEEE计算机视觉和模式识别会议论文集,第1335-1344页2[12] Saihui Hou , Xin
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功