没有合适的资源?快使用搜索试试~ 我知道了~
7171TTTT任务自适应负设想的少镜头开放集识别Shiyuan Huang黄嘉伟 Ma黄广兴 Han Shih-Fu Chang张世福Columbia University哥伦比亚大学{shiyuan.h,jiawei.m,gh2561,sc250} @ columbia.edu摘要我们研究了少镜头开集识别(FSOR)的问题,它学习一个识别系统,能够快速适应新的类与有限的标记样本和拒绝未知的负样本。传统的大规模开集方法在求解FSOR问题时,由于数据的限制,已被证明是无效的。目前的FSOR方法通常校准少数镜头闭集分类器,使其对负样本敏感,1.00.80.60.40.20.01050-5-10少镜头原型肯定的询问阴性原型否定查询通过阈值处理被拒绝。然而,阈值调整是一个具有挑战性的过程,因为不同的FSOR任务可能需要-10-50510-10-50510-10-50510不同的排斥力。在本文中,我们反而提出了任务自适应负类设想的FSOR集成阈值调整到学习过程中。具体来说,我们增加了少镜头封闭集分类器与额外的负原型从少镜头的例子。通过将少数镜头类相关性在负生成过程中,我们能够学习FSOR任务的动态rejec- tion边界。此外,我们将我们的方法扩展到广义少镜头开集识别(GF-SOR),它需要对多镜头和少镜头类进行分类,以及拒绝负样本。在公共基准测试上的大量实验验证了我们的方法在这两个问题上。11. 介绍随着大规模图像数据集的出现[4,5,23],深度学习在各种视觉任务中取得了巨大成功[3,15当前的识别系统通常假设具有足够数量的标记数据的预定义的类集合。每个测试样本都应该属于这些预定义的类,以便系统只需要执行闭集分类。在现实世界的应用中,我们面临着更具挑战性的识别场景。首先,由于数据收集的高成本以及对敏感或稀有数据的访问可能有限,很难保证少样本1代码可在https://github.com/shiyuanh/TANE图1. (Up)对于少镜头开集识别(FSOR)任务1和2中的每个少镜头类,我们计算阴性和阳性查询的检测分数(相似性),并找到它们的平均值和标准差。(We对两个任务使用相同的否定查询然而,否定查询可能具有与肯定查询相似的检测分数(由红框突出显示)。(向下):此外,为了拒绝否定查询,现有的FSOR方法依赖于手动选择的阈值。然而,对于1正常工作的拒绝阈值可能在2中失败。相反,我们建议学习一个消极的原型,自动估计一个任务自适应阈值的消极检测。学习[6,37,40,43](FSL)通常通过快速适应识别系统以访问很少的(例如,只有一个)标记的实例。但是FSL仍然保持闭集假设。另一方面,存在赋予识别系统处理分布外测试样本的能力的努力。开集识别(OR)[1,11,25,35,36]考虑了在大规模训练环境下测试样本可能来自其他未知来源的情况。而不损失对闭集查询进行分类的能力(即,肯定查询),它还需要检测来自未知类的查询(即,否定查询)。当前的OR方法通常通过校准预测分数或合成否定查询来学习开集分类器它们依赖于大量的数据来避免过拟合和正确估计分布。但是,只有少数标记的情况下,它变得很难做到这一点。因此直接应用任务“1任务“2c11c 12c 13c21c 22c 23(a) !1例(平均值)(b) !2(平均值)(c)!2(我们)7172在少数激发设置下的OR方法显著降低性能[20,24]。我们的目标是开发一个解决这两个挑战的模型,即,少镜头开集识别(FSOR)。FSOR的目标是:1)接受识别来自具有很少标记样本的少数镜头类的正查询,以及2)检测来自未公开(负)类的负查询先前的FSOR方法[20,24]提供了基于元学习的解决方案,用于学习基于阈值的负检测器。他们校准少镜头的封闭集分类器,并输出每个测试样本的拒绝分数如果拒收分数高于必须手动定义的某个拒收阈值,则拒收样本然而,如图1所示,良好的识别性能在很大程度上依赖于阈值的良好选择:(a)少量分类器对于否定查询和肯定查询可能具有相似的检测分数,其中需要单独设置不同的阈值;(b) 为了拒绝否定查询,阈值对于一个任务适当地工作可能在其他任务中失败总之,阈值调整可能是一个具有挑战性的过程,因为不同的FSOR任务包含不同的少数拍摄类,可能需要非常不同的拒绝权力,以确定离群值。在本文中,我们建议将阈值调整集成到FSOR的学习过程中。我们扩展了少数镜头分类器与额外的原型,代表负类。具体而言,负生成器应用于少数镜头类原型,并通过元学习跨任务学习负原型,以便负原型可以作为不同FSOR任务的任务自适应拒绝边界。如果所有少数镜头类的预测分数低于负原型的预测分数,则拒绝测试查询我们研究了否定生成器的设计,并通过实验证明了一个最优的解决方案,涉及到负原型设想的任务级信息。本文还引入了FSOR共轭任务的概念,如果两个FSOR任务中的一个任务中的少炮类可以用来模拟另一个任务中的未知源,为此,我们提出了一个共轭训练策略,以促进学习过程。此外,我们考虑了一个新的,但更具挑战性的问题,广义FSOR(GFSOR),其中识别系统需要分类的多镜头和少镜头类,以及拒绝负样本。在这种情况下,负原型从多镜头和少镜头类中生成我们将我们的学习负原型的方法命名为任务适应性负类想象。我们的方法进行了验证,广泛的实验公共基准FSOR和GFSOR问题。概括而言,我们的贡献如下:1. 我们提供了一个无阈值的解决方案,少数镜头开集识别(FSOR),在那里我们扩展类sifier与负原型计算任务自适应拒绝边界。2. 我们提供了一个负原型生成器设计的研究,并通过实验证明了一个最佳的解决方案,涉及任务级知识的负面envision。此外,我们提出了一个有效的和新颖的训练策略,共轭训练,以促进学习过程。3. 在公共基准上进行了广泛的评估,我们的方法能够达到SOTA性能。我们进一步制定的广义FSOR问题,我们的方法也被证明是有效的。在下面的章节中,我们将讨论FSL、OR和FSOR中的相关文献(Sec. 2); In Sec. 3.我们主要定义了FSOR和GFSOR任务,并回顾了现有的基于阈值的元学习解决方案。节中4.提出了任务适应性消极设想的方法最后,在SEC。5我们展示了我们的方法的实验分析和结果。2. 相关作品少射学习。FSL的目标是快速适应新的识别任务,只有很少的标记的例子。元学习被广泛用于使用情景训练来学习一组任务上的可转移知识。 元学习方法主要有两种:1)。基于优化的方法[6,7,28,38]修改了梯度反向传播,使得参数更新对少数训练样本更敏感;2)。基于度量的方法[12作为FSL的扩展,广义FSL(GFSL)[10]学习使用少量训练数据扩展具有新类的多镜头分类器两个(G)FSL都保持闭集假设,其中测试查询属于新类(或GFSL中的多镜头类)。我们的工作,而不是扩展(G)FSL的开集设置。大规模开集识别。 或旨在学习 一个对来自未知类的否定查询敏感的分类器。OR方法通常包括类别概率重新校准[1,21,36]和具有生成方法的负样本合成[8,27]。这些方法通常假设大量的训练数据。与我们最相关的工作[49]还提出了增强分类器以学习自适应拒绝阈值。但它依赖于大规模数据从头开始训练增强分类器,而我们的基于少数几个类生成负面原型。将OR方法直接应用于少射设置失败或降低性能[20,24],主要是由于过拟合。相反,我们的工作提供了一个少数镜头特定的OR解决方案来处理有限的数据。7173我我我我少镜头原型生成gn(.)少镜头原型生成!M1!M2检测评分!$检测评分|C||∈ C|∈ C∈CΣc∈Q∈R{··S SQ Q QQ联系我们|CCCC是belo wθm,i. 例如,max{fs(f(q),pc)}c∈Cf<θm。(a) 少镜头开集识别Task-Adapt ve Negat ve Env s on(Ours)f=N,c=K,对于所有cF. 简单地说FSOR和传统FSL任务之间的唯一区别在于FSOR具有需要被拒绝的附加否定查询现有的FSOR方法[20,24]建立在流行的基于度量的FSL方法ProtoNet [37]上,我们的方法也遵循相同的方式。下面我们将提供更多关于ProtoNet的内容。ProtoNet [37]学习基于原型的少数镜头类,(b) 广义少镜头开集识别(带负预想)更好。详细地,每个少镜头类cf由原型pc表示,原型pc由K支持fea的平均值计算。tures:p=1s∈S f(s),其中f是特征提取器和f(s)d。然后,所有的原型Pf= pcc∈Cf建立一个闭集分类器,其中肯定查询qf可以通过最近邻域搜索进行分类,即阿拉格马克斯角{fs(f(q),pc)}c∈Cf<$,(1)图2. (a)比较传统的基于阈值的FSOR方法和我们的负设想。如果所有类别的检测分数都低于精心选择的阈值(θm1),则传统方法会拒绝样本。另一方面,阈值(θm2)的选择不当会导致识别失败.相反,我们建议设想一个负原型,以学习在任务内动态地估计每个实例的阈值(θa)。(b)对于GFSOR任务,负原型是从多镜头和少镜头原型中生成其中fs(i)是测量两个输入之间的接近度的函数,例如,余弦相似度为了学习开集分类器,现有的FSOR方法[20,24]校准少量闭集分类器以获得每类检测分数并通过阈值处理拒绝如图2(a)所示,对于基于阈值的FSOR方法,ods,需要手动设置阈值θ m,并且否定查询q ∈ Qn将是r。如果所有的检测分数少镜头开集识别。为了桥接FSL和OR,最近[24]为FSOR提供了一种基于元学习的解决方案,该解决方案在元训练过程中引入了开集损失,以校准基于少量原型的分类器。[20]通过对少量样本施加变换一致性正则化来改进[24]中负采样的限制然而,他们的方法是基于阈值的,这需要仔细选择阈值来执行良好的识别。相反,我们提出了一个无阈值的解决方案来克服这一挑战。3. 问题公式化少样本开集识别(FSOR)的目标是:1)检测来自未知来源的否定查询,2)正确分类肯定查询。形式上,FSOR任务可以表示为=(,f,nf),其中f指的是具有很少标记训练样本(也称为支持)的少数样本类:=c∈Cfc。我们的目标是学习一个具有支持度的识别模型,以便在测试期间,它可以成功地分类肯定查询f并检测否定查询n. 我们表示=Fn作为整个查询集。我们称一个FSOR任务为N-wayK-shot,如果我们有除了FSOR任务之外,我们还考虑了更现实的情况,其中少镜头类f和多镜头类f都不存在(即,包含大量的标记数据),导致不平衡的分布。为此,我们制定了广义少镜头开集识别,点火(GFSOR)任务T=(S,Q,Qf,Qn|其中Q是来自C的查询。我们的目标是正确地分类QQf和拒绝否定查询Qn。类似地,我们称GFSOR任务为N-wayK-shot,如果我们有一个|CF|=N和|= K,对于所有c ∈ C f。|=Kfor all c∈Cf.4. 方法在这里,我们提出了我们的无阈值方法,以实现(G)FSOR。 我们首先概述了如何使用负向想象来估计任务适应性拒绝边界;然后,我们提供了一个在实践中使用的负生成器的列表;最后,我们介绍了共轭训练,它鼓励任务相互监督的学习过程。4.1. 概述图2提供了我们的任务自适应消极设想方法的概述以及它与基于阈值的方法的比较。基于标记的方法[20,24]计算每类检测分数并手动定义阈值被拒绝如果没有为每个任务精心挑选的阈值,就少镜头原型生成多镜头原型生成g(. )的方式n!$少枪训练样本多镜头列车样本负类测试样品原型KC7174·CCCSC·Σ∈CE∈Rmax{fs(f(q),pc)}c∈Cf<θa。因此,拒绝-Cf。我们把我们的ATT-G发生器建在一个受欢迎的CavgG我E∈R在不同的任务(图2(a))。相反,我们用负原型p−来扩展类化器,它是通过一个负生成器gn()从少量类原型Pf中计算出来的。当一个查询进入时,它θ a=f s(f(q),p−).(2)然后。,否定查询<$q ∈ Qn将被拒绝,如果ATT-G上述生成器适用于FSOR问题。现在我们考虑更具挑战性的GFSOR任务。直接采用上述方法可能会导致偏向*作为IBM有大量的训练样本和原型与少量拍摄的原型Pf相比,Pf可以更好地估计。因此,我们需要另一个与GFSOR兼容的负生成器,它应该同时处理C++和C++。相对于少数镜头类F和支持实例动态地估计ARIES。我们的方法也可以应用到GFSOR任务中,其中负原型是从少镜头和多镜头类原型生成的,以获得关于少镜头和多镜头类的任务自适应阈值。4.2. 负发生器GFSL方法[10],它使用注意力机制来校准具有P的少量原型Pf。具体来说,我们遵循[9,10,41],首先在大规模分类任务下使用标记的样本训练网络(即,预训练),并使用最后一个线性层中的权重作为多镜头类原型P。然后,我们应用Pf和P之间的注意力块来生成负原型p−,即,为了找到最好的负生成器gn(),我们探索不同的选择,我们在下面详细描述。1fA(Pf,P)=d(PKq(P<$Kk)T)、(4)4.2.1MLP我们从一个简单的生成器开始,它由应用于平均类原型的单个MLP层组成,即,P′=Pf+σ(A(Pf,P))(P<$Kv),(5)而p−的计算类似于将P′的平均值送入MLPfn。此外,我们p−=fn (p−avg),p−avg=1Npcc∈Cf(三)在Pf之上的机制:其中f是一个MLP,取p−,Pf的平均值,如p′=p12016年10月24日,(p))、(6)因此p−与原型阶数无关。同时,我们将p−a vg设置为朴素基线(AVG),因为p−a vg也是阶无关的。4.2.2ATT变压器[42]被证明是有效的利用关系,这也是独立于输入顺序(无位置编码)。我们在几个类原型上应用标准的Transformer注意力块来生成否定原型。具体来说,我们计算类原型之间的自我注意力权重,即,其中,和f表示逐元素乘法和sigmoid运算,并且fg是全连通层。然后,我们使用更新的Pf′来代替等式中的输入Pf4.第一章最后,我们遵循多镜头原型P、少镜头原型Pf和负原型p−的顺序来构建GFSOR任务的开集分类器,其中P是预训练后最后一个线性层中的权重4.2.4SEMAN-G受最近跨模态FSL作品的启发[22,45],我们进一步-1fA(Pf,Pf)=Pdd(PffKq(Pf Kk)T),探讨类语义如何帮助对否定类进行建模。具体地说,我们在A T T - G之上使用了一种跨模态注意力机制。F或每个类c∈Cf <$C<$,我们其中(Pf,Pf)E ∈ R| C| ×| C|是注意力权重连接PC用它的词嵌入ec∈ Rwalong和Kq,Kkd×d是可训练的线性投影核。然后,我们将权重和输出进行P′=Pf+σ(A(Pf,Pf))(PfKv),其中σ(·)是A(Pf,Pf)中每个r w的softmax函数,Kvd×d是另一个可训练的线性投影核。然后,我们将P′的平均值馈 送到MLP函数f n,以获得负原型p−。nCN−1i∈Cf\{c}Σ7175E∈R将channe l转换为hav ezc=[pc,ec]w+d。 然后,我们使用Zf和Z代替等式中的Pf,P。4计算注意力。坚持EQ。5以P*作为输入,因为我们仍然在比较视觉特征以进行识别。4.2.5多重否定原型此外,我们可以很容易地从单负代扩展到多负代。我们特别7176i=1i=1}不∈Fq∈QC DQC CC− C| C|Σ11不其中Q1222neg|Qc,1|fc,1公元前SC11112222212121212.{ffffffF1可以学习一组生成器{gn,i}M以生成多个Qf<$Qn来执行(N+ 1)路分类。为每个为 每 项 任 务 设 置 消 极 原 型 对 于 ATT 、 ATT-G 和SEMAN-G,为了减少可训练参数的数量,我们选择共享atten中的线性投影核用于计算P′的机制,但只是单独训练MLP{f n,i}M以合成多个阴性原型。正查询q∈ Qf,我们学习通过最小化LCE(yq,q)来最大化其标签类别的类得分,其中yq∈{1,…, N}是q的类标签。对于每个否定查询q∈Qn,我们将其地面真值标签设置为N+1,并通过最小化LCE(N+ 1,q)来最大化阈值θa。 期间这样,我们得到多个阈值{θa,i}M。则共轭训练,我们考虑负最大阈值θa=maxθa,i开集识别的最终阈值Mi=1i=1被用作在[20]中提到的采样。不失一般性,对于属于T中的类Cn∈ C的肯定查询q∈ Q,4.3. 共轭训练在这里,我们提出了我们的共轭训练策略(G)FSOR。共轭训练建立在标准FSOR元训练方法的基础上[24,37]。我们首先介绍标准的FSOR元训练,然后介绍我们的方法。4.3.1标准FSOR元训练标准FSOR元训练策略[24,37]通过从给定的基础数据集DB。具体来说,它训练一组任务sam-它被用作否定查询,并被训练为具有高与1中的否定原型相似。简单的分类损失,阴性原-类型被优化以学习特定任务的严格拒绝边界。此外,对于基于注意力的生成器,我们还将中间变量P′正则化为类-具体的负面原型。 对于每个原型p′cP′由一个正原型pc生成,我们可以把p′c看作类c的负原型。然后,对于每个p′c,我们最小化它与c类查询的相似度,并最大化否定查询相似度的二进制交叉熵损耗L从图像来自的基础数据集DB中提取基本类CB 在N路K次FSOR任务T中,公元前L(c)=1L(0,f(f(q),p′))类N,即,nBf其中n=N,然后从B中随机采样属于n的图像,n。然后,使用目标(通常为1+|Qn|q∈QnLBCE(1,fs(f(q),p′c))在抽样范围内的开放式确认损失。标准的FSOR元训练可以推广到GFSOR。用于fc,1标签={q|q∈Qf,yq=c},yq表示类GFSOR任务T,我们可以从CB中采样Cf和C,然后将未知源模拟为Cn<$CB−(Cf<$C)Q. 最后,不失一般性,对于T1,共轭任务对(T1,T2),我们有哪里|Cn|= N. GFSOR的培训目标可能是fn1指定学习GFSOR的模型。注意,在推断时间(即, 元测试),任务从LT1=LCE(Q1<$Q1)+|C1|c∈CfLneg(c),(7)新数据集DN,其中图像来自类别CN并且总共轭训练损失为L=LT1+LT2。并且在元训练期间看不到来自CN的样本,即,C B C N=。类似地,对于在GFSOR任务上训练的网络,给定一个共轭任务对(T1,T2),我们有4.3.2共轭任务L*=L(QQfQn)+1FL(c),1共轭训练的思想是对任务对进行采样,T1型CE1 11|C 1|c∈Cfneg一个任务的几个镜头的例子被用作否定另一个的来源。 形式上,我们定义两个任务T1=其中,否定查询的类标签是N +1 +1。|C*|、总损失为L =L1+L2。 这样一来(S,Qf,Qn|Cf)和T=(S,Qf,Qn|Cf)作为共轭任务对,当Qn=Q和Q=Qn时,即,T(T)中的少数镜头类C(C)被用作任务T2(T1)中的负源。此外,对于共轭GFSOR任务对(T1,T2),T1和T2共享相同的多镜头类C及其查询Q。4.3.3共轭训练损失我们使用标 准 的跨部门损失LCE ( ·, ·)[26]。F或FSOR任务T,我们使用余弦相似度作为fs,并使用未知源使用不同的NΣ7177我们的共轭迭代法是在T-C类T相关的基础上,网络培训5. 实验和分析5.0.1数据集对于FSOR任务,我们评估两个广泛使用的pub-licbenchmarks : MiniImageNet [43] , TieredImageNet[33]。MiniImageNet [43]包含100个类,(元训练,元验证,元测试)的类划分为(64,16,20)。每个类有600个图像。TieredImageNet7178×4000300020001000045403530(一).模拟FSOR任务0.0 0.2 0.4 0.6 0.8 1.0最佳拒绝阈值(b).不同开放度下的开放再认绩效ATT-GMLPDynamic+PEELERPEELER17.5 20.0 22.5 25.0 27.5 30.0 32.5 35.0开放在负原型发生器中。整个网络使用SGD优化器针对18k个任务进行训练,其中当验证精度饱和时,学习速率衰减。在元测试期间,我们按照[20,24]随机抽样600个任务,并报告所有指标的平均值和95%置信区间。我们使用余弦相似度[10]作为相似度函数来计算每个类别的预测得分。对于FSOR评估,我们按照[24]对训练和测试任务进行采样,其中我们设置N= 5和K=1,5。对于每个任务,我们从每个少数镜头类中抽取15个对于阴性检测,我们对5个阴性类进行采样,每个类包含15个阴性查询。对于每个GFSOR任务,除了来自少数镜头和负类的查询样本外,我们为基类选择75个查询样本(每个类至少有一个样本)。图3. (a)最佳拒绝阈值的分布,Dynamic+PEELER on Mini-ImageNet. (b)不同开放度下开放识别绩效的比较。表1. Mini-ImageNet上5路1次FSOR任务的F1分数比较。答:我们的执行。Neg. 将军0.30.50.70.9削皮器动态+剥离三十四01三十八岁。19四十71±0。59四十五34±0。6441岁4444. 10三十五30三十95Neg. 将军单一阴性多重阴性AVGMLPATTATT-GSEMAN-G四十五6 ±0。71四十六岁。12±0。74四十六岁。38±0。73四十七03 ±0. 74四十七95 ±0。72-四十七21 ±0。72四十七29 ±0。70四十八19 ±0。7150块10 ±0。69[33]包含608个类,类分裂为(351,97,160),而基础数据集包含约450K图像。我们在MiniImageNet上评估GFSOR [43],并在元训练期间将基类设置我们遵循[10]并为GFSOR模拟的每个基类两个数据集的所有对于SEMAN-G,我们使用GloVe [30]提取单词嵌入。数据集的更多细节可以在supp. 材料5.0.2实现细节我们使用ResNet12 [19]网络作为功能骨干。在[9,41]之后,我们使用学习率为0的SGD优化器在完全监督分类任务下对ResNet 12和具有交叉熵损失和自监督旋转损失的分类器(线性层)进行了90个epoch的预训练。05在第60个时期衰减了10。线性层中的权值被用作ATT-G和SEMAN-G的基类多镜头原型类型P。通过实验,我们可以互换使用术语基础和多镜头。在元训练期间,学习率设置为0。0001用于ResNet12特征提取器,0. 对于所有其他铺设-按照[43]中的设置,我们随机抽取1000个5路GFSOR任务,以学习为64个基类和5个新类的并集生成一个开集5.0.3度量为了测量标准的闭集分类性能,我们报告了FSOR任务在几个镜头类上的top-1准确度。对于GFSOR,我们遵循[ 32,46 ]中定义的方案,并报告基础样本平均准确度和新样本平均准确度之间的算术平均值和调和平均值。此外,我们报告了预测值来衡量特定类(基础类或新类)之间的预测和所有组合类之间的预测之间的准确性下降,其中更好的分类器应该平衡预测并且具有低的预测值。为了测量阴性检测性能,我们按照[20,24]中的方案报告AUROC(ROC曲线下面积)。为了测量整体开集识别性能,我们遵循[49]中的协议,报告所有多镜头/少镜头和负类的宏观平均F1分数5.1. FSOR结果5.1.1负发生器我们首先在Tab中比较FSOR任务中负生成器的不同选择。1.一、请注意,ATT-G和SEMAN- G也可以应用于FSOR,并与其他方法进行比较,因为所有模型都只使用基本集(包括基本原型)进行训练我们可以看到,基于注意力的方法是有效的,因为他们善于建模类间关系的否定生成。添加类别语义信息也有利于区分。同时,通过启用多个阴性原型,即,M= 5时,我们可以更灵活地自动估计阈值θa,然后在生成单个负原型M= 1时进行比较时,在F1分数中实现一致的性能增益。对于下面的实验结果,我们将我们的方法设置为M= 5任务数F-score7179表2. 5-方式1-shot和5-shot FSOR结果。答:我们的执行。算法MiniImageNet,5路TieredImageNet,5向单次拍摄5次射击单次拍摄5次射击ACCAUROCACCAUROCACCAUROCACCAUROCProtoNet [37][47]第四十七话六十四01±0. 8867岁02 ±0.8551岁81±0。93五十七01±0. 84八十0982岁02六十岁。3963岁1868岁26七十52六十岁。7363岁5483岁4084. 74六十四96七十74OpenMax [1][27]第二十七话63岁69±0。8463岁7 ±0。8362. 64 ±0。80六十四17±0。88八十5681. 44±0。5462. 27七十一58±0。7668岁28七十08±0. 94六十岁。13七十一04±0. 8083岁48八十五36±0。60六十五5178岁66±0。62[24]第二十四话[20]第二十话[20]第二十话六十五86±0。8566岁。60±0。8067岁60±0。83六十岁。57 ±0。83七十17±0。8869岁。40±0。92八十6181. 7782岁3667岁35七十六。66七十六。1569岁。51七十45七十85六十五2074岁8474岁9584. 1084. 42八十五23七十三。2782岁03八十81ATT(我们的)ATT-G(我们的)SEMAN-G(我们的)67岁64±0。8168岁11±0。8168岁24±0。82七十一35±0。68七十二41±0。72七十二85±0。6982岁31±0。4983岁12±0。4883岁48±0。4879岁。85±0。5879岁。85±0。5782岁07±0.5869岁。34±0。95七十58±0。93七十一06±0. 92七十二74±0。78七十三。43 ±0。7874岁27±0。7783岁82±0。63八十五38±0。6186岁。02±0. 5878岁66±0。6581. 64 ±0。6382岁59±0。57表3. 5-方法在Mini-ImageNet上推广了几次开集识别结果。[18]第18章:我的心我们的实现。算法单次拍摄5张单次拍摄5张1发5发艾里斯是说∆艾里斯是说∆调和平均AUROC[32]第三十二话五十四95±0。311个国家。8463岁04 ±0.310个。66------67岁56±0。17----七十二86 ±0。11L2ML [44]四十六岁。25 ±0。04二十七岁49四十五81±0。03三十五53二、98±0。061 .一、12 ±0。04ProtoNet2†五十三93±0。08二十二岁09七十二64±0。0811个国家。41二十七岁73 ±0。1968岁99±0。11城堡[18]66岁。48±0。119 .第九条。94七十六。25 ±0。098. 14六十四29 ±0。1475.79±0。1[10]第10话六十岁。85 ±0。1412个。97七十三。1 ±0。1310个。92六十岁。13±0。1369岁。8±0。09ATT-G(我们的)六十五49±0。1311.2575. 51 ±0。1010.9763岁94±0。12七十三。89 ±0。12七十三。12 ±0。16七十七。22 ±0。13SEMAN-G(我们的)66岁。83±0。1110个。24七十七。02±0. 089 .第九条。78六十四77±0。1275. 62 ±0。09七十三。55±0。1478岁22±0。115.1.2与基于阈值的分类器的对于基于阈值的方法,阈值调整是至关重要的,以获得良好的识别性能。为了评估过度-开放= 1−2|CF|2|CF|+的|Cn|所有的开集识别,我们比较宏观加权F1得分。对于基于阈值的方法,我们定义不同的阈值,并计算相应的F1分数。我们在两个表中说明了我们的结果。图1和图3(a),其中我们考虑两个基于阈值的分类器PEELER[24]以及PEELER和我们的ATT-G方法基线的组合,动态[10],其用基类原型校准新原型。具体来说,我们在Dynamic的基础上应用了PEELER在图3(a)中,我们模拟了45k个FSOR任务,并找.7180|C||C|到了基于阈值的方法Dynamic+PEELER的最佳拒绝阈值θm。我们绘制了θm的分布,这表明它覆盖了0到1.一、它表明,不同的FSOR任务可能需要非常不同的拒绝阈值在实践中与电流基于阈值的方法。整体识别性能在很大程度上取决于阈值的选择,如Tab. 1.一、相反,我们的方法自动学习任务自适应拒绝边界,我们可以从Tab中看到。1,我们所有的负面设想实例化都优于基于阈值的方法。图3(b)进一步分析不同开放度下的识别行为[39]:其中我们固定f= 5,n从5变到15。同样,我们测试了600个随机选择的FSOR任务,并取平均值。如图所示3,我们的方法在所有开放水平上都明显优于基于阈值的方法5.1.3与SOTA方法的比较我们比较我们的方法与其他SOTA方法。我们比较的基线包括标准FSL方法(ProtoNet,FEAT),大规模OR方法(OpenMax,CounterFactual)和现有的FSOR方法(PEELER,SnaTCHer)。我们引用了[20]中的大部分 基 线 结 果 , 并 与 CounterFactual 进 行 了 比 较 ,CounterFactual是一种生成式OR方法,它合成了假阴性图像,然后训练了N+ 1个分类器。为了应用于我们的FSOR设置,我们首先在基集上训练其GAN网络,并使用支持集来合成假图像。平均后的伪图像特征被用作FSOR的负原型。选项卡. 2显示结果。标准FSL方法由于其闭集性质而在阴性检测中表现不佳。大规模OR方法产生不令人满意的性能,特别是在1-shot分类上。有趣的是,7181×表4.共轭运动训练的深入研究。我们报告5路1杆FSOR结果使用ATT-G在两个数据集上的三个指标数据集度量不含结合物含结合物MiniImageNetACCAUROCF1得分66岁。28±0。8468岁11 ±0。81七十一80±0。77七十二41±0。72四十六岁。94 ±0。68四十八19±0。71分层ImageNetACCAUROCF1得分七十08 ±0. 94七十58 ±0。93七十一84±0。82七十三。43 ±0。7850块23 ±0。7751岁56 ±0。81CounterFactual在负检测上给出了相对公平的性能,这也验证了我们的负设想概念。但它ATT-G和SEMAN-G 在 Mini-ImageNet 上 的 性 能 优 于 其 他 方 法 , 并 在Tiered-ImageNet上得到了相当的结果。5.1.4共轭训练选项卡. 4显示了共轭训练的影响。我们观察到所有指标和数据集的一致改进,验证共轭训练通过实现两个任务的相互监督有效地促进了5.2. GFSOR结果在选项卡中。3.在GFSOR任务上,我们将ATT-G和SEMAN-G与其他标准方法进行了比较。在更具有挑战性的GFSOR设置下,我们实现了与SOTA方法相当的GFSL分类准确率,并显着提高了测量阴性查询检测的AUROC得分此外,由于GFSL方法没有被训练来设想否定原型,但是在评估期间有更多的类要识别,因此手动设置阈值以拒绝否定查询同时保持高分类准确性将是具有挑战性的。因此,有必要学习为GFSOR的每个查询动态生成阈值5.3. 更多的实验我们进一步在两个少量基准数据集上进行FSOR实验:CIFAR-FS [2],FC 100 [29]。CIFAR-FS [2]包含100个类,类分为(64,16,20)。FC 100 [29]包含100个类,类分裂为(60,20,20)。每个类有600个图像,两个集合的所有图像的大小为32 32。如Tab.所示图5和图6中,我们将我们的方法与基于阈值的方法和直接应用大规模开集识别方法进行了比较。和泰伯的一致2、对于低分辨率数据集,该方法在分类准确率和否定查询拒绝率上都达到了最好的性能,再次证明了该方法的有效性。表5.5路FSOR结果CIFAR-FS。答:我们的执行。单次拍摄表6. 5-FC 100上的FSOR结果。答:我们的执行。单次拍摄6. 结论在这项工作中,我们展示了基于阈值的方法在少数开集识别中的局限性,其中不同的任务可能需要非常不同的拒绝阈值,因此调整过程可能具有挑战性。为此,我们提出了我们的任务自适应消极展望的方法对(G)FSOR,负原型计算从几个/多杆类的例子。我们研究了否定生成器的不同设计,发现基于注意力的否定生成器效果最好,添加类语义进一步提高了性能。我们还引入了一个新的共轭类训练策略,以更好地促进学习过程。大量的实验证明了我们的方法的有效性。我们注意到我们假设负面来源仅是来自其他类别的图像的局限性。其他可能的负源包括例如来自不同领域的数据、对抗性数据等。我们将把这些问题留给未来的工作和研究,它们会影响我们的方法。7. 确认本研究基于英特尔高级研究项目活动(IARPA)通过内政部/内政部商业中心(DOI/IBC)合同号D17 PC00345支持的工作美国政府被授权复制和分发再版政府的目的,而不受任何版权注释。免责声明:本文所载的观点和结论是作者的观点和结论,不应被解释为必然代表IARPA,DOI/IBC或美国的官方政策或认可,无论是明示或暗示。政府的算法5次射击ACCAUROCACCAUROCOpenMax [1]七十一6550块21八十五6675. 78[27]第二十七话七十一71七十二57八十五71八十44美国[24]七十一47七十一28八十五4675. 97动态[10]七十一5666岁。89八十五78七十六。03算法5次射击ACCAUROCACCAUROCOpenMax [1]44. 7050块10六十岁。11五十七78[27]第二十七话44. 53五十七2061岁1262. 35美国[24]44. 4555. 86六十岁。8661岁077182引用[1] Abhijit Bendale和Terrance E.博尔特开放深度网络。在IEEE Conf. Comput.目视模式识别,2016年。一、二、七、八[2] 放大图片作者:Luca Bertinetto,Joao F.亨里克斯,菲利普·托尔,安德里亚·维达尔迪.使用可微封闭形式求解器的元学习。在国际会议学习中。代表。,2019年。8[3] 马可·库图里Sinkhorn距离:最佳运输的光速计算。神经信息处理系统的进展,第2292-2300页,2013年1[4] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。1[5] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303-338,2010。1[6] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。在2017年国际机器学习会议(ICML)上。一、二[7] SebastianFlennerhag , AndreiARusu , RazvanPascanu,Francesco Visin,Hujun Yin,and Raia Hadsell.使用扭曲梯度下降的Meta学习。arXiv预印本arXiv:1909.00025,2019。2[8] ZongYuan Ge , Sergey Demyanov , Zetao Chen , andRahil Garnavi.多类开集分类的生成openm
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功