没有合适的资源?快使用搜索试试~ 我知道了~
14582零射击学习:好的,坏的和丑陋的西安永勤1BerntSchiele1Zeynep Akata1,21马克斯·普朗克信息学研究所2阿姆斯特丹机器学习实验室萨尔信息学校区阿姆斯特丹大学摘要由于零触发学习的重要性,最近提出的方法的数量稳步增加我们认为,现在是时候退后一步,分析该地区的现状。本文的目的有三个方面. 首先,考虑到没有一致的零射击学习基准,我们首先通过统一评估协议和数据分割来定义一个新的基准。这是一个重要的贡献,因为发表的结果往往是不可比的,有时甚至是有缺陷的,例如零射击测试班的预训练其次,我们深入地比较和分析了大量的最先进的方法,无论是在经典的零炮设置,而且在更现实的广义零炮设置。最后,我们讨论了该地区的现状,可以作为推进它的基础的局限性。1. 介绍零射击学习旨在识别在训练期间可能没有看到的物体[17,22,23,30,40]。近年来,新的零触发学习方法的提出数量迅速增加,即零触发学习方法。正如我们的标题所暗示的好的方面。虽然每种新方法都比前一种方法取得了进步,但如果没有建立评估协议,很难量化这种进步,即坏的方面。事实上,对改善数字的追求甚至导致了有缺陷的评估协议,即。丑陋的方面。因此,在这项工作中,我们建议在几个小到大规模的数据集上使用相同的评估协议,在零次学习中,即,训练和测试类是不相交的,并且更现实的广义零激发学习设置,即,在考试时有培训班。我们对零机会学习进行了基准测试和系统评估。三个方面方法、数据集和评估协议。所有零触发学习方法的关键是将观察到的和非观察到的联系起来。通过某种形式的辅助信息来观察类,该辅助信息对对象的视觉区别属性进行我们在这项工作中评估的不同风格的零射击学习方法是线性[11,2,4,32]和非线性[39,34]兼容性学习框架,而正交方向是学习独立属性[22]分类器,最后其他人[42,7,26]提出了独立分类器学习和兼容性学习框架之间我们通过使用几个小到大规模数据集的多个分裂来彻底评估零射击学习的第二个方面[28,38,22,10,9]。我们强调,这是很难获得标记的训练数据的细粒度类的稀有物体识别,需要专家的意见。因此,我们认为零射击学习方法应该主要在人口最少或罕见的类上进行评估。我们提出了一个统一的评估协议,以解决零射击学习的第三个方面,这可以说是最重要的一个。我们强调调整超参数的方法上的验证类分裂,是不相交的训练类的必要性,通过调整参数的测试类violates零杆假设提高零杆学习性能。我们认为,当数据集在每个类别的图像数量方面不平衡时,每个类别的平均前1名准确度是一个重要的评估指标。我们指出,通过预训练的深度神经网络(DNN)在包含零次测试类的大型数据集上提取图像特征此外,我们认为,证明零拍性能的小规模和粗粒度的数据集,即。”[10]这不是一个结论。 我们建议从零射击评估的限制性本质中抽象出来,通过在搜索空间中包括训练类,使任务更加实用,即。广义零触发学习设置。因此,我们认为,我们的工作在推进零杆学习领域发挥了重要作用,通过分析零杆学习任务的好的方面和坏的方面,以及提出消除丑陋的方法。145832. 相关工作我们回顾了零射击和广义零射击学习的相关工作,我们提出了以前对同一任务的评估,并描述了我们工作的独特之处。零射击学习。在零触发学习设置中,测试和训练类集是不相交的[17,22,23,30,40],可以通过解决相关的子问题来解决,例如。学习中间属性分类器[22,30,31]和学习一个混合看到类比例[42,43,26,7],或通过直接的方法,例如,兼容性学习框架[3,4,11,15,27,32,34,39,32,12,29,1,6,24,13,21]。 之间重要性和鲁棒性测试,并提出其他有价值的见解,从我们的基准。从这个意义上说,我们是一个更广泛的评估相比,以前的工作。3. 评价方法我们从形式化零杆学习任务开始,然后描述我们在这项工作中评估的零杆学习方法。给定训练集S={(xn,yn),n = 1. N},其中yn∈ Ytr属于训练类,任务是通过最小化正则化经验风险来学习f:X→ Y这些方法,在我们的评估中,我们选择使用DAP[22],因为它是零-1ΣNL(yn,f(xn;W))+n(W)(1)铅球学习研究; CONSE [26]是学习混合类比例的最广泛使用的代表之一; SSE [42]是一种公开实现的最新方法; SJE [4]、ALE [3]、DEVISE [11]是最近提出的具有相似损失函数的相容性学习方法; ESWL [32]用于将正则化项添加到非正则化相容性学习方法;[39]和CMT[34]提出了对双线性兼容性学习框架的非线性扩展,最后是SYNC [7],用于报告几个基准数据集的最新技术水平。广义零射击学习。这种设置[33]将零触发学习任务一般化为测试时可见和不可见类的情况。[19]认为,尽管ImageNet分类挑战的性能已经超过了人类的性能,但我们没有观察到在检测挑战中竞争的方法的类似性能,其中涉及拒绝未知对象,同时检测已知对象的位置和标签。[11]使用标签嵌入来操作广义零拍摄学习设置,而[41]提出通过因子分解联合嵌入的耦合线性回归来学习图像和类的潜在表示另一方面,在一项研究中,[5]在深度网络中引入了一个新的模型层,估计输入来自未知类的概率,[34]提出了一种新颖性检测机制。我们评价[34]和[11]是最广泛使用的。以前对零射击学习的评估。在文献中,存在一些zero-shot与广义zero-shot学习评估作品[30,8]。其中,[30]提出了一个模型,通过使用800个类进行训练和200个类进行测试来学习ImageNet 1K上图像和语义嵌入之间的相似性。[8]提供了在三个数据集上评估的五种方法之间的比较,包括具有三个标准分割的ImageNet,并提出了一个评估广义零射击学习性能的指标。Nn=1在L(?)是损失函数,并且)是正则化项。这里,从输入到输出嵌入的映射f:X → Y定义为:f(x;W)= argmaxF(x,y;W)(2)y∈Y在测试时,在零拍摄学习设置中,目标是将测试图像作为一个看不见的类标签,即。并且在广义零激发学习设置中,测试图像可以被分配给可见或不可见的类,即,Ytr+tsY具有最高的兼容性分数。3.1. 学习线性兼容性属性标签嵌入(ALE)[3]、深度视觉语义嵌入(DEVISE)[11]和结构化联合嵌入(SJE)[4]使用双线性兼容性函数来关联视觉和辅助信息:F(x,y;W)=θ(x)TWφ(y)(3)其中θ(x)和φ(y),即图像和类嵌入,两者都给出了。F(. )由要学习的映射W来参数化。令人尴尬的简单零射击学习(ESWL)[32]为此对象添加了一个正则化项。在下文中,我们提供了这四种零触发学习方法的统一表述。DEVISE[11]使用成对排名目标,其灵感来自非正则化排名SVM[20]:Σ[n(yn,y)+F(xn,y;W)−F(xn,yn;W)]+(4)y∈Y树ALE[3]使用加权近似排名目标[37]:我们的工作。我们在五个数据集上评估了十种零射击学习方法,其中包括零射击和生成的几个分裂。Σy∈Y树lr(xn, yn)[(yr(xn,yn),y)+F(xn,y;W)−F(xn,yn;W)]+14584通用化零拍学习设置,提供统计信号-(5)n14585MM来回来回来回i=1其中lkΣΣki=1αi 和rn(xn,yn)定义为:DAP[22]学习概率属性分类器,并通过结合学习到的属性分类器的得分来进行类预测。y∈Y树1(F(xn,y;W)+n(yn,y)≥F(xn,yn;W))(6)贡品分类器 一个新的图像被分配给其中一个未知类使用:遵循[18]中的启发式,[3]选择αi= 1/i,这高度强调了排名列表的顶部。[4]第四,以“为天下先,为天下先”为原则。f(x)=argmaxCYMm=1p(ac|x).(十一)p(ac)结构化SVM[36]:[max(n(yn,y)+F(xn,y;W))−F(xn,yn;W)]+(7)y∈Y树ESWL[32]将以下正则化项添加到非正则化风险最小化公式中:其中M是属性的总数我们训练一个具有对数损失的one-vs-rest SVM,其给出关于训练类的属性的概率得分。3.4.混动车型语义相似性嵌入(SSE)[42],语义嵌入的凸组合(CONSE)[26]和综合分类器(SYNC)[7]表示图像和se-γ<$Wφ(y)<$2+λθ(x)TW2+βWβ2(八)Mantic类嵌入作为一个混合看到的类proportions,因此,我们把它们作为混合模型。其中γ,λ,β是这个正则化子的参数3.2. 学习非线性相容性潜在嵌入(LATEM)[39]和跨模态迁移(CMT)[34]在兼容性学习框架中编码了额外的非线性。LATEM[39]构造了分段线性相容性:SSE[42]利用图像和语义嵌入空间中的相似类关系图像标记为:argmaxπ(θ(x))T(φ(yu))(12)u∈U其中π,π是类和图像嵌入到公共空间中的映射。具体来说,π是通过稀疏编码学习的,π是通过类相关变换学习的。F(x,y;Wi)=max1≤i≤Kθ(x)TWiφ(y)(9)CONSE[26]学习训练图像的概率是-其中,每个Wi对数据的不同视觉特性进行建模,并且选择哪个矩阵来进行映射是潜在变量。LATEM使用公式4中的排名损失。CMT[34]首先将图像映射到单词的语义空间即类名,其中具有tanhnonlin的神经网络-earity学习映射:渴望参加培训班:f(x,t)= argmax ptr(y|(十)(十三)y∈Y树其中y表示图像x的最可能的训练标签(t=1)。语义嵌入的组合用于将未知图像分配给不可见的类:Σ Σθφ(y)−W1tanh(W2.θ(x)<$(10)1ΣTZptr(f(x,t)|(f(x,t))(14)y∈Ytrx∈Xy其中(W1,W2)是两层神经网络的权重i=1其中Z=πTptr(f(x,t)|x),f(x,t)表示第t个工作接下来是一个新奇的检测机制,将图像分配给看不见或看过的类别。通过使用所见类的嵌入图像学习的阈值来检测新颖性,或者以无监督的方式获得离群值概率。3.3. 学习中间属性分类器直接属性预测(DAP)[22]=145862图像x和T的最可能标签控制最大值语义嵌入向量的数量。SYNC[7]学习语义类嵌入空间和模型空间之间的映射在模型空间中,训练类和一组幻影类构成一个加权二分图.目标是使失真误差最小化:ΣR与兼容性学习框架相比,它表现不佳[3],我们将其纳入我们的评估中,最小值wc−wc,v rr=1scrvr2.(十五)在历史上是文献中最广泛使用的方法之一。语义空间和模型空间通过在加权图(scr)中嵌入实类(wc)和虚类(vr14587数量的图像数据集大小详细Att班数Y YtrY ts在训练时间在评估时间SS PS SS PS总计YtrY tsY trY ts YtrY tsY trY ts[28]第二十八话介质罚款102717580+ 657214K129000103200014402580 1440古巴[38]介质罚款312200100 + 505011K8855070570029331764 2967AWA[22]介质粗855027 + 131030K24295019832006180 4958 5685APY[10]小粗6432十五加五1215K12695059320026441483 7924表1:属性数据集的统计:SUN [28],CUB [38],AWA [22],aPY [10]在数据集大小方面,细粒度或粗粒度,属性数量,训练+验证中的类别数量(Ytr)和测试类别(Yts),标准分割(SS)和我们提出的分割(PS)的训练和测试时间的图像数量。4. 数据集和评价方案在本节中,我们提供了预训练的几个组成部分,以及我们提出的零射击和广义零射击学习评估协议,例如。数据集、图像和类编码以及评估协议。4.1. 数据集统计数据在用于零触发学习的最广泛使用的数据集中,我们选择了两个粗粒度数据集,一个小规模数据集和一个中等规模数据集,以及两个细粒度数据集,两个中等规模数据集都有属性,一个大规模数据集没有属性。在这里,我们认为10K和1M之间的图像,以及,100和1K之间的类作为中等规模。属性数据集。属性数据集的统计数据见表1。 AttributePascal and Yahoo(aPY)[10]是一个小规模的粗粒度数据集,包含64个属性。在总共32个类中,20个Pascal类用于训练(我们随机选择5个进行验证),12个Yahoo类用于测试。属性动物(AWA)[22]是一个粗粒度数据集,就图像数量而言是中等规模的,即30,475和小规模的班级,即50。[22]介绍了一个标准的零射击分裂,有40个类用于训练(我们随机选择13个用于验证),10个用于测试。AWA 有 85 个 属 性 。 Caltech-UCSD-Birds 200-2011(CUB)[38]是一个细粒度和中等规模的数据集,涉及图像数量和类别数量,即来自200种不同鸟类的11788张图像,标注了312个属性。[3]介绍了CUB的第一个零射击分裂,有150个训练(50个验证类)和50个测试类。SUN[28]是一个关于图像数量和类别数量的细粒度和中等规模数据集,即SUN包含来自717种场景的14340幅图像,标注了102个属性。在[22]之后,我们使用645个SUN类进行训练(我们随机选择65个用于val),72个用于测试。大规模ImageNet。我们还评估了大规模ImageNet上 方法的性能[9]。 中总共21K个类,1K个类用于训练(我们使用200个类进行验证),测试分割是所有剩余的21K个类或其子集,例如。我们基于类和类的总体之间的分层距离来确定这些子集。4.2. 拟定评价方案我们提出了我们提出的统一协议的图像和类嵌入,数据集分裂和评估标准。图像和类嵌入。我们从SUN,CUB,AWA和ImageNet的整个图像中提取图像特征,没有图像预处理。对于aPY,如[10]中所提出的,我们从边界框中提取图像特征。我们的图像嵌入是101层ResNet[16]的2048-dim顶层池单元,因为我们发现它比GoogleNet [35]的1,024-dim顶层池单元表现得更好。ResNet在ImageNet 1K上进行了预训练,没有进行微调。除了ResNet特征之外,我们还使用它们发布的图像特征来评估方法。作为类嵌入,对于aPY、AWA、CUB和SUN,我们使用每个类的属性。对于ImageNet,我们使用[7]提供的Word2Vec[25],因为它不包含所有类的属性注释。数据集拆分。零拍摄学习假设不相交的训练和测试类,其中存在训练类的所有图像,并且在训练期间不存在来自测试类的任何图像。另一方面,由于用于图像特征提取的深度神经网络(DNN)训练实际上是模型训练的一部分,因此用于训练DNN的数据集,例如,ImageNet不应该包含任何测试类。然而,我们从aPY和AWA数据集的标准分割(SS)中注意到,12个aPY测试类中有7个(猴子,狼,斑马,杯子,建筑物,袋子,马车),10个AWA测试类中有6个(黑猩猩,大熊猫,豹子,波斯猫,猪,河马),都在ImageNet的1K类中,即用于预训练ResNet。另一方面,最广泛使用的分裂,即。我们将它们称为标准分裂(SS),对于[22]中的SUN和[2]中的CUB,我们发现50个CUB测试类中有1个(Indigo Bunting),1458872个SUN测试类中有6个(餐厅、超市、天文馆、帐篷、市场、桥梁)也在ImageNet的1K类中。我们注意到,所有方法在这些重叠测试类上的准确率都高于其他方法。因此,我们提出了新的数据集分裂,即。提出的分裂(PS),确保没有测试类出现在ImageNet 1K中,即。用于训练ResNet模型。我们在表1中列出了标准拆分(SS)和建议拆分(PS)之间的差异。 虽然在SS和PS中,在训练时不存在来自测试类的图像,但在测试时SS不包括来自训练类的任何图像,而我们的PS则包括。我们以这种方式设计PS,因为评估训练和测试类的准确性对于显示方法的泛化至关重要。具有数千个类的ImageNet提供了构建多个零射击评估分割的可能性。在[7]之后,我们的前两个标准划分考虑了根据ImageNet标签层次结构与原始1K类相距2跳和3跳的所有类,对应于1509和7678类。这种划分衡量了模型在类之间的层次和语义相似性方面的泛化能力。我们提出的分割考虑了ImageNet剩余的21K类中的500,1K和5K最常见的类,平均每类1756、1624和1335张同样,我们认为500、1K和5K是人口最少的ImageNet中的类,对应于ImageNet的大多数细粒度子集,平均每个类有101、103和1051张我们最后的分割考虑到所有剩下支持20K类ImageNet,每个类至少有一个图像,平均每个班级有631张图片。评价标准。单标签图像分类准确度已被测量为Top-1准确度,即。当预测的类是正确的类时,预测是准确的。如果所有图像的准确度都是平均值,则鼓励在人口密集的类上实现高性能。然而,我们感兴趣的是在人口稀少的类上也有高性能.因此,在将其累积和除以类的数量之前,我们对每个类的正确预测进行独立的平均,即我们测量每个类的平均top-1准确度。在广义零激发学习设置中,评估时的搜索空间不仅限于测试类,还包括训练类,因此这种设置更实用。正如我们在测试时提出的分割一样我们可以访问训练类中的一些图像,在计算了训练和测试类的平均每个类top-1准确度之后,我们计算训练和测试准确度的调和平均值H=2(accYtraccYts)/(accYtr+accYts)(16)孙阿瓦模型RORO民主行动党[22]二十二岁1二十二岁241岁441岁4[42]第四十二话83岁082岁5六十四9七十六。3LATEM[39]––七十一2七十一9SJE[4]––67岁266岁。7西班牙语[32] 六十四3六十五8四十八0四十九3同步[7]62.862.869岁。769岁。7表2:再现零激发结果:O =论文中发表的原始结果,R =使用提供的图像特征和代码再现我们以%为单位来衡量top-1的准确性。分别为。我们选择调和平均值作为我们的评价标准,而不是算术平均值,因为在算术平均值中,如果看到的类精度高得多,它会显着影响相反,我们的目标是在可见和不可见的类上都具有高精度。5. 实验我们首先在属性数据集SUN、CUB、AWA和aPY上提供零射击学习结果,然后在大规模ImageNet数据集上提供零射击学习结果。最后,我们提出了广义零杆学习设置的结果。5.1. Zero Shot学习结果在属性数据集上,即SUN,CUB,AWA和aPY,我们首先使用它们的评估协议再现每种方法的结果,然后使用相同的train/val/test类拆分提供统一的评估协议,然后是我们提出的train/val/test类拆分。我们还评估了鲁棒性的方法参数调整和可视化的排名不同的方法。最后,我们在大规模ImageNet数据集上评估了这些方法。再现结果。对于健全检查,我们使用提供的功能和代码重新评估方法[22,42,39,4,32,7]1我们选择SUN和AWA作为细粒度和非细粒度数据集的两个代表,在文献中已经被广泛使用。我们从表2中的结果观察到,我们的再现结果和DAP和SYNC的报告结果与其原始出版物中的报告数量相同。对于LATEM,我们得到了稍微不同的结果,这可以用非凸性和对初始化的敏感性来解释同样,对于SJE,SGD中的随机抽样可能导致略微不同的结果。ESWL有一些方差,因为它的al-出租m在每次运行期间随机选择验证集,这导致14589不同的超参数。SSE[42]结果的显著观察结果如下。已发布的代码具有在aPY上操作的硬编码超参数,其中accYtr和accYts表示图像从看不见的(Ytr)和看不见的(Yts)类的图像,1[34]有可用的公共代码,但没有在SUN或AWA上进行评估。14590Sun CUB AWA APY方法SS PSSS PSSS PSSS PS[22]第二十二话九点三十九9三十七五点四十0五十七一百四十四1三十五2338CONSE[26] 44. 238 8三十六七点三十四363岁6456二十五九点二十六。9[34]第三十四章:一个人九点三十九9三十七三点三十四分6五十八九点三十九5二十六岁九点二十八0[42]第四十二话5515四十三七四三968岁八点六131岁一百三十四0LATEM[39] 五十六九点五十五。3四十九四点四十九374岁8551三十四五点三十五2[3]第五十九章.一百五十八。1五十三254978岁6599三十九点三十九7[11]第五十七章:一个女人5565五十三2520七十二九点五十四。2三十五4398[4]第五十七章.153755. 3539七十六。7656三十二0329[32]第三十二章:一个人354555. 153974岁7582三十四4383[7]第五十九章.一百五十六。3五十四一百五十五6七十二254039岁七点二十三9表3:SS =标准分割,PS =使用ResNet特征的建议分割(前1精度%)。六十四3%对57。[32]第三节:其次,在仔细检查并与SYNC [7]的作者通信后,我们发现SUN特征是用MITPlaces[44]预训练模型提取的。由于MIT Places数据集与SUN数据集的训练和测试类都有交叉,因此预计它会比ImageNet预训练模型产生更好的结果。8%对59。1%)。标准品(SS)和拟定拆分(PS)的结果。我们提出了新的数据集分割(详见第4节),确保测试类不属于用于 预 训 练 ResNet 的 ImageNet1K 。 我 们 将 这 些 结 果(PS)与表3中先前公布的标准分裂(SS)结果进行了比较。我们的第一个观察结果是,对于AWA,PS的结果显著低于SS这是预期的,因为SS中的大多数测试类都包含在ImageNet 1K中。对秩秩而对于细粒度数据集CUB和SUN,结果没有受到显著影响。我们关于方法排名的第二个观察结果如下。在SS上,SYNC [7]是SUN上性能最好的方法(59。1%)和 aPY( 39. 7% ) 数 据 集 , 而 SJE [4]在 CUB ( 55.3%)和ALE[3]在以下方面表现最好:CONSE [9.0]66CMT [8.8]135378. biggest biggest 6%)的数据集。 在PS上,ALE[3]表现最好CMT [9.0]1101CONSE [9.2]336太阳(58. 1%),SYNC [7] on CUB(55. 6%),SJE[4],图1:通过在标准(SS,左)和拟定(PS,右)设置的三个验证分割上设置参数,对10个模型进行元素(i,j)表示模型i在所有4×3观测值中排名第j模型按其平均等级排序(显示在括号中)。即迭代次数、训练SVM的数据点数量和一个正则化参数γ,这些参数导致比这里报告的结果更差的结果,因此我们在验证集上设置这些参数。在SUN上,SSE使用10个类(而不是72个),我们的结果与验证的参数得到了0的改进。5%,这可能是由于训练图像的随机采样在AWA上,我们的再现结果是64。9%,明显低于报道结果(76。3%)。然而,即使通过调整测试集上的参数,我们也无法达到报告的结果,即。我们得到73。8%的情况下。重现结果与标准品拆分(SS)。除了[22,42,39,4,32,7,34]之外,我们基于原始出版物重新实现[26,11,3]我们使用表1中提供的训练,验证,测试分割,并在表3中报告具有深度ResNet功能的结果。 DAP[22]使用手工制作的图像特征,因此具有这些特征的再现结果显著低于具有深度特征的结果(22. 1%对38。9%)。当我们详细调查结果时,我们注意到SUN上报告的结果有两个不规则之处。首先,SSE [42]和ESWL [32]报告了10个类的测试分割结果,而SUN的标准分割包含72个测试类(74。5%对54。5%,SSE[42],1234567891012345678910同步[2.6]5511ALE [2.1]4512设计[3.7]131241设计[3.2]241212ALE [3.8]24312SJE [4.2]3342SJE [3.9]131133LATEM [4.7]1443LATEM [4.2]14214西班牙语[4.7]113421[4.2]213312上证指数[5.2]14151上证指数[6.3]129同步[5.3]21213121459165. 6%)和DEVISE [11]对aPY(39. 8%)。注意ALE、SJE和DEVISE都使用最大裕度双线性相容性学习框架。鲁棒性我们通过将10种方法设置在3个不同的验证分割上,同时保持测试分割不变,来评估它们对参数的鲁棒性。我们报告了SS(图2,顶部)和PS(图2,底部)的结果。在SUN和CUB上,结果在方法和拆分之间是稳定这是预期的,因为这些数据集在各个类别之间具有平衡的图像数量,并且由于其细粒度的性质,验证分割是相似的。另一方面,AWA和aPY是小且粗粒度的数据集,具有若干问题。首先,AWA和aPY上的许多测试类都包含在ImageNet1K中。第二,它们不平衡,即。不同的验证类分割包含显著不同数量的图像。第三,类嵌入彼此远离,即。对象在语义上是不同的,因此不同的验证分割学习图像和类之间的不同映射。观想功法排名。我们使用非参数Friedman 检验[14],根据其每类前1名的准确性对10种方法进行排名,该检验不假设差异性性能,而是使用算法排名。图1上的秩矩阵的每个条目指示该方法在第一到第十秩处被排名的次数。然后,我们计算每种方法的平均秩,并基于此对它们进行排序。我们的一般观察是,在标准分割(SS)上排名最高的方法是SYNC,而在建议的分割(PS)上是ALE。这些结果14592前1名应计费用(%)前1名应计费用(%)孙80604020幼崽80604020AWA80 8060 6040 4020 20APY012345678910012345678910012345678910012345678910模型孙80604020模型幼崽80604020模型AWA80 8060 6040 4020 20模型APY012345678910012345678910012345678910012345678910模型模型模型模型图2:使用3个验证集分割(结果在相同的检测分割上),在SUN、CUB、AWA、aPY上评价的10种方法的耐用性顶部:原始分割,底部:建议分割(图像嵌入= ResNet)。我们以%为单位来衡量top-1的准确性。层次结构人口最多人口最少方法2H3小时500 1K 5K5001K 5K20KCONSE[26] 7 .第一次会议。632. 1812个。33 8. 313.223 .第三章。532. 691. 050的情况。95[34]第三十四话880。67五、103 .第三章。041. 041 .一、87 1. 080330的情况。29LATEM[39] 五、451.3210个。81 六、631. 904.第一章53 2.七四零。760的情况。50[3]第五章. 381.3210个。40 六、772. 004.第一章27 2.850 790的情况。50[11]第十一话251. 2910个。36 六、681. 944.第一章23 2.八六零。780的情况。49[4]第五章. 311.339 .第九条。88六、531. 994.第一章93 2.930 780的情况。52西班牙语[32]六、351. 5111个国家。917 .第一次会议。692.344.第一章50 3.230940的情况。62[7]第九章. 262.29十五岁83 10. 753.42五、83 3.521260的情况。96表4:不同分割的ImageNet:2/3 H =距离1 K Y tr有2/3跳的类,500/1 K/5 K最多的类,500/1 K/5 K最少的类,全部= ImageNet的20 K类别。我们以%为单位来衡量top-1的准确性。指出谨慎选择零炮劈射的重要性。在所提出的拆分中,排名最高的三种方法是兼容性学习方法,即。ALE、DEVISE和SJE,而排名最低的三种方法是专用分类器学习或混合方法,即。DAP、CMT和CONSE。因此,与学习独立分类器相比,最大余量兼容性ImageNet上的结果。ImageNet将这些方法扩展到真正的大规模设置,因此这些实验为如何从实践的角度解决零射击学习问题提供了在这里,我们评估了8种方法。我们排除了DAP,因为由于该方法的公共实现的可扩展性问题,属性不适用于所有ImageNet类和SSE。表4显示性能最好的方法是SYNC[7],这可能表明它在大规模设置中性能良好,或者它可以DAPCONSECMTSSELATEMALEDEVISESJEESSEWLSYNCDAPCONSECMTSSELATEMALEDEVISESJEESSEWLSYNC前1名应计费用(%)前1名应计费用(%)前1名应计费用(%)前1名应计费用(%)前1名应计费用(%)前1名应计费用(%)14593由于使用Word2Vec而不是属性,因此在不确定性下学习。另一种可能性是Word2Vec可以针对SYNC进行我们对所有方法的一般观察是,在最流行的我们一直观察到1K和5K最常见类之间的准确性大幅下降,预计5K包含106。6M图像,使问题比1K(1624张图像)困难得多。另一方面,所有20K结果对于所有方法都很差,指出了这个问题的难度,有很大的改进空间。5.2. 广义零次学习结果在现实世界的应用中,图像分类系统无法提前获得新图像是否属于可见或不可见的类别。因此,从实用的角度来看,广义零触发学习是有趣的.在这里,我们使用相同的模型在我们提出的分裂(PS)上进行零射击学习集训练我们评估绩效在Ytr和Yts上,即使用来自Yts的保持图像。如表5所示,由于搜索空间中包括训练类,因此广义零激发结果显著低于零激发结果另一个有趣的问题 是兼 容性 学 习框 架, 例 如。 ALE, DEVISE,SJE,在测试类中表现良好。然而,学习独立属性或对象类的方法,例如。DAP和CONSE,在培训班上表现良好。由于这种差异,我们评估了调和平均值,该调和平均值取训练和测试的加权平均值14594Sun CUB AWA APY方法tstrHtstrHtstrHtstrH民主行动党[22]4.第一章2二十五17 .第一次会议。21 .一、767岁93 .第三章。30的情况。088岁70的情况。04.第一章878岁39 .第九条。0CONSE[26]六、839岁911个国家。61 .一、6七十二23 .第三章。10的情况。488岁60的情况。80的情况。091.20的情况。0CMT[34]8. 121岁811个国家。87 .第一次会议。2四十九812个。60的情况。987岁61 .一、81 .一、4八十五2二、8CMT*[34]8. 728岁0十三岁34.第一章7六十岁。18. 78. 486岁。9十五岁310个。974岁219号。0[42]第四十二话二、1三十六44.第一章08. 5四十六岁。9十四岁47 .第一次会议。0八十512个。90的情况。278岁90的情况。4LATEM[39]十四岁728岁819号。5十五岁2五十七3二十四岁07 .第一次会议。3七十一7十三岁30的情况。1七十三。00的情况。2美国航空[3]21岁8三十三岁。1二十六岁323岁762.8三十四4十六岁8七十六。1二十七岁54.第一章6七十三。78. 7[第11话]十六岁9二十七岁420块923岁8五十三0三十二8十三岁468岁7二十二岁44.第一章9七十六。99 .第九条。2SJE[4]十四岁7三十519号。823岁5五十九2三十三岁。611个国家。374岁619号。63 .第三章。755. 7六、9西班牙语[32]11个国家。0二十七岁9十五岁812个。663岁821岁0六、675. 612个。1二、4七十14.第一章6同步[7]7 .第一次会议。9四十三3十三岁411个国家。5七十919号。88. 987岁3十六岁27 .第一次会议。466岁。3十三岁3表5:建议分割(PS)上的广义零触发学习,测量ts = Y上的Top-1准确度ts,tr= Y上的Top-1准确度tr+ts),H =调和平均值(CMT*:具有新颖性检测的CMT)。我们以%为单位来衡量top-1的准确性。秩12345678 9 10 11秩12345678 9 10 11两个的调和平均值。查看通过对测试类进行评估而获得的排名,即图3左上角,排名最高的5种方法与图1相ALE [2.2]5412CONSE [1.5]6 6设计[2.3]3531同步[4.6]4313 1SJE [4.0]14 411 1ALE [5.1]32 31[5.2]11612 1DAP [5.5]12411LATEM [5.5]341111 1CMT*[5.8]11342CMT*[5.6]313 23CMT [6.3]1 323同步[6.0]21 12221 1西班牙语[6.9]2 241 1CMT [7.9]1263SSE [7.0]41 121 3SSE [8.0]113312 1LATEM [7.7]23 2DAP [9.1]214 5设计[7.8]14151CONSE [10.2]34 5SJE [7.9]秩21 1243313241214595同,即ALE、DEVISE、SJE 、 LATEM 、ESWL,但总体上绝 对 数 量 较 低 。查看通过评估调和平均值获得的秩矩阵,即图3下图中,最高等级的3种方法与图1中的方法相同,即ALE、DEVISE、SJE。看看秩矩阵ALE [2.0]设计[2.7]SJE [3.8][5.3]同步[5.4]CMT*[5.5]LATEM [5.5]SSE [8.1]CMT [8.3]DAP [9.1]CONSE [10.2]12345678 9 10 1172 1 21 4613 3 3 2 11 1522 121 1342 222 21151 11311 12 15122 1844525 5通过对列车等级进行评估获得,即图3右上角,我们的观察结果与图1不同。ALE排名第三,但其他排名最高的方法在此排名列表的底部。这些结果清楚地表明,在评估零触发学习时,我们不仅要优化测试类的准确性,还要优化训练类的准确性我们从图3中得出的最后一个结论是CMT* 更好图3:在广义零触发学习设置中,对11个模型在建议的分割(PS)上进行排名。左上角:在不可见类(ts)精度上,右上角:关于可见类(tr)准确性,底部:调和平均值(H)。类精度。H测量将ALE列为SUN、CUB和AWA数据集上的最佳执行方法,而在aPY数据集上CMT* 执行得最好。注意,CMT* 具有集成的新颖性检测阶段,对于该阶段,该方法接收确定图像是否属于列车或测试类的另一监督信号作为总结,广义零激发学习设置提供了关于零激发学习方法的性能的更多级别的细节。我们带回家的信息是,在现实世界中,训练类的准确性与测试类的准确性一样重要。因此,方法的设计应该使它们能够在训练和测试类中很好地预测标签。观想功法排名。与上一节中的分析类似,我们根据训练类、测试类和基于比CMT在所有情况下,这支持了一个简单的新颖性检测方案有助于改善结果的论点。6. 结论在这项工作中,我们评估了大量的最先进的零射击学习方法在一个统一的评估协议中的几个数据集在零射击和广义零射击设置。我们的评估表明,兼容性学习框架在学习独立的对象或属性分类器以及混合模型方面具有优势我们发现,一些标准的零次分割可能会将特征学习与训练阶段分开,因此提出了新的数据集分割。此外,不相交的训练和验证类分裂是零触发学习设置中参数调整的必要组成部分。在评估方法时,在搜索空间中包括训练类,即广义零射击学习,为未来的研究提供了一个有趣的操场。总之,我们的工作广泛评估了零射击学习的好的和坏的方面,同时清理了丑陋的方面。14596引用[1] Z. Akata,M.马林诺夫斯基,M。Fr
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功