没有合适的资源?快使用搜索试试~ 我知道了~
1狗猫TAFE-Net:面向低拍摄学习的王欣、王菲、余若薇、达瑞尔、约瑟夫、E。冈萨雷斯加州大学伯克利分校摘要学习好的图像特征嵌入通常需要大量的训练数据。因此,在训练数据有限的情况下(例如,少量和零次学习),我们通常被迫在各种任务中使用通用特征嵌入。理想情况下,我们希望构建针对给定任务进行调优的特性嵌入。在这项工作中,我们提出了任务感知特征嵌入网络(TAFE-Nets1)来学习如何以Meta学习的方式使图像表示适应新任务我们的网络由Meta学习器和预测网络组成。基于任务输入,Meta学习器为预测网络中的特征层生成参数,使得可以针对该任务准确地调整特征嵌入我们证明了TAFE-Net在生成新任务或概念方面非常有效,并在零射击和少数射击学习的一系列基准上评估了我们的模型在所有任务上都达到或超过了最先进的水平。特别是,我们的方法提高了4到15点的具有挑战性的视觉属性对象组成任务的预测精度看不见的属性对象对。1. 介绍特征嵌入是计算机视觉的核心。通过将图像映射到语义丰富的向量空间中,特征嵌入可以提取关键信息,广泛的预测任务。然而,学习良好的特征嵌入通常需要大量的训练数据和计算。因此,一种常见的做法[8,14,53]是重用来自卷积网络的现有特征嵌入(例如,ResNet [18],VGG [37])在大规模标记的训练数据集(例如,Ima-geNet [36]);为了实现最大的准确性,这些通用特征嵌入通常使用额外的任务特定训练数据进行微调[8,14,53]或转换[19在许多情况下,训练数据不足以学习甚至适应给定任务的通用特征嵌入。例如,在零次和少数次预测任务中,1发音太妃糖网任务嵌入:狗任务嵌入:猫图1:任务感知特征嵌入(TAFE)的卡通插图。在这种情况下,存在两个二元预测任务:有猫和狗。任务感知的特征嵌入意味着相同的图像可以为每个任务提供不同的嵌入。因此,我们可以为所有任务采用一个独立于任务的分类边界训练数据的缺乏迫使使用通用特征嵌入[26,49,55]。因此,在这些情况下,大部分研究都集中在联合任务和数据嵌入的设计上[4,12,55],这些嵌入可以推广到看不见的任务或具有较少示例的任务有些人提出将任务嵌入视为线性分隔符,并学习为新任务生成它们[42,29]。其他人提出了对额外的训练数据进行幻觉处理[50,17,45]。然而,在所有情况下,公共图像嵌入在任务之间共享因此,公共图像嵌入对于任何单独的预测任务可能在域之外或次优,并且对于全新的任务可能甚至更差这个问题在训练任务的数量和多样性相对较小的环境中加剧[11]。在这项工作中,我们通过引入任务感知特征嵌入网络(TAFE-Net)和基于元学习的参数生成器来将通用图像特征转换为任务感知特征嵌入(TAFE),从而探索了动态特征表示的思想如图1所示,TAFE的表示是自适应给定的语义任务描述,因此能够适应测试时新任务的需要。特征转换是通过任务感知Meta学习器实现的,元学习器在类内生成特征嵌入层的参数1831积极负1832任务感知的Meta学习者包埋损失任务嵌入任务嵌入任务特定权重参数。1参数。2参数。K*参数。图像特征预测网络任务感知的特征嵌入分类损失标签K发生器K发生器2发生器1分类器层K层2层1发生器K图2:TAFE-Net架构设计。TAFE-Net具有任务感知Meta学习器,该元学习器生成分类子网络内的特征层的参数生成的权重被分解为低维的任务特定的权重和高维的所有任务之间的共享权重,以降低参数生成的复杂性。单个分类器在所有任务中共享,将产生的TAFE作为输入。图2所示的fication子网。 通过使用TAFEs,我们可以采用一个简单的二元分类器来学习一个与任务无关的线性边界,该边界可以分离正面和负面的示例并推广到新的任务。我们进一步提出了两个设计创新,以解决由于训练任务数量有限[11]和参数生成复杂性[3]而带来的挑战。针对有限的任务,我们将任务嵌入与任务感知的特征嵌入相结合,提出了一种基于度量学习的嵌入损失算法。由此产生的耦合通过联合聚类图像和任务来提高跨任务的泛化。此外,参数生成需要从低维任务嵌入(例如,使用GloVe提取的300维向量[33]),这可能很复杂,甚至在实践中无法训练,因此我们引入了一种新的分解,将权重分解为一小部分任务特定的权重,这些权重需要动态生成,以及一大部分静态权重在所有任务中共享。我们在第4节中进行了广泛的实验评估。所提出的TAFE-Net在五个标准基准中的三个上超过了最先进的零射击学习方法(第4.1节),而不需要额外的数据生成,这是一种补充方法,与最近的工作[50]相比,它已经显示出了更高的性能在新提出的看不见的属性-对象组成识别任务[31]中,我们能够实现比最先进技术(第4.2节)提高4到15分。此外,所提出的架构可以自然地应用于少量学习(第4.3节),在Hariharan等人介绍的基于ImageNet的基准测试中取得了有竞争力的结果。[17]第10段。该代码可在https://github.com/ucbdrive/tafe-net上获得。2. 相关工作我们的工作涉及零触发学习、参数生成、动态神经网络设计和特征调制等几个方面的研究。建立在丰富的先前作品之上,据我们所知,我们是第一个研究动态图像特征表示的零镜头和少镜头学习。零触发学习属于多模态学习机制,其需要适当利用多个源(例如,任务的图像特征和语义嵌入)。许多[23,52,42,55,4,12]研究了基于度量学习的目标,以共同学习任务嵌入和图像嵌入,从而产生相似性或兼容性得分,稍后可用于分类[31,42,26,1,2,12,39]。从概念上讲,我们的方法与引入的二元分类器,预测输入图像是否匹配的任务描述的匹配精神。与现有的工作相比,我们根据任务转换图像特征,因此我们只需要学习一个与任务无关的决策边界来分离正面和负面的例子,类似于经典的监督学习。我们工作中提出的嵌入损失也采用度量学习进行联合嵌入学习,但主要目标是解决Meta学习中有限数量的训练任务[11]。最近,数据幻觉已被用于零触发[50,57]和少触发[17,45]学习,这表明看不见的任务的附加合成数据对学习分类器是有用的,并且可以用判别模型[50,45]来增强。我们的(判别)模型不利用额外的数据点,我们在实验中表明,我们的模型可以在广泛的基准上匹配或优于生成模型。我们相信这些方法-图像图像/任务编码功能网络共享权重嵌入网络1833查询附加数据生成可以受益于更强的基本判别模型。TAFE-Net使用任务感知Meta学习器来生成特征层的参数一些努力[3,16,7]已经研究了采用一个Meta网络来生成另一个网络的权重的想法。我们的任务感知Meta学习器在权重生成中扮演类似的角色,但以更结构化和受约束的方式。我们研究了不同的机制来分解预测网络的权重,以便它可以一次为多个层生成权重相反,Bertinettonet al. [3]专注于为单层生成权重,Denil等人。[7]由于输出空间的平方大小,只能生成单个层的95%参数TAFE-Net的设计也与动态神经网络[44,48,43,27]相关由Wang等人提出的SkipNet [44]。引入递归门控,根据输入动态控制网络激活。相比之下,TAFE-Net动态地重新配置网络参数,而不是像先前的工作[44,48]中那样重新配置网络结构,旨在为给定任务学习自适应图像特征。在视觉问答领域,以前的作品[34,6]探索了使用问题嵌入网络来调制主卷积网络的特征。我们的卷积层的因式分解权重生成方案也可以被视为通道式特征调制。然而,所提出的参数生成框架比特征调制更通用,特征调制可以托管不同的因子分解策略[3]。3. 任务感知特征嵌入正如已经广泛认识到的那样,特征嵌入是计算机视觉中许多应用的基本构建块[24,28,13]。在这项工作中,我们引入任务感知的特征嵌入(TAFE),一种适应给定任务的动态我们证明了这种动态特征表示在零镜头学习,少镜头学习和看不见的属性对象对识别中的应用。我们从第3.1节中的TAFE-Net模型设计开始,然后引入权重因子分解(第3.2节)和嵌入损失(第3.3节),以解决权重生成和训练任务数量有限的挑战。我们将不同任务描述的规范和各种应用程序的设置推迟到第3.4节。3.1. TAFE网络模型如图2所示,TAFE-Net中有两个子网络:任务感知Meta学习器G和预测网络F。任务感知Meta学习器采用任务描述t∈ T(例如,word2vec [30]编码或示例图像,在第3.4节中详细介绍),并生成预测网络中特征层的权重。对于输入图像x∈ X,预测网络:F(x;θt)= y,(1)预测指示输入图像x是否与任务描述t兼容的二进制标签y ∈ Y。更具体地说,我们采用了一个预先训练的特征提取器,ImageNet(例如,ResNet [18],VGG [37],其参数在训练期间被冻结)以产生输入图像的通用特征,然后将通用特征馈送到动态特征层序列,其参数由θt由G(t)生成。在中,动态要素图层的输出称为任务感知要素嵌入(TAFE在不同的任务描述下,同一图像的特征嵌入虽然不直接用作F的输入,但任务描述t控制F中的特征层的参数,并进一步注入任务信息到图像特征嵌入。我们现在可以在F中引入一个简单的二元分类器,它将TAFE作为输入,以学习与任务无关的决策边界。当需要多类预测时,我们可以利用不同任务描述下F(x)的目标公式见第3.3节。由η参数化的任务感知Meta学习器G由生成任务嵌入et的嵌入网络T(t)和一组权重生成器gi组成,i={1.K},其生成F中的K个动态特征层的参数,条件是相同的任务嵌入et。3.2. 通过因子分解生成权重我们现在介绍F中特征层的权重生成方案。产生任务感知特征嵌入(TAFE)的特征层可以是卷积层或全连接(FC)层。要生成要素图层权重,我们需要输出维度的gi(通常是FC层),以匹配F中第i个特征层的权重大小。正如Bertinettoet al.[3],元学习者估计所需的权重的数量因此,很难从少量的示例任务中学习权重生成。此外,权重生成器g的参数化可能消耗大量的存储器,这使得训练成本高并且甚至是不可能的。为了使我们的Meta学习器有效地推广,我们提出了一个权重因子分解方案,沿着每个FC层的输出维度和卷积层的输出通道维度。这与先前元学习工作中使用的低秩分解不同[3]。通道因子分解建立在直觉上,1834不S不SS不s t st卷积层的各层可具有不同或甚至正交的功能性。卷积的权重因子分解。 给定一个输入向量xi∈Rw× h× c, 对于F中的第i个要素图层,权为Wi∈Rk× k × cin× cout (k是过滤器支撑尺寸F中的二元分类器来预测任务描述和输入图像的兼容性为了能够区分哪个任务(即,类),而不是使用二进制交叉熵损失直接,我们采用校准的多类交叉熵损失[52],定义为以及c_in和c_out是输入和输出通道的数量且偏置为bi∈Rcout,则输出xi+1∈Rw′×h′×cout1公斤Σ Σexp(F(xi;θt))·yi(六)Lcls= −N测井仪、exp(F(x ;θ))卷积层由下式给出i=1t =1j=1iJxi+1= Wi<$xi+ bi,(2)其中*表示卷积。在不失一般性的情况下,我们删除了卷积层的偏置项,因为它通常后跟批量归一化[20]。Wi= gi(t)是G中的第i个权重生成器的输出,生成设置。我们现在将权重Wi分解为其中xi是具有大小N的数据集中的第i个样本,并且yi∈{0,1}T是地面实况标签的独热编码。T是整个数据集或训练期间小批量中的任务数量对于嵌入损失,其思想是将潜在任务嵌入et=T(t)投影到具有任务感知特征嵌入(TAFE)的联合嵌入空间中。我们采用了一种度量学习方法,对于给定的正输入,Wi= Wic出来 Wi,(3)任务,相应的TAFE更接近任务嵌入,而对于负输入,相应的TAFE其中W是 ∈Rk× k × cin× cout 是一个共享参数aggre-1× 1×c与图1所示的任务嵌入相去甚远。门控所有任务{t1,. tT}和Wt∈R出来 是一项任务-我们使用铰链余弦相似度作为距离度量-具体参数取决于当前任务输入。退出表示沿输出通道维度的分组卷积,即每个通道的x∈couty只是卷积,(即, φ(p,q)= max(cosine_sim(p,q),0)),嵌入损失定义为:在x和y上的相应通道的位置。参数生成器gi只需要生成Wi,Lemb=1ΣN ΣT||二、||2. (七)tNTt2gi的输出维数从k×k×cin×cout到cout。ItFC的权重因子分解。类似于卷积权重的因式分解,FC层权重Wi∈Rm×n可以分解为Wi= Wi·diag(Wi),(4)我们在实验中发现,这种额外的监督有助于训练Meta学习者,特别是在训练任务数量非常有限的情况到目前为止,我们可以将总体目标定义为S tminL=minLcls+β·Lemb,(8)其中Wi∈Rm×n是所有任务θ,ηθ,ηWi∈ Rn是任务特定参数。 注意,这种分解等价于特征激活模,即,对于输入x∈ R1× m,x· ( Wi·diag ( Wi ) ) = ( x·Wi ) <$Wi ,(5)其中<$表示逐元素乘法。因此,权重生成器只需要生成-在较低维度中为每个任务评估低维任务特定参数,并学习一组在所有任务中共享的高维参数。3.3. Meta学习者的嵌入损失用于训练任务感知Meta学习器的任务描述的数量通常远小于可用于训练预测网络的图像的数量数据稀缺问题可能导致退化的Meta学习器。我们因此,建议在用于预测网络的分类损失Lcls旁边添加用于Meta学习器的二次嵌入损失Lemb回顾一下,我们采用了一种共享的其中β是平衡两项的超参数如果没有指定,我们在实验中使用β3.4. 应用我们现在描述如何在各种应用中利用TAFE-Net设计(例如,零镜头学习,看不见的属性-对象识别和少镜头学习),并具体化在这项工作中采用的任务描述。零射击学习在零触发学习(zero-shot learning,简称zero-shot learning)设置中,在训练过程中看到的类集合和在测试过程中评估的类集合是不相交的[26,1]。具体地,令训练集为Ds={(x,t,y)|x∈ X,t∈ T,y∈ Y},测试设为Du={(x,u,z)|x∈ X,u∈ U,z∈ Z},其中T U=φ,|不|为|Y|和|U|为|Z|.在基准数据集中(例如,CUB [46],AWA [25]),每个图像类别与属性向量相关联,可以用作我们工作中的任务描述1835目标是学习一个分类器fzsl:X → Z。 最近,Xianet al.[49]提出了广义零射击学习(GSTOL)设置,1836比现实主义更真实GALML设置涉及从可见和不可见类中对测试示例进行GALML中的分类器将X映射到Y<$Z。在我们的工作中,我们同时考虑了GML和GML设置。不可见属性-对象对识别。 动机Misraet al. [31]最近提出了一种新的识别任务来预测给定属性集合的不可见成分(例如,红色、现代、古代等)和对象(例如,香蕉、城市、汽车等),并且在训练期间仅看到属性-对象对的子集。这可以被看作是一个零射击学习问题,但需要更多地了解属性的上下文。在我们的工作中,属性对象对被用作任务描述。少拍学习。在少量学习中,有一个或几个来自新类的示例,以及大量的基类示例[17]。我们的目标是学习一个分类器,它可以对来自新类和基类的示例进行分类。来自不同类别的样本图像特征可以用作TAFE-Nets的任务描述。4. 实验我们根据三项任务评估TAFE网络:零镜头学习(4.1节),看不见的属性-对象组合(4.2节)和少镜头学习(4.3节)。我们观察到TAFE-Net在推广新任务或概念方面非常有效,并且能够在所有任务上匹配或超过最先进的模型配置。我们首先描述网络配置。任务嵌入网络T是一个隐藏单元大小为2048的3层FC网络,除了aPY数据集[9],我们选择T作为隐藏大小为2048的2层FC网络以避免过拟合。权重生成器gi是单个FC层,其输出维度与F中相应特征层的输出维度相匹配。对于预测网络F,TAFE通过3层FC网络生成,隐藏大小为2048 与 从不 同 的预 训 练骨 干 提取 的 输入 图 像特 征ResNet-18、ResNet-101、VGG-16、VGG-19等)4.1. 零射击学习数据集和评估指标。我们在5个基准数据集上进行实验:孙[51],CUB [47],AWA1 [25],AWA2 [49]和aPY [9],它们具有不同的类别数量和粒度。只有20个班级(即任务),而645类可用于SUN数据集中的训练数据集统计数据如表1所示。表1:GABEL中使用的数据集数据集SUNCUBAWA1AWA2 aPY已看过645 150 40 40 20Y看不见7250101012粒度罚款罚款粗粗粗按照Xian等人提出的设置,我们考虑了广义零激发学习(GSTRL)和传统零激发学习(GSTRL)。对于GALML,我们报告了未看到的accu和看到的类accs的每个类的平均top-1准确度以及调和平均值H=2×(accu×accs)/(accu+accs)。对于传统的BML,我们报告了每个类的平均top-1准确度,看不见的类,并采用新的分裂提供的西安等。[49]。培训详情。我们将批量大小设置为32,并使用Adam[22]作为初始学习率的优化器对于预测网络和权重生成器为10−4,对于任务嵌入网络为10−5我们在第30和45个时期将学习率降低10倍,并训练网络60个时期。对于AWA1,我们训练网络10个epoch,并在epoch 5时将学习率降低10倍基线。在我们的实验中,我们将我们的模型与两行先前的作品进行比较。(1)区分基线,专注于将图像映射到丰富的语义中,tic嵌入空间我们包括最近的竞争基线:[ 55 ][56][57][58][59][SYNC [4]、DEM [54]和新提出的关系网[52]。(2)生成模型,通过使用基于GAN [15,56]的方法为看不见的类生成合成图像来解决数据生成模型可以将不同的判别模型组合为基础网络[50,45]。我们在这一类别中与f-CLSWGAN[50],SE [41],SP-AEN [5]我们的模型属于判别模型类别,不需要额外的合成数据。定量结果。我们将TAFE-Net的性能与表2中的先前工作进行了比较。总的来说,我们的模型优于现有的方法,包括在AWA1,AWA2和aPY数据集上的生成模型,在AWA1和aPY数据集上的生成模型。TAFE-Net比判别模型(在表2中以蓝色表示)表现更好(例如,大约16分的AWA1和17分的aPY)上的GALGOL测试的改善。对于更具挑战性的细粒度SUN和CUB数据集,我们能够将结果提高7和2个点。结果表明,更好的嵌入可以帮助模型泛化。图像数量14,34011,78830,47537,32215,339属性尺寸102312858564Y7172005050321837表2:在CAMEL和GALMEL设置下,在五个标准基准上评估TAFE-Net。具有†(f-CLSWGAN,SE和SP-AEC)的模型生成额外的数据用于训练,而其余模型则不会。红色表示每个数据集上表现最好的模型,蓝色表示判别模型的现有技术。我们的模型优于所有其他判别模型,与具有额外合成数据的模型相比也具有竞争力。方法SUNT1零射击学习CUBAWA1AWA2T1 T1T1APYT1广义零触发学习u孙SHu幼崽SHuAWA1SHuAWA2SHuAPYSHLATEM [55]55.349.355.155.835.214.728.819.515.257.324.07.371.713.311.577.320.00.173.00.2ALE [1]58.154.959.962.539.721.833.126.323.762.834.416.876.127.514.081.823.94.673.78.7DeViSE[12]56.55254.259.739.816.927.420.923.853.032.813.468.722.417.174.727.84.976.99.2SJE [2]53.753.965.661.932.914.780.519.823.559.233.611.374.619.68.073.914.43.755.76.9西班牙语[35]54.553.958.258.638.311.027.915.812.663.821.06.675.612.15.977.811.02.470.14.6同步[4]56.355.654.046.623.97.943.313.411.570.919.88.987.316.210.090.518.07.466.313.3[第52话]-55.668.264.2----38.161.147.031.491.346.730.093.445.3---[第54话]61.951.768.467.135.020.534.325.619.657.929.232.884.747.330.586.445.111.175.119.4[50]第五十话60.857.368.2--42.636.639.457.743.749.761.457.959.6------[41]第四十一话63.459.669.569.2-40.930.534.953.341.546.767.856.361.558.368.162.8---SP-AEN† [5]59.255.4-58.524.124.938.630.334.770.646.6---23.390.937.113.763.422.6TAFE-Net60.956.970.869.342.227.940.233.041.061.449.250.584.463.236.790.652.224.375.436.8表3:在GALML下的五个基准上的嵌入损失的消融。报告调和平均值(H)方法SUN幼崽AWA1AWA2APYTAFE-Net,不含EmbLoss33.145.458.847.230.5TAFE-Net33.049.263.252.236.8包埋损失消融。 我们在表3中提供了我们的模型的调和平均值,其中有和没有嵌入损失,在表3中的五个基准数据集上进行了GWML设置。 一般来说,具有嵌入损失的模型优于没有嵌入损失的模型,除了SUN数据集,其类别数量比其他数据集大3到22倍这一观察与我们的假设对联合嵌入的额外监督更好地解决了数据稀缺性(即,比视觉输入更少的类描述)来训练控制器模型。嵌入可视化。在图3中,我们可视化了不同任务描述下aPY数据集图像的任务感知特征嵌入。正如我们所看到的,同一幅图像的图像嵌入被投射到不同的集群中,这些集群是以任务描述为条件的。4.2. 不可见视觉属性组成除了标准的零杆学习基准,我们评估我们的模型的视觉属性组成任务提出的Misra等人。[31 ]第30段。目标是组成一组视觉概念原语,如属性和对象(例如,大型大象、古老建筑物等)以获得给定图像的新视觉概念。这是一个更具挑战性的数据集和评估指标。我们进行实验-图3:使用t-SNE [40]将任务感知图像特征嵌入投影到两个维度,用于两个任务(Zebra和Donkey)。请注意,更改任务会为相同的数据生成不同的嵌入。两个数据集上的元素:MITStates [21](图5中的图像样本)和修改后的StanfordVRD [29](图4中的图像样本)。设置与Misra等人相同。[31 ]第30段。MITStates数据集中的每个图像都被分配了一对(属性,对象)作为其标签。该模型在具有1,292个标签对的34K图像上进行训练,并在具有700个未见过对的19K图像上进行测试。第二个数据集是基于StanfordVRD数据集的边界框注释构建的每个样本都有一个SPO(主语、谓语、宾语)元组作为基础真值标签。该数据集有7,701个SPO三联体,其中1,029个仅在测试分裂中可见我们1838表5:具有不同任务编码和基础网络特征的消融研究。TAFE-Net在不同设置下的性能差异最小。任务编码特性AP前k精度1 2 3Word2vec ResNet-101 16.2 17.2 27.8 35.7Onehot ResNet-101 16.1 16.1 26.8 33.8Word2vec VGG 16 16.3 16.4 26.4 33.0Onehot VGG 16 16.3 16.4 25.9 32.5Word2vec VGG 19 15.6 16.2 26.0 32.4Onehot VGG 19 16.3 16.4 26.0 33.1图4:StanfordVRD中的样本。每个图像都由一个主语-动词-宾语三元组来描述从左上到右下:(大象,在,草地上),(长颈鹿,在,街道上),(人,散步,狗),(枕头,在,人),(人,穿,牛仔裤),(狗,有,衬衫)。表4:对MITStates数据集的19K图像上的700个不可见(属性,对象)对和StanfordVRD数据集的1000个图像上的1029个不可见SPO三联体的评价。TAFE-Net在基线上有很大的改进。麻省理工学院美国斯坦福大学为了公平比较,我们使用相同的ResNet-18特征,并获得15的前1精度。百分之一。消融特征提取器和任务描述。 我们考虑了不同的特征提取器(ResNet-101、VGG-16和19)和消融任务编码(word 2 vec和one-hot编码),并在表5中总结了结果。不同特征提取器之间的平均精度差异非常小(在0. 1%),Top-3准确度的最大差距在2%以内。这表明方法AP前k精度1 2 3AP前k精度1 2 3TAFE-Net在将通用特征转换为任务感知的特征嵌入方面具有鲁棒性对于任务编码,one-hot编码与word 2 vec编码相当,在使用VGG-19特性时甚至更强这说明任务Transformer网络T非常有表现力,可以简单地从任务ID中提取丰富的语义信息仅在具有不可见标签的示例上评估我们的模型。我们使用ImageNet上的预训练模型提取图像特征。我们使用VGG-16和ResNet-101作为我们的主要特征提取器,并测试使用VGG- 19和ResNet-18提取的消融特征。对于任 务描述 ,我 们将属 性和对 象的 词嵌入 与使用GoogleNews训练的word2vec [30]我们还考虑消融中任务ID的独热编码。对于评估指标,我们报告了测试集中具有不可见标签的图像的平均平均精度(mAP)以及前k个精度,其中k=1,2,3。我们遵循与零射击学习实验中使用的相同的训练时间表。定量结果。我们比较我们的模型与Misra等人提供的几个 基 线 。 [31] 并 在 表 4 中 总 结 了 MITStates 和StanfordVRD数据集的结果。我们的模型超越了最先进的模型,mAP提高了6个点以上,top-k精度提高了4到15个点Nagarajan和Grauman [32]最近提出了一个用于视觉属性组合的嵌入式学习框架。 他们报告了12的前1准确度。0%在MITStates数据集上使用ResNet-18特征。可视化。在图5中,我们展示了从MITStates数据集中检索到的未见过的属性-对象对。我们的模型可以学习从现有的属性和对象组成新的概念,同时尊重它们的上下文。4.3. 少炮点图像分类我们的模型很自然地适合少数几次学习设置,其中某个类别的一个或几个图像被用作任务描述。与先前的元学习工作不同,元学习实验的类别很少,分辨率低[42,38,10],我们在Hariharan和Girshick提出的具有挑战性的基准上评估我们的模型[17]。该基准测试基于ImageNet图像,包含数百个类,分为基类和新类。在推理时,模型提供了一个或几个来自新类的示例和数百个来自基类的示例。我们的目标是在不牺牲基类性能的情况下获得新类的高精度。基线。在我们的实验中,我们考虑的基线是最先进的Meta学习模型:匹配网络(MN)[42]和原型网络(PN)[38]。我们也视觉产品[31]8.89.816.120.64.93.25.67.6标签嵌入(LE)[31]7.911.217.622.44.34.17.210.6LEOR [31]4.14.56.211.80.91.11.31.3LE + R [31]6.79.316.320.83.93.97.110.4红葡萄酒[31]10.413.121.227.65.76.39.212.7TAFE-Net16.316.426.433.012.212.319.727.51839现代城市现代时钟阳光谷古镇古钟阳光溪图5:MITStates数据集上未看到的对的顶级检索我们的模型可以学习从现有的属性和对象组成新的概念第二行显示了一些失败案例。表6:ImageNet上的少镜头ImageNet分类。我们的模型是有竞争力的相比,最先进的Meta学习模型没有幻觉。方法新的Top-5访问n=1 n=2所有前5位访问n=1 n=2登录注册[17]38.451.140.849.9PN [38]39.354.449.561.0[42]第四十二话43.654.054.461.0TAFE-Net43.053.955.7 61.9[17]第十七话40.750.852.259.4PN w/ G [45]45.055.956.963.2比较Hariharan和Girshick提供的逻辑回归(LogReg)基线[17]。另一种针对少次学习的研究[45,17]是将元学习器与“幻觉器”结合起来,以生成额外的我们认为这些工作是对我们的元学习模型的补充。实验细节。我们遵循之前的工作[17,45],在五个不同的数据分割上为每个n设置运行五次试验(每个新类别的示例数量,在我们的实验中n = 1和2),并报告新类别和所有类别的平均前5名准确度我们使用ResNet-10训练的特征,使用Hariharan和Girshick [17]提供的SGM损失作为输入。对于训练,我们在每次迭代中采样100个类,并使用动量为0.9的SGD作为优化器。除了任务嵌入网络(设置为0.01)和学习率之外,初始学习率设置为0.1每8k次迭代减少10倍该模型总共训练了30k次迭代。其他超参数设置为[17]如《易经》云:“以物易物,以物易物。定量结果。如表6所示,我们的模型在新类上与最先进的Meta学习模型不相上下,同时在所有类别上都优于它们。在Meta学习模型中附加一个“幻觉器”通常会提高性能。我们的模型可以很容易地附加一个幻觉,我们离开详细的研究作为未来的工作,由于时间的限制。5. 结论在这项工作中,我们探索了一种基于Meta学习的方法,用于在很少或没有训练数据的情况下生成任务感知的特征嵌入。我们提出了TAFE-Net,一个基于任务描述的任务感知特征嵌入(TAFE)网络。TAFE-Net有一个任务感知的Meta学习器,可以为标准预测网络中的特征嵌入层生成权重。为了解决训练Meta学习者的挑战,我们引入了两个关键创新:(1)增加额外的嵌入损失以改进Meta学习器的泛化;(2)提出了一种新的权因子分解方案,以更有效地生成预测网络的参数。我们证明了所提出的网络设计在零/少拍学习中的一系列基准上的普遍适用性,并且匹配或超过了最先进的水平。致谢这项工作得到了伯克利人工智能研究,RISE实验室和伯克利DeepDrive的支持。除了NSF CISE Ex-peditionsAward CCF-1730628之外,这项研究还得到了阿里巴巴、亚马逊网络服务、蚂蚁金融、Arm、CapitalOne、爱立信、Facebook、谷歌、华为、英特尔、微软、英伟达、丰业银行、Splunk和VMware的捐赠支持。1840引用[1] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid 。 用于 图像 分类 的标 签嵌 入。 IEEEtransactions on pattern analysis and machine intelligence,38(7):1425-1438,2016。二、四、五、六[2] Zeynep Akata , Scott Reed , Daniel Walter , HonglakLee,and Bernt Schiele.细粒度图像分类的输出嵌入评价。IEEE计算机视觉和模式识别会议论文集,第2927-2936页,2015年。二、五、六[3] Luca Bertinetto , João F Henriques , Jack Valmadre ,Philip Torr,and Andrea Vedaldi.学习前馈一次性学习器。神经信息处理系统的进展,第523-531页,2016年二、三[4] Soravit Changpinyo,Wei-Lun Chao,Boqing Gong,andFei Sha.用于零镜头学习的合成分类器。在IEEE计算机视觉和模式识别会议(CVPR)中,2016年6月。一、二、五、六[5] 陈龙,张汉旺,肖军,刘伟,张世福.使用语义保持对抗嵌入网络的零射击视觉识别。在IEEE计算机视觉和模式识别会议论文集,第1043-1052页,2018年。五、六[6] Harm De Vries , Florian Strub , Jérémie Mary , HugoLarochelle,Olivier Pietquin,and Aaron C Courville.通过语言调节早期视觉处理。神经信息处理系统进展,第6594-6604页,2017年。3[7] MishaDenil,Babak Shakibi,Laurent Dinh,Nando DeFreitas,et al.深度学习中的参数预测。神经信息处理系统的进展,第2148-2156页,2013年3[8] Jeff Donahue , Yangqing Jia , Oriol Vinyals , JudyHoffman,Ning Zhang,Eric Tzeng,and Trevor Darrell.Decaf:用于通用视觉识别的深度卷积激活功能机器学习国际会议,第647- 655页,2014年1[9] Ali Farhadi , Ian Endres , Derek Hoiem , and DavidForsyth.按属性描述对象 在计算机视觉和模式识别,2009年。CVPR 2009。 IEEE会议,第1778-1785页。IEEE,2009年。5[10] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML,2017. 7[11] Chelsea Finn、Tianhe Yu、Tianhao Zhang、Pieter Abbeel和Sergey Levine。通过Meta学习的一次性视觉模仿学习。在机器人学习会议上,第357-368页,2017年。一、二[12] Andrea Frome , Greg S Corrado , Jon Shlens , SamyBengio,Jeff Dean,Tomas Mikolov,et al. DeViSe:一个深度视觉语义嵌入模型. 神经信息处理系统的进展,第2121-2129页,2013年。 一、二、五、六[13] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision,第1440-1448页,2015中。3[14] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。在IEEE计算机视觉和模式识别集,第580-587页1[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第26725[16] David Ha,Andrew Dai,and Quoc V
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功