没有合适的资源?快使用搜索试试~ 我知道了~
2721多注意力网络的一次性学习王鹏1、刘凌桥1、沈春华1、黄子2、安东·范登亨格尔1、沈衡涛3、澳大利亚阿德莱德大学2、澳大利亚昆士兰大学3、中国电子科技大学成都摘要单次学习是一个具有挑战性的问题,其目标是识别由单个训练图像识别的类。考虑到一次性学习的实际重要性,似乎令人惊讶的是,类标记本身中存在的丰富信息在很大程度上被忽略了。大多数现有的方法将类标签的使用限制为寻找相似的类并传输在其上学习的分类器或度量。相比之下,我们在这里证明,类标签可以通知一次性学习,作为对训练图像的视觉注意力的指导,以创建图像表示。这是因为如果图像的类标签被理解,人类可以更好地解释训练图像。具体来说,我们设计了一个神经网络架构,它采用类标签的语义嵌入来生成注意力图,并使用这些注意力图来创建用于一次性学习的图像特征。请注意,与其他应用程序不同,我们的任务要求学习的注意力生成器可以推广到新的类。我们表明,这可以实现表示类标签与分布式词嵌入和学习的atten- tion地图生成器从辅助训练集。此外,我们设计了一个多注意力的计划,以提取更丰富的信息,从样本图像,这导致了实质性的性能改善。通过全面的实验,我们表明,所提出的方法导致优于基线方法的性能。1. 介绍训练当前机器学习技术所需的数据量是它们可以有效应用于的问题范围的主要限制之一。相比之下,人类通常能够从单个训练实例中学习识别一次性学习是机器学习问题,旨在模仿人类的这种一次性学习的主要困难之一前两个作者对这项工作的贡献相等。 L.刘的参与得到了ARCDECRA奖学金(DE170101259)的部分支持。图1. 给定一个新类别的样本图像,一次性学习的目标是从数据库中识别属于同一类别的图像左图是芭蕾舞裙的一个范例。单独使用图像可能导致识别中的模糊性。如果类别标签被理解为芭蕾舞裙是一种服装,它可以帮助将注意力集中在芭蕾舞裙的部分,从而做出更准确的决策。泛化的目的是超越特定的、单一的训练实例,这不可避免地需要识别训练图像的哪些部分类标记是一个有用的信息源,可以帮助识别类的基本特征。然而,大多数(如果不是全部的话)现有方法以非常有限的方式使用类标签,也就是说,它们仅在寻找可利用分类器的其他类时才转向类标签[7,19]。我们在这里提出的方法使用类标签来引导注意力机制,该机制能够识别训练图像的哪些部分最相关。我们的方法是出于观察,人类可以更好地解释一个样本图像,如果它的类标签是很好地理解。例如,如图1所示。1,从单个样本很难理解图像的哪个部分与类别相关,这导致识别的模糊性。但是如果我们理解类标签模仿这一过程,在本文中,我们数据库图图(服装)2722建议使用注意力机制来建立类标签和视觉内容之间的对应关系,以实现用于一次性学习的更好的图像表示。与注意力模块在其他任务中的应用相反,例如视觉问答[27],我们的方法要求注意力地图生成器可以转移到新的类。在我们的工作中,我们利用分布式词嵌入[16]来表示类标签,以捕获不同概念之间的语义关系。因此,注意力图生成器成为从词嵌入和图像特征到注意力图的映射函数我们从辅助数据集学习这样的映射,我们表明,这个映射函数实际上概括到新类的样本。我们提出的网络的另一个关键新颖之处是,我们提出了生成和使用多个注意力地图的想法。存在可以帮助识别类的各种线索,例如,不同的对象部分和上下文场景,其视觉外观可以显著变化。单一的注意力地图可能不足以探索这些信息,因此可能有丢失重要线索的风险。多注意力地图可以通过提供额外的机会来提取有用的信息来缓解这个问题,从而有助于创建更鲁棒的图像表示。为了评估针对一次性学习提出的注意力方案,我们构建了两个数据集,一个集中在[12]中的不同动物类,另一个包含大量的通用对象类。这些数据集并不局限于这项工作,可以作为一次性学习的基准在这两个数据集上进行的综合实验表明,我们的方法优于基线方法。总之,这项工作的贡献如下:• 我们证明了类标签信息可以促进一次性学习,并设计了一种新的方法,可以利用这些信息。• 我们提出了一个注意力网络,它可以产生注意力地图,用于创建一个新的类的样本图像的图像表示的基础上,其类标签。• 我们进一步提出了一个多注意力计划,以提高所提出的注意力网络的性能。• 我们收集了两个新的数据集,并建立了一个实验协议来评估一次性学习。2. 相关工作一枪学习各种方法通过将在先前类别中学习的分类器或度量转移到类标签来解决一次性学习问题[7,19,15]。在[7]中,作者用概率模型表示对象类别。他们将在其他类中学习的知识建模为先验概率函数w.r.t.模型参数,并给出一个作为一个新的类的范例,它们更新知识并生成后验密度来识别新的实例。然而,他们为所有类别学习一个先验,并且只使用三类模型来形成先验。这阻碍了该方法的泛化能力[19]中的方法更进一步。他们将类别分成超级类别,并为每个超级类别学习先验知识。给定一个新类的单个训练图像,他们首先将其分配到一个超类别,然后估计诉诸于相应的超类别的类的参数另一种类型的作品使用度量学习的基本思想来解决一次性学习问题,其试图将图像特征映射到同一类的图像彼此接近而属于不同类的实例被分离的空间中作者在[10]中提出了一种典型的这种方法。他们训练一个Siamese网络来识别正/负训练对,并将学习到的特征映射应用于新的类,以验证两个实例是否属于同一个类。最近,为了克服深度神经网络请注意,上述许多现有方法与我们的方法是正交的,因为它们可以应用于我们的网络生成的图像表示之上注意力模型。注意力模型已被应用于各种计算机视觉问题,包括图像分类[25,1,8],语义分割[3],视觉跟踪[5],人物识别[9],图像字幕[4,6,26]和问答[27]。在每种情况下,注意力的焦点随应用而变化。焦点可以是图像部分[25,1,27],不同尺度[3]或时空区域[9]。尽管应用场景不同,但一些注意力模型的基本方案是相似的。它们使用训练数据来学习一个可以自适应定位相关信息的网络在某种意义上,这类似于隐式学习分类器或检测器。因此,需要大量的训练数据来保证网络的泛化在本文中,我们以一种完全不同的方式生成注意力地图,它使用类标签的嵌入来强调与类相关的通过利用类别标签的语义表示[16]之间我们的方法也与显着性检测有关[11]。然而,目标是不同的。显著性检测的目的是识别图像中的显著对象并分割对象边界。我们的目标是将注意力放在与类标签相关的视觉内容上,而不需要精确的2723图2.所提出的注意力网络的总体架构的说明3. 该方法在本节中,我们将详细介绍用于一次性学习的注意力网络我们首先给出了一个正式的定义,我们研究的问题,然后说明了所提出的网络的整体架构,其次是详细描述的关键模块。3.1. 问题定义和符号给定一个属于c类的样本图像,我们的任务是预测测试集中的图像是否属于c类。不失一般性,我们将每个图像表示为一组局部特征X={xi},xi∈Rdv,其中dv是局部特征的维数。对于每个类c,我们定义一个向量c∈Rdw,表示类标签的语义嵌入一个映射函数是从图像和类标签对学习到注意力地图的。 映射在由类别集组成的辅助数据集上训练不与{c}重叠的CN({c}<$CN=<$)。3.2. 注意网络3.2.1概述所提出的注意力网络的架构如图所示。二、网络的输入是图像及其相关的类标签。图像被馈送到CNN中以提取局部视觉特征,并且类标签由其分布式语义嵌入表示,例如,word2vector [14]或GloVe [16]。我们建议使用这种嵌入来引导图像中的视觉注意力。首先,我们应用编码器将局部视觉特征映射成一组编码向量然后,我们从类标签的语义嵌入生成注意检测器(或注意检测器),并将该检测器应用于编码向量以生成注意图(或注意图)。然后使用注意力图在下面的章节中,我们将详细介绍网络中的模块。3.2.2特征提取我们的方法适用于任何情况下,输入图像可以表示由一组本地功能。在这项工作中,我们提取了CNN的卷积特征图,并将其视为一组局部特征。也可以使用其他表示法,例如从多个对象投影中提取特征[22]。对于class标签,我们使用从大规模语料库中预训练的GloVe[16]作为单词嵌入。如果类标签包含一个包含多个单词的阶段,我们将每个单词在阶段中的嵌入平均为类标签的语义表示。3.2.3视觉特征编码与加权池化我们对每个局部特征应用局部特征编码器。形式上,编码器是如下定义的映射函数:其中f(a)=max(0,a)是整流线性单元(ReLU),xi是一个局部特征,Wv∈Rd×dv和bv∈Rd是模型参数可视编码加权联营分类视觉特征编码向量g1 g2图像特征...特征提取H1H2注意1 注意事项2H1雪鞋语义嵌入h2属性检测器注意检测器学习字表示短裙雪鞋头巾CNN............2724我我我们不是直接聚合这些局部特征来创建图像表示,而是通过一组注意力地图的指导来这种池化操作的基本形式如下:其中b(·)是保证注意力分数为正的函数我们在这里设计了两个标准化策略。首先,我们使用一个ReLU函数:b(a′)= max(a′,0),(6)我我Σ|X|g = viai,(2)i=1对于第二种情况,我们使用分数移位方案:b(a′)=a′−min({a′})。(七)其中ai表示第i个编码的关注值i ijjvector.在下面的部分中,我们将详细介绍ai的计算。图3. 生成的注意力地图的示例,其中强度指示不同区域的活跃度。为每个样本图像生成两个注意力图,并且这两个类别,3.2.4注意力地图生成为了生成注意力地图,我们首先从类标签的语义嵌入中创建一个注意力检测器,也就是说,我们让:h=Wsc+bs,(3)其中c是类标记的语义嵌入,Ws∈Rd×dw和bs∈Rd是要学习的模型参数这两种策略的不同之处在于,前者完全忽略了被注意检测器识别为无关的负分部分,而后者则同时考虑正分和负分。在第4.3.4节中,我们进行实验来比较这两种归一化策略。图3显示了从我们的注意力模块生成的注意力地图的示例。可以看出,注意力图更多地强调与类标签相关的部分。因此,通过将加权池化与注意力图一起应用,可以在很大程度上避免从图像类的不相关内容的分心请注意,这些示例中的类在训练阶段不可见。3.2.5多重注意方案作为我们的方法中的一个关键的新颖之处,我们建议使用多注意力计划来生成多个注意力图。使用多个注意力图优于单个注意力图的优点是双重的:(1)它可以描绘范例图像的各种方面,例如,不同的注意力地图突出了物体的不同部分或突出了物体及其视觉背景;(2)它降低了具有不正确的注意力图的风险,因为更多的注意力图意味着使至少一个注意力图正确地集中在相关内容上的更多机会。图4示出了这样的示例。可以看出,单个注意力图不能聚焦在“标志牌”上,但是当使用两个注意力图时,我们通过创建多个注意力检测器{h}。 这是我们实现的--然后将生成的注意力检测器应用于每个将t组(Wsk,bskK)如Eq。 3.通过应用编码向量以获得其初始注意力置信度得分a′:a′= hvi.(四)与类标签相关的局部区域的分数预计会更高这是由目标函数驱动的,即,对不相关内容的强调导致图像特征不具有区分性,这将受到损失函数的惩罚。然后将该置信度分数归一化以获得最终的注意力值ai:b(a′)与上述相同的归一化和加权池化方案,我们最终创建t池化向量{gk},我们将其连接在一起以获得最终的图像级表示:G=[g1,g2,···,gt].(八)3.3. 网络训练训练阶段的目的是学习具有函数形式F(I,c)的图像特征生成器,其中I是输入图像,c是其相关联的类标签。在2725我ai=0我我b(a′)、(五)测试阶段,我们为一个例子生成图像特征使用F(Ie,Ce)对图像Ie进行plar,其中Ce是其类标记。2726然后,通过dist(It,Ie)=dist(F(Ie,Ce),F(It,Ce))计算测试图像It和Ie之间的距离。有了这个距离,我们可以执行图像检索或图像分类任务。我们在一个辅助数据集上训练图像特征生成器,该数据集不包含来自测试类的训练样本。为了训练函数F(·,·),我们在其生成的特征之上应用线性分类器,并使用交叉条目损失来联合训练F(·,·)和分类器。端到端的方式。在实践中,我们使用随机梯度下降(SGD)来训练网络,并应用权重衰减来正则化模型参数。在测试阶段,分类器被丢弃,仅使用F(·,·)。这是因为在测试阶段使用的类标签不会出现在训练阶段。两张注意力地图单一注意图图4. 单一vs.两张注意力地图放在班级的4. 实验在本节中,我们将首先介绍一些实现细节,然后说明为评估一次性学习任务而构建的数据集。然后,我们将提出我们的方法和一些基线方法之间的定量比较。最后,可视化的注意力地图将给出定性分析所提出的注意力方案的有效性。4.1. 实现细节我们使用VGG网络最后一个卷积层的激活[21]作为图像的视觉特征。请注意,我们在将图像送入网络之前并没有将它们重新缩放为固定大小,而是保留了它们的原始大小(或长宽比)。对于类标记表示,我们使用GloVe[16]以提取300维语义嵌入。在视觉特征编码阶段,我们将特征编码为256维。4.2. 数据集为了评估所提出的注意力网络,我们从ImageNet构建了两个数据集[18]。对于每个数据集,图像被分成两个子集,并且这两个子集的类不重叠。一个子集用作网络训练的辅助数据集,另一个子集用于评估一次性学习任务为了简单起见,我们将它们命名为辅助集和评估集。在本文中,我们有两种类型的实验设置。虽然一种设置仅使用评估集作为从中识别目标类别的图像的数据库,但另一种设置更具挑战性,因为它使用评估集和辅助集作为数据库。通过本文的研究,我们将前一种语境4.2.1动物数据集我们基于零射击学习的基准数据集构建动物数据集,具有属性的动物[12]。该数据集由50个动物类组成,并为每个类提供实值属性向量。由于数据集不提供原始图像,我们从ImageNet收集每个动物类别下我们使用与[12]中相同的分割协议,也就是说,我们使用40个类别进行网络训练,其他10个类别用于一次性学习评估。我们采用[12]中提供的属性向量作为类标签的语义表示之一。4.2.2数据集动物数据集试图将从40个类别中学到的知识转移到10个新类别中,其中所有的类别都是动物。为了在更一般的类范围内验证可转换性,我们收集了另一个称为“数据集”的数据集。在这个数据集中,我们使用ImageNet的分类任务中的1000个考虑到训练和评估效率,我们没有将一个类别下的所有图像放入我们的数据集中,而是每个类别随机抽取50张图像。4.3. 实验结果在本节中,我们展示了实验结果。给定一个类别的样本图像,其任务是从数据库中识别出具有相同类别标签的图像我们依次使用一个类别中的图像作为样本图像,并采用图像检索中的平均精度(mAP)作为评价指标。1我们将首先展示我们的方法和一些基线方法之间的性能比较然后,我们深入到网络结构,研究上述两个注意力分数归一化策略对一次性学习性能的影响。最后,可视化[1]并不是说,如3.3节所示,我们也可以使用最近邻分类器来评估分类性能。2727将示出一些示例注意力图以定性地评估所提出的注意力方案。4.3.1比较方法注意,实验的重点是显示我们的基于注意力的特征生成方案对于一次性学习任务的优势。大多数现有的一次性学习方法都与我们的方法正交,因为它们可以应用于我们的方法生成的图像特征之上。在这里,我们比较以下方法。• 全球FC代表:我们将整个图像输入VGG网络[21],并提取最后一个全连接层作为全局图像表示。我们执行PCA去相关的维度和进行归一化的特征进行归一化。余弦相似度用于度量图像之间的距离。• 监督编码(SE):为了验证注意力机制的有效性,我们选择了另一种端到端的学习基线,即监督编码[24、13]。它首先将每个局部视觉特征编码成一个编码向量,然后通过求和池将这些编码向量直接聚合形成图像表示。合并的特征被馈送到分类层中以进行分类。括号中的数字(如果适用)表示编码矢量的维数。监督编码方法以及稍后介绍的联合贝叶斯[2]在某种意义上类似于度量学习时尚方法[10],其本质是将同一类的图像映射在一起,并将来自不同类的实例分开。监督编码方法和我们的方法都使用相同的辅助数据集来训练网络。• 监督编码+联合贝叶斯:联合贝叶斯[2]是一种非常有效的人脸验证方法。阳离子,并且可以作为通用度量学习方法应用于其他场景。我们使用从监督编码生成的图像特征来学习参数,并使用[2]中引入的两幅图像之间的相似性的概率度量来验证它们是否属于同一类。• 零射击学习:为了证明使用图像样本学习类的重要性,我们实现了最先进的零拍摄学习方法[17]第10段。 zero-shot learning试图通过描述一个新的类来识别它。在这里,我们使用[12]中提供的属性作为类描述。该方法包括训练和推理。在训练步骤中,我们使用训练辅助数据集中的类以学习从视觉特征空间映射到属性空间的投影矩阵V。在推理步骤中,我们使用矩阵V将新类ce属性映射到线性模型中。该线性模型可以用作适用于评估数据集中的图像的分类器,其中对应于类别ce的图像旨在具有更高的分类分数。我们通过交叉验证来调整超参数。2• 注意:这表示我们的网络与一个单一的注意力地图。括号中的内容(如适用)指示如何表示类标签、属性[12]或单词嵌入[16]。对生成的图像特征进行归一化处理,并采用余弦距离作为相似性度量。• 注意+联合贝叶斯:为了公平比较,我们还将联合贝叶斯[2]应用于图像表示,我们的注意力模型产生的情绪。并采用与文献[2]相同的概率测度来判别两幅图像是否属于同一类。• 多重关注:我们生成并使用多个注意力图,括号中的数字表示注意力地图的数量。对于多注意,我们使用单词嵌入[16]作为类标签表示。4.3.2动物数据集的结果表1显示了动物数据集的实验结果。请注意,FC的性能部分是由于其经过训练以分类1000个类别,这些类别涵盖了测试动物类别的子集。监督编码是最可比的我们的方法。为了显示详细的比较,我们还在表3中按类别进行了比较。 它平等地对待局部视觉特征,并且在很大程度上会受到不相关内容的干扰影响。受益于atten- tion地图的指导当采用多个注意力地图时,观察到显著的性能跳跃。如图所示,两个和五个注意力地图都提高了识别性能。请注意,在封闭世界场景中,两个注意力地图可以获得更好的性能。零射击学习方法[17]的性能最差,特别是在开放世界场景中区分一个新类和更广泛的类时。这一观察揭示了零射击学习的局限性,2.使用调整后的参数,我们得到79. 动物属性数据集[12]的准确率为9%,代表了最先进的性能。2728表1. 注意力网络与动物数据集上的替代解决方案的比较。封闭世界全球FC 68.9%东南欧67.7%零射击学习55.2%注意力(属性)72.4%注意力(词向 量 ) 74.0% 多 注 意 力 ( 2 )82.4%多注意力(5)77.7%开放世界全球FC 42.8%东南部42.1%零射击学习15.3%注意力(属性)47.4%注意力(词向 量 ) 49.0% 多 注 意 力 ( 2 )55.7%多注意力(5)56.8%强调了在识别新类时使用视觉线索的重要性这里另一个有趣的结果是,当使用单词embed- ding[16]表示类标记时,我们的方法获得了更好的性能。这有利于我们的方法的推广,因为定义一般类的属性是困难的和劳动密集型的,而词嵌入可以覆盖大量的概念,包括那些人们不熟悉的。表2. 注意力网络与其他解决方案的比较。封闭世界东南部(256 D)27.8%SE(512D)28.2%SE +联合贝叶斯31.5%关注度34.5%注意力+联合贝叶斯36.8%多注意力(2)50.5%开放世界SE(256 D)11.6%SE(512D)12.2%SE +联合贝叶斯11.4%关注度15.2%多注意力(2)28.2%4.3.3搜索引擎数据集上的结果表2展示了在CNAS数据集上的结果。再次,我们观察到显着的优势,我们的方法相比,比较方法。对于监督编码,我们将局部视觉特征编码为两个不同维度256和512,以查看编码向量的不同维度的影响。我们可以看到,维度加倍只会导致较小的性能改进。这意味着简单地增加编码向量的维数不能帮助捕获更多有用的信息。当将联合贝叶斯[2]应用于由监督编码生成的图像表示时,mAP在封闭世界设置中上升约4%,但在开放世界设置中几乎保持当使用单个注意力图来引导局部特征聚合时,与封闭世界和开放世界设置中的监督编码相比,它分别获得了约7%和4%当将联合贝叶斯[2]应用于我们的表示时,我们看到了进一步的改进。同样,当我们应用多个注意力地图时,最显着的性能提升发生了从表2中我们可以看到,当我们使用两个注意力地图时,与使用单个注意力地图相比,在封闭世界和开放世界设置中的性能分别提高了16%和13%拥有多个注意力地图的好处是它可以保留更多相关信息。一个例子如图所示。4,其中“招牌”被单注意力地图忽略,但当使用两个注意力地图时被挑出来。表4.比较两种不同的注意力分数标准化方案在数据库数据集上的差异封闭世界分数移动32.0%ReLU 34.5%开放世界分数移动15.2%ReLU 15.2%4.3.4两种注意力分数归一化注意力分数标准化是实现网络训练和一次性学习性能的重要一步。它的一个重要作用是保持图像不同部分的相对重要性。通过这种策略,我们减轻了有用部分的注意力值应该保持稳定高的要求。相反,我们只需要这些部分,以获得相对较高的注意力值相比,分心的因素。在这一部分中,我们比较了等式中引入的两种归一化方案的性能。6和Eq。7. 前者是一个ReLU函数,它忽略了被识别为不相关的部分,而后者则以获得的最小分数提高所有注意力值2729奶瓶pogo棒图图Koto大鼠大熊猫密封豹子黑猩猩表3.在Animal Dataset上比较监督编码和建议的注意力网络报告每个类别的平均精密度(%)上半部分显示封闭世界的结果,下半部分显示开放世界的结果。方法座头鲸豹子黑猩猩大鼠波斯猫河马大熊猫猪浣熊密封SE75.798.182.969.183.649.490.628.662.043.4关注79.898.579.370.589.960.193.937.177.555.6多注意力(2)73.196.486.882.090.677.393.567.580.469.1方法座头鲸豹子黑猩猩大鼠波斯猫河马大熊猫猪浣熊密封SE12.382.939.027.561.424.080.28.839.717.3关注23.686.442.636.265.435.583.310.952.828.2多注意力(2)21.280.247.347.465.240.684.026.854.639.0图5.视觉化的注意力地图对新的类。前五个示例来自Animal Dataset,其余示例来自Animal Dataset。请注意,这些类不会出现在网络训练阶段。从图像(分数移位)。这两种方法都能保证注意力图由正值组成。表4给出了在CNAS数据集上的这种比较。可以看出,它们在开放世界环境中实现了相当的性能,而ReLU在封闭世界环境中的性能优于ScoreShifting2%。结果表明,这两种方案都可以突出区分信息,ReLU可能会导致更好的性能,因为它可以进一步消除一些嘈杂内容的干扰。4.3.5注意力地图可视化为了定性地评估所提出的注意力方案,我们可视化了图中新类上生成的一些示例注意力图。五、虽然这些类在网络训练阶段看不到,但生成的注意力地图会自动突出类标签所描述的内容。有趣的是,我们的方法可以很好地工作,在一些令人不安的情况下,有关的对象是小的w.r.t的大小的图像,如“弹簧高跷”和“奶瓶”的例子图。五、如果我们通过直接聚合所有局部特征来创建图像特征,则这些小对象往往会被分散注意力的内容淹没,这可能导致图像识别失败。然而,在注意力图的指导下,我们的方法可以创建更具区分力的图像表示。5. 结论我们提出了一种新的方法来利用类标签,以利于一次性学习。特别地,我们设计了一个神经网络,它可以产生注意力地图,用于创建基于其类标签的新类中的范例图像的图像表示。为了进一步提高算法的性能,提出了一种多注意机制.该框架可以应用于更一般的设置,例如,少数拍摄学习,通过生成有区别的图像表示诉诸类标签。这将在今后的工作中进行调查。2730引用[1] C. Cao,X.Liu,Y.Yang,Y.Yu,J.Wang,Z.Wang,Y.黄先生,L. Wang,C.黄,W. Xu,L. Ramanan和T. S.煌仔细看,三思而后行:用反馈卷积神经网络捕获自上而下的视觉注意力。在ICCV,2015年。[2] D. Chen , X. 曹 湖 , 加 - 地 Wang , F. Wen 和 J. Sun.Bayesian Face:一种联合制剂。ECCV,2012年。[3] L- C. Chen,Y.杨,J.Wang,W.Xu和A.L. 尤尔。注 意比例:尺度感知语义图像分割。在CVPR,2016年。[4] X. Chen和C.劳伦斯·齐尼克。MindCVPR,2015。[5] J. 崔H. 金 张,J. 郑Y. 德米里斯,崔永使用注意调制分解与整合的视觉追踪。在CVPR,2016年。[6]H. Fang,S.古普塔F.扬多拉河K.斯利瓦斯塔瓦湖邓小平说,P. 美元 J. 高城, X. 他, M. 米切尔 J. C. 普拉特C. Lawrence Zitnick和G.茨威格从标题到视觉概念再到后面。CVPR,2015。[7] L.费费河Fergus和P.佩洛娜对象类别的一次性学习。TPAMI,28,2006.[8] K. 格雷戈尔 I. 丹妮赫卡 A. 格拉夫D. Rezkirk,以及D.维尔斯特拉Draw:用于图像生成的递归神经网络。ICML,2015。[9] A. Haque、A.Alahi和L.飞飞用于基于深度的人物识别的循环注意力模型在CVPR,2016年。[10] G.科赫河Zemel和R.萨拉赫季诺夫用于一次性图像识别的连体神经网络。ICML,2015。[11] J. Kuen,Z. Wang和G.王.用于显著性检测的递归注意网络。在CVPR,2016年。[12] C. H. Lampert,H. Nickisch和S.伤害。学习通过类间属性传递检测不可见对象类。CVPR,2009。[13] L. Liu,P.Wang,C.申湖,澳-地Wang,中国山核桃A.van den Hengel,C. Wang和H.T. 沈基于组合模型的fisher矢量编码在图像分类中的应用。TPAMI,2017。[14] T. 米科洛夫岛 Sutskever,K. Chen,G. S. 科拉多,还有J·迪恩单词和短语的分布式表示及其组合性。在NIPS。2013年。[15] S. Naha和Y.王.使用语义标签向量的零射击目标识别。计算机和机器人视觉会议,2015年。[16] J. 彭宁顿河Socher和C。D. 曼宁Glove:单词表示的全局在EMNLP,2014年。[17] B. Romera-Paredes和P.H. 乇一个令人尴尬的简单的零射击学习方法。ICML,2015.[18] O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A.卡帕西A.科斯拉,M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。IJCV,2015年。[19] R.萨拉赫季诺夫B. Tenenbaum和A.托拉尔巴分层非参数贝叶斯模型的一次性学习。JMLR讲习班,2012年27日。2731[20] A. Santoro,S. Bartunov,M. Botvinick,D. Wierstra,以及T. Lillicrap使用记忆增强神经网络的一次性学习。arXiv:1605.06065,2016。[21] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年,国际会议[22] J. Uijlings,K. van de Sande,T. Gevers和A.史默德斯对象识别的选择性搜索。IJCV,2013年。[23] O. 维尼亚尔斯角Blundell,T.Lillicrap,K.Kavukcuoglu和D. 维尔斯特拉匹配网络进行一次性学习。arXiv:1606.04080,2016年。[24] P. Wang,Y.曹氏C.申湖,澳-地Liu和H. T.沈用于动作识 别 的 基 于 时 间 金 字 塔 池 化 的 卷 积 神 经 网 络 。TCSVT,2016年。[25] T.肖氏Y. Xu,K. Yang,J. Zhang,Y.彭,还有Z。张某两级注意力模型在深度卷积神经网络中的应用CVPR,2015。[26] K. Xu,J. Ba,R. Kiros、K. Cho,A.库维尔河萨拉胡迪诺夫河Zemel和Y.本吉奥。Show,attend and tell:Neuralimagecaptiongenerationwithvisualattention.ICML,2015。[27] Z. Yang,X. He,J. Gao,L. Deng和A.斯莫拉用于图像问答的堆叠注意力网络。在CVPR,2016年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功