面向少镜头视觉语义学习的注意力网络

28 浏览量更新于2023-10-13 收藏 1.54MB PDF 举报

深度学习

性能评估

身份认证购VIP最低享 7 折!

30元优惠券

2177面向少镜头视觉语义学习的层次图注意网络尹成祥1、吴昆1、车正平2、江波2、徐志远3、唐健3、*1雪城大学、2滴滴出行、3美的集团摘要深度学习在计算机视觉、自然语言处理甚至视觉语义学习方面取得了巨大的成功，这需要大量的标记训练数据。尽管如此，人类智能的目标是使模型能够快速获得给出少量样本的深入理解，特别是在多模态场景中的异质性，例如视觉问题回答和图像字幕。本文研究了少镜头视觉语义学习，提出了HGAT注意力网络。这个两阶段的网络模型内和模态间的关系与有限的图像-文本样本。该小组的主要贡献可归纳如下：1）它揭示了通过更好地利用每个模态的内部关系和使用基于分层图的架构的模态之间的基于注意力的共同学习框架来解决少数多模态学习问题，其主要但不排他地关注视觉和语义模态; 2）在少镜头场景下，该算法在视觉问题回答和图像字幕方面都有较好的表现; 3）该方法可以很容易地扩展到图像-文本样本部分未标记的半监督环境。我们通过大量的实验表明，HGAT提供了最先进的性能上的两个视觉语义学习任务的三个广泛使用的基准。1. 介绍最近，由于先进的深度学习技术[15]，包括卷积神经网络[26]和递归神经网络[18]，单模态的各种应用取得了重大进展，例如对象检测和机器翻译。然而，为了使人工智能（AI）系统理解我们周围的真实世界，它不仅需要能够记忆包含在单个模态中的丰富信息，例如视觉信号（即，视觉信号）。图像和视频）和自然语言*通讯作者（即，字幕和问题），而且是多种模态的一般来说，这被称为多模态学习[5]，一个典型的例子是视觉语义学习。例如，厨房中的智能烹饪机器人有望通过理解食谱说明以及检测和选择餐桌上的正确食材来制作美味菜肴如果没有阅读文本或看到物体的能力，机器人几乎无法执行这项任务许多方法试图通过处理视觉语义学习任务来解决多模态学习问题，例如视觉问答[32，56，54]和图像字幕[10，49，12]。虽然这些模型在大量人类注释数据和大量训练时间可用时是有能力的，但真正的AI系统应该能够使用少量学习样本快速提供深入的理解。用有限的样本解决视觉语义任务的能力，被称为少镜头视觉语义学习，对人类智能来说是具有挑战性和关键性的。目前，对于一般的少数学习问题，Meta学习[29，36，52]已经成为标准方法。在此基础上，一些扩展最近已经取得了少量的视觉语义学习。快速参数自适应图像-文本建模（FPAIT）[11]直接将模型不可知元学习（MAML）[13]，一种着名的元学习算法，应用于少数视觉问题回答和图像字幕。类似地，另一项工作[46]采用了具有两种元学习技术的问答模型，原型网络[42]和元网络[35]。尽管如此，这些尝试在范围和绩效方面仍有许多不足之首先，从根本上说，所有这些方法都只是应用现有的元学习算法，而没有明确考虑多模态的性质，我们在这项工作中仔细注意。例如，Teneyet al.[46]通过视觉和语义表示之间的简单元素生成获得了他们的模型输入。另外，它们都不处理标签部分未标记的情况，这被归类为半监督学习设置。由于标记数据可能是昂贵的，甚至是不可行的，因此半监督学习非常重要。2178图1.图像字幕（左）和视觉问答（右）的图像-文本样本在实践中具有重要的应用价值，与少炮设置一起使用时，其影响对于涉及多个模态的视觉语义学习，特别是具有有限和部分未标记的图像-文本样本的情况，充分利用潜在的视觉语义关系是至关重要的，例如每个模态的内部关系（即，模态内关系）和不同模态之间的相互关系（即，模式间关系）。虽然已经仔细检查了模态内学习，例如多模态DBM [43]，但是模态间学习留下了更多的探索空间，并赋予模型有意识地捕获补充信息的能力。我们在图1中举两个例子来说明。对于左手侧图像字幕示例，两个图像都包含具有白色遮盖的女性网球运动员。相应地，两个地面实况字幕共享单词“女性”、“白人”和“网球”。在该示例中，即使查询字幕中的一些词丢失，潜在的模态间关系和从视觉模态捕获的信息也可以用于补充和加强语义模态并完成字幕。对于右手侧视觉问题回答示例，左侧两个图像都包含桌子上的计算机，与第三个图像非常不同。因此，中间图像的预测答案很可能被愚弄（例如，计算机）仅通过视觉相似性。只有当通过利用模态相互作用来捕获相互关系时，才可以在语义信息的帮助下将正确的视觉线索与干扰物区分开，并导致正确的答案（即，白色）。虽然基于图神经网络（GNN）[16，41]的模型已用于在少量学习中捕获关系结构[48，14，22]，但它们无法联合和巧妙地利用模态内和模态间关系进行少量视觉语义学习。在本文中，处理少镜头的视觉语义学习任务，我们提出了层次G图AT注意力网络（HGAT）。这种两阶段网络能够用少量的图像-文本样本来建模模态内关系和模态间关系，并且可以扩展到半监督设置。在第一阶段，利用视觉特定和语义特定的GNN来对图像和文本的内部关系进行建模（即，视觉特定关系和语义特定关系）。为了对视觉模态和语义模态之间的相互关系进行建模，提出了一种基于注意力的协同学习框架来指导这些GNN的节点特征更新。在第二阶段，关系感知GNN用于通过联合学习视觉表示、语义表示、视觉特定关系和语义特定关系来预测查询样本的结果。我们在三个广泛使用的基准测试中进行了广泛的实验，TorontoCOCO-QA [40] ， Visual Genome-QA [25] 和 COCO-FITB [11]，这表明HGAT是一个强大而有效的模型，专为少量视觉语义学习而定制。我们提出的方法的优越性可以总结如下：首先，它揭示了通过利用模态内和模态间的关系来解决少拍多模态学习问题，特别是对于少拍视觉语义学习，这是人类水平智能的一个相当新但关键的设置。其次，与FPAIT和几种少数镜头学习方法相比，它在少数镜头设置中的视觉问题回答和图像标题方面的准确性方面提供了最先进的性能。此外，几个消融实验显示了对视觉特定和语义特定关系、基于注意力的共同学习框架和基于分层图的架构进行建模的益处。最后，它可以很容易地扩展到半监督设置，并提供更好的性能相比，其他两个基于图的方法。2. 相关工作视觉语义学习视觉语义学习的目的是建立模型，可以处理和相关的视觉和语义模态的信息。一般来说，视觉语义学习集中在多媒体描述任务，如视觉问答和图像字幕。已经提出了各种方法[1，45，55，53]用于视觉问答。最近，提出了一种多粒度注意力机制[19]，以解决小对象或不常见对象上的失败情况2179i=1i=N×K+1i=1i=N×K+1t=1t=1S×T+T′t=1另一组T′任务{TT+t}T′{S}Cmtr=1≤t≤TCTt且Cmte=1≤t≤T′CTT+t.查看详情{S}D{T}通过学习词与物的对应关系来理解概念。图像字幕[3，20，17，7，51]旨在生成一个自然语言句子来描述图像内容。最近的一项工作[47]引入了一个层次框架来探索自然语言的组合性和顺序性。然而，大多数现有的视觉语义学习工作依赖于大量的人工标注的训练数据，这是非常昂贵的。相反，所提出的模型可以处理有限（甚至部分未标记）的数据样本的情况下。少样本学习由于其在少量数据样本下的学习优势，近年来引起了广泛的关注。少数学习的主流方法[44，42，50，24，28]是基于使用表示学习的数据样本之间的相似性比较另一种流行的方法[2，39，34，4，6]是开发元学习器来优化关键超参数（例如，初始化）。一项开创性的工作[13]提出了一个模型不可知的元学习器来优化学习模型的初始化。然而，上述所有工作都只关注少数分类任务，而没有仔细考虑涉及多模态的更复杂的视觉语义学习任务。在本文中，我们定制了一个模型，少拍视觉语义学习。图神经网络图神经网络（GNNs）[16，41]用于处理不同类型的图。图注意力网络[48]可以通过利用掩蔽的自注意层来指定相邻节点的不同权重。此外，GNN可以用于少数镜头分类问题。Garcia等人[14]定义了一个节点标记框架，将少量学习作为使用GNN的监督消息传递任务。相比之下，EGNN [22]学习预测边缘标签而不是节点的标签，并显式地对簇内相似性和簇间不相似性进行建模。GNN和EGNN都可以扩展到解决半监督的问题，而我们的模型获得了更好的每-联系[5]。我们主要集中在视觉和语义模态上，并通过解决视觉问答（VQA）和图像字幕（IC）任务来研究对于VQA，给定图像I和相关问题Q，我们需要生成对应的答案A。对于IC，我们遵循填空设置[11]，试图为图像I填充给定描述Q的空白A。注意，问题/描述Q和答案/空白A都以自然语言格式表示。通常，A是从A中挑选出来的。预先定义的一组不同答案/标签。传统的VQA和IC任务寻求模型F，其可以是神经网络，以将观察I、Q映射到输出A。3.2.问题陈述在少量学习中，仅给定少量训练样本，期望模型能够快速适应新任务。N路K拍摄问题设置通常是用来衡量少数学习方法。以一个具有M个查询的N向K-shotVQA/IC任务T为例：T由一个支持集S和一个查询集Q组成，模型分别在这两个集合上学习和评估. S是一组N×K个样本，包含N个唯一答案中每个答案的K个标记图像-文本对Q包含另一个M个样本与S. 形式上讲，T=S∪Q，其中S={（Ii，Qi，Ai）}N×K，Q={（Ii，Qi，Ai）}N×K+M;任务T的标签空间定义为CT={Ai}N×K。我们有A（n−1）×K+i=A（n−1）×K+j，其中n=1，···，N且1≤i，j≤K（即，|=N），其中{A|=N), with {Ai}N×K+MCT.在这项工作中，我们使用元学习[13]来定义少量的视觉语义学习问题，它通常包括两个阶段，元训练和元测试。在元训练期间，从元训练数据集mtr生成一组T任务tT，并且我们开发了一种方法，该方法将支持集tT作为输入并返回一个模型，该模型使相应查询集{Qt}T的损失最小化.在元测试期间在半静态环境中进行少量视觉语义学习的性能监督设置元测试数据集t=1并且对于t=l，'，我们前-3. 方法在本节中，我们首先描述了视觉语义学习的一般定义和符号，然后是它的少数镜头设置。最后，我们介绍了有关的细节，期望训练后的模型能够从支持集T+t中的N K个标记的图像-文本样本中快速学习，并为来自查询集的样本提供高准确度的标记QT+t。注意，在元训练和元测试S中使用的标签相互排斥，S即，Cmtr∩Cmte=其中提出的方法。3.1. 预赛一般的多模态问题的目的是建立处理和关联来自多个模态的信息补充材料中的元培训/测试。另外，如果所有支持集tt=1中的标签的一部分是未知的，则该问题可以扩展到半监督学习。在第4.3节中，我们的模型在半监督设置将被提出。是从一个2180∈Q不2F我Vij我ϕψ我我我我R图2.分层图注意力网络的体系结构。为了简单起见，提出了具有一个查询样本（N= 4，K= 1，M= 1）的4路1次问题。具有实线的GNN节点（节点2-5）对应于来自支持集S的样本，并且具有虚线的节点（节点1）对应于来自查询集Q的样本。GNN层之间的虚线箭头表示节点继承。3.3. 层次图注意力网络本节描述如图2所示的分层图注意力网络（HGAT）3.3.1图文嵌入为了捕捉和保存有用的视觉和语义表示，我们在图像和文本输入上采用特定于模态的深度网络。同时用于图像嵌入和文本嵌入的神经网络，即，（·;θ）和ψ（·;θ）的情况下，哪里||表示向量级联操作，并且h（Ai）[0，1]N表示标签Ai的独热编码。对于来自查询集或在半监督设置中具有未知标签的任何图像-文本样本（Ii，Qi，Ai），我们改为将h（Ai）设置为零向量。对于第l层（l >1）中的每个节点，其特征向量是从其在前一层中的对应节点（Vl-1或Sl-1）继承的特征和经由基于注意力的特征向量计算的更新的特征向量（Vl或Sl）的级联。下一节中描述的共同学习与HGAT的其他模块联合培训。看到更多补充材料中的图像嵌入和文本嵌入的模型架构的细节。3.3.2模态特定GNNs对于每个任务，给定所有图像-文本样本的视觉和语义表示（分别从图像和文本嵌入神经网络中提取），我们构建两个图，即视觉特定的GNN（蓝色3.3.3基于注意力的协同学习框架两个模态特定GNN的每一层在所提出的基于注意力的协同学习框架中进行关联节点特征更新。对于第l层（l= 1，2）中的节点特征更新，输入是两个集合图2和图3中的节点）和特定于语义的GNN的节点V1N×K+M lFll N×K+M(with红色节点）。如图2所示，在SL{i}i=1，VF Li∈RV和{Si}i=1，HGAT的第一阶段，视觉特异性和语义-i∈RS，输出是两个更新的节点集具体的GNN是两层GNN。每个GNN层包含{Vl+1}N×K+M，Vl+1l′∈RV和{Sl+1}N×K+M，i i=1i i i =1包含N×K+M个全连通节点，每个节点Sl+1∈R2Fl′ll′ll′对应于来自sup-iS，其中FV、2FV、FS和2FS表示端口集或查询集。对于每个样本（Ii，Qi，Ai），GNN（V1和S1）第一层中相应节点的特征向量为分别是两个模态特定GNN中每个节点的输入和输出特征通道的数量作为初始步骤，两个共享的可学习线性变换-我我方程，由Wl参数化∈RFl′×Fl且Wl∈初始化为它的视觉或语义表示的连接表示及其标签的独热编码。Fl′×FlVV VSV1=[（Ii;θ）||h（Ai）]（1）S，S，应用于两组节点。那么对于每个模态特定的GNN层，对每对节点执行共享注意力机制，以计算S1=[ψ（Q1;θ ψ）||h（Ai）]（2）注意∈R.2181系数el∈R和elSij2182SQVijSijJ我S我XVijSijXVijSijVijVijSijV∈RSk=1exp（el维克其中αl和αlk=1J的ik. X图3.用于一个GNN层的基于注意力的协同学习框架的图示为了简单起见，呈现具有一个查询样本（N= 4，K= 1，M= 1）的4路1次问题具有实线的节点（节点2-5）表示来自支持集的样本，并且具有虚线的节点（节点1）表示来自查询集的样本。计算每对节点的二维注意力，以分别捕获它们的视觉和语义模态的关系。为了简单起见，在节点特征更新中仅描绘了一半的注意力（在虚线三角形内）。el=a（WlVl，WlVl）= LReLU。alhWlVl||WlVli一旦获得，两个注意力由两个模态特定GNN的关联节点特征更新VijVIVJVV我VJ（三）例如，视觉形态的注意力不仅服务于视觉特定el=a（WlSl，WlSl）= LReLU。alhWlSl||WlSliΣGNN还利用视觉模态上的关系来SijSiSjS SiSJ（四）细化特定于语义的GNN。同样，语义情态的注意也有助于语义-其中el和el指示节点V1的重要性特定和视觉特定的GNN。到视觉特定GNN中的节点Vl和节点Vl的1到特定于语义的GNN中的节点S1。LReLU表示泄漏整流线性单元[33]函数。VSV1+ 1=ELU .N×XK+MαlWlVl||N×K+M αlWlVl我勒勒第al2F 和al∈R2F都是可学习的j=1VijVJj=1SijVJ（七）权向量，并且a表示a的转置。的注意力αl∈R和αl∈R是由正规-使用softmax函数调整注意力系数。S1+ 1=ELUN×K+M αlWlSl||N×K+M αlWl Sl！αl=softmax（el）=exp（el）我（五）j=1VijSjj=1SijSJ（八）VijVijPN×K+Mexp（el））VijSijαl=softmax（eli）=Si，j（六）在两个模态特定的GNN中的每对节点之间，SijSijPN×K+Mexp（el）ELU表示指数线性单元[9]函数。基于视觉和语义的共同关注，其中αl和αl代表视觉在模态中，关联节点特征更新是连续的。模态（图3中的蓝色色调方阵）和语义模态（红色色调方阵）的那些。管道，并在基于注意力的协同学习框架下建模的模态间关系注意虽然αl的值相关和αl预计将积极这里使用的基本注意力机制遵循图形注意力网络[48]，我们提出的基于注意力的协同二维的注意力是--！2183Xt=1×L我Rij联系我们不R我i，nV我SVS l=1RR l=1我i=1我i=1TMC我我我我我我我R∈RRRRRk=1里克联系我们4∪∪{}∈R学习框架对于注意机制的特定选择是不可知的。3.3.4关系感知GNN模态特定GNN的逐层输出，即，3.4. 培训HGAT给定元训练阶段中的一组T个任务，所提出的HGAT的可学习参数θ ∈θ ψWl，Wl，al，al2Wl，al3，通过最小化以下损失函数以端到端的方式进行{Vl+1}N×K+M和{Sl+1}N×K+M对于l= 1、2、前-在任务集上。从视觉和语义两个层面上，分别从内部关系和内部关系两个方面，刻画出层次性特征L=1XT∈{Tt}TN×K+ML（A，A）（13）我们在每一层中构建了具有N K+M个节点的关系感知GNN，它们与模态特定GNN共享类似的结构，但也将在阶段1中获得的关系用于每个节点的特征初始化。更具体地说，对于第l个节点中的节点特征更新层（l= 1，2，3），输入是节点的集合{Rl}N×K+M，哪里c被定义为交叉项损失，Ai和Ai表示来自查询集Q的图像-文本样本的地面实况答案和预测答案。4. 绩效评价RlFlii=1我们采用了三个引人注目的基准，多伦多i∈RR，输出是更新后的节点集Rl+1N×K +Ml+1Fl′勒勒COCO-QA [40]、Visual Genome-QA [25]和COCO-QA我i=1其中FR、FR表示每个节点的输入和输出特征通道的数量在关系感知的GNN中，分别。第一层R1的输入是视觉和语义嵌入、标签的独热编码以及阶段1中获得的多模态特征的级联。R1=Σ （ Ii;θ ） ||ψ （ Qi;θψ ） ||h （ Ai ）||V2||V3||S2||S3Σ（9）FITB [11]在两个典型的视觉语义学习任务，视觉问答（VQA）和图像字幕（IC）上评估所提出的HGAT。4.1. 基准数据集基准TC-QAVG-QACOCO-FITB任VQAIC第l层（l>1）的输入是以下的级联从先前的相应节点继承的要素层Rl-1和更新的特征向量Rl，其是com-1。我我以类似于特定于模态的GNN的方式提出第一、元训练256244159注意力系数el∈R表示重要性#类元测试65 82 43计算节点R1到节点R1的平均值表1. 三个基准数据集的统计数据。（TC-QA：J I多伦多COCO-QA; VG-QA：视觉基因组-QA。）el =a（WlRl，WlRl）= LReLU。alhWlRl||WlRliΣRijR i Rj′R R i′RJ（十）表1显示了三个基准其中WlFl×Fl和l∈R2Fl是可以学习的用于少数拍摄VQA和少数拍摄IC任务的数据集。看到半径。然后通过使用softmax函数对注意力系数进行归一化来计算注意力。有关这三个基准数据集的详细信息，包括预处理，请参阅补充资料。exp（el）αl=softmax（eli）=Rij（十一）4.2. 实验装置RijRijPN×K+Mexp（el ）然后，注意力被用来通过相应的特征的线性组合来计算最新的节点特征，接着是非线性激活。学习[13，42]，对于N路K次学习的每个任务，我们设置N5，10，K 1，5和M= 1。采取例如，10路5次VQA任务：给定10个不同的l+1N×XK+MLll答案，每个答案具有5个标记的图像-问题对，这50个样本作为支持集来预测Ri=ELUj=1αRijWRRj（12）来自查询集的1个未标记图像-问题对的10个答案因此，我们可以评估最后，为了从HGAT中得到第i个样本的最终预测，我们将最后一个输出维度F3′设置为N，并使用softmax（R4）∈[0，1]N作为置信度得分向量。VQA和IC任务在标准分类准确性方面。N的答案。预测的标签为 Ai=ar gmaxn其中R4是R4的第n个元素，且1≤n≤N。R在HGAT的第2阶段中，关系感知GNN进一步利用这些资源。i=N×K+1少数拍摄设置遵循少数拍摄中的常见设置#配对元训练57,834554,795181,844元测试13,965136,47334,9192184i，n，在元训练阶段，使用Adam优化器[23]训练所提出的模型，其中2185××情况S1 S2 VR SR AC5向精度10向精度1发5发1发5发多伦多COCO-QA可视化基因组-QACOCO-FITB方法5向准确度10向准确度10向准确度5向准确度10向准确度10向准确度10向准确度10向准确度10向准确度10FPAIT59.3871.9245.1160.2075.4979.1261.6667.6260.1370.8847.1059.31FPAIT+CLT60.6172.1746.3760.9275.0579.2860.8267.4861.0171.1347.7960.91原型网60.1271.7245.3159.6775.4380.3362.3267.2360.5671.1647.5259.38关系网61.7571.8945.6060.1377.2180.7263.1468.1061.3571.6847.9259.55R2d261.8372.6047.1359.3677.4481.0864.7171.5560.8771.6047.7359.33DN462.6074.1247.6860.4478.3384.2564.9271.2062.0973.6248.5760.82GNN61.4272.5546.3558.9576.7281.4363.1968.6561.8572.7048.1459.86EGNN62.2173.4146.9960.0177.6783.2664.0770.8762.6772.9848.2260.13HGAT63.13 75.41 48.10 61.50 79.56 86.10 66.6272.1349.26 61.31表2.Toronto COCO-QA、Visual Genome-QA和COCO-FITB的准确度比较初始学习率为1 10−3，权重衰减为110-6 对于5路1次、5路5次、10路1次和10路1次，任务小批量大小分别设置为128、32、64和16。10路5杆，分别。我们的代码在PyTorch [37]中实现，并在NVIDIA Tesla P100 GPU上运行。基线FPAIT [11]直接利用MAML [13]来处理少量VQA和IC任务; Prototypical Net [42]，Relation Net [44]，R2D2 [6]和DN 4 [28]专注于少数镜头分类。GNN [14]和EGNN [22]是两个基于GNN的少拍分类模型。这些算法，包括MAML，都没有注意到少量的视觉语义学习，但值得注意的是，所有这些算法都可以扩展到处理少量的VQA和IC作为少量的分类任务。基线方法实施详见补充资料。4.3. 实验结果三个基准测试的结果如表2所示，我们可以得出以下结论：1) HGAT在所有设置中的分类准确性方面优于所有基线。具体地，在多伦多COCO-QA上的5路5次VQA的情况下，HGAT给出 75的准确度。41%，超过第二名1.29个百分点，这表明使用基于分层图的结构对模态内和模态间关系进行建模可以在少量视觉语义学习上产生一致的优势。对于其他测试用例和基准数据集，可以观察到类似的趋势。2) 在基于图的方法中，我们的HGAT比GNN和EGNN带来了显着的改进例如，当在Visual Genome-QA上进行少量VQA时，HGAT获得79的分类准确度。56%，86. 10%，66。62%和72。13%，在四个测试用例，分别为1。89%，2. 84%，2. 55%和1。高出26%而不是EGNN。关于GNN可以观察到类似的改进。虽然GNN和EGNN利用节点的成对关系，但是每种模态以及不同模态之间的相互关系尚未被充分利用。为了进一步证明HGAT在少数视觉语义学习任务中的优越性，实验比较已经扩展到标准VQA和IC方法，这些方法不是专门为少数学习设计的，包括HCA[31]，SAAA [21]和CNN+TCN [11]。详情请参见补充材料。4.4. 消融研究1✓76.1082.1463.9966.305✓✓✓✓77.4783.2664.9070.036✓✓✓77.5584.0163.7769.267✓✓✓78.1483.8864.2368.618✓✓✓✓78.8684.5565.2170.069✓✓✓✓✓79.5686.1066.62 七十二点一三表3. Visual Genome-QA的消融研究。(S1：第一阶段; S2：阶段-2; VR：视觉关系;语义关系; AC：基于注意力的协同学习;请参阅补充材料中的完整表格。）为了验证所提出的HGAT的优越性，基于VisualGenome-QA 进行了几次消融实验，用于少数激发VQA。基于表3进行以下观察：1) HGAT对每种情态的内部关系进行了单独的开发，这可以导致更好的理解。与没有利用模态内关系的情况1相比，当在情况1中对视觉特定关系建模时，存在准确性的跳跃。6. 在案例7中可以观察到类似的改进，其中对特定于语义的关系进行了建模。此外，如果在案例8中利用视觉和语义特定的关系，可以注意到额外的收益。2) 为了验证基于注意力的协同学习框架的有效性，在Case- 9中进行了实验，实验结果表明，该框架的学习效率为0。70%，1. 55%，1. 41%和2。07%IM-2186案件8的证明请注意，基于注意力的协同学习只有在第一阶段利用视觉和语义特定的GNN时才能实现。3) 第二阶段中的关系感知GNN可以在少量视觉语义学习上提供额外的性能增益。例如，与案例5相比，其中关系感知GNN被完全连接的神经网络取代用于标签预测，案例9带来了2的改进。09%，2. 84%，1. 72%和2。10%的准确率。4) 应当注意的是，仅具有阶段2的情况-1表示3层GNN，并且每个节点的初始特征是对应的视觉和语义表示的级联以及标签的独热编码案例-1的表现与基于图的方法GNN和EGNN相当，如预期的那样。另外，关于GNN层数的实验分析，请参考补充资料。4.5. 半监督少样本学习表4. Toronto COCO-QA的半监督学习结果比较，用于少数视觉问题回答。表4给出了HGAT、GNN和EGNN之间实验在TorontoCOCO-1上的5路5QA，并且当40%、60%、80%的标记图像-文本样本。注意，标记的样本在5个类别之间平衡。以40%的情况为例，对于一个任务，每个类包含来自支持集的2个标记样本和3个未标记样本。‘LabeledOnly’ is equivalent to the supervised设置，其中仅使用标记的支持样本。例如，具有“Labele-dOnly”的5路5次40%‘Semi’ de- notes the semi-supervised few-shot setting, where all the support 此外，“干扰器”意味着未标记的支持样本是从其他类而不是标记的支持样本的5个类中随机采样的此外，这三种方法中的每一种都可以在执行半监督学习时获得显著的改进，与“LabeledOnly”相比此外，对于拟议的HGAT，与“仅标记”相比，“牵引器”导致每种情况下的较小性能下降。该观察清楚地表明，只有来自感兴趣的类的未标记的样本可以有助于少量视觉语义学习。值得注意的是，对于半监督的少量视觉语义学习，HGAT始终优于GNN和EGNN，除了40%的情况，其中HGAT实现了EGNN给出的相当的准确度4.6. 可视化图4. Visual Genome-QA上的5路1次VQA的关系感知GNN中的第3层的注意力可视化。深/浅颜色表示较高/较低的值。在补充材料中查看更多可视化样本。图4显示了从元测试集采样的5路1次VQA任务的计算注意力。左右方矩阵分别表示元训练之前和之后的注意力。我们可以注意到，查询样本和第三个支持样本之间的关注度大于其他非对角关注度，这意味着这两个样本之间的相关性更强。虽然5. 结论本文通过引入层次图AT张力网络（HGAT），提出了一种新的少镜头视觉语义学习方法。在广泛使用的Toronto COCO-QA、Visual Genome-QA和COCO-FITB基准上进行了全面的实验。大量的实验结果表明：1）HGAT在少量VQA和IC任务上与少量学习和标准（非少量）方法相比，在准确性方面提供了最先进的性能; 2）通过多模态的分层开发和协同学习，它揭示了解决少镜头多模态学习问题，特别是对于少镜头视觉语义学习任务。3)它可以很容易地扩展到半监督设置，优于其他少数镜头的视觉语义学习基线在半监督设置。多伦多COCO-QAGNN-仅标记GNN-半EGNN标记仅EGNN半HGAT-标记仅HGAT-牵引器HGAT-半5-5路射击精度40% 60%80%100%64.62 67.30 70.31 72.5566.04 68.44 71.48 72.5565.86 69.08 71.57 73.4167.1869.92 72.6166.09 69.83 73.1264.25 68.94 73.0167.1670.78 73.952187引用[1] Peter Anderson ， Xiaodong He ， Chris Buehler ，Damien Teney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像标题和视觉问题回答。在IEEE CVPR会议记录中，2018年。[2] Marcin Andrychowicz 、 Misha Denil 、 SergioGomez、Matthew W Hoffman、David Pfau、TomSchaul、Brendan Shillingford和Nando De Freitas。通过梯度下降来学习。在NIPS，第3981-3989页[3] Jyoti Aneja，Aditya Deshpande和Alexander GSchwing。卷积图像字幕。在IEEE CVPR的Proceedings中，第5561-5570页[4] Antreas Antoniou，Harrison Edwards，AmosStorkey.如何训练你的妈妈。ICLR，2019。[5] 塔达斯·巴尔特鲁斯·阿胡加，柴坦尼亚·阿胡加，和路易·菲利普·莫雷。多模态机器学习：调查和分类。IEEE transactions on pattern analysis andmachine intelligence，41（2）：423[6] 放大图片作者： Luca Bertinetto ， Joao F.Henriques，Philip Torr，and Andrea Vedaldi.使用可微封闭形式求解器的元学习。2019年，在ICLR[7] Fuhai Chen，Rongrong Ji，Jiayi Ji，XiaoshuaiSun，Baochang Zhang，Xuri Ge，Yongjian Wu，Feiyue Huang，and Yan Wang.用于不同图像字幕的变分结构在NIPS，第1929-1939页[8] Xinlei Chen，Hao Fang，Tsung-Yi Lin，Ramakr-ishnaVedantam，SaurabhGupta，PiotrDolla'r，andCLawrence Zitnick.Microsoft coco字幕：数据收集和评估服务器。arXiv预印本arXiv：1504.00325，2015。[9] Djork-Arne 'Clevert ， Thomas Unterthiner ， andSepp Hochreiter.通过指数线性单元（elus）进行快速准确的深度网络学习。ICLR，2016.[10] Jeffrey Donahue、Lisa Anne Hendricks、SergioGuadarrama、Marcus Rohrbach、Subhashini Venu-gopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。在IEEE CVPR的Proceedings，第2625-2634页[11] Xuanyi Dong ， Linchao Zhu ， De Zhang ， YiYang，and Fei Wu.用于少数镜头图像字幕和视觉问答的快速参数自适应在ACMMM的Proceedings中，第54-62页[12] 杨峰，林马，刘伟，罗杰波。未监督的图像字幕。在IEEE CVPR会议录中，第4125-4134页[13] Chelsea Finn，Pieter Abbeel，Sergey Levine.模型不可知元学习，用于快速适应深度网络。ICML，第1126-1135页。JMLR。org，2017.[14] 维克多·加西亚和琼·布鲁娜。图神经网络的少样本学习在ICLR，2018年。[15] Ian Goodfellow Yoshua Bengio和Aaron Courville深度学习麻省理工学院出版社，2016.[16] Marco Gori ， Gabriele Monfardini ， and FrancoScarselli. 一种新的图域学习模型在IEEE IJCNN的论文集，第2卷，第729IEEE，2005年。[17] Simao Herdade，Armin Kappeler，Ko fi Boakye，and Joao Soares.图片说明：将物体转化为文字。在NIPS，第11135-11145页，2019年。[18] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。[19] Pingping Huang ，Jianhui Huang ，Yuqing Guo ，Min Qiao，and Yong Zhu.多粒度注意与对象级接地视觉问答。在ACL，2019年。[20] Wenhao Jiang ， Lin Ma ， Yu-Gang Jiang ， WeiLiu，and Tong Zhang.递归融合网络在图像加帽中的应用。参见ECCV，第499-515页[21] Vahid Kazemi和Ali Elqursh。显示、询问、出席和回答：一个强大的视觉问题回答基线。arXiv预印本arXiv：1704.03162，2017.[22] Jongmin Kim 、 Taesup Kim 、 Sungwoong Kim 和Chang D Yoo。用于少次学习的边标记图神经网络在IEEE CVPR会议录中，第11-20页[23] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议[24] 格里高利·科赫，理查德·泽梅尔，鲁斯兰·萨拉胡特-迪诺夫.用于一次性图像识别的连体神经网络。在ICML，第2卷中。里尔，2015年。[25] RanjayKrishna，Yuke Zhu，Oliver Groth，JustinJohn son，Kenji Hata，Joshua Kravitz，StephanieChen，Yannis Kalantidis，Li-Jia Li，David AShamma，et al.视觉基因组：使用众包密集图像注释连接语言和视觉。International Journal ofComputer Vision，123（1）：32[26] AlexKrizhevsky ， Ilya Sutskever ，和 Geoffrey EHin-ton.使用深度卷积神经网络进行Imagenet分类。在NIPS，第1097-1105页，2012中。[27] Colin Lea、Michael D Flynn、Rene Vidal、AustinReiter和Gregory D Hager。用于动作分割和检测的时间卷积网络。在IEEE CV

下载后可阅读完整内容，剩余1页未读，立即下载