超图注意力网络：多模态学习任务中信息水平差异的解决方法

151 浏览量更新于2023-10-23 收藏 1.93MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14581超图注意力网络多模态学习Eun-Sol Kim1，†Woo Young Kang1Kong-Woon On2 Yu-Jung Heo2Bong-Tak Zhang2，31Kakao Brain2首尔国立大学3首尔国立大学摘要多模态学习任务中出现的一个基本问题是不同模态之间的信息水平差异为了解决这个问题，我们提出了超图注意力网络（ Hypergraph Attention Networks ，HAN），它通过符号图在模态之间定义一个HAN遵循以下流程：用每个模态的符号图构造共同语义空间，匹配符号图的子结构之间的语义，在语义空间中的图之间构造共同注意力图，以及使用共同注意力图来整合多模态输入以得到最终的联合表示。通过对两个Visual Question和Questioning数据集的定性分析，我们发现：1）模态之间的信息水平对齐是重要的; 2）符号图是表示对齐中低水平信号信息的非常强大的方法。此外，HAN仅定量地使用符号信息，就将GQA数据集上的最先进的准确率从54.6%提高到61.88%1. 介绍在这项工作中，我们解决多模态学习任务，处理来自多个来源的相关信息，如视觉问答任务（图像和文本），视觉字幕（图像和文本），视频理解（图像，文本和声音）。随着基于神经网络的方法被成功地用于处理大规模的单峰数据，如图像、自然景观、这些作者对这项研究做出了同样的贡献。†对应于eunsol.kim @ kakaobrain.com在Kakao Brain实习期间完成的工作。语言和音频信号输入，这些方法已经应用于多模态学习。然而，有一个严重缺乏考虑的适当形式的输入表示的多模态数据学习，通过使用基于神经网络的方法。大多数关于学习多模态输入的先前研究通常采取以下步骤：在应用预先训练的预处理方法之后，使每个模态的输入特征成为向量形式，将多个输入特征集成到公共向量空间中，以及应用通常用完全连接的神经网络实现的问题特定模块。具体地，在整合步骤中，来自不同模态的特征向量被认为是等效水平上的抽象信息，即使这些特征向量是从完全不同的预处理步骤获得的。在这个传统的过程中，我们认为，对齐异构模态的信息水平是多模态学习的一个基本问题，并提出了一种新的方法来绑定在一个共同的语义水平的模态为了解决这个问题，我们建议使用符号图作为多模态学习的公共语义表示。我们将符号图定义为包含节点和边的有向图，节点表示具有文本形式的语义单位，边表示它们之间的关系。例如，场景图[19]可以用作图像模态的符号图和文本模态的自然句子中的依赖树。通过从每个低层输入中提取符号图，我们可以比较同一抽象层中模态之间的语义。基于同一语义空间上的符号图，可以有效地集成多模态输入。在这里，我们提出了一种新的基于图神经网络的算法，称为超图注意力网络（HAN），它利用图的子结构来整合符号信息。HANs的主要思想是构建多模态输入和多模态输入之间的共同注意图14582将输入与共同关注图整合。传统的注意力方法通常独立地比较节点值来制作注意力地图，而HAN考虑结构相似性来考虑高级语义相似性。我们显示了所建议的方法的有效性与最流行的应用程序在多模态学习任务，即，视觉问答。我们在两个最近的视觉问题推理（VQA）数据集上展示了HAN的性能：VQA2.0 [39]和GQA [11]，它们专注于现实世界的视觉推理和多步问题回答。通过对两个数据集的定性分析，我们认为：1）符号图是一种非常强大的方式来表示低电平信号的信息，2）对齐模态之间的信息水平是根本问题。量化，也，所提出的方法显着提高了国家的最先进的GQA数据集从54.6%到61.88%，只使用符号信息。2. 相关工作在本节中，总结了以前与神经网络结构学习和视觉提问（VQA）任务相关的工作2.1. 图匹配算法据我们所知，有一些研究完全相关的建议的方法，处理的问题，整合多模态输入的图形形式。为此，我们回顾了图的学习相似性的研究，并将其与注意机制联系起来，这与所提出的方法部分相关。两个图之间的相似性可以通过图Weisfeiler-Lehman同构检验来定义最近，徐等。[34]表明，图神经网络（GNNs）学习的表示最多可以与Weisfeiler-Lehman图同构测试一样强大。也就是说，具有足够消息传递的表示可以用于确定两个图是否同构。基于[34]，Li etal.[21]提出了图匹配网络（GMN）来学习两个图之间的相似性。在GMN中，节点表示的更新不仅通过在每个图中传递消息，而且通过跨图注意机制来学习两个图之间的相似性。由于消息传递可以捕获图的依赖性，因此在GMN中使用的跨图注意力可以抓住两个图中的结构相似性。2.2. 视觉问题回答视觉提问是回答关于图像场景的文本问题的典型多模态学习任务之一。传统的VQA模型[1，36，16，17，23，6，38，15]通过两个阶段学习一对问题和图像的联合嵌入一是基于预先训练的模型学习图像特征和问题嵌入（例如，用于图像的预训练 CNN 模型和用于问题的Word2Vec模型其次，它结合了学习的视觉特征与问题嵌入使用多模态池和注意力机制。 Kim等人。[17]提出了多模态低秩双线性池（MLB），它通过强制权重张量的秩为1，以有效的计算近似两个输入嵌入之间的双线性池Yu等人。[38]将MLB推广到多模态分解双线性池（MFB），因为权重张量的秩大于1。双线性注意力网络（BAN）[15]在考虑两个输入组之间的双线性相互作用方面扩展了MLB，例如问题和图像的多个特征集。此外，基于强大的自我注意力机制[30]，TanBansal提出了一种跨模态的Transformer来学习视觉和语言交互[27]。2.3. 具有图结构的通过图形表示来建模对象交互的方法在计算机视觉领域得到了越来越多的关注。对于VQA任务，Teney etal.[28]最初提出了一种将问题的图形表示和抽象图像与图形神经网络（GNNs）相结合的方法此外，针对计数问题，提出了通过隐式和显式图结构对对象之间的交互进行建模的方法高级语义信息，如属性和视觉关系也被利用[20，37，32，31]，使模型更强大和可解释。Norcliffe-Brown等人[24]介绍了一种基于问题的图像语义结构的构造方法后来，Cadene et al. [5]将此思想扩展到对所有区域对之间的空间语义最近，提出了一种用于VQA和GQA数据集的条件迭代消息传递算法，以在给定问题的条件下学习上下文感知节点表示[9]。另外，Hud-son et al.[12]建议神经状态机（NSM）在符号层面上处理视觉和语言信息为了解决GQA任务，NSM首先预测概率场景图。然后，为了回答给定的问题，他们基于迭代节点遍历算法对图执行顺序推理。3. 超图注意力网络所建议的方法的主要目的是对齐多模态输入之间的信息水平，并将输入整合在同一信息水平内。我们定义了共同的语义空间之间的形式与符号图。在提取每种模态的符号图之后，比较两个图之间的语义，然后基于语义相似度构建共同注意图的联合表示14583LIj图1.建议模型的总体架构对于给定的一对图像和问题，构造两个符号图在构造了符号图Gi和Gq之后，构造了两个具有随机游动超边的超图HGi和HGq通过比较每个超线的语义，构建共同注意映射A。这两个超图由共同注意力图A组合，最终表示zs用于预测给定问题的答案。多模态输入是基于共同注意图来构造的。根据该信息，可以得到如下的符号图Gi=（Vi，Ei）：用节点集合Vi ={Vi，Vi，...，v i}1 2S这种被称为Hypergraph Attention Net的方法，工作（HAN）由四个部分组成：（1）构造符号图，（2）对随机行走路径进行采样对应于标签、属性和谓词。进一步地，边集合Ei被定义为以下规则：（1）如果对象节点vi具有属性vi，JK构造超图的符号图，（3）匹配-则（j，k）∈Ei，（2）如果两个对象vi和vi有一个关系，JK在超边之间使用语义来构造共同注意映射，以及（4）整合超图以获得多模态输入的最终表示。所提出的方法的总体架构如图1所示。为了使进一步的讨论更清楚，HAN解释了一个特定的多模态学习任务，视觉问答，具有不同层次的信息在视觉模态（图像）和语言模态（文本问题）。3.1. 构造符号图这两种模态的符号表示被定义为图形形式。对于图像模态，基于场景图形信息构建图像G i={Vi，E i}的符号图形[14]。 V i是对应于对象标签、属性以及它们之间的关系的词的节点的集合。物体。对象标签和属性分别表示对象的名称、颜色、对象的形状，有（j，l）∈ Ei和（l，k）∈ Ei. 使边标记的场景图平坦的原因是为了对齐结构在Gq和Gi之间。对于文本模态，我们通过使用Spacy库1来获得问题句的依赖树。问题Gq={Vq，Eq}的符号表示由标记集（Vq）和tokens（Eq）.详细地说，（i，j）∈Eq，如果vq和vq具有依赖性。由于Vi和Vq都对应于单词表示，我们认为两个符号图处于公共（相同）信息水平。3.2. 超图的构造在构造两个符号图Gq和Gi之后，通过匹配它们的子图的语义来构造共同注意图A。由于子图匹配问题是NP难问题之一，我们提出了一个简单但非常简单的活泼地此外，两个对象之间的关系是用谓语短语描述，例如，在…1https://spacy.io/14584inininin出来QISQqi i强大的近似算法HANs。我们考虑每个超边（通过随机行走采样的节点序列A=softmax（W（Y W）（Y W））（2）qqi我算法以及有向边）作为子图，所以A是通过计算其中Yq∈RNq×300，Y∈RNi×300表示k-步hy-Gi和Gq的超边。从Gq和Gi出发，定义了两个概率分布从依赖树和场景图中采样的peredgesW_q，W_i∈R_（300）×h和W∈R_N×N表示线性映射-来构造超图。节点vi将被选择的初始概率定义为，0度+（vi）+°ping，这些都是可学习的参数。在这里，共同注意力图有两个有趣的特征。首先，共同注意力图A是基于比较语义与符号表示，而前-Pvi=Nj=1 deg+（vj）vieve的作品对神经表征有不同的信息水平。第二，建议的方法考虑到-其中，N和deg+（vi）分别表示节点总数和从节点vi出发的出边数。此外，Pq和Pi的转移概率定义为，.1−1，如果（v，u）∈E通过构造超图，不仅可以确定两个节点之间的酉关系，还可以确定节点的内在结构，而以往的图匹配研究大多是比较节点之间的（神经）表示.此外，根据超边的语义，Pv，u=deg+（v）n，如果（v，u）∈/Ey（m），我们可以考虑利用符号图的结构信息为了得到信息节点表示a-其中v和u是图的任意节点。与 Pq和 Pi一起，对 Gq和 Gi进行Sq和 Si随机工作步骤。换句话说，随机行走路径由过渡序列v0→v1→... →vk，它从一个随机节点v0∈sample（P0）开始并且采样k个节点以转换到下一个节点，作为vi+1：样本（Pvi）。现在，随机行走路径中的节点在超边中连接通过考虑相邻节点的信息，设计了基于消息传递的图神经网络（GNN）[7]。对于具有GloVe向量X∈RS×d，其中S是节点的数量，d是di-GloVe向量的一种新的节点特征矩阵Xnew∈RS×d可以如下获得：Z=σ（D−1AXW+XW）且HGq=（Vq，Mq），其中Mi∈Mi对应于v i→ v i→. → v i.Z完毕=σ（D−1A<$XW出来+XW out）（三）0 1kX新 =σ（（Z输入Z输出）Wmrg）3.3. 超图间共同注意映射的构造现在，子图匹配问题，以获得共同注意力地图近似的方法，匹配的超边之间的语义。在本节中，我们定义每个超边M的语义，并解释比较超边之间的语义的方法。由于每个节点v表示单词级的符号，所以每个超边M的语义可以通过组合相同超边内的单词表示来定义我们建议一种简单但强大的方法来定义语义，通过使用预定义的词向量，如GloVe [25]。y（m）：= f（g0，g1，...，（1）其中g∈R300表示300维GloVe向量其中A ∈ {0，1}S× S是对应于E的邻接矩阵，即，如果（i，j）∈E，则Ai，j = 1，否则Ai，j=0. Din，Dout∈ RN× N分别是A的入度，出度（对角）矩阵. 所有W in、W out、W msg都是可学习的参数。此外，◦是元素乘法。我们还采用了一个剩余连接[8]，然后是层或-malization [3].现在，y（m）可以用Xnew重新定义。表1将分析使用Xnew的有效性3.4. 获取最终表示由于等式（2）提供了共同注意矩阵A ∈RNq×Ni，我们可以使用任何双线性算子积分两个超图 HGi=（Vi，Mi）和HGq=（Vq，Mq如BAN [15]或MFB [38]。形式上，用于积分Gq和通过将双线性算子B应用于Yq∈[25]一个节点V。一个简单的均值函数用于f，所以RNq×300，Y∈RNi×300和A∈RNq×Ni。如果我们选择y（m）可以用R300中的实值向量表示。现在，通过测量两个超边y（mi）和y（mq）的语义之间的相似性来构建共同注意力图A。对于相似性度量，低秩双线性池化方法如下使用。BAN作为Uq，Ui∈R300×h，zs可以表示如下：z=（Y U）A（Y U）（4我我14585）2在这项工作中，由于符号图是一个有向图，传出和传入的消息传递过程都被考虑。145863我Qvvqqi i然后，zs用于预测具有全连接层的答案词。需要注意的一点是，图像和疑问句的整合只是通过间接的方式，软的共同注意力地图。因此，这两种模态之间的相互作用仅通过概率分布来介导3.5. 合并可视特征除了在3.4节中讨论的符号级信息的集成之外，这里我们还展示了一种简单的方法来利用给定的视觉特征和集成的符号特征。首先，我们定义了视觉特征为每个ob-Score）被计算，以便对于人与人之间的可变性是鲁棒的，因为acc（a）=min{选择a的次数，1}。数据集大致分为40%，20%，40%的比例分别用于训练，验证和测试集，我们在第4.4节中报告验证分割的VQA评分作为实验结果。4.1.1数据预处理问题和图像特征我们考虑成对的问题句和图像作为输入，并将成对的问题句和图像转换为符号表示作为预处理步骤。作为每个问题的象征性代表，在图像中作为Vi∈RNv× d. 在这项工作中，视觉通过使用Spacy库来构造依赖关系树从预训练的BUTD模型中提取每个对象的特征[1]。然后，我们使用两个单层全连通层将Vi和Yq投影到相同的维空间上。现在，我们得到 Y<$q∈RN×d<$ ，V<$q∈RN×d<$. Ne xt，我们可以预测Yq和Vi的共同注意力图A-等式（2）和视觉语义特征zv可以表示如下：z=（Y<$U<$）<$A<$（V<$U<$）（5）其中U∈q，U∈i∈Rd∈h. 最后，我们通过使用两个MRN块[16]组合zs和zv，最终输出用于预测具有全连接层的答案单词。4. 实验结果4.1. 两个可视化问答数据集在这项工作中，使用两种VQA数据集进行实验，它们是图形问题回答（GQA，[11]）和VQA v2 [2，39]。GQA数据集[11]是一个新的问答数据集，具有真实世界图像上的组成问题，拥有超过11万张图像和2200万个问题。每个问题都与其语义的结构化表示相关联，并且必须采用指定推理步骤的功能程序来回答它。每个图像与图像的对象、属性和谓词的场景图相关联。1，740个对象、620个属性和330个谓词标签被定义为GQA的语义本体。每个图像包含16.4个不同的对象，每个对象平均有0.54个属性和3.08个关系。数据集大致分为87%，12%和1%的训练，验证和测试开发集。训练和验证集上的所有场景图注释都是公开可用的。VQA v2 [2，39]包含来自COCO的204，721张自然图像和通过众包获得的1，105，904个自由形式的问题数据集中的每个问题都与10个不同的答案相关联。此数据集的准确性（VQA来自依赖性解析的每个标记被映射到300-维度预训练的GloVe词嵌入[25]和令牌之间的依赖关系由有向邻接矩阵表示。对于图像模态，场景图被用作符号表示。最初，场景图[19]由三个部分组成，即对象（名称），它们的属性以及对象之间的关系。在图形符号方面，对象名称和属性由节点表示，并且在对应节点之间的边缘处注释关系。为了使两种模态的图结构相等，所有三个分量都用节点表示，边只有二进制值。场景图生成（SGG）图像的场景图注释部分提供用于GQA的训练和验证分割。对于GQA test-dev的图像和VQA的所有分割，我们生成了如下场景图根据工作[1]，通过Faster R-CNN方法检测图像中对象的边界框，并基于来自检测到的边界框的ResNet-101特征预测对象的名称和属性。我们最多保留100个对象，置信度阈值为0.3并根据GQA场景图3构建的频率先验知识预测对象之间的关系。答案词汇对于GQA数据集，我们从训练集和验证集中提取了1，853个可能的答案词汇GQA数据集通过使用问题程序生成问题来对于VQA任务，在VQA之前的研究之后，我们将训练数据集中的2，000个最常见的答案作为我们的网络预测的可能答案词汇表。3我们已经尝试通过使用最近建议的SGG算法来生成场景图，例如[35，33，22]。然而，我们无法实现GQA/VQA精度的任何改进。原因可能是，1）用于对象和关系标签的非常小尺寸的词汇表用于常规SGG问题设置，2）该方法不预测属性，以及3）用于训练该方法的注释场景图非常稀疏。14587图2.使用各种超参数组合测试开发精度左：当问题的超边数固定为50时，不同图像超边数的测试开发准确度中间：具有三步问题超边缘的图像超边缘的不同步数（k）的准确性右：具有三步图像超边缘的问题超边缘的不同步数（k）的准确性表1.作为注意力（Att.）的插件模块HAN与最先进的VQA算法BAN [15]和MFB [38]相结合它们被用作双线性模B。对于大多数指标，HAN提高了GQA性能。分布（Distribution）度量，分数越低越好。方法使用测试-开发拆分的号特征他Att.B二进制开放好的有效的.Dist.总体Acc.1符号没有没有MFB [38]60.0247.2481.8695.090.7453.222符号是的韩MFB [38]61.7047.4981.8395.020.6854.143符号没有没有BAN [15]60.2750.0682.8095.940.8654.844符号是的韩BAN [15]65.8958.3683.3996.500.4961.885图像没有没有MAC [10]71.2338.9184.4896.165.3454.066图像没有没有BAN [15]76.0040.4185.5896.1610.5257.107图像没有没有NSM [12]78.9449.2584.2896.413.7163.178符号+图像是+GNN韩BAN [15]71.8763.0382.9595.792.4969.464.2. 实现细节对于GQA，我们首先将Yi，Yq和Vi分别投影到具有单个全连通层的256维空间上。然后，我们使用基于级联的BAN8次瞥见设置，以获得zs和zv的2048维特征向量。之后，对于表1中描述的符号+图像实验，我们堆叠2个MRN块。每个块具有两个完全连接的层，并使用批处理规范化[13]和双曲正切激活函数。在每个块之后，我们应用Dropout [26]，其中0。2和0。五是概率。最后，一个全连接层用于分类。对于训练，我们使用初始学习率为3e-4的Adam [18]优化器和gamma 0的指数学习率调度器。9 .第九条。使用这些设置，我们总共运行了30个epoch并报告了最佳结果。对于VQA 2.0，我们首先将Yi，Yq和Vi分别投影到具有单个全连接层的1024维空间上然后，我们使用8个瞥见BAN与瞥见的残余总和。因此，我们得到1024维特征向量zs和zv。与其使用MRN来融合zs和zv，将它们连接起来就足够了。最后，一个全连接层用于分类。对于火车-因此，我们使用Adamax [18]优化器，初始学习率为1e-3。在最初的10个时期之后，我们每2个时期使用这些设置，我们总共运行了30个epoch并报告了最佳结果。4.3. GQA定量结果对于GQA评估指标，我们报告测试开发拆分的最高此外，[11]诸如可验证性、有效性和分布度量也被应用以补充准确性度量4。我们将HAN与最先进的方法进行比较以评估有效性。HAN显示出与先前建议的所有最先进方法相比的一致改善对于3.4节中解释的双线性算子B，两个4一致性度量不用于度量，因为度量高度依赖于是否使用全部或平衡数据集。14588图3. HAN的共同注意图A的可视化与六个例子。在所有的图像和问题的超边缘对，三个超边缘对的前3名的关注值。问题显示在图像的顶部，超边缘对显示在底部。HAN参与的相应区域在图像上表示。VQA任务使用了最先进的方法，即BAN[15]和MFB[38]。从表1中的实验1到实验4的比较中，我们可以认为，汉学习的共同注意图A在这个任务中是非常有效的原因可能是BAN认为每对两个模态的共同关注（在我们的情况下是基于随机游走的超边），而MFB基于两个压缩特征向量的Hadamard乘积，然后用低秩矩阵进行投影，来融合两个模态由于GQA数据集需要一个模型来捕获多个事实以回答给定的问题，因此BAN架构在这个问题上比MFB更有效。出于某种原因，我们认为任何成对双线性注意力方法在与HAN结合时都会显示出显着的改进。在实验5、6和7中，我们总结了GQA数据集的最新准确性这些方法利用图像特征，而不是使用符号表示。MAC网络[10]是GQA数据集的作者建议的基线方法。作为基准，BAN [15]的准确度也在排行榜5中提供。需要注意的一点是，排行榜中的结果是基于所有数据集的，但我们在表1中的结果只使用平衡集。5https://evalai.cloudcv.org/web/challenges/challenge-page/225/leaderboard/733符号表示的影响我们比较了HAN的性能（仅使用符号图）与传统的使用图像特征的VQA方法。从表1的实验结果中，我们确认符号表征是非常关键的。超参数搜索首先，我们分析了各种超参数组合的HAN的特征。在图2中总结了具有不同三个参数的测试开发准确度，这三个参数是超边数、问题图的随机行走步数（k）和图像图的随机行走步数（k超线可以被认为是给定图的子结构。因此，具有大量超边的HAN更接近于精确子图匹配问题。从图2中，我们可以通过以下事实来验证这一点HAN的关键特征是通过比较子结构的语义来集成多模态符号图，而大多数现有方法仅使用我们使用随机行走算法来近似图的子结构。我们定义一条随机行走路径为一个超边，一个超图为随机行走路径的集合通过比较两个超图之间的语义，实现子图匹配14589问题可以有效解决。这里，超边缘的语义由节点特征向量的简单平均函数定义值得注意的是，由于随机行走路径相对较短，简单的平均函数就足够了，并且我们根据经验发现，与其他选项（例如求和，最大化或更复杂的函数）相比，它表现得很好4.4. VQA定量结果在本节中，我们展示了VQA v2数据集的比较结果类似于第4.2节，我们展示了具有BAN的HAN的有效性。对于该实验，验证集上的VQA得分被报告为准确度。表2.总结了VQA v2数据集验证集的VQA评分。与GQA任务类似，HAN与BAN相结合可以在这里，我们报告了BAN的报告和再现结果，以验证HAN的有效性，而无需任何额外的模块。号用贺方法Acc.9没有自下而上[1]63.3710没有MFH [38]64.3111没有BAN [15]（已报告）66.0412没有BAN [15]（转载）64.8513是的HAN（我们的）65.05在这里，我们注意到，我们基于官方实现6复制了BAN的验证分数，以便与我们的模型进行公平比较;数据采样策略和相同的初始词嵌入向量。从表2中，我们观察到，与再现的BAN相比，使用从符号级场景图提取的超边缘信息重要的是，这种改进是在没有大量工程的情况下实现的，例如使用Visual Genome数据集[19]进行数据扩充和增强单词嵌入[15]。4.5. 定性结果我们现在使用图3中的GQA数据集可视化HAN生成的一些共同注意力图。在所有的Mi和Mq对中，给出了在八个一瞥中具有前3个注意值的三对超边。图3示出了所提出的方法实现的有希望的结果。我们突出的区域，根据图像的超边缘具有高的注意力权重。由于GQA数据集的问题是由基于规则的问题生成程序基于场景图生成的，因此模型不仅要关注对象，而且还要关注对象之间的关系。例如，在图3的左上角的例子中，我们的模型成功地聚焦在三元组长凳上6https://github.com/jnhwkim/ban-vqa- 坐在-女孩。因此，我们的模型可以预测正确的答案，而不是在板凳后面的泰迪熊。5. 讨论和结论我们已经展示了一种有趣的多模态学习方法，该方法将低级多模态输入转换为符号图形式，并将多个符号图与共同注意力图集成在一起。为了构造协同注意图，提出了一种基于超图结构的子结构匹配方法。从GQA和VQA v2数据集的实验结果来看，我们表明符号图是一种非常强大的方式来表示低电平信号的信息。通过子结构之间的语义匹配来集成两个图的方法工作良好。此外，HAN在GQA任务上显示出新的最先进的性能。此外，我们观察到我们的模型可以通过使用训练的共同注意力图来关注对象及其之间的关系。相对于依赖树作为句子的固有有趣的是，我们证明了使用问题集近似场景图是强大的。引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集，第6077- 6086页[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克VQA：可视化问答。在国际计算机视觉会议（ICCV），2015年。[3] Jimmy Lei Ba，Jamie Ryan Kiros，Geoffrey E Hinton.层归一化。arXiv预印本arXiv：1607.06450，2016。[4] 斯特凡诺·贝雷蒂阿尔贝托·德尔宾博和恩里科·维卡里奥基于内容检索中图模型的高效匹配和索引。 IEEETransactionsonPatternAnalysisandMachineIntelligence，23（10）：1089[5] Remi Cadene， Hedi Ben-Younes ，Matthieu Cord，andNicolas Thome.Murel ： Multimodal Relational Reasoningfor Visual Question Answering 。 arXiv 预印本 arXiv ：1902.09487，2019。[6] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池化视觉问答和视觉接地。arXiv预印本arXiv：1606.01847，2016。[7] Justin Gilmer、Samuel S Schoenholz、Patrick F Riley、Oriol Vinyals和George E Dahl。量子化学的神经信息传递。第34届机器学习国际会议论文集，第1263- 1272页。JMLR。org，2017.14590[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[9] Ronghang Hu ， Anna Rohrbach ， Trevor Darrell ， andKate Saenko. 用于关系推理的语言条件图网络IEEEInternational Conference on Computer Vision（ICCV），2019。[10] 德鲁·阿拉德·哈德森和克里斯托弗·D.曼宁用于机器推理的合成注意力网络。在2018年国际学习表征会议[11] Drew A Hudson和Christopher D Manning Gqa：一个用于真实世界视觉推理和组合问题回答的新数据集。计算机视觉与模式识别会议（CVPR），2019年。[12] Drew A Hudson和Christopher D Manning 学习抽象：神经状态机。arXiv预印本arXiv：1907.03950，2019。[13] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。[14] Justin Johnson，Ranjay Krishna，Michael Stark，Li-JiaLi，David Shamma，Michael Bernstein，and Li Fei-Fei.使用场景图进行图像检索。在IEEE计算机视觉和模式识别集，第3668-3678页[15] Jin-Hwa Kim，Jaehyun Jun，and Byoung-Tak Zhang.双耳注意力网络。神经信息处理系统进展，第1564-1574页，2018年[16] Jin-Hwa Kim、Sang-Woo Lee、Donghyun Kwak、Min-Oh Heo 、 Jeonghee Kim 、 Jung-Woo Ha 和 Byoung-TakZhang。多模态残差学习在视觉品质分析中的应用。神经信息处理系统，第361-369页，2016年[17] Jin-Hwa Kim 、 Kyoung-Woon On 、 Woosang Lim 、Jeonghee Kim、Jung-Woo Ha和Byoung-Tak Zhang。低秩双线性池的Hadamard乘积。2017年。[18] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[19] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。International Journal of Computer Vision，123（1）：32[20] Linjie Li，Zhe Gan，Yu Cheng，and Jingjing Liu.面向可视问答的关系感知图注意网络。arXiv预印本arXiv：1903.12314，2019。[21] Yujia Li，Chenjie Gu，Thomas Dullien，Oriol Vinyals，and Pushmeet Kohli. 用于学习图结构对象的相似性的图匹配网络。arXiv预印本arXiv：1904.12787，2019。[22] 李益康，欧阳万里，周波磊，王坤，王晓刚.从对象、短语和区域字幕生成场景图。在IEEE计算机视觉国际会议论文集，第1261-1270页[23] Duy-Kien Nguyen和Takayuki Okatani。通过密集对称共同关注改进视觉和语言表示的融合，用于视觉问题回答。在IEEE计算机视觉和模式识别会议论文集，第6087-6096页[24] Will Norcliffe-Brown，Stathis Vafeias，and Sarah Parisot.学习有条件的图形结构，用于可解释的可视化问题回答。神经信息处理系统的进展，第8334-8343页，2018年[25] 杰弗里·潘宁顿，理查德·索彻，克里斯托弗·曼宁.Glove：单词表示的全局向量。在2014年自然语言处理经验方法会议（EMNLP）中，第1532[26] Nitish Srivastava，Geoffrey Hinton，Alex Krizhevsky，Ilya Sutskever，and Ruslan Salakhutdinov.Dropout：防止神经网络过拟合的简单机器学习研究杂志，15（1）：1929[27] 郝坦和莫希特·班萨尔。Lxmert：从变压器学习2019年自然语言处理经验方法会议论文集，2019年。[28] Damien Teney，Lingqiao Liu，and Anton van den Hengel.图形结构表示的可视化问题回答。在IEEE计算机视觉和模式识别会议论文集，第1-9页[29] Alexander Trott，Caiming Xiong，and Richard Socher. 用于视觉问答的表间计数。2017年。[30] Ashish Vaswani ， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的。神经信息处理系统的进展，第5998-6008页，2017年[31] 王鹏，吴奇，沈春华，安东·范登亨格尔.VQA机器：学习如何使用现有的视觉算法来回答新问题。在IEEE计算机视觉和模式识别会议论文集，第1173-1182页[32] 吴琦，沈春华，王鹏，安东尼·迪克，安东·范登亨格尔.基于属性和外部知识的图像字幕和可视问答 IEEEtransactions on pattern analysis and machine intelligence，40（6）：1367[33] Danfei Xu，Yuke Zhu，Christopher B Choy，and Li Fei-Fei.通过迭代消息传递生成场景图。在IEEE计算机视觉和模式识别会议论文集，第5410-5419页[34] Keyulu Xu， Weihua Hu ，Jure Leskovec ，and StefanieJegelka. 图神经网络有多强大？ arXiv预印本 arXiv：1810.00826，2018。[35] Jianwei Yang，Jiasen Lu，Stefan Lee，Dhruv Batra，andDevi Parikh.用于场景图生成的图r-cnn。在欧洲计算机视觉会议（ECCV）的会议记录中，第670-685页，2018年[36] Zichao Yang，Xiaodong He，Jianfeng Gao，Li Deng，and Alex Smola.用于图像问题回答的堆叠注意力网络。在IEEE计算机视觉和模式识别会议论文集，第21-29页14591[37] 于东飞，付建龙，陶梅，永瑞。视觉问答的多层次注意网络。在IEEE计算机视觉和模式识别会议论文集，第4709-4717页[38] 周瑜，俊宇，向晨超，范建平，陶大成。超越双线性：广义多模态因子化高阶池化视觉问答。 IEEETransactions on Neural Networks and Learning Systems，（99）：1[39] Peng Zhang ， Yash Go

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

超图注意力网络：多模态学习任务中信息水平差异的解决方法

论文研究-基于超图的超网络:结构及演化机制.pdf

自监督多通道超图卷积网络

HGNN超图神经网络

超图神经网络和图神经网络的区别

超图卷积网络 时间复杂度

超图卷积神经网络python代码

matlab画超网络超图

超图iClient for Cesium 如何学习

解释3.3 图卷积神经网络与超图卷积神经网络

超图神经网络python代码

超图神经网络代码实现

超图idestop使用教程

超图isever切片

超图10 i 白皮书 下载

超图SupMap WebGL三维地球和Mars3D三维地图的差异

使用图结构建立超图代码 python

超图怎么加载3d地图

vue openlayers引入超图

超图 与cesium的区别

最新资源

超图卷积网络时间复杂度

超图10 i 白皮书下载

超图与cesium的区别