动态融合多模态特征的视觉问答方法

101 浏览量更新于2023-10-18 收藏 748KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43216639基于通道内和通道间注意流动态融合的视觉问题生成高鹏1，蒋正凯3，蒋友4，潘璐4，海文2，王晓刚1，李洪生11香港中文大学-商汤科技联合实验室2新加坡管理大学3NLPR、CASIA4清华大学{1155102382@link，xgwang@ee，hsli@ee}. cuhk.edu.hk摘要学习多模态特征的有效融合是视觉问答的核心。我们提出了一种新的方法，动态融合多模态特征与模态内和模态间的信息流，交替传递动态信息之间和跨视觉和语言模态。该方法能够鲁棒地捕捉语言域和视觉域之间的高层交互，从而显著提高视觉问答的性能。我们还表明，提出的动态通道内注意流的条件下的其他通道可以动态调节的通道内注意的目标通道，这是至关重要的多模态特征融合。VQA 2.0数据集上的实验结果表明，该方法达到了最先进的VQA性能。进行了广泛的烧蚀研究，所提出的方法的全面分析。1. 介绍Visual Question Questioning [2]旨在自动回答与给定图像内容相关的自然语言问题。它在实践中有着广泛的应用，如盲人辅助[12]和幼儿教育，因此成为近年来的研究热点近年来，由于三条工作路线，视觉问题分类（VQA）的性能首先，更好的视觉和语言特征表示是提高 VQA 性能的核心。从 VGG [35] 、 ResNet[13]、FishNet [36]到最近的自底向上自顶向下特征[1]的特征学习能力显著提高了VQA性能。其次，注意力机制的不同变体[40]可以自适应地选择重要特征，这些特征可以帮助深度学习实现更好的识别准确性。第三，已经提出了更好的多模态融合方法，例如双线性融合[9]，MCB [7]和MUTAN [4]，用于更好地捕获语言和视觉特征之间的高级交互尽管被广泛研究，大多数现有的VQA方法侧重于学习视觉和语言特征之间的通道间关系。双线性特征融合方法[9]专注于通过特征外积来捕获语言和视觉模态之间的高阶共同注意[39，28，24]或基于双线性注意的方法[19]学习单词-区域对之间的模态间关系，以识别用于问题回答的关键对。另一方面，存在专注于学习模态内关系的计算机视觉和自然语言处理算法。Hu等人[14]提出了探索模态内对象到对象关系以提高对象检测准确性。Yao等人[42，26]用于改进图像字幕性能的模型化的模态内对象到对象关系。在最近提出的用于自然语言处理的BERT算法[6]中，通过自注意机制对模态内词关系进行建模，以学习最先进的词嵌入。然而，通道间和通道内的关系从来没有在一个统一的框架内解决VQA问题。我们认为，对于VQA问题，每个通道内的通道关系是复杂的通道间的关系，这是大多数被忽略的VQA方法。例如，对于图像模态，每个图像区域应当不仅从问题中的其关联词/短语而且从相关图像区域获得信息以推断问题的答案。在疑问句情态中，通过推断其他词语可以更好地理解疑问句。这种情况下，促使我们提出一个统一的框架，建模间和内模态信息流。为了克服这些局限性，我们提出了一种新的动态融合内和跨通道注意流43216640通道间注意流通道内注意流......视觉特征µ×2048问题功能14× 1280GRURCNN.那个人在指什么通道内-通道间注意模块...逐元素乘积图1：所提出的动态融合与视觉问答的模态内和模态间注意流（DFAF）的图示。每个DFAF模块包含一个通道间注意流和一个通道内注意流模块。堆叠几个DFAF块可以帮助网络逐渐关注重要的图像区域，问题词和潜在的对齐。（DFAF）框架，用于高效的多模态特征融合，以准确地回答视觉问题。总体示意图如图1所示。我们的DFAF框架集成了跨通道自我注意和跨通道共同注意机制，以实现图像和语言通道内和之间的有效信息DFAF框架给出了由深层神经网络编码的视觉和问题特征，首先生成通道间注意流（InterMAF）以在图像和语言之间传递信息在InterMAF模块中，视觉和语言特征生成联合模态共注意矩阵。每个视觉区域将根据联合通道共同注意矩阵选择问题特征，反之亦然。InterMAF模块根据来自其他模态的注意力加权信息流融合和更新每个图像区域和每个词在InterMAF模块之后，DFAF计算动态模态内注意流（DyIntraMAF），用于在每个模态内传递信息流，以捕获复杂的模态内关系。视觉区域和句子词生成自我注意权重，并从相同模态的其他实例中聚集注意加权信息更重要的是，尽管信息仅在相同的模态内传播，但是其他模态的信息被考虑并用于调节模态内注意力权重和流。通过这种操作，每个模态内的注意力流动态地以另一模态为条件，并且与现有的关于对象检测[14]和图像字幕[42]的模态内消息传递方法相比是关键的区别DyIntraMAF被证明比其仅使用内部信息进行模态内信息流的变体要好得多，并且是所提出的框架的成功。我们交替使用 InterMA 和DyIntraMA模块来创建DFAF的基本块DFAF块的多个堆栈被示出以进一步提高VQA性能。我们的贡献可以概括为三个方面。(1)提出了一种新的基于模态内和模态间注意流的动态融合框架（DFAF），通过模态内和模态间特征融合的交错进行多模态融合。这种框架首次将模态间和动态模态内信息流整合到统一框架中，以解决VQA任务。(2)动态模态内注意流（DynamicIntra-modalAttentionFlow，DyIntraMAF）模块用于在每个模态内生成有效的注意流，这些注意流动态地依赖于其他模态的信息。这是我们提出的框架的核心创新之一。(3)大量的实验和消融研究进行了检查- ine的建议DFAF框架的有效性，其中国家的最先进的VQA性能是由我们提出的DFAF框架实现2. 相关工作VQA的表示学习。最近VQA性能的提升是由于深度表示学习的成功。在VQA方法的早期阶段，通常使用VGG[35]网络随着ResNet的引入[13]，VQA社区转向ResNet网络，其性能大大优于VGG。最近，从更快的RCNN [33]导出的自下而上和自上而下的网络[1]被证明适用于VQA和图像字幕任务。特征学习是VQA算法开发的重要组成部分。VQA的双线性融合。解决VQA需要联合国-通道间注意流通道内注意流视觉特征分类过滤问题特征在指向人，就是.在指向人，是什么在指向人，是什么在指向人，是什么43216641∈∈∈∈理解视觉和语言内容以及它们之间的关系。在早期的VQA方法中，视觉和语言之间的简单连接或元素乘法[45]用于跨模态特征融合。为了捕获两种模态之间的高级交互为了克服双线性池化方法计算量大的局限性，人们提出了许多近似融合方法，包括MCB [7]、MLB [20]和MUTAN [4]，这些方法在参数少的情况下表现出比双线性融合更好的性能。基于自我注意力的方法。深度学习中的注意力机制试图模仿人类视觉的工作方式。通过自动忽略数据中不相关的信息，神经网络可以选择性地关注重要的特征。这种方法在自然语言处理（NLP）[3]、图像captioning [40]和VQA [46]中取得了很大的成功。注意力机制有很多变体。我们的方法主要是由自我注意和共同注意的方法。自注意机制[37]将特征转换为查询、键和值特征。然后通过查询和关键特征的内积计算不同特征之间的注意力矩阵。在获得注意力矩阵之后，特征被聚合为原始特征的注意力加权和.在自我注意机制的激励下，许多视觉任务的成绩都得到了显著的提高。非局部神经网络[38]提出了一种非局部模块，用于聚合一个视频中不同帧之间的信息，并在视频分类中实现了最先进的性能。关系网络通过采用自我注意机制来学习[14]对象建议之间就地模块可以提高更快的RCNN [33]和非最大值抑制（NMS）性能。基于共同注意力方法.的基于共同注意的[39，28]视觉和语言方法对两种模式之间的交互进行建模。对于每个词，每个图像区域的特征聚合到该词根据共同注意力的权重。协同注意机制在NLP和VQA任务中得到了广泛的应用。在[29]中，已经提出了密集对称共同注意（DCN）。它在VQAv1和VQAv2数据集上实现了最先进的性能，而无需使用任何自下而上和自上而下的功能。DCN的成功是由于对称共同注意力的密集级联[16]。其他语言和视觉作品任务除了上述方法之外，人们还提出了许多融合跨模态语言和视觉特征的算法。动态参数预测[30]和双引导混合卷积[8]利用动态预测参数进行特征融合。Adap-注意力[27]引入了一种视觉感官，可以在图像字幕期间跳过注意力。结构化注意力[21]采用了MRF模型，而不是注意力地图，以更好地建模更好的空间注意力分布。局部加权可变形邻居[18]提出预测偏移和调制权重。3. 基于通道内和通道间注意流的VQA3.1. 概述该方法由一系列DFAF模块组成。整个流程如图1所示。两种模态之间的视觉和语言特征首先通过共同注意力机制进行加权，并通过拟议的模态间注意力流（InterMAF）模块在模态之间聚合到每个图像区域和每个单词，该模块学习图像区域和问题单词之间的跨模态交互。在模态间模块之后，对每个模态内的关系进行建模，即，词对词关系和区域对区域关系，采用动态通道内注意流（Dy-IntraMAF）模块。该方法对每个模态中的词和区域进行加权，并将其特征再次聚合到词和区域中，这可以被视为每个模态中的传递信息流重要的是，在我们提出的内模态模块中，注意流动态地以来自其他模态的信息为条件，这是与现有的基于自我注意的方法相比的关键区别这样的InterMAF和DyIntra-MAF模块可以被堆叠多次，以迭代地在单词和区域之间传递信息流，以对视觉问题回答的潜在对齐进行建模。3.2. 基础视觉和语言特征提取为了获得基本的视觉和语言特征，我们从自底向上自顶向下的注意力模型中提取图像特征[1]。视觉区域特征从在 Visual Genome [23] 数据集上预训练的FasterRCNN [33]模型对于每幅图像，我们提取100个区域propos- als及其相关的区域特征。给定输入图像I，所获得的区域视觉特征被表示为RRµ×2048，其中第i个区域特征表示为riR2048，总共有µ个对象区域。在训练过程中，对象的视觉特征是固定的。我们采用GLoVe词嵌入[32]作为门控递归单元（GRU）[5]的输入，用于编码问题词特征。给定问题Q，我们从GRU获得词级特征ER14×1280，其中第j个词特征表示为ejR1280，所有问题都被填充并截断为相同的长度14。所获得的视觉对象区域特征R和ques.43216642∈R，∈K∈KK特征E可以表示为R=RCNN（I;θRCNN），（1）E= GRU（Q; θGRU）。（二）其中视觉特征参数θRCNN是固定的，而问题特征θGRU是从头开始学习的，并在训练我们提出的框架时更新到一起。3.3. 通道间注意流如图1所示的跨模态注意流（InterMAF）模块首先学习捕获每对视觉区域和单词特征之间的重要性。然后根据学习到的重要性权重和聚合特征在两种模态之间传递信息流，以更新每个词特征和图像区域特征。这样的信息流过程能够识别视觉区域和单词之间的跨模态关系。给定视觉区域和词的特征，我们首先计算每对视觉区域和词之间的关联权重每个视觉区域和单词特征首先被转换为查询，键和值特征，然后[34，41]，其中转换后的区域特征被解压缩。记为RK，RQ，RV∈Rµ×dim;转换后的字fea-两个双向InterMAF矩阵捕捉每个图像区域和词对之间的重要性。以InterMAFR←E为例，每一行代表一个视觉区域和所有词嵌入之间的注意力权重。从所有词嵌入到这一个图像区域特征的信息可以被聚合为词值特征的加权和EV。我们将InterMAF模块更新视觉区域特征和单词特征的信息流表示为Rupdate∈Rµ×dim和Eupdate∈R14×dim，R更新=InterMAFR←E×EV，（8）E更新= InterMAF R→ E× R V。（九）其中，EV和RV是用于更新等式中的视觉区域特征和单词特征的未加权信息流（值特征）。(5)，并且两个InterMAF矩阵用于对这样的信息流进行加权。在获得更新的视觉和文字特征之后，我们将它们与原始视觉特征R和文字特征E连接起来。利用全连接层将连接的特征转换为输出特征，R=线性（[R，R更新]T;θRT），（10）图表示为EK、EQEV14×暗E=线性（[E，E更新]T; θ ET）。（十一）然后，InterMAF模块的输出特征将被馈送到以下动态模态内注意力流模块，用于学习模态内信息流，以进一步更新视觉区域和单词特征，用于捕获区域到区域和单词到单词的关系。其中eterθ和dim表示来自两种模态的变换特征的共同维度通过计算每对视觉区域特征RQ和词关键特征EK之间的内积RQET，我们获得了用于聚合从词特征到每个视觉特征的信息的原始注意力权重，反之亦然。在用维数的平方根和软最大非线性函数对原始权重进行归一化之后，我们得到两组注意力权重，InterMAFR←ERμ×14用于加权从词到图像区域的信息流，InterMAFR→ER14×μ用于加权从图像区域到句子词的信息流，RQ ETInterMAFR←E= softmax（softdim），（6）3.4. 动态通道内注意流DyIntra- MAF的输入视觉区域和单词特征编码了视觉区域和单词之间的跨模态关系。然而，我们认为，每一个模态内的关系是互补的跨模态的关系，并应考虑到提高VQA的准确性。例如，对于“谁在滑板上面？“，模态内模块应当将滑板上方的区域与滑板区域相关联以推断最终答案。因此，我们提出了动态模态内注意流（DyIntraMAF）模块，用于使用动态注意机制对这种模态内关系进行Dy-IntraMAF的实现如图2所示。简单的模态内矩阵来捕获重要的EQInterMAFR→E= softmax（softmax）RTK）。（七）可以定义类似于Eq。(5)因为，昏暗内积值与维数联系我们IntraMAFR←R= softmax（softdim），（12）隐藏特征空间，因此需要通过隐藏维度的平方根softmax非线性EQIntraMAFE←E= softmax（softmax）RK=线性（R;θRK），EK=线性（R;θEK），（三）RQ=线性（R;θRQ），EQ=线性（E;θEQ），（43216643ETK）。（十三）函数按行应用。昏暗43216644·⊙K⊙K∈∈然后通过S形非线性函数σ（）处理每个模态的二维特征向量以生成用于另一模态的通道方式的调节门，GR→E=σ（线性（平均池（R）;θRP）），（14）G R← E=σ（线性（平均池（E）; θ EP））。（十五）来自两种模态的查询和关键特征然后由来自另一种模态的条件门R<$Q=（1+GR<$E）<$RQ，E<$Q=（1+GR<$E）<$RQ，R<$K=（1+GR<$E）<$RK，E<$K=（1+GR<$E）EK。（十六）值图2：所提出的动态通道内注意力流模块的图示。仅显示了以问题为条件的视觉模态内的模态内注意流通过对问题特征进行平均池化，得到条件选通向量，控制区域特征间的信息流注意力将集中在与问题相关的信息流上。应用Row-wise softmax来获得注意力权重。利用点积来估计同一模态的查询和关键特征之间的模态内重要性。这样的权重矩阵然后可以用于对在每个模态内传输的信息流进行加权。模态内关系建模已被证明在对象检测[14]，图像字幕和BERT单词嵌入预训练[6]中有效。其中表示逐元素乘法。查询和关键特征的通道将由以另一模态为条件的通道式门来激活或停用两个门控向量的这种设计与挤压和激励网络[15]和门控卷积[10]具有相似的精神。关键的区别在于，基于交叉模态信息来创建通道式选通向量。然后通过门控查询和关键特征获得动态通道内注意流矩阵DyIntraMAFR<$R µ×µ和DyIntraMAFE<$ER14×14，以加权不同的通道内关系，RQRTDyIntraMAFR←R=softmax（softdim），（17）EQETDyIntraMAFE← E=softmax（softdim）。（十八）然后通过残差由加权值特征RV和EVR=线性（R+R更新;θRD），（19）然而，朴素IntraMAF模块仅利用模态内信息来估计区域到区域和单词到单词的重要性。有些关系是重要的，但只能在其他模态的信息的条件下确定例如，即使对于相同的输入图像，不同视觉区域哪里E=线性（E+ E更新; θ ED）。（二十）R更新=DyIntraMAFR←R×RV，（21）E更新= DyIntraMAF E← E× E V。（二十二）根据不同的问题，对不同的权重。因此，我们提出了一个动态通道内注意流（DyIntraMAF）模块来估计通道内关系的重要性条件的信息从其他通道。为了总结来自其他模态的条件信息，我们平均池沿对象索引维度的视觉区域特征和沿词索引维度的词特征。然后将两种模态的平均合并特征转换为一个模糊维特征向量，以匹配查询的维度和关键特征RQ，RK，EQ，EK。暗淡的-请注意，这里我们只使关键字和查询功能的条件下，其他模态自适应加权内模态信息流。在我们的消融研究中，我们观察到所提出的DyIntraMAF模块的性能大大优于初始IntraMAF模块。3.5. 通道内和通道间注意流框架在本节中，我们将介绍如何将通道内和通道间注意流模块整合到我们提出的框架中。整个流程如图1所示。该框架首先提取视觉区域平均池化扩大逐元素乘积矩阵乘法Sigmoid条件门控向量问题特征注意力面具区域更新Softmax关键查询区域特征..在指向人，就是.43216645×特征和词特征的输入图像和问题，通过利用更快的RCNN和GRU模型，重新分类。更快的R-CNN模型权重在训练我们提出的框架期间是固定的，而GRU权重则从零开始更新我们的框架。视觉区域特征和文字特征通过全连通层变换为同维向量后，InterMAF模块在每对视觉区域和疑问词之间传递信息流，并将更新的特征聚合到每个区域和每个词。这样的聚合特征整合来自另一模态的信息，以根据跨模态关系更新视觉和文字特征。给定InterMAF输出，DyIntraMAF模块用于在每个模态内动态传递信息流视觉区域和单词特征将通过残余连接用相同模态内的信息再次更新我们使用一个InterMAF模块，然后是一个DyIntra-MAF模块，以形成我们提出的DFAF框架中的基本块。由于特征更新过程中的特征连接和剩余连接，可以堆叠多个非常深的模态内和模态间信息流可以通过随机梯度下降进行有效训练此外，我们在实践中还利用了多头注意力。原始特征沿着通道维度被分成组，并且不同组将产生并行注意力以独立地更新不同组中的视觉和文字特征。3.6. 答案预测层和损失函数经过InterMAF和DyIntraMAF模块的几个特征更新块后，我们获得了最终的视觉区域和词特征，这些特征编码了VQA的模态间和模态内关系。通过对区域特征和词特征进行平均池化，分别得到图像和问题的区分表示.然后，这些特征可以通过特征级联、或特征元素乘积、或特征加法来融合，以获得融合特征。我们实验的三种融合方法，其中视觉和语言表示之间的元素明智的产品达到最佳性能与微不足道的利润。与最先进的VQA方法类似，我们将VQA视为分类问题。融合的多模态特征通过2层多层感知器转换为概率向量，层与层之间具有 ReLU 非线性函数和最终softmax函数。地面实况答案是从出现超过5次的注释答案中提取的。目标函数采用交叉熵损失函数。4. 实验4.1. 数据集我们使用VQA 2.0版[11]进行实验。VQA数据集包含Microsoft COCO数据集[25]图像的人工注释问答对VQA 2.0是对之前VQA 1.0的更新，具有更多注释和更少的数据集偏倚。VQA 2.0分为训练、验证和测试标准集。在测试标准测试中，25%作为测试开发集。所有问题类型分为是/否、数字和其他类别。训练、验证和测试标准分别包含82，783、40，504和81，434个图像，443，757、214，354和447，793个问题。每个问题包含来自不同注释者的10个答案。频率最高的答案被视为地面实况。按照以前的方法，我们在验证集上进行消融研究，并利用训练和验证分割进行测试。4.2. 实验装置维度2048的视觉特征是从Faster R-CNN [33]中提取的，而单词特征则由GRU[5]编码到维度1280的然后，视觉在InterMAF内部，特征被转换为8个多头注意力，每个头有64个维度。对于DyIntraMAF，通过MLP将来自两种模态的平均合并特征转换为512维，然后进行逐元素sigmoid激活，以获得条件化门控向量。然后，他们乘以512维视觉关键字和查询功能的视觉和文字特征的动态注意流的每个位置以前的方法实现了显著更好的结果与哨兵和相对位置信息。然而，哨兵和相对位置不影响我们的方法的性能。所有完全连接的层具有相同的丢弃率0.1. 所有梯度都被修剪为0.25。批量大小设置为512. Adamax optimizer [22]是Adam的一个变体。前2个epoch的学习率设置为10−3，接下来的8个epoch设置为2 10−3我们的方法是用Pytorch实现的[31]。所有初始化都是Pytorch默认初始化。所有消融研究都在验证数据集上进行，而训练、验证数据集和额外的可视化基因组数据集则结合起来进行测试。4.3. DFAF的消融研究我们对VQA 2.0验证数据集进行了广泛的消融研究[11]。结果示于表1中。我们的默认设置只有1块DFAF模块。Faster RCNN [33]从输入图像中提取了2，048维的区域特征，1，024维的单词特征43216646组件设置精度自下而上[1]自下而上63.37BAN-1 65.36每个单词和区域对之间的分配。通过添加InterMAF，性能可以提高1%，因为它对IM之间的模态间关系进行了建模双线性注意[19]BAN-4 65.81BAN-12 66.04年龄区域和疑问词。只集成IntraMAF模块会损害性能，因为默认DFAF-1 66.21DFAF-2 66.43许多不相关的信息流阻碍了学习过程，cess. 通过添加动态调节的信息流堆叠区块DFAF-5 66.58DFAF-866.66DyIntra MAF模块，我们实现了2.15%的性能改进。通过结合模态内和模态间atten，注意类型InterMAF仅64.37IntraMAF仅62.34DyIntraMAF仅65.51在流量方面，我们的表现显著优于基线[1] 2.83%和先前最先进的BAN-1 [19] 0.85%。内部传递信息有几个顺序InterMAF +DyIntraMAF66.21InterMAF模块，即并行和顺序[39，InterMAF内部的注意力嵌入维数跨模型特征融合平行65.99R → E，E → R66.21E → R，R → E66.1966.211 024 65.89乘法66.21增补66.1128]。对于并行InterMAF，区域和单词要素同时更新。对于顺序信息流，我们首先尝试将注意力流从区域传递到单词，这会更新单词特征，然后将消息从单词传递到区域，然后更新区域特征，反之亦然。我们将第一个序列顺序记为R→E，E→R，第二个序列顺序记为E→R，R→E。顺序更新优于并行更新方式，而具体的顺序并不重要。其次，我们对嵌入维数和跨模型特征融合的影响进行了消融研究512维的性能优于1024维。对于融合方法，乘法表现出比特征相加和拼接略好的性能在许多先前的VQA方法中使用了视觉哨兵[27，39]，这被证明可以提高VQA的准确性。我们把Sentinel看作是一个一般的512维特征表1：我们提出的DFAF对VQA的2.0验证数据集。R代表区域特征，E代表词嵌入特征尺寸由GRU提取[5]。默认情况下，DFAF中的所有模块都有512个维度。在最后的融合层，特征乘法，这表明一个微不足道的改进。视觉哨兵[27]和边界框位置嵌入也进行了测试，最终性能略有在默认设置中使用8个平行的注意头，每个注意头的尺寸为64。我们首先研究了DFAF块堆叠数量的影响。默认设置有一个堆栈。从表1中可以看出，由于剩余连接，更多的堆栈可以提高性能[13]。与ResNet不同的是，我们在剩余连接期间不使用任何规范化[17]技术。单层DFAF的性能与BAN-12相当[19]。然后，我们考察了注意类型的影响自下而上[1]中的注意机制利用了简单的注意方法。双线性注意力网络[19]提出了一种学习联合注意力分布的双线性注意力并将sentinel与所有区域和单词特征连接起来。以前的µ区域特征和14个字特征分别变为µ+ 1和15。在我们的实验中，添加视觉哨兵没有显示出改善。在以往的方法中，边界框的位置被广泛地用作图像区域特征的一部分。绝对位置嵌入已用于NLP中的Trans- former [37]，BERT [6]和Gated CNN [10]。在关系网络[14]中采用相对位置进行对象检测。在我们的实验中，添加绝对或相对位置会降低性能。最后，我们对多头注意的影响进行了实验[37]。我们保持总尺寸为512。分别进行了1、4和8个注意头的从表1中可以看出，8注意力可以在相同数量的参数下实现更好的性能4.4. 建议的注意力流权重的可视化在图3中，我们可视化了模态内注意力流权重以分析VQA模型。注意力权重调节从上下文区域（橙色、蓝色和绿色）到中心区域（红色）的信息流左列级联66.14没有一66.21视觉哨兵166.01366.02边界框没有一66.21嵌入绝对位置65.88相对位置65.23平行磁头每个头1个51265.84每种4头12866.1743216647IntraMAF权重DyIntraMAF权重问：滑雪者戴护目镜吗？A：不问：滑雪者戴护目镜吗？问：这个滑雪者使用滑雪杖吗？问：人站在什么上面？问：站着的人是什么？A：滑雪板A：是A：是A：滑雪板问：这个滑雪者使用滑雪杖吗？A：不问：街上有多少辆车？A：1问：街上有多少辆车 Q：街上有没有人？问：巴士会去哪里？问：街上有没有人？ A：没有A：2A：没有A：学校问：巴士会去哪里？答：学校图3：中心区域（红色）和其他相关区域之间IntraMAF和DyIntraMAF注意力权重的可视化。（左）IntraMAF模块平等对待不同的问题，并为不同的问题生成无信息权重。（右）所提出的DyIntraMAF模块根据输入问题动态地改变注意力权重。代表 IntraMAF 模块中的注意流权重而其余列表示DyIntraMAF模块中的动态注意力流权重。在DyIntra-MAF模块中，无关的信息流被问题特征过滤掉，从而生成正确的答案。4.5. 与最先进方法的模型测试-开发测试-标准DFAF（我们的）86.09 53.3260.4970.22 70.34表2显示了我们提出的算法的性能rithm使用额外的可视化基因组数据集和VQA上最先进的方法进行训练表2中的底部是2017年VQA挑战赛这种方法建议使用基于Faster RCNN [33]而不是ResNet[13]的特征。多模态分解高阶池（MFH）[43]是一种最先进的双线性池方法。 Dense Co-Attention Network（DCN）[29]利用多层Co-attention机制的密集堆栈，其性能显著优于具有ResNet特征的先前方法计数方法[44]善于利用边界框的信息来计数问题双线性注意力网络（BAN）[19]是VQA 2.0上最先进的方法，它有12个BAN模块的堆叠块。5. 结论在本文中，我们提出了一个新的框架动态融合与内和跨通道的注意流（DFAF）的视觉问答。DFAF框架基于模态间和模态内交替地在不同模态表2：与VQA 2.0测试数据集上先前最先进方法的比较模态注意机制。视觉特征中的信息流动态地以问题特征为条件.堆叠多个DFAF块被证明可以提高VQA的性能。6. 确认这项工作得到商汤科技集团有限公司的部分支持，部分由香港研究资助局的一般研究基金资助，资助额为CUHK14202217，CUHK14203118，CUHK14205615，CUHK14207814，CUHK14213616，CUHK14208417，香港中文大学14239816，部分由香港中文大学直接拨款。引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和Y/N号其他所有所有自下而上[1]81.8244.2156.0565.3265.67MFH [11]n/an/an/a66.12n/aDCN [29]83.5146.6157.2666.8766.97电子邮件[44]83.1451.6258.9768.0968.41MFH+自下而上[11]84.2749.5659.8968.76n/aBAN+手套[19]85.4650.6660.5069.66n/a43216648视觉问答在IEEE计算机视觉和模式识别会议上，2018。[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa ：可视化问答。在 IEEEInternational Conference on Computer Vision ，第 2425-2433页[3] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。在2015年国际学习代表会议上[4] Hedi Ben-Res，Remi Cadene，Matthieu Cord，and Nico-las Thome. MUTAN ： Multimodal Tucker Fusion forVisualQuestionQuestioning。IEEEInternationalConference on Computer Vision，2017。[5] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。门控递归神经网络在序列建模中的实证评估。arXiv预印本arXiv：1412.3555，2014。[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[7] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。2016年自然语言处理经验方法会议论文集，第457-468页，2016年[8] Peng Gao，Hongsheng Li，Shuang Li，Pan Lu，YikangLi，Steven CH Hoi，and Xiaogang Wang.问题引导的混合卷积的视觉问题回答。在欧洲计算机视觉会议（ECCV）的论文集，第469-485页[9] 杨高、奥斯卡·贝博姆、张宁和特雷弗·达雷尔。紧凑的双线性池。在IEEE计算机视觉和模式识别会议上，第317-326页[10] Jonas Gehring ， Michael Auli， David Grangier ， DenisYarats，and Yann N Dauphin.卷积序列到序列学习。在国际机器学习会议上，第1243-1252页[11] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。使VQA中的V变得重要：提升图像理解在可视化问答中的作用。2017年在IEEE计算机视觉和模式识别会议上发表[12] Danna Gurari ， Qing Li ， Abigale J Stangl ， AnhongGuo ， Chi Lin ， Kristen Grauman ， Jiebo Luo ， andJeffrey P Bigham. Vizwiz大挑战：回答盲人的视觉问题。在IEEE计算机视觉和模式识别会议上，2018。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE Conferenceon Computer Vision and Pattern Recognition，第770-778页[14] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei. 用于对象检测的关系网络在IEEE计算机视觉和模式识别会议上，第2卷，2018年。[15] 杰虎，李申，孙刚。挤压-激发网络。2017年在IEEE计算机视觉和模式识别会议上发表[16] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议上，第1卷，第3页，2017年。[17] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。[18] 姜正凯，高鹏，郭朝旭，张倩，向世宁，潘春红.局部加权可变形邻域的视频对象检测。2019年。[19] Jin-Hwa Kim，Jaehyun Jun，and Byoung-Tak Zhang.双线性注意力网络。arXiv预印本arXiv：1805.07932，2018。[20] Jin-Hwa Kim 、 Kyoung Woon On 、 Woosang Lim 、Jeonghee Kim、Jung-Woo Ha和Byoung-Tak Zhang。低秩双线性池的Hadamard乘积。在2017年的学习代表国际[21] Yoon Kim、Carl Denton、Luong Hoang和Alexander MRush。结构化的注意力网络。在2017年的学习代表国际会议[22] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[23] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。International Journal of Computer Vision，123（1）：32[24] 李爽，肖彤，李洪生，杨伟，王晓刚.具有潜在共同注意的身份感知文本视觉匹配。计算机视觉（ICCV），2017年IEEE国际会议，第1908IEEE，2017年。[25] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。在欧洲计算机视觉会议（ECCV）的会议记录中，第740-755页。Springer，2014.[26] 刘希慧，李洪生，邵晶，陈大鹏，王晓刚.展示、讲述和区分：用部分标记数据自检索的图像字幕。欧洲计算机视觉会议，第353-369页Springer，2018.[27] Jiasen Lu ，Caiming Xiong，Devi Parikh，and Rich

下载后可阅读完整内容，剩余1页未读，立即下载