多模态潜在交互网络在可视化问题生成中的应用

16 浏览量更新于2023-10-12 收藏 832KB PDF 举报

视觉特征

自我关注

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1多模态潜在交互网络在可视化问题生成中的应用高鹏1，张友3，张展鹏2，王晓刚1，李洪生11香港中文大学-商汤科技联合实验室2商汤科技3清华大学{1155102382@link，xgwang@ee，hsli@ee}. cuhk.edu.hk摘要利用视觉区域和问句之间的关系，在视觉问答的多通道特征学习中取得了很大的成功。然而，我们认为，现有的方法[29]主要是对单个视觉区域和单词之间的关系进行建模，这不足以正确回答这个问题。从人类的角度来看，回答视觉问题需要理解视觉和语言信息的摘要。在本文中，我们提出-视觉特征[24]第二十四话自我关注[41]问题特征提出了多模态潜在交互模块（MLI）来解决这个问题。所提出的模块学习潜在视觉和语言摘要之间的跨模态关系，其将视觉区域和问题总结为少量的潜在表示，以避免对无信息的单个区域-词关系进行建模潜在摘要之间的跨模态信息被传播以融合来自两种模态的有价值的信息，并用于更新视觉和单词特征。这种MLI模块可以堆叠几个阶段，以模拟两种模式之间的复杂和潜在关系，并在公共VQA基准测试VQA v2.0 [12]和TDIUC [20]上实现极具竞争力的性能。此外，我们表明，通过结合预训练的语言模型BERT[6]，我们的方法的性能可以得到显着提高。1. 介绍视觉化提问[2，53，12]受到了研究界越来越多的关注。以前的方法通过设计更好的特征[25，44，13，17，1]，更好的双线性，融合方法[10，7，22，3，52]或更好的注意力机制-anisms [48，29，49，45，36].近年来，关系推理被用于解决VQA问题，并显著地提高了VQA系统的性能和可解释性。尽管关系已被广泛采用，[31]第31话我的世界图1：与以前的方法相比，我们提出的MLI中的信息流的图示，即共同注意[29]，自我注意[45]和内部通道间注意（DFAF）[36]。每个图像的左侧代表视觉特征，而右侧代表问题特征。不同的任务，如对象检测[14]，语言建模[6]，图像字幕[51]和VQA [36，11]。VQA的相关方法仅针对词与视觉区域之间的关系提出因此，关系推理需要大量的GPU内存，因为它需要对每一对之间的关系进行建模。对于VQA，单个单词和视觉区域之间的关系建模不足以正确回答这个问题。为了模拟更复杂的跨通道关系，我们提出了一种新的多通道潜在交互网络（MLIN）与MLI模块。与现有的相对VQA方法不同，MLI模块首先将问题和图像特征编码为少量的潜在视觉和问题摘要向量。每个摘要向量可以被公式化为视觉或单词特征的加权池，其从全局角度总结每个模态的某些方面，因此与单个单词和区域特征相比编码更丰富的信息。在获取以下内容的摘要后5825视觉特征问题特征总结总结概括向量相互作用潜在向量传播聚集视觉特征问题特征视觉特征问题特征5826对于每种模态，我们在多模态摘要向量之间建立视觉-语言关联，并提出在摘要向量之间传播信息每个原始视觉区域和单词特征最终将使用注意力机制和剩余连接从更新的潜在求和中聚集信息，以预测正确答案。我们提出的MLIN在VQA基准测试中实现了具有竞争力的性能，包括VQA v2.0 [12]和TDIUC [20]。此外，我们实验了如何结合预训练的语言模型BERT [6]来改进VQA模型。与BERT [6]集成后，MLIN与最先进的模型相比实现了更好的性能。我们提出的MLIN与基于注意力的方法有关从图1中可以看到先前方法之间的图示。以前的注意力方法，聚合信息可以分为以下几类：（1）共同注意力机制[29]聚合来自其他模态的信息。(2)Transformer [45]使用关键字查询注意机制聚合每个模态内部的信息。(3)通道内-通道间注意力（DFAF）[36]在多个通道内和跨多个通道传播和聚合信息。对于模态内特征聚合，注意力由使用池化特征的其他模态动态调制。与以往的方法相比，MLIN不是从大量的单个视觉词对中聚合特征，而是从少量的多模态潜在求和向量中聚合特征，从而可以以更小的模态容量捕获高级视觉语言交互。我们的贡献可以归纳为两方面。(1)我们提出了MLIN通过少量的多模态摘要来建模多模态交互，这有助于从全局角度对跨模态的关系进行(2)我们对MLIN的每个组件进行了广泛的消融研究，并在VQA v2.0[12]和TDIUC [20]基准上实现了竞争性能。此外，我们提供了可视化的LMIN，并有一个更好的理解多模态摘要之间的相互作用。我们还探索了如何有效地将预训练的语言模型[6]集成到所提出的框架中，以进一步提高VQA的准确性。2. 相关工作2.1. 表示学习学习良好的表征一直是推进视觉和自然语言处理（NLP）研究的基础。对于计算机视觉，AlexNet[25]，VGGNet [44]，ResNet [13]和DenseNet [17]具有在图像识别方面取得了巨大的成功[5]。对于NLP，word2vec [30]，GloVe [37]，Skipthrough [24]，ELMo[39]，GPT [40]，VilBERT [28]和BERT [6]在语言建模方面取得了很大的视觉和语言表征学习的成功为多模态特征学习提供了有益的借鉴.此外，VQA和图像字幕的自下而上自上而下特征[1]极大地提高了基于额外视觉区域（对象检测[41]）信息的多模态学习的性能。2.2. 关系推理我们的工作主要涉及关系推理方法。关系推理方法试图通过学习单个视觉区域和单词之间的关系来解决VQA。基于共同注意力的方法[29]可以被视为使用注意力机制对每个单词和视觉区域对Transformer [45]提出使用键-查询-值注意机制来对每个模态内部的关系进行建模。简单关系网络[42，15]通过连接区域特征对图像中的所有区域对进行推理。除了VQA，关系推理在其他研究领域也有很大的发展关系推理已被应用于对象检测[14]，并表明建模关系可以帮助对象分类和非最大抑制。关系推理也已经在图像字幕[51]中使用图形神经网络进行了探索。非本地网络[46]表明，跨视频帧的建模关系可以显着提高视频分类的准确性。2.3. 基于注意力的VQA方法基于注意力的方法已经被广泛研究用于VQA。许多关系推理方法使用注意机制来聚集上下文信息。软注意力和硬注意力[48]首先由Xu等人提出，它已经成为VQA系统的主流。Yang等[49]建议将注意力层层叠加，逐步集中在最重要的区域。Lu等人[29]提出了基于共同注意力的方法，可以从另一种模式中聚合信息。Vaswani等人[45]每个模态内的聚合信息用于解决机器翻译。Nguyen等人[31]提出了一种用于VQA的密集连接的共同注意力机制。双线性注意力网络[21]通过捕捉每个特征通道之间的相互作用来生成注意力权重。结构化注意力[55]在空间注意力地图上添加了马尔可夫随机场（MRF）模型，用于对空间重要性进行建模。除了VQA，Chenet al. [4]提出了空间方向和通道方向的注意机制，其可以针对图像字幕调制空间方向和通道方向的信息流。在指称表达上，5827∈∈∈×∈∈等人[27]提出注意力引导特征擦除。2.4. 动态参数预测动态参数预测（DPP）为多模态特征融合提出了另一个方向。Noh等人[33]首次提出了一种基于问题特征预测全连接层权重的基于DPP的多模态融合方法。Perez等人[38]通过预测视觉特征的归一化参数，与CLEVR [19]数据集上的复杂推理方法相比，实现了竞争性VQA性能。此外，Gaoet al. [9]提出通过从输入问题预测卷积核来提出了一种混合卷积方法，特征编码可以公式化为R=RCNN（I;θRCNN），（1）E=Transformer（Q;θTransformer），其中θRCNN和θTransformer表示视觉和语言特征编码的网络参数。3.2. MLI模块中的模态总结总结模块可以从图2的总结部分中看到。在获得视觉和问题特征之后，我们添加一个轻量级神经网络来为每个模态生成k组潜在视觉或语言摘要首先通过以下方式生成k组线性组合权重：不影响整体性能。超出VQA，基于DPP的方法已被用于跨LR=softmaxParticipate（WRRT+bR ）、（2）分类和分割之间的fer学习[16]。3. 多模态潜在交互网络图 2 说明了我们提出的多模态潜在交互网络（MLIN）的整体管道。MLIN由一系列堆叠的多模态潜在（MLI）模块组成，其目的是将输入的视觉区域和问题词信息汇总为每种模态的少量潜在摘要向量。其核心思想是在潜在摘要向量之间传播视觉和语言信息，从全局角度对复杂的跨通道交互进行建模在潜在交互摘要向量之间的信息传播之后，视觉区域和词特征将从跨域摘要中聚合信息以更新其特征。MLI模块的输入和输出具有相同的尺寸，并且整个网络将MLI模块堆叠成多个阶段，以逐渐细化视觉和语言特征。在最后一个阶段中，我们将视觉区域的平均特征与问题词进行逐元素相乘，以预测最终答案。3.1. 问题与视觉特征编码给定输入图像I和问题Q，VQA的任务需要对多模态信息进行联合推理以估计答案。按照之前的方法[1，21，36]，我们使用Faster RCNN对象检测器[41，18]从I中提取视觉区域特征，并使用双向Transformer模型[45]从Q特征提取阶段在图2的上部示出。每个图像将被编码为M个视觉区域特征的序列，表示为RRM×512，而句子将被填充到最大长度14并通过随机初始化的双向Transformer进行编码，表示为E∈RN×512。多模态LE=softmaxParticipate （ WE ET+bE ），（3）其中W R，W ERk×512和bR，bERk是每个模态的k个然后，可以将各个视觉和文字特征R和E转换为k个潜在摘要向量RRk×512和ERk×512，对于视觉和语言模态，R=LR·R，（4）E=L E·E。（五）k个潜在视觉或语言概括矢量中的每一个（即， R或E的每一行）是输入的各个特征的线性组合，与各个区域级或单词级特征相比，其能够更好地捕获高级信息每个模态中的k个摘要向量可以从全局角度捕获输入特征的k个3.3. 基于多模态潜在摘要的关系学习关系潜在摘要。关系潜在摘要对应于图2中的交互部分。所获得的潜在摘要向量对来自其中一个模态的高级信息进行编码。为了推理出与输入图像和问题相对应的正确答案，重要的是要理解输入之间复杂的跨域关系。因此，我们建议利用一个关系学习网络来建立跨域的关联。受简单关系网络[42]的启发，我们从上述引入的k个潜在摘要中创建k个潜在视觉-问题特征对向量R和E，在两种模式中。这样的k×k对可以表示为3D关系张量A∈Rk×k×512：A（i，j，：）=WA[R（i，：）<$E（j，：）]+bA5828（6）5829Transformer+∈⊙∈36∈∈×2∈∈22∈∈............这是什么？问题特征图2：我们提出的堆栈多模态潜在交互网络的概述。多模态推理是在我们提出的MLI模块中完成的。在MLI模块之后，剩余连接用于堆叠多个MLI模块。在MLI中，视觉和问题特征将被总结为几个摘要向量，这些向量被融合以创建问题和视觉摘要对。在获取潜在交互特征后，我们在潜在摘要对之间传播信息在特征传播之后，每个问题和视觉特征将使用关键字查询注意力机制从潜在摘要向量中收集信息。其中关系建模和传播。重要的是跨两种模态传播信息，以学习用于答案预测的复杂关系。基于我们的跨模态关系张量A，我们引入了两个操作，在成对特征之间传递和聚合信息。在信息传播之前，十-排序ARk×k×512被整形为A<$Rk×512。第一跨模态消息传递操作对每个成对特征执行附加的线性变换，Ac=A·Wc+bc（7）其中W cR 512×512和b cR512是将每个成对特征A（i，j，…）变换为新的512维特征的关系线性变换参数。第二交叉模态信息传播操作执行不同成对特征之间的信息传递。的k K =36个成对的跨模态特征相互传递信息，这些信息可以被认为是线性交叉模态关系，Ap=Wp·A+bp（8）其中WpR36×36和bpR是在成对特征之间传播信息的线性变换参数。两种跨模态变换的结果集中在跨模态配对特征的不同方面第一个操作侧重于对每个单独的视觉问题潜在对之间的关系进行建模，而第二个操作试图在所有视觉问题对之间传播高阶信息以建模更复杂的关系。深刻的总结两个以上运算A∈Rk×512的结果，A=Ac+Ap（9）可以被认为是对两种模态中的潜在求和向量之间的跨域关系进行深度编码的潜在表示。功能聚合。潜在多模态表示A∈Rk×512包含融合的问题和区域MLI模块：直链反式视觉R的总结关键Softmax查询R注意力面具RLRR值视觉特征注意力权重直链反式值RUA这些人在做什么运动一A查询注意力面具ESoftmaxEUE关键问题特征LEE注意力权重总结一相互作用传播聚集池化视觉特征池化分类过滤逐元素乘积逐元素加法矩阵乘法RCNN.这些人在做什么运动++.+++++问题摘要E频道转换空间转换ML我莫duleML我莫dule5830∈∈∈O ××O ××√∈O ××··功能. 每个原始视觉特征R（i，：）和词特征E（i，：）可以从潜在表示A中聚集信息，以提高其特征区分度。最后采用具有软最大非线性函数的线性分类器（Wcls，bcls为参数）进行答案预测，这对最终VQA准确度有着至关重要的影响。特征聚合过程可以通过来自Transformer [45]的关键字-查询注意机制来建模每个R=1池M ΣMi=1RU（i，：），（16）的区域和单词特征，即，R，E∈RM或N×512，将被转换为128-d查询特征，Q R，Q ERM或N×128，为1ΣNE合并液=Ni=1EU（i，：），（17）QR=R·Wqr+bqr，EQ=E·Wqe+bqe（10）其中Wqr，Wqe R512×128，bqr，bqeR512×128是用于计算查询特征的线性变换参数。潜在表征的每个特征，即，A∈Rk2×512 ，可转化为128-dkey，值特征K，V∈Rk2×128，K=A·Wk+bk，V=A·Wv+bv，（11）答案=分类器[R池-E池]（18）因此，整个系统以端到端的方式使用交叉熵损失函数进行训练。3.4. 消息传递复杂度在本节中，我们比较了共同注意[29]、自我注意[45]和内部-内部注意[36]之间的信息传递复杂性。信息流模式如图1所示。对于共同关注，数字-其中Wk，W v∈R512×128，bk，bv∈R128 是线性消息传递的BER是（2M N），因为每个word将从每个视觉信息计算键和值从潜在表征中提取特征区域的查询特征和单词特征QR、QE将用于对来自潜在表示的不同条目用它们的关键特征K进行加权，地区，反之亦然。对于自我关注，消息传递的数量为（MM+NN）。通道内注意和通道间注意的信息传递次数是自我注意和共同注意的信息传递次数之和，为O（（M+N）×（M+N））。一般来说，自底向上. Q·KT&自上而下的关注[1]，100个区域提案将被UR=softmaxUE=softmax有点晕。.QE·KTdim.、（十二）Σ、（十三）用于多模态特征融合。二次数-自我注意力[45]以及模态内和模态间注意力流[8]中的消息传递的错误将需要大量的GPU存储器，并且也会阻碍关系学习。对于我们提出的MLIN框架，MLI模块生成-其中softmax 表示进行softmax操作沿垂直方向和“暗”。第128章不是--为每个模态生成k个潜在概括向量经过关系推理，生成k×k个特征金属化常数UR，UERM或N×k2存储每个重新2在最后的特征重分布阶段，O（k×k×N）gion或word特征潜针对问题功能向上执行消息传递表示。原始区域和单词特征可以因此更新为日期和（k k M）消息传递是更新区域特征所必需的。消息总数RU=R+UR·A（十四）因此，我们建议的MLIN在每个阶段的通过率为时间复杂度为O（k×k×（M+N））. 我们提出的多模态潜在EU=E+UE·A（十五）表示可以更好地捕捉多模态交互，具有更少的消息传递，并实现了通信，其中，URA和UEA对来自潜在表示的信息进行聚合，以获得更新的区域和单词特征RU和EU。图2中的Aggregation模块说明了特性聚合过程。上面介绍的MLI模块的输入特征R、E和输出特征RU、EU共享相同的尺寸。受以前方法的启发[21，36]，我们将多个阶段的MLI模块堆叠起来，以递归地细化视觉和语言功能。R5831经过多模态识别模块的几个阶段后，我们分别对视觉和文字特征进行平均池，并对深度细化的区域和文字特征进行元素相乘，以实现多模态特征融合。一与DFAF相比，性能更好在实验中进行了性能比较4. 实验4.1. 数据集我们在VQA v2.0 [2]和TDIUC [20]数据集上进行实验。VQA v2.0和TDIUC都包含从Microsoft COCO [26]数据集收集的问题-图像对和注释问题。VQA v2.0是VQA v1.0的更新版本，减少了数据偏倚。VQA v2.0包含培训、验证和测试标准以及25%的测试标准。5832标准作为测试开发集。VQA v2.0的性能评价包括评价不同类型问题的准确性：是/否、数量、其他和组件设置精度自下而上[1]自下而上63.37BAN-1 65.36整体准确度。训练集、验证集和测试集分别包含82，743、40，504和81，434张图像，其中443，757、214，354张图像447,793个问题。我们对训练分裂训练的VQA v2.0的验证集进行了广泛的消融研究。此外，我们还报告了双线性[第21话][36]第三十六话BAN-4 65.81BAN-12 66.04DFAF-1 66.21DFAF-8 66.66DFAF-8 + BERT 67.23VQA v2.0测试集在训练集和验证集的组合上训练，这是表2中列出的大多数复杂方法的常见做法。虽然VQA v2.0已被普遍采用为VQA上最重要的基准。然而，Kafkeet al. [20]发现VQA v2.0的性能主要是由简单的问题，这使得很难比较不同的方法。为了解决VQAv2.0中存在的偏倚问题，TDIUC收集了160万个问题，分为12类。4.2. 实验装置我们使用常见的特征提取，预处理和损失函数作为表2中列出的大多数以前的方法。对于视觉特征，我们提取了VQA v2.0的前100个区域在TDIUC上，我们提取了前36个区域特征。区域特征由Faster RCNN生成[41]。对于问题编码器，我们使用0填充所有问题，最大长度为 14 ，并使用随机初始化的单层双向Transformer [45]提取R14×786在获得视觉和文字特征后，我们将它们转换为默认MLI-1 66.04512维使用线性变换。对于所有层，我们使用0.1的丢弃率并将梯度裁剪为0.25。使用Adamax优化器，去故障批量为512，学习率为0.005。我们逐渐增加学习-BERT Finetuninglr 1/10微调67.83lr 1/100微调66.99lr 1/1000微调66.74在前1000次迭代中将速率设置为0，005，因为我们的双向Transformer编码器是随机初始化的，而以前的方法使用预训练的Glove [37]和Skipthought [24]嵌入。我们还增加了我们的 MLIN与屏蔽词预测Transformerregularization。我们对模型进行了7个epoch的训练，并将学习率衰减为0.0005，并在接下来的epoch中将其修复。所有层都是用Pytorch [ 35 ]的随机初始化随机初始化的对于预训练的语言模型，我们采用了一个基础BERT [6]模型，该模型通过随机掩码单词进行训练。4.3. VQA 2确认我们进行了广泛的消融研究，以评价表1中我们提出的MLIN中每个模块的有效性。默认设置为一级MLIN，其中所有特征都转换为尺寸512。我们为每种模态创建了6个总结。对于特征聚合关键字查询注意模块，我们采用了12头多头注意，每头计算128-表1：我们提出的MLIN在VQAv2.0验证数据集。默认设置由下划线表示，而最佳性能将突出显示。我们提出的MLIN同时考虑了简单性和性能尺寸特征在消融研究中，我们检查了MLIN堆栈数量、潜在汇总向量数量、潜在交互、潜在传播、特征聚合和最终特征融合算子的影响。与BAN [21]和DFAF [36]类似，我们将所提出的MLI模块堆叠5次和8次，表示为MLIN- 5和MLIN-8，用于多阶段推理。我们观察到，更深的层将提高性能，并且由于剩余连接，可以通过SGD进行优化[13]。然后，我们研究了问题和视觉摘要向量的数量的影响。太少的摘要向量将无法捕获输入的不同方面，这会太多MLI-8 + BERT67.83堆叠数量MLI-566.32块MLI-866.53问题数量3乘365.63和视觉6乘666.04总结6乘1266.15头十二乘十二66.21Concat65.99潜在相互作用产品66.04操作者此外65.69沐滩66.20嵌入51266.04尺寸102466.18潜线性66.04传播自我关注65.84操作者双重注意66.01功能收集关键字查询66.04操作者转置65.78中的并行磁头数量8 heads65.84功能收集12头66.04操作者16头66.19冻结65.515833摘要向量将需要太多的GPU内存和计算，而只有边际改进。我们选择了6个问题摘要和6个视觉摘要向量作为性能和计算之间的权衡。对于创建成对摘要向量的交互操作符，我们比较了用于多模态摘要融合的逐元素乘积、逐元素加法和双线性融合（MUTAN）[3]。双线性融合[3]给出了最佳性能。然而，考虑到网络设计的整体简单性和效率，我们在最终模型中选择了逐元素乘积。与我们的方法不同，简单关系推理网络[42]默认选择连接。为了简化超参数选择，我们将所有层设置为具有相同的维度。通过线性变换将提取的视觉特征和问题特征转换到相同的维度上。1024的性能优于512.但是，堆叠多个MLI模块可以比宽的MLI模块带来更多的性能改进。我们的最终模型默认选择512个维度。在潜在成对摘要向量中，存在用于在它们之间传播信息的若干方式。Self-attention [45]使用关键字查询注意力来聚集来自其他潜在摘要的信息。而双注意力利用自注意力同时聚合每个特征向量在我们的实验中，我们提出的关系传播操作（例如，方程7，8，9）可以获得比复杂的双重注意更好的性能。在获得潜在交互特征后，原始问题和视觉特征将从潜在向量中收集信息以完成多模态关系学习。我们测试了两种从潜在向量中收集特征的方法。我们使用视觉和文字特征的关键字从潜在向量的查询中收集信息，并执行潜在摘要向量的加权池化受动态注意力权重预测网络[47]的启发，我们在摘要阶段使用注意力权重的转置来从潜在摘要向量中收集信息。关键字查询注意力方法优于动态注意力权重预测。特征聚集阶段的另一个超参数是关注头的数量和头的维数。在特征聚集阶段，我们保持每个头的维数为128，测试并行关注头的数量为8，12和16。将获得的不同头部的特征连接起来以获得最终特征。语言模型在NLP相关任务中得到了积极的研究。语言模型[30，37，39，6]可以生成更好地捕捉语言含义的特征。BERT [6]是一种语言模型，通过随机屏蔽一个单词或预测一个句子是否紧挨着另一个从表中可以看出，模型测试-开发测试-标准Y/N号其他所有所有特征融合BUTP [1]81.8244.2156.0565.3265.67MFH [12]n/an/an/a66.12n/aMFH+BUTD [12]84.2749.5659.8968.76n/aBAN+手套[21]85.4650.6660.5069.66n/a关系学习DCN [31]83.5146.6157.2666.8766.97[50]第五十话82.3945.9356.4665.9466.17图[34]82.9147.1356.22n/a66.18柜台[54]83.1451.6258.9768.0968.41DFAF [54]86.0953.3260.4970.2270.34DFAF-BERT [54]86.7352.9261.0470.5970.81MLIN（我们的）85.9652.9360.4070.1870.28MLIN-BERT（我们的）87.0753.3960.4971.0971.27表2：与VQA 2.0测试数据集上先前最先进方法的比较MLIN+BERT模型通过将其学习率设置为主学习率的1/10，将唤醒BERT的全部功能4.4. 与最先进方法的比较在本节中，我们将我们提出的MLIN与表2和表3中VQA v2.0和TDIUC数据集上的先前最先进的方法进行了比较。按照以前的方法，我们在VQA v2.0测试数据集上比较了我们的方法，这些数据集是通过训练，验证分割和视觉基因组增强训练的。在VQA v2.0中，我们将以往的方法分为非关系方法和关系方法，这是两个正交的研究方向，可以相互帮助。Bottom-Up-Top-Down（BUTD）[1]方法提出在简单的注意力模块中使用对象检测功能来回答与输入图像相关的问题MFH [52]是最先进的双线性融合方法。通过从残差特征切换到自底向上自顶向下特征，可以实现更好的准确性。BAN [21]提出了一种双线性注意力机制，该机制使用每个通道的信息生成多模态注意力，并在2018年VQA竞赛的单一模型任务中获得第在求解VQA问题时，除了特征融合外，关系推理也受到了广泛的关注。DCN [31]提出了一种用于跨模态特征学习的密集连接的共同注意力模块。<主语、谓语、宾语>三元组被创建用于关系先验中的VQA推理[50]。Con-Bad Graph [34]在所有区域pro-bad之间建立了一个图，并将该图置于视觉问题上。与其他方法相比，Al-though条件图的竞争力较弱.然而，从条件图的解释是相当有用的诊断VQA问题。计数器[54]通过利用边界框之间的相对位置来学习有效的非最大值抑制（NMS），从而深入研究VQA的数字问题。DFAF [36]是一种多层堆叠网络，通过结合模态内和模态间信息流进行特征融合，5834具有边界框的图像第一视觉注意力权重第二视觉注意力权重第三视觉注意力权重问：这张照片里有多少动物？A：2Q：汽车内饰是什么颜色？A：红色图3：我们将前三个视觉注意力权重可视化，以创建视觉摘要向量。Faster RCNN生成的边界框显示在第一列中。对于视觉摘要，边界框中从透明到白色的颜色表示从0到1的注意力权重训练后，首先关注背景区域。第二和第三注意力权重集中在单个和多个前景对象表3：与TDIUC测试数据集上的先前最先进方法的比较锡永此外，DFAF可以使用来自其他模态的平均池化特征来动态地调制模态内信息流。MLI使用100个地区专业人员进行公平比较。VQA2.0是VQA中最重要的基准测试工具。由于VQA2.0以简单样本为主，很难区分不同的方法.我们还比较了TDIUC数据集上的方法。QTA [43]是TDIUC的最新方法，它提出了一种问题类型引导的注意力，具有自底向上-自顶向下特征和残差特征。我们提出的MLIN可以实现更好的性能，甚至与自底向上自顶向下的功能。我们的方法在这个数据集上也优于DFAF。4.5. 可视化我们在图3中可视化了摘要向量的注意力权重。我们发现了以下模式。不同的摘要有特定的功能.从注意力权重的可视化可以看出，不同的摘要向量关注不同的全局信息。第一关注权重从以下各项收集信息：第二关注权重集中在背景上，而第二关注权重集中在回答问题的最重要区域上。而第三个注意力执行具有强交互的区域的加权池来回答问题。5. 结论在本文中，我们提出了一种新的MLIN探索关系求解VQA。在MLIN内部，多模态推理是通过总结、交互、传播和聚合过程实现的MLIN可以堆叠几层，以实现更好的关系推理。我们的方法在基准VQA数据集上取得了有竞争力的性能，消息传递时间要小得多。此外，我们证明了一个良好的预训练语言模型问题编码器对VQA性能很重要。6. 确认这项工作得到商汤科技集团有限公司的部分支持，部分由香港研究资助局的一般研究基金资助，资助额为CUHK14202217，CUHK14203118，CUHK14205615，CUHK14207814，CUHK14213616，CUHK14208417，香港中文大学14239816，部分由香港中文大学直接拨模型[36]第一届全国人大常委会第十三次会议审议通过《中华人民共和国宪法》。精度84.2681.8685.0385.5587.605835款。5836引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议集，第6077-6086页一、二、三、五、六、七[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页一、五[3] HediBen-Younes，Re' miCadene，MatthieuCord，和Nico-las Thome.Mutan：用于视觉问答的多模态折叠融合。在IEEE国际计算机视觉会议论文集，第2612-2620页，2017年。1、7[4] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在IEEE计算机视觉和模式识别会议论文集，第5659-5667页2[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009. 2[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。一、二、六、七[7] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv预印本arXiv：1606.01847，2016。1、8[8] Peng Gao ， Zhengkai Jiang ， Huxuan You ， Pan Lu ，Steven CH Hoi，Xiaogang Wang，and Hongsheng Li.动态融合与内部和跨模态注意流的视觉问答。在IEEE计算机视觉和模式识别会议集，第6639-6648页5[9] Peng Gao，Hongsheng Li，Shuang Li，Pan Lu，YikangLi，Steven CH Hoi，and Xiaogang Wang.问题引导的混合卷积的视觉问题回答。在欧洲计算机视觉会议（ECCV）的论文集，第469-485页，2018年。3[10] 杨高、奥斯卡·贝博姆、张宁和特雷弗·达雷尔。紧凑的双线性池。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 317-326，2016中。1[11] Shijie Geng ， JiZhang ， Hang Zhang ， AhmedElgammal，and Dimitris N Metaxas. 2019年GQA挑战赛第二名的解决方案arXiv预印本arXiv：1907.06794，2019。1[12] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。使VQA中的V变得重要：图像理解在视觉问题中的作用接电话在计算机视觉和模式识别会议（CVPR），2017年。一、二、七[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。一、二、六[14] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络。在IEEE计算机视觉和模式识别会议论文集，第3588-3597页，2018年。一、二[15] Ping Hu，Ximeng Sun，Kate Saenko，and Stan Scaroff.弱监督组合特征聚集用于少镜头识别。arXiv预印本arXiv：1906.04833，2019。2[16] RonghangHu，PiotrDolla'r，KaimingHe，TrevorDarrell，andRoss Girshick.学会把每一件事都分割开来在IEEE计算机视觉和模式识别会议论文集，第4233-4241页，2018年3[17] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别集，第4700一、二[18] 姜正凯，高鹏，郭朝旭，张倩，向世宁，潘春红.局部加权可变形邻域的视频对象检测。AAAI人工智能会议论文集，33（01）：8529- 8536，7月。2019. 3[19] Justin Johnson ， Bharath Hariharan ， Laurens van derMaaten ， Li Fei-Fei ， C Lawrence Zitnick ， and RossGirshick.Clevr ： A diagnostic dataset forcompositelanguage and elementary visual reasoning.在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第2901-2910页，2017年。3[20] Kushal Kafle和Christopher Kanan。可视化问答算法分析。在IEEE计算机视觉国际会议论文集，第1965- 1973页，2017年。一、二、五、六[21] Jin-Hwa Kim，Jaehyun Jun，and Byoung-Tak Zhang.双耳注意力网络。神经信息处理系统的进展，第1571-1581页，2018年。二三五六七[22] Jin-Hwa Kim 、 Kyoung-Woon On 、 Woosang Lim 、Jeonghee Kim、Jung-Woo Ha和Byoung-Tak Zhang。低秩双线性池的 Hadamard 乘积。 arXiv 预印本 arXiv ：1610.04325，2016。1[23] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[24] Ryan Kiros 、 Yukun Zhu 、 Ruslan R Salakhutdinov 、Richard Zemel 、 Raquel Urtasun 、 Antonio Torralba 和Sanja Fidle

下载后可阅读完整内容，剩余1页未读，立即下载