基于多模态图神经网络的视觉与场景文本

79 浏览量更新于2023-10-20 收藏 1.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12746基于多模态图神经网络的视觉与场景文本高迪飞1，2 *，李可1，2 *，王瑞平1，2，单世光1，2，陈西林1，21中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，北京，1001902中国科学院大学，北京，100049{difei.gao，ke.li}@ vipl.ict.ac.cn，{wangruiping，sgshan，xlchen}@ict.ac.cn摘要对于当前的模型来说，解决需要阅读图像中文本的问题这项任务的一个关键困难是，罕见的，多义的，和模糊的词经常出现在图像中，例如。地名、产品和运动队的名称为了克服这个困难，仅仅依靠预先训练好的词嵌入模型是远远不够的。一个理想的模型应该利用图像的多种形式中的丰富信息来帮助理解场景文本的含义，例如。瓶子上的突出文字最有可能是商标。基于这一思想，我们提出了一种新的VQA方法--多模态图神经网络人类可以看到（原始图像）Q1。什么是制造产品的公司？A：STP视觉模型可以Q2：最后一个问题是什么？A. 黑色计算器（MM-GNN）。它首先将图像表示为图形组成-一个语言模型可以三个子图，描绘视觉，语义，和自然，的模式分别。然后，我们介绍了三个AG-Q3：我的朋友是谁？A：65美分Q4：您的手机号码是多少？A：是引导消息从一个图传递到另一个图以利用各种模态的上下文，从而细化节点的特征的gregator更新后的节点具有更好的下游问答模块的功能。实验结果表明，我们的MM-GNN表示的场景文本更好，明显促进了两个VQA任务，需要阅读场景文本的性能。1. 介绍场景中的文本传达了丰富的信息，这些信息对于执行日常任务（如寻找地点、获取有关产品的信息等）至关重要。一种能够对场景文本和其他视觉内容进行推理的高级视觉问题推理（VQA）模型在实际中有着广泛的应用，如帮助视障用户，儿童教育等。本文的重点是赋予VQA模型更好地表示包含场景文本的图像的能力，* 表示相等的贡献。图1. 一幅图像可以包含多种模态的信息-因此，对于具有不同能力的模型，它看起来是不同的。例如，人眼中的图像（左上）组合了多模态内容。视觉形态包括物体的视觉表象和文本的视觉表象。语义模态涉及文本的语义，但它不能确定图像中的“STP”等生僻词的语义。数字模态是关于数字之间的数字关系，如65大于50. Q2到Q4是三个常见的问题，涉及对这些模态之一的推理;而Q1需要使用视觉上下文来推断“STP”的语义。绿色中的随机字符虚线框表示观察者能力之外的模态回答需要阅读图像的VQA任务[44，8]的表现。与纯视觉实体（如对象和场景）和自然语言文本（句子或短语）相比，建模场景文本的独特挑战是什么？场景文本固有地包含信息在多个模态中，视觉信息，包括颜色、形状和语义信息，例如，“NewYork” is the name of a city, and “65”这些类型的信息是人类CNN伯特12747Q1：饮料是什么牌子的？A：EPICQ2：这是谁的杯子？A：Ged'sQ3：最大的衡量标准是什么在尺子上显示的是什么？答：40表示节点的三个基于注意力的聚合器，对应于利用图中的三种典型类型的上下文。二、这些聚合器计算两个节点的相关性分数，考虑它们在图像中的视觉外观和布局信息，以及问题。除了节点之间的相关性之外，通过基于布局信息的参与，我们实际上将文本链接到图2.三个示例问题需要利用不同类型的多模态上下文来回答问题。问题1：模型应该使用视觉上下文（“EPIC”是瓶子上的一个突出单词）来推断单词“EPIC”的语义。问题2：模型应该通过使用单词的语义上下文来推断“Ged”表示杯子的所有者。Q3：模型应该能够利用数字的语义来描述数字之间更多信息的数字关系，例如常用于回答日常问题。例如，在Fig.1、Q2要求模型用其视觉信息找到目标场景文本;Q3需要模型来理解表示金额的“65”的语义;Q4要求理解数字之间的数字关系。因此，要正确回答涉及场景文本的问题，就必须清晰地刻画场景文本的各种形态。此外，在这三种模态中，确定场景文本的语义更困难，因为日常环境中遇到的场景文本很大可能是未知的，罕见的或多义的词，例如，产品名称“STP”如图所示。1.一、为了解决这个问题，模型应该能够确定这些文本的语义，而不仅仅是使用在文本语料库上预先训练的单词嵌入[38，26]在本文中，我们建议教模型如何利用单词周围的不同模态的上下文来像人类一样确定它们的含义，即1）视觉上下文：瓶子上最突出的字最有可能是它的品牌，如图1中的Q1和图2中的Q1。2，2）语义语境：一个生僻或歧义词的周围文本可能有助于推断其含义，e.G. 图2中所示的Q2。二、此外，利用数字也可以描述更多的信息之间的数字关系，如图3所示的Q3二、根据上述思想，我们提出了一种新的方法，多模态图神经网络（MM-GNN），以获得更好的表示图像中的多模态内容，并促进问题的回答。我们提出的MM-GNN包含用于表示图像中的三种模态的三个子图，即，视觉实体（包括文本和物体）的视觉模态，场景文本的语义模态，以及数字相关文本的数字模态，如图所示。3.第三章。三个图中节点的初始表示是从先验中获得的，例如从语料库和Faster R-CNN特征中学习的单词嵌入。然后，MM-GNN动态更新它们的物理载体（印刷或雕刻文本的对象）;以及给定的语言提示，注意力模型可以通过考虑问题所暗示的指令来更准确三种不同的聚合器引导消息从一种模态传递到另一种模态（或传递到自身），以利用不同类型的上下文来以一定的顺序细化节点特征更新后的表示包含更丰富和更精确的信息，有助于回答模型关注正确答案。最后，我们在最近提出的两个数据集TextVQA [44]和ST-VQA [8]上使用我们提出的MM-GNN及其变体进行实验结果表明，我们的MM-GNN与新设计的聚合器有效地学习场景文本的表示，并促进需要阅读文本的VQA任务的性能。2. 相关工作可视化问题分类任务。近年来，许多研究提出了不同的VQA任务[39，34，4，16，48，42，53，24，23]，用于评估不同类型的VQA回答视觉问题的核心技能。一行数据集[39，34，4，16]，如COCO-QA和VQA，研究了有关查询图像视觉信息的问题。相关工作[33，14，41，1，6，35，50]提出了各种注意力机制和多模态融合技术，以更好地定位给定问题的图像区域，以促进回答过程。另一条线的作品，如CLEVR和GQA，介绍了要求复杂的和组成的空间推理技能的问题。这些任务的相关工作介绍了模块化网络[2，3，20，25，22]和神经符号模型[43，51]，它们可以通过对图像执行显式多步推理来鲁棒地生成答案。在本文中，我们关注最近由TextVQA [44]和ST-VQA [8]提出的一种新类型的问题。与其他VQA任务相比，这两个任务的独特之处在于引入了关于包含多模态内容的图像的问题，包括视觉对象和多样化的场景文本。为了解决这些问题，本文重点研究如何表达多模态内容，并获得更好的场景文本和对象的表示。VQA中的表示学习。一些鼓舞人心的工作已经研究了图像的表示，以提高VQA任务的性能。VQA模式-els [33，14，41，35，50]在早期阶段主要使用在ImageNet上预训练的VGG或ResNet特征来表示。12748i=1我i=1我i=1我重新发送图像。然而，这种类型的网格级功能仅限于执行对象级关注。因此，[1]提出将一个图像表示为检测到的对象特征的列表。此外，为了解决复杂的合成问题，[43，51]提出了一些合成图像的符号结构表示（例如，从图像中提取的场景图最近，[36，32，21]将自然图像表示为全连接图（可以视为隐式场景图，其中对象之间的关系未显式表示）。这种类型的图允许模型预测动态边权重，以关注与问题相关的子图，并广泛用于自然图像QA。上述方法都是针对视觉对象的表示，本文将其扩展到多模态内容的图像我们将一幅图像表示为一个由三个子图组成的图，分别描述每个模态中的实体，并建立不同模态中实体之间的图神经网络图神经网络（GNN）[40，10，29，46，49]是一个用于表示图结构数据的强大框架GNN遵循一个聚集方案，控制如何表示向量，由其相邻节点计算的节点的向量，以捕获图的特定模式。最近，GNN的许多变体被提出来在许多任务中捕获图的不同类型的模式。对于图分类任务，许多关于文本分类[40，46，11]和蛋白质界面预测[13]的工作利用GNN来迭代地组合相邻节点的信息以捕获图的结构信息此外，许多有趣的作品[45，36，32，21，47]将GNN引入基础相关任务，例如引用表达式[27]和视觉问答[54，16，23]。这些作品[45，36，32，21，47]提出了GNN与局域网-需要阅读的问题。给定一个包含视觉对象和场景文本的图像和一个问题，目标是生成答案。我们的模型通过三个步骤回答了这个问题：（1）提取图像的多模态内容并构造三层图，（2）在不同模态之间执行多步消息传递以细化节点的表示，以及（3）基于图像的图表示来预测答案。3.1. 多模态图的构造如图3，给定一个图像，我们首先构造一个由三个子图组成的多模态图，即，视觉图、语义图和数字图，用于以三种形式表示信息。可视图Gv是一个全连通图，其中每个节点vi∈Vv={vi}N编码实体的纯视觉信息（即，对象和场景文本），N是由提取器生成的候选对象。vi的初始表示v（0）通过使用图像特征提取器获得，例如，更快的R-CNN [15]检测器。语义图Gs也是一个全连通图，每个节点si∈Vs={si}M表示场景文本的语义，例如：“New York” is the nameof a city,具体地，为了获得语义图，我们首先使用光学字符识别（OCR）模型来提取图像中的单词标记。然后，通过预先训练的词嵌入模型嵌入第i个令牌作为节点si的初始表示s（0）。此外，对于数字类型的字符串，例如。“2000”, theynot only contain semantic meanings indicating string type,年（或美元），但也有数字含义，表明其他数字类型字符串之间的数字关系，例如，“2000”大于“1900”。因此，我们构造了一个全连通数值图Gn来表示这些信息语言条件聚合器动态定位一个子n={xi}K. 我们分类给定查询的场景图（例如，引用实例）。表达式或问题），则GNN更新子图中节点的特征以编码对象之间的关系。更新后的节点具有更好的功能，用于后期接地相关任务。与之前用于接地相关任务的GNN [45，36，32，21，47]类似，我们利用GNN来获得更好的功能。本文将GNN从单模态图的推理扩展到多模态图的推理。此外，我们提出的新聚合方案可以显式地捕获不同类型的多模态上下文来更新节点的表示。3. 方法在本节中，我们详细介绍了建议的多模态图神经网络（MM-GNN），用于回答vi-常见的数字文本分为几种类型，例如，号码，时间，然后将数字型文本根据其类别用sigmoid函数（对于单调数，如“12”）或余弦函数（对于周期数，如“10：00”）嵌入到-1到1中，记为x（0）更多细节的数字编码器是在补充.此外，由三个子图组成的整个图总体上是全连通的，但在一个聚合器中仅使用特定部分的节点和边3.2. 聚合方案在构建图并初始化每个节点的表示之后，我们提出了三个聚合器，它们引导一个子图到另一个子图或子图本身之间的信息流，以利用不同类型的上下文来细化节点的表示，如图所示。3 .第三章。12749我Jv我S（0）′SS′JSemantic-Semantic聚合器视觉OCR问：这个停车标志在哪条街？Faster-RCNN问题编码器OCR + FastTextOCR +数字编码器（Sigmoid或问题特征图构造可视化语义聚合器语义-数字聚合器回答：麦克丹尼尔图3.多模态图神经网络（MM-GNN）的结构。它首先运行三个离线模型来初始化每个图的表示。之后，三个聚合器通过以图间或图内方式传递信息来连续更新节点的表示，以获得更好的节点表示。最后，答案预测模块使用这些特征输出答案。两个节点之间的线上的蓝色或红色箭头表示信息聚合的方向，更深的线表示更高的关注度。[;]表示连接操作。视觉语义聚合器。第一个聚合器是视觉语义聚合器，其目标有两个：1）利用视觉上下文来细化语义节点（用于解决如图2中的Q1的问题），以及2）利用语义上下文来细化视觉节点，使得文本的物理载体的视觉表示意识到文本其中s（1）是t = 1时的更新节点表示（如图2所示）。fv′是一个MLP，用于编码相邻节点的特征类似于细化语义节点的方案，我们通过以下方式获得Gv中节点v（1）的更新表示：(for解决问题，如图3中的Q3（五）。在这里，我们首先说明第一个目标的实现情况。对于每个节点，av=0vj，si）′（三）在语义图Gs中，聚合器更新表示的通过首先关注相关的相邻节点，vj，si（一）si∈Ns(0)Σvvj，si）（0）vj=[vj ;av，sfs′（si ）]、（四）可视图形vv={v}N，然后聚合in-j ijsijj=1si∈Nsv形成参与节点以更新锡岛具体地说，我们首先计算相关性得分ass在节点之间，而其相邻节点vvj，si基于其中fs′是用于编码sj的MLP，并且Nv指示i j是语义图中vj的相邻节点注意在它们的视觉表示和它们的位置特征Bsi和bvj（即边界框的坐标）和通过嵌入问题词并通过LSTM [19]获得的问题a′=fs（[s（ 0 ） ;fb（bs）]） T（fv（[v（ 0 ） ;fb（bv）]）<$fq（q）），所有聚合器，附加信息被附加在原始特征之后;具体地，在视觉-语义聚合之后，语义和视觉特征的维度都乘以2。语义-语义聚合器。然后，该聚合器通过以下方式细化每个语义节点的表示vj，s iiijjexp（a′ ）考虑其语义上下文（用于解决诸如vj，si=0vj，sivexp（a′、（1））图中的Q22）。对于每个节点si，聚合器找到Svj∈Nsivj，si语义图中的真邻节点Nsi ={sj|其中fs、fv、fb和fq是用于编码语义节点、视觉节点、边界框特征的MLP，并且问题特征，[; ]表示连接两个向量，而是逐元素乘法。在这里，我们还考虑了问题信息在计算注意力得分，因为我们希望模型能够考虑问题中的信息来聚合相关节点。然后，我们汇总参与节点的信息j∈{1，…M}和j∈/i}的关系，则聚合参与节点的信息。更具体地，节点si及其相邻节点si的相关性得分asi，si通过它们的语义表示和它们在图像中的位置特征bsi和bsi来计算a′=gs（[s（1）;gb（bs）]）T（gs（[s（1）;gb（bs）]）<$gq（q）），并将聚集的特征附加到描绘广告的s（0）sj，si1ii2jjexp（a′ ）检查此节点的信息以获得更新的se。Mantic表示，公式化为，Σasj，si=Σsj∈Ns我sj，si（sj，si）、（五）（1）=[0];asfv′（v ）]，（2）我我vj∈Nv我vj，sij其中，gs1、gs2、gb和gq是用于编码= 02004数字图麦克丹尼尔St停止2004方式语义图Visual Graph= 1麦克丹尼尔St停止2004路语义关注关注视觉= 2关注停止麦克丹尼尔St2004路语义= 32004数字关注麦克丹尼尔St停止2004路语义特征特征200人;停止零向量;4问题特征回答预测词汇OCR标记是的 ... 红色 ...麦克丹尼尔 ………exp（aexp（a一exp（aJJ12750节点特征（前两个）、边界框特征和12751S我XXij=1attatt问题特征然后，我们聚合参与节点的信息，并将聚合的特征附加到si，对于TextVQA数据集，它包含来自Open Image数据集[30]的 28，408张图像上的45，336个人工提问问题每一对问答都有（二）(1) Σ（一）对象字符识别提取的标记列表i=[i;sj∈Ns我asj，sigs3（sj ）]、（六）（OCR）模型，Rosetta [9]。这些问题通过VQA准确度指标进行评估[16]。其中s（2）是t=2处的更新的节点表示，并且gs3是用于对相邻节点的特征进行编码的MLP。语义-数字聚合器。此聚合器的目标是利用语义上下文来细化值节点，以描述数字之间的更多信息数字关系（用于解决图2中的Q3等问题）。语义-数值聚集器的机制类似于视觉-语义聚集器实现第一个目标的机制。我们首先计算节点sj和xi之间的相关性得分asj，xi，然后将语义节点到数字节点，公式化为，Σ对于ST-VQA数据集，它由23，038个图像组成，与31，791个人工注释的问题配对。在ST-VQA的弱语境化任务中，为该任务中的所有问题提供了30，000个单词的词典;并且开放词典任务是开放词典。这些问题通过两个指标进行评估，平均归一化Leven-shtein相似性（ANLS）[31]和准确性。实施详情。对于TextVQA数据集上的实验，我们使用在训练集中至少出现两次的答案作为我们的词汇。因此，我们的输出空间的大小是词汇量和OCR数之和，即3997+50。对于问题特征，我们使用x（0）=[x（0）];as，xh（s（2））]，（7）GloVe [38]，广泛用于VQA模型，以em-i ij ijsj∈Ns我其中h用于对语义节点进行编码， ={sj}M. 最后，将数字节点附加到相应的语义节点上，作为OCR的表示令牌，表示为c =[c1，...， cM]。对于不是数字类型的OCR令牌，我们连接一个元素都为0的向量。3.3. 答案预测答案预测模块采用更新的视觉特征v=[v1，.，vN]和OCR特征c=[c1，...，cM]作为输入，并使用复制机制输出答案[17]。具体地说，首先将输出空间的大小扩展为词汇量+ OCR数，输出空间中的一些索引表示复制相应的OCR作为答案，如图1所示。3.第三章。然后，我们计算两个模态的特征上的注意力分数，并使用被关注的特征来生成每个答案的分数，公式为，y=fa（[fv（v，q）Tv;fc（c，q）Tc]），（8）bed单词，然后将单词嵌入提供给具有自我注意力的LSTM [19][52]以生成问题嵌入。对于编码OCR令牌，GloVe只能将词汇表外（OOV）单词表示为不适合初始化它们的0向量，因此我们使用fastText [26]，它可以将OOV单词表示为不同的向量，以初始化OCR令牌。对于图像特征，我们为TextVQA数据集提供的每个图像使用两种预提取的视觉特征，1）从预训练的ResNet-152中获得的196个基于网格的特征，以及2）从预训练的Faster R-CNN模型中提取的100个基于区域的特征。这两个视觉特征都是2048维的。请注意，Faster R-CNN提供了对象和场景文本的视觉特征，因为检测器产生了过多的边界框，其中一些边界框将绑定场景文本。首先将对象和OCR标记的边界框坐标归一化为[0，1]的区间。然后，我们将其中心点、左下角和右上角的坐标、宽度、高度、面积和长宽比连接成一个10维特征。我们用了AdaMax运算-attatt优化器[28]。1 e-2的学习率是ap-其中fv和fc自上而下的注意力网络[1]施加在除了FC7层之外的所有参数上用于微调，fA是输出所有候选答案的分数的MLP。最后，我们优化二进制交叉熵损失来训练整个网络。这允许我们处理答案同时在预定义的答案空间和OCR令牌中的情况，而不会因为预测任何一个而受到惩罚。4. 实验4.1. 实验设置数据集。我们使用TextVQA数据集和场景文本VQA（ST-VQA）数据集来评估我们的模型。用5e-3训练。对于ST-VQA数据集上的实验，由于没有提供可用的OCR结果，我们使用TextSpotter [18]提取图像中的场景文本对于问题和 OCR 令牌嵌入，我们使用与TextVQA中相同的模型;对于图像特征，我们只使用Faster R-CNN特征。此外，我们交换预测词汇表，以适应数据集的变化。对于开放词典任务，我们收集至少出现两次的答案以及在训练集中出现一次的单字答案作为我们的词汇。对于弱情境化任务，给定以下词汇12752弱上下文化开放字典方法表1.TextVQA数据集上的VQA准确度（%），与基线和最新模型的比较。LA+OCR UB是指使用LoRRA的大词汇表和TextVQA数据集提供的OCR结果的模型可实现的最大准确度[44]。30 ， 000 的大小被直接利用。此外，源代码是用PyTorch实现的[37]1。4.2. 结果与最新技术水平的比较。表1显示了我们的方法和最先进的方法在TextVQA数据集的验证和测试集上的比较。在表中，LoRRA（Pythia）是TextVQA数据集提供的基线[44]。BERT + MFH是CVPR 2019 TextVQA挑战赛的获胜者，该挑战赛被认为是最先进的，其结果引用自其挑战赛获胜者演讲。LA+OCR UB是指使用TextVQA数据集提供的当前OCR结果和LoRRA大词汇表的模型可实现的最大准确度 [44] 。 LoRRA 和BERT+MFH利用先进的融合技术来处理由预训练的FastText编码的OCR令牌[26]。BERT+MFH还将功能强大的问题编码器BERT [12]引入到回答模型中。我们的方法优于上述主要依赖于预先训练的词嵌入的方法，并取得了最先进的结果。表2比较了我们的方法和场景文本VQA数据集的弱上下文和开放词典任务的最新方法，其中VTA是ICDAR 2019年STVQA竞赛的获奖模型，它扩展了自下而上的VQA模型[1]，并使用BERT对问题和文本进行编码。从实验结果可以看出，MM-GNN比基线方法有明显的改善例如SAN（CNN）+STR，并实现相当的准确性关于VTA多模态GNN的有效性。我们的模型因此，我们提出了我们的模型的几个变体，其中每个变体消除一些聚合器，以显示它们的不可或缺性。1我们的源代码可以在http://vipl.ict.ac.cn/resources/codes上找到。表2.在ST-VQA数据集的测试集上，不同方法在弱上下文和开放词典任务上的平均归一化Levenshtein相似度（ANLS）和准确率（%）• No-GNN：该变体直接使用从预训练模型中提取的对象和OCR令牌特征来回答问题，而无需通过多模态GNN。其他模块（输出，嵌入）保持与MM-GNN相同。• Vanilla GNN：这个变体将对象和OCR令牌特性放在一个图中。然后，它执行一个类似于语义-语义聚合器的聚合，标注节点表示的日期。其他模块与MM-GNN保持相同。• VS、SS和SN的组合：这些变体构造了像MM-GNN这样的多模态图，但仅使用一个或两个聚合器来更新表示。站。VS、SS和SN分别表示视觉-语义、语义-语义和语义-数值聚合器。此外，为了更好地详细比较结果，我们将TextVQA中的问题分为三类。第一种类型的问题是无法回答的，包括对于TextVQA数据集中给定的当前提供的OCR to-kens无法回答我们得到这种问题通过检查地面实况答案是否不存在于预定义答案词汇表和所提供的OCR令牌中。第二种类型的问题的答案只能在预定义的答案词汇表中找到，例如第三种类型的问题是OCR相关问题，其中答案来自OCR令牌。由于无法回答类型的问题无法有效地评估不同变体的功效，我们报告了可回答类别下的Vocab和OCR评分以及总体准确性（包括无法回答）。我们在TextVQA数据集的验证集上评估变体，并报告它们在每种类型问题上的准确性，如表3所示。比较我们的完整模型MM-GNN与基线No-GNN的性能，我们可以看到MM-GNN在总体准确率上优于NO-GNN约4%，在TextVQA的主要焦点OCR相关问题上超过8%这表明，将图形表示引入到方法Val测试皮提亚13.0414.01LoRRA（BAN）18.41-LoRRA（Pythia）26.5627.63BERT + MFH28.96-MM-GNN（我们的）31.4431.10BERT + MFH（集成）31.5031.44MM-GNN（合奏）（我们的）32.9232.46LA+OCR UB67.5668.24噪音声级Acc.噪音声级Acc.SAAA0.0856.360.0856.36SAAA+STR0.0967.410.0967.41SAN（LSTM）+STR0.13610.340.13610.34SAN（CNN）+STR 0.13510.460.13510.46VTA [7]0.27917.770.28218.1312753方法可识别的整体词汇OCR无-GNN 28.88 35.38 27.55香草GNN 28.29 37.70 28.58VS 27.54 41.38 30.14SS29.7538.89 29.71SN 25.67 40.30 28.82VS + SSVS + SNSS + SNVS + SS + SN（我方）表3.在TextVQA数据集的验证集上使用不同类型的图神经网络的VQA模型的VQA准确度（%）方法可识别的整体词汇OCR总计27.40 40.40 29.59产品27.89 32.18 25.79Concat + MLP28.1138.44 28.73康卡特（我方）27.8543.36 31.21表4.在TextVQA数据集的验证集上具有不同组合方案的MM-GNN变体的VQA准确度（%）TextVQA模型能有效地帮助答疑过程。将Vanilla GNN与MM-GNN系列的结果进行比较，我们发现，如果GNN中的消息传递设计得不好，直接将GNN应用于TextVQA任务，Q1：拿球的球员是哪个队的？A：WDOVERQ2：这个地方卖的面包叫什么名字？A：Panera一点帮助。通过比较SS、SN和VS的结果，我们发现视觉语义聚合器对OCR相关问题和总体准确率的性能增益贡献最大。这证明了我们的想法，多模态上下文是有效的，在提高场景文本表示的质量然而，我们发现数字-语义聚合器的贡献比其他两个聚合器小，这可能是因为查询数字之间关系的问题部分，例如“图像中最大的数字是多少？“，相对较小。因此，它限制了显示此聚合器的有效性的空间。不同组合方法的影响。选择控制源节点与其相邻节点的聚集特征融合的组合方案是图神经网络设计的一个关键部分。原始MM-GNN被设计为逐渐向每个节点添加额外的信息，以作为提示来区分OCR令牌，并促进应答模型定位适当的OCR令牌。在这里，我们替换我们的concate-通过在其他GNN中广泛使用的几个变体进行国家更新• Sum：这种变体通过求和运算将源节点及其相邻节点的特征结合起来，这在现有的GNN作品中被广泛使用，例如如[5]。• 乘积：该变体通过计算节点特征与其相邻节点的聚合特征的逐元素乘法来• Concat + MLP：该变体通过连接节点特征和它的相邻节点，然后使用MLP来编码连接的特征，这在以前的视觉语言相关方法中使用[21]。图4.由MM-GNN生成的注意力结果的可视化。图像中的白框是最终预测的OCR，红框是与视觉语义聚合器生成的预测OCR最相关的对象;绿色框是与语义-语义聚合器生成的预测OCR最相关的OCR标记。我们只显示关注值高于固定阈值的盒子，关注度越高的盒子线条越粗这表明，我们的注意力是敏锐的，真正关注一些与回答问题有关的物体或文本。我们在TextVQA数据集的验证集上评估了它们的性能，性能如表4所示。我们可以看到，这三种方案都或多或少地损害了性能。从经验上讲，这是因为节点及其邻域之间的信息被压缩，逐渐平均节点特征之间的差异，从而在回答模块试图定位与问题相关的OCR令牌时使其困惑。注意，上述三种组合方案都具有不通过迭代改变节点特征尺寸的优点;而我们的级联方案放松了这一限制，以在组合阶段保留更多的信息。4.3. 定性分析为了直观地了解聚集者的注意力分布，我们在图1中对它们进行了可视化。4.第一章结果表明，该模型能够产生非常清晰的注意力，并且注意力具有良好的可解释性。在Q1中，对于关于持球运动员的问题查询，OCR令牌由注意力模块引导以包含更多与篮球相关的信息;除了问题提示之外，“WDOVER”自然地关注玩家的区域。在第二季度，OCR令牌12754视觉-语义注意Q1：银行叫什么？MM-GNN：transsilvaniaNo-GNN：bt直觉：物理载体链接（显著的标志牌可能是名称）和OCR间推理Q2：白皮书中从上到下的第四个城市是哪个城市？MM-GNN：波士顿No-GNN：纽约直觉：问题提示和视觉上下文方向Q3：什么是游戏规则？MM-GNN：黑色No-GNN：回答不需要阅读图像中的文本直觉：图像中文本强化的视觉特征Q4：车牌上提到的国家公园是什么？MM-GNN：优胜美地直觉：OCR间推理Q5：你的手机号码是多少？MM-GNN：90无GNN：20直觉：数字型文本中的推理图5.MM-GNN模型推理过程的可视化我们只显示来自在回答模块中选择为答案的OCR标记的注意预测的OCR令牌在白框中。在视觉语义注意力列中，我们显示了OCR标记对最受关注的两个视觉对象的注意力，它们位于红色边界框中。“语义-语义注意”列显示预测的OCR标记与最多人参与的OCR标记之间的注意力，这些标记位于黄色边界框中。在Semantic-Numeric Attention列中，从预测的OCR标记到其他OCR标记的注意力以青色显示（如果有的话）。对回答这个问题最重要的图像用橙色框起来，边界框的厚度与它们的注意力权重成正比。这些令人满意的可视化结果表明，我们的模型能够以一种可解释的方式逐步进行推理在回答问题时，可以选择“面包”，因为模型知道“面包”上面的单词为了更好地说明MM-GNN的回答过程，我们可视化了每个聚合器在回答问题时的注意力结果，并比较了MM-GNN和基线No-GNN的最终答案图 5、我们给出了几个典型问题的结果：Q1要求模型利用视觉上下文“建筑物招牌上的突出文本”来推断未知OCR的语义，以识别“transilvania”。此外，OCR上下文“banca”还有助于发现“transilvania”是一家银行的名称。Q2需要将文本5. 结论在本文中，我们介绍了一种新的框架多模态图神经网络（MM-GNN）的VQA与场景文本。MM-GNN将具有多模态内容的图像表示为三个图的组合，其中每个图表示一种模态。此外，MM-GNN中设计的多模态聚合器利用多模态上下文来获得图像中元素的更精细表示，特别是对于未知的、稀有的或多义词。实验表明，我们的新的图像表示和消息传递方案大大提高了VQA与场景文本的性能，并提供可解释的中间结果。鸣谢。本研究得到了国家自然科学基金项目的部分资助。 61922080 、 U19B2036 、 61772500 和 CASFrontier科学重点研究项目编号QYZDJ-SSWJSC009.12755引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和vqa。在IEEE计算机视觉和模式识别会议（CVPR）论文集，第6077-6086页，2018年。二三五六[2] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein. 学习构造用于问题回答的神经网络在NAACL-HLT会议记录中，第15452[3] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第39-48页，2016年。2[4] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克 Vqa：可视化问答。在IEEE计算机视觉国际会议（ICCV）的会议录中，第2425-2433页，2015年。2[5] 詹姆斯·阿特伍德和唐·陶斯利扩散卷积神经网络。神经信息处理系统（NIPS）进展，第1993-2001页，2016年。7[6] HediBen-Younes，Re' miCadene，MatthieuCord，和Nico-las Thome.Mutan：用于视觉问答的多模态折叠融合。在IEEE国际计算机视觉会议（ICCV）的会议中，第26122[7] AliFurkanBiten，Rub e`nTito，Andr e` sMafla，Ll u`ısG o`mez，Mar c alRusi nBogol，MineshMath ew，C.V. Jawahar ， ErnestValveny ， and Dimosthenis Karatzas.Icdar2019现场文字视觉问答大赛。CoRR，abs/1907.00490，2019年。6[8] Ali Furkan Biten ， Ruben Tito ， Andres Mafla ， LluisGomez ， Mar c alRusi n ol ， ErnestVal v e ny， C.V.Jawahar，和Dimos-thenis Karatzas.场景文本可视化问答。IEEE计算机视觉国际会议（ICCV）的主席，第4291-4301页，2019年。一、二[9] FedorBorisyuk ， AlbertGordo ， andViswanathSivakumar. Rosetta：用于图像中文本检测和识别的大型系统。第24届ACM SIGKDD知识发现数据挖掘国际会议论文集，第71-79页，2018年。5[10] 琼·布鲁纳、沃伊切赫·扎伦巴、阿瑟·斯拉姆和扬·勒昆。图上的谱网络和局部连通网络。国际学习表征会议（International Conference on Learning Representations，ICLR），2014。3[11] Michae¨lDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统（NIPS）进展，第3844-3852页，2016年3[12] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会2019年会议论文集中：人类语言技术，第1卷（长和短论文），第4171-4186页，2019年。6[13] Alex Fout，Jonathon Byrd，Basir Shariat，and Asa Ben-Hur.利用图卷积网络预测蛋白质界面。神经信息处理系统进展（NIPS），第6530-6539页，2017年。3[14] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池化视觉问答和视觉接地。自然语言处理经验方法会议（EMNLP），第457-468页，2016年。2[15] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEInternational Conference on Computer Vision（ICCV），第1440-1448页，2015中。3[16] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。让vqa中的v变得重要：提升图像理解在视觉问答中的作用。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第6904-6913页，2017年。二三五[17] Gu Jiatao，Zhengdong Lu，Hang Li，and Victor O.K.李序列到序列学习中的重复复制机制。在计算语言学协会（ACL）年会上，第1631-1640页，2016年。5[18]

下载后可阅读完整内容，剩余1页未读，立即下载