从字符串到事物：一种读写推理的知识驱动VQA模型

183 浏览量更新于2023-10-12 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1从字符串到事物：一种能够阅读和推理的知识驱动的VQA模型Ajeet Kumar Singh1 Anand Mishra2，阿南德 Shashank Shekhar31印度浦那TCS研究所2印度焦特布尔IIT3印度班加罗尔印度科学研究所摘要图像中的文本不仅仅是字符串，它们还提供了关于图像的有用线索。尽管场景文本在更好的图像理解中具有实用性，但它们并不用于透明视觉问答（VQA）模型。在这项工作中，我们提出了一个VQA模型，它可以读取场景文本，并在知识图上进行推理，以获得准确的答案。我们提出的模型有三个相互作用的模块：（i）建议模块，用于从图像中获得单词和视觉内容建议，（ii）融合模块，用于融合这些建议、问题和知识库以挖掘相关事实，并将这些事实表示为多关系图，（iii）推理模块，用于在该图上执行基于新的门控图神经网络的推理。我们的知识使能VQA模型的性能进行评估，我们新引入的数据集，即。文本- KVQA。据我们所知，这是第一个确定需要将文本识别与基于知识图的推理相结合的数据集。通过大量的实验，我们表明，我们提出的方法优于传统的VQA以及问答知识库为基础的方法对文本KVQA。1. 介绍“The more that you read, the more things you博士《我闭着眼睛也能阅读》（以图像形式出现的文本打开了通往知识世界的大门，有助于对视觉内容进行更深入和全面的理解。然而，传统的视觉问题回答模型不利用它。在这项工作中，我们介绍了一个新的任务，知识使视觉问题回答阅读文本的图像。当这项工作进行时，[16 ]第16话：地铁，开放视觉内容提案[55]：快餐店、店面Q.这是哪家餐厅A. 地铁Q.我能在这吃个三明治吗？A. 是的Q.这是法国品牌吗？A. 没有图1.仅依赖于视觉线索的VQA模型可能不一定足以回答许多自然问题，例如，这是哪家餐馆？对于给定的图像。另一方面，出现在图像上的文本我们提出了一个VQA模型，它无缝地集成了视觉内容（以青色显示），识别的单词（以橙色显示），问题和知识事实，以回答在现实世界中经常提出的问题。[最佳颜色]。视觉问答（VQA）已经成为一个跨越视觉和语言的重要问题.传统上，VQA模型[5，20，59]仅限于分析视觉线索。它可能不一定足够，特别是当所问的问题需要更深入的知识超出现场的直接视觉内容时。例如，考虑图1中所示的图像和问题Which restaurant is this？视觉提示不足以提示餐馆的名称。然而，事实上，这46024603图像包含一个单词地铁和外部知识，此外，通过访问丰富的开源知识图，如Wiki数据[44]，我们可以提出一系列自然问题，例如，我可以在这里得到三明治吗？这是法国品牌吗？等等，这在传统的VQA [5]以及知识支持的VQA模型[47，48]中是不可能问的。在最近的一些作品中已经确定了开发可以阅读文本的VQA模型的必要性[8，32，42]。然而，伴随的数据集没有丰富的世界知识的支持，因此仅限于可以单独通过视觉和文本线索回答的问题。此外，这些数据集中的许多问题，例如，以颜色开头的街道名称是什么？黄金之后的单词是什么？这可能会给计算机视觉带来挑战，但这样的问题既不自然，也不经常在现实世界中被问到。这促使我们提出了一个新的任务和相应的数据集，除了阅读场景文本的能力之外我们新引入的数据集规模更大，与上述三项工作[8，32，42]相同，更重要的是，由从各种来源收获的网络规模知识事实支持维基数据[44]，IMDb [1]，图书目录[13]。我们的数据集包含场景图像，电影海报，书籍封面以及一系列自然和引人入胜的问题，这些问题可能是人们在现实世界中提出的。我们的数据集名为 text-KVQA，相关的知识库可以从我们的项目网站下载：https：//textkvqa.github.io/网站。我们的方法：场景文本识别正在从研究实验室毕业到学术演示以及有限的工业应用（[31，34，45，10，49，19，7，40，9，16]）。然而，仅仅依靠场景文本识别的方法而开发VQA模型可能还不够。因此，我们建议整合多个线索，即，视觉内容，识别的单词，问题和知识事实，并使用新的门控图神经网络[27]公式在多关系图上进行推理。本文的贡献：（i）我们通过阅读图像中出现的文本，将其与知识联系起来，提请注意视觉问答的一个重要问题图和执行适当的推理，以达到一个准确的答案。为此，我们引入了一个大规模的数据集，即文本KVQA。据我们所知，text-KVQA是第一个确定需要桥接文本识别和基于知识图的推理VQA任务的数据集。(ii)我们提出了一个VQA模型，它无缝地集成了视觉内容，识别词，问题和知识事实，并使用一种新的多关系图进行推理GGNN制剂。（第4节）（iii）对文本KVQA进行了严格的实验和烧蚀研究，以验证我们所提出的方法的有效性（第五节）2. 相关工作视觉问答：近年来，VQA获得了巨大的兴趣。传统的VQA方法可以分为以下三大类：（i）联合嵌入方法，（ii）注意机制，（iii）组合模型。在视觉和语言社区中，在共同的空间中学习图像和语言嵌入已经是普遍的做法。这在VQA的一些早期作品中得到了利用，例如[6，11，14，15，25，29，35，41，51，52，56，60]。这些方法通常使用双向长短期记忆和卷积神经网络分别表示问题和图像，并学习一个联合模型来预测答案。最近，VQA模型还利用注意力机制进一步改进[24，29，11，29，36，41，51]。人们对理解VQA任务中问题的组成语言结构越来越感兴趣。方法，如动态记忆网络[26]和神经模块网络[4]属于这一类。然而，这些方法仍然主要局限于视觉推理。知识图谱上的VQA：知识图谱上的可视化问题回答是VQA文学的最新趋势-[48，47，37，33，46].在这些著作中，记忆网络[50]及其变体已成为事实上的基线.然而，如[54]所述，记忆网络将知识图视为扁平的事实表，这使得很难利用图中的结构信息，因此推理能力相对较弱。为了克服这一限制，最近图表示学习已经成为在大型知识图上执行推理的自然选择[30，53]。这促使我们以门控图神经网络（GGNN）的形式利用图表示学习的能力[27]。此外，GGNN还允许我们无缝集成视觉和文本提示。场景文本定位和识别：在过去的几年里，我们在场景文本本地化和识别性能方面取得了显著的进步。像许多其他在计算机视觉领域，深度神经网络对场景文本定位研究有着重要的影响。研究人员已经开始沿着对象本地化任务的路线接近文本本地化。许多文本本地化的作品，如EAST [57]，SSTD [17]，TextBox++ [28]都受到对象本地化的影响。一旦文本被本地化，下一个问题是识别相应的单词。现代方法[19，7，38，16，9]利用大型注释数据集和深度CNN架构的可用性来非常有效地解决这个问题。结合视觉和文字提示：研究人员还对结合视觉和文本线索表现出兴趣，4604（一）Q.这是哪家手机A. AirtelSF：Airtel是一个电信行业。（b）第（1）款Q.我可以在这里给汽车A. 是的SF：惠普是一个石油工业。（c）第（1）款Q.这个展示厅卖汽车吗？A. 是的SF：现代生产汽车。（d）其他事项Q.这是美国品牌吗？A. 没有阿迪达斯是德国的品牌。（e）Q.这本书是用什么语言写的？A. 西班牙语SF：Medicina墨西哥语是用西班牙语写的。（f）第（1）款Q.这部电影的导演是谁A. 乔·约翰斯顿SF：Jumanji导演：Joe Johnston图2.样本图像，问题-地面真相答案对和来自我们新引入的文本KVQA数据集的相关支持事实请注意，在我们的方法的训练和推理过程中，没有明确提供支持事实。相反，它是从大规模的知识库中挖掘出来的.更多示例请参考补充材料。例如，在一个实施例中，使用场景上下文改进场景文本识别[58]，使用场景文本改进图像分类[23]等。最近的作品[8，32，42]强调了将视觉和文本提示结合起来进行视觉问题回答的必要性。然而，尽管知识使能的VQA模型的早期进展和场景文本识别文献的显着进展，结合这两个研究方向的重要和急需的任务尚未探索到目前为止。我们的工作旨在成为填补这一空白的第一次尝试。3. 数据集传统的VQA模型缺乏读取图像中文字的能力。最近，为了开发可以读取的VQA模型，引入了三个数据集[8，32，42]。然而，这些数据集不允许提出知识型问题。我们确定需要知识驱动的VQA模型，可以在知识，视觉和文本空间中阅读和推理。为了实现这一目标，一个新的大规模数据集，即文本KVQA，包含1.3在这项工作中，已经引入了百万个问题-答案对、257 K图像和关联的网络规模的知识库。我们在补充材料中提供了文本KVQA与文献中相关数据集的比较表。商业品牌，电影海报和书籍封面的图像被收集作为我们数据集的一部分。其中，电影海报和书籍封面图像分别来自[2]和[18]。此外，我们明确地收集了商业品牌的场景图像。为此，我们首先准备了1000个商业品牌的列表，并使用Google图像搜索，通过应用过滤器仅检索无许可证的图像，每个品牌获得约50张图像。我们使用后缀，如随后，我们将这个图像集合交给人工注释者，人工注释者删除所有不包含任何品牌名称文本的图像（例如，餐厅内部）。这些修剪阶段最终保留了500个品牌和超过10K的场景图像。在我们的数据集中，包括商业品牌，电影海报和书籍封面的场景的图像总数为257K。根据图像的内容，我们将数据集分为以下三类： text-KVQA （ scene ）、 text-KVQA（movie）和text-KVQA（book）。为了让知识使能的问题被问到，我们构建了三个特定领域的知识库，商业品牌，电影和书籍，即KB-业务，KB-电影和KB-书分别。为了构建这三个知识库，我们抓取开源世界知识库，例如，维基数据[3]，IMDb[1]和图书目录由[18]围绕锚实体提供。[1]每个知识事实都是一个三元组，用一个关系连接两个实体。这些三元组的一个例子是：肯德基，1930年开始。我们使用知识事实和地面真相场景文本的话，以产生不同的复杂性为每个图像的问题-答案对。我们的问题具有不同的性质，例如事实问题（例如，这是哪个加油泵？这家店卖什么？这部电影是哪一年上映的？）和二元问题（例如，我能在这吃个三明治吗？这是荷兰品牌吗？这是一部浪漫的电影吗？）.在这里，我们想强调的是，与其他最近引入的数据集不同，我们数据集中1我们将企业品牌名称、电影和书籍名称作为锚定实体。4605JK可能不能仅从视觉和文本内容直接回答此外，为了增加自然语言的复杂性，我们在人类注释者的帮助下解释问题，并为每张图像随机选择原始或解释的问题。我们将数据集图像分为训练集、测试集和验证集，分别随机划分80%、10%和10%的锚实体用于训练、测试和验证。我们确保这些分裂是不相交的，即，如果锚实体属于训练集，则它既不属于验证集也不属于测试集。应该注意的是，该零触发设置接近真实世界场景，在真实世界场景中，不太可能具有所有锚实体（例如，商业品牌、电影名称等）在训练中看到。图2显示了一些示例图像、问题-基础事实答案对以及来自知识库的支持事实。请注意，在我们的方法的训练和推理期间，没有明确提供支持事实，而是从大规模知识库中挖掘。文本KVQA的主要挑战是大回答空间、语言多样性和零镜头设置。我们坚信，我们的数据集将有助于文本识别，VQA以及知识库社区的QA。4. 方法我们的视觉问答模型，可以阅读和推理，工作原理如下。我们首先生成文字提案和视觉内容提案。这两个模块利用了性能最好的场景文本识别和图像识别方法。然后，我们融合这些建议、问题和知识库三元组（事实），并获得相关事实。随后，这些相关的事实被用来构建一个多关系图。给定这个多关系图，我们打算执行推理的基础上的文字建议，视觉概念pro-proximity和问题。一个自然的选择是请注意，GGNN已用于各种任务，包括符号QA[27]到更复杂的视觉推理[30]。我们对经典的GGNN框架进行了适当的修改，以无缝地整合来自图像，问题和知识库的线索图3总结了我们提出的VQA方案。存在遮挡、风格化字体和文本的不同方向。因此，我们采取不同的方法。而不是仅仅依赖于精确的文本识别，我们在KG实体的列表中执行搜索，并将所有这些词作为在归一化的编辑距离空间中靠近识别的文本的词建议。在该步骤结束时，我们获得n个单词的集合W以及使用KG实体的归一化编辑距离计算的它们各自的置信度得分集合W中的每个词都使用在维基百科上训练的word2vec嵌入来表示[21]，即，W={w1，w2，. . .wn}。应当注意，这些词中的一个或多个词通常是锚实体（例如，品牌名称）。在实验部分中，我们评估了四种现代场景文本识别方法，并选择其中最好的方法与后续模块一起使用接下来，我们获得视觉内容提案。应当注意，图像中的OCRed文本可能是有噪声的，并且视觉提示（例如，场景）可以提高整体性能。为此，我们依靠Places[55]进行场景识别，并使用微调的VGG-16模型来表示电影海报和书籍封面的视觉内容。最后，我们获得一组m个视觉内容建议V以及它们的置信度分数。中的每个视觉内容提案V 使用在维基百科上训练的word2vec嵌入表示[21]，即，V={v1，v2，. . . vm}。4.2.融合模块一旦单词和视觉内容的建议，我们的框架中的下一步是执行这些多模态线索的融合。该融合模块的主要目标是两个方面-（i）计算可扩展性，以及(ii)即使在单词建议很弱的情况下，也可以从网络规模的知识库中获得相关事实在这个模块中，我们有三个线索：两个来自图像，即单词建议W，视觉内容建议V;一个来自语言，即，所讨论的单词的平均word2vec表示（q）。我们将这些结合起来，从我们的大规模知识中找到一组相关事实边基让我们把我们的知识库的第i个事实表示为fi=（hi，ri，ti），分别表示头实体、关系和尾实体的word2vec表示。我们的知识事实的一个例子是地铁（头），是品牌（关系），美国（尾）。给定一组单词提议W、视觉内容pro-prov和问题q，我们如下计算第i个知识事实4.1.提议模块给定一幅图像，我们的知识支持VQA管道的第一步是获得一组在现在，即使是性能最好的场景文本识别F（hi，ri，ti）= maxj，kαw swj<$wj，（hi，ri，ti）<$+αv svk<$vk，（hi， ri， ti）<$+ α q<$q，（hi，ri，ti）<$.（一）方法在“野外”环境中工作不好这里，sw和sv表示第j个单词的置信度分数4606图3.提出了一种能够阅读和推理的知识驱动的VQA模型详情请参见第4节。图像中的第k个视觉内容提议和第k个视觉内容提议。进一步地，x，（hi，ri，ti）= x。hi+ x。ri+ x。特岛参数αw、αv和αq是在一个有效集上确定的，约束条件是最大化top-K中相关事实检索的召回率.现在，通过使用每个知识事实的融合得分，我们检索每个问题和图像对的前K个知识事实，并构建多关系图。4.3. GGNN公式化和推理我们从上面的模块中得到一个多关系图G。现在，我们的任务是在这个图上进行推理，以得出一个准确的答案。我们选择门控图神经网络（GGNN）[27]来完成这项任务。GGNN是一种用于序列输出的图神经网络的表示。它使用门控递归单元，并将递归展开固定数量的步骤，并使用时间反向传播来计算梯度。我们的GGNN公式工作如下。给定一个有N个节点的图，每个节点u的任务特定嵌入节点xu，单词建议W，视觉内容建议V和答案候选者ei，我们的目标是为图分类任务产生图级嵌入OG应该注意的是，这里的图形分类任务是确定候选答案ei是否是地面实况答案。为了得到候选答案，给定一个问题，我们首先预测答案类型。预测答案类型在VQA中显示出有益的影响[22]。在粗层次上，文本KVQA中的答案要么是一个en，问题为此，我们训练了一个简单的多层感知器，通过使用双向长短期记忆（BLSTM）来表示每个问题，并将答案预测作为多类分类问题。一旦答案类型被预测，我们就简单地生成一个小的c个可确定答案的集合C={e1，e2，e3，...，e c}在锚实体的一跳中。注意，这里ei可以是是-否，或者是知识图中的锚实体或非锚实体。上面给出的，我们定义了一个评分函数，使得其最大值对应于答案（a）。ai=arg max S（0 G，ei）.（二）ei∈C这里，OG是使用后续段落中解释的GGNN获得的图嵌入，并且ei是候选答案ei的word2vec嵌入。应当注意，评分函数是二元分类器，其任务是确定候选答案ei是否是正确答案。我们使用训练集上的二进制交叉熵损失来训练S图形级嵌入：给定图G=（顶点：U，类型边：E）、问题q、单词提议W、视觉内容提议V和候选答案ei，我们得到图级嵌入。为此，我们首先如下定义节点u的初始节点嵌入。intn [nums，0，1，nums];如果节点u是单词建议，[nu，1，0，cu]; 如果节点U是答案候选，intn=[nums，1，0，nums]; 如果节点u具有最高嵌入知识图谱中的实体，例如，地铁、汽车展厅或停车场与问题的相似性，使用图上推理获得，例如，是，否。此外，知识图谱提供了更精细的实体类型（例如，[nu，0，0，c u];否则。（三）品牌名称、年份、国家）。我们使用这些更精细的实体类型以及训练集中的是非和问答对来学习预测给定的4607答案类型。这里nu是节点u的word2vec嵌入。如果节点u不表示使用图像获得的单词或视觉内容（例如，美国），则将值cu设置为4608uu1u2uu1u2uu u u u uuuu0，否则值cu是根据节点u表示的内容从图像获得的单词或视觉内容建议的置信度分数举例来说：如果节点u表示“Subway”，则c u是在图像中识别文本“Subway”的置信度得分。假设h（t）是节点u在GGNN时间戳t处的隐藏状态表示。我们从t = 0开始，将隐藏状态初始化为xu。如果需要，我们会做适当的填充。此外，我们使用我们的图结构编码（即，邻接矩阵）A，以基于相邻节点之间的关系类型来隐藏状态然后由门控更新模块如下更新。单词识别：{GALP}文字提案：{GALP，GAP}视觉内容提案：{服装店、百货公司、礼品店}Q.我能在这里买衣服吗？A（仅限文本）：没有A（完整模型）：是的图4.整合视觉内容的建议有助于我们充分模型来从嘈杂的单词识别中恢复。NED=0。五、这些最先进的方法的糟糕表现表明了我们数据集中与文本检测和识别相关的挑战。我们选择使用TextSpot-h（0）TT（t）T（t−1）T（t−1）TT[16]和PixelLink [12]+CRNN [39]输出，u =[xx，0]; =Au [h1. . . hN]+b，（四）zt=σ（Uza（t）+ Uzh（t−1）），（5）阶段，我们的VQA模块，由于其相对更好的性能。为了简单起见，我们将这些方法分别称为photoOCR-1和photoOCR-2。rt=σ（Ura（t）+ Urh（t−1）），（6）在我们的数据集中可以观察到两大类视觉内容-（i）自然场景内容，h（t）=tanh（U1a（t）+U2（rth（t−1），（7）u u u uh（t）=（1−zt）<$h（t−1）+zt <$h<$（t）。（八）经过T个时间步，我们得到最终的隐藏状态。这里，Au、U1和U2分别是节点u操作者⊙表示逐元素乘法。从上面，图级嵌入（OG）计算如下.数据集的文本KVQA（场景）子集中的图像，(ii)在电影海报和书籍封面上人工合成的视觉内容。我们使用Places [55]和VGG-16微调模型分别识别类别（i）和（ii）的这些视觉内容。由于我们数据集中的类别名称在地点中并不完全相同，因此我们无法对地点的视觉内容评估进行定量分析。然而，我们评估视觉内容OG=tanh（u∈Uσ（fθ（h（T），xu（f）φ（h（T），xu）（九）电影类型分类模块海报和书籍封面，分别达到25%和27%的前1准确率，以及58%和59%的前5准确率其中，σ（）作为一种注意力机制，问答任务的相关节点。fθ和fφ是神经网络以隐状态和初始节点嵌入的连接为输入，返回实值向量作为输出。图嵌入OG和答案候选被馈送到评分函数S，以获得答案候选的得分。该评分函数本质上是在训练集上训练的多层感知器，以确定候选答案ei是否是正确答案5. 实验和结果在本节中，我们进行了严格的实验分析，并显示消融研究，以验证我们提出的模型的有效性。建议书评价模块：给定一幅图像，我们首先检测并识别其中出现的文本。我们使用四个现代场景文本检测和识别方法的组合，如表1所示。一旦这些方法亲-对于识别的文本，我们使用知识库中的候选实体列表执行基于归一化编辑距离（NED）的校正，以增强实体召回。在表1中，我们报告了所有三类文本的实体召回- KVQA没有校正以及使用4609融合方案评价：一旦提取了单词和视觉内容建议，它们连同问题一起与来自知识库的事实融合，即，KB-business，KB-movie和KB-book，以获得前100个相关事实。对于后续模块（即，使用GGNN推理的VQA）在此阶段期望支持事实的更高召回率。为了评估每种方式的贡献，我们进行了以下消融研究（ i）只有文字建议与知识事实相融合，即：（αw=1，α v=0，α q=0）。(ii) V：只有视觉内容建议与知识事实融合，即（α w=0，α v=1，α q=0）（iii）q：只有问题与知识事实融合，即（α w=0，α v=0，α q=1）（iv）W + V + q：文字建议、视觉建议和问题的最佳组合与知识事实融合，即（α w=0. 7，α v=0. 2，α q=0. ①的人。超参数αw、αw和αq的值是在验证的基础上确定的集表2显示了前100名的个体事实回忆（即，包含在前100个相关事实中的支持事实的百分比）的结果。我们观察到，单词建议是最有帮助的，在获得更高的回忆支持的事实，这是进一步提高了最佳的com-4610方法text-KVQA（场景）text-KVQA（书）text-KVQA（电影）原始NED=0.5原始NED=0.5原始NED=0.5[39]第三十三话：0.160.380.150.270.220.37[39]第三十七话：我的世界0.360.600.430.660.240.42[16]第十六话0.380.580.530.700.350.48[39]第三十二话：一个人0.430.640.380.560.140.27表1.我们报告了没有编辑距离校正（原始）的召回统计数据以及归一化编辑距离（NED=0.5）后的召回校正最先进的场景文本检测和识别方法。我们将第3行和第4行中的方法称为PhotoOCR-1，PhotoOCR-2分别从这里开始。（一）关键词：{Ferrari}视觉效果：{autoshowroom，garage}Q.这是什麽A. 汽车展厅SF：法拉利是一个汽车展厅。（b）第（1）款关键词：{KFC}视觉效果：{fastfoodrestaurant，foodcourt}Q.这是美国品牌吗？A. 是的SF：肯德基是美国的一个品牌。（评论：美国人是美国人。）（c）第（1）款文字：{阿穆尔，阿拉尔}视觉：{加油站，高速公路}Q.我可以给我的车加油吗？A. 是的SF：Aral生产天然气。（观察： Amul是一家餐厅，但视觉建议在这里有帮助。（d）其他事项文字：{撒克逊几何}视觉：{旅行，数学}Q.这本书是谁出版的A. 《SF：SaxonGeometry》由SaxonPublishers出版。（e）文字：{bligh，CVS}视觉：{motel，pharmacy}Q.这是什麽A. 药房SF：CVS是药房。（观察：文字和视觉建议在这里都是误导。）（f）第（1）款别名：CarriedAway视觉效果：{戏剧，惊悚片}Q.这部电影是哪一年A. 1996《SF：CarriedAway》于1996年上映。图5.使用所提出的方法获得的一组定性结果。红色的答案表示故障情况。 [最佳颜色]。融合物事实回忆（%）W（光OCR1）55.8W（光OCR2）59.9V20.8Q5.3W（photoOCR1）+V+q58.9W（photoOCR2）+V+q60.7表2.基于单词提议（W）、视觉内容提议（V）和问题（q）的不同组合的文本- KVQA（场景）数据集的前100名检索的相关事实召回（以%计）将其与视觉提案和问题结合起来。GGNN推理的评估：我们通过报告文本KVQA上的视觉问题回答准确度来评估GGNN推理。通过我们的方法获得的定量结果示于表3中。我们使用三种方法来获得单词建议：（ i ）使用 photoOCR-1 ，（ ii ）使用photoOCR-2，以及（iii）理想文本识别（oracle）设置。我们将我们的方法的变体与以下基于transmittance和KB的VQA模型进行比较。(i) 传统VQA模型：这些方法仅依赖于视觉提示，而不是设计用于阅读图像中的文本。我们选择了-（a）BoW + CNN（b）BLSTM4611（仅语言），（c）BLSTM + CNN，（d）分层共同注意力[29]和（e）双线性注意力网络[24]作为传统的VQA基线进行比较。在上述五个基线中，前三个是早期工作中使用的基本VQA模型[5]。方法-（d）对视觉和问题注意力进行联合推理，方法-（e）对图像和问题建立两个独立的注意力分布，然后使用双线性注意力来预测答案。(ii) 基于KB的QA方法：在过去的几年里，在知识库上回答问题的任务在NLP社区中引起了关注，并提出了许多方法。其中一个成熟的方法是记忆网络[50]。因此，我们通过用内存单元替换我们的GGNN模块，同时保持我们提出的框架的其余模块为此，我们将融合模块后获得的相关事实表示为记忆单元，并训练记忆网络。该网络的超参数是使用验证集选择的。我们观察到，传统的VQA方法在我们的数据集的所有三个类别上都表现不佳。这种糟糕的表现表明了阅读文本对于VQA任务的重要性，而这些方法是无法做到的。其次，这些是4612方法text-KVQA（场景）text-KVQA（书）text-KVQA（电影）传统VQA方法BoW + CNN11.58.77.0BLSTM（仅语言）17.012.411.3BLSTM + CNN [5]19.817.315.7[29]第二十九话22.220.218.4禁止[24]23.522.320.3基于知识库的QA方法记忆网络[50]（带photoOCR-1）49.057.242.0记忆网络[50]（带photoOCR-2）52.647.822.2我们的变体仅限视力21.819.818.2仅限文本（带photoOCR-1）48.955.041.4仅限文本（使用photoOCR-2）52.248.620.5完整模型（带photoOCR-1）52.262.745.2完整模型（带photoOCR-2）54.549.823.0Oracle（理想文本识别）80.171.376.2表3.我们提出的框架的变体与传统VQA方法和基于KB的QA方法的比较[50]（%）。方法PhotoOCR-1和PhotoOCR-2分别使用TextSpotter [16]和PixelLink [12]+ CRNN [39]来获取单词建议。完全监督模型，并且不能很好地应对由于文本KVQA的零拍摄性质而产生的我们提出的知识使能的VQA模型，这是能够读取图像中的文本显着优于这些基线方法。此外，我们基于GNNN的完整模型还实现了基于内存网络的KB-QA基线的VQA性能改进。如前所述，记忆网络将KG视为一个扁平的事实表。因此，很难利用图中存在的结构信息，这削弱了推理性能。我们的方法的优越性能可以归因于无缝集成的视觉和文本识别线索和强大的推理图使用GGNN。为了研究不同模态对所提出的框架的整体性能在表3中，我们报告了我们的方法的变体的结果，其中仅包含文本，仅包含视觉和完整模型，该模型无缝集成了视觉内容和文字提案。我们的纯文本和纯视觉方法使用文字建议和视觉内容建议，以及GGNN推理。正如预期的那样，由于我们数据集中的问题通常与图像中出现的文本有关，因此仅视觉变体无法表现良好，特别是与仅文本基线相比。然而，视觉内容提案在整体VQA性能中的效用不可低估。这主要是因为即使是最好的文本识别方法也不是完美的。将视觉内容建议添加到框架中提供了一种纠正由于噪声文本识别而导致的错误的方法，并增加了鲁棒性。这也可以通过图4中的示例来理解。由于噪声词识别，纯文本模型导致了不正确的答案，而完整的模型（视觉内容+文本）能够正确地回答这个问题。因此，我们的最终模型被设计为集成这两种模式，并随后使用GGNN在图上执行推理，这有助于它实现与这些消融和基线相比的更高性能图5示出了通过所提出的方法获得的一组示例结果。我们观察到，我们的方法即使从利用视觉线索的弱单词建议中也能很好地恢复，例如，图5（c）.然而，如果文本和视觉识别都误导了该方法，则它不能生成正确的答案，例如，图5（e）.有关更多定性结果及其详细分析，请参阅补充6. 总结和今后的工作在这项工作中，我们已经迈出了第一步，知识使能的VQA模型，可以阅读和推理。我们通过无缝集成视觉线索、文本线索和丰富的知识库来解决这个问题，并使用一种新的GGNN公式进行推理。我们的方法显著优于传统的VQA模型，因为它们不是为了读取图像中的文本而设计的，也不是基于KB的QA方法。此外，作为我们工作的一部分，我们引入了一个大规模的具有挑战性的数据集，即文本KVQA包含一系列关于图像的自然和engaging问题。然而，目前的方法和数据集仅限于可以从知识图上的单跳推理中回答的问题。作为未来的研究，我们希望开发在知识图上执行多跳和更复杂推理的模型，并将数据集中的VQA任务作为视觉对话。4613引用[1] https://www.imdb.com/网站。IMDB，2019年3月10日访问。二、三[2] https://www.kaggle.com/neha1703/movie-genre-from-its-poster.Kaggle，2019年8月11日访问。3[3] https://www.wikidata.org/网站。维基数据知识图谱，2019年3月10日访问。3[4] JacobAndreas ， MarcusRohrbach ， TrevorDarrell，and Dan Klein.用神经模块网络进行深度合成问题回答。CoRR，2015年。2[5] Stanislaw Antol，Aishwarya Agrawal，Jiasen Lu，Mar-Martt Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维 · 帕里克 VQA ：可视化问答。在ICCV，2015年。一、二、七、八[6] HediBen-Younes ， Re'miCade' ne ， NicolasThome ，andMatthieu Cord.Mutan：用于视觉问答的多模态折叠融合。ICCV，2017年。2[7] Alessandro Bissacco ， Mark Cummins ， YuvalNetzer，and Hartmut Neven. PhotoOCR：在非受控条件下阅读文本.InICCV，2013. 2[8] AliFurkanBiten ， RubenTito ， Andr e′ sMafla ，Llu′ısG o′ mez ， Mar calRu s i n ol ， ErnestVal v eny，C. V. 贾瓦哈尔，和迪莫斯特尼斯·卡拉扎斯.场景文本视觉问题回答。 CoRR ，abs/1905.13648，2019。二、三[9] 费多尔·鲍里休克、阿尔伯特·戈多和维斯瓦纳特·西瓦库-马尔。Rosetta：用于图像中文本检测和识别的大型系统InKDD，2018. 2[10] 作者： Adam Coates ， Blake Carpenter ， CarlCase ， Sanjeev Satheesh ， Bishin Suresh ， TaoWang，David J. Wu，and Andrew Y. Ng.基于无监督特征学习的场景图像文本检测与字符识别。载于ICDAR，2011年。2[11] Abhishek Das，Harsh Agrawal，C.劳伦斯·齐特尼克，德维·帕里克和德鲁夫·巴特拉。视觉提问中的人类注意力：人类和深度网络看的是同一个区域吗？在EMNLP，2016。2[12] Dan Deng，Haifeng Liu，Xuelong Li，and DengCai. Pixellink：通过实例分割检测场景文本在AAAI，2018。六七八[13] Khaoula Elagouni，Christophe Garcia，Franck Ma-malet，andPascaleSe'billot. 结合多尺度字符识别和语言学知识的自然场景文本OCR。在DAS，2012年。2[14] Akira Fukui ， Dong Huk Park ， Daylen Yang ，Anna Rohrbach ， Trevor Darrell ， and MarcusRohrbach.多模态紧凑双线性池化视觉问答和视觉接地。arXiv：1606.01847，2016年。24614[15] Haoyuan Gao，Junhua Mao，Jie Zhou，ZhihengHuang，Lei Wang，and Wei Xu.你在跟机器说话多语言图像问题回答的数据集和方法。2015年，在NIPS中。2[16] 安库什·古普塔，安德里亚·维达迪，安德鲁·齐瑟曼. 用于自然图像中文本定位的合成数据在CVPR，2016年。一二六七八[17] 潘和，黄伟林，何通，朱启乐，乔玉，李晓林具有区域注意力的单次文本检测器InICCV，2017.2[18] Brian Kenji Iwana 、 Syed Tahseen Raza Rizvi 、SherazAhmed 、 AndreasDengel 和 SeiichiUchida 。以貌取人。 arXiv 预印本 arXiv ：1610.09204，2016。3[19] 麦克斯·杰德伯格，安德里亚·维达尔迪，安德鲁·齐瑟曼. 用于文本识别的深度特征2014年，在ECCV2[20] Justin Johnson，Bharath Hariharan，Laurens vander Maaten，Li Fei-Fei，C Lawrence Zitnick，andRoss Girshick. CLEVR：一个用于压缩语言和基本视觉推理的诊断数据集。在CVPR，2017年。1[21] ArmandJoulin，EdouardGrave，PiotrBojanowski，and Tomas Mikolov.有效的文本分类技巧袋。在EACL，2017年4月。4[22] Kushal Kafle和Christopher Kanan。视觉问题回答的预测器类型预测。在CVPR，2016年。5[23] Sezer Karaoglu ， Ran Tao ， Theo Gevers ， andArnold WM Smeulders.文字很重要：用于图像分类和检索的场景文本。 IEEE transactions onmultimedia，19（5）：1063-1076，2017。3[24] Jin-Hwa Kim ， Jaehyun Jun ， and Byoung-TakZhang.双线性注意力网络。NeurIPS，2018。二七八[25] Jin-Hwa Kim 、 Sang-Woo Lee 、 Dong-HyunKwak、Min-Oh Heo、Jeonghee Kim、Jung-WooHa和Beng-Tak Zhang。用于视觉QA的多模态残差学习。NeurIPS，2016。2[26] 安基特·库马尔、奥赞·伊尔索伊、彼得·翁德鲁斯卡、莫-希特·伊耶、詹姆斯·布拉德伯里、

下载后可阅读完整内容，剩余1页未读，立即下载