实体增强的知识注入对基于实体的可视化问答系统的改进与诊断

17 浏览量更新于2023-11-30 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

705→基于实体增强知识注入的可视化知识问答系统的改进与诊断德克萨斯大学奥斯汀分校olano@gmail.comyasumasa@utexas.edu德克萨斯大学奥斯汀分校jghosh@utexas.edu德克萨斯大学奥斯汀分校摘要基于知识的视觉提问是一种需要外部世界知识来正确回答文本问题和相关图像的双模态任务。最近的单模态文本工作表明，将知识注入到预先训练的语言模型中，特别是实体增强的知识图嵌入，可以提高下游以实体为中心的任务的性能。在这项工作中，我们实证研究如何以及是否这样的方法，应用在一个双模态设置，可以提高现有的VQA系统的性能上的KBVQA任务。我们用两个大型的公开可用的VQA数据集进行了实验，（1）KVQA，其中包含大多数罕见的维基百科实体;（2）OKVQA，它不太以实体为中心，更符合常识推理。两者都缺乏明确的实体跨度，我们研究了不同的弱监督和手动方法来获得它们的效果。此外，我们分析了最近提出的双模态和单模态的注意力解释是如何受到这种实体增强表征的影响我们的研究结果表明，KBVQA任务的性能得到了显著提高，而无需额外的昂贵的预训练，并且我们提供了关于实体知识注入何时有助于提高模型理解的见解。我们提供代码和增强的数据集以实现可重复性1。CCS概念• 信息系统;计算方法学;神经网络;迁移学习;半监督学习集;场景理解;信息提取;信念和知识推理;关键词视觉问答，知识注入，实体学习，多模态学习，可解释性，弱监督ACM参考格式：Diego Garcia-Olano，Yasumasa Onoe，and Joydeep Ghosh. 2022.通过实体增强的知识注入改进和诊断基于知识的可视化问题检索。在2022年网络会议（WWW '22 Companion）的配套程序1https://github.com/diegoolano/kbvqa允许免费制作本作品的全部或部分的数字或硬拷贝，以供个人或课堂使用，前提是制作或分发副本的目的不是为了盈利或商业利益，并且副本的第一页上有本声明和完整的引用。必须尊重作者以外的其他人拥有的本作品组件的版权。允许使用学分进行摘要以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022版权归所有者/作者所有。授权给ACM的出版权ACM ISBN 978-1-4503-9130-6/22/04。. . 十五块https://doi.org/10.1145/3487553.3524648法国ACM，美国纽约州纽约市，11页。 https://doi.org/10.1145/3487553。35246481引言视觉提问（VQA）是一种多模态任务，其涉及正确回答与关联图像有关的文本问题，而不明确需要外部世界知识（关于历史、地理等的事实）。除了涉及需要常识推理的数据集[16，37]之外，最近关于基于知识的VQA [28]的工作还涉及一些问题，这些问题的答案通常需要有关图像内命名实体的外部知识。最先进的VQA解决方案[31]的共同点是需要大量的计算资源和监督的问题图像对，以便预训练泛化良好的模型。最近的工作E-BERT [21]通过将有效的外部知识注入到预训练的Transformer语言模型（LM）中，提高了单模态，以实体为中心的文本任务的性能。虽然已经有相当多的工作研究LM是否可以用作知识库[19，20，26]，但对这如何影响视觉语言模型的关注较少。此外，虽然对单一模态的可解释性方法的研究很丰富[15，22，35]，例如图像的显着性图或文本的特征提取方法，但直到最近才有明确针对双模态任务的方法，如VQA，即双模态通用注意力可解释性方法BM-GAE [3]，它提供了一种有前途的方法，通过该方法可以共同理解图像和文本解释。在这项工作中，我们分析了如何通过E-BERT知识注入影响现有的视觉语言模型LXMERT的性能[36]关于基于知识的VQA（KBVQA）在准确性和可解释性方面相对未探索的任务，通过BM-GAE。我们使用两个大型公开的VQA数据集进行实验(i)KVQA [28]与维基百科明确相关，并且富含稀有实体;（ii）OKVQA [16]不太以实体为中心，更符合常识推理。这两个数据集都缺乏明确的实体跨度，我们展示了如何使用不同的实体集，无论是弱监督的方法或手动人工注释影响知识注入的任务性能。我们的分析显示，在实体丰富的KVQA数据集上，性能得到了提高，前1名的准确率为2.5%，而在OKVQA数据集上两者都不需要任何昂贵的预训练;对于给定的数据集，只需通过E-BERT使用知识注入微调LXMERT并对其测试集进行推理。重要的是，这项工作是对最先进方法的补充，这些方法利用基于检索的方法[10，39]来收集额外的上下文以提高VQA任务性能，因为我们的方法可以应用于这些方法之上除了706∈∈∩E []E []E→∈LL2→ E（）−WWW&错误分析，我们评估的效果E-BERT的BM-GAE产生的解释，并提供见解时，实体注入有助于提高模型我们的弱和手动增强的数据集和代码可在www.example.com上https://github.com/diegoolano/kbvqa。在这项工作中，我们做出了以下贡献：我们展示了如何以及何时在预训练的VQA架构之上使用简单高效的基于实体的知识注入技术，以一种与基于检索的文本增强方法互补的方式提高了两个不同的基于知识的VQA数据集的性能，并且不需要额外的、昂贵的VQA模型预训练我们研究了我们的方法在多模态可解释性和任务性能方面的影响，使用通过不同的弱或手动监督技术在问题和标题/上下文上获得的实体跨度。我们提供我们的代码和增强的KVQA数据集用于复制目的。2背景和相关工作在本节中，我们提供了一些背景E-BERT，双模态一般注意力的可解释性VQA和LXMERT以及相关的工作。2.1E-BERTWikipedia2Vec [40]将单词和实体（维基百科网址）到公共空间中给定单词词汇表LWord和实体词汇表LEnt，它学习查找嵌入函数 Wikipedia ： LWordLEntRdWikipedia 。 E-BERT 作者 [21] 将Wikipedia 2 Vec实体向量Wikipedia LEnt与BERT的词段向量空间BERT L WP对齐，然后将这些对齐的向量馈送到BERT，就像它们来自BERT的本机词段空间一样。这个过程允许E-BERT将知识注入BERT，而无需对BERT编码器本身进行任何更改或进行任何额外的预训练。具体地说，给定一个xLWPL字，他们学习一个无约束线性映射WRdBERT×dWikipedia旨在尽量减少编码器利用许多自关注层，而最终的交叉模态使用两种模态上的共同关注它通过五个不同的代表性预训练任务使用来自5个视觉语言数据集的大量图像和句子对进行预训练：掩蔽语言建模，掩蔽对象预测（特征回归和标签分类），跨模态匹配和图像问题回答。2.3双模态类属注意及其VQA解释在最近的工作[3]中，作者提出了BM-GAE，这是第一种解释任何基于Transformer的架构预测的是利用LXMERT等共同注意力的双模态Transformer具有单词标记特征重要性和视觉区域显着性图。他们表明BM-GAE优于所有现有的方法，这些方法是通过扰动测试从单模态方法中改编的;即，他们通过BM-GAE在推理集上识别重要的文本标记/区域，并表明与其他方法相比，删除其中最重要的文本标记/区域并重新进行推理对准确性的影响最大。该方法使用模型的注意力层为网络中输入模态之间的每个交互生成关联图，并且是TRF[ 4 ]的泛化，而没有逐层相关传播[ 1 ]，其本身被证明对利用自我注意力的单模态变换器有效，如VilBERT[14]。关注为预测答案[13，38]或作为模型内部过程[18]的一部分生成理论依据的模型的其他VQA可解释性方法是令人感兴趣的，并且可以以额外的输入数据监督为代价提供忠实的解释。对于这项工作，我们专注于可以与LXMERT一起使用的方法，而不需要使用额外的损失目标重新训练LXMERT或训练辅助模型来生成可以与LXMERT结合使用的原理。2.4基于知识的VQA虽然VQA和VQA的方法很多，XW.PWORD||WEWiki pedi a(x)−EBER T(x)||2（一）需要常识推理[6，7，14，17，27，30，34，42]，有基于知识的VQA较少[8，12，29，32，33，44]，这些VQA遵循使用视觉，文本和知识的一般模式由于Wikipedia2Vec将LWord和LEnt嵌入到同一空间中W也可以应用于LEnt。因此，在推理时，他们简单地使用W来构造一个EE−BERT实体嵌入，通过EE−BERT（a）=WEWikipedia（a）对于一个实体a，其中EE−BERT：LEntRdBERT。然后，他们将E BERTa前置到a的BERT嵌入（其间有一个斜杠“/”）。他们最终将更新后的输入直接输入到任务分类器中，并为QA和其他任务提供了更高的准确性和鲁棒性。2.2从变压器LXMERT[36]是一个大规模的Transformer视觉语言模型，由三个编码器组成：一个利用Fast R-CNN功能的视觉对象关系编码器，一个语言编码器（BERT基础）和一个结合了先前视觉和语言编码器功能的跨模态编码器。视觉和语言图嵌入单独地或联合地用于学习产生答案。这两项工作与我们最相似的是将知识作为单独的输入注入LXMERT的交叉注意模块，将其更改为允许与文本和知识图嵌入输入进行交互，[8]或者作为额外的预训练步骤，既识别问题中的实体跨度，又添加额外的目标，将这些知识图表示推向其BERT实体表示[29]。我们的工作与这些不同，因为他们的解决方案都需要对LXMERT进行预训练，而我们的建议可以简单地插入并与LXMERT现有的预训练权重一起使用，并对下游任务进行微调。给定VQA图像/文本对，检索或生成自由文本形式的附加上下文的方法，Wiki段落[10]，图像标题[23]或图像特征[39]已被用于提高性能。我们提出的方法与这些努力并行，···707E−E−基于知识的可视化问题的改进与诊断通过实体增强的知识注入WWW'22同伴，2022年4月25日至29日可以利用额外的文本上下文，而不管它是如何检索或生成的，例如我们实验中使用的图像标题。3KBVQA中基于实体的E-BERT图1显示了我们利用E-BERT将知识注入LXMERT的BERT模型以进行知识感知VQA的方式我们首先需要学习将作者提供的580万个Wikipedia实体嵌入矩阵映射到预训练的LXMERTBERT空间。我们利用[21]中的代码来学习线性映射E BERT。3然后，我们调整LXMERT4以添加E-BERT表示，在标记化阶段期间，每个实体在给定的输入问题序列中跨度如下：我们通过直接映射查找来检查WikipediaVec矩阵中是否存在一个实体spana• 如果是这样，我们使用生成实体Wikipedia2vec嵌入EE−BERT（a）将其映射到LXMERT BERT空间，• 最后，我们在E E− BERT（a）中附加一个BERT斜杠（“例如，如果在Wikipedi-aVec矩阵中找到实体“Barack Obama”，则由于WikipediaVec 是使用cased tokenizer 和LXMERT 进行训练的，BERT默认情况下是不加大小写的，我们也需要在WikipediaVec之前将实体输入字符串加大小写。我们对预训练的LXMERT模型进行微调，并为每个添加了E-BERT表示的下游任务运行推理。在实体集没有明确给出的情况下，我们提出并研究了不同的方法来获得它们对下游任务性能的影响。在下面的部分中，我们将讨论我们用于实验的数据集以及我们用来提取实体跨度的方法。4实验4.1KVQA数据集KVQA数据集[28]包含24K带有文本标题的图像进入一个多层感知器，然后是一个softmax分类器，从所有20k个可能的答案中预测最终答案我们注意到，主数据集中大约25%的图像，即24K中的6K，直接在69K图像参考数据集中找到，用于面部识别，使视觉实体链接相对简单和不切实际。此外，该模型仅提供封闭世界实验的结果，其中仅考虑来自18.8k Wiki实体页面的18种类型的关系。相比之下，我们的方法不依赖于实体识别的参考图像集，也不依赖于用作答案可能性的关系子集。KVQA实体跨度施工。KVQA不提供黄金实体跨度，我们研究三种方法来生成它们，前两种涉及使用spaCy命名实体识别器5。总的来说，我们在实验中尝试了5种不同的数据变体作为输入，其中前两个(1) “问题(2) “(3) “(4) “(5) “在实体不存在于问题中的情况下，我们将它们置于标题之前。KVQAmeta程序允许对问题中存在的所有实体进行知识注入，而NERper和NERagro允许引入问题和图像标题中可能存在的其他实体。在所有三种情况下，在运行实体跨度检测方法之前，图像标题都被连接到问题的结尾对于这三个集合，我们也尝试了三种方法来改进实体链接。(1) “按原样(2) “183 K图像/问题QA对超过5个数据分割（中位数为7链接到维基百科，6每个图像的问题），以及18.8K唯一(3) “这些图片中显示的维基百科实体（QID和Wikipage标题）。与其他VQA数据集相比，该数据集具有大量的QA对，并且其明确的Wiki监督是唯一的。在KVQA中存在的18.8K个实体中，许多是罕见的;只有65%的实体存在于维基百科中最常见的100万个实体中，其中只有91%在WikipediaVec的实体矩阵中找到。KVQA数据集论文中提出的基线模型由基于视觉和文本的实体链接方法与Wiki数据组成，从中提取超过18种预定关系类型的实体事实然后，这些事实与空间坐标和文本问题一起通过memNet或Bi-LSTM进行编码，2https://wikipedia2vec.github.io/wikipedia2vec/3这个线性映射可以在16MB内存的GPU上在几个小时内完成训练4https://github.com/airsplay/lxmert最有可能的是维基百科上缺少它们的跨度的链接表1显示了每个问题的实体跨度，每个问题的E-BERT注入实体（因为只有那些在WikipediaVec中具有值的实体才能被映射）以及分割1的E-BERT注入问题的百分比。我们注意到，KVQAmeta每个问题的E-BERT注入实体最少，并且具有E-BERT注入实体的问题的百分比最高（例如，KVQAmeta“嘈杂”为99%），而NERagro每个问题的E-BERT注入实体最多，NERper每个问题的百分比最低。4.2OKVQA数据来自AllenNLP的OKVQA数据集[16]包含14 k个图像/问题对，这比KVQA少，并且基于实体的程度更低，因为它5我们使用来自www.example.com的“http://spacy.io6https://github.com/goldsmith/Wikipedia·708WWW&LXMERT问：有多少人出生在美国？图片说明：巴拉克·奥巴马和他的妻子米歇尔在2014年LBJ总统图书馆举行的民权峰会上。维基百科实体：米歇尔_奥巴马_奥巴马E-BERT concat图1：在微调期间，将E-BERT知识注入到预训练的LXMERT中，以实现知识感知VQA上面的示例来自KVQA数据集，其中提供了图像标题这里研究了这种可选字幕的使用目的是测试常识推理。然而，它确实为每个问题提供了大约10个答案，从答案集的角度来看，这比KVQA更稳健，KVQA每个问题只包括一个贴标机的答案，因为贴标机答案的轻微变化会导致错误答案。OKVQA实体跨度构造。由于OKVQA不提供实体跨度，我们再次利用spaCy来获得3个不同的实体跨度集变体。这3个集合表示所获得的实体集合的噪声逐渐减少的版本，我们假设这将是有益的，因为与KVQA相比，OKVQA不太以实体为中心。(1) “13K(2) “4K”我们使用基于半自动规则的技术来识别差的候选跨度（即，太笼统，等等），它将集合过滤为“4K”（28.6%的问题）。(3) “2.5K”为了比较我们的方法与可比模型的效果，我们专注于在其系统中也利用LXMERT [29]或VilBERT[39]的工作。最近的一项工作PICA[41]不直接可比，但提供了更高的准确性结果，使用字幕模型VinVl[43]将VQA任务转换为基于单一模态文本的任务，以将图像转换为字幕，然后使用它来提示调整更大的GPT-3语言模型[2]，与LXMERT和LXMERT使用的2.28亿个参数BERT基础模型相比，它具有1750亿个参数。这种以文本为中心的方法可以看到改进的性能，并且没有什么可以阻止我们的方法与即时调整步骤结合使用。5结果表1显示了5次KVQA拆分7的平均结果，表2显示了使用随机种子进行5次运行的结果。在以下部分中，我们将重点介绍与VQA知识注入相关的感兴趣的观察结果。5.1E-BERT如何影响任务准确性对于KVQA，我们看到基于KVQAmeta噪声实体集的模型（在表1的底部）提供了最好的结果（准确度为52.83），与将相同的问题+标题文本馈送到LXMERT而没有知识注入的结果（50.25）相比。此外，在NERper和NERagro噪声搜索实体跨度上使用E-BERT可以提高0.5的精度，这也证实了我们的方法在这些情况下对KBVQA的实用性和效率。实体跨度质量的重要性通过NERper、NERagro和KVQAmeta之间结果的变化得到证明，在所有3种情况下，使用“噪声”搜索机制查找维基百科的实体链接提供了最佳结果。我们最后注意到，使用带有问题+标题的LXMERT优于KVQA论文VilBERT）。我们把它留给未来的工作，看看我们的方法如何影响更大的GPT-3模型为基础的工作，但请注意，它非常有可能7每个拆分结果见附录表5知识注入输入…美国？巴拉克-奥巴马/巴拉克·奥巴马和…问题图像标题交叉模态编码器视觉障碍编码器语言编码器709基于知识的可视化问题的改进与诊断通过实体增强的知识注入WWW'22同伴，2022年4月25日至29日表1：KVQA总体准确度结果，5次拆分和每个问题的实体跨度（ents/Q），每个问题注入的E-BERT表示（eberts/Q）以及拆分1的E-BERT注入问题的百分比（Qs w/eberts）Ents ebertsQs w/候选答案和简化的面部识别实体链接步骤，其中没有一个在我们的设置中使用对于OKVQA，我们看到，与使用没有知识注入的LXMERT相比，将E-BERT添加到LXMERT中仅略微改善了结果，并且仅当提供的实体集（4K和2.5K）比spACy直接提供的实体集（13 K）更少噪音时。的OKVQA数据是不太以实体为中心，虽然使用相关的COCO图像标题或检索/生成方法来获得标题可能是有用的，在未来的工作。我们注意到，LXMERT Plain不使用知识注入，已经比OKVQA论文基线模型[16]（43.51 vs 27.84）和我们的实验运行8时的两个最高性能模型[29，39]的结果更好。 [29]中的作者用他们的知识注入形式重做了LXMERT预训练的昂贵步骤，并在3次运行中获得了39.04的准确率，而我们的技术不需要重新运行预训练。如[39]所述，OKVQA测试图像是COCO验证图像的子集，用于预训练大多数基于Transformer的视觉和语言模型，包括LXMERT和VilBERT [14]。虽然测试问题从未出现在预训练过程中，但测试图像上的其他问题可能有助于系统更好地理解图像，从而提高性能。在[39]当重新训练ViLBERT时，删除COCO中出现的OKVQA测试图像，这相当于1.1的准确率差异（从40.5到39.4）如前所述，我们没有直接与基于GPT-3的PICA-base或更复杂的PICA-full模型过程进行比较，该过程包括使用CLIP[24]和多查询集成的上下文示例选择方法，但显示了上下文的结果。表2：5次运行的OKVQA模型结果。* 表示基于GPT-3的模型，不能直接比较模型是说STDMax中值OKVQA最佳27.84---舍甫琴科[29]39.04---Wu等人[39]40.50---[41]第41话最后一句43.3---[41]第41话：我的世界48.0---LXMERT普通型43.510.2343.8743.34+ EBERT 13K40.590.0940.6940.59+ EBERT 4K43.670.1343.8843.66+ EBERT 2.5K43.610.3644.1043.345.2当E-BERT影响任务精度时为了更好地理解E-BERT知识何时影响任务准确性，我们在表3中显示了KVQA第1部分的问题类型的准确性和置信度结果。我们看到，所有模型在“减法”和“空间”类型的问题上表现不佳，分别占问题的12%和15%，组合E-BERT平均准确率为20.6和20.6。30.5. 我们看到，这两种类型的问题都相当具有挑战性，几乎完全基于视觉实体识别。在问题中添加图像标题可以稍微改善“空间”问题，而在“减法”问题中表现较差。在这两种情况下，使用“NERper噪声”和“KVQAmeta链接”的E-BERT结果分别给出了2.2和2.8点的改进。对于LXMERT已经表现强劲的问题类型“我们看到，在不同的问题类型中，使用E-BERT的模型比不使用知识注入的模型更自信，尽管过度自信的程度与影响神经网络的众所周知的校准问题[5、9]5.3E-BERT对VQA可解释性的影响数量效应。我们提取视觉和文本解释使用-ing BM-GAE和TRF我们的KVQA模型。表4示出了当这些解释方法发现E-BERT增强实体在导致给定答案预测的前5个最重要的标记中时的准确性结果。我们看到，对于9个模型中的7个，使用BM-GAE的前5名中包括E-BERT实体的问题比使用TRF方法的问题提供了更好的准确性。对模型进行平均，我们使用BM-GAE模型实现了59.74%的准确度，使用TRF方法实现了58.33%的准确度，而所有E-BERT注入模型的平均准确度为51.04%，如表3所示。这一发现表明，当使用任何一种方法时，出现在前5个最重要标记中的实体可以提高准确性，这与[3]中的扰动测试结果一致。为了允许更精细的粒度结果，8https://okvqa.allenai.org/leaderboard.html9问题类型示例见附录图4和图5。模型类型ACC按照Q按照QEberts沙阿2019-49.50---+字幕-50.20---问题-47.54---+字幕-50.25---NERper如50.372.51.5.78NERper链接50.421.81.5.79NERper嘈杂50.692.52.3.94NERagro如50.264.02.6.91NERagro链接50.332.22.2.97NERagro嘈杂50.773.33.2.97KVQAmeta如52.651.41.2.87KVQAmeta链接52.681.41.3.95KVQAmeta嘈杂52.831.41.4.99710WWW&表3：按问题类型准确度（上半部分）和置信度（下4行无约束logits）列出的KVQA结果NERper对空间问题类型的准确率最高（31.42）。平均E-BERT是指每种链路类型（即链路、噪声）的NERper、NERagro和KVQAmeta的平均值多个访问/模型类型1跳跳relbool实体CMP空间减影计数除其他Conf百分与81.8018.2053.5824.6324.9616.8115.2212.077.891.82-问题-44.8957.9847.4086.3772.1481.6728.1219.6884.6265.0047.27+字幕-46.3665.4751.5787.2172.4680.9129.1719.3385.0370.2949.84KVQAmeta链接48.8770.6155.4386.6973.6882.5031.1422.2184.8271.4752.83KVQAmeta嘈杂48.8871.5556.1486.6373.5782.1531.1421.2385.7070.0053.01平均E-BERT47.3867.4853.0486.2472.9881.8530.4820.5885.1568.4651.04最佳E-BERT- 标题2.526.084.57-0.131.221.592.252.880.671.183.17问题--0.011.320.053.202.212.89-1.69-1.795.571.760.23+字幕-0.502.701.004.263.153.85-1.18-1.835.973.520.90KVQAmeta链接1.084.261.994.653.544.16-0.71-1.526.863.541.66KVQAmeta嘈杂1.524.842.485.874.345.02-0.44-1.517.315.242.12表4：KVQA双峰（BM）和Transformer注意力（TRF）解释结果，其中E-BERT注入实体位于前5个最重要的令牌中。BM BM TRF TRF附录表6显示了在我们的实体集上，每个解释类型的前1、前5和前10个重要标记中出现的实体数量的百分比细分，以及每个解释类型的E-BERT实体注入问题的在所有模型中，E-BERT实体出现在使用TRF的前5个最重要的代币中，超过BM-GAE（10.35 vs 8.59%），尽管对于其中三个模型，BM-GAE方法发现更多。有趣的是，与使用KVQAmeta实体集的“原样”和链接版本相比，在KVQAmeta噪声实体集模型上使用解释方法（其获得最佳任务准确性结果）导致更差的结果，这表明对于这些问题，维基百科搜索API的“噪声”使用将可能的实体跨度链接到实体页面具有不利影响，当考虑所有问题时，这并不存在，而不仅仅是E-BERT实体在前5个重要标记中的那些问题。质量影响。我们探索定性趋势，这些解释，看看知识注入是有帮助的，特别是在KVQAmeta模型预测正确，而“+帽”没有。图2中有两个这样的例子。在这些情况下，注入实体知识将模型集中在这些实体上，这可以通过KVQAmeta模型的顶部标记来证明。在第一种情况下，只有KVQAmeta（远右列）注入“KnuteNelson”，这是第二个最重要的标记，并导致模型中唯一正确的预测（欧洲）。令牌解释显示知识注入减少了问题特定词的重要性，如“which”和“how”，这些词在Question only模型的前5个令牌中。这种行为是有意义的，因为LXMERT不是用标题训练的（无论是否注入知识），并且用这种额外的上下文进行微调会使域发生一点变化。在研究给予不同视觉特征的重要性，对于由FastR-CNN识别的36个边界框，来自BM-GAE的不透明度分数，我们注意到解释方法难以利用。例如，在第二张图中，如果LXMERT基础系统（第二列和第三列）包含这类知识，我们会期望在最左边和最右边的数字周围出现方框，伊莎贝尔和胡安·庇隆都出生在阿根廷。对于使用知识注入的所有三种情况，系统预测正确，但视觉上难以确定推理（尽管在所有三种情况下，Isabel现在更清楚地显示）。标签我们还在图3中探索了E-BERT损害模型性能的示例。在第一个示例中，虽然仅问题和“+标题”模型正确回答，但实体“TopGun”被注入NERper和NERagro模型，导致模型错误地预测实体“DukeCunningham”出生于二战之后，可能是由于1986年的电影《TopGun》而不是美国海军学校被错误地注入。在KVQAmeta模型中，注入真实实体“另一方面，第二个示例显示了标签错误，模型类型ACCQSACCQSNERper如58.2511.4856.116.13NERper链接62.188.6756.286.90NERper嘈杂69.854.7568.177.11NERagro如65.914.9362.417.41NERagro链接52.7414.7549.3118.52NERagro嘈杂56.0720.5343.3118.23KVQAmeta如61.002.7770.036.30KVQAmeta链接68.974.2679.6712.57KVQAmeta嘈杂42.725.1539.6510.02平均59.748.5958.3310.35711BM-GAE解释NERagroNERperKVQAmetaNERagroBM-GAE解释NERperKVQAmeta基于知识的可视化问题的改进与诊断通过实体增强的知识注入WWW'22同伴，2022年4月25日至29日图2：KVQA问题的两个示例，其中E-BERT对KVQAmeta噪声实体集模型有益这些行显示了问题/文本（左列）和我们探索的5个变体“问题”，“+标题”，NERagro，NERper和KVQAmeta上的BM-GAE的视觉和令牌解释每个模型名称旁边是它们的预测，以及这个top1预测是否下面我们看到了解释方法发现的前5个最重要的标记，后面是用于可能的知识注入Fisher Morgan 10实际上既是歌手又是演员，KVQAmeta实际上是唯一正确预测的模型。识别类似数据集标签错误的一种方法是检查测试用例，其中KVQAmeta注入了其他E-BERT模型未发现的实体，并给出了标记为不正确的唯一预测5.4其他知识类型的影响为了了解其他检索增强、最近邻或基于置信度的方法（所有方法均在不重新进行预训练的情况下应用）是否会改善我们使用KVQA数据的“KVQAmeta”衍生实体集的知识增强模型的结果，我们使用开放域QA的密集通道检索（DPR）[10]、kNN语言模型（knnLM）[11，25]和简单置信度阈值进行了初始实验，其中仅当模型的置信度高于在保持验证集上确定的给定阈值时才使用E-BERT。虽然我们确实看到最终置信度方法的轻微改进，所有这些都在一个点的精度范围内，但我们注意到，使用DPR或在下游的训练集上使用最近邻语义相似性查找（knnLM）来检索每个问题的额外文本（3行）10https://en.wikipedia.org/wiki/Fisher_Morgan任务没有导致任何相当大的改进（通常在0.1精度内）。似乎在后面的两种情况下，这些方法都需要重新进行LXMERT的预训练，以便看到收益，因为我们的重点是研究微调期间有效知识注入的影响，我们将其作为未来的工作。6结论在这项工作中，我们分析了如何有效的知识注入通过E-BERT应用在微调影响现有的视觉语言模型LXMERT的性能相对未开发的任务，基于知识的VQA（KBVQA）的准确性和可解释性方面通过BM-GAE。我们使用两个大型公开的VQA数据集进行实验：（i）KVQA [28]，它明确与维基百科联系在一起，并且富含稀有实体;（ii）OKVQA[16]这是不太以实体为中心，更符合常识推理。这两个数据集都缺乏明确的实体跨度，我们展示了使用弱监督方法或人工注释产生的不同实体集如何影响知识注入对任务性能的影响。我们的分析显示，在实体丰富的KVQA数据上，性能有所提高，前1名的准确率为2.5%，712BM-GAE解释NERperNERagroKVQAmetaNERagroNERperBM-GAE解释KVQAmetaWWW&图3：KVQA示例，其中知识注入KVQAMeta预测错误，而Question + CAPTion没有OKVQA，两者都不需要重做任何昂贵的预先培训。在任何情况下，基线模型的准确性性能都不会受到实体丰富的KVQA数据集上的知识注入的损害，并且只有在一种情况下，当实体跨度集质量非常低时，OKVQA数据集上的性能才会受到损害。重要的是，这项工作是对最先进方法的补充，这些方法利用基于检索的方法[10，39]来收集额外的上下文以提高VQA任务性能，因为该方法可以应用于这些方法之上。未来工作的一些途径包括研究这种知识注入技术如何以及是否有利于其他VQA模型，包括上述基于GPT-3的即时调整PICA模型[41]，该模型通过利用图像字幕模型将多模态问题转换为单一文本模态。此外，研究了从基于维基的E-BERT空间到这些VQA模型的语言空间的非线性映射与线性映射版本相比如何影响性能。最后，了解这种知识注入如何在生物医学或其他实体丰富的领域中发挥作用，以及执行空间分析以研究实体嵌入如何根据知识注入的正确答案和相应实体而改变，这将是有趣的。致谢作者要感谢吴嘉林和王张扬教授在本书的最初规划和编辑过程中提供了有益的反馈。引用[1] SebastianBach，AlexanderBinder，GrégoireMontavon，FrederickKlauschen，Klaus-Robert Müller，and Wojciech Samek. 2015.基于逐层相关传播的非线性分类器决策的逐像素解释在PLoSOne。[2] Tom Brown 、 Benjamin Mann 、 Nick Ryder 、 Melanie Subbiah 、 Jared DKaplan 、 Pra- fulla Dhariwal 、 Arvind Neelakantan 、 Pranav Shyam 、 GirishSastry 、 Amanda Askell 、 Sandhini Agarwal 、 Ariel Herbert-Voss 、 GretchenKrueger、Tom Henighan 、Rewon Child、Aditya Ramesh、Daniel Ziegler、Jeffrey Wu 、 Clemens Winter 、 Chris Hesse 、 Mark Chen 、 Eric Sigler 、Mateusz Litwin 、 Scott Gray 、 Benjamin Chess 、 Jack Clark 、 ChristopherBerner、Sam McCandlish、Alec Radford、Ilya Sutskever和DarioAmodei。2020.语言模型是少数学习者。在神经信息处理系统的进展，H。Larochelle，M.兰扎托河Hadsell，M.F. Balcan和H. Lin（Eds.），卷三十三Curran Associates，Inc.1877-1901年。h t t p s：/ / p r o c e e d i n g s .neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf[3] 希拉·切佛希尔·古尔和里奥·沃尔夫2021年解释双模和编码器-解码器变换器的一般注意力模型可解释性。国际计算机视觉会议（ICCV）[4] 希拉·切佛希尔·古尔和里奥·沃尔夫2021年Transformer的可解释性超越注意力可视化。IEEE/CVF计算机视觉与模式识别会议（CVPR）782-791。[5] Shrey Desai和Greg Durrett 2020.预训练变压器的校准。2020年自然语言处理经验方法会议（EMNLP）论文集。[6] Zhe Gan ，Yen-Chun Chen ，Linjie Li， Chen Zhu ， Yu Cheng ，andJingjing Liu.2020.视觉和语言表征学习的大规模对抗训练。神经信息处理系统进展（NeurIPS）[7] 高迪飞，王瑞平，Shiguang Shan，陈西林。2019年。从两个图到N个问题：一个VQA数据集，用于视觉和常识的组合推理。ArXivabs/1908.02962（2019）。[8] 弗朗索瓦·加德尔，玛丽亚姆·齐埃法德，巴蒂斯特·阿贝卢斯和弗雷迪·勒库。2020年。 ConceptBert ：视觉问题分类的概念感知表示。计算语言学协会（Association for Computational Linguistics：EMNLP）[9] 姜正宝，J.Araki，Haibo

下载后可阅读完整内容，剩余1页未读，立即下载