没有合适的资源?快使用搜索试试~ 我知道了~
1155VLC-BERT:基于上下文常识知识Sahithya Ravi1,2* Aditya Chinchure1,2廖仁杰 Leonid Sigal1,2廖仁杰Vered Shwartz1,21不列颠哥伦比亚大学VectorInstitute for AI{sahiravi,aditya10,lsigal,vshwartz} @ cs.ubc.ca,rjliao@ece.ubc.ca摘要人们对解决视觉问答(VQA)任务越来越感兴趣,这些任务要求模型在图像中存在的内容之外进行推理。 在在这项工作中,我们关注的是需要常识推理的问题。与以前的方法,从静态知识库中注入知识,我 们 研 究 了 纳 入 上 下 文 知 识 使 用 常 识 Transformer(COMET),现有的知识模型训练的人工策划的知识库。我们提出了一种方法来生成,选择和编码外部常识知识以及视觉和文本线索在一个新的预训练的视觉语言常识Transformer模型,VLC-BERT。通过对知识密集型OK-VQA和A-OKVQA数据集的评估,我们表明VLC-BERT能够优于利用静态知识库的现有模型。此外,通过详细的分析,我们解释了哪些问题受益,哪些 没 有 , 从 上 下 文 常 识 知 识 从 彗 星 。 代 码 :https://github.com/aditya10/VLC-BERT1. 介绍多模态视觉语言学习的最新进展受到了视觉问题分类(VQA)[1,6,12,37,49]的大规模注释数据集的推动,其中模型包含关于图像的问题为了正确回答问题,模型需要执行场景理解和学习两种模态之间有意义的连接。近年来,基于transformer的视觉和语言(VL)模型[8,21,44]在大规模多模态语料库上进行了预训练,在标准VQA数据集上达到了令人印象深刻的准确性。VQA通常不仅需要对图像所描绘的场景的视觉理解(例如,*表示平等贡献图1:OK-VQA [29]:在哪里可以买到这个?图像背后的故事(例如,“盘子很可能是在一家餐馆找到的”)。人类根据先前的经验和常识知识(例如,“这很可能是在餐馆吃午餐或晚餐,人们可能正在享受......”)。大多数现有方法依赖于由语言模型隐式编码的世界知识,这通常缺乏准确性和覆盖率[32]。这主要是因为常识知识极其广泛,而且经常被假设。从文本中学习到的常识性知识存在报告偏见[11]:过度描述特殊事实(例如,“people die in accidents”) in textcorpora, at the expense of rarely discussed trivial factsknown to “people提出了几个视觉问题回答基准,其中问题需要事实[29,45]或常识知识[36,49]超越视觉场景理解。这促进了神经符号方法的发展,将基于变换器的表示与知识库(KB)相结合[9,28,47]。然而,直接从知识库中检索相关事实是一种挑战,因为知识库事实只适用于特定的上下文中。在这项工作中,我们提出了VLC-BERT(视觉语言常识BERT),这是一种旨在将上下文化常识知识纳入基 于 VL-BERT 构 建 的 视 觉 语 言 Transformer 的 模 型[41]。作为基于知识的VQA中常用的检索范式的替代,我们的模型使用COMET [2,15]语言模型,结合图像对象标记,1156在常识知识图谱上训练。我们增加句子转换器[31]来排名,过滤和嵌入常识推断。我们使用注意力驱动的融合机制将过滤后的推断合并到VLC-BERT中,该机制学会关注每个问题的最重要推断常识知识可能不是回答每一个问题所必需的,因为有些问题纯粹是视觉的、事实的或直截了当的。为了消除在这种情况下注入嘈杂的知识,我们采用弱监督,以帮助我们区分的情况下,常识知识可能或可能没有价值。我们对具有挑战性的OK-VQA [29]和A-OKVQA [36]数据集的评估证实,利用常识对于知识密集型视觉问答任务始终有用。我们分析了成功的预测,并展示了常识推理如何帮助回答困难的问题。2. 相关工作2.1. 视觉语言Transformer模型基于BERT [8]的预训练视觉语言模型ViL-BERT [25]和LXMERT [42]使用双流架构首先独立地编码语言和视觉模态VL-BERT [41]、OSCAR [22]和OSCAR+ [50]使用单流架构直接学习模态间交互。大规模的预训练通常使用概念说明来[38]数据集,其目标旨在鼓励模态之间的交互,例如预测掩蔽标记或图像区域[22,25,41,42],以及使用模态之间的对比损失[22]。因此,这样的模型固有地通过其预训练机制捕获一些常识性知识。虽然这些模型在下游任务(如VQA [1])上表现令人印象深刻,但在需要对图像内容以外的知识进行推理或涉及多个推理跳的问题上,它们通常表现较差。在我们的工作中 , 我 们 介 绍 了 VLC-BERT , 一 个 多 模 式 的Transformer模型的基础上VL-BERT,明确纳入外部知识,以al-leviate这个问题。2.2. 基于知识的可视化提问系统近年来,几个VQA数据集被专门设计为需要对图像之外的外部知识进行推理,无论是使用事实和网络信息 ( FVQA [45] , WebQA [5] , 提 供 的 文 本 通 道(VLQA [34]),常识驱动推理(VCR [49])还是外部常识知识(OK-VQA [29],A-OKVQA [36])。这激发了一系列关于知识增强VLTransformer模型的工作。外部知识通常以子图的形式从结构化知识库(如ConceptNet [40])中检索,并作为附加输入集成到VL Transformer 中[9,20,28,47]。其他知识来源包括图片说明[33]、Google搜索结果[26]以及来自维基百科和Google图像的文本和视觉知识与之前的大多数工作相比,PICa[48]和知识增强型Transformer(KAT)[13]尝试在VQA任务的几个镜头设置中使用GPT-3 [3],通过构建包含使用图像生成的标题和对象标签的提示,然后是问题语句,要求模型产生答案。在我们提出的模型中,我们专注于需要常识知识的知识密集型数据集我们的方法,使用COMET [15],用于整合常识知识是明显不同的,更简单,更具成本效益。2.3. NLP中的知识整合结构化的大规模知识库(KB),如ConceptNet [40]和ATOMIC [35],广泛用于NLP任务,为模型提供额外的常识知识。ConceptNet包含340万个关注概念和实体关系(如RelatedTo,Synonym,IsA,MadeOf)的断言。ATOMIC包含133万个三元组,专注于以事件为中心的社会常识,包括事件参与者的原因、影响和心理状态。提出了几种方法,用于将这些知识库中的符号知识纳入下游NLP任务中,例如对相关知识的子图进行编码[9,23]以及对常识知识库或任务进行预训练[51]。尽管性能得到了改进,但是直接从知识库合并知识受到两个限制:缺乏覆盖面和缺乏对背景的考虑。COM-monsense Transformer,COMET [15]试图通过微调KB上的预训练语言模型来缓解这些问题。COMET可以为新输入动态地生成各种KB关系的推断。它已被广泛用于语言任务中的知识生成[4,27,39,43]。受这些模型成功的启发,我们选择使用COMET [15]来生成相关的上下文扩展,而不是直接从知识库中检索知识。据我们所知,我们是第一个在VQA 任 务 中 使 用 COMET 的 公 司 常 识 知 识 较 新 的COMET 变 体 [30 , 46] 不 太 适 用 于 OK-VQA 和 A-OKVQA,因为它们更关注事件常识而不是实体。3. 方法我们简要概述了我们的模型的整体架构,然后深入研究其各个组件。图-1157--×雨伞可以遮阳,雨伞可以防雨(a) 整体架构图像(b) 知识生成和选择图2:VLC-BERT的架构:给定一个图像,VLC-BERT使用COMET为问题对象短语生成常识推理这些推断是相关性排名的,并且顶部的推断被选择并与图像区域一起馈送到VL-变换器中以便产生答案。我们利用Q和C之间的语义相似性来选择进入VLC-BERT的最终K图2a示出了VLC-BERT流水线。给定具有使用快速RCNN [10]预先计算的对应图像区域I的图像和与图像相关的问题Q,我们生成关于问题短语和两个对象标签O中的事件和实体的常识推断C,并选择最用于回答问题的常识推断集合C =C1,C2,.,Ck(§3.1)。最后,我们将Q、I和C作为输入嵌入到VLC-BERT中,并训练它来预测答案A到Q(§3.2)。3.1. 结构化知识生成与选择3.1.1知识生成为了生成常识知识,我们采用了最新版本的COMET[15],该版本在零触发设置中使用BART[19]初始化COMET被训练来完成来自ConceptNet [40](如AtLoca-tion,Madeof)和ATOMIC [35](如xNeed,xWants)的50种关系类型,从而捕获概念以及面向事件的知识。我们生成的30个关系类型的基础上最相关的evant我们的工作和支持COMET的推理。[1]考虑图2b所示 对于给定的问题,“雨伞的用途是什么?” 我们首先使用AllenNLP的选区解析器[17]处理每个问题,并将其转换为陈述句,因为COMET主要是在陈述句上训练的。在所示的示例中,“伞的用途是什么?“改为然后,我们采用最先进的对象检测模型YOLOv5 [16],将相应的图像转换为COMET可以理解的对象标签。我们选择前两个最有信心的对象标签,并将其与问题短语相结合,以获得一个问题对象(QO)短语,[1]我们在补充材料中包括了关系类型的完整列表“狗和椅子我们将COMET的输入中使用的对象标签的数量以这种方式,我们可以获得可以向VLC-BERT提供关于视觉和语言输入的附加知识的推断。我们使用波束搜索来解码每个关系类型的前5个推理,根据模型的置信度进行排名。总的来说,对于每个输入短语,我们得到30 5= 150个推断。 最后,我们使用[7]中定义的在所示的示例中,断言<雨伞,位于,商店>表示为“你很可能在商店找到雨伞”。为了去除相同关系类型的冗余句子,我们通过测量两个给定句子之间的公共词的百分比来测量词汇重叠我们排除了与先前构建的相同关系的句子重叠超过70%的句子。3.1.2知识选择由于计算的高成本,以及与馈送如此大量的文本标记相关联的噪声,将多达150个COMET推断馈送到VL变换器模型中是不切实际的。为了排名和选择推理,我们采用基于句子转换器(SBERT)的语义搜索[31],这些句子转换器在检索搜索查询的候选答案的任务上进行了预训练在该方法中,使用SBERT[31]将问题和推理嵌入到相同的向量空间中,并使用问题和推理嵌入之间的余弦相似度我们通过挑选K=5个推断来修剪推断句子集合C回答VLC-BERTTransformer图像区域(I)问题(Q)常识推理(C)知识生成选择Fast(er)R-CNN问题对象标签为什么他们有雨伞?YOLOv5狗椅子地点彗星雨伞伞架店车库停车场伞柄MadeOf伞头伞...伞骨...伞帽......防雨防晒句子结构你很可能会发现伞在商店伞是由伞头...UsedForO保护自己C1Cn保持狗干燥雨伞的用途狗和椅子用作武器语义C 1. C K搜索(SBERQ问题陈述知识生成选择雨伞的用途是什么?CapableOf具有属性AtLocation导致xWant...关系狗,椅子1158--这对于回答问题Q是最有用的。增强型SBERT。我们通过从预训练的SBERT模型开始并继续在来自我们的数据集的训练集的问题推理实例上为了实现这一点,我们根据与问题重叠的比例,用相似性分数来标记每个问题的推理。为了克服这一挑战,我们将每个推理句子Ci中包含的信息总结为单个to-ken表示Ci,通过使用SBERT [31]:Ci=SBERT(Ci)(1)接下来,为了获得k个常识推断的融合表示,我们注意到相应的SBE R T嵌入,[C]i... [001pdf1st-31files]将SBER T嵌入-人工注释的答案。 由于SBERT的培训内容是问题的答案,Q=SBERT(Q)。 直觉是-语料库与我们的任务不同,增强确保模型理解我们任务中查询-推理配对的性质。增强的SBERT特别有助于缩小正确的关系在这种方法之后,模型学习为问题的最重要推理分配更高的键(KA)、查询(QA)和值(VA)的分配如下所示,回答这个问题例如,图2b中所示的问题最受益于讨论以下关系:KA=Q(二)伞(UsedFor)用于或能够(CapableOf)做什么。3.2. VLC-BERT我们使用单流多模态Transformer编码器VL-BERT[41]作为VLC-BERT的基础。VL-BERT在大规模视觉语言和纯语言数据集上进行了预训练,目标是对齐视觉和语言特征,并为下游任务构建强大的多模态表示它在视觉语言概念标题数据集[38]上进行训练,以根据语言线索预测感兴趣区域(ROI),并在仅语言的Book- Corpus [52]和英语维基百科语料库上进行训练,具有掩蔽的语言建模目标。图3显示了VLC- BERTTransformer架构。在下面的段落中,我们将分享如何构建输入序列以及如何选择预测答案。3.2.1输入像VL-BERT一样,VLC-BERT接受用于语言输入的单词标记嵌入和用于视觉输入的图像的VLC-BERTTransformer的架构如图3所示。 我们在序列的开始使用[CLS],[END]标记序列的结束,不同输入之间使用分隔符标记[SEP]。我们将问题Q馈送为单词标记的序列,并且将图像区域I馈送为ROI 的序列一个[MASK]to- ken用于表示未知的答案。此外,我们引入了一个常识融合令牌,F,输入序列,将我们的常识推断。利用常识推断C =C1,C2,.的一种简单方法,Ck是将每个单词to-ken作为一个输入标记嵌入到每个推理句子中。然而,这将导致一个非常长的输入序列,其中大多数输入由推理组成,因此可能会将模型QA,VA=ap pend([C]i... Ck],Q)(3)F=MHA(KA,QA,VA)(4)其中MHA是标准的多头注意力[44],它提供了一个单一的向量,包含了回答问题所需的所有相关常识知识。请注意,我们将问题嵌入Q附加到Q和V的常识推理嵌入列表中,因为可能存在没有推理对回答问题有用的情况。在这种情况下,模型可以选择忽略推论,转而关注问题嵌入Q。监督不力为了有效地训练MHA块,我们对注意力权重采用弱监督。对于一小部分的问题,训练集,我们通过以下步骤获得标签注意力权重:(1)我们初始化长度为k+1的向量A,其中所有值均为0。05,(2)对于每个Ci,如果Ci在地面实况答案列表中包含一个单词,则我们将Ai设置为0的情况。8,(3)如果C推理中没有一个包含答案词,我们将权重分配为0。8到Ak+1,使得问题具有最大的权重,以及(4)我们将Ak归一化,使得其值总和为1。然后,我们在来自MHA的预测注意力权重和我们的标签注意力权重之间应用交叉熵损失,并将其与答案预测损失最后,按照VL-BERT中描述的方法 此外,不同的段类型编码被应用于输入序列中的四个段:问题段、常识段、掩蔽答案段和图像区域段。3.2.2答案选择我们使用编码的[MASK]标记来表示答案,从而使VQA成为掩蔽语言建模任务1159KSBERT融合(F)多头收款人3Q回答分类器EMB诉EMB诉EMBEMBEMBEMBC. EMBEMBEMBEMBEMBVLC-BERT Transformer...问题(Q)[SEP]常识[面具]屏蔽回答...图像区域(I)...推论(C)Q、V问题(Q)图3:VLC-BERT Transformer是一个单流Transformer,可以跨语言、视觉和常识表示参与。我们使用的MHA块融合成一个有用的常识表示常识推理。视觉提示。 为了预测最终答案,我们应用 一个分类器在整个答案词汇,在VL-BERT中完成。在训练过程中,我们遵循VL-BERT,并使用交叉熵损失从答案词汇中选择正确答案。4. 数据集我们在OK-VQA [29]和A-OKVQA [36]数据集上进行实验。为了有效地利用现有的VL-BERT模型,我们在更大的VQA 2.0上预训练VLC-BERT [12]。好的在外部知识VQA数据集中,除了图像中的信息之外,问题还需要外部知识。数据集由14,031张图片和14,055个问题组成,众包问题分为十大知识类别:车辆和运输;品牌、公司和产品;物品、材料和服装;体育和娱乐;烹饪和食物;地理、历史、语言和文化;人与日常生活,植物与动物;科学与技术;天气和气候。OK-VQA仅包含开放式问题,其中有五个人工提供的答案。由于OK-VQA没有验证集,因此我们将9,009个训练问题中的1,000个用于验证。A-OKVQA。A-OKVQA [36]是OK-VQA的增强版,由25 K个问题组成,需要结合常识、视觉和物理知识。与其他基于知识的视觉问答数据集相比,A-OKVQA中的问题在概念上是多样的,涉及图像中不包含的知识,并且不能通过图像来解决简单知识库查询。A-OKVQA根据COCO 2017 [24]数据集使用的图像分为训练集、验证集和测试集。此外,数据集中的所有问题都有人工注释的直接答案和多项选择选项,但我们专注于直接答案。A-OKVQA测试集是盲的,要求我们提交排行榜以获得测试准确性。VQA 2.0。Visual Question Answering(v2.0)数据集包含来自COCO数据集的204,721张图像的110万个众包问题[24]。每个问题都使用Amazon Mechanical Turk获得的10个地面实况答案进行注释。该数据集中的大多数问题不需要外部常识知识。4.1. 评估指标两个数据集使用相同的基于准确性的评估指标。每个问题都有一组由不同注释者提供的10个真实答案。准确度计算为由至少3个人类注释者提出的预测答案的百分比:ACC =min(#humans给出了答案,1)。25. 实现细节我们的模型的实现建立在VL-BERT [41]上。为此,我们遵循VQA 2.0的VL-BERT模型的官方代码库中提供的微调步骤,并对其进行修改以支持OK-VQA和A-OKVQA数据集。我们保持推荐的超参数值,并训练模型的BERTBASE该模型被训练用于2在相同的评估之后,OK-VQA中的5个答案中的每一个都被使用两次C1SBERTCkSBERT[结束]ROI结束ROI1[SEP][SEP]q端年q1[CLS]SBERTSBERT用于句子嵌入文本嵌入常识嵌入视觉嵌入EMBC. EMB诉EMB1160表1:我们的模型与OK-VQA和A-OKVQA数据集的其他模型的准确性。我们的模型改进了现有的基于知识库的模型,由于上下文的常识推断从彗星,这是训练的概念网和原子。我们比较有利的突出模型,利用外部知识库。注:P.T.代表预培训。方法知识源OK-VQA A-OKVQA约Params[36]第三十六话--25.85116MLXMERT [36]--25.89-BAN + AN [29]维基百科25.61--BAN + KG-八月[20]维基百科+概念网26.71--[29]第二十九话维基百科27.84--ConceptBert [9]ConceptNet33.66-118M[28]第二十八话维基百科+概念网32.3127.1116M[28]第二十八话Wikipedia + ConceptNet + VQA P.T.38.9-116M[26]第二十六话谷歌搜索39.2--MAVEx [47]维基百科+概念网+谷歌图片41.37--GPV2 [18,36]网页搜索(Web10k)+COCO P.T.-40.7220M[48]第四十八话GPT-343.3-175B[48]第四十八话GPT-348.0-175BKAT [14]Wikidata + GPT-354.41-175BVLC-BERT(我们的)VQA P.T.+ COMET43.1438.05118MOK-VQA和A-OKVQA数据集上的20个时期对于所有模型,我们使用16的批量大小和4的梯度我们对主要结果中的模型进行了三次训练,并在OK上报告了平均测试准确度表2:在A-OKVQA验证集上评价的VLC-BERT中各种组件的消融。我们观察到,我们的模型的所有组件在执行性能中起着至关重要的作用。VQA数据集,以及最佳(排行榜)测试精度A-OKVQA数据集。回答词汇。由于视觉问答数据集中问题的大量唯一答案,使用答案词汇表中的所有答案是不可行的。对于OK-VQA数据集,遵循KRISP [28],我们通过选择训练集中出现至少10次的所有答案来构建2,249个答案的答案词汇表。此答案词汇表忽略空白答案,并包含一个UNK>答案标记。 在训练过程中,如果答案词汇表中不存在地面实况答案,我们将其分配给(UNK>)标记。对于A-OKVQA数据集,我们使用数据集中已经提供的答案字典[36]。VQA 预 培 训 ( VQA P.T ) 。遵 循 预 训 练 对Transformer模型有益的想法,我们使用在VQA 2.0数据集上微调VL-BERT 5个epoch后获得的权重初始化VLC-BERT。请注意,KRISP [28]受益于VQA 2.0数据集的预训练,PICa [48]和KAT [14]利用GPT-3,一个大规模的预训练模型,用于外部常识。此外,因为OK-VQA和A-OKVQA显著小于VQA 2.0,所以这一点可以被简化。VQA P.T. 8月SBERT SBERT收件人ValVQA预培训–✓–通信推理表示43.44美元中国中国44.95增强SBERT14.10中国44.95初始化有利于培训过程,并为我们提供了更强的工作基线。6. 评价在本节中,我们将重点评估OK-VQA和A-OKVQA数据集上的VLC-BERT,并与现有的最先进的VQA模型进行比较。表1突出了我们对OK-VQA测试集的性能改进,1161A-OKVQA与其他型号的对比。在本节的后面,我们将对模型的组件进行消融。6.1. 主要结果表1详细说明了每个模型表3 :OK-VQA 测试 (OK)和 A-OKVQA 验证 (A-OK)集子集的评价,其中删除了事实、在子集上观察到的性能增益显示了外部常识在哪里有效的更好的画面杠杆 在顶部部分,我们考虑UTI-知识库,如ConceptNet和Wikipedia,以及利用Web搜索 API 获 取 外 部 知 识 的 模 型 。 VLC-BERT 结 合 了COMET,它是在ConceptNet和ATOMIC上训练的,我们与这些模型相比毫不逊色。值得注意的是,VLC-BERT在OK-VQA上实现了43.14的准确度,优于KRISP( Wikipedia + ConceptNet + VQA P.T. ) 超 过 4 点 ,MAVEx(维基百科+概念网+ Google图片(约2分)虽然我们的模型明显优于使用知识库的先前方法,但它并没有优于具有大规模预训练和大量参数的模型,例如GPT-3 [3]和GPV 2 [18],这些模型包含隐含的常识知识并需要大量资源来训练。然而,在OK-VQA上,我们实现了与PICa- Base[48]非常相似的结果我们希望使用像GPT-3这样的大型预训练模型可以进一步提高VLC-BERT的性能。6.2. 消融试验我们对A-OKVQA数据集的验证集进行全面消融,如表2所示。3VQA P.T. 我们 首先在 没有 VQA预训 练的基 础VL-BERT模型上训练A-OKVQA。这给了我们36.24的分数。接下来,通过VQA预训练为我们的模型获得一个新的基线,然后我们在VQA 2.0数据集上使用预训练的权重初始化VLC-BERT,并在A-OKVQA数据集上进一步训练它。这导致得分为43.46,高出7分以上,突出了大规模数据集预训练的影响。该模型是我们VQA任务的强大基线。通信推理表示。 在完整的模型中,我们使用SBERT总结每个常识推理到一个单一的向量,并使用多头注意力块从推理向量列表中捕获有用的信息。为了测试我们的常识推理表示方法的有效性,我们首先消融SBERT,即,我们将所有推断作为VLC-BERT的附加文本这导致准确率得分为43.44,略低于我们使用VQA预训练的基线。接下来,我们使用SBERT来总结推断,并将SBERT嵌入直接馈送到仅具有线性投影层而不是MHA块的VLC-BERT中这种变体的性能更差3我们在补充材料第2.3方法OK OKs A-OK A-OKs基础42.29 47.4 43.46 46.52w/ COMET 44.95 49.53比使用MHA块的模型高1.25个点。增强的SBERT。为了使SBERT熟悉我们的问题-推理对, 我们 在A-OKVQA 和OK-VQA的训 练集 上微调SBERT(第3.1.2节)。我们执行消融评估我们的模型SBERT从未暴露于问题推理对。这导致准确度下降0.85个点,这表明我们对SBERT的增强是有效的。7. 分析7.1. 常识子集OK-VQA和A-OKVQA数据集中的问题是多样的,需要常识推理、视觉理解以及事实知识。虽然COMET可以生成上下文化的常识知识,但它对需要场景理解的问题没有帮助(例如, “电脑左边是什么?“),事实知识(例如,“这种食物是在哪里发明的?”“),或文本/符号识别(例如,“这个牌子上写的是什么?“).此外,对整个OK-VQA和A-OKVQA的平均结果混淆了对真正需要常识知识的问题子集带来的改进我们提出的子集,以评估我们的模型的性能问题,更有可能需要外部常识知识。我们通过排除大多数是事实或视觉的问题来获得子集,因此不需要常识,遵循这些条件:(1) 事 实 : 问 题 或 答 案 包 含 命 名 实 体 ( 例 如 ,“century”); (3) “left of”) and words referring to symbols (在表3中,我们示出了具有COMET的VLC-BERT在A-OKVQA子集上表现更好3个点,并且在OK-VQA子集上保持0.8个点的改进。这证实了我们的说法,即利用我们的COMET管道大大提高了VLC-BERT1162图4:注意力分析:(a)来自A-OKVQA,并且(b)和(c)来自OK-VQA。我们观察到VLC-BERT中的弱监督注意层准确地挑选有用的常识推断。在(c)中,我们观察对象标签如何有助于指导COMET产生上下文化知识。7.2. 注意力分析在本节中,我们将展示定性示例,以说明VLC-BERT从COMET的上下文化常识知识中受益的问题。我们还给出了相应的注意力权重,以显示所提出的弱监督注意力机制的有效性。图4a示出了来自A-OKVQA的示例,其中COMET对问题和对象标签的推断,由注意力分数加权,得到正确答案。图4 b示出了来自OK-VQA的示例,其中VLC-BERT COMET表现出对火的更高关注,尽管对象标签错过了壁炉。这是一个例子,其中从问题短语导出推断与使用对象标记这样做同样重要图4c示出了对对象标签风筝的推断驱使模型正确地回答。补充材料包括改进和失败的其他示例8. 结论我们提出了视觉语言常识BERT(VLC-BERT)的外部知识驱动的VQA任务。VLC-BERT通过整合来自COMET的上下文化常识知识并将其与视觉和语言输入相结合,在OK-VQA和A-OKVQA数据集上优于基于知识基础的通过我们的评估,我们展示了我们的知识生成、选择和整合策略的有效性,以及VQA预培训的积极影响。我们对VLC-BERT的分析强调了一些限制,图像中的多个实体和事件,对象标签缺乏,用于导出相关的常识推断。其次,使用SBERT和MHA压缩常识推理导致压缩表示,这可能导致模型丢失一些信息。最后,我们的模型受到COMET的限制,以及它所训练的知识库,因为我们观察到像GPT-3这样的大规模模型优于它。我们认为我们的工作是分析生成性常识整合潜力的第一步,并探索决定何时需要常识的方法。在未来,我们的目标是努力创建一个版本的彗星,可以利用图像上下文有关的多个实体和事件。我们还计划调查潜在的多跳推理与彗星的桥梁问题和基于图像的扩展更接近。9. 致谢这项工作的部分资金来自Vector Institute for AI,Canada CIFAR AI Chair,NSERC CRC,NSERC DG和Accelerator Grants,以及AI2的研究礼物。本研究准备中使用的硬件资源部分由安大略省、加拿大政府(通过CIFAR)和赞助Vector Institute4的公司提供。其他硬件支持由John R.埃文斯领导人基金CFI赠款和计算加拿大根据资源分配竞争奖。最后,我们衷心感谢教授。Giuseppe Carenini提供宝贵的反馈和讨论。我们的模型和我们评估的数据集。首先,有些问题需要更深入的理解和联系4www.vectorinstitute.ai/partners1163引用[1] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C.劳伦斯·齐特尼克和德维·帕里克VQA:可视化问答。2015年,国际计算机视觉会议(ICCV)[2] Antoine Bosselut , Hannah Rashkin , Maarten Sap ,Chaitanya Malaviya , Asli Celikyilmaz , and YejinChoi.COMET:用于自动知识图构造的通信转换器。在2019年第57届计算语言学协会(ACL)年会上[3] Tom Brown , Benjamin Mann , Nick Ryder , MelanieSub- biah,Jared D Kaplan,Prafulla Dhariwal,ArvindNeelakan- tan,Pranav Shyam,Girish Sastry,AmandaAskell , Sand- hini Agarwal , Ariel Herbert-Voss ,Gretchen Krueger , Tom Henighan , Rewon Child ,Aditya Ramesh,Daniel Ziegler,Jeffrey Wu,ClemensWinter,Chris Hesse,Mark Chen,Eric Sigler,MateuszLitwin , Scott Gray , Benjamin Chess , Jack Clark ,Christopher Berner、Sam McCandlish、Alec Radford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。神经信息处理系统进展(NeurIPS),第33卷,第1877-1901页,2020年。[4] Tuhin Chakrabarty,Yejin Choi,Vered Shwartz.这不是火箭科学:解读叙事中的比喻语言。Transactions of theAssociation for Computational Linguistics ( TACL ) ,2022.[5] Yingshan Chang , Mridu Narang , Hisami Suzuki ,Guihong Cao,Jianfeng Gao,and Yonatan Bisk.Webqa:多跳和多模式qa。在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2022年6月。[6] Abhishek Das , Satwik Kottur , Khushi Gupta , AviSingh , Deshraj Yadav , Jose´ M.F. Moura , DeviParikh,and Dhruv Batra.可视对话框。在IEEE计算机视觉和模式识别会议(CVPR),2017年。[7] 乔·戴维森约书亚·费尔德曼和亚历山大·拉什从预训练模型中挖掘常识知识。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合,第1173-1178页[8] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向变换器的预训练。在2019年计算语言学协会北美分会会议上:人类语言技术,第1卷(长论文和短论文),第4171-4186页,明尼苏达州明尼阿波利斯,2019年6月。计算语言学协会。[9] 弗朗索瓦·加尔·德·雷斯,玛丽亚姆·齐艾·法德,巴蒂斯特·阿贝卢斯和弗雷迪·莱·库·埃。Conceptbert:概念-一个可视化问答的图形表示。在2020年的调查结果中[10] 罗 斯 · 格 希 克 。 快 速 R-CNN 。 IEEEInternationalConference on Computer Vision(ICCV),2015年。[11] 乔纳森·戈登和本杰明·范·杜尔梅。报告偏差和知识获取。在自动化知识库构建研讨会上,第25-30页[12] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。使VQA中的V变得重要:提升图像理解在可视化问答中的作用。在IEEE计算机视觉和模式识别会议(CVPR),2017。[13] Gui Liangke,王博瑞,黄秋媛,Alex Haupt-mann ,Yonatan Bisk,和Jianfeng Gao. Kat:一个用于视觉和语言的知识增强的Transformer,2021年。[14] Liangke Gui,Borui Wang,Qiuyuan Huang,AlexanderHauptmann,Yonatan Bisk,and Jianfeng Gao. KAT:一个用于视觉和语言的知识增强的Transformer。在计算语言学协会北美分会2022年会议记录中:人类语言技术。计算语言学协会,2022年7月。[15] 耶拿岛Hwang,Chandra Bhagavatula,Ronan Le Bras,Jeff Da , Keisuke Sakaguchi , Antoine Bosselut , andYejin Choi.彗星-原子2020:符号和神经常识知识图。在AAAI,2021年。[16] Glenn Jocher , Ayush Chaurasia , Alex Stoken , JirkaBornac , NanoCode012 , Yonghye Kwon , TaoXie ,Jiacong Fang , imy- hxy , Kalen Michael , Lorna ,Abhiram V , Diego Montes , Je- bastin Nadar ,Laughing,tkianai,yxNONG,Piotr Skalski,ZhiqiangWang , Adam Hogan , Cristi Fati , Lorenzo Mam-mana,AlexWang1900,Deep Patel,Ding Yiwei,FelixYou , Jan Hajek , Laurentiu Diaconu , and Mai ThanhMinh.ultra-lytics/yolov5:v6.1 - TensorRT、TensorFlowEdge TPU和OpenVINO导出和推理,2月2022年。[17] 作者声明:John E.彼得斯和马克·霍普金斯。使用几十个部分注释的示例将解析器扩展到远域在ACL,2018年。[18] Amita Kamath、Christopher Clark、Tanmay Gupta、EricKolve、Derek Hoiem和Aniruddha Kembhavi。Webly监督的概念扩展,用于通用视觉模型,2022年。[19] 迈克·刘易斯、刘银汉、纳曼·戈亚尔、马
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功