没有合适的资源?快使用搜索试试~ 我知道了~
视觉常识推理:从认知到认知
16720VCR视觉常识推理从认知到认知:视觉常识推理Rowan Zellers、Yonatan Bisk、Ali Farhadi、Yejin Choi保罗·G.华盛顿大学艾伦计算机科学工程学院艾伦人工智能研究所visualcommonsense.com图1:VCR:给定一个图像,一个区域列表和一个问题,模型必须回答这个问题,并提供一个比率来解释为什么它的答案是正确的。我们的问题挑战计算机视觉系统超越认知水平的理解,对图像所描绘的世界进行更高阶的认知和常识理解摘要视觉理解远远超出了物体识别。 只要看一眼图像,我们就可以毫不费力地想象出像素之外的世界:比如我们可以推断出人们的行为,目标,心理状态。虽然这项任务对人类来说很容易,但对于今天的视觉系统来说却非常困难我们将此任务形式化为视觉常识推理。对于一个关于图像的挑战性问题,机器必须正确回答,然后提供一个合理的理由来证明它的答案。接下来,我们介绍了一个新的数据集,VCR,由290k多项选择QA问题来自110k电影场景。大规模生成非平凡和高质量问题的关键配方是对抗匹配,这是一种将丰富的注释转换为具有最小偏差的多项选择题的实验结果表明虽然人类觉得VCR很容易(准确率超过90%),但最先进的视觉模型却很难(准确率为10.45%)。为了实现认知层面的理解,我们提出了一个新的推理引擎,认知网络(R2C),模型的基础,语境化和推理的必要分层推理。R2 C有助于缩小人类和机器之间的差距(约65%);尽管如此,挑战远未解决,我们提供分析,为未来的工作提出建议。1. 介绍只要看一眼图像,我们就可以立即推断出场景中发生了什么,而不仅仅是视觉上明显的。例如,在图1的顶部图像中,我们不仅看到几个对象(人,盘子和杯子),我们还可以对整个情况进行推理:三个人在一起吃饭,他们已经点过菜了。为什么a)他说的是b) 他只是讲了个笑指着的?点了煎饼c)他对[人1]怀有敌意。d) 他在给人指路。a)[person1]在他面前有煎饼。b)#24040;人的要求,并要求各?c)[person 3]正在看煎饼,她和[person 2]微微一笑。d) [person 3]正在给餐桌送食物,她可能不知道谁点的是谁的。她面前的钱是怎么来的a)[person 2]在街上卖东西。b)[person 2]靠玩音乐赚来的钱。c)她可能会为公司工作。d)她玩扑克赢了钱。a)她弹吉他赚钱。b)[person 2]是管弦乐队中的职业音乐家。c) [person2]和[person1]都持有乐器,可能是为了那笔钱而表演的。d)[person1]正在往[person2]的小费罐里放钱[人1][人1][人3][人4]16721照片已经拍好了,[person3]正在上菜,而不是和他们一起吃饭,[person1]点的是煎饼和培根(与芝士蛋糕相对),因为[person4]在看着服务员[person3 ]时指向[person1]。视觉理解需要识别和认知之间的无缝集成:超越认知水平的感知(例如,检测对象及其属性),必须执行认知级推理(例如,推断人们可能的意图、目标和社会动态)。最先进的视觉系统可以可靠地执行图像级别的图像理解,但难以进行复杂的推理,如图1所示。我们认为,随着该领域在认知层面的构建模块(如对象检测、姿态估计和分割)上取得了重大进展,现在是大规模解决认知层面推理的正确时机作为实现完全视觉理解的关键一步,我们提出了视觉常识推理的任务。给定一幅图像,机器必须回答一个问题,这个问题需要彻底理解图像所唤起的视觉世界此外,机器必须提供一个比率说明为什么这个答案是正确的,涉及场景的细节,以及关于世界如何运作的背景知识。这些问题、答案和比率使用丰富的自然语言以及对图像区域的明确引用的混合来表达为了支持清晰的评估,我们所有的任务都被框定为多项选择QA。我们为这项任务开发的新数据集VCR是同类数据集中的第一个,并且是大规模的-29万对问题,答案和理由,超过11万个独特的电影场景。在这种规模下构建这种复杂性的数据集的关键挑战是如何避免注释伪影。在最近的QA数据集中,一个反复出现的挑战是,人类书写的答案包含了模型很容易利用的意想不到但明显的偏见。通常这些偏差是如此突出,以至于模型甚至可以在不看问题的情况下选择正确的答案[28,61,72]。因此,我们提出了对抗匹配,一种新的QA分配算法,允许大规模创建强大的多项选择数据集关键思想是将一个问题的正确答案重复使用三因此,每个答案都有相同的正确概率(25%):这重新解决了仅答案偏差的问题,并且抑制了机器总是选择最通用的答案。我们将答案回收问题公式化为基于每个候选否定答案与黄金答案之间的相关性和蕴涵分数的约束优化,如通过最先进的自然语言推理模型[10,57,15]所测量的。我们的回收算法的一个整洁的功能是一个旋钮,可以控制之间的权衡人机难度:我们希望这些问题对机器来说很难,而对人类来说很容易。缩小识别和认知水平的图像理解之间的差距需要在视觉数据中建立自然语言段落的含义,在问题的上下文中理解答案,并重新考虑对问题、答案、原理和图像的共享和基础理解。本文介绍了一种新的模型--认知网络识别模型(R2 C)。我们的模型执行三个推理步骤。首先,它将自然语言段落的含义与直接引用的图像区域(对象)联系起来。然后,它将回答的含义与所问的问题以及未提及的全局对象最后,它对这个共享的表示进行推理以得出答案。在VCR上的实验表明,R2C大大优于最先进的视觉问答系统:在回答问题时获得65%的准确率,在回答问题时获得67%的准确率,在分阶段回答和论证时获得44%的准确率。尽管如此,任务和数据集还远未解决:人类在每一项上的得分约为90%我们提供了详细的见解和消融研究,为未来的研究指明了方向总之,我们的主要贡献有四个方面:(1)我们提出了一个新的任务,视觉常识推理,(2) 提出了一个大规模的多项选择QA数据集,VCR,(3) 这是自动分配使用对抗匹配,一个新的算法,为强大的多项选择数据集创建。(4)我们还提出了一个新的模型R2 C,旨在模拟从识别到认知的分层推理;这也建立了我们新的挑战.该数据集可在visualcommonsense.com下载,以及我们模型的代码。2. 任务概述我们提出了VCR,一个新的任务,挑战视觉系统的整体和认知理解的内容的图像。例如,在图1中,我们需要要了解活动([person3]正在送食物)、人的角色([person1]是先前点过食物的顾客)、人的精神状态([person1]想吃东西)以及场景前后可能发生的事件([person3]接下来将提供煎饼)。 我们的任务涵盖了这些类别和更多:所需推理的分布如图2所示。视觉理解不仅要求正确地回答问题,而且要有正确的理由。因此,我们需要一个模型给出一个理由,解释为什么它的答案是正确的。我们的问题、答案和基本原理是用丰富的自然语言和检测标记(如“[person2 ]”)混合16722在本文中,我们根据准确性评估模型,并使用N=4个响应。每个子任务的基线准确度为25%(1/N)。在整体环境中(Q→AR),基线当有两个子任务时,准确率为6.25%(1/N23. 数据收集图2:VCR中问题所需的推理类型概述。值得注意的是,38%的问题是解释性的“为什么”或“如何”问题,24%涉及认知水平的活动,13%需要时间推理(即,接下来会发生什么 这些类别并不相互排斥;一个答案可能需要不同类型的推理的几个跳跃(见附录A)。对象为了让评估更直接,我们将最终任务--分阶段回答和论证--设置在多项选择中。给定一个问题和四个答案选择,模型必须首先选择正确的答案。如果答案是正确的,那么它提供了四个理由选择(据称可以证明其正确答案的选择),并且它必须选择正确的理由。我们称之为Q→AR,因为模型预测正确需要选择的答案和选择的基本原理都是正确的。我们的任务可以分解为两个多项选择子任务,分别对应于回答(Q→A)和证明(justify)。阳离子(QA→R):定义VCR子任务。A的一个例子VCR子任务由图像I和:• 物体检测的序列每个对象检测oi由边界框b、分割掩码m1和类标签`i∈ L组成。• 使用自然语言和指向的混合提出的查询q查询中的每个词qi要么是词汇表V中的词,要么是引用o中对象的标记。• 一组N个响应,其中每个响应r(i)以与查询相同的方式编写:语言和指点。只有一个答案是正确的。该模型选择一个(最佳)响应。在问答(Q→A)中,查询是问题,在本节中,我们将介绍如何收集VCR的问题、正确答案和正确理由。我们的关键见解--收集大规模的常识性视觉推理问题--是仔细选择有趣的情况。因此,我们从电影剪辑中提取静态图像。这些片段中的图像描述了人类可以在没有额外上下文的情况下破译的复杂情况:在图1中,我们知道[person3]将为[person1]提供煎饼,而机器可能无法理解这一点,除非它看到整个剪辑。有趣和多样的情况为了确保多样性,我们对预定义的动作集合不做限制性假设而不是搜索预定义的标签,这可能会引入搜索引擎偏见[76,16,20],我们从电影场景中收集图像。底层场景来自大型电影描述挑战赛[67]和YouTube电影片段。2为了避免简单的图像,我们训练并应用“兴趣度过滤器”(例如,图3中注射器的特写)。3我们将任务集中在需要认知水平推理的挑战性问题为了让这些认知层面的问题简单易问,也为了避免指称表达的笨拙,VCR从Mask-RCNN [29,24]中检测这些对象标签,并对图像进行过滤,以便具有至少三个高置信度标签。Amazon Mechanical Turk上的众包质量注释工作人员获得了一张带有检测的图像,以及视频标题形式的附加上下文。4然后他们会问一到三个关于图像的问题;对于每一个问题,他们都提供了合理的答案和理由。为了确保一流的工作,我们使用了一个质量检查系统,并支付我们的工人很好。5结果是一个具有高度一致性和推理多样性的我们的数据集包含了无数有趣的常识现象(图2)和独特的例子(Supp部分A);几乎每个答案和理由都是独特的。答案是答案的选择。在回答理由(QA→R),查询是连接的问题和正确答案,而响应是合理性选择。1该任务对于掩码的表示是不可知的,但它可以被认为是多边形p的列表,每个多边形由盒子pj={xt,yt}t内的一系列2d顶点组成。2即Fandango MovieClips:youtube.com/user/movieclips。3.我们对图像进行了“有趣度”的注释使用CNN特征和检测统计数据,详细信息见附录B节。4这个额外的剪辑级上下文帮助工作人员询问和回答接下来会发生什么。5更多细节见附录B节。假设5%占7%心理角色场景百解释38%颞叶13%活动24%为什么[person11]在里面戴墨镜?什么是[person1]和[person 2]doing?[person6]打开杂货后会做什么?人在想什么,[5]他的手?[person 1]的关系是什么[person 4]?现在[person1]在哪里?会发生什么[person 3]fellasleep?16723LSMDC镜头+物体检测人群工作人员询问过滤器和答案问题问: [person1]在做什么?答: [person 1]正在将针头注射到有人在地板上。(可理由:[人1]手里拿着一根针,用刺的动作用力地把它放低她坐起来,针头插在她的胸口。t+1他低头看着她。t-1有人举起肾上腺素注射针。图3:VCR结构概述。使用最先进的对象检测器[29,24],我们识别每个图像中的对象。最有趣的图像被传递给群组工作人员,以及场景描述(MovieClips)和视频字幕(LSMDC,[67])形式的场景级上下文人群工作人员使用自然语言和检测标签的组合来询问和回答具有挑战性的视觉问题,同时也为他们的回答提供了合理的理由4. 对抗匹配我们将VCR转换为四向多项选择任务,以避免语言生成或字幕任务的评估困难,其中当前的指标通常更喜欢不正确的机器书写文本而不是正确的人类书写文本[49]。然而,如何大规模地获得高质量的错误选择,或反事实,并不明显。虽然过去的工作要求人类为每个正确答案写几个反事实的选择[75,46],但这个过程是前-沉思此外,它有可能引入注释伪影:本身高度预测“正确”或“不正确”标签的微妙模式在这项工作中,我们提出了对抗匹配:一种新的方法,允许任何“语言生成”数据集变成一个多项选择测试,同时需要最小的人类参与。概述如图4所示。我们的关键见解是,获得好的反事实的问题可以分为两个子任务:反事实必须尽可能与上下文相关(以便它们吸引机器),同时它们不能与正确的反应过度相似(以便它们不会偶然成为正确的我们在这两个目标之间进行平衡,以创建一个对机器来说具有挑战性但对人类来说很容易的数据集形式上,我们的过程需要两个模型:一个用于计算查询和响应之间的相关性P rel,另一个用于计算两个响应选择之间的相似性P sim。在这里,我们采用了最先进的自然语言推理模型:BERT [15]和ESIM+ ELMo[10,57]。6然后,给出数据集示例(qi,ri)1≤i≤N,我们通过在权重矩阵W ∈RN×N上执行最大权重二部匹配[55,40],获得每个qi的反事实,由下式给出Wi,j= log(P rel(qi,rj))+h log(1 −P sim(ri,rj))。( 1)这里,h> 0控制相似性和相对性之间的权衡。6我们在注释数据上微调Prel(BERT)(采取措施避免数据泄漏),而Psim(ESIM+ ELMo)是在蕴涵和释义数据上训练的-详情见附录C。图4: 对抗性匹配概述。不正确通过查询和响应之间的最大权重二分匹配来获得选择;权重是来自现有技术的自然语言推理模型的分数。重复的回答与查询高度相关,而它们与正确的回答在含义上不同。evance [7]为了获得多个反事实,我们进行了几次二分匹配。为了确保否定是多样的,在每次迭代期间,我们用候选响应rj与当前分配给qi的所有响应之间的最大相似度来替换相似度项。确保数据集的完整性为了保证训练集和测试集之间没有问题/答案重叠,我们将完整的数据集(按电影)分成11个部分。我们将每个折叠的答案和原理分别匹配。两个折叠被拉到一边进行验证和测试。5. 认知网络我们将识别引入认知净-works(R2C),一种新的视觉常识推理模型。要做好这一任务,需要对语言、视觉和世界有深刻的理解。 考试-在图5中,回答在[person1]?'需要多个推理步骤。首先,我们确定查询和每个响应的含义,这涉及到引用图像,[7]我们通过让人群工作者在几个阈值上回答多项选择题来调整这个超参数,并选择人类表现超过90%的值--详见附录C。年q1的1他们就要接吻了。Q2[人1]和a2[person3]are祈祷年q3一个3他们是一家人,正在逛古维亚市场。qq44一个4他们正在讨论一项新法律。为什么[person1]和[person3]的额头在一起?为什么[person1]和[person3]的手紧握在一起?为什么[person6]、[person8]和[person14]站得很近?为什么[person1]和[person2]聚在一起?……16724图5:我们的模型R2C的高级概述。我们将视觉常识推理的挑战分为三个部分:基于查询和响应,在查询和整个图像的上下文中对响应进行上下文化,并在此丰富表示的顶部执行附加推理步骤。两个人其次,我们将查询、响应和图像的含义放在一起。这一步包括解决所指的第三,我们要考虑现实的相互作用下式:softmax(riWqj)jq i= XJ.P.i,jq j.(二)Jvant图像区域、查询和响应。在这例如,模型必须确定[person1]和[person4]之间的社会动态。我们将模型模拟为三个高级阶段:接地,语境化和推理,并使用标准的神经构建块来实现每个组件。更详细地说,回想一下,模型被赋予一个图像,一组对象o,一个查询q和一组响应r(i)(其中只有一个是正确的)。查询q和响应选择r(i)都用自然语言和指向图像区域的混合来表示:在符号方面,我们将用单词w标记的对象表示为o w。如果w然后,我们的模型将分别考虑每个响应r,使用以下三个分量:接地接地模块将学习序列中每个标记的联合图像语言表示。由于查询和响应都包含标签和自然语言单词的混合,因此我们为每个查询和响应应用相同的基础模块(允许它们共享参数)。我们的基础模块的核心是一个双向LSTM [34],它在每个位置作为输入传递wi的单词表示以及owi的视觉特征。我们使用CNN来学习对象级特征:每个区域o的视觉表示是从其边界区域ROI对齐的[63,29]。 为了增加信息编码-关于对象的类标签` o的信息让LSTM在所有位置上的输出为r,用于响应,q用于查询。给定查询和响应的接地表示,我们使用注意力机制来将这些句子与彼此和图像上下文相关联。对于响应中的每个位置i,我们将使用把答案和图片联系起来,包括即时通讯-对于尚未从基础阶段拾取的明显相关的对象,我们在响应R和每个对象O让客体注意力的结果是oi。推理最后,我们允许模型对响应、参与查询和对象进行推理。我们使用一个双向LSTM来实现这一点,对于每个位置i,它是given,如e xtqi,ri和oi。为了更好地通过网络的梯度流,我们将推理LSTM的输出与每个时间步的问题和答案表示连接在一起:结果序列被最大池化并通过多层感知器,该感知器预测查询-响应兼容性的logit。神经结构和训练细节对于我们的im-年龄特征,我们使用ResNet50 [30]。为了获得语言的强表示,我们使用BERT表示[15]。BERT应用于整个问题和答案选择,我们从每个单词的倒数第二层提取特征向量。我们通过最小化每个响应r(i)的预测与黄金标签之间的多类交叉熵来训练R2C。有关详细的训练信息和超参数,请参见附录(第E86. 结果在本节中,我们将评估VCR上各种模型的性能。回想一下,我们的主要评估模式是分阶段设置(Q→AR)。在这里,模型必须选择一个问题的正确答案(给出四个答案选择),以及然后为这个问题和答案选择正确的理由(给出四个理由选择)。如果它得到的答案或原理是错误的,那么整个预测都是错误的。这个整体任务分解为两个子任务,我们可以在其中训练各个模型:问答(Q→A)8我们的代码也可在visualcommonsense.com上在线获得。LSTM1接地LSTM2LSTM3语境化CNN推理fθ(q,r为什么...LSTM1LSTM2LSTM3为什么[person4]指向[人1]?LSTM1LSTM2LSTM3他告诉[人4]他告诉[person3],[person1]点了煎饼。指向伯特他是...告诉............为什么他是告诉...他是告诉...[人4]查询Q响应r(i)图像我+对象O16725Q→A QA→R Q→AR模型确认测试确认测试确认测试R2c63.867.243.1没有查询无推理模块无视觉表示GloVe表示48.363.653.146.443.565.763.238.321.542.233.818.3表1:实验结果 对录像机。 VQA模块-表2:R2C的消融,在确认集上。‘No query’ tests theimportance of integrating the query dur- ing 在 “noreasoning”中ing阶段被删除;这会使性能降低大约1%。在接地过程中删除视觉特征,或者使用GloVe嵌入而不是BERT,会显著降低性能,分别降低10%和25%。ELS在问题回答(Q→A)和答案证明(Q→AR)上都很挣扎,这可能是由于语言的复杂性和例子的多样性,数据集。虽然纯语言模型表现良好,但我们的模型R2C获得了显着的性能提升。尽管如此,所有模型在这项任务中的准确性都低于人类。有关更多最新结果,请参阅visualcommonsense.com/leaderboard上的排行榜。以 及 回 答 理 由 ( QA→R ) 。 因 此 , 除 了 报 告 组 合Q→AR性能外,我们还将报告Q→A和QA→R。任务设置一个模型,其中有一个查询q和四个响应选择r(i)。像我们的模型一样,我们使用多类交叉熵来训练基线,答案和标签。每个模型都分别针对问题回答和答案合理性进行训练。96.1. 基线我们将我们的R2C与几种强大的语言和视觉基线进行了比较。纯文本基线我们通过评估纯文本模型来评估数据集所需的视觉推理水平。 对于每个模型,我们将q和r(i)表示为令牌流,其中检测标记被对象名称(例如,chair5→chair)。 为了最大限度地减少我们的任务和预训练模型之间的差异,我们将人员检测标签替换为性别中立的名称。a. BERT[15]:BERT是最近发布的NLP模型,在许多NLP任务上实现了最先进的性能。b. BERT(仅响应)我们使用相同的BERT模型,但是,在微调和测试过程中,模型仅提供响应选项r(i)。c. ESIM+ELMo[10]:ESIM是另一种用于双对分类任务的高性能模型,特别是与ELMo嵌入一起使用时[57]。9我们遵循标准的train、val和test拆分。d. LSTM+ELMo:这里使用具有ELMo嵌入的LSTM来对响应r(i)进行评分。VQA基线此外,我们将我们的方法与在VQA数据集上开发的模型进行了比较[5]。所有模型都使用与R2 C( ResNet 50 ) 相 同 的 视 觉 骨 干 以 及 文 本 表 示(GloVe;[56]这与最初的实现相匹配。e. 引用VQA[38]:该模型将整个图像的查询,响应和图像特征作为输入,并将结果传递给多层感知器,该感知器必须分类10f. 自 下 而 上 和 自 上 而 下 的 注 意 力 ( BottomUpTop-Down)[4]:该模型关注对象检测器给出的区域建议。为了适应VCR,我们传递这个模型对象区域所引用的查询和响应。g. 多模态低秩双线性注意 (MLB) [42]:该模型使用Hadamard乘积来合并查询和图像中每个区域给出的视觉和语言表示h. Multimodal Tucker Fusion(MUTAN)[6]:该模型以张量分解的方式表达联合视觉语言上下文,从而提供更多的表达能力。我们注意到BottomUpTopDown,MLB和MUTAN都将VQA视为前1000个答案的多标签分类[4,50]。由于VCR是高度多样化的(补充A),对于这些模型,我们使用GRU表示每个响应r(i)[11]。11响应i的输出logit由GRU编码r(i)的最终隐藏状态与模型的最终表示之间的点积我们让Amazon Mechanical Turk上的五名不同工作人员回答测试集中的200个数据集问题。另一组五名工人被要求为这些问题和答案选择理由。预测结果采用多数票合并。10对于VQA,模型通过对给定问题的正面或负面答案进行采样来训练;对于我们的数据集,我们简单地使用感知器的结果(对于响应r(i))作为第i个logit。11为了匹配[4,42,6]中使用的编码q的其他GRU。仅VQA文本模型Q→ AQA→ RQ→ AR机会25.025.025.025.0第6.2条伯特53.8 53.964.1 64.534.835.0BERT(仅响应)27.6 27.726.3 26.27.6 7.3ESIM+ ELMo45.8 45.955.0 55.125.3二十五点六LSTM+ ELMo28.1 28.328.7 28.58.3 8.4[38]第三十八话39.4 40.534.0 33.713.5十三点八自下而上自上而下[4]42.8 44.125.1 25.110.7十一点零美国职业棒球大联盟[42]45.5 46.236.1 36.817.0十七点二人类91.093.085.0R2c63.8六十五点一67.2六十七点三43.144.016726d)[人2 ]会说有多可爱[人4]' s child r en a r e. (68%)d)你可以看到[人4]面带微笑,面对婴儿床和房间里的装饰为什么[person1]拿枪指着[person 2]?a)[人1欲杀之[2]。(1%)b) [person1] 和 [person3] 正 在 抢劫 银行 , [person2] 是 银 行 经 理 。(71%)c) [person2]做了一些让人不快的事情[人1]中。(18%)D)因为[人2 ]是[人1 ]的女儿。[人1想要保护[人2]中。(8%)如果[person1]发现[人2[person 3]whispering?a) [person1]会看向她的左边。(7%)b) 她会玩[书1]。(7%)c) 她会看起来很关心,问什么是有趣的。(39%)d) 她会换座位。(45%)(2)是对的,因为…a) [person1] 正 在 追 捕 [person1] 和[person3],因为他们刚刚抢劫了一家银行。(33%)b) 抢劫犯有时会把枪举在空中以引起大家(5%)c)背景中的保险库类似于银行保险库。[person 3]正在金库旁等待有人打开它。(49%)d)有栅栏窗户和柜台的房间通常类似于银行。(11%)(1)是对的,因为…a)当学生在课堂上说话时,他们(64%)b) 飞机座位非常拥挤和狭窄,它需要你的座位伙伴的合作,以帮助通过。(15%)c) It’s not unusual for people to want to get(14%)d) 这(6%)接下来会发生什么a) [人2]要走上前去出拳[第4话]面对(10%)b) 有人要读睡前故事。(15%)c) [person 2]要掉下来了。(5%)d) 是对的因为a) 他们是合适的年龄成为父亲和儿子和[人[3]拥抱[人]就像他们是他的儿子。(1%)b) 看起来像[人4]正在向[person2]]和[人2]会想要有礼貌。(31%)c) [person 2]正在傻笑,低头看着[人4]中。(6%)为什么[商务英语进屋去与[人1]和[人2]?a) 她不想在那里。(12%)b) [person 3]has[dog1](14%)c) 她需要光。(45%)d) 她太害怕了(26%)b) 是对的因为[1][ 2][3][4][5]][6][7][8]][9][第3话]似乎是他的。(33%)(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(10)(60%)c) 如果[狗1]在房子里,他很可能会打翻[盆栽植物6[01- 10][01 - 10]]中。(4%)d) [person 1]看起来他可能有铅[人2我进房间去看狗。(1%)图6:R2C的定性示例。正确的预测以蓝色突出显示。不正确的预测用红色表示,正确的选择用粗体表示。有关更多预测,请参见visualcommonsense.com/explore。6.2. 结果和消融我们在表1中呈现我们的结果。值得注意的是,标准的VQA模型在我们的任务中挣扎。就Q→AR精度而言,最好的模型是MLB,精度为17.2%深度文本模型表现得更好:最值得注意的是,BERT [15]获得了35.0%的准确率。 一个可能的理由是性能上的差距是一个检验效应:VQA模型通常是围绕前1000个答案的多标签分类建立的长)文本跨度。我们的模型,R2C获得了额外的提高BERT的9%的准确性,达到44%的最终性能。尽管如此,这个数字仍然远不及人类的表现:85%的人完成了分阶段任务,因此还有很大的空间。消融我们在几次消融下评估了我们的模型,以确定哪些组件是最重要的。删除查询表示(以及完全删除查询-响应上下文)会导致21.6%的ac下降16727在Q→AR性能方面的精确度点。有趣的是,此设置允许它更大程度地利用其图像表示:基于文本的仅响应模型(BERT仅响应,LSTM+ ELMo)的性能几乎没有比机会更好。使用推理模块会使性能降低1.9%,这表明它是有益的,但对性能并不重要。当使用GloVe表示而不是BERT时,模型受到的影响最大:损失24%。这表明,强有力的文本表征是至关重要的VCR性能。定性结果最后,我们在图6中给出了定性示例。R2C适用于许多图像:例如,在第一行,它正确地推断出银行抢劫案正在发生此外,它选择了正确的理由:尽管所有的选项都与“银行”和“抢劫”有关,但只有c)有意义。同样,分析R2C选择正确答案但错误理由的例子,可以让我们更深入地了解它对世界的理解。在第三行中,模型正确地认为存在婴儿床,同时分配较少的概率,bilitymass基于正确的理由--[person 2]正在被展示[person 4]孩子的照片,这就是为什么[person2]可能会说他们有多可爱。7. 相关工作视觉问答[5]是第一个将视觉理解作为QA任务的大规模数据集之一,关于COCO图像的问题[49]通常用一个简短的短语回答。这一系列工作还包括“指向”问题[ 45,93 ]和带有开放式答案的最近的数据集也关注知识库风格的内容[80,83]。另一方面,VCR中的答案是完整的句子,我们的数据集所需的知识主要是关于世界如何运作的背景知识。最近的工作还包括基于电影或电视剪辑的QA[75,51,46]。在这些设置中,模型会得到一个视频剪辑,通常还有附加的语言上下文,如字幕,电影脚本或情节摘要。[12]相比之下,VCR除了问句之外,没有额外的语境此外,显式检测标签的使用意味着不需要执行人员识别[66]或与字幕的链接。一条正交的工作线一直在指涉表达式上:询问自然语言句子指的是什么图像区域[60,52,65,87,88,59,36,33]。 我们通过使用索引检测标签(如[person1])来明确避免引用表达式式问题。最后,一些工作侧重于常识现象,如然而,在这方面,[12]正如我们在附录D中所发现的,包含额外的语言上下文往往会提高模型的性能。常识推理的空间通常受到所选择的基础数据集(合成[79]或COCO [58]场景)的限制。在我们的工作中,我们在电影中丰富的图像背景下提出常识性问题可解释性AI模型通常是正确的,但出于可质疑或模糊的原因[7]。这促使模型以自然语言句子[31,9,41]或注意力地图[32,35,37]的形式为其行为提供解释我们的理论结合了这两种方法的优点,因为它们涉及自然语言文本以及对图像区域的引用此外,虽然很难评估生成的模型解释的质量,但在VCR中选择正确的基本原理是一项多项选择任务,使评估变得简单明了。常识推理我们的任务统一了关于常识现象的推理工作,例如物理[54,84],社会互动[2,77,12,27],过程理解[91,3]和预测视频中接下来可能发生的事情[74,17,92,78,18,64,85]。对抗数据集过去的工作提出了创建对抗数据集的想法,无论是通过平衡数据集与先验知识[25,28,62]还是在测试时切换它们[1]。 与我们的数据集过滤方法最相关的是对抗过滤的想法[89]。13正确的答案是人类写的,而错误的答案是从机器生成的文本池中选择的,这些文本由人类进一步验证。然而,正确和错误的答案来自根本不同的来源,这引起了人们的担忧,即模型可以通过执行授权识别而不是对图像进行推理来相反,在对抗匹配中,错误的选择来自与正确选择完全相同的分布,并且不需要人工验证。8. 结论在本文中,我们介绍了视觉常识推理,以及使用对抗匹配构建的任务的大型数据集VCR我们提出了R2C,这是一个用于这项任务的模型,但认知水平视觉理解的挑战确认我们感谢土耳其机械工人在数据集创建方面所做的出色工作-如果没有他们,这个数据集和论文就不会存在。还要感谢MichaelSchmitz对数据集分割的帮助,以及Jen Dumas的法律建议。这项工作由国家科学基金会通过研究生研究奖学金(DGE- 1256082)和NSF赠款(IIS-1524371,1637479,165205,1703166)支持,ARO(W 911 NF-15-1-0543)资助的DARPA CwC计划、D17 PC00343资助的IARPA DIVA 计划、Sloan 研究基金会资助的SloanFellowship 、 Allen Institute for Artificial Intelligence 、 NVIDIAArtificial Intelligence Lab,以及Google和Face提供的礼物书本文中包含的观点和结论是作者的观点和结论,不应被解释为代表IARPA,DOI/IBC或美国的认可。政府的13这被用来创建SWAG数据集,这是一个用于自然语言推理的多项选择NLP16728引用[1] Aishwarya Agrawal , Dhruv Batra , Devi Parikh , andAnirud- dha Kembhavi.不要只是假设;看一看并回答:有视觉问答的前科。在IEEE计算机视觉和模式识别会议论文集,第4971-4980页,2018年。8[2] Alexandre Alahi,Kratarth Goel,Vignesh Ramanathan,Alexandre Robicquet,Li Fei-Fei,and Silvio Savarese.社会责任:拥挤空间中的人体轨迹预测。在IEEE计算机视觉和模式识别会议论文集,第961-971页8[3] Jean-Baptiste Alayrac , Piotr Bojanowski , NishantAgrawal,Josef Sivic,Ivan Laptev,and Simon Lacoste-Julien.从叙述式教学视频中进行非监督式学习。在IEEE计算机视觉和模式识别会议的论文集,第4575-4583页,2016年。8[4] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR,2018年。6[5] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C Lawrence Zitnick,and Devi Parikh.Vqa:可视化问答。在IEEE计算机视觉国际会议论文集,第2425- 2433页六、八、十三、十九、二十一[6] Hedi Ben-Res,Remi Cadene,Matthieu Cord,and Nico-las Thome. MUTAN : Multimodal Tucker Fusion forVisual Question Questioning。2017年10月在IEEE计算机视觉国际会议(ICCV)上发表。6[7] 或者是比兰和科特尼棉花。机器学习中的解释和论证:一个调查。在IJCAI-17可解释AI(XAI)研讨会上,第8页,2017年。8[8] Samuel R. Bowman,Gabor Angeli,Christopher Potts,and Christopher D.曼宁一个用于学习自然语言推理的大型注释语料库在2015年自然语言处理经验方法会议的会议记录中日,第632-642页,2015年。十八、十九[9] Arjun Arrasekaran , Viraj Prabhu , Deshraj Yadav ,Prithvi- jit Chattopadhyay,and Devi Parikh.解释是否使vqa模型对人类更可预测?在2018年自然语言处理经验方法会议论文集,第1036-1042页,2018年。8[10] Qian Chen,Xiaodan Zhu,Zhen-Hua Ling,Si Wei,HuiJiang , and Diana Inkpen. 用 于 自 然 语 言 推 理 的 增 强lstm。在计算语言学协会第55届年会论文集(第1卷:Long Papers),第1卷,第1657-1668页,2017年。二四六十八[11] KyunghyunCho , BartvanMerrienboer , CaglarGulcehre,Dzmitry Bahdanau,Fethi Bougares,HolgerSchwenk,and Yoonge Bengio.使用rnn编码器-解码器学习短语表示用
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功