没有合适的资源?快使用搜索试试~ 我知道了~
1基于迭代查询的可视化提问知识获取1Joseph J.Lim2李飞飞11斯坦福大学2南加州摘要人类拥有学习新技能和新知识以解决问题的非凡能力。自动模型也需要这种学习能力来处理视觉世界中任意的、开放式的问题。我们提出了一种基于神经元的方法来获取视觉问答(VQA)的任务驱动信息。我们的模型提出查询,以积极地从外部辅助数据获取相关信息。来自人工或自动来源的支持证据被编码并存储到存储库中。我们发现,获取任务驱动的证据有效地提高了模型在Visual 7 W和VQA数据集上的性能;此外,这些查询在我们的迭代QA模型中提供了一定程度的可解释性。1. 介绍想象一下,你问你5岁的侄女:“锅里的食物是什么颜色的?”“检查食物是否准备好了。然后她看到了类似图中的图像。1.一、不幸的是,这个可怜的孩子不知道什么是锅,不得不问你“哪一个是锅?“然后才回答说食物是黄色的。就像在上面的场景中一样,我们的日常互动通常包括询问后续问题和收集机器是否也可以询问和收集“线索”来解决视觉问答(VQA)任务?今天的大多数作为图1:人类可以通过主动提出相关问题来更好地理解场景,以获得场景背后的更多受此启发,我们提出了一个动态的VQA模型,可以要求查询,以获得支持的任务证据。到目前为止,基于深度学习的模型已经主导了标准VQA基准测试[3,25,31,41]。在这些模型中,最受欢迎的选择之一是使用CNN对图像进行编码,使用LSTM对单词进行编码[3,26,31]。因此,许多性能最好的模型[9,23,41]都采用了注意力机制,以获得更好的结果。最近Jabri et al.[17]提出了一个新的替代模型,一个双层MLP,将答案作为输入并进行二元预测。与其他更复杂的架构相比,这种简单的网络显示出了极具竞争力的结果。我们扩展了他们的模型与我们提出的交互式查询框架收集和支持证据的原因,以解决VQA任务。虽然我们的目标是收集证据来解决VQA任务,但并非所有证据都具有同等价值。事实上,大多数证据都是无关紧要的,只有少数证据是有用的。因此,一个模型必须是有选择性的结果,这些VQA模型被证明是同时,目前最先进的VQA模型也表明,它们可以从更好的视觉基础证据中受益[9,17]。因此,我们通过使VQA模型能够从人工策划或人工生成的数据源中请求和收集“线索”(特别是视觉上的证据)来进一步推进与任务相关的信息。为此,我们提出了一个动态的VQA模型,可以迭代地要求查询新的证据,并从外部来源收集相关的证据。更具体地说,我们的模型通过一系列来自外部辅助数据(称为知识源)的查询来获得支持证据。所获得的证据被编码并添加到存储库中。然后,具有新更新的记忆的模型可以提出另一轮1154你:锅里的食物是什么颜色的侄女:哪个是平底锅?你:带把手的圆的。侄女:黄色!1155或生成目标问题的答案。我们的实验表明,我们的模型可以很好地与人类策划的知识源,如视觉基因组场景图[20],和算法生成的知识源的最先进的对象检测器[32]。尽管它很简单,但我们的模型在Visual7W讲述任务[41]上实现了最先进的性能,并且在VQA Real Multiple Choice挑战中与表现最好的模型[9]我们的模型的另一个优点是它的可解释性。在每一次迭代中,该模型通过文本查询主动寻找新的证据它使我们能够在寻求最终答案的迭代过程中检查模型2. 相关工作VQA模型。现有的VQA模型从符号方法[25,38],基于神经的方法[9,23,24,26,31]到前两者的混合方案[2]。注意机制[9,23,39,41]已被证明在融合问题词和图像的多模态表示方面是有效的除了这些模型之外,还花费了一些努力来更好地理解ex-programmVQA模型的行为[1],以及评估模型注意力图对人类注意力的影响[8]。Jabri等人[17]提出了一个简单的替代模型,该模型将答案作为输入并执行二元预测。他们的模型与其他更复杂的VQA系统竞争良好。我们的工作通过内存库扩展了他们的模型[17],在Visual7W数据集[41]和VQA挑战[3]上实现了更好的性能。交互式知识获取。几十年来,知识获取一直是人工智能研究的主要兴趣。SHRDLU [36]是一个可以追溯到20世纪70年代的杰出先驱工作,它为用户提供了一个对话系统,用于查询计算机关于简化块世界的状态。其他工作已经开发了交互式界面来从人类专家那里获取知识[37],有效地标记新的训练样本[35],或者在受限的视觉图灵测试中提出下一个问题[10]。 另一条线工作的本质是永无止境的学习,比如NELL [6]和NEIL[7]。然而,在一个永无止境的循环中收获的知识几部著作研究了从外部来源获取知识的各种策略[4,14,19,29,30,34]。与以前的工作相比,我们的工作建立了一个基于神经的框架,能够处理多模态数据。在-而不是设计一个手工制作的查询策略在以前的工作中,我们学习的查询策略,在数据驱动的方式。记忆网络。大量的努力已经转向用记忆增强神经网络。早期的一个突出的创新是长短期记忆[15],它将记忆细胞引入到香草递归神经网络中。网络. 最近的工作[11,12,18,21,33,40]专注于开发基于注意机制的不同类型的外部记忆表示。与我们类似的一项工作是动态记忆网络[5],它有一个情景记忆模块来编码VQA的任务相关信息。然而,这项工作只是将图像特征编码到情景记忆模块中,而不是整合语义信息。此外,与我们不同的是,他们的模型没有学习一种策略,根据与任务的相关性来选择任务驱动的证据。3. 方法许多视觉问题需要开放式的常识推理[3,10,16,41]。最近一项关于当今VQA模型的研究它需要一个更灵活、更有原则的模型,而不是在一个封闭的集合中学习,它需要一个更灵活、更有原则的模型,用新信息的分类来学习和推理最后,我们的目标是设计一个模型,提出查询和获取任务驱动的证据(图。2)从知识来源-具体来说,我们专注于来自人工策划或算法生成的数据源的视觉基础证据。我们引入了一个模型,它以多步的方式动态地、不断地从外部环境中学习这里的关键挑战是学习查询策略,以收集任务的最3.1. 模型概述我们的目标是迭代地获得任务驱动的证据,以产生一个给定的视觉问题的答案。这个过程需要一个模型,可以从外部来源请求必要的在这里,我们使用查询和响应作为模型和知识源之间的通信手段。此外,模型需要在自己的内部表示(我们称之为内存)中对来自响应的新证据进行编码。我们将这些数据类型定义如下:• 问题:模型旨在回答的关于图像的自然语言问题。我们使用句子-图像对(q,i)来表示图像i上的单个问题q;• 回答:用自然语言回答问题。我们考虑多项选择任务,目标是从一组候选答案中选择正确的答案;• 查询:描述模型正在请求的一段任务驱动信息的句子,例如,”男人的衬衫看起来如何?“;• 响应:包含来自知识源的一条证据的对查询的响应,例如,“条纹。“;1156(a)最先进的可视化QA模型(b)迭代QA模型(a)标准VQA模型(c)我们的迭代VQA模型(a)我们的迭代VQA模型问题编码器应答译码器问题答案(a) 标准VQA模型问题回答(b) 我们的迭代VQA模型图2:(a)标准VQA模型的说明。(b)我们的迭代模型的概述。(c)我们模型的详细流程图。该模型由两个主要部分组成:核心网络(绿色)和查询生成器(蓝色)。查询生成器提出了任务驱动的查询,从外部来源获取证据。获得的知识被编码并存储在核心网络中作为回答问题的记忆。• 记忆:一种编码的证据。原始证据被编码成模型可以存储和处理的记忆向量在设计迭代VQA模型时存在两个主要挑战:1)在当前模型状态下提出下一个查询,以及2)利用所获取的证据更新模型状态,所获取的证据可能具有来自不同来源的各种形式。我们的模型由核心网络(Sec.3.2)和查询生成器(第3.3),如图所示。第2段(b)分段。核心网络处理更新存储器状态并生成答案,而查询生成器处理基于存储器状态提出3.2. 核心网络核心网络是我们模型的主要组成部分。它接受一个问题输入,预测一个答案,并在通过查询迭代地获得新证据的同时维护其内部存储库(见图2)。(3)第三章。虽然整个核心网络可以以端到端的方式联合训练,但我们根据其角色分别描述其四个子网络:1. 存储器编码器fK将原始证据e变换成存储器组可以存储和处理的存储器向量m=fK(e)。原始证据可以是异质的和多模态的。我们将不同类型的证据编码成相同大小的向量2. 存储体M存储经由迭代查询获得的备忘录的集合,其中M={m(1),m(2),. . . ,m(t)}。内存库支持读/写操作。 它可以产生一个代表-当前存储器状态φM(读)的表示。 另外,a新的存储器可以被编码并添加到存储器组,其中M=M<${e(t+1)}(写);3. 问题编码器Eq将问题-图像对编码为向量嵌入v=Eq(q,i);4. 答案解码器Ga取问题编码v和存储器状态φM,并产生答案a=Ga(v,φM)。问题编码器和答案解码器也可以耦合在单个网络中[17]。图2示出了这些子网络之间的交互。上述核心网络的公式提供了一个通用框架,其中每个子网络的设计是模块化的。在这项工作中,我们证明了我们的模型的有效性,即使没有复杂的网络设计。我们使用一个简单的MLP模型[17]作为问题编码器和答案解码器。该模型是一个两层MLP,与最先进的模型竞争良好。它将预先训练的图像特征的串联作为输入[13],问题和答案的词嵌入的平均值,并预测图像-问题-答案三元组是否正确。记忆编码器将来自外部知识源的原始证据转换为固定维度的记忆向量。我们将每个内存表示为300维平均word2vec嵌入[27]。我们在补充材料中提供了更多关于内存编码器的细节。为了保持模型的简单性,我们使用堆栈作为内存库。它保留编码的内存向量,并通过向堆栈添加新的内存来更新自己。我们计算的记忆状态的总和记忆向量,规范化的2-范数,在存储库。我们将这个记忆状态向量与图像-问题-答案三元组连接起来,作为我们的MLP模型的输入。知识源查询图像中有女人女人有没有在图像中?响应(woman,x,y,应答译码器两个女人记忆编码器存储器查询评分网络问题编码器谁在伞下?查询生成器核心网络(c)迭代VQA模型流程存储体. . .回答问题知识源查询生成器核心网络1157这张照片是什么时候拍的A. 在婚礼上。B. 在成人礼上。问:你能看到什么物体?R:(女人,204,35,54,103)Q:什么是与女性互动?R:(女人,穿着,婚纱)初始存储器#1记忆#2为了弥补这一局限性,我们使用了一个带有贪婪评分函数的树扩展方法。我们使用监督学习的方法来训练一个查询评分网络,该网络评估当前状态下的查询候选。我们的查询评分网络是一个MLP模型,类似于核心网络,后面是两级分层的查询类型和相应的查询对象的软最大值(见图10)。(见第4(a)段)。它需要一个图像-问题-记忆C. 在葬礼上。D. 在一个星期天存储体存储体三元组作为输入;然而,与核心网络相比,做礼拜。(a)(b)不接受答案向量作为输入。由于我们图3:一个示例迭代查询过程。每次该模型提出了一种任务驱动的查询(Q),以从知识源请求有用的证据。响应(R)被编码到存储器中并被添加到存储体。3.3. 查询生成器查询生成器将我们的模型与外部知识源连接起来。它提出了查询的基础上的机密状态,以获得最佳的相关证据。虽然最直接的策略是将目标问题解释为对全知来源的查询,但实际上我们因此,它是必不可少的,以定义有用的查询类型的通信和设计一个良好的查询策略的有效性。在以前的工作[17]中的错误分析表明, 缺乏视觉基础,即, 关于对象的事实在图像中,是当前VQA系统中的关键问题。这种视觉基础将有助于解决噪声视觉模型的潜在不确定性。因此,我们定义了四种查询类型,模型可以使用它们来请求可视化的证据。在表1中,查询模板中的粗体字这些反应中的证据有时被称为情景记忆[21],因为它们基于特定的图像。这些响应可以从人工注释或预训练的预测模型中获得表1:查询类型和响应类型查询类型和模板响应格式你能看到什么物体?(object,x,y,w,h)图像中有物体(object,x,y,w,h)物体看起来怎么样(object,attribute)什么是与object1交互?(object 2,relation)现在,我们需要一个策略来生成在当前内存状态下的最佳查询。强化学习(RL)方法通常用于学习这样的查询策略。然而,我们发现标准的深度RL方法(如DQN [28])在我们的问题设置中具有较大的离散动作空间。使…通过Monte-Carlo卷展栏自动生成训练样本图4(b)示出了查询树扩展方法的展开过程。树中的每个节点表示一个查询候选。在每一步中,我们维护一组在问题和响应中看到的名词,并从这个集合中分支出查询。名词集合由问题中的所有名词实体初始化。这个集合限制了搜索树的宽度,使得计算变得容易。在测试期间,查询评分网络为每个终端节点计算分数。该模型建议下一个具有最高分数的查询。3.4. 学习如第3.2,因此,核心网络可以进行端到端的训练然而,在每一步,查询生成器提出一个艰难的决定,提出查询,引入不可微的操作,但存在的核心网络和查询生成器之间的相互依赖性。因此,我们设计了一个EM风格的训练过程,在训练查询评分网络的同时冻结核心网络,反之亦然(参见算法1)。我们使用均匀随机策略作为种子查询生成器进行引导,因为我们最初没有经过训练的查询评分网络。初始核心网络使用反向传播随机展开进行训练。在随后的迭代中,核心网络用从训练的查询生成器(即,树扩展+查询评分网络)。冻结核心网络,然后训练查询评分网络。我们用图像-问题-记忆三元组作为输入训练查询评分网络。训练集是由核心网络在蒙特卡洛展开时自动生成的,如图所示。第4(c)段。 在每个卷展栏中,我们添加一对输入和标签(即,查询类型和查询对象)到训练集,如果新添加的存储器将错误的预测翻转为正确的答案。3.5. 实现细节我们遵循与[17]相同的网络设置和相同的超参数。核心网络和查询评分网络都有8,192个隐藏单元。我们在第一层之后使用dropout(0.5),ReLU作为非线性。初始存储器#11158算法1迭代QA模型1:程序2:生成随机查询卷展栏R(0)3:利用铺开R(0)训练初始核心网络C4:用C(0)生成查询评分网络的训练样本S5:用S(0)训练初始查询评分网络G6:对于t= 1,. . .,N做N次迭代7:用查询评分网络G(t-1)生成查询卷展栏R(t)8:从C(t-1)开始的Finetune核心网络工作C(t),具有卷展R(t)9:从C(t)生成查询评分网络的训练样本S图10:根据G(t-1)和S(t)微调查询评分网络G(t)11:结束12:return{G(N ),C(N )}13:结束程序孩子什么是互动什么?问:孩子是如何保护头部的?种子集{child,head}回答查询对象查询类型0.2图片中有狗吗0.50.1孩子长什么样?正确性查询评分网络什么是与孩子互动?(头盔,x,y,w,h)设置{头盔,孩子,头}图像存储体问题(a) 查询评分网络(b) 查询搜索树扩展(c) 训练样本生成图4:(a)查询评分网络。 该网络使用分层softmax来评估给定当前内存状态和问题的每个查询;(b)查询搜索树扩展。该模型从名词的种子集开始,用于生成查询;将来自查询响应的新名词添加到集合中并用于进一步扩展查询树;(c)生成查询评分网络的训练样本。我们在查询搜索树上执行Monte-Carlo滚动,并使用来自核心网络的反馈作为标签。这两个网络都使用SGD进行训练,动量和基本学习率为0.01。我们通过查询生成器使用一个贪婪策略(算法1中的第7行)执行Monte-Carlo转出,其中随着迭代训练过程(N= 5)的进行,贪婪策略从1.0退火到4. 实验我们的主要目标,在整个实验中,是研究如何从迭代QA模型的影响,回答问题的图像上的性能所获得的证据我们的目标是研究我们模型的两个主要方面:1)查询策略对任务驱动知识获取的影响; 2)不同知识源对图像问答的贡献和局限性。我们首先报告定量结果在第二节。4.2然后在第节中进行详细分析。四点三。4.1. 实验设置数据集。我们的实验是在Visual7W讲述任务[41]和VQA真实多项选择挑战[3]上进行的。Visual7W telling数据集包括69,817个用于训练的问题,28,020个用于验证的问题和42,031个用于测试的问题。绩效通过正确回答问题的百分比来衡量。VQA Real Mul-tipleChoice挑战有248,349个问题用于培训,121,512个用于验证,244,302个用于测试。性能由[3]提出的评价指标报告。知识来源。如Jabri等人的误差分析所示。[17],当今VQA模型的主要局限性是缺乏对象和概念的视觉基础。因此,我们在表1中设计了查询类型和响应,以从知识源中获取视觉基础证据这样的知识可以通过人类和-✓“蒙特卡罗”卷展栏存储体翻转新训练样本输入:图像、问题、记忆标签:查询类型,查询对象.. .初始存储器#1记忆#21159符号,或由预训练模型自动生成。基于知识源的可用性,我们使用Visual7W数据集的人工知识源[20]和VQA挑战的自动知识源[32Visual7W数据集是在Visual Genome的图像子集上收集的[20]。Visual Genome提供了一种称为场景图的结构化图像表示,对象的图形结构,对象的属性及其成对关系。这些场景图由AMT工作人员手动注释。我们使用这些场景图作为Visual7W的知识来源我们使用这些最常见的150个对象,50个属性和20个关系的地面实况注释作为对查询的响应。VQA 数 据 集 是 在 COCO 数 据 集 的 图 像 上 收 集 的[22]。在没有场景图注释的情况下,我们运行最先进的对象检测器[32],用80个对象类进行训练,以预测图像上的对象这些自动预测被用作对表1中的前两种类型的查询的响应。我们通过0.5的截止值丢弃具有低分数的检测由于缺乏可靠的场景图生成模型,我们省略了其他查询类型4.2. 定量实验我们的模型建立在一个简单的MLP模型上[17]。我们的模型的主要新颖之处是增加了这个模型的内存库,任务驱动的记忆是积极获得迭代查询。迭代查询模型在产生最终答案之前最多生成三个查询。我们使用三种查询策略来检查我们的查询生成器的性能:• 所有知识都用整个知识源填充存储体,即,- 整个场景图或图像的所有检测到的对象;• 均匀采样随机地提出查询而不使用查询生成器;• 查询生成器根据第二节中介绍的训练查询生成器选择查询。三点四分。我们在表2中报告了Visual 7 W telling测试分割的性能,在表3中报告了VQA Real Multiple-Choice测试开发和测试标准的性能。我们将我们的模型与迄今为止最先进的VQA模型进行比较。Jabri等人报告了Visual7W的当前最新结果。[17 ]第10段。 在VQA真实多项选择题挑战中获胜的模型是Fukui等人。[9]的文件。对于Visual7W,我们在训练分割上训练模型。对于VQA,我们在trainset和train+valset上我们遵循之前工作的设置[9,23],并报告我们在train+val集上训练的模型的最终测试标准性能。表2和表3说明了交互式查询模型的有效性。它在Visual7W中实现了最新的最先进的结果,并与最好的单一模型(MCB + Att.+ GloVe [9])。1对比两种查询策略基线,我们的查询生成器学习有选择地查询,提供最佳性能。我们的简单MLP模型通过内存库增强,与具有更复杂设计的现有模型[9,23除了它的简单性之外,迭代查询还为我们提供了一个解释模型的“基本原理”的机会。图5显示了来自两个数据集的一些定性问题示例。我们注意到,当获取新证据时,随着查询过程的进行,答案预测是如何变化的。当相关的记忆被获取并添加到记忆库时,模型通常可以纠正其先前错误的预测。然而,在某些情况下,一个离题的证据反而会错误地引导模型。例如,在图1的最后一个示例中的列车的错误检测。5会导致模型过度计数。4.3. 模型分析尽管在Visual7W和VQA上的性能提升相当,但它们分别使用了两种不同类型的知识源。Visual 7 W模型使用来自Visual Genome [20]的地面实况场景图注释(包括测试阶段),这是昂贵且繁琐的收集。相比之下,VQA模型使用来自更快的R-CNN检测器[32]的预测,这是廉价且有效的。使用地面实况场景图的适度性能增益的一个直观解释是人类注释的稀疏性和模糊性。场景图是稀疏的(例如,每个图像大约20个对象)和开放词汇表(例如,因此,只有28%的对象在一个swers可以映射到场景图。此外,基于Visual7W的基础注释,只有43%的回答者提到至少一个对象。因此,一个简单的关键字匹配基线与随机平局断路器将产生一个35.7%的准确率差,只有10%以上的机会。相反,预测模型生成的自动知识源不受人类注释的稀疏性和模糊性的影响一个完美的对象检测器将能够在其预定义的词汇表中找到每个对象实例。然而,在现实中,它的价值被这些模型的不完美表现所削弱。例如,我们使用的更快的R-CNN检测器在COCO test-dev上有42.7%的 mAP@.5因此,我们从不同的角度观察到手工制作和自动知识来源一个理想的知识来源将结合这两种类型的优势,并提供一个精确的,1迄今为止,VQA挑战报告的最佳数字为0.701Fukui等人的测试标准。[9]的文件。然而,这个模型是7个MCB模型的集合,这些模型使用Visual Genome [20]中的额外QA对进行训练,这只比我们的结果好1.2%。1160表2:Visual7W测试分割的模型性能方法什么哪里当谁为什么如何整体[41]第四十一话0.5150.5700.7500.5950.5550.4980.543MCB [9]0.6030.7040.7950.6920.5820.5110.622MLP [17]0.6280.7350.7970.7090.6230.5380.648MLP +所有知识0.6330.7410.8060.7520.6440.5400.658MLP +均匀采样0.6240.7400.8050.7620.6290.5370.653MLP +查询生成器0.6510.7780.8070.8140.6530.5410.679表3:VQA测试开发和测试标准方法是/否test-devnumber个其他所有是/否测试标准number个其他所有两层LSTM [3]---0.6270.8060.3770.5360.631[23]第二十三话---0.6580.8000.3950.5990.661MCB +属性+ GloVe [9]---0.691----MCB Enclosures + Genome [9]---0.7020.8330.4100.6520.701MLP [17]0.7870.4020.6080.659----MLP +所有知识0.7870.4050.6250.668----MLP +均匀采样0.7880.4040.6220.666----MLP +查询生成器0.8030.3950.6260.674----MLP +查询生成器(train+val)0.8140.4210.6460.6910.8140.4170.6420.689完全覆盖图像中的视觉概念。我们进一步分析了我们的视觉接地的证据在提高VQA性能的限制。我们假设VQA任务不能完全简化为视觉基础问题,因为其中一些问题涉及对新概念的常识推理[1]。为了验证我们的假设,我们进行了一项人类研究,我们要求5名人类受试者回答两个数据集的问题。这些受试者被显示了每个图像的整个知识源,而没有看到图像。他们被要求在给定的知识来源下选择每个问题的最佳多项选择。我们从每个问题类型中随机抽取500个问题(Visual7W中有六种类型,VQA中有三种类型)。人的准确性被报告为受试者中的多数投票。结果(Q + KS)报告于表4中。我们将受试者在回答没有图像(Q)和有图像(Q + I)的问题时的大多数人类表现与之前的记录[3,41]进行了比较表4:人因性能QQ + IQ + KSVisual7W0.3530.9570.522VQA-0.8790.476毫不奇怪,我们的知识源在不显示图像的情况下大大提高了人类的表现。然而,它们仍然无法弥补图像的缺失。我们在两个数据集上观察到Q + KS和Q + I之间超过40%的性能差距。这验证了我们的假设,即我们的知识来源不会过时丰富的视觉VQA任务的图像内容。我们在补充材料中按问题类型提供人的表现。我们观察到我们的模型和人类受试者在不同的问题类型上表现出不同的模式。我们的模型在关于谁的问题的基线上提供了最多的性能增益(10.5%),因为人是场景图中最常见的对象类别之一[20]。然而,人类受试者通过看到场景图在哪里问题上有最大的改进(25.4%),因为他们通常可以基于对象(例如,在看到手套和球棒后推断“棒球场”)。这意味着,人类可以利用知识资源,更复杂的方式,例如,利用常识来共同推理各种各样的概念。在这项工作中,我们有意保留模型设计的简单性我们简单的MLP模型要求输入存在多个选择由于我们的模型是模块化的,每个组件都可以独立地被更复杂的系统(例如,作为开放式VQA任务的应答解码器的序列发生器 我们的分析揭示了两个可能的方向来改进我们的模型:1)增加我们的知识来源,以增加视觉概念的多样性和覆盖面; 2)探索更好的方法来编码常识。此外,我们提出的迭代查询模型可以被看作是一个通用的框架,以获取任务驱动的信息,并很容易插入到其他类型的视觉任务,通过附加的记忆银行的预测模型。未来的方向是探索我们的模型在其他任务中的潜力。1161一个男人一个女孩一个男孩基线质询#1质询#2质询#3最近的杯子里的饮料是什么颜色的清楚Red.布朗蓝色的.图像中有玻璃吗?图像中有玻璃吗?玻璃与什么相互作用?(glass,x,y,w,h)(glass,x,y,w,h)(water,of,glass)时间预测:布朗蓝色的.蓝色的.清楚盘子在哪里在地板上.在洗碗机里。桌子上在柜子里。图像中有车牌吗?你能看到什么新物体?盘子看起来怎么样?(板,x,y,w,h)(地板,x,y,w,h)(板,绿色)预测:在柜子里。桌子上在地板上.在地板上.时间是谁拿着你能看到什么物体你能看到什么物体图像中有橙色吗?橙色的?(man,x,y,w,h)(woman,x,y,w,h)(orange,x,y,w,h)预测:个男人个男人一个女人一个女人时间如果司机踩下油门会发生什么?倒向死羊运动图像中有椅子吗?图片中有羊吗?图片中有羊吗?(chair,x,y,w,h)(sheep,x,y,w,h)(sheep,x,y,w,h)注意事项:误检时间预测:反了运动死羊死羊这场戏里有什么东西是用来灭火的吗?是否...图片中有自行车吗?图像中有人吗?图像中是否有消防栓?(自行车,x,y,w,h)(人,x,y,w,h)(消防栓,x,y,w,h)时间预测:号号号是的有几趟火车?10...你能看到什么物体?图像中有火车你能看到什么物体?(clock,x,y,w,h)(train,x,y,w,h)(clock,x,y,w,h)注意事项:误检预测:0.0.1.时间1.图5:我们最终模型的定性结果。我们展示了模型的预测,没有查询(即,MLP基线[17]),一个,两个和三个查询。左边显示了问题、图像和多个选择的子集,后面是我们的模型提出的三个箭头下方的答案是每个时间步的预测,其中绿色表示正确的预测,红色表示不正确。我们展示了我们的模型在查询过程中切换到正确/不正确答案的示例5. 结论我们提出了一个新的计划,通过迭代知识获取来解决视觉QA的任务我们的模型通过任务驱动的查询从外部来源主动获取新的证据。我们的实验表明,该模型能够利用新获得的证据,VQAVQAVQAVisual7WVisual7WVisual7W1162提高了回答视觉问题的表现。我们的模型是一个系统的初步尝试,学习与外部环境进行长期的,连续的学习。未来的方向包括探索更好的方式来表示常识,从较少的知识来源中收获信息,并将我们的模型推广到其他问题领域。1163致 谢 我 们 要 感 谢 Judy Hoffman , De-An Huang ,Christopher B. Choy , Kuo-Hao Zeng , Ran- jayKrishna , Jonathan Krause , Serena Yeung , andanonymous reviewers for useful comments.这项研究得到了ONR MURI奖的支持。引用[1] A. Agrawal、D.Batra和D.帕里克分析视觉问答模型的行为EMNLP,2016. 一、二、七[2] J. Andreas,M. Rohrbach,T. Darrell和D.克莱恩神经模块网络。在CVPR,2016年。2[3] S. Antol,A. Agrawal,J. Lu,M.米切尔,D。巴特拉角L. zitnick和D.帕里克VQA:可视化问答。ICCV,2015年。一、二、五、七[4] S.布兰森角Wah,F. Schroff,B. Babenko,P. Welinder,P. Perona和S.贝隆吉人类参与的视觉识别。ECCV,2010年。2[5] R. S.熊彩明Stephen Merity视觉和文本问答的动态记忆网络。ICML,2016。2[6] A.卡尔森,J.贝特里奇,B.基谢尔湾塞特勒斯,E. R.Hr-uschka,T.M. 米切尔一个无止境的语言学习的建筑在AAAI,2010中。2[7] X. Chen , 中 国 山 核 桃 A. Shrivastava 和 A. 古 普 塔 。NEIL:从Web数据中提取视觉知识。ICCV,2013年。2[8] A. Das,H.阿格拉瓦尔角L. Zitnick,D. Parikh和D.巴特拉视觉问答中的人类注意力:人类和深度网络会关注相同的区域吗?EMNLP,2016.2[9] A. 福 井 D. H. 帕 克 D 。 Yang , 杨 树 A. Rohrbach , T.Darrell和M.罗尔巴赫多模态紧凑双线性池化视觉问答和视觉接地。EMNLP,2016. 一、二、六、七[10] D. Geman,S.Geman,N.Hallonquist和L.尤尼斯计算机视觉系统的视觉图灵测试。Proceedings of the NationalAcademy of Sciences,112(12):3618-3623,2015. 2[11] A. Graves,G.韦恩和我丹妮赫卡神经图灵机。CoRR,abs/1410.5401,2014年。2[12] E. 格雷芬斯特湾M. Hermann,M.Suleyman和P.布伦森。学习用无限的记忆来记忆。2015年,在NIPS中。2[13] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR,2016年。3[14] B. Hixon,P. Clark,and H. Hajishirzi通过会话对话学习知识图来回答问题。 在计算语言学协会北美分会会议上:人类语言技术,2015年。2[15] S. Hochreiter和J.施密特胡博长短期记忆。神经计算,9(8):1735-1780,1997。2[16] T.- H. K. Huang,F. Ferraro,N. 穆斯塔法扎德岛米斯拉A.作者:J.格希克,X。He,P. Kohli,D.巴特拉角L.Zitnick,D.帕里克湖Vanderwende,M.厨房,和M.米切尔视觉故事。在计算语言学协会北美分会会议上:人类语言技术,2016年。2[17] A.贾布里河Joulin和L.范德马滕。重新审视视觉问答基线。在ECCV,2016年。一二三四五六七八[18] A. Joulin和T.米科洛夫用堆栈增广递归网推断算法模式2015年,在NIPS中。2[19] J. Kim和Y.吉尔将辅导原则应用于互动式知识获取。InternationalJournalof Man-MachineStudies , 65(10):852-872,2007. 2[20] R. Krishna,Y.Zhu,O.Groth,J.约翰逊,K。Hata,J.克拉维茨S. Chen,Y.卡兰迪蒂斯湖J. Li,D. A. Shamma,M.Bernstein和L.飞飞可视化基因组:使用众包密集图像注释连接语言和视觉。IJCV,2017年。二六七[21] A. 库马尔河,澳-地Irsoy,J.Su,J.布拉德伯里河英吉利湾皮尔斯翁德鲁斯卡岛Gulrajani,和R.索彻问我任何事情:用于自然语言处理的动态记忆网络。ICML,2016。 二、四[22] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Dolla'r 和 C.L. 齐 特 尼 克Microsoftcoco : 上下 文中 的通 用对 象。2014 年, 在ECCV。6[23] J. Lu,J. Yang,D. Batra和D.帕里克用于视觉问答的分层问题图像共注意NIPS,2016年。一、二、六、七[24] L.妈Z。Lu和H.李使用卷积神经网络从图像学习回答问题。AAAI,2016年。2[25] M. Malinowski和M.弗里茨一种基于不确定输入的多世界真实场景问答方法。在NIPS,2014。一、二[26] M.马林诺夫斯基,M。Rohrbach和M.弗里茨问问你的神经元 :基 于神 经的 方法 来回答 有关 图像 的问 题。ICCV,2015年。一、二[27] T. 米科洛夫岛 Sutskever,K. Chen,G. S. 科拉多,还有J·迪恩单词和短语的分布式表示及其组合性。在NIPS,2013年。3[28]V. Mnih,K. Kavukcuoglu,D. Silver,黑胫拟天蛾A. A.Rusu,J. 维尼斯M. G. Bellemare,A.格雷夫斯山Riedmiller,A.K. 菲杰兰,G. Ostrovski等人通过深度强化学习实现人性化控制。Nature,518(7540):529-533,2015. 4[29] K. Narasimhan,A. Yala和R.巴兹莱通过增强学习获取外部证据来改进信息提取。EMNLP,2016. 2[30] A. Pappu和A. I.鲁德尼奇面向目标对话系统的知识获取在第15届年度会议的特别兴趣小组的话语和对话,第194页,2014年。2[31] M.伦河,巴西-地Kiros,和R.泽梅尔探索图像问答的模型和数据NIPS,2015年。一、二[32] S. Ren,K.赫利河Girshick和J.太阳更快的R-CNN:用区域建议网络进行实时目标检测。2015年,在NIPS中。二、六[33] S. Sukhbaatar,A. Szlam、J. Weston和R.费格斯。端到1164端内存网络。2015年,在NIPS中。2[34] P. Welinder,S. Branson,S. Belongie和P.佩洛娜群体的多维智慧。在NIPS,2010年。2[35]J. D. Williams,N. B. Niraula,P. Dasigi,A. 拉克什米拉坦,C. G. J. 苏亚雷斯湾Reddy和G.茨威格快速扩展1165具有交互式学习的对话系统。在自然语言对话系统和智能助理,第1施普林格,2015年。2[36] T.威诺格拉德在计算机程序中表示数据的过程,用于理解自然语言.技术报告,麻省理工学院人工智能技术报告235,1971。2[37] M. Witbrock,D. Baxter,J. Curtis,D.施奈德河卡勒特P. 米拉利亚山口瓦格纳,K。Panton,G.Matthews和A.我是维泽多姆。一个用于周期知识获取的交互式对话系统IJCAI混合主动智能系统研讨会,2003年。2[38] Q. Wu,P.Wang,C.Shen,中国古猿A.诉D. Hengel和A.Dick
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功