没有合适的资源?快使用搜索试试~ 我知道了~
VQA无答案训练的新方法:问题图表示和可视估计器的集成
1VQA无答案培训以色列魏茨曼科学研究所vatashsky@gmail.com,shimon. weizmann.ac.il摘要近年来,教机器回答视觉问题的方法取得了重大进展,但目前的方法仍然缺乏重要的人类能力,包括以模块化方式集成新的视觉类和概念,为答案提供解释以及在没有明确示例的情况下处理新领域。我们提出了一种新的方法,包括两个主要部分:生成问题图表示和回答过程,由问题图的抽象结构引导以调用可扩展的可视估计器集合。训练是针对语言部分和视觉部分本身执行的,但与现有方案不同,该方法不需要使用具有关联问题和答案的图像的任何训练。这种方法能够处理新的领域(扩展的问题类型和新的对象类,属性和关系),只要相应的视觉估计是可用的。此外,它还可以为答案提供解释,并在问题不以图像为基础时提出替代方案。我们证明,这种方法实现了高性能和做主要的可扩展性,没有任何问答训练。1. 介绍视觉问答的灵感来自于人类在图像上回答特定问题的能力,这可能需要分析微妙的线索,以及整合先前的知识和经验。学习新的视觉类,属性和关系,可以很容易地集成到问答过程中。Hu- mans can elaborateon the answers they give, explain how they were derived,and why they failed to produce an ad- equate answer.当前通过机器处理VQA的方法[67,62,55,77,32]采取不同的路径,其中大多数回答系统直接训练从训练集的常见答案中选择答案,基于融合的图像特征(主要使用预先训练的CNN [25])和问题特征(主要使用RNN)。我们下面采取的回答方法是第一个,据我们所知,不依赖于任何明确的问题-问:什么形状的物体最接近问:有多少其他物体是相同的红色球体?大小与黄色可堆叠对象相同?A: cubeA: 2问:所有的船都是白色的吗?问:有一个人是不同的答:没有[满]:没有足够的白船性别比年轻人(因红船而失败)]最靠近杯子;他多大了?答:22-35岁图1.UnCoRd在没有QA培训的情况下推广到新的支柱-关系和关系(顶部),以及现实世界域(底部)。回答训练。它使用根据问题的结构组成的过程通过我们的“理解、编写和响应”(UnCoRd)方法进行的搜索首先,一个图形表示的问题,在类,属性和关系,补充与quantifiers和逻辑连接词。然后,回答过程遵循问题图,并寻求图中的类、属性和关系与图像的单个或多个分配(第3.3节)。该方法是模块化的,可扩展的,并使用中间结果来提供详细的答案,包括不基于图像的答案的替代方案,并通知不支持的类别。通过处理扩展域的能力,UnCoRd方法展示了构建通用应答方案的潜力,而不是与特定数据集耦合我们的工作包括几个新的贡献。首先,一种在CLEVR数据集上产生最先进结果的方法[30],而无需任何问答训练。其次,我们发展了基于序列到序列的方法,1037610377问题蓝色闪亮圆柱体前面的小块是什么颜色?1.关于GraphMapper(一)问题图(b)第(1)款c:立方体LSTM编码器LSTM解码器c:气缸前p:蓝色,金属p:小f:颜色?例如什么,是,那个,...,1,cylinder,.2.(一)…(b)第(1)款…Mask R-CNN包装程序c:Cc:Cr=Rp:P下...下一节点c:圆柱体图像下一个对象c:C失败检查目标支票纸张p检查r. - 是的-是的节点 c:立方体Success-r6在...前面Success-r成功6蓝6个小大小6个小尺寸棕色6金属材料颜色回答布朗c:对象类,f:查询属性,p:属性,r:关系图2.我们方法的示意图。第一阶段(1)使用基于序列到序列的LSTM模型将问题映射到图表示。在第二阶段(2),递归应答过程遵循图,在图像中搜索有效在每个步骤中,设置处理的节点,并根据节点的要求(利用相应的视觉估计器)检查对象(使用掩码R-CNN提取)如果成功,则设置一个新节点(根据DFS遍历),并再次调用该函数来处理未分配的子图。示例说明了流程:依赖于图像,将问题映射到它们的图形表示中。第三,我们描述了一种形式主义来表示广泛的可能的问题,并使用一种算法来找到图像中问题图的有效分配,并提供答案。第四,我们提出了一个模型,既可以在CLEVR上表现良好,也可以通过添加视觉估计(对象,属性和关系)而不需要QA示例来推广到新的领域图1中显示了一些示例(稍后在文本中详细说明)。2. 相关工作目前的回答方案主要是端到端的方法,训练为多类分类器。最近的许多工作集中在改善图像-问题融合特征[17,9,84,10,16],选择的注意机制,重要特征[80,54,47,4,12,59,50,27],包括自我和引导注意力[83,21,82],应用预先训练的网络[65,46,86],并结合其他视觉任务的输出[23,3,15,68,40,75,33,28]。有些人使用“事实”提取来提供推理场景类型)[73],图像标题[42,1,41]或通过将视觉“事实”与问题的逻辑形式联系起来其他集成的外部先验知识,通过生成对知识数据库的查询[72,14],将其融合在表示[78,38]中,使用文本图像描述[39]或通过添加损失项[66]。也讨论了先前的语言[22,20,13,76,57]。一些方法使用动态网络,其架构受问题影响[18,56]。神经模块网络(NMN)是由子模块动态组成的。最初的模块安排是基于问题的依赖解析[6,5],而后来的版本使用监督回答程序学习[31,26,52,63],包括概率模型[71]。请注意,这些模块仅作为特定数据集的回答网络的组件进行训练,并且不作为独立的视觉估计器。一种方法[81]执行全场景分析以执行程序。该方法使用问答训练来学习程序,因此不能通过简单地添加视觉估计器来扩展。此外,执行全场景分析(检测场景中的所有对象、属性和关系)对于比CLEVR限制更少的数据(特别是对于关系)可能变得不可行在我们的方法中,回答过程由问题引导,不进行全场景分析。它允许灵活地集成额外的视觉功能(例如,新颖的对象类),提供详细的答案并提出替代方案。这些容量是在不需要任何QA示例的情况下获得的目前的方法将模型拟合到特定的数据集并利用固有的偏差,这可能导致忽略问题/图像的部分,以及在新领域和重新措辞上的失败[2,60]。与我们追求的模块化方法相反,任何调整或升级都需要全面的再培训。3. 方法3.1. 概述在我们使用的形式主义中,一个没有量词的简单问题可以转换为一个关于图像的断言,该断言可能有自由变量(例如,颜色这个问题的答案是找到一个分配给图像,将使语句为真,并检索自由变量。从问题中派生的量词我们使用的程序寻求所需的分配,10378返回所需的答案。应答过程包括两个阶段(方案见图2):1. 问题映射到图形表示-首先,生成作为有向图的问题的表示,其中节点表示对象,边表示对象之间的关系。图组件包括对象、类、属性和关系。节点表示包括回答问题所需的所有对象视觉要求,这是以下内容的组合(参见补充材料第1节中的示例• 对象类c(例如马')。• 对象属性p(例如'红色“)。• 被查询的对象属性f(例如颜色“)。• 查询的集合属性g(例如编号“)。• 量词(如' all’,• 相对于另一个节点的数量(例如相同)。• 节点类型:常规或超级节点:节点的OR(具有可选的附加要求)。2. 递归过程-在这个阶段,递归过程在图像中找到图形的有效分配。每个节点所需分配的数量由其限定符确定。该过程遵循图形,调用相关子过程并集成信息以提供答案。重要的是,它只依赖于问题图的抽象结构,其中特定的对象类,属性和关系是参数,用于应用相应的视觉估计器(例如,要提取的属性)。所调用的子过程选自以下基本过程的池,这些基本过程是用于组成完整应答过程的简单可视• 检测某个类的对象。• 检查对象属性p是否存在。• 返回一个f类型的对象属性。• 返回一个对象的• 检查两个对象之间是否存在关系r我们构建了一个问题图,并使用它的抽象结构来指导回答过程,这使得我们能够通过添加视觉估计来处理新的领域但使用相同的回答程序。在我们的方法中,我们只训练问题到图的映射器和所需的视觉估计器。与QA培训不同,我们使用独立的培训,这些培训可以利用现有方法并单独开发这也简化了域扩展(例如,自动修改对于问题-图形示例比对于问题-图像-答案示例更简单)。3.2. 问题到图映射理解自然语言问题并将其解析为逻辑形式是一个难题,仍在研究中[29,7,74,11,58]。语言解析器检索问句[34]第34话,利用斯坦福解析器(Stanford Parser我们将问题到图的任务处理为从自然语言问题到图表示的翻译问题,训练基于LSTM的序列到序列模型[64]。图被序列化(使用DFS遍历)并表示为字符串序列(包括图字段的特殊标记),因此模型任务是将问题序列转换为图序列(参见补充材料第1节中的示例我们所有的模型都使用谷歌神经机器翻译模型的架构一个简单的后处理修复无效的图形。下面的描述从针对CLEVR数据训练的问题到图模型开始,然后详细说明针对扩展范围的问题训练的扩展模型的生成。3.2.1CLEVR数据的图表转换我们的基本问题到图模型是针对CLEVR问题和类别(3个对象,12个属性,4个属性类型,4个关系)。图形注释基于CLEVR回答程序[30],对应于数据集的问题。程序可以被描述为树,其中节点是对对象类、属性和关系执行视觉评估的函数。这些程序可以转换为我们的图形表示,为我们的映射器培训提供注释。请注意,概念可以映射到它们的同义词(例如,“球3.2.2扩展的图-图域CLEVR的问题是有限的,无论是在使用的类别和问题类型(例如,没有量词)。为了处理超出CLEVR范围的问题,我们使用修改后的问题集(随机化被证明可以实现域扩展[69])训练问题到图映射器有两种类型的修改:增加视觉元素的词汇(对象类、属性和关系),并增加新类型的问题。通过将CLEVR视觉元素替换为更大集合中的元素,词汇表得到了扩展。Thisoperation does not add ques- tion examples to the set, butuses the existing examples with replaced visual elements.请注意,由于此阶段处理的是问题映射而不是问题回答,因此自动生成的问题不必是有意义的(例如, 只要它们具有适当的映射,保持每个视觉元素的作用。为了保证图-问题对应,执行预处理,其中对于每个概念,将其所有此外,对于每个问题,特定视觉元素的所 有 出 现 都 被 相 同 的 术 语 替 换 。 We used threereplacement ’modes’, each generating a modified datasetbyselectingfromacorrespondingset(realworldcategories from exist- ing datasets):i) Minimal: Mostcategories are from COCO[43]和VRD [45](100个对象,32个属性,7个属性10379类型,82关系)。ii)扩展:VG: Visual Genome数据集的类别[35](65,178个对象,53,498个属性,53个属性类型,47,448个关系,根据数据集中的流行程度进行采样这些类别包括许多不准确之处,如混合类别(如"胖蓬松的objects:第二类问题修改增加了问题的可变性。我们创建了增强的问题集,其中将额外的示例添加到每个替换模式(包括“无”)生成的集合中这些例子包括“相同的p>”被“不同的p>”取代的问题<<<基本问题被定义为类、类与属性、类与2个属性、2个对象与关系的存在与计数问题,以及对象类(关系中)和属性类型(包括各种WH问题)的查询我们用于训练所有集合的单词词汇表是相同的:56,000个单词,由来自IWET '15[ 49 ]的英语词汇表与所有使用的对象类,属性和关系的联合组成问题和图形表示都基于相同的词汇表,图形词汇表中有额外的标记为了标记图形节点和字段(例如,,p>).针对以上所有修改的集合训练不同的映射器。图3中给出了一个使用“扩展-增强”模型映射的图示例请注意,修改后的问题虽然没有意义,但与原始问题具有相同的这意味着将执行相同的回答程序,实现我们将相同程序应用于类似结构化问题的意图c: object权 f:左侧尺寸c:球体p:青c:对象p:微小,红c:对象走向f:织物旁边c:女孩p:浅蓝色问:所有c:对象p:满的,绑起来的,平铺的人数:16人问:什么是大小的对象,都是问:什么是织物的对象,都是青色球体的权利和左侧的微小走向所有浅蓝色的女孩和红色的金属物体?在十六个完全捆绑的平铺对象旁边?图3.左:一个CLEVR问题和一个对应的图形。右:修改后的问题和相应的图表,使用扩展增强模型进行映射。修改后的表示的准确性得到确认,因为它匹配原始准确图(具有修改后的图概念)。3.3. 包装程序在这个阶段,递归过程在问题图和形象问题图、图像和为图像生成的掩码R-CNN [24]为递归处理每个节点的过程提供输入(见图2)。对于每个节点,根据节点的要求顺序调用基本程序(见第3.1节)所需的有效赋值的数量由节点的限定符(单个赋值、特定数字或全部)或所有对象的需要来设置,计数、数字比较)。接下来处理的节点是根据DFS遍历。每个基本程序都提供了一个答案,用于产生最终答案,报告不支持的类别,并根据中间结果提供详细说明有关更多详细信息和示例,请参见补充材料的第2节。3.3.1CLEVR视觉评估器为了在图像中找到问题图的有效分配并提供答案,需要训练相应的视觉对象的位置不是解释性地为CLEVR数据提供,但它们可以使用提供的场景注释自动恢复。该过程为CLEVR对象提供了近似轮廓注释(见图4),用于训练。例如,使用Mask R-CNN [24]进行分割。对于属性分类器,训练简单的CNN模型(3个卷积层和3个全连接层)来分类颜色和材料;根据对象的底部坐标和最大边缘估计大小根据对象的位置对关系进行分类3.3.2真实世界视觉估计器处理问题,在现实世界的领域以外的CLEVR对象进行利用现有的视觉估计。例如,分割我们使用预先训练的掩码R-CNN [24]用于80类COCO数据集[43]。可以结合任何其他视觉估计器以增强应答能力。在我们的实验中(第4.2.5节和图1),我们使用颜色图估计[70],年龄和性别分类[37](利用人脸检测[53])和深度估计[44](用于估计空间关系)。4. 实验实验测试了UnCoRd系统的能力,首先,为CLEVR数据集提供准确的结果,其次,处理扩展问题和现实世界的我们的分析包括两个回答阶段:创建问题的正确图形表示,并回答问题。 亚当优化器被用来for question-to-graph and visual estimators training with alearning rate of 10−4 (10−3 for the ’Extended-Enhanced’model), selected according to the corresponding validationset results. 每个模型训练都使用一个NVIDIA10380Tesla V100 GPU。所有报告的结果均为单一评价。对于每个模型,在所有实验中使用相同的版本。除非另有说明,否则系统被配置为提供简短的答案(简洁且没有详细说明);图中图像上的标记对应于中间结果。代码将在https://github.com/benyv/uncord4.1. CLEVR实验我们为CLEVR训练了一个问题到图模型还对第3.3.1节中描述的目视估计器进行了培训,并提供了表1中给出的结果。CLEVR关系是通过使用物体坐标的简单规则来估计的训练的问题回答域。4.2. 域外实验接下来,我们测试超出CLEVR数据范围的UnCoRd我们在修改和增强的CLEVR数据上训练了问题到图模型,并使用了相应的视觉估计。我们研究了域扩展是否可能,同时保持对原始数据的良好性能4.2.1提问图为了评估问题表示,我们训练和测试了(见3.2.2节)8个问题到图模型,其中包括所有替换模式(无,最小,扩展,VG),每个模型都以两种形式训练:碱性(B),即没有添加问题示例(700K示例)和增强(E),I.E.有额外的例子(1.4M的例子)。在表3中,我们报告了所有8个模型的验证集上每个训练模型的结果,这提供了关于不同集的泛化信息。请注意,作为图4.实例分段示例CLEVR数据。左:GT(从场景数据近似),右:结果。表1.ClevrCLEVR验证集包括从概念到其同义词的映射(见第3.2.2节),通过“最小”、“扩展”和“VG”模型对“无”数据的预测我们在CLEVR测试集上测试了UnCoRd系统的回答性能。表2中给出了结果,包括其他最先进的方法(所有使用答案标签进行训练)。方法存在计数Comp.Num.查询属性Comp.Att.总体测试集整体价值设置IEP-强[31]97.192.798.798.198.996.9电影[56]99.394.393.499.399.397.6DDRprog[63]98.896.598.499.199.098.3[27]99.597.199.199.599.598.9TbD[52]99.297.699.499.599.699.1HAN[50]99.697.296.999.699.698.8[81]a99.999.799.999.899.8-99.8非核心无B99.8999.5499.9199.7499.8099.7499.8表2.CLEVR最先进方法的QA准确度a报告为val。因此未与测试集结果进行可以看出,我们的模型实现了最先进的结果,而无需针对视觉问答任务进行训练,也不像其他方法那样此外,UnCoRd可以使用中间结果详细说明和解释答案和失败,并扩展处理范围,无需图像和相关QA示例,如第4.2节和图6所示。 以抽样 在10,000个验证集示例中,所有错误都是由于错误的视觉估计器因此,对象坐标的准确注释(如在NS-VQA [81]中执行的)甚至可以进一步减少少量错误。请注意,NS-VQA需要全场景分析,这对于具有大量对象和关系的域扩展来说是不可伸缩的。它还使用带有问答对的图像来训练程序,将方法与特定将每个概念同义词转换为单个形式。火车测试没有一B E最小BE扩展B EBVGE没有一BE10099.749.599.80.50.50.20.40.10.10.00.10.10.10.10.1最小BE99.899.048.998.698.498.050.097.70.50.50.31.01.21.10.61.1扩展BE99.199.148.698.798.297.949.997.596.295.749.195.818.119.39.420.0VGBE87.590.044.890.065.763.734.664.184.181.945.383.076.975.041.977.1表3.所有数据类型的问题到图形映射的准确性结果表明,模型在具有比训练数据更低的变异性的数据上表现良好。“扩展”模型在其相应数据上的高性能说明,在问题到图映射中可以进行实质性扩展,而无需任何新的由于其数据中的元素不合适,预计VG模型需要额外的测试来检查VG模型在不同领域的可能优势我们接下来报告这样的测试。4.2.2VQA表示在本实验中,针对不同的数据集测试表示能力。由于通常不提供与我们的图形表示对应的注释,我们从VQA [8]验证集中抽取了100个问题,并人工检查了8个问题到图形模型的结果(见第4.2.1节)。表4中的结果表明,模型代表新领域的能力存在很大差距。训练的模型估计器APIoU=.50 Acc.Ins. 分段99.0颜色99.98材料99.97大小10010381映射器存在计数补偿Num.查询Att.Comp.Att.整体B 99.89 99.54 99.91 99.74 99.80 99.74没有一B E最小扩展VGBEBEBE特别是在CLEVR上,根本不能推广到未经训练的领域。随着模型在更多样化的数据上进行训练,结果得到了大幅改善,VG增强模型的峰值明显高于其他模型。这在图5中给出的示例中也是明显的,其中图的适当性以类似的方式增加该结果是有趣的,因为使用该模型也为CLEVR提供了高准确度(见表5)。对于在训练中未使用的数据域(VQA数据集域)实现了实质性的性能增益,同时在原始数据(CLEVR)上保留了良好的结果,这一事实证明了该方法提供用于视觉问题的通用回答系统的潜力需要进一步调查的手段,以丰富问题描述的例子,并产生进一步的显着改善。10121222223450表4. VQA [8]样本的图形表示的准确性,针对不同的UnCoRd映射器给出。正如预期的那样,在更多样化的数据上进行训练可以更好地跨领域泛化。问:这位年轻的棒球运动员下面是什么样的场地?c:立方体精度降低。这表明,通过更多的可变训练,我们可以处理更复杂的问题,同时在更简单的领域保持良好的结果CLEVR问题和其他问题的CLEVR图像示例如图6所示(使用(a) 问:有一个黄色的东西(b)问:有多少个大立方体是一个橡胶的东西的右边不同的颜色比大的灰色橡胶圆柱体的左边?圆柱体;它的材料是什么?A:3A:金属(c) 问:立方体是什么颜色的(d)问:是所有的球体紫色?四个大球体的右边没有[满]紫色的不够A:黄色球体(由于红色球体而失败)]图6.在CLEVR图像上回答不同问题类型的示例:(a)取自CLEVR,(b)包括f:材料’samec:圆柱体克鲁德:什么“在下面”c:棒球p:年轻颜色stence(+4.2.4CLEVR人类将CLEVR图像与不同问题一起使用的示例是CLEVR-Humans [31](7145个问题,非基本最小增强型VG增强型图5.为自由形式问题生成的图形(来自VQA [8]数据集)。蓝色文字:准确的概念,红色:不准确。4.2.3保持CLEVR问题的性能我们评估了CLEVR测试集的性能变化,因为问题到图模型的训练数据可变性增加。结果在表5中给出。没有一 E99.8999.5499.9199.7499.8099.74MinB99.8199.3699.8799.7399.8099.68E99.6999.2199.4799.4699.5999.46分机B96.8289.3478.6499.4099.4194.80E99.7899.3398.3699.6599.7699.49VGB96.8289.3478.6499.4499.4194.81E98.0397.3996.8897.6297.2297.49表5.使用不同问题到图形映射器很明显,即使是接受过训练的模型, 一测试集),要求人们为CLEVR图像提供具有挑战性的问题。这些问题在措辞和所需的先验知识方面各不相同。问:最左边的物品是什么颜色?(GT:紫色)None-E A:棕色,VG-E A:紫色IEP-Str A(无FT):蓝色,IEP-Str A(FT):紫色表6. CLEVR-Humans测试设置 为 state-of-the-art问:这些东西中有多少可能是一堆一堆的吗(GT:8)ods,有和没有微调None-E A:1,VG-E A:未知类:彼此比原始CLEVR数据大得多的词汇量和问题类型仍然表现良好,大多数情况下只有轻微的(FT).IEP-Str A(FT):0,IEP-Str A(FT):2图7. CLEVR示例-人类问题C:地面f:实物“在下面”c:棒球运动员p:年轻B60.4660.5948.2452.2343.9752.8343.4748.71未校正-无EB未校正-最小EB非CoRd-ExtEBUnCoRd-VGE方法无FTFTIEP-18k54.066.6膜56.675.9Mac57.481.5NS-VQA-67.010382表6中给出的结果表明,对于没有微调的模型,我们的“None-Enhanced”模型提供了最先进的结果(没有任何答案示例)。对于所有模型,训练中不包括措辞的问题都容易出错,包括概念的“幻觉”。请注意,CLEVR-人类的答案与CLEVR中的答案相同(通过对工人的指示),因此偏向于CLEVR的模型(“无”模型)有更好的成功机会。具有丰富词汇表的模型可以更准确地捕获问题图,但这可能包括没有相应视觉估计器的概念,从而产生诸如以下的答案:“未知的关系”。添加这样的视觉估计器将提高性能。由于准确度计算不奖励这种限制指示,所以仅仅50%回答是/否和尺寸问题)。然而,指出局限性可以更好地了解系统这样的答案可以在QA系统中通过减少错误答案的“分数”或对识别缺失组件的答案给予部分分数来提升图7给出了CLEVR-人类问题的示例。很明显,更通用的模型(VG-增强)可以处理范围外的问题(顶部)和报告限制(底部)。4.2.5可扩展到真实世界的图像UnCoRd系统可以通过简单的可视化估计器插件自然地扩展到新这在图1中示出,用于使用新的属性/关系以及用于真实世界图像的完全不同的域。增刊的第3节介绍了一个增加具有新性质的问题的接下来,我们将描述一个针对真实世界图像的实验,其中我们使用真实世界的视觉估计器(见第3.3.2节)和我们最通用的训练映射器(VG增强)。我们将我们的模型与Pythia [85]进行了比较,Pythia在VQA v2数据集上具有最佳性能[19]。实验包括两部分:1. ’Non我们自由生成的问题包括以下一个或多个类别:• 由逻辑连接词(“and”,“or”)连接的属性和关系要求的组合• 属性比较(例如,相同• 量词(如'all’,• 数量比较(例如fewer’,• 由两个以上的对象通过关系连接而成的链。2. “VQA v2”问题:从VQA v2数据集[ 19 ]中抽取的100个问题,其术语具有视觉估计值,UnCoRd和明确的答案(由我们注释)。除了第3.3.2节中提到的估计量外,ConceptNet [61]被UnCoRd用来在使用上级组时查询可选类(例如,animals ')。更多详情见补充材料第4节。表7中给出的非VQA v2结果证明了UnCoRd对于这些类型问题的实质性优势。所有UnCoRd的失败都是由于调用的视觉估计器的错误结果。请注意,Pythia中是/否和WH问题之间的性能差异很大,而UnCoRd中的差异很小。我们发现,皮提亚认识到是/否组(即。答案为“是”/“否”),但其准确率(56%)接近概率水平(50%)。图8中提供了成功的UnCoRd回答非VQA v2问题的示例,而图9中显示了失败示例(包括失败源)。Pythia方法是/否WH总体皮提亚[85]56.014.035.0非CoRd-VG-E88.064.076.0表7.在COCO图像上对VQA v2域之外的100个问题(包括量词、比较、多关系链以及多关系和属性)进行分类准确性测试。问:有多少手机是左的问:什么对象是支持的人红色手机是最接近的,是左的人以上的权利手机?滑板?UnCoRd A:9,Pythia A:4UnCoRd A:自行车,Pythia A:滑板问:有多少手机是左的问:什么东西是对一个物体,是左,右手机?滑板上面的人的照片UnCoRd A:11,Pythia A:5UnCoRd A:人,Pythia A:滑板问:这是多少人,问:什么颜色的行李箱,这是两个右边的左边的球一样,下面一个蓝色的行李箱和左边的一些球?行李箱?UnCoRd A:否,Pythia A:否UnCoRd A:红色,Pythia A:蓝色问:这是多少人,问:什么颜色的行李箱,这是两个左边的球比下面的蓝色行李箱和右边的球的数量更大的权利?行李箱?UnCoRd A:是,Pythia A:否UnCoRd A:橙色,Pythia A:蓝色图8. UnCoRd成功回答问题在COCO图像上的VQA v2域之外。100个VQA v2问题的结果见表8.可以看出,与Pythia [ 85 ]端到端模型相比,UnCoRd10383问:离风筝最近的是什么颜色的问:有一个瓶子是一个瓶子剩下的;橙色风筝的左边是黄色风筝吗?有多少酒杯是对的?UnCoRd A:没有有效的橙色风筝,Pythia A:蓝色 UnCoRd A:没有瓶子,Pythia A:5问:有一个瓶子,是一个瓶子的权利,黄色的风筝,是正确的多少酒杯离开它?橙色风筝?UnCoRd A:无瓶,Pythia A:5UnCoRd A:没有有效的橙色风筝,Pythia A:蓝色故障来源:错误的颜色估计[70]故障源:对象检测失败(下图:上面红框中的失败对象)(下面:掩码R-CNN结果[24])Q:会出现什么样的动物?问:车后面有船吗A:马,马马,这里马是船在船的后面[动物的子类]皮提亚A:是的Pythia A:马对象像素预测像素的颜色(黄色而不是橙色)问:摩托车上有多少人?问:图中有黄色的公交车吗?图9.在回答问题时出现UnCoRd故障的示例在COCO图像上的VQA v2域之外。尽管问题是从VQA v2中取样的,VQA v2是用于Pythia训练的数据集。与前一部分一样,所有Un-CoRd图10给出了VQA v2问题的UnCoRd答案示例方法是/否WH整体皮提亚[85]90.068.377.0非CoRd-VG-E97.588.392.0表8.从VQA v2数据集中抽取的100个问题的分类准确度(根据UnCoRd中的视觉估计器)。上述对真实世界图像的实验表明,当相应的视觉估计器可用时,我们的方法比领先的端到端模型表现得更好,无论是对于端到端模型的训练域之外的问题(其中优势是实质性的)还是对于来自该域的问题。这是在没有任何问题回答训练的情况下实现的。5. 结论和今后的方向我们提出了一种新的方法来回答视觉问题相结合的语言步骤,它映射到一个图形表示的问题,与一个新的算法,映射到一个回答过程的问题图。由于该算法使用该图的抽象结构对语言步骤执行训练以学习图形表示,并对视觉步骤执行训练以训练视觉估计器。然而,与现有方案不同,我们的方法不使用图像和相关的问答对进行训练。我们的方法允许处理新的域提供相应的视觉估计。问题图与回答程序UnCoRd A:1UnCoRd A:否[满:没有黄色Pythia A:1总线(由于蓝色总线而失败)]皮提亚A:没有问:有多少匹棕色马问:有多少人UnCoRd A:1,Pythia A:2UnCoRd A:6,Pythia A:7图10.VQA v2问题的UnCoRd答案示例(包括也给了方法一些能力来解释它的答案,并在问题不是基于图像时提出替代方案。基于这种方法,我们的回答系统在一个具有挑战性的数据集上取得了近乎完美的结果,没有使用任何问答示例。我们已经证明,问题表示和回答能力可以扩展到训练中使用的数据范围之外,保留原始域的良好结果。需要做大量的工作来获得一个能够在完全一般的图像和问题上表现良好的系统。主要的直接瓶颈是获得具有广泛问题的一般表示能力的问题到图的映射。问题图表示也可以被增强以支持具有更复杂逻辑的问题,以及扩展所支持的视觉类别的范围(例如,全局场景类型)。任何一般的VQA都需要大量的估计能力,因为任何视觉类别都可以查询。在UnCoRd中,它们以模块方式递增,并自动与现有问题集成。目前的方案,包括我们的方案,才刚刚开始解决的其他基本领域是在回答过程中使用外部的、非视觉的知识,以及详细的、信息丰富的回答的组成,将VQA的语言和视觉方面结合起来。鸣谢:这项工作得到了欧盟地平线2020框架785907和10384ISF赠款320/16的支持。10385引用[1] Somak Aditya,Yezhou Yang,and Chitta Baral.针对视觉问题回答的端到端神经架构的显式在AAAI,2018。[2] Aishwarya Agrawal,Dhruv Batra和Devi Parikh。视觉问答模型的行为分析。在自然语言处理中的经验方法会议,美国德克萨斯州奥斯汀,2016年。[3] Aishwarya Agrawal , Dhruv Batra , Devi Parikh , andAnirud- dha Kembhavi.不要只是假设;看一看并回答:有视觉问答的前科。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。[4] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议集,第6077-6086页[5] Jacob Andreas,Marcus Rohrbach,Trevor Darrell,andDan Klein.学习构建神经网络进行问答。在计算语言学协 会 北 美 分 会 会 议 记 录 中 : 人 类 语 言 技 术(NAACL),2016年。[6] Jacob Andreas,Marcus Rohrbach,Trevor Darrell,andDan Klein.神经模块网络。在IEEE计算机视觉和模式识别会议论文集,第39-48页[7] 雅各布·安德烈亚斯,安德烈亚斯·弗拉丘斯,斯蒂芬·克拉克。语义分析是机器翻译. 在计算语言学协会第51届年会的会议记录(第2卷:Short Papers),第2卷,第47- 52页,2013年。[8] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C.劳伦斯·齐特尼克和德维·帕里克Vqa:可视化问答。2015年,国际计算机视觉会议(ICCV)[9] HediBen-Benges , Re'miCadene , MatthieuCord ,andNicolasThome.Mutan:用于视觉问答的多模态折叠融 合 IEEEInternational Conference on Computer Vision(ICCV),2017年。[10] Hedi Ben-Younes,Remi Cadene,Nicolas Thome,andMatthieu Cord.块:双线性超对角融合视觉问题回答和视觉关系检测。在AAAI 2019-第33届AAAI人工智能会议,2019年。[11] J. Berant,A.周河Frostig和P.梁Freebase上问答对的语义解 析 。 In Empirical Methods in Natural LanguageProcessing (EMNLP),2013.[12] Remi Cadene,Hedi Ben-Younes,Nicolas Thome,andMatthieu Cord.Murel : Multimodal Relational Reasoningfor Visual Question Questioning。在IEEE计算机视觉和模式识别会议CVPR,2019年。[13] Remi Cadene 、 Corentin Dancette 、 Hedi Ben-younes 、Matthieu Cord和Devi Parikh。Rubi:减少视觉问答中的单模态偏差. arXiv预印本arXiv:1906.10169,2019。[14] Qingxing Cao,Bailin Li,Xiaodan Liang,and Liang Lin.可解释的高阶视觉问题推理:一个新的基准和知识路由网络。arXiv预印本arXiv:1909.10128,2019。[15] Mikyas T Desta,Larry Chen,and Tomasz Kornuta. vqa中基于对象的推理。在计算机视觉应用冬季会议上,WACV。IEEE,2018年。[16] Tuong Do , Thanh-Toan Do , Huy Tran , ErmanTjiputra,and Quang D.交易。紧凑的三线性互动的视觉问题-灰回答。在ICCV,2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功