基于诱导符号空间的可解释视觉推理

70 浏览量更新于2023-10-13 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1878100101000基于诱导符号空间的可解释视觉推理中豪王1，凯王3，莫宇2*，Jinjun Xiong2，Wen-mei Hwu1，Mark Hasegawa-Johnson1，HumphreyShi3，1，4*1UIUC，2MIT-IBM Watson AI Lab IBM Research，3U of Oregon，4Picsart AI Research（PAIR）摘要我们研究了视觉推理中的概念归纳问题从与图像相关联的问题-答案对中识别概念及其层次关系;以及通过对所归纳的符号概念空间进行处理来实现可解释的模型。为此，我们首先设计了一个新的框架名为对象为中心的组合注意模型（OCCAM）执行视觉推理任务的对象级视觉特征。在此基础上，我们提出了一种利用物体视觉特征与疑问词之间的注意模式线索来归纳物体概念和关系概念的方法最后，我们实现了更高层次的可解释性实施OCCAM的对象表示在诱导的符号概念空间。CLEVR和GQA数据集上的实验证明：1)我们的OCCAM实现了一种新的技术状态，而不需要人工注释的功能程序; 2）我们的诱导概念既准确又充分，因为OCCAM在视觉特征或诱导符号概念空间中表示的对象上实现了同等的性能。1. 介绍视觉问答（VQA）的最新进展[1，37，19，3，17，24，16，47，33]通常依赖于我们的系统可以在图像上仔细设计神经注意力模型，并依赖于预定义的概念列表来增强注意力模块的组合推理能力。人的先验知识在模型设计的成功中起着至关重要的作用。我们关注的是这一领域中研究较少的问题-通过充分性，我们希望在使用诱导概念代替原始视觉特征时保持VQA的预测准确性我们考虑对视觉推理重要的概念，包括对象的属性（例如，红色，立方体）和对象之间的关系（例如，*对应H。Shi和M. Yu.火车概念回归概念归纳视觉特征概念obj_0 obj_1 obj_2在obj_0 obj_1 obj_2灰色红色蓝色绿色棕色紫色青色黄色球体立方0010000001气缸0100000001000101001000000101001obj_0011obj_1000前 obj_0 obj_1 obj_2obj_2obj_0000obj_1右obj_0 obj_1 obj_2obj_2100obj_0011obj_1001左obj_0 obj_1 obj_2obj_2large1小0金属1哑光0obj_0000obj_1100obj_2110什么是大的东西是在前面的块是后面的块是前面的大的闪亮的块做的？合成推理哑光圆球大气缸超级概念概念大圆柱球体球在棕色圆柱体的后面有一个大球，它的颜色和红色小橡胶球左边的小橡胶球的颜色一样吗图1：我们的框架的说明。我们的模型归纳出的概念和超概念的注意力之间的相关性的对象和问题词的图像-问题对的路径所示的蓝色箭头。然后，它回答了一个关于图像的问题，通过合成推理的对象和对象关系的诱导符号表示，显示为橙色路径。左、前）。上述范围和充分性标准需要将概念的诱导符号准确地关联到视觉特征和单词两者，使得问题-图像对的每个新实例可以被变换到诱导概念空间中以用于进一步计算。此外，有必要识别超概念，即，概念子集的超概念（例如，形状）。超概念中的概念是排他的，因此系统知道每个对象在每个子集中只能拥有一个值这将结构信息引入到概念空间（每个视觉对象的多个独热向量），并进一步保证了上述变换的准确性。研究的价值有两个方面。首先，我们提出的问题的目的是识别视觉概念，他们的argument模式（属性或关系）和他们的hierar- chy（超概念），而不使用任何概念级的sun-level。1879透视解决这个问题，既解放了人类的注释和人类设计的概念模式，在以前的视觉推理工作所需的努力。同时，与相关的现有问题（如无监督或弱监督的视觉接地）相比，该问题在技术上更具挑战性第二，通过限制视觉推理模型对归纳概念的处理，概念归纳能力提高了视觉推理模型的可解释性。与以前依赖于人类编写的规则将神经模块与给定概念定义相关联的可解释视觉推理模型不同[16，33，40]，我们的方法在学习过程中自动解决了概念定义和关联的可解释性，而不需要权衡手工制作的模型设计。我们通过三个步骤来实现所提出的任务。首先，我们提出了一种新的模型架构，以对象为中心的复合注意力模型（OCCAM），它通过使用ResNet [14]提取对象级视觉特征并根据每个对象的边界框池化特征来执行对象级视觉推理而不是像素级。对象级推理不仅改善了现有技术，而且为概念关联和识别提供了更高层次的可解释性。第二，我们受益于训练的OCCAM的注意力值的对象，以创建分类器映射视觉对象的话;然后从如图1所示的对象-词同现矩阵导出概念和超概念。最后，我们的基于概念的视觉推理框架预测对象和对象关系的概念;然后使用预测的符号概念嵌入而不是原始视觉特征来执行组合推理。在CLEVR和GQA数据集上的实验证实，我们的整体方法提高了神经视觉推理的可解释性，并保持了预测准确性：（1）我们的OCCAM改进了以前不使用外部训练数据的最先进的模型：（2）我们的诱导概念和概念层次在人类学习中是准确的;（3）我们的诱导概念对于视觉推理是足够的-用概念替换视觉特征只会导致大约1%的性能下降。2. 相关作品视觉问答（VQA）需要模型来推理关于图像的问题以推断答案。最近的VQA方法可分为两组：整体模型[45，42，1，37，19]和模块化模型[2，3，17，24，16，47，33]，根据该方法是否一个典型的整体模型，MAC [19]，执行迭代推理步骤与注意力机制的图像。模块化框架NS-CL [33]在提取的特征上设计了多个主函数来解释推理过程。场景图接地需要构建关系图像中对象之间的关系[44]设计了一个图R- CNN模型来检测对象并同时对它们之间的关系进行分类。[5]使用图形将单词和短语接地到图像区域。[46]建议在无监督设置中将单词与图像概念联系起来。然而，所有这些作品都有预定义的对象和关系概念。我们着重从语言的组合性中归纳出概念，以便更好地解释推理框架。模型可解释性旨在解释神经模型的[6]提出了网络解剖来量化CNN的可解释性[49]用决策树在语义层面解释了CNN[40]从图像生成场景图以明确地跟踪推理流。[35，16]集中于视觉注意以提供增强的可解释性。我们的工作是密切相关的自我解释系统通过合理化[31，7，48]。这些工作通常提取输入的子集作为解释，而我们的工作通过学习结构解释定义的部分（即，我们的概念层次结构）以及解释（即，概念级推理流程）。视觉概念学习有助于广泛的视觉语言应用，例如跨模态检索[29]，视觉字幕[25]和视觉问答[32，4]。[47，33]试图解开视觉概念学习和推理。基于从VQA学习的视觉概念，[12]学习元概念，即，关于概念的关系概念，关于元概念的增强QA对。我们的工作不同于以往的学习概念和超概念没有外部知识。3. OCCAM：以对象为中心的视觉推理本节介绍了一种新的神经体系结构，以对象为中心的组合注意力模型（OCCAM），它在对象级视觉特征上执行视觉推理该模型不仅实现了最先进的性能，而且在诱导对象或关系方面发挥了关键作用如将在第4节中描述的那样，可以理解的概念。图2显示了我们的一般框架，有两个训练阶段，每个阶段都包括从输入图像和问题中获得答案的过程。阶段1（黑色路径）对应于我们的OCCAM的训练，其中我们训练对象级特征提取器、组合推理模块和问题嵌入LSTM。阶段2（红色路径）对应于基于前述训练的神经模块的符号概念的归纳，以及概念投影模块的训练，使得归纳的概念可以容纳在OCCAM流水线中该图显示了OCCAM在我们的框架中扮演的核心角色。3.1. 组合推理符号。如图2所示，我们将视觉向量命名为vs，将来自组合推理模块的输出记忆向量命名为m，将用于问题的嵌入词向量命名为ws，并且将问题嵌入命名为q。1880ⓈQIFGXQI图2：框架和组合推理模块。左图显示了总体框架;阶段1训练路径以紫色绘制，阶段2训练路径以红色绘制。两个训练阶段共享黑色路径我们提出的对象级特征提取器、概念回归模块和概念投影模块的结构如图3、图4和图7所示特征提取器（图3）。在输入图像后，提取器产生一组向量vs，每个向量对单个对象的一元视觉特征及其与其他对象的交互进行编码该模块按照以下步骤工作：(1) 在[33]之后，我们使用Mask-RCNN [13]来检测图像中的所有对象并输出它们的边界框。图像被馈送到在ImageNet [10]上预先训练的ResNet34网络[14]以生成特征图。(2) 在ResNet34特征图之上，我们应用图3：我们的对象级特征提取器的架构。组合推理框架遵循VQA设置：给定问题和图像作为输入，需要模型返回正确的答案选择。因此，目标函数可以写为：L（ws，vs，q）=- yklogF（qk，G（wsk，vsk，qk））（1）第一章：qk=（wsk），vsk=（imk）。K是图像-问题对的总数，y是-热地面真值向量，是分类器，是推理模块，是问题嵌入LSTM，是视觉特征提取器，并且im是图像输入。MAC推理模块[19]以顺序的方式处理视觉和语言输入。如图2（右）所示，每个MAC单元包含使用字嵌入来控制哪些对象特征应该被读取和写入存储器的控制单元和执行读取和写入对象特征的R/W（读/写）单元;用w标记的蓝色图代表全连接层，符号代表Hadamard乘积。更多详情请参见附录A。3.2. 以对象为中心的组合注意模型我们的OCCAM网络如图2所示，具有阶段1路径。它执行MAC风格的推理，但在我们提出的对象级生成的对象级视觉特征全局平均池化以得到单个全局特征向量（图中的灰色向量）。我们将这个全局向量与每个位置的特征图连接起来，然后是三个卷积层。这个全局向量是至关重要的，因为它允许视觉特征对对象之间的交互进行编码;并且三个卷积层在每个位置将局部和全局特征融合成单个视觉向量。(3)最后，为了从上述像素级融合特征中获得对象级特征，我们使用RoI align [13]将对象的边界框投影到融合特征向量上以生成RoI特征图;并对每个对象的这些RoI图求平均池以产生对象级vs.我们的对象特征提取器在第1阶段训练中与具有Eqn（1）的推理模块联合优化4. 概念归纳与推理本节描述了我们如何实现我们的目标，归纳符号概念的对象和执行组合推理的归纳概念。首先，我们形式化概念归纳问题（4.1节）。第二，建立在学习OCCAM网络在前一节中介绍，我们建议归纳一元对象属性或对象之间的二元关系的概念最后，我们提出了符号概念上的合成推理，用诱导概念代替对象级特征（4.3节）。对象级特征提取器视觉向量1期组合推理模块2期记忆向量（m）概念回归模块一元概念二元概念概念投射模块分类器与磨砂立方体颜色相同的小圆柱体词向量…问题嵌入BiLSTM问题嵌入（$）哑光投影概念向量&组合推理模块MAC信C$%，ws控制C1R/W…%，wsC我控制…控制%，wsvs$…R/W0$i-1$I. . .. . . 这是vsR/W$控制C1- 1%W%iWc%iw我CiWSR/W$i-1WCi$i-1vsW⨀vsWw（ W$I我读vs写特征提取器conv对象检测器池ROI align池上采样softmax权重平均softmax权重平均1881对于vs，ws2DATASETdo对于v12vsdoforcw2ws\Mu doy=（R（ v1，cw，m0）>bdcw）forcw2ws\Mb doPu=Pu[{（v1，cw，y）}对于v22 {vs-v 1}执行 y=（R（ v1，cw，W（m0，v2））> bdcw）Pb=Pb[{（v1，v 2，cw，y）}CC·C--2个•2C•2CCBB 2BB 2R 2W 2我R·W·我我我我我我{}B--算法一：分类器训练数据生成。ST（·）将向量R2RR3分解为一组R3值。 GMM（·）用途图4：概念回归模块的结构。 v1和v2是表示两个对象高斯混合模型对一组数据点进行聚类。FB（·）找到2个高斯分量的决策边界。是指示器功能。结果： Pu ，PbPu={}，Pb={}而cw是词向量。 m0是固定向量，并且对于x2Mu[Mbdo对于一元概念分类器，mw等于m04.1. 问题定义我们考虑确定三种类型的概念：（1）作为对象属性的一元概念u（例如，红色、立方体等）; (2)作为任何两个对象之间的关系确定的二元概念B（例如，左、前等）;和(3)超概念是某些事物上位词Sx={}，bdx=0对于vs，ws2DATASETdoforcw2ws\MudoScw=Scw[ST（R（vs，cw，m0））forcw2ws\Mbdoforv2vsdoScw=Scw[ST（R（vs，cw，W（m0，v）对于x2Mu[Mbdo概念的子集（例如，C、颜色、形状等）受限于该规定每个对象在每个超概念下只能拥有一个概念，例如，立方体和球体。由于问句涉及对象并以图像形式描述对象关系，更重要的是，问句包含了得出答案所需的所有语义信息，因此从问句中引出概念是很自然的。因此，我们假设所有的一元和二元概念都有其对应的词;并且这些词是来自所有训练问题的名词或形容词的子集我们将描述一元概念和二元概念的词的集合分别表示为Mu和Mb因此，概念归纳的目标包括以下任务：视觉映射：对于每个概念cu或b，学习从视觉特征v到c的映射。换句话说，学习预测函数fc（v）0，1以从对象的视觉特征v预测概念c的存在。文字映射：对于每个概念c、u或b，识别一子集表示相同概念的同义词，例如，“立方体”的概念对应于词语集合立方体、立方体、块、块……。 .超级概念归纳：将概念聚类形成超级概念。每个超概念c包含一组概念{c1，，ck} Cu或Cb。4.2. 概念归纳本节描述我们如何实现概念归纳的上述任务。我们的方法的主要理念包括：（1）利用训练好的MAC单元的读写单元实现到文本词的视觉映射：（2）利用词视觉映射的包容性，归纳出每个概念的多词描述;(3)根据概念间的互斥性对超概念进行为了实现上述目标，我们首先训练两个二进制分类器，它们可以分别确定一个词是否正确地描述了对象然后，bdx=FB（ GMM（Sx））在这些分类器的帮助下，我们产生用于词的0- 1向量，这些向量正确地描述了每个对象的独特特征最后，我们对词向量执行聚类方法以概括一元和二元概念以及超概念集。通过来自MAC单元的回归的视觉映射概念回归模块如图4所示。它由一元概念词回归的分类器u（v1，cw）[0，1]和二元概念词回归的分类器组成词回归，b（v1，v2，cw）[0，1]。u是预期的以产生1，如果V1可以由词向量Cw描述。同样地，如果v1和v2的关系可以用词向量cw来描述，则期望b产生1。我们通过利用推理模式中的读/写单元（图2（右））为u和b生成训练数据点Pu=（v1u，cwu，yu）和Pb=（v1b，v2b，cwb，yb）第一阶段训练结束后整个生成过程在算法1中描述。我们表示（vs，ci，mi-1）R|O|对于softmax运算之前的函数序列-其中，0是图像中的对象的集合，D是向量维度。具体来说，我们的算法首先使用（，，）和（，）以找到对应于以下对象的注意力逻辑描述如图5（a b）所示的然后我们使用这些值M0Wv2MWv1WW二元概念分类器CW⨀v1Ww不一元概念分类器乙状1882RRWBBBB立方体||||222222（一）（b）第（1）款（c）第（1）款图5：注意力可视化和注意力logit分布。(a)通过执行（vs，cw，m0），与描述一元概念的词相对应的注意可视化。后4个图像上方的每个词对应于唯一的cw，并且每个对象上的值是注意力logit（这同样适用于（b））。（b）通过执行（vs，cw，（m0，v2）），与描述二元概念的词相对应的注意力可视化。 v2表示在第一个图像中由红色矩形限定的对象。 (c)与描述概念的每个词对应的注意力logit分布。判断对象是否拥有单词的概念（正）或不（负）。注意每个单词是一个双峰分布（图5（c）），我们使用GMM[43] 用两个高斯分量来模拟分布，并找到每个词的注意力logit分布的决策边界。观察到a二元概念词具有两个干扰波，因为在某些情况下，很难判断两个物体是否具有这种关系（如果两个物体在同一水平线上，则“前”是不合适的）。通过利用决策界限将数据点分类为阳性和阴性来生成Pu和Pb最后，我们可以通过最小化二进制交叉熵损失来用数据Pu和Pb训练u和b通过训练的u和b，我们用二进制码向量表示对象〇1每个维度对应一个单词。如果对应的词可以描述1，则维度具有值1，否则具有值0。对象属性的二进制向量和两个对象之间的关系的二进制向量o1和o2可以用函数цuR|微米的|和R|Mb|尊敬：u u u(a)（b）第（1）款图6：0 - 1矩阵表示数据集中对象和对象关系的单词描述。(a)矩阵Fu表示哪些词可以描述对象。（b）矩阵Fb表示哪些词可以描述对象v1（由绿色矩形界定）与对象v2（由红色矩形界定）的关系。和Nb是对象和共现的总数对象对。这两个矩阵总结了整个数据集中每个单词概念/超概念归纳最后，我们把同义词分组为一元和二元概念，并生成超概念。这两个任务是通过对“包容”一词和“排他性”概念的探讨来实现的（1）由Fu和Fb捕获的：（1）描述同一个概念的cept对应于相似的列向量，例如，Fu和ц=i> 0。5（B）（v1，C））（2） Fu小b b b（2）形容排他性概念的词有列ц=i>0。5（B（v1，v2，C）），在相同对象上通常不具有1值的向量其中v1和v2是o1的对象级视觉向量同时，例如，Fuu形球 . 基于之前-和O，CuR|微米的|D和CbR|Mb|D是词汇表Mu和Mb中的词嵌入的堆栈。（Ø）上述思想，我们定义的相关性度量之间两个单词cw1和cw2如下：在Ø上执行元素级：如果元素满足以下条件，则返回1否则为0通过将цu和цb应用于✓cw1，cw2=P（цcw1= 1|cw2=1）+P（цcw= 1|（w1=1）数据集，我们可以得到矩阵Fu2{0，1}Mu，Nu和a为|Fcw1Fc1w2 1个以上|Fcw1 ⓈFc1w21.（三）如图6中所示的矩阵Fb2{0，1}Mb，Nb，其中|Fc1w21|Fc1w11球大红色球体左权前背后球大红色球体左权前背后和F小微小大立方体球…11010…00110…11001…00101…………………左权前背后011010011010……………1883对于i2oforeu2Eu doforlu2Lu doKu[i][eu] =MAX（Bu（vi，eu））Ku[i][lu]=HARDMAX（Ku[i][lu]）f或j2O-{i}doforeb2Eb do对于lb2Lb做K b[i][j][eb]=MAX（Bb（vi，vj，eb））K b[i][j][lb]=HARDMAX（Ku[i][j][lb]）uB2！！BbXNNN Nn⇠⇠ℝ| 0| ×$uℝ| 0|×D一元概念w（Ku）转换1D二元概念Wℝ| 0| ×| 0| ×| $B| ℝ| 0| ×（|0|| $B| ）|0| ×D| 0| ×（（D）ℝ| 0|×D算法二：概念向量泛化。MAX（）和HARDMAX（）分别返回向量中的最大值及其作为独热向量的位置结果：Ku，KbKu和Kb，从而证实我们所导出的概念是准确和充分的。我们通过图2中的第2阶段训练过程实现了其核心思想是移植学习到的组合推理模块Ku=0|⇥ | E|，K b |,Kb=0|O| ⇥|O| ⇥|E|从操纵视觉特征到操纵Ku和Kb，用于获得问题的答案。为此，首先，我们投射出Ku Kb到同一图7：概念投射模块的结构。我们在图中标出矩阵的维数这就保证了✓0+表示两个同义词，✓2-对于对应于排他性概念的两个词，并且✓（0，2）对于对应于不同非排他性概念的词。我们可以产生相关集对于分别描述一元概念和二元概念的词，使用等式（4）。向量空间与vs的概念投影模块，如图7所示，因此组合模块可以对投影的概念向量执行推理步骤。具体地说，我们首先将Kb的维数从|⇥|O|⇥|E|到|O|⇥|O|E||，得到K b，因为Kb|,resultedinKˆb,becauseKb可以理解为图像中然后，我们使用两个单独的完全一致的-连接到项目Ku和Kb的网络工作，链接并使用1D卷积层序列来将结果投影到vs其次，为了最小化我们的投影向量的分布与原始视觉向量vs的分布之间的差异，我们固定框架中的其他模块的权重，并且通过优化目标函数Eqn来仅训练概念项目模块。（一）.然后，我们在其他模块的权重固定的情况下训练概念投影模块和组合推理模块，以更好地优化等式11。（一）.其结果是一个组合推理模型，其工作原理上的诱导概念。5. 实验5.1. 设置数据集（1）我们首先在CLEVR[23]数据集。数据集包括各种形状、颜色、尺寸和材料的合成物体的图像以及关于这些图像的问题/答案对这些问题需要多跳推理，例如找到传递关系，x={✓c，cw2};cw1，cw22M;x2 {u，b}（4）计数，比较属性，以获得正确的答案每个问题对应一个基本事实我们的最后一步分别在u和b上拟合两个GMM每个GMM具有三个分量0、1和2，其中它们的平均值初始化为0、1和2。然后，我们归纳出一元和二元概念，其中每个概念由同义词组成，其相互相关性被聚类到高斯分量0。类似地，我们归纳出超概念，其中每个超概念包含多个概念，并且来自不同概念的任何两个词具有聚集到2的高斯分量的相关性。我们将对应于概念e的词的集合表示为e，将超概念集合的集合表示为L，将所有概念的集合表示为E。然后，我们可以用一元概念矩阵Ku来表示图像中的所有对象，并且用二进制概念矩阵Kb来表示图像中任意两个对象之间的所有关系。4.3.概念合成推理我们的最终目标是执行组合推理，以使用生成的概念表示来回答问题人类编写的程序。由于程序依赖于预定义的概念，因此不适合我们的问题，我们让我们的框架从头开始学习，而不使用程序注释。在训练/验证集中有70 k/15 k图像和700 k/150 k问题我们遵循先前的工作[47，19，33]在整个训练集上训练我们的模型，并在验证集上进行测试。(2)为了证明我们的方法的普遍性，我们进一步评估GQA数据集。GQA是一个真实世界的视觉推理基准.它由从Visual Genome数据集[30]收集的113K图像和22M问题组成。它有一个用于模型训练的训练分裂和三个测试分裂（val，test，test-dev）[20]。该数据集提供了从Faster RCNN检测器[38]中提取的检测到的对象特征，因此每个对象都表示为2048维向量。实施细节我们在附录B中列出了实施细节的清单。w11884‡§†⇠表1：我们的OCCAM框架与CLEVR（左）和GQA（右）数据集上的最新方法的比较。意味着培训和额外的项目监督。意味着在更大的视觉+语言语料库上进行预训练。这意味着用附加的丰富注释数据预训练场景图提取模型。（a）CLEVR方法整体存在计数comp 查询组件属性数属性RN [39]95.590.193.697.897.197.9电影[37]97.694.593.899.299.299.0MAC [19]98.997.299.499.599.399.5NS-CL [33]98.998.299.098.899.399.1OCCAM（我们的）99.498.199.899.099.999.9[47]第四十七话99.899.799.999.999.899.8人类[24]92.686.796.686.595.096.0表2：选择推理步骤对我们模型的影响。步骤48 12 16准确度（CLEVR）94.398.699.499.1准确度（GQA测试-开发）55.155.6 55.256.25.2. 对象级推理我们首先执行图2中所示的端到端阶段1训练，即，OCCAM模型我们的模型的性能比较国家的最先进的模型如表1所示。在没有使用外部人类标记程序和预训练的情况下，与CLEVR和GQA数据集上的已发表结果相比，我们的模型达到了最先进的水平。为了与GQA排行榜上的模型进行比较，我们还在train-all split上训练了我们的OCCAM模型，并在GQA数据集的测试标准分割上达到了58.5%的准确率，这优于其他流行的模型（例如，OCCAM模型）。MCAN、BAN和LCGN）在没有额外数据的情况下训练（准确率为57%-58%）。虽然具有预训练阶段的基于变换器的方法提高了性能，但是，它们无法确定模型的可解释性，并且难以归纳概念。在CLEVR上，我们的模型也具有与使用外部人类标记程序的最佳模型[47]相当的性能与使用图像级注意力的原始MAC [19]框架相比，我们的模型证明了对对象的注意力约束对于提高两个数据集的性能是有用的，对验证集有显着的我们不使用位置嵌入来显式地编码对象的位置进行关系推理;然而，我们使用全局特征来增强模型这表明对象之间的关系是可学习的概念，而无需深度网络的外部知识。表2进一步给出了关于推理步骤的数量的消融研究，即，MAC模块的数量，用于（b）GQA方法Valtest-dev测试MAC [3]57.5-54.1LXMERT [41]-50.0-LCGN [18]63.955.856.1OCCAM（我们的）64.556.256.2MMN [8]†-60.460.8NSM [21]§-63.063.2LXMERT [41]‡-60.060.3ViLT [27]‡§-65.164.7我们的模型4步推理模型与8步、12步和16步推理模型在性能上存在一定差距，而后3步推理模型在性能上不相上下。我们猜想，低推理步骤的模型可能无法捕获一个问题的多跳，模型性能收敛与推理步骤的数量增加。我们还在CLEVR数据集上对对象级特征提取器的贡献进行了消融研究。分别使用预训练的ResNet101特征、可学习的ResNet34特征、可学习的ResNet34特征和全局特征，该模型在验证集上达到了97.9%、99.0%和99.4%。这表明了在对象级增强全局上下文理解的重要性。5.3. 概念归纳与推理接下来，我们评估我们的概念归纳方法的性能图2中的第二阶段训练。为了定性地表明我们的诱导概念捕获足够和准确的信息用于视觉推理，我们根据第4.3节将视觉输入替换为对象的诱导概念。由此产生的模型，表示为OCCAM概念，预计执行接近原始的OCCAM与高质量的诱导概念。表3给出了结果。为了达到性能和可解释性的平衡，我们使OCCAM模型运行8个推理步骤的概念归纳和推理。据观察，我们的概念为基础的OCCAM（与诱导概念功能）实现与原始的OCCAM模型（与完整的输入视觉功能）的性能。我们还在附录F中可视化了OCCAM概念概念归纳的人类研究我们在图8和图9中展示了CLEVR和GQA的一元概念相关性u由于GQA由具有高度相关概念的巨大词汇组成，因此我们展示了与一般单词/短语相关联的概念的子集。在CLEVR上，我们的方法可以完美地恢复来自数据生成器的概念定义：从图-1885！方法整体计数存在组件编号查询属性比较属性方法Valtest-dev表3：基于视觉特征的OCCAM和仅概念OCCAM的比较。推理步骤的数量为8。（a）CLEVR（b）GQAOCCAM视觉98.695.999.896.299.899.7OCCAM概念97.995.698.797.398.499.3OCCAM视觉63.855.6OCCAM概念63.154.2如图8所示，任何一对同义词之间的相关性接近2，属于同一超级概念集合的词之间的相关性接近0，属于两个不同超级概念集合的词之间的相关性在范围的中间值[0，2]。附录C提供了完整的生成概念层次结构，与定义完全匹配。CLEVR发生器中的初始化和人的先验知识，即，根据我们的人类调查，100%准确。在GQA上，词与词之间的相关性是复杂的。我们在图中给出了一个词相关性的子集9.而不是使用Eqn. (3)，这里我们给出了在给定行属性存在的情况下，列属性存在的条件概率。我们观察到，描述类似属性的单词具有高度的正相关性，例如它们可以被归为一个概念。具有排他意义的词之间存在负相关关系，如“flying”与“standing”、“pointy”与“sandy”等它们可以组合成一个超级概念。然而，现实世界的数据使得很难归纳出一些常识性的超级概念。例如，同一对象可以具有多个颜色（例如，天空可以是灰色和蓝色）。此外，对象概念可以有度数（浅蓝色或深蓝色），因此我们必须使用软值来表示概念。我们还对检测到的概念和超概念集群的成对准确性进行了人体研究，可在附录G中找到。我们在附录D和E中提供了更多的可视化结果，包括单词类比的扩展 [34]（例如， “Madrid” - “Spain” +“France” “Paris”) to multi- modality6. 结论我们提出的OCCAM框架执行纯对象级推理，并实现了一个新的国家的最先进的没有人类注释的功能程序的CLEVR数据集。我们的框架使得对象词共现信息可用，这使得基于词的视觉映射的包含性和互斥性的概念和超概念的诱导成为可能。当处理概念而不是视觉特征时，OCCAM实现了相当的性能，证明了诱导概念的准确性和充分性。对于未来的工作，我们的方法可以扩展到更复杂的归纳任务，例如从短语中归纳概念，具有更复杂的层次结构，具有特征的程度（例如，深蓝色，浅蓝色）和诱导复合物。图8：CLEVR一元概念相关性u。图9：GQA概念相关性的子集。对象之间的关系（例如，稍微大一点）。致谢本工作部分得到了IBM伊利诺伊认知计算系统研究中心（ C3SR ）的支持，该研究中心是 IBM AIHorizons Network的一部分1886引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议（CVPR）论文集，第6077-6086页[2] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein. 学习构造用于问题回答的神经网络在计算语言学协会北美分会2016年会议论文集：人类语言技术（NACACL），2016年。[3] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第39-48页[4] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议（ICCV）的会议录中，第2425-2433页[5] MohitBajaj ， LanjunWang ， andLeonidSigal.G3raphground：基于图形的语言基础。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第4281-4290页[6] David Bau，Bolei Zhou，Aditya Khosla，Aude Oliva，and Antonio Torralba.网络解剖：量化深层视觉表征的可解释性。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第6541-6549页[7] 陈建波，宋乐，马丁·温赖特，迈克尔·乔丹.学习解释：模型解释的信息论观点在国际机器学习会议（ICML），第883-892页[8] Wenhu Chen，Zhe Gan，Linjie Li，Yu Cheng，WilliamWang，and Jingjing Liu.用于组合视觉推理的Meta模块网络。在 IEEE/CVF Winter 计算机视觉应用会议（WACV）的会议中，第655-664页[9] Djork-Arne 'Clevert ， Thomas Unterthiner ， and SeppHochre- iter.通过指数线性单元（elus）进行快速准确的深度网络学习。国际学习表征会议（ InternationalConference on Learning Representations ， ICLR ），2016。[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2009年。[11] Al e xGr av es和J ür genSchmidhube r. 用双向lstm和其他神经网络结构进行帧式音素神经网络，18（5-6）：602-610，2005年。[12] ChiHan ， JiayuanMao ， ChuangGan ， JoshTenenbaum，and Jiajun Wu.视觉概念-元概念学习。在神经信息处理系统（NeurIPS）的进展中，第5001-5012页[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。在 Proceedings of theIEEE International计算机视觉会议（ICCV），第2961-2969页，2017年。[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2016年6月。[15] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。NeuralComputation，9（8）：1735[16] Ronghang Hu，Jacob Andreas，Trevor Darrell，and KateSaenko.通过堆栈神经模块网络进行可解释的神经计算。在欧洲计算机视觉会议（ECCV）的会议记录中，第53-69页[17] Ronghang Hu ， Jacob Andreas ， Marcus Rohrbach ，Trevor Darrell，and Kate Saenko.学习推理：用于可视问答的端到端模块网络。在IEEE国际计算机视觉会议（ICCV）的论文集中，第804-813页，2017年[18] Ronghang Hu ， Anna Rohrbach ， Trevor Darrell ， andKate Saenko. 用于关系推理的语言条件图网络在IEEE国际计算机视觉会议（ICCV）的会议记录中，第10294[19] Drew A Hudson和Christopher D Manning用于机器推理的组合注意力网络。在国际会议上学习表示（ICLR），2018年。[20] Drew A Hudson和Christopher D Manning Gqa：一个用于真实世界视觉推理和组合问题回答的新数据集。在IEEE计算机视觉和模式识别会议（CVPR）集，第6700-6709页[21] Drew A Hudson和Christopher D Manning 学习抽象：神经状态机。arXiv预印本arXiv：1907.03950，2019。[22] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在2015年的国际机器学习会议（ICML）上[23] Justin Johnson ， Bharath Hariharan ， Laurens van derMaaten ， Li Fei-Fei ， C Lawrence Zitnic

下载后可阅读完整内容，剩余1页未读，立即下载