校准概念和操作：提高神经符号方法在真实图像上的性能

183 浏览量更新于2023-10-13 收藏 989KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14910校准概念和操作：关于真实图像的符号推理Zhuowan Li1 Elias Stengel-Eskin1 Yixiao Zhang1 Cihang Xie2 QuanTran3 Benjamin Van Durme1 Alan Yuille11约翰霍普金斯大学2加州大学圣克鲁兹分校3Adobe Research问：与金属球大小相同的圆柱体是什么颜色？答：紫色Prog：select（sphere）filter（metallic）samesize（）filter（cylinder）querycolor（）问：桌子前面的小男孩拿着什么？A：牙刷Prog：select（boy）filter（little）relate_s（table，front）query_rel_o（hold）(a)真实数据集的长尾概念分布（b）推理步骤的不等重要性图1：来自合成CLEVR数据集和真实GQA数据集的统计数据和示例。与合成数据集相比，真实数据上的VQA需要处理长尾概念分布和推理步骤重要性不均匀的问题摘要虽然神经符号方法在合成图像上的视觉问题回答中表现出令人印象深刻的性能，但它们的性能在真实图像上受到影响。我们发现，视觉概念的长尾分布和推理步骤在真实数据中的不平等重要性是限制模型在现实世界中潜力的两个关键障碍为了解决这些挑战，我们提出了一个新的范式，校准概念和操作（CCO），它使神经符号模型，以捕捉底层的数据特征，并与层次的重要性的原因具体来说，我们引入了一个执行器与学习的概念，cept嵌入幅度处理分布不平衡，和一个操作校准器突出重要的操作和抑制冗余的。我们的实验表明，CCO大大提高了神经符号方法在真实图像上的性能。通过评估真实世界数据集GQA上的模型，CCO帮助神经符号方法NSCL比其香草对应物高出9.1%（从47.0%到56.1%）;这一结果也大大减少了符号和非符号方法之间的性能差距此外，我们创建了一个扰动测试集，以更好地理解和分析模型在真实图像上的性能。代码可在https://lizw14.github.io/project/ccosr上获得。1. 介绍视觉问答（VQA）旨在开发一种可以从图像中回答开放式问题的模型。目前，直接预测密集视觉和文本特征的端到端方法[37，19]代表了VQA最有效的一类模型。然而，这些方法由于利用捷径（例如，统计数据集偏差[1，11]，问题先验[2]或孤立的文本和图像元素[25]）来回答问题;这些捷径通常使它们不能很好地概括域外数据。相比之下，神经符号方法[5，18，38，26]具有强大的推理能力，使它们能够以组合和透明的方式回答多跳和复杂的问题-它们首先将每个问题解析为具有一系列推理步骤的程序，然后在运行中组合神经模块以在图像上执行程序。虽然符号方法在合成数据集上实现了近乎完美的性能，但它们在现实世界的数据集上表现不佳。例如，神经符号概念学习器（NSCL）[26]在合成CLEVR数据集[17]上实现了98.9%的准确率，但在现实世界的GQA数据集[15]上仅实现了47.0%的准确率请注意，原始NSCL不能直接应用于GQA;这47.0%的准确度是从我们自己的重新实现中获得的，其中最小但合成CLEVR数据集真实GQA数据集14911进行必要的修改（例如，添加相同和通用的模块），使模型可以在GQA上运行如图1所示，我们注意到合成数据集和真实世界数据集之间存在两个主要差异。首先，虽然视觉概念在合成数据集中很好地平衡，但它们在现实世界的数据集中遵循长尾分布。例如，如图1（a）所示，在GQA中，常见的概念如在疑问句和回答中，“black”、“white”的使用频率远远高于“pink”、“eraser”等不常见的词。其次，与合成数据不同，真实数据上的推理步骤具有不同的重要性，主要是因为问题描述中的冗余/过度规范。例如，如图1（b）所示，在问题名词（即，男孩）本身就足以选择被问到的人，而形容词（即，很少）仅用作干扰因素。我们发现，这种数据集特征的不匹配是将神经符号方法从合成数据集应用到现实世界数据集的主要障碍。更具体地说，我们发现神经符号方法的原始架构设计（主要在合成数据集上设计/验证例如，如第3节所示，即使是简单的操作，如去除概念嵌入的归一化或手动将较大的权重分配给鉴别力较低的模块，也可以有效地提高神经符号方法在真实图像上的性能。为了更好地处理真实图像，我们提出了校准概念和操作（CCO），这使得神经符号方法能够显式地学习概念嵌入的权重，并根据上下文模块的重要性进行推理。具体地，CCO为每个执行模块学习不同的概念嵌入以这种方式，该模型将能够处理不平衡的概念分布，并与不同的操作重要性的原因。我们的实证结果表明，CCO大大提高了神经符号方法对真实图像的适用性。例如，在真实世界的GQA数据集上，CCO的性能大大优于基准NSCL从47.0%上升到56.1%。此外，所提出的CCO在很大程度上减小了符号方法与现实世界GQA数据集上最先进的非符号方法[32，16]之间的性能差距此外，基于所提出的操作权重校准器，我们通过逐步从测试问题中移除具有低权重的操作来创建扰动测试集我们的目的是验证学习的操作权重是否能够突出重要的操作并抑制冗余的操作，同时评估不同模型对该操作的鲁棒性。信息删除我们的分析表明，1）GQA问题包含多余的信息，通过过度规范和2）的能力，有效地处理这种无关的信息是至关重要的模型，以提高性能。我们希望这个扰动测试集可以帮助研究人员更好地理解VQA问题的组合性，并进一步提高对真实图像的符号推理。2. 相关工作视觉问答（VQA）[6]需要理解视觉和文本信息。基于卷积、LSTM和注意力的纯深度学习方法已经取得了良好的性能。例如，Fukuiet al. [10]使用多模态紧凑双线性池将视觉和语言特征组合到联合表示中。Yang等[37]使用堆叠注意力来细化与问题相关的关注图像区域。 Kim等人[19]提出了双线性注意力网络来学习两种模态之间的注意力，并在多个注意力图之间建立了残余连接。Yang等[36]提出了一种分层关系推理方法，该方法基于文本指令动态地关注视觉对象。视觉推理。先前的工作表明，上述VQA模型可以依赖于数据集快捷方式和先验来预测答案[1，11，2，29，7，8]。因此，最近的努力更侧重于视觉推理与复杂的组成问题，需要多步推理和真正的视觉场景的理解。Johnson等人[17]提出CLEVR，它需要对合成场景进行推理，并使用问题模板自动生成合成问题。Hudson等人[15]进一步构建了GQA，这是一个包含真实图像和过程生成的多步骤问题的数据集，用于视觉推理。注意广泛用于视觉和语言任务，包括图像字幕[34，23，24，22]，视觉问题回答[37，19，36]，引用表达式[39，35，33]。它被证明是有效的学习不同的重要性，图像组中的图像，子区域的图像或句子中的单词。我们的工作校准不同的概念和操作，从而使模型的原因与加权的概念和上下文操作的重要性。神经符号方法[42，43，41]在抽象推理任务中表现出令人印象深刻的推理能力，如[40，46]。对于VQA，Andreas等人[5]提出了神经模块化网络，它将问题分解为可以由神经模块在图像上执行的功能程序（推理步骤）。该方法通过显式执行函数程序[18，27，14，16，9]或隐式执行函数程序[13，12]，使用卷积或双重注意力操纵视觉和文本特征，得到进一步改进。具体来说，[38，26，21]提出了一个纯符号执行程序，给出了预解析或学习的显式程序，并且14912在CLEVR上实现最先进的性能。最近，Amizadeh等人[3]提出了一种基于一阶逻辑的符号推理器，用于诊断不同模型的推理行为。虽然符号方法提供了可解释的程序，但它们对真实数据的推理能力仍然有限。问：这张图片中有没有一个不是黑色的包？Groundtruth：否(1) 选择（袋）得分：【-7.0，-6.0，2.1，-9.9】(2)过滤器（非黑色）评分：[0.8，-0.7，-1.7，2.第1页][15]。我们的工作旨在减少真实数据上符号和非符号模型之间的性能差距。合并：（1）+（2）：【-6.2，-5.3，0.4，-7.8】重量：（1）+2*（2）【-5.4，-4.6，-1.3，-5.7】存在？存在？回答：是回答：不3. 动机在本节中，我们将提供简单的示例来演示数据集差异（合成CLEVR和真实GQA之间的差异）如何影响神经符号方法的性能。有趣的是，我们发现神经符号方法中的传统设计原则，通常是从合成数据集获得的，对于真实世界的数据集可能不是3.1. 规范化的概念嵌入？对于神经符号方法，在执行的每个步骤，计算每个对象嵌入和所学习的概念语义嵌入之间的相似性分数，以选择被询问的目标对象（即，选择最接近查询概念的对象）并预测答案（即，选择最接近目标对象的概念）。默认情况下，规范化应用于对象嵌入和概念嵌入。有趣的是，在现实世界的GQA上，我们发现这种默认策略并不是最优的;简单地去除对概念嵌入的规范化产生实质上更好的性能（+3.4%）。这一现象表明，除了对象嵌入和概念嵌入之间的角度对齐之外，概念嵌入的大小也为真实图像上的符号推理提供了信息。我们推测这是因为幅度可以表示概念分布，这在合成数据集和真实数据集之间是完全不同的。例如，虽然CLEVR仅包含相对小的和完美平衡的概念集（即，19个概念，包括形状，材料），真实数据集处理数千个概念，这些概念要复杂得多，并遵循长尾分布。我们在第6节中验证了这一假设-每个概念嵌入的可学习幅度，我们发现它的值与概念频率密切相关，即，更频繁的概念倾向于具有更大的量值。3.2. 模块重新加权除了这种长尾分布，在执行过程中，对真实数据的推理步骤具有不同的重要性。例如，在大多数情况下，选择（名词）模块比过滤器（属性）或关联（关系）操作更具区分性，这是由于自然语言中的隐含蕴涵和问题的过度指定（例如，“小男孩”，“天空下的树”）。因此图2：可以通过重新加权操作来纠正的失败案例。选择（袋）操作覆盖过滤器（非黑色），因此导致错误答案。这可以通过放大滤波器操作的结果来校正直接使符号方法适应GQA将使模型偏向于将更多的注意力放在学习判别运算上，而忽略其余的，导致在所有运算都很重要的问题上出现错误。例如，在图2中，问题询问不是黑色的袋子;但是select（bag）操作产生大值，覆盖过滤器（非黑色）步骤，导致“令人惊讶的是，在这个例子中，如果我们简单地将滤波器（不是黑色）操作的输出放大一个系数2、过滤器操作则能成功排除黑袋，从而正确回答问题。这是-苏尔特认为，尽管许多问题包含了模型容易忽略的冗余操作，但正确地重新加权这些操作对于真实图像上的符号推理至关重要。4. 校准概念和操作考虑到第3节中的观察结果，我们接下来探索设计更复杂的算法，用于自动有效地处理真实数据的复杂特征（例如，长尾分布和不等推理步骤），目的是增加神经符号方法4.1. 制剂在符号推理中，解析器首先解析一个问题 Q=，彼此之间具有依赖关系。由于函数程序是一个链或二叉树，它可以线性化成序列的前序遍历。每个操作p具有其类型p，t（例如，选择、过滤），属性PA（例如，颜色、材料）和概念PC（例如，红色，塑料）。我们将模块类型、属性和概念的总数分别表示为n t、n a、n c。然后，在此基础上，动态地组合实验模块，生成程序P.模块输出基于它们的依赖关系被合并并且被馈送到最终模块中以得到答案a。0椅子2袋1个床头板3灯开关14913∈∈MM·M对于场景表示，我们首先从图像I获得一组特征向量viRd，其中在图像中检测到n具体地，特征向量v可以是从Faster RCNN [30]获得的视觉特征，或者是每个对象的符号表示（其可以通过连接Nc个对象类别和Na个属性上的分布来获得4.2. 基本执行器体系结构给定程序P，执行器然后在输入场景表示v上执行它以获得推理答案a。基本执行器原理遵循[26]中的设计。如图3所示，每个模块（除了输出模块）产生图像中N个对象的分布d（d RN），然后基于它们的依赖性合并它们。与合成数据集中的默认设置相反，我们使用均值运算（而不是NSCL中的最小值）来合并模块结果，因为它的训练行为更最后，输出模块接收由中间模块产生的对象分布，并查询/验证所选对象的指定属性对于模块设计，为每个概念学习语义嵌入c（例如，人、红色、圆形等）。不失一般性，我们说明了选择和查询模块的计算。其他模块类型的体系结构可以在补充材料中找到。我们以模块select[name]（spectator）为例。首先，小网络名称将每个对象表示vi映射到概念嵌入空间中，然后计算嵌入对象表示ei与概念“旁观者”（c旁观者）的嵌入之间的相似度si这种相似性可以是ei=Mattr（vi）（4）e= d·[e1，e2，… eN]（5）a，j=sim（e，c，j）（6）其中，运算指的是两个向量之间的逐元素乘法，而Cj指的是可能答案的概念嵌入。4.3. 校准概念和操作我们在此正式提出校准概念和操作（CCO），其包括概念校准模块和操作校准模块，以帮助神经符号方法提高其在真实图像上的适用性。总体设计如图3所示。校准概念。如第3节中所诊断的，概念嵌入c的大小对于测量对象嵌入和概念嵌入之间的相似性是有用的。这促使我们设计一个额外的architec- tural元素，明确捕捉这样的信息的幅度。此外，这种设计的架构元素预计是适应不同的概念，因为每个不同类型的操作正在处理不同的概念频率分布。例如，像“人”这样的根据这些直觉，我们提供了一个简单的解决方案-明确地学习每个模块类型的不同嵌入幅度我们期望学习的范数大小可以编码概念分布，因此更频繁的概念具有更大的范数大小，并导致更大的相似性值。具体地，我们通过以下方式校准概念嵌入：假设每个对象是“旁观者”的可能性选择模块的计算可以总结为c概念类型概念c概念（七）如下：ei=Mattr（vi）（1）si= sim（ei，cept）（2）d选择=[s1，s2，… s N]（3）其中w对于每个模块类型和每个概念是不同的每当概念嵌入被用于相似度计算时，这都适用（例如，在等式2中）。为此，不同类型的模块共享相同的概念嵌入方向，但幅度不同，对应于不同的概念分布。其中余弦相似性，即，归一化e以及c用于相似度计算。表示映射网络属性的详细网络架构如图3所示。它对输入对象表示进行门控，并将其通过MLP以获得相应的语义嵌入。然后将语义嵌入与空间嵌入相加以得到最终的对象嵌入。不同属性对应的映射网络具有相同的网络结构，但权重不同。我们还简要总结了查询的计算下面的模块，作为另一个例子：=w14914我我我校准操作。如第3节所示，在真实图像上，重要的是使模型能够以不同的操作重要性进行推理。为此，我们建议自定义程序中每个操作的权重。具体来说，这里使用双向LSTM权重预测器来基于整个程序预测操作权重。对于程序中的每个操作p i，其权重w i计算如下：ei=[et;ea;ec]（8）h1，…h，m= LSTM（el，… em）（9）wi= sigmoid（Whi）（10）14915ΣD答案：马图3：我们的方法概述。我们首先将图像解析为对象和属性形式的符号化场景表示，然后将问题解析为程序。在每个推理步骤中，推理模块接受场景表示和来自程序的指令，并输出对象上的分布。操作权重预测器预测每个推理模块的权重，该权重将用于基于程序依赖性合并模块输出最终分布被馈送到输出模块以预测答案。其中m是节目长度。LSTM的输入e是操作类型嵌入et、属性嵌入ea和概念嵌入ec的级联。然后使用预测的操作权重来合并具有加权和操作的操作的输出：基因组数据集[20]，它包含超过110K的图像和22M的问题。每幅图像都用从Visual Genome中清洗的场景图进行注释，该场景图包含对象、属性和关系的信息。每个问题都有一个相应的功能程序，指定推理步骤。默认情况下，我们使用它的平衡di=j∈D（pi）中国（11）版本，包含943k、132k、13k和95k问题，用于培训和评估。其中（pi）是操作pi的依赖性操作的集合。以这种方式，具有较高权重的操作在合并步骤中起更重要的作用。摘要利用所提出的CCO，神经符号执行器现在能够捕获底层数据特征，并利用可学习的操作重要性进行推理。正如我们接下来将要讨论的，CCO大大提高了GQA上的模型性能，同时大大缩小了符号方法和非符号方法之间的性能差距。5. 实验5.1. 数据集和实验设置数据集。我们的实验是在GQA [15]上进行的，GQA是一个专注于在真实图像上进行推理和组合问题回答的数据集。在Visual之上构建场景表示。我们使用交叉熵损失训练具有额外属性头的更快RCNN [4]。我们使用1313个对象类（lemmatize和删除复数）和622个属性进行训练。该模型得到24.9mAP的对象检测和17.1 groundtruth属性平均排名。11935-d类和属性得分的连接被用作符号场景表示。实作详细数据。模型的内尺寸为300d。使用GloVe嵌入来初始化概念嵌入[28]。我们使用Adam优化器训练我们的推理模型，初始学习率为0.0005，批量大小为256。线性学习率与2000个预热步骤一起使用。我们对模型进行了总共1属性预测通过所有622个属性中的地面实况属性的平均排名来评估。我们只考虑正确检测到的对象（IOU> 0.5）进行属性评估。执行人操作权重预测器LSTM（1，2，��选择关联选择中文（简程序∗��1查询（名语义表示对象嵌入Relate_s（左）选择[名称]（动物）栅MLP选择[名称]（观众）MLP位置代表可学习��概念权重概念嵌入问：观众左边的动物叫什么？查询场景表现马观众...障碍...Faster-RCNN14916概念1（基线）标准化2归一化3非规范4 （我们的）校准操作帐户平均值47.01校准51.30校准54.65校准56.1330个epoch，提前停止（基于平衡testdev分割的准确性）以防止过拟合。为了避免解析错误引起的混淆，我们使用黄金程序来分析默认的执行性能。5.2. 执行结果表1：平衡GQA测试的准确度比较-开发拆分。与基线相比，概念校准和操作校准都显著提高了模型性能。通过校准概念和操作实现最佳性能我们选择NSCL [26]作为我们的基线模型。默认情况下，概念嵌入在相似度计算（余弦相似度）之前进行归一化，并通过取平均值合并运算结果在对NSCL进行最小但必要的更改以使其可在GQA上运行后，它实现了47.01%的准确性。然后，我们在此基线之上集成了所提出的概念和操作校准策略如表1的第四行所示，CCO帮助基线获得实质性的改进，即，准确率从47.01%提高到56.13%。这9.12%的提高，- ment利润率的准确性证明了我们所提出的方法的有效性。为了进一步分析每个单独组件所带来的改进，我们逐步将我们提出的概念校准和操作校准添加到NSCL基线中如表1的第二行所示，其中添加了操作校准，其优于基线4.29%，证明了操作校准的有效性准确性，这是类似于人类的表现（89.30%）。这个高上限表明模型性能可以通过更好的视觉感知进一步提高。我们还通过使用视觉特征（均值池化后的Faster-RCNN特征）作为场景表示来检查模型性能我们的CCO达到了53.00%的准确率，其中3.13%的性能差距（即53.00%vs.56.13%）显示了抽象符号场景表征相对于密集视觉特征的优势程序解析。在所有以前的实验中，我们应用黄金计划，以促进性能分析。而在这一部分，我们现在检查模型在野外的性能，即黄金计划不再可用。为了将问题解析为函数程序，我们应用MISO，一种流行的序列到图解析器，用于解析许多基于图的形式主义[44，45，31]。与[18]中的简单序列到序列解析器（其只能处理具有一个参数的程序）或[9]中的通过硬约束处理多个参数的两阶段解析器不同MISO解析器的输入是词嵌入序列，输出是程序树的前序遍历。我们在表2中给出了解析结果。我们使用精确匹配分数，这是由预测的程序，完全匹配的黄金程序的百分比计算，用于衡量预测程序的质量。与MMN [9]中的解析器相比，我们的解析器在精确匹配分数方面的表现优于它6.05%。然而，有趣的是，我们发现最终模型的准确性受程序质量的影响较小-通过执行我们的或MMN这种令人沮丧的振动然后，我们移除概念em的规范化-beddings并在计算相似性时保持嵌入幅度。如表1的第三行中所示，这种策略成功地导致额外的3.35%肌松。证明该结果表明嵌入幅度是信息性的，这与我们在第3.1节中的分析一致。总之，这些结果支持，概念加权和操作加权是有用的，以改善NSCL基线。5.3. 消融场景表示。关于场景表示，除了使用符号表示，我们还测试模型的性能与其他替代品。为了验证我们的模型设计的正确性，我们提供了黄金场景表示的操作模块。我们的CCO达到89.61%表2：testdev上的解析性能平衡，通过精确匹配分数和执行准确性来测量。与最先进的技术相比。为了公平地比较GQA上的不同方法，我们遵循[3，9]中的训练设置，其中我们首先在不平衡训练分割上训练模型金亲克用于训练，而解析器预测的程序用于评估。使用官方评估指标报告性能，包括总体准确性、二元问题的准确性、开放性问题的准确性、一致性、合理性、有效性和分布。模型完全匹配Acc.MMN [9]我们85.13 54.0191.18 54.1114917∇∇∇∇∥∥∇CCO（我们的）表3：在官方测试分割上与最先进的符号和非符号方法的比较我们在此考虑三种非符号方法（即LXMERT [32]，NSM [16]，MMN [9]）和一种符号方法（即，-FOL[3]）进行性能比较。总之，LXMERT是一种具有代表性的多模态预训练方法; NSM是一个基于图形的模型，在GQA上实现了最先进的性能; MMN是一种模块化方法，但仍然基于密集特征操作;-FOL2是基于一阶逻辑和上下文校准的符号方法。我们在表3中总结了保持测试分割的模型性能。相比以前的国家的最先进的符号方法-FOL，我们提出的CCO超过它的准确性1.58%。此外，如表3所示，我们注意到，相对于FOL的性能增益主要是在二元问题（+2.84）和预测不同问题的一致答案（+7.2%）上。接下来，我们与最先进的非符号方法进行比较。虽然我们的模型仍然具有较低的准确性比这些非符号的方法，我们注意到他们的表现上的一致性，合理性和有效性是与对方。我们推测这是由于我们的模型的符号性质，即所提出的CCO严格按照程序执行，因此答案是可信的和有效的，并且具有相同底层程序的问题得到一致的答案。这些结果表明，所提出的CCO在很大程度上减小了真实世界GQA数据集上的符号方法和非符号方法之间的性能差距。6. 分析6.1. 学习嵌入幅度为了验证我们的动机，即学习的概念嵌入幅度对于表示真实数据集中的不平衡概念分布是有信息的，我们可视化了概念计数和校准后（在查询模块中）它们的幅度之间的相关性，即，c公式7中校准后的概念2。在图中，X轴是查询模块中的概念的计数（取日志），并且Y轴是概念嵌入的学习幅度。如图4所示，更频繁的概念一致地学习更大的幅度，而不太频繁的概念概念频率（log）图4：学习的嵌入幅度和概念频率之间的正相关性证实了我们的动机直觉：更频繁的概念具有更大的量值。研究表明，当计算每个模块的输出中的相似性时，频繁概念将产生具有更高置信度的值另一个有趣的观察是，少数拍摄概念的强度不是非常一致的（即，具有较大的方差），这可能是由训练样本的数量不足引起的。6.2. 扰动测试集我们创建了一个扰动测试数据分裂为以下目的：a）我们要验证所提出的操作加权策略预测较大的权重为更重要的操作和较小的权重为不重要b）我们需要一个测试集来更好地研究GQA数据集中的问题过规范;以及c）我们的目标是根据可以有效利用超指定操作中的多少信息来对符号和非符号方法的行为进行基准测试。具体地，使用由学习的LSTM操作权重预测器预测的操作权重来创建该扰动测试集。我们通过逐步移除具有较小预测权重的可移动操作来扰动平衡testdev拆分中的函数程序3。注意，这里的可移除操作指的是可以在不破坏程序语法的情况下移除的中间操作，即，过滤、关联及其相关操作。然后，我们训练一个简单的序列到序列基因-通常具有较小的幅度。更大的magni-3我们将权重阈值设置为−∞，−2，−1，−0。5，0，+∞;2-FOL未报告正式测试拆分的完整结果，因此显示平衡测试开发拆分的结果以供比较。导致分别去除0%、14%、31%、 70%、90%、100%的可去除操作嵌入幅度方法ACC二进制开放一致性合理性有效性分布LXMERT [32]60.3377.1645.4789.5984.5396.355.49非符号NSM [16]63.1778.9449.2593.2584.2896.413.71MMN [9]60.8378.9044.8992.4984.5596.195.54象征性中文（简体）54.7656.3871.9974.8341.2240.0984.4891.71-83.76-95.43-6.3214918∇∇∇∇∇阈值（orig）-2-10.50所有56.13-0.14-0.34-1.09-1.71轻松硬78.03 37.420.4 - 20.13-2.17-0.51-3.04-0.93-3.86图5：当通过移除具有低权重的reasoning操作来逐步扰动测试问题时，不同模型的准确度下降。erator从受干扰的程序中恢复问题。结果见图5。我们测试了五种方法，包括非符号方法LXMERT [32]、符号方法-FOL [3]，其变体-FOL-NC，这是一个基于一阶逻辑的纯推理机，我们的模型，我们没有操作校准。4我们的意见可归纳如下：操作权重的有效性所有曲线都表现出更尖锐的+∞-2.59-1.88-4.72表4：扰动的易/难分裂的模型准确度。当问题受到干扰时，下降幅度较大。这表明增强模型6.3. 难子集和易子集我们还扰动了视觉困难和视觉容易的测试分割[3]，并在其上评估我们的CCO模型具体而言，容易分裂包含的问题，视觉上容易，因此可以正确地回答他们的可微一阶逻辑公式，而硬分裂是在感知上更难。换句话说，易分裂包含可以单独由感知系统回答的当删除更多具有更高权重的操作时，在最后减少。换句话说，去除具有较大预测权重的操作将导致对模型精度的较大负面影响。这验证了预测的权重正确地表示操作重要性。问题过度规范。从曲线中，我们注意到，在平衡的testdev拆分中有59.0%的问题包含可移动操作并受到干扰，在删除这些模块后，只有不到这种现象表明，对于GQA数据集中的大多数问题，过滤和相关操作对于计算出答案是不必要的，即，从问题中去除所有中间属性和关系不会改变大多数问题的答案。操作加权的有效性。有趣的是，性能的纯逻辑推理机-FOL-NC和我们的模型没有操作加权，甚至得到轻微增加时，删除少量的操作。这种现象表明，这些操作对于模型来说很难学习，因此甚至可能使模型预测脱轨。这验证了我们设计操作校准的动机，因为它有助于学习过滤器和相关模块。符号和非符号方法的比较。与符号方法相比，非符号方法具有更大的准确率下降，因此表明它们可以更有效地利用形容词和关系中的信息。此外，具有更高性能4五个模型（LXMERT、-FOL、-FOL-NC、我们的模型和我们的无OC模型）的原始精度分别为58.13、54.02、51.86、56.13、55.49。而硬分割包含需要更多推理的图像与扰动的版本，我们可以调查到什么程度的低权重的操作涉及多步推理的视觉困难的问题。我们在表4中总结了模型性能。随着更多的操作被移除，扰动硬分割的精度下降比容易分割大得多。这表明视觉上困难的问题迫使模型更好地利用问题中的每一条信息，而简单的问题包含更多不一定需要的冗余操作。7. 结论为了改善真实图像上VQA的符号推理，我们提出了校准概念和操作（CCO），这有助于模型处理不平衡的概念分布和推理操作的重要性实验结果证明了所提出的方法的有效性，其中CCO优于几个基线的一个很大的保证金，并减少符号和非符号方法之间的性能差距此外，我们提出了一个扰动的测试集，以更好地理解和分析模型在真实图像上的性能。我们希望这个数据集可以帮助研究人员在未来进一步研究真实图像上的符号推理的潜力确认这项工作得到了NSF #1763705和IARPA BETTER（2019-19051600005）的支持Elias Stengel-Eskin得到了NSF研究生研究奖学金的支持。谢慈航得到了开放慈善基金会的赠款支持。−∞14919引用[1] Aishwarya Agrawal，Dhruv Batra和Devi Parikh。分析视觉问答模型的行为。arXiv预印本arXiv：1606.07356，2016年。一、二[2] Aishwarya Agrawal ， Dhruv Batra ， Devi Parikh ， andAnirud- dha Kembhavi.不要只是假设;看一看并回答：有视觉问答的前科。在IEEE计算机视觉和模式识别会议论文集，第4971-4980页，2018年。一、二[3] Saeed Amizadeh 、 Hamid Palangi 、 Alex Polozov 、Yichen Huang和Kazuhito Koishida。神经符号视觉反应：解开国际机器学习会议，第279-290页。PMLR，2020年。三六七八[4] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集，第6077-6086页，2018年。5[5] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在IEEE计算机视觉和模式识别会议论文集，第39-48页，2016年。一、二[6] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页2[7] Remi Cadene、Corentin Dancette、Hedi Ben-Younes、Matthieu Cord和Devi Parikh。Rubi：减少视觉问答中的单模态偏差. arXiv预印本arXiv：1906.10169，2019。2[8] 陈龙，辛燕，肖军，张汉王，蒲世良，庄月婷。用于鲁棒视觉问答的反事实样本合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第10800-10809页，2020年。2[9] Wenhu Chen，Zhe Gan，Linjie Li，Yu Cheng，WilliamWang，and Jingjing Liu.用于组合视觉推理的Meta模块网络。在IEEE/CVF计算机视觉应用，第655二六七[10] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv预印本arXiv：1606.01847，2016。2[11] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。让vqa中的v变得重要：提升图像理解在视觉问答中的作用。在IEEE计算机视觉和模式识别会议论文集，第6904-6913页，2017年。一、二[12] Ronghang Hu，Jacob Andreas，Trevor Darrell，and KateSaenko.通过堆栈神经模块网络进行可解释的神经计算。欧洲计算机视觉会议论文集（ECCV），第53-69页，2018年。2[13] Ronghang Hu ， Jacob Andreas ， Marcus Rohrbach ，Trevor Darrell，and Kate Saenko.学习推理：用于可视问答的端到端模块网络。在IEEE计算机视觉国际会议论文集，第804-813页，2017年2[14] Drew A Hudson和Christopher D Manning用于机器推理的组合注意力网络。arXiv预印本arXiv：1803.03067，2018。2[15] Drew A Hudson和Christopher D Manning Gqa：一个用于真实世界视觉推理和组合问题回答的新数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第6700-6709页一、二、三、五[16] Drew A Hudson和Christopher D Manning 学习抽象：神经状态机。arXiv预印本arXiv：1907.03950，2019。二、七[17] 贾斯汀约翰逊先生，Bharath哈里哈兰LaurensVan Der Maaten，Li Fei-Fei，C Lawrence Zitnick，andRoss Girshick. Clevr：一个用于组合语言和基本视觉推理的诊断数据集。在IEEE计算机视觉和模式识别会议论文集，第2901-2910页，2017年。一、二[18] 贾斯汀约翰逊先生，Bharath哈里哈兰LaurensVan Der Maaten ， Judy Hoffman ， Li Fei-Fei ， CLawrence Zitnick，and Ross Girshick.推理和执行程序的视觉推理。在IEEE计算机视觉集，第2989一、二、六[19] Jin-Hwa Kim，Jaehyun Jun，and Byoung-Tak Zhang.双线性注意力网络。arXiv预印本arXiv：1805.07932，2018。一、二[20] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。国际计算机视觉杂志，123（1）：32-73，2017。5[21] Qing Li，Siyuan Huang，Yining Hong，and Song-ChunZhu. 通过问答学习视觉概念的能力意识课程在欧洲计算机视觉会议上，第141-157页。Springer，2020年。2[22] Zhuowan Li，Quan Tran，Long Mai，Zhe Lin，and AlanL Yuille.基于自我注意和对比特征的上下文感知群组字幕。在IEEE/CVF计算机视觉和模式识别会议论文集，第3440-3450页，2020年。2[23] Chenxi Liu，Junhua Mao，Fei Sha，and Alan Yuille.神经图像字幕的注意力正确性在AAAI人工智能会议论文集，第31卷，2017年。2[24] Jiasen Lu ，Caiming Xiong，Devi Parikh，and RichardSocher. 知道什么时候看：自适应注意力通过视觉sentinel图像字幕。在Proceedings of the IEEE conferenceon computer vision and pattern recognition ，第 375-383页，2017年。2[25] Varun Manjunatha、Nirat Saini和Larry S Davis。视觉问答模型中的显式偏差发现。在Pro-14920IEEE/CVF

下载后可阅读完整内容，剩余1页未读，立即下载