基于堆栈神经模块网络的复杂推理任务解释模型

68 浏览量更新于2023-10-13 收藏 998KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于堆栈神经模块网络的胡荣航1[0000−0002−5060−9485]，Jacob Andreas1[0000−0002−3141−5845]，Trevor Darrell1[0000−0001−5453−8533]和Kate Saenko2[0000−0002−5704−7614]1加州大学伯克利分校2波士顿大学{ronhang，jda，trevor}@ eecs.berkeley.edu， saenko@bu.edu抽象。在复杂的推理任务（如问答）中，机器学习模型必须面临两个挑战：需要实现组合推理过程，以及在许多应用中，需要该推理过程可解释以帮助用户进行开发和预测。设计用于产生其决策过程的可解释轨迹的现有模型通常需要在训练时监督这些轨迹。在本文中，我们提出了一种新的神经模块化方法，通过自动诱导所需的子任务分解而不依赖于强监督来执行组合推理。我们的模型允许链接不同的推理任务，虽然共享模块，处理跨任务的共同例程实验表明，该模型是更可解释的人类评估者相比，其余的时间表的一个模型：使用cannebetterrund和模型的基本推理过程，并预测何时将成功或失败的基础上观察其中间输出。关键词：神经模块网络，视觉问答，解释推理1介绍深度神经网络在许多视觉和语言任务上取得了令人印象深刻的结果然而，通用深度架构的预测能力损失可解释性的代价，因为这些架构基本上是关于人类对其预测的理解的黑盒。这可能会影响人类的生存和学习系统，并使其难以实现[ 8]。这些问题已经导致最近在解释神经模型方面的努力，范围从建立注意层到隐式模型注意的事后提取，例如。通过梯度传播[33，37，27，40，28]，事后自然语言解释[15，2]和网络解剖[7]。这样的方法可以突出对于预测特定标签最重要的图像区域，或者提供网络输出的文本解释。然而，涉及多个子任务的更复杂问题的可解释模型，如视觉问题推理（VQA）[6]和参考表达基础（REF）[30]，相比之下研究较少复杂的问题可能需要几个合理的步骤来解决。例如，在图1中，问题2R. Hu，J. Andreas，T.达雷尔K.Saenko严重阻塞;是否有可能影响IT？在一些实施例中，图像处理器将图像中的对象分解为：找到“最小的图像块”，查找“到图像块的位置”，并决定图像中是否存在这样的对象。因此，突出显示重要空间区域（如[28]）的单个热图可能无法完整说明模型的表现。在本文中，我们提出了一个新的模型，利用一个明确的，模的推理过程，但它允许完全可微的训练与反向传播和没有专家监督的推理步骤。现有的模块化网络首先分析问题，然后预测一系列预定义的模块（每个模块被实现为神经网络），这些模块链接在一起以预测答案。然而，所述综合设计的“扩展布局”，或所述更新的用于训练布局策略的模块，以便获得良好的准确性。我们提出的方法，堆栈神经模块网络或Stack-NMN，可以在没有布局监督的情况下进行训练，并且用基于堆栈的数据结构替换[16]的布局图。在这项工作中，我们没有对模块布局进行离散选择，而是使布局变得柔软和连续，以便我们的模型可以使用梯度下降以完全可微的方式进行优化我们表明，这提高了准确性和可解释性相比，现有的模块化方法。我们还表明，该模型可以扩展为在单个模型中无缝地处理视觉问题回答（VQA）[6]和参考表达基础（REF）[30]，方法是通过图1中的常见例程在相关任务中共享知识。已经提出了各种不同的模型架构，用于复杂的推理和问题回答。在本文中，我们的评估集中在这些模型的准确性和可解释性。我们特别要求：显式模块化结构是否使模型更易于解释？我们使用CLEVR数据集[18]作为测试平台，因为它提出了一个高复杂性的任务。最先进的模型在开发过程中具有很大的不同，以提供“快速的平台”。关系网络[31]和电影[26]实现了高性能，但不暴露其内部决策过程。CLEVR上的其他最先进的模型使用回流层来计算多个步骤的答案，并在每个步骤输出不同的图像和/或文本注意力。这些包括模块化网络[5，4，16，19，21]和非模块化的循环注意力模型[36，17]。作者已经提出，由该方法推断的注意和/或模块布局可以被视为两个工作在正常处理过程中的示例然而，据我们所知，它们对人类的意义从未被明确评估过;我们提供了一个更严格的评估多步注意力VQA模型的可解释性在这里。我们根据现有的多步骤模型是否具有用于每个步骤的结构化模块的离散库（例如，NMN和相关方法[5，4，16，19，3，21]），与同构子任务计算元件（例如，多跳注意网络[36，35]，MAC [17]等）。我们在下面评估这些模型，并确定这些现有模型类的准确性和可解释性之间的权衡。我们发现，我们提出的Stack-NMN模型具有与现有模块化方法相当的性能，即使没有专家支持。基于堆栈神经模块网络的可解释神经计算3找到小灰块左变换过滤任何球体过滤器是回答任何球体“是”question =“有一个小的灰色块;在它的左边有任何球体吗？”referential expression=找到黄色对象变换材质过滤器青色的bbox回归滤波器Fig. 1.我们的模型揭示了可解释的子任务结构，诱导分解的推理过程成几个子任务，每个由一个神经模块。它可以同时回答视觉问题和地面参考表达。透视，同时实现最大的可解释性之间的评价模型方面的主观和客观的措施，人类的理解。2相关工作视觉问答（VQA）。视觉问答的任务是根据输入的问题和图像来推断答案。关于VQA的现有方法可以主要分类为整体方法（例如，[36，35，10，1，31，26，17]）和神经模块方法[5，4，16，19，21]。这两种方法的主要区别在于神经模块方法将推理过程显式地分解为一系列子任务，并有专门的模块来处理子任务，而整体方法没有显式的子任务结构，不同类型的推理例程都是统一处理的一些整体模型执行图像和问题之间的顺序交互例如，SAN [36]使用多跳注意力从图像中提取信息。Film [26]使用多个条件批量归一化层来融合图像表示和问题表示。在这些方法中，MAC [17]执行读取和写入操作的多个步骤，以从图像中提取信息并更新其存储器。虽然这些模型在输入图像和问题之间具有顺序交互，但是它们没有显式地将推理过程分解为语义类型的子任务。在我们的模型中，我们采用了类似于[17]中的文本注意机制。3.1，同时还从输入文本预测模块权重神经模块网络（NMN）。在NMN [5]、N2NMN [16]、PG+EE中[19]和TbD [21]，通过分析问题并将推理过程分解为一系列子任务来执行推理过程。在[16]中，[19]和[21]，使用布局策略将问题转化为模块布局。然后用神经模块网络执行模块布局。在这里，给定输入问题，布局策略学习要执行哪些子任务，并且神经模块学习如何执行每个单独的子任务。4R. Hu，J. Andreas，T.达雷尔K.Saenko然而，它是如何在该存储器中实现“快速布局”（即：e. 例如期望布局的注释）来预训练或监督布局策略，以便获得合成行为和良好的准确性。如果没有专家的指导，现有的模型遭受显着的性能下降或无法合作。这意味着它很难让您轻松了解这些模型中的“什么”和“什么”。在这个工作中，我们使用t和连续的模块布局来减少这种可能性，使我们的模型完全可微分和可训练，使用梯度下降，而无需求助于专家布局。可解释推理和可解释神经网络。近年来，人们对学习模型[24]，特别是神经网络[23]中可解释性的各个方面越来越感兴趣。这包括旨在解释学习模型实现的决策规则以及从数据中导出这些规则的机制的工作[32，20]。在目前的工作中，我们主要对前者感兴趣。这一方向的一条研究路线试图从通用模型架构中生成决策的事后解释，要么通过以线性模型[29]，逻辑规则[9，38]或自然语言描述[2，39]的形式找到可解释的局部代理，要么通过视觉化显著特征[27，28]。另一种工作路线调查模型从一开始就可以明确设计以提供增强的可解释性的程度，其中研究的主要焦点是视觉注意力[22，25]。虽然所描述的各种模块化应用程序被描述为“可实现的”[ 16]，但我们不知道在实践中有任何研究对此进行在目前的工作中，我们的目标是评估这种明确的模块化结构，而不仅仅是迭代的注意力，是否提高了具体评估场景的可解释性。多任务学习。不同于现有的多任务方法，例如共享共同特征（例如，[13]），我们的模型同时处理视觉问答（VQA）[6]和参考表达式接地（REF）[30]，通过利用相关任务应该具有共同子例程的直觉，并使用一组共同的神经模块来解决它们。3方法在本文中，我们分析和设计可解释的神经网络的高复杂性VQA和REF任务。我们评估了多步VQA网络对人类的可解释性，特别是将模块化网络与非模块化网络在人类能够理解内部计算过程的程度方面进行了比较。我们在第4.2节中描述了我们提出的评价策略和结果。我们还通过提出一个新的公式来改进模块化网络，我们将在本节中对其进行描述具体来说，我们描述了具有以下组件的堆栈1)布局控制器将推理任务分解成子任务序列，并将输入问题转换成软布局，该软布局经由在时间表t处的weig tw（t）的软分布来指定。 C0ntroll_ral使用文本注意力在每个时间步长处向Cch模块提供文本参数Ct。基于堆栈神经模块网络的可解释神经计算5图二.我们的模型概述。我们的模型预测了一个连续的布局，通过模块weigtsw（t）和xecuts的最大模度，在一个软模型中，有一个内存。2）一组神经模块M，用于处理由控制器指定的子任务每个神经模块是执行特定子任务的可微分参数化函数，并且可以根据软布局动态地在运行中执行。3)一种可区分的存储器堆栈，用于在执行期间存储和检索来自每个模块的中间输出。图2显示了我们模型的概述。我们模型的整体架构在概念上类似于N2NMN [16]，其中我们模型中的布局控制器类似于先前的布局策略。我们的模型和以前的工作之间的主要区别在于布局选择是连续的还是离散的。N2NMN在图结构中对模块布局进行离散选择，并且只能使用强化学习方法进行端到端优化。另一方面，我们的模型使软布局选择与可微堆栈结构，通过给每个模块一个连续值的权重参数和平均的所有模块的输出，根据他们的权重。这使得执行过程完全可微，因此我们的模型可以像其他神经网络一样通过反向传播进行训练。3.1模块布局控制器在我们的模型中的布局控制器决定什么子任务执行在每个执行时间步t通过选择一个模块mt的时间步，也提供了一个文本参数ct给特定的指令模块mt∈M。例如，控制器可以决定在t = 0时寻找红色的东西。回答问题：有多少东西是蓝色物体或大型金属立方体？或地面参照表达式：灰色小立方体右边的大橡胶物体答案3或边界框图像编码器（CNN）问题特征图像特征………软布局预测在每个时间步长t = 0，...，T-1处的模块权重递归软模块执行模块权重w（t）比较回答变换找到文本参数c测试时步t的平均模块输出输出M输出M-1输出2输出1文本编码器（BiLSTM）布局控制器6R. Hu，J. Andreas，T.达雷尔K.Saenko111m∈MM0，通过运行具有包含单词“red”的信息的文本参数ct我们的布局控制器的结构类似于[17]中的控制单元。假设输入问题中有S个单词。布局控制器首先将输入问题q编码成长度为S的d维序列[h1 ， ··· ， hS] ，使用双维 LSTM 作为 [h1 ， ··· ， hS]=BiLSTM（q;θBiLSTM），其中每个h S是在第s个输入字处的前向LSTM输出和后向LSTM输出的级联。接下来，控制器以递归方式从时间步长t=0运行到时间步长t=T-1。在每个时间步t，它对问题q应用时间步相关线性变换，并将其与Σ e先前的d维文本参数ct−1线性组合为W2W（t）q+b1;ct−1+b2，其中W（t）和W2分别为d×d和d×2dmR是特定的，并且B1和B2是独立的向量。与布局控制器中的所有部件不同，W（t）不跨不同的时间步长共享。为了选择要在当前时间步t执行的模块，应用小型多层执行（MLP）来执行|M|-dimensionalvectorw（t）如w（t）=soft m ax（MLP（u;θMLP））。该模块持续时间为w（t），并不代表该时间distributionoververechmoulem∈Mandsumsuptooone（i. e. ΣMw（t）=1），其类似于模块上的概率分布或软关注它用于以连续的方式在每个时间步长t最后，控制器预测一个具有文本注意力的文本参数ct在编码的问题词上为cvt，s= softmax（W3（u⊙hs））和ct=ΣSs=1 CVt，s·hs，其中⊙是逐元素乘法，W3是1×d矩阵，CVt，s是关于第s个问题词的词注意力分数（标量）最后，是在时间步t提供给模块的文本参数，包含子任务所需的问题信息。3.2带有记忆堆栈的神经模块模块实现。遵循N2NMN中的术语，神经模块是具有一些内部可训练参数的可微分函数，并且可以用于执行特定的子任务。例如，问题“你是如何被感染的？ “ 可以简单地通过布局答案 ” 多少 “] （ Transform”right“]（ Find”blue“] （））来进行转换，其中，当 Transform 在 w （ t ）中被执行时，将被执行，而当”blue“在常规的布局中被执行时，将被执行。模块实现基本遵循[16]。我们还通过将一元回答模块（Count，Exist，Describe）合并到单个回答模块中，并将成对比较（More，Less，Equal，Compare）合并到单个比较模块中来简化[16]中的实现最后，我们引入了一个什么都不做的NoOp模块，它可以用来将任意模块布局填充到最大长度T。我们的模块实现总结在表1中。可区分的存储器堆栈。在我们的模型中，不同的模块可能需要不同数量的输入，模型有时需要获取当前看到的内容，并将其与之前看到的内容进行比较。这是典型基于堆栈神经模块网络的可解释神经计算7i=1模块名称输入关注输出类型实现细节（x：图像特征图，c：文本参数）找到（无）关注aout=conv2（conv1（xΣ）⊙W c）aout=conv2（ conv1（x）⊙ W1（a⊙x）⊙W2c）aout= minimum（a1，a 2）aout= maximum（a1，a 2）aout=And（a，Find（）），即重用Find和Andaout=Σconv1（x）y=WT（W2（a⊙x）⊙W 3c）TΣ1Σy=W1（W2（a1⊙x）⊙W3（a2⊙x）⊙W4c）(does没有）变换一关注和a1，a 2关注或a1，a 2关注滤波器一关注场景（无）关注回答一回答比较a1，a 2回答NoOp（无）（无）表1.我们模型中使用的神经模块。这些模块将图像注意力地图输入，并将新的图像注意力地图输入到您的所有相关内容中可能的答案（⊙是元素乘法;是空间维度的总和）。在树状结构布局中，例如 Compare （ Find （）， Transform （ Find（）））。为了处理树结构布局，模型需要有一个内存来记住来自先前推理时间步的输出类似于内存网络[34]，我们提供了一个可区分的内存池来存储和检索中间输出。然而，为了鼓励组合行为，我们将内存池限制为类似于[12]的后进先出（LIFO）堆栈。LIFO行为鼓励神经模块像计算机程序中的函数一样工作，只允许参数和返回值在模块之间传递，而不需要任意修改内存。我们的内存堆栈可用于存储具有固定维度的向量它由长度为L的存储器阵列A={Ai}L组成（其中L是堆栈长度）以及实现为L维独热向量的栈顶指针p堆栈（A，p）实现可区分的push和pop操作如下。将新向量z推入堆栈（A，p）经由指针递增来完成，如p：= 1d conv（p，[0，0，1]），随后是值写入，如A i：= A i·（1-p i）+z·p i，如果ea chi=1，...， L. 类似地，从存储器中取出Σecure ttack-topvectorz（A，p）通过值读取完成，如z：Li=1 Ai·pi后跟指针decre-int为p：= 1d conv（p，[1，0，0]）。这里Ai是A中堆栈深度i处的向量。在push和pop操作中，one-hot堆栈指针p使用一维卷积递增或递减。在我们的模型中，我们使用上述内存堆栈来存储H×W维图像注意力映射，其中H和W是图像特征映射的高度和宽度使用存储器堆栈，每个模块首先从堆栈弹出以获得输入图像关注度，然后将其结果推回堆栈。例如，在诸如 Compare（ Find （）， Transform（Find（）的树状布局中，Find模块将其定位结果推送到堆栈中，Transform模块从堆栈中弹出一个图像注意力图并推回经变换的注意力，Compare模块弹出两个图像注意力图并使用它们来预测答案。8R. Hu，J. Andreas，T.达雷尔K.SaenkoM（吨）（吨）3.3软程序执行我们的模型通过软模型dulewet hsw（t）执行模块布局的连续选择。在一个计算步骤中，我们执行在我们的模块列表M（如表1所示）中的所有模块，并且执行它们的结果的加权平均，其中，通过计算所述模块列表M中的每个模块列表M（如表1所示）来执行它们的结果的加权平均，其中，所述模块列表M（如表1所示）是通过计算所述模块列表M中的每个模块列表M（如表1所示）来执行的。具体地，从每个模块的执行得到的存储器栈被加权平均，具有如下期望以继续执行单个存储器栈。在时间步长t=0处，我们用均匀图像关注初始化存储器堆栈（A，p），并且将堆栈指针p设置为指向堆栈的底部（在第一维中具有1的独热向量）。然后，在每个时间步t，对于每个m∈M的模，我们在该过程记忆结构a ck（A（t），p（t））上执行计算。During执行时，每个模块m可以从其弹出。堆栈Σ并推回其结果，pro-通过将一个updatedstack（A（t），p（t））表示为A（t），p（t）.Σ=运行模块m，A，p，嗯嗯嗯对于每个m∈M.我们平均每个模块的新堆栈，c或digtsweightw（t）为A（t+1）=ΣA（t）·w（t），并且将mm∈Mm m这是一个很好的例子。tmaxoperatioΣn的s在e-hotvector上将pit视为a（实际上）因为p（t+1）=softmaxp（t）·w（t）。m ∈ MMm最终输出。我们将此模型应用于视觉问答（VQA）任务和参考表达式接地（REF）任务。为了获得VQA任务中的答案，我们收集输出答案logits（即分数）在所有时间步长从这些模块有答案输出（答案和比较表1），并将它们相对于其模块权重进行y=ΣT−1Σy（t）w（t）其中M包含回答和比较。t=0m∈Mans Mmans为了在REF任务中输出接地结果，我们将图像-注意力图在t=T时在最终堆栈的顶部，并且从该注意力图中提取关注图像然后，线性层被应用于关注的图像特征以预测从特征网格位置的边界框偏移3.4培训与以前的模块化方法N2NMN [16]，PG+EE [19]和TbD [21]不同，我们的模型不需要专家布局来实现良好的性能。当这样的专家布局监督可用时，我们的模型还可以通过将t_dual_w_t（t）的t_dual_w_t（t）的s与c_ros_en_t_r_op_y_s_tom_at_h_e_xp_t的m_dual_choice来利用它。但是，由于传统的任务k是完全不同的，因此在没有专家布局监督的情况下，它可以在没有强化学习的情况下，仅从任务监督来有效地训练。对于VQA，我们在最终答案分数上使用softmax交叉熵损失进行训练y. 对于REF，我们将地面实况边界框的中心映射到特征网格上的然后，我们在最终图像注意力图上使用softmax交叉熵损失进行训练，将所有注意力放在地面实况特征网格上，并在边界框偏移上使用边界框回归损失进行训练，以匹配地面实况框。我们使用Adam优化器进行训练，学习率为10- 4基于堆栈神经模块网络的可解释神经计算9培训专家布置VQA精度REF准确度VQA是的96.6n/aREF是的n/a96.0VQA+参考是的96.596.2VQA没有93.0n/aREF没有n/a93.4VQA+参考没有93.995.4表2. CLEVR数据集（VQA）和CLEVR-Ref数据集（REF）的确认准确度。我们的模型同时处理这两个任务具有很高的准确性。4实验我们在大规模CLEVR数据上评估了我们在视觉问答（VQA）任务上的模型[18]。该数据集由70000、15000和15000张图像组成数据集中的图像由图形引擎渲染，问题由复杂的推理过程合成。为了评估我们在参考表达基础（REF）任务[30]上的模型，我们使用[18]的代码库构建了一个新的CLEVR-Ref数据集，其中包含CLEVR风格我们的新CLEVR-Ref数据集与VQA的原始CLEVR数据集具有相同的规模，但包含引用表达式而不是问题。每个参考表达式都引用图像中的唯一对象，并且模型需要接地（即，接地）。用边界框定位）对应的对象。如果接地边界框与地面实况边界框重叠至少0.5交叉联合（IoU）。与CLEVR数据集中的问题回答类似，参考表达也涉及复杂的推理和关系处理。CLEVR-Ref数据集示例见图3。4.1模型性能我们的模型的目的是同时处理VQA和REF任务，并分解成子任务的推理过程中，通过诱导一个合适的模块布局在每个问题或参考表达式。我们在VQA任务的CLEVR数据集和REF任务的CLEVR-Ref数据集上训练我们的模型。我们实验仅在VQA任务上进行训练，仅在REF任务上进行训练，以及使用两个任务的损失在两个任务上进行联合训练（VQA+REF）。为了测试我们的模型是否可以诱导合理的子任务分解和模块布局，我们使用专家布局监督（与[16]相同）和从头开始训练而无需专家布局。我们使用在ImageNet分类上预训练的ResNet-101convnet [14]从图像中提取视觉特征。结果总结在表2中。可以看出，当在每个单独的任务上进行训练时，我们的模型在两个任务上都达到了超过90%的准确率（这两个任务都是10R. Hu，J. Andreas，T.达雷尔K.SaenkoVQA（专家布局）VQA（从头开始）REF（专家布局）REF（从头开始）图三.我们的模型在VQA（左）和REF（右）上的示例。在每一步中，我们将具有最高权重的模块可视化，即接收最多文本关注的单词（第二节中的cvt，s）。3.1)和模块输出。是相当好的性能），无论是否使用专家布局监督此外，联合训练可以在这两个任务上实现更高的准确性（特别是在不使用专家布局时）。我们的模型可以同时处理这两个任务，利用它们的共同的子任务，如寻找对象和处理关系。子任务分解和布局归纳。通过比较底部3行（未使用专家布局训练）和顶部3行（使用专家布局监督训练），可以看出，尽管使用专家布局训练的模型仍然优于从头开始的训练，但两种场景之间的差距相对较小。这表明我们的模型在没有布局监督的情况下仍然可以很好地工作，这是以前的模块化方法，如N2NMN [16]，PG+EE [19]和TbD[21]无法处理的。基于堆栈神经模块网络的可解释神经计算11我们可视化的推理过程，我们的多任务模型上的VQA和REF任务，无论是与专家布局和没有专家布局监督。图3显示了模块布局，中间推理输出和来自文本注意力的最常关注的单词（第二节中的cvt，s）。第3.1节）。可以看出，我们的模型可以在没有专家布局监督的情况下将推理过程合理地分解为子任务，并且它学习共享公共子任务，例如查找（本地化）和在两个任务之间转换。我们注意到，我们的模型在收敛后学习峰值模块权重。学习的软模块权重的平均熵（可以看出作为概率分布）为0。082（对应于在一个模块上放置超过98%的权重），以及7. 5× 10 −5，当接受布局监督培训时（相当于将99。99%重量在一个模块上）。这表明，即使没有对模块布局的任何强有力的监督，我们的模型也学会了在测试时通过软模块权重几乎离散地选择一个模块因此，我们提出的框架可以被视为一种新的端到端的模块化网络的可微分训练方法。我们进一步实验测试时的布局离散化，用一个热argmax向量代替软模块的权重。这导致CLEVR验证集的性能略微降低（在没有布局监督的情况下训练时为90.0%，在有布局监督的情况下为94.8%）。考虑到训练和测试时间之间的差异，测试时布局离散化的准确率下降相对较小（4%），这表明我们的模型在测试时的工作方式与以前的模块化网络类似，而不是作为专家的混合体<准确度评价我们首先将我们的模型在CLEVR VQA数据集上的准确性与之前的模块化方法N2NMN [16]，PG+EE [19]和TbD [21]进行比较。N2NMN使用布局策略来预测离散布局，并使用神经模块网络来回答问题。PG+EE和TbD也是类似于N2NMN的模块化方法，其中程序生成器类似于布局策略，执行引擎本质上是神经模块网络。为了与以前的工作进行公平比较，我们仅在CLEVR VQA数据集上训练我们的模型（而不使用CLEVR-Ref进行联合训练）。结果示于表 3 中。从前 4 行可以看出，在所有模块化方法（N2NMN、PG+EE、TbD和Ours）中，当布局监督可用时，我们的模型以较大幅度优于N2NMN，并且实现与PG+EE相当的性能，而以较小幅度低于TbD。我们注意到，即使在使用专家布局时，我们的模型仍然比PG+EE或TbD使用更少的监督，因为它们都需要细粒度的模块规范（例如，在[19，21]中，发现形状和发现颜色是不同的模块，而在我们的模型中，相同的模块具有不同的文本注意力底部4行显示了不使用专家布局监督的结果在这种情况下，N2NMN具有大的性能下降，而PG+EE和TbD不能收敛或不能在没有布局监督的情况下被训练。这可以归因于N2NMN，PG+EE和TbD都使用离散的不可微布局，而我们的模型是完全可微的，可以用反向传播进行训练。12R. Hu，J. Andreas，T.达雷尔K.Saenko方法专家布置CLEVR上的准确度N2NMN [16]是的83.7PG+EE [19]是的96.9TbD [21]是的99.1我们是的96.5N2NMN [16]没有69.0PG+EE [19]没有(does不收敛）TbD [21]没有(not支持）我们没有93.0表3.比较我们的模型和其他模块化方法在CLEVR数据集上的VQA。当不依赖于专家布局时，我们的模型达到了最佳的准确性，而N2NMN在这种情况下具有显着的性能下降。最好的非模块化架构（例如，[17])实现更高的性能;我们比较了这些模块化的性能，在精度和可解释性。四点二。方法专家布置VQAv1的准确度VQAv2的准确度N2NMN [16]是的64.963.3我们没有65.564.1我们是的66.064.0表4.我们的方法和N2NMN [16]在VQAv1 [6]和VQAv2 [11]数据集上的单模型准确度，使用相同的实验设置（例如视觉特征）。我们注意到，最好的非模块化架构[17]在不使用专家布局监督的情况下实现了更高的性能，并在第2节中将其与模块化性能进行了准确性和可解释性的比较。四点二。真实图像VQA数据集的结果我们还在真实图像视觉问答数据集上评估了我们的方法，并与N2NMN [16]进行了比较。我们在VQAv 1和VQAv 2数据集[6，11]上运行我们的方法，遵循相同的设置（例如使用ResNet-152图像特征和在测试时间的单个模型而没有集合），其中结果在表4中。虽然这些数据集中的问答任务更多地关注视觉识别而不是组合推理，但即使没有专家布局监督（专家布局由句法解析器获得），我们的方法仍然优于[16]4.2模型可解释性可解释性评价在现有的作品中经常有人提出[16，19，21]，与整体模型相比，模块化网络对人类来说更容易解释。然而，在这些作品中缺乏人类研究来支持这一说法。在本节中，我们将评估用户对模型内部推理过程的理解程度，并将其与MAC [17]进行比较。我们与MAC进行比较，因为它是最先进的整体模型，也执行多步顺序推理，并且在每个时间步具有图像和文本注意力，而其他模型（例如，[26]第26话：你是谁？基于堆栈神经模块网络的可解释神经计算13更低的性能，并且没有任何图像或文本注意可视化。MAC是一种多级递归结构，具有控制单元和读写单元。与我们的模型相似，它也在每个推理步骤中关注文本和图像。但与我们的模型不同，MAC中没有明确的模块结构在这里，我们研究两个不同但相关的问题：模块化结构是否能提高用户对模型性能的主观感受，并且这种结构是否允许用户形成关于模型行为的真实信念？为此，我们提出了两套不同的实验（主观理解和前瞻性预测）与人类评估。关于[8]中提出的内部可实现性评估分类，“人类”定义的方法定义了“一个扩展的质量的一般不确定性”。在该子结构和评估中，我们评估了模型的中间输出，例如每个步骤处的图像注意力和文本注意力，以及模型的最终预测的过程。该视图可以在图3中看到。然后，人类评估人员被要求判断他们对内部推理过程的理解程度，或者用户是否清楚模型在每一步都在做什么。每个实施例在对应于4、3、2和1的数字评分的4点李克特量表（清晰、大部分清晰、有些不清晰和不清晰）表5中示出了每个选择的平均得分和百分比，其中可以看出，我们的模型具有比MAMC [ 17]更高的主观理解和评价，并且在两种情况下（使用或不使用专家布局监督）都具有更高的被称为“清晰”的程度。这表明，用户可以更清楚地了解我们的模型中的推理过程。在前向预测评估中，我们调查人类是否可以预测模型的预测并检测到在服务器上出现的故障。我们将测试集分为一半正确和一半不正确的模型预测，并且未显示最终答案输出，因此人类基线表现应该是机会或50%。我们的假设是，如果人类能够比偶然性更好地预测模型的成功或失败，那么他们就了解了模型的决策过程。在表5中，我们显示了该值的平均值以及95%置信区间。可以看出，我们的模型允许他们预测模型是否会得到正确的答案，或者在没有专家布局监督的情况下进行训练时，失败的概率始终高于概率我们还注意到，当使用来自专家布局的监督时，我们的模型在人为预测模型故障方面做得更差。我们的期望是帮助人们理解模型的工作原理。当监督布局时，模型可能以可预测性为代价过拟合专家布局。它可能会通过在一个时间点上对数据进行最小化来“插入”一个布局，但这个布局可能实际上并不是它解决问题的方式。另一方面，未监督模型不被强制预测任何特定布局以最小化损失，因此其布局可以更直接地最小化答案损失。最后，我们在表5中比较了我们的模型与MAC的VQA准确性。我们的模型在VQA准确性方面表现不佳。然而，我们的模型对人类用户来说更容易解释。这与可能存在准确性-可解释性折衷的直觉一致，例如，线性14R. Hu，J. Andreas，T.达雷尔K.Saenko中文（简体）清晰（3）不太清楚（2）不清楚（1）0 10 20 30 40 50 60 70 80每种选择的百分比（清楚、基本清楚、有些不清楚和不清楚）方法专家布置主观认识前向预测（故障检测）准确度±95%置信区间VQA精度我们是的3.470.545 ±0.06996.5我们没有3.330.625 ±0.06793.0MAC [17]n/a2.460.565 ±0.06998.9表5.我们的模型和最先进的非模块化MAC模型的人类评价[17]。根据模型的输入数据，评估者需要判断他们在4分制（即，4分制）上理解这些模型执行的推理步骤的清晰程度主观理解）和（b）进行前向预测（故障检测）并在没有看到最终输出答案的情况下决定模型是否故障结果表明，我们的模型是更好的解释人类用户。然而，我们的模型在VQA准确性方面不如非模块化MAC方法，这与可能存在准确性-可解释性权衡的直觉一致。与非线性模型相比，模型不太准确，但更易于解释然而，我们的模型大大减少了与顶级模型的准确性差距，而无需在训练时进行专家布局监督。5结论在本文中，我们提出了一个新的模型，视觉问答和参考表达接地。我们证明，我们的模型同时解决这两个任务，利用直觉，相关的任务应该共享共同的子任务，并共享一组共同的神经模块之间的任务。与以前的模块化方法相比，我们的模型将推理过程分解为子任务，同时不需要专家布局监督。所提出的模型可以解释其推理步骤与软模块的选择，图像的关注，和文本的关注序列。实验评估发现，这些解释产生了更好的理解人类用户的主观和客观的评价，即使在没有人提供的解释，在训练时间。鸣谢。这项工作得到了美国国防部和DARPA XAI和D3M以及伯克利人工智能研究（BAIR）实验室的部分支持。我们的（不含专家）我们的（不含专家）MAC基于堆栈神经模块网络的可解释神经计算15引用1. Anderson，P.他，X.，比勒角Teney，D. Johnson，M.，Gould，S.，Zhang，L. ：自下而上和自上而下关注图像字幕和 vqa 。 arXiv 预印本arXiv ：1707.07998（2017）2. Andreas，J.，Dragan，A.，Klein，D.：翻译神经语。在：ACL（2017）3. Andreas，J.，Klein，D.，Levine，S.：模块化多任务强化学习与策略草图。在：机器学习国际会议（ICML）（2017）4. Andreas，J.，Rohrbach，M.，Darrell，T.，Klein，D.：学习构建神经网络进行问答。在：计算语言学协会（ NAACL ）北美分会会议论文集（2016）5. Andreas，J.，Rohrbach，M.，Darrell，T.，Klein，D.：神经模块网络。在：IEEE计算机视觉和模式识别会议（CVPR）（2016年）的会议6. Antol，S.，阿格拉瓦尔，A.，卢，J，Mitchell，M.Batra，D.，LawrenceZitnick，C.Parikh，D.：Vqa：可视化问答。In：Proceedings of the IEEEInternational ConferenceonComputerVision. pp. 242 57. 鲍德Zhou，B.，（1991年），中国地质大学，Khosla，A.Oliva，A.，Torralba，A.：网络解剖：深层视觉表征的量化解释性。In：ComputerVision andPater nRe gnition （ CVPR ）， 2017IEEEConferenceon. pp.3319-3327 IEEE（2017）8. Doshi-Velez，F.，Kim，B.：Towards a strict science of interpretable machinelearning（2017）9. 杜赫，W.，阿达姆恰克河Grabczewski，K.：神经网络中逻辑规则的提取。NeuralProces singLeter s7（3），21110. Fukui，A.，D.H.公园杨，D.，Rohrbach，A.，Darrell，T.，Rohrbach，M.：多模态紧凑双线性池的视觉问题回答和视觉接地。自然语言处理经验方法会议（EMNLP）（2016）11. Goyal，Y.，Khot，T.，萨默斯-斯特，D.Batra，D.，Parikh，D.：使vqa中的v重要：提升图像理解在视觉问答中的作用在：CVPR（2017）12. Grefenstette，E.，Hermann，K.M.，Suleyman，M.，Blunsom，P.：学习用无限的记忆进行翻译。神经信息处理系统进展。pp. 182813. He ， K. ， G. ， G. ，做吧， PGirshi ck ， R. ： Maskr-cnn 。 In ：ComputerVision（ICCV），2017年II nternatonalConferenceon. pp. 2980- 2988年。IEEE（2017）14. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深

下载后可阅读完整内容，剩余1页未读，立即下载