利用语义信息提高深度神经网络的可解释性

30 浏览量更新于2023-10-16 收藏 13.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

dongyinpeng@gmail.com{suhangss, dcszj, dcszb}@mail.tsinghua.edu.cn43060利用语义信息提高深度神经网络的可解释性 �0董银鹏苏航朱军张博清华大学信息科学与技术国家实验室智能技术与系统国家重点实验室生物启发计算研究中心清华大学计算机科学与技术系0摘要0深度神经网络（DNNs）的可解释性是至关重要的，因为它使用户能够了解模型的整体优势和劣势，传达模型在未来的行为方式以及如何诊断和纠正潜在问题的理解。然而，由于其不透明或黑盒的特性，很难推断DNN实际上是如何工作的。为了解决这个问题，我们提出了一种利用人类描述中嵌入的丰富语义信息来提高DNN可解释性的新技术。通过专注于视频字幕生成任务，我们首先从人类描述中提取一组语义上有意义的主题，涵盖了广泛的视觉概念，并将它们与模型集成在一起，使用解释性损失进行训练。然后，我们提出了一种预测差异最大化算法来解释每个神经元的学习特征。实验结果表明，使用可解释的特征在视频字幕生成中具有有效性，这些特征也可以转移到视频动作识别中。通过清楚地理解学习到的特征，用户可以通过人机协同的方式轻松修正错误的预测。01. 引言0深度神经网络（DNNs）在许多与视觉相关的任务中展示了最先进的甚至是与人类竞争的性能，包括图像分类、目标检测和图像/视频字幕生成等。在取得这样的成功后，DNNs已经作为各种智能系统的关键组成部分被整合进去，例如自动驾驶汽车、医疗图像分析等。0� 本工作得到了中国国家重点基础研究发展计划（973计划）（No.2013CB329403），国家自然科学基金项目（Nos. 61571261,61620106010, 61621136008），中国博士后科学基金（No.2015M580099），天工智能计算研究院以及与腾讯的合作项目的支持。0图1.我们的解释系统（底部）与不透明系统（顶部）的概述。不透明系统通常学习抽象和难以理解的特征。人类用户必须被动地接受系统的决策，但无法理解决策的原理并与之交互。为了解决这个问题，我们将嵌入在人类描述中的主题作为语义信息纳入到DNN的学习过程中，以提高其可解释性。每个神经元的学习特征可以与一个主题相关联（例如，主题“道路”与道路、街道和驾驶等相关词汇可以解释蓝色神经元的学习特征）。借助这些可解释的特征，人类用户可以轻松地可视化和与系统交互，从而实现人机协同学习过程。0年龄分析、金融投资等领域。DNNs的高性能主要依赖于它们通常堆叠了数十甚至数百个非线性层，并将知识编码为各种节点之间连接的数值权重。尽管DNNs为各种应用提供了巨大的好处，但由于其高度非线性的函数和不清晰的工作机制，它们通常被视为“黑盒”模型。在没有清楚理解复杂模型中的给定神经元学到了什么以及它如何与其他神经元交互的情况下，改进模型的发展通常依赖于试错。此外，DNNs的有效性在一定程度上受到其无法解释的限制。43070解释决策或行动背后的原因给人类用户。仅仅向用户提供最终结果是远远不够的，特别是对于高度规范的环境，因为他们可能还需要理解决策的理由。例如，自动驾驶汽车的驾驶员渴望知道为什么会报告障碍物，以便他/她可以决定是否相信它；放射科医生也需要从系统中获得一个清晰可解释的结果，以便在做出诊断时将决策与他们的标准指南结合起来。在[24]中的一个极端案例中，DNN很容易被愚弄，即可以产生DNN认为是可识别对象并具有几乎确定的置信度的图像，但对人类来说完全无法识别。总之，DNN的反直觉属性和黑盒性质使得人们几乎无法推理它们的行为、预见它们的行为，并在发现潜在问题时修复错误。因此，开发具有良好可解释性的系统是至关重要的，这是用户清楚理解、适当信任和有效与系统交互的基本属性。0最近，许多研究工作致力于解释DNN的隐藏特征[12, 25,38,37]，并在可解释性方面迈出了几步，例如，反卷积网络[37]用于可视化卷积网络的层，以及激活最大化[12]将语义概念与CNN的神经元相关联。还有一些尝试探索循环神经网络（RNN）的各种门和连接的有效性[10,17]。可解释性还为我们带来了一些好处，如弱监督检测[39]。然而，这些工作通常集中在分析相对简单的架构，如AlexNet[18]用于图像分类。对于集成了CNN和RNN的更复杂的架构，仍然缺乏解释技术，其中学习到的特征很难解释和可视化。更重要的是，这些方法在训练过程之后进行解释和可视化。这意味着它们只能解释给定的模型，但无法学习一个可解释的模型。学习和解释之间的这种解耦使得让人与模型进行交互（例如，纠正错误）变得极其困难（如果可能的话）。0在本文中，我们通过提出一种方法来解决上述限制，将隐藏特征的可解释性作为学习过程中的重要组成部分。我们方法的一个关键组成部分是测量可解释性并适当地规范学习过程。我们不追求通用解决方案，而是将注意力集中在视频字幕任务[32]上，对于这个任务，DNN已经证明在学习高度预测特征的同时，可解释性仍然是一个问题。在这个任务中，我们利用提供的文本描述，其中0包括丰富的信息，以指导学习。我们首先从语料库中提取一组语义上有意义的主题，这些主题涵盖了广泛的视觉概念，包括对象、动作、关系甚至对象的情绪或状态，因此适合表示语义信息。然后，我们解析每个视频的描述，以获得潜在的主题表示，即语义空间中的向量。我们通过引入“解释性损失”将主题表示集成到训练过程中，这有助于提高学习到的特征的可解释性。为了进一步解释学习到的特征，我们提出了一种“预测差异最大化”算法。我们还提出了一种人机协同学习过程，通过该过程，用户可以根据对学习到的特征的良好解释轻松修正错误预测和模型。我们在真实数据集上的结果证明了其有效性。02. 方法论0在本节中，我们介绍我们解释系统的关键组成部分。首先，我们概述视频字幕任务上的系统。然后，我们提出了一个注意力编码器-解码器网络，它结合了解释性损失来学习可解释的特征。之后，我们提出了一种预测差异最大化算法来解释每个神经元学到的特征。我们将在第4节中介绍利用可解释性的人机交互学习过程。02.1. 概述0我们的目标是在不损失效率的情况下提高深度神经网络的可解释性。通过设计适当的学习目标，我们期望学习到具有两个特性的隐藏特征：可区分性和可解释性。可区分性定义了特征能够区分不同的输入并预测相应输出的能力。可解释性衡量了人类用户理解和操作学到的特征的程度。这两个特性在深度神经网络中经常相互矛盾。根据基本的偏差-方差权衡，复杂的深度神经网络在预测性能上可能非常竞争，但其隐藏特征通常过于抽象，难以为人类理解。另一方面，简单的深度神经网络可以导致更可解释的特征，但可能会降低性能。为了打破这个困境，我们引入额外的语义信息来指导学习过程。在本文中，我们将集中讨论视频字幕任务[32]，尽管类似的思想可以推广到其他场景。具体而言，视频字幕任务旨在自动描述视频内容并生成完整自然的句子。最近的研究表明，视频字幕可以从多个语义的发现中受益，包括对象、动作、关系等。43080图2.视频字幕任务的注意力编码器-解码器框架，可以自动学习可解释的特征。我们将CNN模型和双向LSTM模型堆叠作为编码器，提取视频特征{v1，...vn}，然后将它们馈送给LSTM解码器生成描述。注意机制用于让解码器专注于带权重αt的时间特征的加权和。我们从人工标注的描述中提取潜在主题作为语义信息，并引入解释性损失来指导学习以获得可解释的特征，这与训练描述的负对数似然一起进行优化。0刘等人[20，21]提出了一种原始的方法来联合人类动作建模和分组，可以为视频字幕建模提供全面的信息，并明确地有助于理解给定视频中发生的情况。由于视频不仅是一组静态图像，其中不仅有静态对象，还有时间关系和动作，视频分析通常需要更复杂的网络架构。例如，一些研究已经显示了在视频分析中堆叠层次化RNN在一些CNN层之上的DNN的有效性[2，35]。这样一个复杂的网络使得学习可解释的隐藏特征更具挑战性，并阻碍了模型与人类用户之间的交互。为了解决这个问题，我们提出了一种利用从视频描述中提取的潜在主题来提高学习特征可解释性的新技术。整体框架如图2所示，包括用于视频字幕生成的注意力编码器-解码器网络和用于指导学习向语义有意义的特征的解释性损失。在训练集中，每个视频x有n个样本帧以及一组Nd个描述Y ={y1，y2，...，yNd}。对于每个y∈Y，令(x，y)表示一个训练视频-描述对，其中y ={y1，y2，...，yNs}是一个包含Ns个单词的描述。我们首先使用编码器网络将输入x转换为一组Dv维隐藏特征V ={v1，...，vn}。然后，解码隐藏特征以生成描述y。我们将任务特定的损失定义为正确描述的负对数似然。0L T ( x , y ) = − log p ( y | x ) 。 (1)0我们解析文本描述 Y 以获得语义上有意义的表示（本文中称为主题表示）。0有意义的表示（即本文中的主题表示），表示为 s。然后，我们引入一个解释性损失 L I ( V, s )来衡量学习到的特征与语义表示 s的一致性。综合起来，我们将整体目标函数定义为 L ( x , y, s ) = − log p ( y | x ) + λL I ( V, s ) 。 (2)0这两个相互矛盾的损失之间的权衡由平衡权重 λ捕捉。一个具有高质量的解释系统可以基于适当的 λ实现，可以使用验证集获得。训练后（详见实验部分），我们使用预测差异最大化算法通过主题来解释每个神经元学习到的特征。下面，我们详细说明每个部分。02.2. 注意力编码器-解码器框架0我们采用了类似于[ 34]的注意力编码器-解码器框架进行视频字幕生成。注意力机制用于让解码器一次只关注一小部分帧。与之前的工作[ 32 , 34 , 26]使用CNN特征作为视频表示的关键区别在于，我们在CNN模型之上堆叠了一个双向LSTM模型[ 29]，以同时对输入方向的视频时间变化进行建模。这样的编码器网络使得第 i 帧的向量表示 v i捕捉到了时间信息，因此解释性损失（在第8式中定义）使得内部神经元学习检测视频中的潜在主题。因此，学习到的特征更有可能既具有区分性又具有可解释性。为了生成描述句子，我们使用一个LSTM模型作为解码器。φt(V ) =n�i=1αtivi.(3)αti =exp(wa tanh(Uaht−1 + Tavi + ba))nj=1 exp(wa tanh(Uaht−1 + Tavj + ba)), (4)pt = softmax(Wp[ht, φt(V ), yt−1] + bp).(6)log p(y|x) =Ns�t=1log p(yt|y

下载后可阅读完整内容，剩余1页未读，立即下载