共享可解释性的深度神经网络模型

111 浏览量更新于2023-10-16 收藏 15.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1770共享具有解释性的深度神经网络模型0Huijun WuUNSW和Data61，CSIRO，澳大利亚悉尼，huijunw@cse.unsw.edu.au0Chen WangData61，CSIRO，澳大利亚悉尼，chen.wang@data61.csiro.au0JieYin悉尼大学，澳大利亚悉尼，jie.yin@sydney.edu.au0Kai LuNUDT，中国长沙，kailu@nudt.edu.cn0Liming ZhuUNSW和Data61，CSIRO，澳大利亚悉尼，limingz@cse.unsw.edu.au0摘要0尽管在许多任务中超越了人类，深度神经网络模型在决策过程中的透明度和可解释性也受到批评。这种不透明性导致在模型共享场景中部署这样的模型时存在不确定性和低置信度，其中模型是由第三方开发的。对于一个监督式机器学习模型，共享包括训练数据在内的训练过程是获得信任和更好理解模型预测的一种方式。然而，由于隐私和政策限制，不总是可能共享所有的训练数据。在本文中，我们提出了一种方法来披露一小部分足以让用户了解复杂模型的训练数据。该方法使用选定的训练数据构建边界树，该树能够以高保真度近似复杂的深度神经网络模型。我们展示了树中的数据点对用户更好地理解模型的决策边界，并为可信任的模型共享铺平了道路。0CCS概念0•计算方法→神经网络；•软件及其工程→开源模型；0关键词0深度神经网络，模型共享，可解释性，决策边界0ACM参考格式：Huijun Wu，Chen Wang，Jie Yin，Kai Lu和LimingZhu。2018。共享具有解释性的深度神经网络模型。在WWW2018：2018年网络会议上，2018年4月23日至27日，法国里昂。ACM，纽约，美国，11页。https://doi.org/10.1145/3178876.318599501引言0复杂的机器学习模型，如深度神经网络（DNN），在图像分类[11,18]、语音识别[10,12]和围棋等经典游戏[29]方面取得了巨大的成功。0本文发表在Creative Commons Attribution 4.0 International（CC BY4.0）许可下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW2018，2018年4月23日至27日，法国里昂©2018IW3C2（国际万维网会议委员会），根据Creative Commons CC BY 4.0许可发布。ACMISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31859950近年来，深度神经网络（DNN）在越来越多的应用中取得了成功。然而，训练DNN模型通常需要大量标记数据和调优的努力。共享训练好的模型具有成本效益。如图1所示，机器学习模型可以托管在云端，并以按需付费的方式作为服务运行。模型开发者使用他们收集的数据来训练模型。他们可以使用机器学习作为服务平台（MLaaS），如Google CloudML [23]，AmazonML [2]或Microsoft AzureML[21]在云端开发模型和管理训练数据。然后，应用开发者可以通过预测API将这些模型集成到他们的应用程序中。然而，一个复杂的机器学习模型，特别是DNN模型仍然是一个黑盒子，模型的质量很难评估，特别是当应用数据的分布与训练数据不同时。常用的准确度和置信度值不足以揭示模型在来自不同来源的数据上的行为。一个简单的例子是，模型对于一个未知类别的数据点的分类置信度可以很高（见图13）。MLaaS平台没有有效的方法来解决这个问题，因此用户很难相信一个共享的模型。0应用程序开发者0共享模型0模型0开发者0训练API0预测API0非共享数据0图1：模型共享场景：模型用户调用预测API获取其输入数据的预测结果。预测基于第三方模型开发者在模型用户无法看到的数据上开发的深度神经网络模型。0提供解释模型的方法对于提高模型的透明度和帮助模型用户理解模型在其数据上的潜在弱点是有效的。探索DNN的可解释性越来越受到关注。一种常见的方法是寻找示例或原型来指导决策，这与基于案例推理的方法相一致[1]。0会议：2018年4月23日至27日，法国里昂举办的Web智能和自主系统This approach identifies training data points that are close to datapoints within their own classes and far away from those in differentclasses [5]. Prototype finding is solved as a set cover optimizationproblem in [5]. This approach is complemented by criticism findingas prototypes give little information to interpret the data pointsthat do not fit a model well. MMD-critic [16] intends to find outliersin a class that differ the most to other data points belonging to thesame class. These outliers are called criticisms. However, criticismsdo not contain sufficient information to give users hints aboutwhy a model classifies a data point into one class, not another.Without information about similar data points in the neighboringclasses, it is still difficult for a user to understand crucial modelpredictions around class boundaries. In other words, characterizingthe differences between classes is able to explain these predictions.Another approach is to mimic a complicated model using aninterpretable simple model such as decision tree [6–8, 28]. The lim-itation of this approach is that it often requires structured trainingdata. When the structure of data is complicated, a decision treeitself can be difficult to interpret.Visualization is also used to examine features extracted by hiddenneurons in DNNs for users to infer the relationship between aclassification decision and these features [15, 35, 36]. The sampleperturbation approach [9, 24] also attempts to understand featuresleading to certain predictions in image classification. The basic ideais to learn an image perturbation mask that minimizes a class score.The computational cost for perturbation based methods is non-trivial. Moreover, these methods rely on the change of confidencevalues to infer the influence of a changing individual feature. Thechange in confidence values may not accurately reflect the influenceof features on predictions when there is a concept drift in data,which can be particularly common in model sharing or open setclassification scenarios [27]. Moreover, in model sharing scenarios,model users may not have the access to the internal structure of amodel [34].Along a similar line, [17] proposes to use influence functionsto identify the most important training data leading to certainpredictions. This method requires the access to the whole trainingdataset, which is unrealistic in the model sharing settings.In this paper, we propose a method to enhance users’ understand-ing of a shared DNN model by providing a small set of trainingdata that characterizes the model decision boundaries. These datapoints are informative for users to infer how a prediction is madein relation to them. Our method is relatively simple yet effective.Specifically, we employ a max-margin based approach to select themost representative training data that largely contributes to theforming of the decision boundaries of a DNN model. These trainingdata points are organized via an Explicable Boundary Tree (EB-tree)based on the distances in the DNN transformed space. The EB-treedata structure embodies DNN decision boundaries. Thus, traversingdata points in the EB-tree is able to approximate the predictions ofthe DNN model on these points with high fidelity.EB-tree has the following advantages: First, it extracts trainingdata points that characterize decision boundaries so that it is ableto explain why a test data point is classified into one class, not theother through the traversal of the test point along training data pairswith different labels in the tree. These pairs reveal the differencebetween a test data point to representative training data belonging1780为了理解DNN模型的分类决策是如何进行的，首先，我们可以通过遍历EB-tree来解释分类结果，而不需要访问DNN模型的内部结构，因此适用于模型共享场景。其次，EB-tree在计算上非常高效，因为它只需要经过一次训练数据，这使得它可以处理大型模型。我们的实验结果表明，EB-tree能够通过只公开一小部分训练数据来实现与DNN模型的高度一致性。此外，我们通过人类试验研究表明，树中测试点的遍历过程明显提高了模型用户对DNN模型预测方式的理解。与MMD-critic等方法相比，树中的边界遍历可以帮助用户更好地理解分类结果。我们还证明，除了给模型用户洞察DNN模型决策边界之外，EB-tree还可以用于识别错误标记的训练数据和提高新类别检测的效率，这两者对于理解共享模型非常有用。本文的其余部分组织如下：第2节描述了DNN模型的决策边界以及与共享深度学习模型相关的可解释边界树（EB-tree）的构建过程；第3节给出了使用EB-tree近似模型的算法；第4节呈现了评估结果；第5节总结了本文。02 可解释边界树 2.1 可解释决策边界0解释DNN模型的一种有效方法是将模型所做的预测中的数值与与该预测相关的训练数据相联系。这个过程使用这些训练数据点来描述模型的决策边界，并确保这些边界与模型的预测一致。我们将这些边界称为可解释的决策边界。在DNN转换空间中，使用Voronoi图[4]可以计算具有不同标签的训练数据点形成的可解释决策边界。具体而言，设P = {Pk | k ∈K}表示空间X中一组不同的点，P的Voronoi图是将空间分割为K个区域。一个区域中的数据点，表示为Rk，具有以下属性：它们到Pk的距离不大于它们到任何Pj（j ≠k）的距离。形式上，给定一个距离函数d(x,Pk)，Voronoi图中的一个区域定义如下：0Rk = {x ∈ X | �j ≠ k, d(x, Pk) ≤ d(x, Pj)}}.0我们通过一个示例展示了在DNN转换空间中如何描述两个类之间的可解释边界。如图2所示，灰色和白色区域的训练数据点具有不同的标签。我们通过Delaunay三角剖分[19]为所有这些点（K等于训练数据点的总数）构建了一个Voronoi图，如图2中的橙色线所示。Delaunay三角剖分是Voronoi图的对偶图，通常用于Voronoi图的构建。通过构建所有点的Voronoi图，两个类之间的可解释决策边界是不同类别相邻区域之间共享的一组连接边。为了获得0Track: Intelligent and Autonomous systems on the Web WWW 2018, April 23-27, 2018, Lyon, France1790在DNN转换空间的潜在层或输出层中可以构建可解释的决策边界，从而提供对DNN模型的不同层次的洞察。0图2：使用Voronoi图构建的可解释决策边界。然而，在Rd中计算n个点的Delaunay三角剖分0时间复杂度为O（n�d/2�）[33]。随着维度（d）的增加，它的扩展性变差，并且对于中等数据集来说，计算起来需要很长时间甚至不可能。为了解决这个问题，我们提出了一种称为可解释边界树（EB-tree）的方法，用于近似可解释的决策边界（在本文的其余部分简称为决策边界）。02.2 边界树0我们使用穿过边界及其关联节点的边在Delaunay三角剖分中近似决策边界。边界树是实现这一目标的数据结构。边界树（森林）算法[20]最初是为了快速在线学习而提出的。边界树的每个节点表示一个训练点。对于查询训练点y，算法查找最接近y的节点x，并使用x的标签预测y的类别。如果x与y具有相同的标签，则丢弃y。否则，将其添加到树中。该过程对每个训练数据点重复进行。测试数据点通过边界树中最近节点的标签进行分类。由于树中的每条边都穿过一个决策边界，因此边界树上的所有节点实际上勾勒出决策边界的轮廓。类似于穿过Delaunay三角剖分中决策边界的边，边界树上的两个端节点之间的差异可以作为接近边界的预测的局部解释器。02.3 可解释的边界树0尽管边缘提供了关于两个类之间决策边界的某些提示，但基本边界树在支持共享DNN模型的可解释性方面有三个主要限制：首先，树在决策过程中可能与DNN模型的准确性相对较低；其次，树中的训练数据点数量未经优化，有很大的空间可以减少数量以避免不必要的训练数据泄露；第三，训练数据点的选择不能清晰地刻画边界，因为两个远离边界的数据点可能通过一条边相连。最近的一些工作[37]意图使用DNN进一步学习边界树边的距离度量。具体而言，对于给定的边界树结构，[37]提供了一个DNN将数据转换为边界树友好的表示。请注意，[37]中使用的DNN并非针对分类进行优化。0相比之下，对于经过分类优化的给定DNN，EB-tree旨在通过少量的训练数据点准确地近似DNN分类器的决策边界。EB-tree旨在解决基本边界树的这些限制。图3显示了由DNN分类器f和优化的边界树组成的EB-tree的架构。模型转换模块负责构建边界树T以模拟DNN分类器的决策过程。T的每个节点是训练数据集D中接近决策边界的训练数据点。DNN分类器将训练数据t ∈D转换为表示f(t)，即转换后的特征向量。这些特征可以来自不同的隐藏层或输出层。我们使用DNN中softmax层的输出作为训练数据点的转换表示。欧氏距离用于衡量f(t1)和f(t2)之间的距离。EB-tree选择靠近决策边界的少量训练数据点来近似DNN模型。这些数据点有助于模型用户了解不同类别之间的关键差异。对于一个测试数据点，通过遍历树来找到其最接近的训练点对提供了对模型决策选择的解释。为了构建具有良好可解释性的EB-tree，确保通过一条边连接的两个节点之间的距离较短非常重要。由于边穿过边界，短边以较窄的边界近似边界，并为模型用户提供更好的边界可视化。基本边界树以在线方式进行训练，无法更改节点输入树的顺序。然而，EB-tree可以利用精心设计的训练顺序来提高模拟DNN模型决策边界的能力。具体而言，我们提供了一个训练数据排序算法，以更好地刻画边界。该算法具有高准确性和与DNN模型的准确性。构建完成后，EB-tree能够回答模型用户的测试数据点查询，具体过程如下：首先，将查询样本y通过DNN模型转换为f(y)；然后，遍历过程在树中找到最接近f(y)的节点x；最后，使用x的标签预测y的类别。遍历路径用作预测的解释器。03 模型转换0图3中的模型转换模块负责识别最具代表性的训练数据，以描述DNN模型的决策边界，并构建一个EB树来近似决策边界。基本的边界树算法无法达到足够的一致性，如我们的实验所示（表1），也无法优化树的大小，这可能导致不必要的训练数据泄露。我们通过训练点重新排序和边界拼接来解决这个问题，如下所述。03.1 训练数据点重新排序0图4给出了一个示例来说明训练点选择问题。节点B可以将节点A或A'作为其子节点之一。选择会导致查询Q的不同分类结果。具体来说，0Track: 2018年4月23-27日法国里昂举办的Web智能和自主系统..................��................................................��rootAA�QBl2489165732489165731800类器0决策边界0特征描述0可解释0边界树0构建0模型转0转换0类0N0边界树0可解释边界树（用于DNN分类器）0测试0数据0样本0DNN转换0表示0图3：可解释边界树的架构：模型用户调用预测API计算输入数据的DNN转换表示。表示通过边界树进行预测和解释。0当选择A'时，测试数据点Q被分类为A类，因为它更接近节点A（在虚线l'的左侧）；否则，它被错误分类，因为Q比A更接近节点B。0A类0B类0l �0图4：用于两类分类问题的边界树。A和A'是节点B的两个可能的子节点。Q是一个测试点。0从不同方向选择靠近边界且彼此靠近的训练数据对可以减少测试数据点被错误分类的概率，从而使构建的树能够与DNN模型高度一致。为了做到这一点，我们需要导出一个用于描述数据点与边界之间距离的度量标准。EB-tree使用支持向量机来测量距离。由于DNN转换空间通常可以被认为是线性可分的，我们首先使用支持向量机来获取决策边界。设w为垂直于决策边界的向量，b为标量“偏移量”，{xi，yi}表示训练点的DNN转换表示和DNN模型给出的相应预测标签。给定一组训练数据点x，两个类别的决策边界可以表示为wTx + b =0。（1）边界到边界两侧最近数据点的间隔满足0（wTxi + b）∙yi ≥ 1。（2）因此，两个类别之间的间隔为d = 20|| w || 。我们找到最大化两个类之间间隔的边界，0等价于最小化 || w ||。我们使用一对多方案[25]基于最大间隔获得每个类的边界。对于DNN转换空间中的每个训练数据点 ( x , y )，我们计算其到相应类别决策边界的最小距离。根据到边界的距离对训练点进行升序排序。EB树构建过程获取排序后的数据点插入树中。排序顺序对构建的边界树的节点数量和可解释性有重要影响。考虑到训练点是随机包含在树中的，一个远离决策边界的训练数据点很可能首先被添加到树中。这可能导致后续相邻的更接近边界的数据点被丢弃，因为它们与已经在树中的节点具有相同的标签。我们的实验表明，随机顺序倾向于在树中包含许多节点，但达不到最优的模型模仿性能。在可解释性方面，随机排序的数据点很可能在边界树中包含许多长边，这使得父节点和子节点之间的特征或视觉差异难以推断。相反，升序可以在构建的树中保持接近边界的数据点，同时避免包含长边。它也有可能丢弃远离边界的数据点。这些数据点的分类往往与人类直觉一致，将它们包含在树中对边界特征的描述没有太大贡献。这种方法有助于最小化训练数据的泄露。0(a)决策距离增加顺序。0(b)边界拼接顺序。0图5：按照距离增加顺序和边界拼接顺序构建边界树的比较：节点上的数字按照到决策边界的距离增加的顺序排列。0Track:智能和自主系统在Web上WWW 2018年4月23日至27日，法国里昂18103.2边界拼接算法0仅根据到边界的距离的升序插入训练数据点不足以有效构建具有良好可解释性的边界树。这主要是因为两个距离边界相似的训练点可能位于边界的不同端点并且彼此相距较远。这两个点的特征不太可能共享足够的共性，以便模型用户理解决策边界。图5a以一个例子说明了这种情况，在这个例子中，像节点3、6和7这样的数据点没有被包含在树中，因为它们对应的最接近的具有相同标签但更接近边界的节点已经在处理它们的时候被添加到树中。接下来，我们提出了一种边界拼接算法来解决这个问题，该算法旨在构建一个能够很好近似边界的树，如图5b所示。边界拼接算法（算法1）考虑了树中当前节点与要插入的候选点之间的距离。它根据候选点与树中当前节点的距离优先选择具有不同标签的候选点。该算法首先通过最大间隔计算训练数据点的DNN转换表示和它们到边界的距离。然后，根据到边界的距离的升序对这些数据点进行排序。边界树的构建从到边界的最短距离的节点开始。该节点作为根节点插入树中。然后对新添加的节点在树中进行 k个最近邻（kNNs）的搜索。如果存在一个与当前节点不同类别的邻近数据点，则选择距离当前节点最近的那个插入到树中。插入过程沿着选定的数据点遍历到它的最近节点。如果数据点与树中最近的节点具有不同的标签，则将其作为该节点的子节点插入；否则，将该数据点丢弃，因为已经添加了一个属于相同类别的相似节点到树中。该过程一直持续到所有数据点被处理完。对于大规模高维数据，找到 k个最近邻的计算成本很高。因此，我们使用局部敏感哈希（LSH）[3]来降低成本。对于一个n个点的d维空间数据集，这样做可以实现查询计算复杂度为O(dnρ + O(1))，其中ρ= 1。02 对于欧氏距离，c = 2 - 1，对于近似距离，c > 1。04 评估0我们在三个图像分类任务上评估了EB树的有效性。共享模型是用于MNIST手写数字数据集的卷积网络（CNN）[32]，用于CIFAR-10数据集的全卷积网络（All-CNN）[30]和用于ImageNet数据集的Inception-v3网络[31]。我们根据数据集中的类别数量设置了算法1中的k和EB树每个节点的最大子节点数量。我们从以下两个方面评估我们的算法：模型模仿性能和构建的EB树的可解释性。模型模仿性能通过EB树与其对应的DNN分类器之间的决策一致性来衡量，也称为保真度。我们使用的指标是EB树预测与DNN预测的F-度量。0算法1：边界拼接算法0输入：R：训练点的DNN转换表示和相应的DNN预测的列表。输出：DNN模型的EB树T。01 过程 EB树构建()02 // 根据到边界的距离对点进行排序03 Q = 按到边界的距离排序(R)04 current = Q.removeFirst()05 T.insert(null, current) // 插入根节点06 当 Q 不为空时执行07 child = getCandidate(current, Q, T, k)08 // 遍历T以找到最接近child的节点09 parent = findParent(T, child)010 如果 parent.label 与 child.label 不相等，则011 T.insert(parent, child)012 current = child013 结束014 结束015 函数 getCandidate(current, Q, T, k)016 currentIndex = Q.index(current)017 // 通过LSH找到Q的头部的k个最近候选节点018 kNearests = LSH[currentIndex/(N0n)].query(current, k)019 如果 kNearests 不为空，则020 对于 n ∈ kNearests 执行021 如果 n.label 与 current.label 不相等，则022 返回 n023 结束024 结束025 结束026 返回 Q.removeFirst()0模型预测。我们通过进行人类试验来衡量EB树的可解释性。04.1 模型准确性和保真度04.1.1边界树和EB树。如表1中的错误率所示，EB树在准确性上达到了与DNN分类器相当的水平。EB树还以高度的保真度（MNIST-CNN为99.90%，CIFAR-ALL-CNN为99.12%）逼近了DNN分类器。预期地，EB树在准确性和保真度方面显著优于原始边界树算法，并且树中节点数量更少。值得注意的是，对于MNIST数据集，生成的EB树只需要公开60,000个训练数据点中的21个（0.035%）即可展示给模型用户可解释的决策边界。对于CIFAR-10数据集，EB树只需要公开50,000个训练数据点中的145个（0.29%）给模型用户。对于拥有1.28百万图像和1,000个类别的ImageNet数据集，EB树在11,927个需要公开的训练数据点上实现了低错误率（22.51%）和高保真度（97.05%）。需要注意的是，对于每个节点都有大量子节点的EB树（例如ImageNet-Inception-v3的EB树），遍历树可能会导致找到一个局部最近节点，因此最终节点可能与测试数据点相似度很低。边界树算法通过构建森林来解决这个问题。但对于EB树来说，这种方法是不可行的，因为它的目标是减少需要公开的训练数据点的数量。为了解决这个问题，我们允许全局最近的节点0Track: Web上的智能和自主系统 WWW 2018，2018年4月23日至27日，法国里昂1820表1：边界树、EB树和原始DNN分类器的比较。SD是标准差。0数据集模型错误率保真度错误保真度平均边长参数节点数0CNN 0.53% 100% - 1.66M - MNIST边界树 0.57%（SD=0.04%） 99.81%（SD=0.07%） 92.45%（SD=3.7%） 0.998（SD=0.023） - 46（SD=7）EB树 0.53% 99.90% 94.33% 0.716 - 210ALL-CNN 7.90% 100% - 1.37M - CIFAR-10边界树 7.87%（SD=0.33%） 98.88%（SD=0.27%） 86.96%（SD=4.05%） 0.259（SD=0.055） -277（SD=34） EB树 7.73% 99.12% 93.79% 0.165 - 1450Inception-v3 22.05% 100% 24.7M - ImageNet边界树 24.97%（SD=0.51%） 87.82%（SD=4.16%） 66.29%（SD=7.03%） 0.501（SD=0.046） -43986（SD=3572） EB树 22.51% 97.05% 91.87% 0.371 - 119270当遍历路径的最终节点与测试数据点的预测标签不同时，我们进一步检查EB树和原始边界树所产生的分类错误。我们衡量一个测试数据点是否可能被误分类为与模型相同的类别。我们称之为错误保真度，定义为Nc/Nm，其中Nm是误分类的测试数据点的总数，Nc是解释模型和DNN模型之间的误分类测试数据点的一致预测数。如表1所示，原始边界树具有较低的错误保真度，表明它在误分类数据点上不忠实地模仿模型。通过更好的边界特征化机制，EB树明显优于原始边界树。我们测量了EB树的平均边长和普通边界树的平均边长。如表1所示，EB树的平均边长比普通边界树要短得多。图6显示了MNIST-CNN的一部分普通边界树和EB树的构建部分。很明显，在EB树中共享相同边的节点具有更好的视觉相似性。EB树以一种更可解释的方式表征边界，并能够解释数据点是如何被模型分类为一类而不是另一类。我们还测量了EB树的构建和遍历时间。支持向量机用于测量训练数据点到决策边界的距离。对于在大型数据集（ImageNet）上构建的复杂模型（Inception-v3），在HPC集群上使用60个Intel XeonE5核心和64GB内存的支持向量机的训练时间不超过6小时。与训练DNN模型相比，训练时间较短。此外，构建CNN（MNIST），ALL-CNN（CIFAR-10）和Inception-v3（ImageNet）的EB树分别需要47.61秒，35.65秒和3,812.71秒。对于Inception-v3（ImageNet），EB树的构建时间主要由LSH查询的执行时间决定。EB树的遍历时间取决于深度和子节点数。对于上述三个EB树，测试数据点的平均遍历时间分别为0.062秒，0.065秒和0.194秒。04.1.2MMD-critic和EB树。我们还比较了EB树和MMD-critic之间的训练数据选择性能。MMD-critic是一种用例子解释深度学习模型的代表性方法。我们首先比较了从MMD选择的原型和EB树节点构建的1-NN（最近邻）分类器的错误率。对于MMD-critic，使用完全连接层之前的图像嵌入进行原型选择。如图7所示，基于EB树选择的分类器0（a）边界树0(b) EB树0图6：按随机训练数据顺序构建的边界树与MNIST-CNN的EB树的比较。0(a) MNIST。0(b) CIFAR-10。0图7：错误率与原型（节点）数量的关系。0这表明EB树在模型模仿和反映模型决策边界方面具有更强的能力，以较少的训练数据点实现了更低的错误率。0(a) 原型0(b) 批评0图8：样本原型和批评（MNIST-CNN）。0除了原型，MMD-critic还选择批评来帮助解释异常点，如图8所示。然而，MMD-critic不提供任何数据结构来帮助用户解释预测。对于大型数据集，用户逐个查看这些选定的数据点以获得洞察力是困难且耗时的。对于一个EB树，属于不同类别的相似节点在树中以父子对的形式组织。沿着这些对遍历一个测试数据点是有效的。0Track: Web上的智能和自主系统 WWW 2018，2018年4月23日至27日，法国里昂(a)(b)p(Cy = Cxi ) = SoftMax(−d(xi,y)),(3)1830表2：通过MMD-critic和EB树可以识别其支持训练数据点的测试数据点数量的比较。0数据集/工具正确分类的数据错误分类的数据时间/图像0MNIST/MMD-critic 21 14 17秒 MNIST/EB-tree 17 20 6秒0CIFAR-10/MMD-critic 17 13 88秒 CIFAR-10/EB-tree 15 18 25秒0ImageNet/MMD-critic 19 12 72秒 ImageNet/EB-tree 18 17 12秒0为了让用户理解DNN模型为何做出某些预测，我们展示了以下使用案例中的人类判断实验结果。04.2 EB树的使用案例04.2.1案例1：解释单个数据点的预测。为了评估EB树在帮助用户理解模型决策过程中的有效性，我们进行了一项人类试验研究。我们将有效性定义如下：当用户能够识别支持最可能类别的数据点时，一种方法在解释DNN模型方面是有效的。例如，如果一个测试数据点被自信地分类为A类，那么与测试数据点在视觉上相似的来自A类的训练数据点应该被识别为解释器。如果一个测试数据点在A类和B类之间的预测是模棱两可的，一种有效的数据点选择方法应该能够帮助用户识别属于每个类别的训练数据点以展示这种模棱两可性。该研究涉及20名没有机器学习研发经验的用户。我们随机选择了三个数据集（MNIST、CIFAR-10和ImageNet）中的每个数据集中的50个测试图像。其中，25个来自被错误分类的图像，另外25个来自被正确分类的图像。对于每个数据集，我们提供了两种支持解释的方法。一种是基于模型构建的EB树，另一种是由MMD-critic选择的原型/批评。我们设计了任务，要求用户在MMD选择的训练数据点或EB树中识别“解释器”。为了进行公平比较，树的节点数和原型/批评的数据点数设置为相等。对于ImageNet，原型/批评的计算超过了MMD-critic，我们只选择与50个测试图像分类相关的类别。为了避免MMD-critic和EB树方法的干扰，我们将参与者随机分为两组，一组使用MMD-critic方法，另一组使用EB树方法。我们的实验结果如表2所示。总体而言，用户在EB树中识别支持训练数据点的时间明显短于在MMD-critic选择的数据点中。CIFAR-10数据集的结果相对较差，主要是因为CIFAR-10数据集的图像分辨率较低，试验研究的参与者难以识别一些图像。对于被正确分类的测试数据，MMD-critic在识别其支持训练点方面表现更好。对于被错误分类的测试数据，EB树优于MMD-critic。由于EB树主要选择边界节点，因此EB树的模型模仿能力更强，更好地反映了模型的决策边界。0图9：MNIST数据集中带有标签3的测试图像（图9a）及其在EB-tree中的遍历路径（图9b）。0正确分类的数据点很可能比MMD-cri

下载后可阅读完整内容，剩余1页未读，立即下载