基于概念的可解释模型学习框架：自解释深度模型的训练策略和性能优势

31 浏览量更新于2023-10-25 收藏 1.86MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10286一个基于概念的Ante-hoc可解释模型学习框架Anirban SarkarIITHyderabadTelangana ，印度cs16resch11006@iith.ac.inDeepakVijaykeerthy IBMResearch印度班加罗尔deepakvij@in.ibm.comVineeth NBalasubramanian IITHyderabadTelangana，印度vineethnb@iith.ac.inAnindya SarkarIITHyderabadTelangana ，印度anindyasarkar. gmail.com摘要自解释深度模型被设计为在训练期间隐式地学习基于潜在概念的解释，这消除了在这项工作中，我们提出了一个这样的模型，在任何基本网络的顶部附加一个解释生成模块，并联合训练整个模块，显示出高预测性能，并生成有意义的解释概念。我们的训练策略适用于无监督的概念学习，与基线方法相比，参数空间要求要少得多。我们提出的模型也提供了利用自我监督的概念，以提取更好的解释。然而，与完整的概念超- pervision，我们实现了最好的预测性能COM-最近提出的概念为基础的可解释的模型- els。我们报告的定性和定量结果与我们的方法，这表明更好的性能比最近提出的基于概念的可解释性方法。我们报告了两个数据集的详尽结果，没有地面实况概念，即，CIFAR10，ImageNet和两个具有地面真实概念的数据集，即，AwA 2，CUB-200，以显示我们的方法对这两种情况的有效性据我们所知，我们是第一个用大规模数据集（如ImageNet）显示结果的先验解释生成方法1. 介绍近年来，人们对深度神经网络（DNN）模型决策的可解释性的兴趣呈指数级增长，这些模型跨越了生物识别、医疗保健、自主导航等领域。计算机视觉中的现有努力包括基于遮挡的，图1.拟议框架的说明。我们的框架提供了一种训练模型的方法，这些模型不仅可以预测，还可以解释它们的预测。它可以很容易地与现有的骨干网络集成。与现有技术相比，它提供了在可用或可行时结合不同形式的监督（包括较弱形式的监督，如自我监督）的灵活性基于梯度和基于Shapley值的工作主要是对已经训练的模型进行事后分析[23，27，36虽然这是有用的，但解释与预测的分离并不理想。当一个解释出错时，如果解释方法是不正确的，或者模型本身依赖于虚假的相关性来做出预测，那么理解这一点并不是微不足道的。这就需要事先的方法，共同学习解释和预测，从而学习内在的可解释模型。Rudin [25]和Lipton [18]在设想可解释学习模型方面的努力强调了隐含可解释方法在事后解释中的重要性。在最近的一次展览中，Rudin等人[26]确定了可解释机器10287→→学习，这也强调了在模型中设置约束的必要性，以便在训练过程中以更好的可解释性进行学习在过去的几年里，人们在通过概念进行解释的事前方法方面做出了一些努力，这些概念是在DNN本身的训练过程中学习的，例如自解释神经网络[1]，概念瓶颈模型[14]，基于概念的模型提取[12]和概念白化[2]。在训练期间学习概念为全局（在数据集或类上最活跃的概念）或局部（在给定输入图像上最活跃的用于预测的概念）的事前解释提供了自然途径。然而，现有方法要么需要概念级监督来训练模型[14]，要么需要网络中大量的额外参数[1]，这禁止它们在实践中更常用的更深层次模型中使用。在这项工作中，我们提出了一种新的方法，通过概念来学习事前解释，即：（i）可以很容易地添加到现有的骨干分类体系结构中，具有最小的附加参数;（ii）可以为单个输入图像或图像组的概念提供模型决策的解释;（iii）可以与不同级别的监督一起工作，包括根本没有概念级监督。这是通过将架构修改添加到骨干网络以及允许这种事前学习的附加损耗项重要的是，我们表明，我们的框架允许学习的概念，没有监督，自我监督以及在概念层面的全面监督我们提出的模型的概述如图所示。1.一、我们在这项工作中的主要贡献可归纳如下：• 我们提出了一个简单而有效的方法，共同学习预测和解释（通过概念）在一个事先特设的方式（即。在训练过程中学习解释，而不是现在普遍使用的事后解释方法）。• 我们的方法可以学习通过具有不同监督级别的概念来解释：（i）没有概念级别的监督;（ii）通过弱监督（概念的自监督学习）;以及（iii）具有概念级别的监督。• 我们进行了一套全面的实验，以研究我们的方法在多个基准数据集上的准确性和可解释性，定量和定性，并显示消融研究中所做的不同选择的方法。在这种情况下，我们引入了一个度量的基础上的概念干预的事前特设可解释的模型，如我们的。• 我们的方法在准确性和可解释性指标上优于现有方法，并且在没有解释组件的基线模型上以可忽略不计的计算开销实现了这些结果2. 相关工作概念学习的主要目标是获得一个低维的表示，忠实地解释下游的任务，如对象分类。无监督概念学习：大多数现有方法以无监督的方式生成有意义的解释，即，当地面实况概念对于数据集不可用时这些方法要么作为训练模型的事后方法[13]，要么学习一个固有的可解释模型[1，33]。TCAV [13]利用具有中间模型特征的方向导数来量化用户定义概念对最终模型预测的重要性。虽然这种方法Zhou等人[38]提出了一种方法，使用CAM [37]生成的模型显着性，根据概念向量上的投影来分解另一种最近的方法[33]利用Shapley值来量化一组概念的充分性，通过概念的完整性度量来解释模型预测作为一种事后可解释性方法，它适用于经过训练的深度网络。与我们的方法不同，它第一种完全无监督的自组织概念学习方法SENN [1]采用具有图像x的相应相关度θ（x）的概念编码器h（x），并将最终logit输出为θ（x）Th（x）。 SENN是按照联合训练方法训练的，具有logits的交叉熵损失和稳定性损失，以加强相似概念相关性的接近度，即θ（x）。与SENN类似，我们的方法也使用概念编码器来提取概念。但是，我们用几个简单的、完全连接的网络来代替重相关性网络，这些网络可以生成查询并执行分类。监督概念学习：概念瓶颈模型（CBM）[14]等方法将完整的模型分为两部分。第一部分是函数g：XC、对其从图像x生成中间概念表示c，其之后是标签预测器部分f：C Y以从c输出类别标签。该模型通过计算f（g（x））来预测图像x的类别标签。该模型使用概念和类标签监督进行训练，或者顺序训练各个部分，或者联合训练两个部分。Kazhdan等人提出了CME[12]，这是CBM的一种事后数据高效版本，它从预先训练的模型中捕获中间表示，以提高对概念和最终预测之间依赖关系的敏感性。概念白化（CW）[2]提出了一种插入中间层代替任何预训练CNN模型的批量归一化层的方法，该方法通过约束10288∈--∈∈--L LL----LLi=1----且Y={y∈ {0，1}M，LDMj=1 yk= 1}，其中M是潜在层输出以表示目标概念。与CBM相反，我们将生成解释和预测的过程解耦。这有助于我们学习基于概念的解释，而不会在预测性能方面损失太多，并使用户能够在不同的监督级别下使用模型。自监督概念学习：已经提出了不同的自监督方法来帮助学习更好的表示并提高分类准确性。近年来，预测图像块的相对位置[5]、预测旋转角度[9]、恢复颜色通道[34]、解决拼图游戏[20]以及区分由失真创建的图像[6]等任务已被广泛使用另一类方法从损坏的版本或仅部分重建图像，例如去噪自动编码器[28]，图像修复[21]和裂脑自动编码器[35]。对比学习是另一种范式，在这种范式中，表征是以这样一种方式学习的：在表征空间中，相似的数据点被拉近，而不相似的数据点被推得更远。预测数据的自然顺序或拓扑结构也被用作基于视频[8，19，30]，基于图形[11，32]和基于文本[4，22]的自监督学习的借口任务虽然自我监督已经被用来学习更好的模型表示，他们的效用学习概念为基础的解释在我们的工作中，我们探讨如何自我监督可以用来学习更好的概念为基础的解释。3. 方法sentation η θe （ . ），并学习一组可解释的概念[1，. . .，C（其中C是概念的数量），以解释f θ提供的预测。一般来说，概念是低维表示，可以用CRK×d，即每个概念cRd属于总k K概念之一。在我们的工作中，我们学习一维概念，即，我们的设置使用k个概念，每个概念由标量值表示。为了鼓励模型学习概念，请执行以下操作：- 是的- 是的，我们将概念传递到解码器h θd（. ），其重建图像x∈i。然后我们再加上一个损失R（xi，xi），它度量重构误差对总损失的影响.如果这些概念不足以生成输入图像xi的准确重建x θ i，则R惩罚模型f θ。在本文中，我们使用L2损失.自概念1991年以来，。. .，CQC解释预测一个DNNf θ理想情况下，它们本身应该提供足够的信息来正确预测输入实例xi。为了加强学习的概念不仅解释了预测，而且还提供了信息，我们惩罚模型f θ，如果预测s θcce（<$θce（. ））（其中s θcce是预测将概念作为输入的类标签的分类函数）。- 是的- 是的，ΔC和DNN f θ的预测不同。我们通过在总体损失上增加一个保真度损失F来强调所学习的概念应该是单独信息的。考虑到所提出的修改，模型的总损耗L0可以写为：设X表示输入空间，Y表示输出空间，LO=LC（yi，yi）+αLR（xi，xi）+βLF（fθ（xi），sθcce（εθce（xi）（一）我们假设训练实例（或示例）D={xi，yi}N从源分布定义在X×Y上的P。我们还假设X=Rd，在实践中，大多数数据集很少包括可用于学习自我解释模型然而，很少有例外，类的数量，y是一个独热编码向量。我们提出了一个通用框架，将事前解释（或自我解释）模块纳入现有的深度学习管道。在本文中，我们证明了它的分类任务。在实践中，对于分类任务，我们学习深度神经网络f θ=η θe（. ），g θc（. ），其由基本编码器（或特征提取器）η θe（. ），其提取被馈送到分类器函数g θc（. ）（分类器函数采用潜在表示z=nθe（xi），然后预测标签）。通常，通过优化θ=θe，θc来一起训练基本编码器和分类函数，使得网络的输出y_i=fθ（x_i）最小化损失C（y_i，y_i）在训练实例的集合上。为了结合可解释概念的隐式学习，除了前面描述的经典分类管道的现有组件之外，我们引入了一个概念编码器Cococe（. ），其中，模型在学习解释其预测时可以利用的概念（或属性）。大多数现有的框架要么只在概念的注释可用时工作，要么数据集不包含任何额外的注释，但不是两者兼而有之。通常，在这些现有的框架中纳入替代的监督形式既不是微不足道的，也不是有效的。相比之下，我们的框架提供了灵活性，可以在容易的情况下纳入不同形式的监督。为了说明这一点，我们展示了如何结合i）完全监督（可解释概念的监督学习），ii）零监督（可解释概念的无监督学习），以及iii）一种较弱形式的监督，如自我监督。默认情况下，我们的框架处理的是概念注释不可用的数据集在它们可用的情况下，我们可以通过添加损失LE（θce（xi），axi）10289LL--LLL′图2.我们提出的框架的概述（概念激活表示最大限度地激活每个概念的图像（其中axi是x i的概念（或属性）注释）。如果学习到的概念与相应实例的数据集中的注释不相似，则E（θce（xi），axi）将惩罚模型。然后，我们通过优化θ来训练模型，使得网络的输出yi=fθ（xi）最小化训练集上的损失LO+µLE即使直接监督不适用于概念，也有可能学习一组强大的高保真可解释概念。- 是的- 是的通过合并直接从数据本身获得的监控信号来利用数据的底层结构。这种技术通常被称为自我监督。在我们的框架中，我们将自我监督作为具有损失SS的辅助任务，并且辅助任务与我们的模型共享参数，直到概念编码器θce（. ）的情况。在本文中，我们选择旋转预测作为辅助任务。该任务涉及将图像旋转0、90、180或270度中的一个，并通过辅助头将旋转角度ri预测为四向分类问题我们可以还可以轻松地将其他自我监督任务纳入我们的框架。与辅助任务的分支使用特征提取器（或基本编码器）的输出进行自我监督任务的现有技术相反，在我们的情况下，我们使用概念编码器的输出。）的情况。反过来，这有助于我们确保来自概念编码器的可解释概念集是可解释的。）始终尊重数据的底层结构，具有高度的保真度。为了估计SS，我们传递概念编码器的输出。）通过分类器函数θss（. ）预测旋转角度，然后计算θss（. ）和Ri.与其他情况一样，我们通过优化θ来联合训练模型和辅助头，以使网络的输出yi=fθ（xi）最小化损失O+γSS。在概念的地面实况注释不可用并且辅助自我监督任务不可用的情况下使用的μ和γ分别设置为0。LO=μLE（λθce（xi），axi）+γLSS（ri，λθs s（. ）的情况）尽管我们的框架在现有的深度学习主干（或管道）中加入了额外的组件，但我们可以在训练后丢弃其中的大部分组件。我们仅保留子网络（或模块）以生成除了标准深度学习管道上的解释之外的解释特征提取器和分类器功能）。因此，与现有的自解释模型相比，我们的框架产生的额外成本相对较小。4. 实验我们表明，与标准分类管道相比，我们的框架实现了具有竞争力的预测准确性，以及有意义的解释。我们报告了我们的方法在CIFAR 10，ImageNet，AwA 2和CUB-200上的结果，根据基础事实概念的可用性，即CIFAR 10 [15]，ImageNet [3]上的未监督方式以及AwA 2 [17]，CUB-200 [31]上的概念监督我们还报告了AwA2，CUB的结果，当我们的模型在没有概念监督的情况下训练时，我们的方法在这两种情况下都是有效的，即，有和没有概念监督。我们将SENN [1]和CBM [14]作为我们的基线，考虑无监督和监督概念学习的基本方法。我们的方法的实现在此链接中公开提供。数据集详细信息：CIFAR-10数据集[15]由10个类别的32 x32 彩色图像组成，每个类别有 5000 个训练imagenet数据集[3]由超过100万张图像和1,000个自然图像对象类组成。AwA2数据集[17]包含总共50种动物类别的37322张图像，其中85种10290--∼--∼数值属性。我们考虑的另一个属性数据集是CUB-200[31]，这是一个图像数据集，包含200个鸟类类别的照片，共有6033张图像，每张图像有312个属性注释。架构细节：我们使用ResNet18 [10]作为所有数据集的骨干网络，因为在与概念学习相关的文献中没有遵循主干网络类似于f θ=η θe（. ），g θc（. ），在SEC。3 .第三章。特征编码器η θe（. ）也被传递给概念编码器θce（. ），其是单个全连接层，其输出一组可解释的概念101，. - 是的- 是的其中C是概念的数量。我们分别考虑了CIFAR 10和Ima-geNet的10个和100个概念AwA2和CUB-200的概念（或属性）数量分别为85和312。为了公平比较，我们保持概念的数量不变，同时用这些数据集训练我们的模型，用于无监督概念学习和概念监督学习。分类函数sθcce预测类别标签，将概念作为输入，也是一个完全连接的层。将概念作为输入的概念编码器和分类网络的参数的数量基于概念和类的数量对于不同的数据集而变化。我们实现了解码器hθd（. ）作为一组去卷积层。存储和时间复杂度：SENN提出的体系结构然而，解码器网络需要使概念捕获足够的信息来重建图像。因此，我们的整个网络需要60%的空间和训练时间来与SENN相匹配。与CBM相比，我们的方法需要1.5乘以空间和训练时间。例如，CIFAR10上一个epoch所需的训练时间为4.2s，CBM为6.9s和11.3s，我们的SENN方法具有批处理，数据集基线SENN CBM我们无支持w supCIFAR1084.50不适用91.68NAImageNet58.55不适用65.09NAAwA276.41 81.6181.0485.70Cub-20058.81 64.1763.0565.28表1.使用ResNet 18架构作为概念（或基础）编码器的CIFAR10、ImageNet、AwA 2和CUB-200数据集上不同方法的准确性（w=有，w/o=无）数据集。CBM是一种具有概念监督的方法，其性能略好于我们的无监督版本。我们的方法，加上概念监督，大大超过了CBM。请注意，表1中报告的我们的方法的预测性能仅基于骨干网络f θ（. ）的情况。我们解耦了主要的预测任务和概念提取，使我们的模型4.1. 定量评价我们评估并比较了我们的方法与其他国家的最先进的框架，如SENN和CBM产生的基于概念的解释。我们考虑可解释性的指标，评估我们在框架中使用的额外损失的有效性。除了现有的指标，如忠诚度，保真度和解释错误，我们还执行干预生成的概念，以说明他们的意义。图3显示了当我们对顶层概念进行干预时，导致模型改变其预测的干预示例。除了预测性能外，我们的方法在所有其他可解释性度量中始终优于基线方法，如下所述。忠实度：在实践中，我们希望学习的概念是有意义的，并忠实地解释模型为了评估不同框架所产生的解释的可信度，我们测量了预测值。所生成的概念的主动能力，即，从输出大小为128英寸的Tesla V100 GPU这是由于解码器这使得我们的框架能够支持当概念关于SθCCE ，在我们的情况下。这个指标代表了能力-无法进行监督而CBM没有由于在推理和概念提取过程中不使用解码器网络，因此我们的方法与CBM的推理时间几乎相似请注意，培训期间的这些存储和时间测量是针对ResNet18骨干架构的，与CBM的差距将随着更复杂的骨干网络而进一步缩小。预测性能：表1报告了我们的方法以及CIFAR10，ImageNet，AwA2和CUB数据集的基线方法的预测性能。由于CBM需要概念监督，我们不能将此方法用于CIFAR10和ImageNet。我们的方法的无监督版本在所有情况整体概念向量的性质来预测地面实况任务标签。它类似于其他测量，例如用于测量特征解纠缠的显式性[24]和信息性[7]。数据集基线[14]第十四话我们无支持w supCIFAR1084.50不适用90.86NAImageNet58.55不适用59.73NAAwA276.41 81.6179.2983.30Cub-20058.81 64.1761.4962.59表2.在CIFAR 10、ImageNet、AwA 2和CUB-200数据集上比较不同方法生成的概念的可信度（%，仅基于概念的预测性能）。（w=有，w/o=无）10291L图3. 测试时干预的成功例子，其中对单个概念的干预改变了模型预测（从Y到Y）。对于AwA2（左）和ImageNet（右），将其转换为底部示例上的正确标签和顶部示例上的错误标签保真度度量：保真度度量模型预测与解释预测相匹配的数据点的比例。它被广泛用于衡量生成的解释与模型的近似程度[16]。此度量不适用于其中直接使用帧间预编码器来提供模型预测的方法，例如SENN及CBM。表3报告了所有数据集的所有比较我们在训练过程中使用保真度损失F，这证明了我们模型的高保真度得分是合理的。数据集我们无支持w supCIFAR1099.11NAImageNet90.22NAAwA297.8497.19Cub-20097.5295.87表3. 保真度比较（模型预测与通过解释的预测之间的匹配百分比）。在CIFAR 10、ImageNet、AwA 2和CUB-200数据集上通过不同方法生成的概念。（w=有，w/o=无）解释错误：在CUB和AwA2这样的数据集中，如果有基础事实概念，我们也会测量学习到的概念与基础事实的接近程度。我们计算学习的概念和地面真理概念之间的L2从表4中，我们可以观察到，由我们的方法生成的概念与地面实况概念最一致。虽然这应该是与概念监督的方法的情况下，我们的方法没有概念监督也比SENN，这说明了我们的方法数据集AWA2幼崽Senn0.991.34CBM0.911.17OURS（不含补充）0.971.29OURS（w sup）0.891.14表4. AwA 2和CUB-200数据集上不同方法生成的概念与真实概念（或属性）之间的解释误差比较（我们使用L2距离来衡量不匹配，因此越低越好）（w=有，w/o=无）干预概念：为了研究概念预测中的变化意味着所涉及的概念对于解释模型的决定是必不可少的。我们对测试集中的所有实例重复此过程，并仅基于生成的概念来测量预测性能较低的值表明生成的概念忠实地解释了模型的决定。理想情况下，由SENN和CBM等方法生成的概念的预测能力应该更高。由于在它们的情况下，解释器（或解释器）被直接用于生成模型预测，因此基于所生成的概念的预测性能应该较低。但是，您可以从表5中观察到，干预后的预测性能对于所提出的框架来说是最低的。数据集基线SENN CBM我们无支持w supCIFAR1066.57 NA43.19NAImageNet43.91 NA34.52NAAwA261.39 40.2937.6135.92Cub-20047.22 36.1134.3832.59表5.干预对CIFAR 10、ImageNet、AwA 2和CUB-200数据集的不同方法生成的概念的影响（干预后的准确率%，越低越好）（w=有，w/o=无）4.2. 定性结果定性结果对于通过基于概念的表示来解释模型的方法是重要的。我们生成对应于每个概念的解释，作为数据集中最具代表性的图像。我们在主要论文中展示了CIFAR10和ImageNet数据集的结果，由于空间限制，将其余部分移至附录。为ImageNet生成的顶级概念激活如图所示。4.第一章我们可以观察到，ev-每个概念从数据集中捕获主要对应于类或类似类类型的同质特征。例如，107代表了非洲猎豹和其他一些类似类型的猫科动物的面孔概念10292图4.我们的框架在ImageNet上学习的10个概念激活的子集。所有这些例子都被模型正确预测，可以看出，每个概念都捕捉到了对应于某个类的一组同质属性。对于ImageNet，我们观察到学习的概念在类之间共享例如，tiger、cheetah和不同类型的猫类之间共享p77，而p76在不同形式的狼和狗类之间共享。图5.解码器对CIFAR10数据集的影响我们可以看到，没有解码器，相应的重建损失，基于概念的解释（右侧）对于像CIFAR10这样的数据集，其中没有太多跨类的更高级别属性的交叉部分，我们观察到每个学习的概念仅对应于来自单个类的相比之下，对于像ImageNet这样的数据集，不同类的高级属性之间有很多交集，我们观察到学习的概念在类之间共享。例如，在老虎、猎豹和不同类型的猫科动物之间共享P17，而在不同类型的狼和猫科动物之间共享P16（参见图4和图5）。4.3. 全球业务基于概念的解释方法与其他方法相比的一个优点是，它们提供了局部以及全局的解释。我们识别类-概念（或属性）对具有高比例的共现以生成全局解释。我们考虑CIFAR10和AwA2用于我们的实验，以解释我们的方法在不具有和具有地面真实概念的数据集上生成这种全局解释的有效性简单地分析这些可以揭示有关生成的概念的有用信息。例如，根据样本，我们可以看到（从图。6）概念类似地，CIFAR10的猫类的区别概念（从图10的CIFAR10的CIFAR10到CIFAR10的CIFAR10）5在左边）。5. 消融研究自我监督的重要性：如第二节所述。3.我们的框架使我们能够将自我监督纳入10293数据集基线Senn我们无支持w自上CIFAR1084.5090.8690.93ImageNet58.5558.7360.28AwA276.4179.2979.77Cub-20058.8161.4961.81图6.具有高全局相关性的AwA 2和CIFAR 10数据集的类-属性对分析示例（共现比例）数据集基线SENN我们无支持w自上CIFAR1084.591.6891.28ImageNet58.5565.0964.84AwA276.4181.0479.89Cub-20058.8163.0561.93表6.在CIFAR 10、ImageNet、AwA 2和CUB-200数据集上，在有和没有自我监督的情况下，比较不同方法的模型预测性能（准确率%）（w=有，w/o=无）概念的集合，这有助于我们通过利用数据的底层结构来提高概念的质量。我们的实验使用旋转预测作为CIFAR10和ImageNet数据集的辅助自我监督任务，因为无法获得地面真实概念。为了比较无监督概念训练的定量和定性性能，我们也对AwA2和CUB数据集进行了自我监督训练。表6报告了我们的方法（对概念进行自我监督，而不进行任何监督）和SENN的预测性能，因为这些方法请注意，自我监督只对概念进行。因此，这并没有提高预测性能，而是提高了学习的概念为基础的解释的忠诚度。从表7中，我们可以观察到自我监督通过概念提高了预测性能，这反过来验证了我们的假设，即利用数据的底层结构可以提高概念的质量。重构误差的重要性：解码器通过实施充分性来提高概念的质量使它们能够忠实地重建图像。换句话说，这迫使概念集捕获所有图像信息，并使概念集完整。我们通过训练我们的CIFAR10数据集的模型来测量解码器的效果，而没有去表7.在CIFAR 10、ImageNet、AwA 2和CUB-200数据集上，在有和没有自我监督的情况下，比较由不同方法生成的概念的忠实度（以%计）（所生成概念的预测能力（w=有，w/o=无）编码器，保持所有其他模型部分不变。我们生成训练模型的解释，并在图中呈现。五、为了与完整模型进行比较（即，我们的模型与解码器），我们在同一图中添加由我们的完整模型生成的解释第一列和最后五列分别是由我们的完全模型和没有解码器的模型生成的解释。这些例子支持了我们关于解码器对于学习更好的概念的重要性的主张。请注意，没有解码器的模型比我们的完整模型表现稍好，但牺牲一点预测性能可以得到模型的信任。6. 结论在这项工作中，我们提出了一个新的框架，以学习基于先验概念的解释：（i）可以很容易地添加到现有的骨干分类体系结构与最小的附加参数;（ii）可以提供解释模型决策的概念方面的一个单独的输入图像或图像组;（iii）可以与不同级别的监督，包括没有概念级的监督。尽管我们的框架在现有的深度学习骨干（或管道）中加入了额外的组件，但我们可以在训练后丢弃其中的大部分我们仅保留子网络（或模块）以生成除了标准深度学习管道上的解释之外的解释（即，特征提取器和分类器功能）。因此，与现有的自我解释模型相比，我们的框架产生的额外我们进行了一系列全面的实验，以研究我们的方法在多个基准数据集上的准确性和可解释性，包括定量和定性。我们的方法在所有数据集上的性能都优于基线方法。除此之外，我们还进行了消融研究，以说明通过我们的方法添加的辅助成分的重要性。鸣谢。这项工作得到了MoE和印度政府DST通过 UAY和ICPS方案提供的资金的我们感谢匿名审稿人的宝贵反馈，改进了本文的介绍。10294引用[1] David Alvarez-Melis和Tommi S Jaakkola。用自解释神经网络实现鲁棒的可解释性。在神经信息处理系统的进展，2018年。二四五十一[2] 陈志，贝义杰，辛西娅·鲁丁。用于可解释图像识别的概念白化。Nature Machine Intelligence，2（12）：772-782，2020. 2[3] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议上，第248-255页。Ieee，2009年。4[4] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。3[5] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在Proceedings of theIEEE international conference on computer vision，pages1422-1430，2015中。3[6] 放大图片作者：Alexey Dosovitskiy，Philipp Fischer，Jost Tobias Springen- berg ， Martin A. Riedmiller 和Thomas Brox。用典型卷积神经网络进行区分性无监督特征学习 IEEE transactions on pattern analysis andmachine intelligence，38（9）：1734-1747，2016。3[7] 吉安·伊斯特伍德和克里斯托弗·威廉姆斯。一个定量评价非纠缠表象的框架。在2018年的学习代表国际会议上。5[8] Basura Fernando，Hakan Bilen，Efstratios Gavves，andStephen Gould.自监督视频表示学习与奇一网络。在IEEE计算机视觉和模式识别会议论文集，第3636-3645页，2017年。3[9] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在2018年学习代表国际会议上。3[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射在欧洲计算机视觉会议（ECCV）的会议记录中，第630-645页施普林格，2016年。5[11] Weihua Hu ， Bowen Liu ， Joseph Gomes ， MarinkaZitnik，Percy Liang，Vijay Pande，and Jure Leskovec.预训练图神经网络的策略在2019年国际学习代表大会上。3[12] Dmit ryKazhdan ， BottyDimanov ， MatejaJamnik ，PietroLio`和Adrian Weller。Now You See Me（CME）：基于概念的模型提取。在2020年第29届ACM信息和知识管理国际会议上的上。2[13] Been Kim ， Martin Wattenberg ， Justin Gilmer ， CarrieCai ， JamesWexler ， FernandaViegas ， etal.Interpretability be-yond feature attribution ： Quantitativetesting with concept activation vectors（tcav）.国际机器学习会议，第2668-2677页。PMLR，2018。2[14] Pang Wei Koh ， Thao Nguyen ， Yew Siang Tang ，Stephen Mussmann ， Emma Pierson ， Been Kim ， andPercy Liang.概念瓶颈模型。国际机器学习会议，第5338-5348页。PMLR，2020年。二四五十一[15] Alex Krizhevsky，Geoffrey Hinton等人，从微小图像中学习多层特征。（2009），2009年。4[16] Himabindu Lakkaraju，Nino Arsov，and Osbert Bastani.防滚破产和稳定的黑盒解释。在第37届国际机器学习会议论文集，机器学习研究论文集第119卷，第5628PMLR，2020年。6[17] Christoph H Lampert ， Hannes Nickisch ， and StefanHarmeling. 基于属性的零镜头视觉对象分类。IEEETransactionsonPatternAnalysisandMachineIntelligence，36（3）：453-465，2013. 4[18] 扎卡里·C·利普顿。模型可解释性的神话队列，16（3）：31-57，2018。1[19] Ishan Misra ， C Lawrence Zitnick ， and Martial Hebert.Shuf- fle and learn：unsupervised learning using temporalorder verification.在欧洲计算机视觉会议（ECCV）中，第527施普林格，2016年。3[20] Mehdi Noroozi和Paolo Favaro。通过解决拼图游戏进行视觉表示的无监督学习。在欧洲计算机视觉会议（ECCV）的会议论文集，第69-84页。施普林格，2016年。3[21] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。在 Proceedings of the IEEEconference on computer vision and pattern recognition，pages 2536-2544，2016中。3[22] Alec Radford、Karthik Narasimhan、Tim Salimans和IlyaSutskever。通过生成式预训练提高语言理解，2018年。3[23] Marco Tulio Ribeiro Sameer Singh和Carlos Guestrin。我为什么要相信你？：解释任何分类器的预测。在ACMSIGKDD，2016年。1、11[24] 卡尔·里奇韦和迈克尔·C·莫泽。学习具有f统计量损失的深度分解嵌入。在神经信息处理系统的进展，2018年。5[25] 辛西娅·鲁丁停止解释黑箱机器学习模型的高风险决策，而是使用可解释的模型。自然机器智能，1：2061[26] Cynthia Rudin ， Chaofan Chen ， Zhi Chen ， HaiyangHuang，Lesia Semenova，and Chudi Zhong.可解释的机器学习：基本原则和10大挑战统计调查，2021年。1[27] 兰普拉萨河 Selvaraju ， Abhishek Das ， RamakrishnaVedantam，Michael Cogswell，Devi Parikh，and DhruvBatra.你为什么这么说？通过基于梯度的定位从深度网络获得视觉解释。在ICCV1、11[28] Pascal Vincent ， Hugo Larochelle ， Yoshua Bengio ，Pierre-Antoine Manzagol.使用去噪自动编码器提取和合成鲁棒特征。InProceedings of the10295第25届机器学习国际会议，第1096-1103页，2008年。3[29] 王小龙和阿比纳夫古普塔。使用视频的视觉表示的无监督学习在IEEE计算机视觉国际会议论文集，第27943[30] Wei Donglai ，Joseph J Lim ，Andrew Zisserman ， andWilliam T Freeman.学习和使用时间之箭。在IEEE计算机视觉和模式识别会议论文集，第8052-8060页3[31] P. Welinder，S.Branson，T.米塔角Wah，F.Schroff，S.伯朗吉和佩罗纳。200.第200章大结局技术报告CNS-TR-2010-001，加利福尼亚理工学院，2010年。四、五[32] 韩阳，萧焱，戴欣妍，郑俊。自增强gnn：使用模型输出改进图神经网络。在神经网络国际联合会议上，202

下载后可阅读完整内容，剩余1页未读，立即下载