OrphicX:一个解释图神经网络的新e-X平面化框架

115 浏览量更新于2023-10-25 收藏 803KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13729OrphicX：一个解释图神经网络林婉瑜1郝兰2王浩3李宝春21香港理工大学、2多伦多大学、3罗格斯大学wan-yu. polyu.edu.hk，hao. mail.utoronto.ca，bli@ece.toronto.edu，hoguewang@gmail.com摘要本文提出了一个新的 e-X 平面化框架，称为OrphicX，用于基于学习到的潜在因果因子为任何图神经网络（GNN）生成因果解释。具体来说，我们构建了一个独特的生成模型，并设计了一个目标函数，鼓励生成模型产生因果关系，紧凑，忠实的解释。这是通过最大化信息流测量来隔离图的潜在空间中的因果因素来实现的。我们从理论上分析了因果关系的因果图，确定节点属性之间的图和GNN预测的混杂因素，并规避这种混杂效应，利用后门调整公式。我们的框架与任何GNN都兼容，并且它不需要访问目标GNN产生其预测的过程。此外，它不依赖于所解释的特征的线性独立性假设，也不需要关于图学习任务的先验知识。我们展示了OrphicX在图数据上的规范分类问题上的概念证明。特别是，我们分析了从分子图的解释中获得的解释子图（即，Mutag），并用频繁出现的子图模式定量评价解释性能经验上，我们表明，OrphicX可以有效地识别因果语义生成因果解释，显着优于其替代品1。1. 介绍图神经网络（GNN）在许多科学领域都有各种应用，包括图像分类[10]、3D形状分析[17]、视频分析[36]、语音识别[6]和社会信息系统。tems [9，12].强大的GNN对图结构数据的决策很难解释。在本文中，我们专注于为任何GNN提供事后解释通过参数化产生解释的过程。具体地，给定感兴趣的预训练的GNN，训练解释模型或称为解释器以生成紧凑子图，从而得到模型结果。然而，学习解释过程可能很困难，因为不存在地面真理解释。如果解释突出了输入实例的主观上不相关的子图模式，则这可以正确地反映目标GNN最近，已经提出了一些最近的工作，通过学习解释过程来解释GNN。XGNN [34]被提议通过学习策略网络来研究导致特定类的图形模式。PGExplainer [14]被提出来学习掩模预测器以获得用于提供解释的边缘掩模然而，XGNN无法解释单个实例，因此缺乏局部保真度[22]，而PGExplainer严重依赖于目标模型的学习嵌入，并且具有对学习任务具有领域知识的限制性假设提供了显式子图模式）。最接近我们的是宝石[11]，其中解释者是基于格兰杰因果关系的概念学习的。地面实况解释的蒸馏过程自然地暗示了所解释的特征2的独立假设，这可能是有问题的，因为图形结构的数据本质上是相互依赖的[31]。在这项工作中，我们定义了一个独特的生成模型作为解释器，可以通过因果关系的镜头为任何GNN提供可解释的解释，特别是从结构因果模型（SCM）的概念[19，29]。原则上，生成因果解释需要推理如何改变输入实例的不同概念1本项目由香港大学内部研究基金资助。香港理工大学P0035763.HW部分由NSF Grant IIS-2127918和AmazonFaculty Research Award支持2我们意识到重复使用“特性”这个术语的缺点。具体地说，节点和边是解释子图中的被解释特征13730Y222FG！ YG- 可以被认为是对输入施加扰动或干扰-影响对目标模型（或系统响应）的决策[15]。不同于现有的量化来自数据空间的因果影响的工作（例如，Gem [11]），我们建议从潜在空间中识别潜在的通过这样做，我们可以避免使用具有复杂相互依赖性的输入空间。直觉是，如果潜在特征3可以解开输入实例和目标GNN的对应输出之间的因果因素和伪因素，则生成因果解释是可能的。为此，我们首先提出了一个因果图，模型的因果功能和虚假功能的GNN导致预测的因果特征可能是信息性的，以生成用于解释的图形结构掩模。我们的因果分析表明，在考虑潜在特征和GNN结果之间的因果关系时，数据空间存在混淆因素[4，27，28]。具体而言，当解释图形结构数据时，节点特征/属性可能是影响生成的图形结构和相应模型结果的混淆因素。混杂因素的存在代表了因果量化的障碍[19]。为此，我们采用信息流的概念[1]，以及后门调整公式[20]，以绕过混淆效应，并测量从潜在特征到预测的因果信息传输然后，我们用变分图自动编码器（VGAE）[8]实例化我们的解释器，它由推理网络和生成网络组成（如图1所示）。推理网络寻求输入的表示，其中以可以识别具有大因果影响的因素的子集（即因果特征）的方式来学习表示生成网络将因果特征映射到邻接掩码中以进行分类。重要的是，生成网络确保学习的潜在表示（因果特征和虚假特征一起）在数据分布内。简而言之，我们的主要贡献突出如下。我们提出了一种新的解释技术，称为OrphicX，通过识别潜在空间中的因果因素来解释任何GNN的预测我们利用信息流测量的概念来量化从潜在特征到模型预测的因果信息。我们从理论上分析了因果关系的因果关系，在拟议的因果模型，确定一个混杂因素，并规避它利用后门调整公式。我们的经验表明，具有因果语义的学习特征对于为任何GNN生成可解释和忠实的解释我们的工作提高了模型的可解释性，3特征和因素可互换使用，例如，因果特征是等同于因果因素。增加对GNN模型解释结果的信任。2. 方法2.1. 符号和问题设置符号。给定一个预训练的GNN（待解释的目标模型），表示为f：，其中是模型的输入图空间，是标签空间。具体地，GNN的输入图G=（V，E）包括对应的邻接矩阵（AR|V |⇥|V|）和节点属性矩阵（XR|V|D）。我们使用Z=[Zc，Zs]R|V|表示潜在特征矩阵，其中Zc是因果特征子矩阵，Zs是伪特征子矩阵。相应地，对于每个节点，我们用x（X的一行）表示其节点属性向量，用zc表示其因果潜在特征，用zs表示其伪潜在特征。GNN解释方法的必要性。解释的一个基本标准是忠实性[22]。一个忠实的解释/子图应该对应于目标GNN在给定的感兴趣图附近的行为。换句话说，馈送到目标GNN的解释子图的结果解释的另一个基本标准是人类的可解释性，这意味着生成的解释在图结构数据的上下文中应该是稀疏/紧凑的[21]。换句话说，一个人类可以理解的解释应该突出输入的最重要部分，同时丢弃不相关的部分。此外，解释者应该能够解释任何GNN模型，通常称为将目标GNN视为黑盒）。问题设置。因此，我们的最终目标是获得一个生成模型作为解释器，表示为，可以识别输入的哪一部分导致GNN预测，同时在上述标准下实现最佳性能。与以前的工作[11，14，34]一致，我们专注于图结构的解释。我们考虑黑盒设置，其中我们没有关于输入图的地面真实标签的任何信息，并且我们特别不需要访问或了解目标GNN产生其输出的过程。然而，我们可以通过执行多个查询来检索不同的预测，并且我们假设提供了目标GNN的梯度。2.2. OrphicX概况. 在本文中，我们提出了一个生成模型作为解释器，称为OrphicX，它可以通过识别导致GNN结果的因果特征来生成因果解释。特别是，我们建议从潜在空间中隔离因果特征和虚假特征。为此，我们首先提出一个因果图13731X！PP（y|Zc）=！XP（y|Zc，X）P（X|Zc）;前一个样本理论，P（y|do（Zc））=XP（y|Zc，X）P（X）是指YY重建图1.OrphicX的插图。我们用变分图自动编码器（VGAE）实例化我们的解释器，该编码器由推理网络和生成网络组成因果特征连同伪特征可以用于重构数据分布内的图形结构，而因果特征被映射到图形结构的掩码以用于因果解释。目标GNN是预先训练的，在OrphicX的训练过程中参数不会改变。节点属性XZCYZS邻接矩阵A伪因子因果因素图2. 因果图的插图。因果特征是潜在空间中的一组因素。因果特征和伪特征一起形成输入图的表示。基于潜在表示重构图结构;它与特征矩阵一起形成目标GNN的输入y表示GNN靶标的预测标记。对因果特征、伪特征、输入图和目标模型的预测之间的关系进行建模。然后，我们展示了如何基于信息流的概念以及后门调整公式，使用忠实的 cabet-quantification机制来训练OrphicX有了确定的因果特征，我们就能够生成一个图形结构的掩码来进行解释。因果测量的信息流。回想一下，我们的目标是生成紧凑的子图作为对预训练GNN的解释。解释性子图是因果的，在这个意义上，它倾向于独立于输入图的虚假方面，同时保持对目标GNN的预测有贡献的因果部分。因此，一个挑战是如何量化不同数据方面的因果影响，I（Zc; y）.简而言之，我们的框架试图从隐藏空间中隔离表示的子集，表示为Zc，使得从Zc到y的信息流最大化。在下文中，我们将展示如何量化与我们的因果模型相对应的这一项。因果分析。在本文中，我们假设图2中的因果模型。具体地，因果特征和伪特征一起形成输入图的表示，其可以用于重建图结构，表示为A。这确保了学习的潜在特征仍然反映与目标GNN捕获的数据分布相同的数据分布。图结构A与节点属性X一起贡献于模型预测y。换句话说，当我们考虑潜在特征（即因果特征和虚假特征）与模型预测之间的因果关系时，X是一个混淆因素因此，直接忽略X可能导致对因果特征的不准确估计。为了解决这个问题，我们利用经典的后门调整公式[20]，并有：P（y|do（Zc））=P（y|Zc，X）P（X）.（一）X等式1对于规避节点属性引入的混淆效应和计算信息流I（Zc）是至关重要的y），也就是因果反数互信息的一部分[1]。直观地，Eqn. 1通过X的不同版本，同时保持Zc固定，以估计Zc对y的因果效应。注意，P（y|do（Zc）P）=XP（y|Zc，X）P（X）不同于空间，以便识别具有大的因果影响的部分，由Zc表示。为了解决这个问题，我们利用最近的工作，信息理论措施的因果关系，从边际分布P（X），而后者相同，从条件Pal分布P（X）中提取X|Zc）。的因果注量[1]。具体地说，我们使用它们之间的信息流来测量Zc对模型预测y的因果影响，记为I（Zcy）在这里，信息流可以被看作是互信息的因果对应物作为后门调整公式[20]。我们的西奥-下面的rem2.1提供了计算信息流I（Zc！ y）。因果解释潜在空间因果假推论网络要素特征生成网络目标GNN13732hXX XXXXPP|！XXX XX|||LXX X X X|CXSSCzSCS|R⇠|ZX X Z||⇠CXS Zc ssc定理2.1（Zc和y之间的信息流）因果因子Zc和预测y之间的信息流可以计算为：加在一起，我们有1NcN xN sN zI（Zc！ y）=P（y|A（i kjn），X（k））·NcN xN sN zi=1yk=1j=1n=1I（Zc！y）Zc X|CP（ydo（Zc））CNxN sN zlogP（y|A（i kjn），X（k））N N n=P（Z）ZCYP（y do（Z））logZCDZP（y|do（Zc））dZcXSzk=1j=1n=1ZX X=P（Zc）XXNcXNxXNsXNz-yP（y|A（i kjn），X（k））·P1XNcXNxXNsXNz日志ZCXP（y|Zc，X）P（X）XP（y|Zc，X）P（X）dZcdZc日志NcN xN sNzi=1k=1j =1n=1P（y|A（i kjn），X（k））-是的注意，由于混杂因素X，I（Zc;y）不等于互信息I（Zc;y）。术语XP（yZc，X）来自等式1、可以估计有效地具体来说，我们有P（y|do（Zc））=P（y|Zc，X）P（X）（2）X图生成模型作为解释器。我们的框架OrphicX利用变分图自动编码器（VGAE）的潜在空间，以避免使用具有复杂相互依赖性的输入空间。具体来说，我们基于VGA的框架（如图1所示）由一个推理网络和一个生成网络组成。前者用图卷积编码器实例化，=X XZP（y|A，X）P（A|Zs，Zc）P（Zs|Zc，X）P（X）dZs后者是一个多层感知器，配备了一个内部的prod，XAZs1NxNsNzP（yA（kjn），X（k））.（三）NxNsNzk=1j=1n=1这里，k对来自数据集的N x个采样节点属性矩阵X（k）进行索引;j对每个X（k）的N s个样本进行索引，即， Z（kj）P（Z |Z，X（k））; n索引N sam-uct解码器更具体地说，推理网络寻求一种表示-输入图的潜在特征矩阵Z，其因果特征Zc，具有大因果影响的子矩阵，可以被隔离。生成网络有两个目的：（1）它将因果子矩阵映射到邻接掩码中，该邻接掩码用作因果解释，（2）它确保了因果特征，与对于每个Z（ kj ）的 pled 图，即，A（ kjn ）p（AZ，Z（kj））. 注意，实际上我们用变分分布q（ZsA，X（k））来近似真实的后验分布P（ZsZc，X（k）），而在方程（1）中，P（ZsZc，X（k））是一个近似的后验分布。3，X，Zc和Zs不一定属于原始数据集中的同一个图直觉上，这是为了消除混淆效应在Zc和Zs上。因此我们有伪特征，可以重建由目标GNN表征的数据分布内的图学习OrphicX。OrphicX的学习可以转换为以下优化问题：min -I（Zc！ y）+ λLVGAE，（7）其中VGAE是负证据下限（ELBO）损失项，其鼓励潜在特征ZZZc P（Zc）P（y|do（Zc））dZc（4）保持在数据流形[8]中，Zc是Z的因果子矩阵。VGAE的ELBO术语的详细描述=ZC X一P（yA，X）P（A Zs，Zc）（5）ZsP（Zs|Zc，X）P（X）P（Zc）dZsdZc见附录。我们的实证结果表明，ELBO项有助于学习一个子矩阵，该子矩阵嵌入了更多相关信息，从而导致GNN预测。回想一下，我们的目标是产生解释，1NcNxNsNzP（yA（ikjn），X（k）），（6）无无无无无无无i=1k =1j =1n=1类似地，i索引来自Zc的边际的Nc个分布，即，Z（i）P（Zc）; k对来自X的边缘分布X（k）<$P（X）的N x个采样节点属性矩阵进行索引;ZCyP（y|Zc，X）P（X）·i=1k=1j =1n=1R13733CS矩阵保真度标准意味着GNN结果SCSCCj对每对（Z（i），X（k））的Z s的N s个采样进行索引，即， Z （ i kj ） <$P （ Z|Z （ i ）， X（k））;n可以深入了解目标GNN如何真正计算其预测。一个理想的解释器应该满足2.1节中提出的三个必要条件：高保真（忠实），高稀疏（紧凑）和模型不可知。因此，除了目标函数Eqn之外。7，我们通过专门为这些解释器定制的正则化进一步执行保真度和稀疏性标准具体地说，我们将生成的解释子图记为Gc，相应的邻接矩阵记为Ac.稀疏性准则是衡量对于每对（Z（i），Z（kj）），||A ||c sbyc1，其中||·||1表示相邻c y的l1范数也就是说， A（i kjn）p（A|Z（i），Z（k，j））。请注意，在实践中，我们||1||1使用变量分布q（Z|A，Z（i），X（k））到ap-接近真实后向分布P（Z|Z（i），X（k））。被近似到目标实例的h a t，即，f（G）≠f（G），对应于解释性子图的应该是ap。13734·2个其中f（）是类的概率分布-目标GNN的结果。为此，我们引入了一个因此，优化问题可以重新表述所报道的超参数对应于最佳超参数配置。通过这种测试设置，我们的目标是公平地比较方法的最佳解释性能。附录A.2中给出了详细的实现，包括我们的超参数搜索空间。如：min-I（Zc！y）+λ1LVGAE+ λ2||1||1||一||1评估指标。我们用两个标准来评估我们的方法。1）忠诚5/忠诚：这些解释是否表明了2）稀疏性：是稀疏性-+λ3KL（f（Gc），f（G）），其中λi（i1，2，3）控制相关的正则化项。为了全面了解OrphicX，对损失函数进行了一系列消融研究。请注意，目标GNN的参数（如图1所示）是预先训练的，在OrphicX的训练过程中不会改变。OrphicX只处理模型的输入和输出，而不处理特定模型的内部结构。因此，我们的框架可以用来解释任何GNN模型，只要它们的梯度被承认。3. 实验3.1. 数据集和设置数据集。我们在基准数据集上进行了解释GNN的实验：1）对于节点分类任务，我们使用合成数据集评估了不同的方法，包括BA形状和Tree-cycles，其中地面实况解释可用。我们遵循文献中的数据处理[32]。2）对于图分类任务，我们使用生物信息学中的两个数据集，MUTAG [2]和NCI1 [26]。请注意，节点分类[5]和图分类[30]任务的模型架构是不同的（附录A.2中提供了数据集描述和相应模型架构的更多细节）。比较方法。我们将我们的方法与GNN的各种强大的可解释性框架进行比较。他们是GNNExplainer [32]，PGExplainer [14]和Gem [11]4。其中，PGExplainer和Gem通过学习解释器来解释目标GNN。至于GNNEx-planer，没有训练阶段，因为它自然地被设计为一次解释一个给定的实例。除非另有说明，否则我们设置了相应论文中报告的基线的所有超参数。OrphicX中的超参数。对于不同任务的所有数据集，解释器共享相同的模型结构[8]。对于推理网络，我们应用了三层GCN，输出维度为32，32和16。生成模型配备了两层MLP和内积解码器。我们使用Adamopti- mizer [ 7 ]训练解释器，学习率为0。003，300个时期。对于所有实验，我们设置 Nx=5 ， Nz=2 ，Nc=25 ， Ns=100 ， Dc=3 ， λ1=0 。 1 ， λ2=0 。 1 ，且λ3=0。二、结果4我们使用作者发布的源代码。紧凑和可理解的？下面，我们解决这些标准，提出定量指标评估保真度和稀疏性和定性评估通过可视化的解释。为了评估保真度，我们分别根据OrphicX、Gem、PGExplainer 和 GN-NExplainer 为测试集 6 生成解释然后，我们通过使用预训练的GNN [11]将解释子图的预测标签与输入图的预测标签进行比较，来评估不同方法的解释准确性只有当解释子图的预测标号与相应的输入图相同时，解释才是忠实的。为了评估稀疏性，我们使用不同的评估指标。具体而言，在Mutag中，可解释的基序的类型和大小是多种多样的。我们测量边缘的分数（即，表示为R的边缘比）被Mutag和NCI1的不同解释方法选择为对于合成数据集，我们使用边的数量（表示为K），与之前的工作一样[11，32]。较小的边分数或较少的边数意味着更紧凑的子图或更高的稀疏性。为了进一步检验可解释性，我们使用视觉化的解释来定性分析性能。然而，我们不知道真实世界数据集的地面真相解释对于Mutag7，我们请生化工程的专家将显式子图标记为我们的解释基础事实（即，碳环，化学基团，如偶氮N=N、NO2和NH2（致突变类）。具体而言，739/933例包含子图模式的实例属于诱变类在整个数据集中，这证实了这些模式足以用于地面实况解释。图3描述了具有各种出现子图模式的实例的详细分布。有了这些出现的子图模式，我们可以用边AUC来评估Mutag的解释性能。第3.2节详细阐述了评价直觉。3.2. 实证结果解释性能。我们首先报告了合成数据集和真实世界的解释性能[5]在模型可解释性的语境中，6The 详细数据分裂是提供在的阑尾 7由于我们无法获得NCI1的地面实况解释，我们将重点放在对这个数据集的定量评估13735ONHCBRS大约为0，这表明OrphicX可以很好地捕获与预训练的GNN预测最相关的子图由于OrphicX在其他数据集上表现出类似的性能趋势，我们在附录中提供了相应的评估结果。N=N NO2NH2图3.出现子图模式的频率指示将标记的基序/子图模式视为解释基础事实是合理的，即，具有化学基团如N=N、NO2和NH2的碳环用于诱变类。表1.综合数据集的解释准确率（%）。K边数BA形树循环56789678910OrphicXGemGNNExp.PGExp.82.4六十四767岁6五十九597.194167岁6五十九597.191.282岁4五十九597.191.288岁2五十九510091.2八十五3六十四385.774岁320块0七十六。291.488岁6五十四381.510010074岁391.310010088岁6九十五4100100九十七1九十七1数据集。特别是，我们评估了各种稀疏约束下的解释精度（即，对于真实世界数据集的各种R和对于合成数据集的各种K）。表1和表2具体报告了不同方法的解释准确度。边数越少（记为K）或边比率值越小（记为R），说明子图越紧凑。正如所观察到的，OrphicX在所有数据集上的各种稀疏约束下始终优于基线。由于节点和图分类[30]任务的模型架构是不同的，因此性能证实了我们的框架是模型架构不可知的（参见附录中的模型架构）。根据现有的工作[11，18]，我们还评估了对数几率差异，以说明在更多统计视图中生成解释的保真度对数几率差异通过计算对数几率的差异（初始图和解释子图）来描述预训练的GNN的输出的结果变化对数比值差的详细定义见附录A.2。图4描绘了合成数据集的整个测试集上的对数优势差的分布。我们可以观察到OrphicX的log-odds差更加集中(a) BA形(b) 树循环图4.对数优势差异的解释性能。OrphicX始终如一地实现了最佳的整体性能（0附近的分布更密集更好）。为了公平比较，我们还在表3中报告了不同方法在边缘AUC方面的解释可信度。我们遵循GNNExplainer和PGExplainer8的实验设置，其中解释问题被形式化为边缘的二进制分类平均值和在5次运行中计算标准偏差。该度量适用于具有地面实况解释的数据集（即，BA形状的“房子”结构模式/主题和Mutag中的标记子图模式）。直觉告诉我们好的解释方法将更高的权重分配给地面实况子图/图案内的关于边8我们使用PGExp。和GNNEXP。来表示PGExplainer和GNNEx-为简单起见，使用plainer。ŏ致突变非致突变35738390315448表2.真实世界数据集的解释准确率（%）。R边缘比率0.50.60.70.8 0.9MutagNCI10.50.60.70.8 0.9子图模式的重复频率OrphicXGemGNNExp.PGExp.71.466岁。4六十五0五十九371.267岁766岁。6五十八977.2七十一466岁。4六十五178.8七十六。5七十一0七十383.281.878岁374岁766.961岁8六十四2五十七772.768岁6六十五7六十岁。877.1七十668岁6六十五281.374岁975.269岁。385.483岁981.8七十一013736表3.边缘精度AUC（* 表示0的四舍五入估计值。9995± 0。0006）。数据集OrphicXGEMGNNEXP.PGEXP。ATTBA形树循环MUTAG0的情况。988± 0。0080的情况。988± 0。0011 .一、000±0。001⇤0的情况。597± 0。0010的情况。761± 0。0020的情况。988± 0。0130的情况。956± 0。0010的情况。961± 0。0030的情况。998± 0。0010的情况。924± 0。0420的情况。952± 0。0000的情况。998± 0。0010的情况。8150的情况。8240的情况。686 ± 0。098原始p=0.9924p=0.9781OrphicXp=0.9993p=0.9721Gem GNNExplainer PGExplainerp=0.4142 p=0.9668 p=0.9716p=0.9309 p=0.7137p=0.0058p=0.8679p=0.8634p=0.8634 p=0.9991图5.解释可视化（MUTAG）：p是被预训练的GNN分类为诱变类的相应概率第一列中的图表是要解释的目标实例其他列中的实心边通过相应的方法被识别为概率越接近目标实例的概率，解释越好。鉴于这一重要性，人们自然会认为自我注意机制是一种可行的解决办法。先前的工作已经显示了其模型解释的性能为了清楚起见，我们还在表3中报告了表示为ATT的自我注意机制的实验结果。合成数据集的结果对于Mutag，我们评估由领域专家标记的子图模式正如预期的那样，OrphicX在识别由预训练的GNN捕获的最重要边缘方面表现出其优越性。我们还观察到，先前的基于容差的方法Gem不能很好地评估边缘AUC。我们猜想，由于蒸馏过程，可解释的子图模式被破坏[11]。虽然Gem生成的子图可以很好地反映由预训练的GNN捕获的分类模式，但它降低了生成的解释的人类可解释性。解释可视化。图5绘制了不同方法的可视化解释。特别地，我们着重于Mutag的可视化，它可以定量和定性地反映可解释性。第一列示出了初始图和被预训练的GNN分类为“致突变”类的相应报告了基于预训练GNN的属于“突变基因”类的相关概率在子图下面。具体来说，在第一种情况下（第一行），OrphicX可以识别基本的子图模式-一个完整的碳环与NO2-导致其标签（然而，先前的作品，特别是宝石，未能认识到可解释的主题。在第二种情况下（第二行），OrphicX可以很好地识别具有NH2的完整碳环。与此同时，PGExplainer无法识别NH 2，导致被目标GNN归入错误类别--“非致突变”的概率很高，概率为0。九九四二在第三个例子（第三行）中，具有N =N的完整碳环是基本的基序，与本领域专家的标准一致总体而言，OrphicX可以识别最能反映预训练GNN预测的解释性子图。Mutag上合成数据集的可视化和更多可视化图见附录A.3。信息流测量。为了验证Theo- rem2.1，我们分别评估了与模型预测相对应的因果因子（Zc）和伪因子（ZS附录A.3中的图10a表明，正如所期望的那样，从因果因素到模型预测的信息流很大，而从虚假因素到预测的信息流很小。我们还评估了预测性能，同时将噪声（平均值设置为0）添加到因果因素和虚假因素。p=0.0322ONHCBR13737表4.预训练的GNN在具有各种扰动的Mutag上的预测精度（平均值设置为0）。扰动 STD0.00.30.50.81.01.3C AUSAL 因素0的情况。9350的情况。9260的情况。9260的情况。8870的情况。8600的情况。826S PURIOUS 因素0的情况。9350的情况。9360的情况。9360的情况。9350的情况。9340的情况。926tors分别。从表4中，我们可以观察到，向因果因子添加扰动会随着噪声的标准偏差的增加（平均值设置为0）而显著降低预训练GNN的预测性能，而在虚假对立面上添加扰动则不会。这些见解，反过来，验证了因果关系的测量应用信息流的概念的有效性。消融研究。通过去除因果影响项，对隐藏空间中的信息流进行消融研究。从附录A.3中的图10b中，我们可以观察到，如果没有因果影响项，对模型预测的此外，我们还检查了我们的框架的解释性能作为消融研究的损失函数提出。我们通过经验证明了OrphicX损失函数对不同形式的正则化的需求。由于篇幅所限，实证结果载于附录。4. 相关工作重点讨论了基于容差的解释方法。其他先前的工作，包括 GNNEx- plainer [32] ， PGExplainer [14] ，PGM-Explainer [25] ， Sub- graphX [35] ， GraphMask[23]，XGNN [34]和其他[21]，在附录A.4中提供。解释本质上是寻求“如果”和“为什么”问题的答案因此，因果关系一直是回答这些问题的一种貌似合理的语言[11，18]。有几种可行的因果关系形式，如结构因果模型[18，19]，格兰杰因果关系[3，11]和因果贝叶斯网络[19]。虽然大多数现有的作品都是为了解释图像域上的传统神经网络而设计的，但Gem [11]属于解释图结构数据的研究路线。具体来说，Gem将GNN的解释任务框定为因果学习任务，并提出了一个因果解释模型，该模型可以学习生成紧凑的子图来进行预测。从根本上说，这种方法通过扰动数据空间中的输入方面来监控目标GNN的响应，并自然地由于图结构数据的相互依赖性和GNN的非线性变换，我们认为这种假设可能会降低解释性能的有效性和最优性。与以往的工作不同，我们量化了潜在的数据方面的因果属性，空间，并且我们没有对解释的特征的独立假设，因为OrphicX被设计为作为一个整体生成解释。图形信息瓶颈。我们的工作与子图识别的信息瓶颈工作有些相关[33]，但问题和目标不同。GIB-SR [33]试图在给定输入图及其属性（例如，地面真值标签）的情况下识别最大信息量但压缩的子图。相反，我们的框架是关于生成解释来揭示GNN的内部工作，它试图理解目标模型的行为（预测结果），而不是地面事实标签。更具体地说，模型解释是分析模型而不是数据[16]。此外，我们的目标是最大化从潜在特征到模型预测的因果信息5. 结论在本文中，我们提出了OrphicX，这是一个为任何图神经网络生成因果，紧凑和忠实解释的框架。我们的发现在数据集和各种图形学习任务中保持一致。我们的分析表明，OrphicX可以通过最大化信息流度量来识别图的潜在空间此外，OrphicX相对于许多强大的解释方法具有几个优势：它是模型不可知的，并且它不需要目标GNN的内部结构的知识，也不依赖于所解释的特征的线性独立假设。我们表明，通过隔离潜在空间中的因果因素的因果可解释性提供了一个很有前途的工具，解释GNN和挖掘模式的子图的图输入。可解释性将促进社会的透明度、信任和公平。它对于图形非常有帮助，包括但不限于分子图，例如，视觉场景图-一种图形结构的数据，其中节点在场景中可见，而边是对象之间的关系可解释性可以识别与给定分类相关的子图，例如，将场景标识为室内。在未来，更多的用户研究应该确认在其他领域（例如，我们的 OrphicX 提供的可视化场景图（ Visual SceneGraph）符合现实环境中从业者的需求和要求。潜在的负面影响。模型解释的隐私风险已被经验性地表征为非关系数据的深度神经网络（关于图结构数据）[24]。我们推测生成的GNN解释也可能暴露训练数据的私有信息这将为在最重视模型可解释性和隐私的各个领域（如金融和医疗保健）部署基于GNN的AI系统带来风险。13738引用[1] Nihat Ay和Daniel Polani。因果网络中的信息流Advancesin Complex Systems，11（1）：17二、三[2] Asim Kumar Debnath ， Rosa L Lopez de Compadre ，Gargi Debnath，Alan J Shusterman，and Corwin Hansch.致突变芳香和杂芳香硝基化合物的构效关系分子轨道能与疏水性的相关性。医药化学杂志，34（2）：786-797，1991. 五、十一[3] 克莱夫·WJ·格兰杰。用计量经济学模型和交叉谱方法研究因果关系计量经济学：Journal of the Econometric Society，pages 424-438，1969.8[4] Shantanu Gupta ， Hao Wang ， Zachary Lipton ， andYuyang Wang. 修正链接推荐的曝光偏差在 ICML ，2021。2[5] Will Hamilton，Zhitao Ying，and Jure Leskovec.大型图上的归纳表示学习在proc 神经信息处理系统进展，2017年。5[6] 黄恒冠、薛福昭、王浩、王烨。深度图随机过程用于基于语义思维的语音识别。在ICML，2020。1[7] Diederik P Kingma和Jimmy Ba。亚当：一种随机优化方法。国际学习代表会议，2015年。五、十一[8] Thomas N Kipf和Max Welling变分图自动编码器.在procNIPS贝叶斯深度学习研讨会，2016年。二四五十二[9] Wanyu Lin，Zhaolin Gao，and Baochun Li.卫报：用图卷积网络评估在线社交网络中的信任。在proc IEEE计算机通信国际会议，2020年。1[10] Wanyu Lin，Zhaolin Gao，and Baochun Li.Shoestring：基于图的半监督分类与严格有限的标签数据。在IEEE/CVF计算机视觉和模式识别会议论文集，第4174-4182页，2020年。1[11] 林万玉，郝兰，李宝春。图神经网络的生成因果解释在proc 2021年机器学习国际会议。一、二、五、六、七、八、十一[12] Wanyu Lin和Baochun Li。混合泳：预测时变在线社交网络中的社会在Proc. IEEE国际计算机通信会议，2021年。1[13] Scott M Lundberg和Su-In Lee。解释模型预测的统一方法。在proc 神经信息处理系统的进展，第4765-4774页，2017年。5[14] Dongsheng Luo，Wei Cheng，Dongkuan Xu，WenchaoYu，Bo Zong，Haifeng Chen，and Xiang Zhang.图神经网络的参数化解释器。神经信息处理系统进展，2020年。一、二、五、八、十五[15] Chengzhi Mao ， Amogh Gupta ， Augustine Cha ， HaoWang，Junfeng Yang，and Carl Vondrick.因果学习的生成性干预。在CVPR，2021年。2[16] 克里斯托夫·莫尔纳可解释的机器学习璐璐com，2020. 8[17] Federico Monti ， Davide Boscaini ， Jonathan Masci ，Emanuele Rodola ， Jan Svoboda ， and Michael MBronstein.GeometricDeepLearningonGraphsandManifolds using Mixture Model CNN. 在proc IEEE计算机视觉和模式识别会议，第5115-5124页，2017年。1[18] Matthew O Shaughnessy ， Gregory Canal ， MarissaConnor，Mark Davenport，and Christopher Rozell.黑盒分类器的生成因果解释在proc 神经信息处理系统进展，2020年。六、八[19] 朱迪亚·珀尔因果关系。剑桥大学出版社，2009年。一、二、八、十五[20] Judea Pearl，Madelyn Glymour，and Nicholas P Jewell.统计中的因果推理：初级读本。John Wiley Sons，2016.二、三[21] Phillip E Pope、Soheil Kolouri、Mohammad Rostami、Charles E Martin和Heiko Hoffmann。图卷积神经网络的解释方法在proc IEEE计算机视觉和模式识别会议，第10772-10781页，2019年。二八十五[22] Marco Tulio Ribeiro Sameer Singh和Carlos Guestrin。“我为什么要相信你？”解释任何分类器的预测。在Proc.SIGKDD. ACM，2016。一、二[23] Michael Sejr Schlichtkrull ， Nicola De Cao ， and IvanTitov.用可区分的边掩蔽解释{NLP}的图神经网络。2021年，在国际学术会议上发表。八十五[24] Reza Shokri，Martin Strobel，and Yair Zick.论模型解释的隐私风险。在proc AAAI/ACM人工智能，伦理和社会会议，231-241页，2021年。8[25] Minh N Vu和My T Thai。PGM-Explainer：图

下载后可阅读完整内容，剩余1页未读，立即下载