深度学习中的局部、全局和高阶交互的解释

153 浏览量更新于2023-10-14 收藏 1010KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1224解释深度学习中的局部、全局和高阶交互Samuel Lerman Charles Venuto Henry Kautz徐晨亮罗切斯特{slerman@ur.，charles.venuto@chet.，kautz@cs.，xu@} rochester.edu摘要我们提出了一个简单而高度概括的方法来解释神经网络的reasoning过程中的相互作用的部分首先，我们设计了一个算法的基础上，交叉导数计算统计相互作用之间的个别功能，这是广义的2路和高阶（3路或更多）的相互作用的效果。我们提出的结果并排与基于权重的attrition- bution技术，证实交叉导数是一个优秀的度量为2路和高阶的相互作用检测。此外，我们将交叉导数作为神经网络中的解释设备的使用扩展到计算机视觉设置，将Grad-CAM（CNN的一种流行的基于梯度的解释工具）扩展到更高阶。虽然Grad-CAM只能解释图像中单个对象的重要性，但我们称之为Taylor-CAM的方法可以解释神经网络跨多个我们展示了我们的解释定性和定量的成功，包括与用户研究。我们将发布所有代码作为工具包，以促进可解释的深度学习。1. 介绍宇宙是由无数相互作用的部分组成的。要真正理解复杂的系统和过程，将它们的功能看作是独立贡献者的合并是不够的。相反，它们是一个复杂的相互影响的网络。在过去的大部分时间里，可解释的深度学习关注的是识别重要的特征、特征向量和孤立的概念。然而，在现实世界中，人类直觉地理解决策是复杂关系的结果，而不仅仅是从单一现象的排名中推断出来的。例如，在看到让行标志时，自然会看一看是否也有经过的汽车。如果没有，则可以安全地解除让行标志，并且可以继续驾驶而不停止。如果有一辆车经过，法律是让车。如果一个智能体在接近让行标志和超车图1：自动驾驶员决定是“停”还是“走”。在这里，决定不能被解释为单独的个人因素，而是由让行标志和过往车辆之间的相互作用。Taylor-CAM通过考虑改变一个对象如何影响另一个对象的重要性来识别交互，例如将经过的汽车改变为空的道路将如何汽车，精确地解释他们的行动将需要解释这种相互作用。就个体因素而言，也许附近的行人也存在，但是如果没有交互式解释，人们将无法区分让行标志和过往车辆与行人的独立性，并且人们将无法了解显著交互的知识。此外，一个天真的观察者可能认为让行标志总是表示“停止”，同样地，在任何任务中解释代理— 无论是计算机视觉、自然语言处理、生物医学、强化学习还是未来预测— 是不精确的。然而，互动策略并不总是可以通过热图[6，24，25，39，40]或有序排名[10，21，29]来总结;它们通常需要了解许多1225∈依赖关系-复杂的依赖关系，例如更高级别概念之间的依赖关系（例如深度神经网络中的向量表示[3，22，23，38]）-而不仅仅是统计交互效应文献中通常探索的一维特征[9，13，31，32]。鉴于所有这些，我们提出了一些对解释深度学习中的交互的贡献：T-NID，一种统计相互作用效应的算法，其性能优于最近的最先进基线，具有成对和高阶相互作用。交互作用是统计学中的一个基本概念[36]。我们通过将局部相互作用效应转化为全局相互作用效应，并采用简单的子采样启发式算法，使这种计算易于处理。Taylor-CAM是一种扩展Grad-CAM [24]的解释性工具，其通过使用与T-NID相同的相互作用效应的形式将其推广到2向和更高阶设置，基于输入梯度将重要性分配给特征向量。该方法被证明在多目标检测和关系推理的视觉问答（VQA）。Taylor-CAM解释的可视化2. 相关工作在深度学习中，最近有几次尝试用深度学习来计算统计交互神经交互检测（NID）[32]使用神经网络权重来解释交互，观察到交互发生在MLP的第一隐藏层中的非线性激活处。与我们的方法T-NID一样，[8]使用梯度信息来计算统计交互效应。然而，他们依赖于贝叶斯神经网络，需要平均大量的海森，并且只计算全局相互作用效应，而不关注局部或高阶相互作用。[9]使用单个特征之间的交叉导数来解释深度相似性模型中的相互作用，而我们使用Grad-CAM的适应性来证明在更一般的计算机视觉环境中的可解释性。[27]依赖于自我注意[34]来计算与非紧急相互作用效应相类似的度量，并将其应用于生物医学领域的分析在整个生物医学中已经考虑了高阶相互作用，特别是为了理解基因相互作用[2，5，7，16，37]。Cui等人[8]将他们的方法应用于玩具MNIST数据集，该数据集由一组固定的特征向量组成，例如神经元这种方法的局限性在于，它不能用于解释局部现象，而局部现象传统上是计算机视觉、NLP和其他使用多维特征向量的领域所感兴趣的[13]和[31]，就像我们用GELU代替ReLU一样后者，像我们的工作一样，通过在代表性样本之间进行聚合，将局部虽然他们使用随机批次，但我们使用一小部分常见聚合。虽然我们的Taylor-CAM公式明确地改编自Grad-CAM以直观地解释CNN中的特征向量[13]从积分梯度中推导出它们的公式，[31，33]直接使用交叉偏导数。Individual Importances[10，21，29]使用输入梯度来解释神经网络的推理[40]这样做与类激活地图。Grad-CAM [24]和Grad-CAM ++ [6]结合了这两种方法，以利用类别激活图和梯度（通过热图可视化）来定位计算机视觉中的重要特征向量和我们一样[18]使用泰勒分解来解释神经网络决策，但仅用于主效应，而不是相互作用。关系推理我们还将交互效应与关系推理联系起来，这在深度学习中受到了越来越多的关注[3，22，23，38]，并使用泰勒-CAM来解释关系网络的推理过程[23]。虽然过去的大多数工作主要集中在解释神经网络预测的单个因素[34]可以被解释为在其架构中包括MHDPA的神经网络的关系解释[27]。相比之下，泰勒-CAM是架构不可知的，可以直接从梯度信息解释每个输出维度唯一的决策。与其他作品不同的是，我们明确地推导出Taylor-CAM，目的是解释更高级别的表示之间的相互作用，例如来自CNN的特征图，这些特征图标准地表示计算机视觉中的对象（而不是使用原始RGB像素）。由于Grad-CAM除了梯度之外还建立在投影特征向量上，因此我们的高阶扩展w.r. t也是如此。交叉导数来解释相互作用，而不是孤立的现象。3. 统计相互作用效应我们定义类似于[1]的统计交互作用效应定义3.1.交互效应交互效应IE1，...，变量x1，...，x在具有输入x的函数F（x）上的x被测量为：F（x）他们可以计算全局交互效应，但他们将这些特征向量映射到单个神经元和com-IE1，…=···x.（一）在简单的英语中，交互效应是指11226x2一个变量的意义因另一个变量的单位变化而变化。这种变化由交叉部分导数反映。“变化”是对相互作用的直观衡量。从前面的示例中，给定让行标志和迎面而来的汽车的表示，将迎面而来的汽车的表示改变为空无一人的道路也会将让行标志的含义从“停”改为“行”。对于更正式的示例，考虑F（x）=x1sin（x2）+cos（x3）。F由x1和x2之间的相互作用组成，因为2F（x）/（x1x2）非零。然而，x3不属于相互作用，因为任何交叉导数w.r.t.x3为零。适应神经网络用训练好的神经网络代替F，只要神经网络F是次可微的，我们就可以计算一个数据点的局部相互作用效应，直到次在分类中，soft-max确保了这一点。在回归中，我们用高斯误差校正线性单元（GELU）代替ReLU，这在性能上具有可比性[11]。否则，定义3.1提供了任意神经网络结构的相互作用效应的计算.将局部效应转换为全局效应通常在统计学中，人们对计算全局交互效应更感兴趣，统计数据概括了所有数据点。类似地，这种需要可以在分析场景图、对象共现和上下文信息中找到[20，26，35]。与我们的工作相结合，[8]通过对通过k均值聚类检索的一组代表性样本进行平均，将局部成对相互作用效应转换为全局成对相互作用效应，实际上通过欧氏距离划分数据集并从质心计算全局平均值为了计算全局摘要，我们将同样地平均代表性局部相互作用效应，但我们将使用更简单和更有效的技术。在我们的情况下，效率是更关心的，因为计算高阶相互作用效应需要计算高阶导数，这对于许多样本可能变得棘手。为了将局部相互作用效应以任何顺序转换为全局相互作用效应，我们对具有广泛范围的数据集并且可能有意义的代表性样本进行采样。我们选择最接近常见聚合子集的样本，包括均值、中位数、最小值、最大值和众数。以及随机抽样。同样，我们使用L2距离来衡量亲密度。此外，我们考虑了不同的方法来聚合这些样品的交互作用效应。再次，即平均值、中值、最小值、最大值或众数。我们对这些潜在样本和聚集体的完整幂集进行了广泛的扫描，以找到哪种组合在广泛的合成数据集上表现最好，这些数据集与我们从先前的作品[12，17，28，32]中选择的训练数据集不同，选择用于测试在附录中报告。我们最终使用最接近所有样本的平均值、最小值和众数的样本的平均交互作用效应以及随机样本。提高效率我们采用的另一种效率启发式方法是对将要计算的交互进行二次采样。当然，测试每一个组合到顺序将是非常昂贵的。每一个双倍，每一个三倍，每一个四倍等等- 问题组合地增长。我们能够通过利用统计相互作用效应的性质在一定程度上减轻这种情况，即只有当所有相应的（-1）相互作用存在时，向相互作用才能存在[28]。反过来，我们能够通过只选择交互作用效果最高的前一个顺序中的k个交互作用的非冗余组合来减少搜索空间，从使用每个组合开始直到顺序o，然后对其后的每一阶的前k个进行二次采样我们完整的算法，我们称之为泰勒神经交互检测（T-NID）由于高阶导数，在伪代码中描述的附录。最后，我们需要对结果交叉偏导数的符号提出一点正值表示正方向的变化;阴性阴性。由于在回归中，我们对相互作用的整体效应感兴趣，并且对方向不可知，因此我们将交叉偏导数的平方值作为相互作用效应的度量相反，对于分类，我们使用与感兴趣的类别相对应的正负号。对于多类分类，我们将F作为与感兴趣的类输出对应的网络，并使用其平方交叉偏导数。4. 泰勒-CAM在这一点上，我们已经将交互效应的计算推广到了局部、全局和高阶集合，但是我们还没有考虑特征是多维的情况，就像在更高级别的深度神经网络表示中的情况一样。解释特征向量的影响在计算机视觉和解释CNN中很常见然而，我们已经用多个例子说明了为什么模型决策的精确解释4.1. 直觉对于计算机视觉设置中的任意对象，单独的交叉导数是不够的。除了这样的对象不是由奇异特征而是由CNN学习的多维特征向量更正式地说，交叉导数F测量x的单位变化对各种类型的互动。该功率扫描的结果显示了y的单位变化对F的影响。当推理1227ΣΣ∈ΣΣ≥转通过视觉关系，可以方便地考虑告知决定的对象之间的依赖性，例如在告知自动驾驶员将经过的汽车改变为另一个对象，例如仅仅是一条空的道路，这本身就会改变神经网络的内部结构现在，我们具有特征向量的重要性（基本上经由梯度-CAM），我们可以通过将等式3代入等式2并如下求和维度来用公式表示Sij，即特征向量Xi和Xi之间的交互显著性：从意思是“停止”到意思是“走”的屈服符号的pretationSij =ΣΣΣΣxipF（x）xkpjm .（四）变化-但交叉导数仅测量影响改变两者。为了解释这一点，而不是天真地使用交叉导数，我们测量改变一个对象会改变另一个对象的重要性神经网络的决策，例如将让行标志改变为限速标志将如何改变过往车辆m pk最后，我们通过实现分母xj中的偏导数可以与分子中的偏导数一起计算，将其变为易于计算的形式。我们也平方的显着性，因为在任何方向的重要性的变化将是显着的。我们注意到，以下是Grad-CAM的概括，其巧妙地简化为修改的相互作用效应定义3.1：给定轿厢C、让行符号Y和二元决策二、Σ ΣxipΣ22F（x）xkpSY，C =IMP（Y，G），C，（2）m p k.ΣΣ2.（五）其中，SY，C表示让行标志与过往车辆之间的交互显著性，并且IMP（Y，G）表示让行标志对神经网络的决定去或停的重要性幸运的是，单个对象在计算机视觉中的重要性是解释工具Grad-CAM [6，24，40]的特征问题，我们使用它来推导我们的方法。我们使用术语交互作用显着性是因为偏离了定义3.1中的交互作用效应。4.2. 方法设我们有一个次可微函数F：Rn，dR，代表我们的神经网络，其中2。 F取由n个特征向量x1，…，尺寸d的xnRd。所以x1，…Xn只是由CNN产生的特征向量，并且每个特征向量与图像区域相关联。F是这些特征向量的网络下游的部分。为了在等式 2 中填充 IMP ，我们转向类激活图（CAM）[40]。然而，正如[24]的解决方案所观察到的那样，为了找出类激活图如何增加类我们可以通过对每个特征向量xk的梯度求和并对每个CAM的和进行加权来估计全局效果。这正好相当于Grad-CAM [24]：IMP（xi，F（x））=GradCAM（xi，F（x））=xipIEkp，jmm，p，k在测试中，我们发现在等式3-5中设置k=i而不使用k上的全局和，以同样好地并且通常更好地执行，这可能是因为等式3中的局部梯度更精确地对应于特征。我们将等式5称为Hessian-CAM。Hessian-CAM可以相对于交叉部分xq进一步微分以得到3路交互显著性，并且可以进一步微分到任何阶。因此，我们将其命名为泰勒-CAM，这是Grad-CAM的高阶推广，其中Grad-CAM（或紧密变体）是特殊情况=1，并且Hessian-CAM是特殊情况=2。注意，交互显著性是有条件的。特征xi在特征xi上的交互显著性不一定与xi上的交互显著性相同。交互显著性Sij表示xi对xi的重要性的影响。交互作用显著性Sijk.表示xi对交互xj，xk，To地址的交互显著性的影响这样，我们对相互对求和，例如，Sij+Sji，尽管我们注意到我们这样做只是为了使呈现更清晰，而不是因为它是必需的。对于许多解释任务，理解让车标志的含义取决于汽车，但汽车的含义不取决于让车标志对于获得最精确的理解至关重要。计算互对不需要重新计算任何导数，并且可以通过置换所得到的交互显著性并对它们求和来容易地实现。最后，我们将对角线和冗余的零化=xippF（x）xkpK.（三）结果交互显著性的网格单元仅考虑非冗余特征向量之间的交互。S=ΣIJ1228--4.3. 限制Taylor-CAM的一个限制，非常像Grad-CAM，是假设我们有Sort-Of-CLEVR [14]的设置，这是一个关系推理任务。在这里，我们有一个图像，其中包含不同颜色的各种形状和与该图像相关的关系问题。这种限制的一个例子是当一个代理被问到如果最远的圆是蓝色的，并且第二远的圆也是蓝色的，则将最远的圆改变为正方形不会有意义地影响由Grad-CAM确定的粉红色正方形Grad-CAM++[6]可以通过更高阶的导数来了解如何解决这个问题另一个限制是“变化”是在当地衡量的，因为衍生工具不考虑非当地的变化率。这意味着Taylor-CAM与其他深度学习解释工具一样，依赖于表示的局部区域最后，当然是计算高阶导数的时间复杂度。高阶微分已经变得越来越容易使用泰勒模式autograd方法，如JAX[4]和库，如新的Py- torch函数autograd API [19]，但随着订单的增长仍然是一个对于Hessian-CAM，我们使用Pytorch和CPU内存计算关系网络的二阶导数没有问题。我们的个人解释都不需要超过几分钟的计算时间CPU，不包括神经网络训练。5. 实验5.1. 统计相互作用效应我们评估了T-NID在这些可参见[32]的附录对于成对相互作用效应（参见表1），我们报告或再现了以下实验：[32]逐字，测量预测的交互排名和地面事实之间的AUC得分。一对xi，xj被认为是一种相互作用，或者它本身是一种更高阶相互作用的子集，如[17，28]所示。包括用于比较的是来自各种统计和机器学习方法的基准[28，30，31，32，36]。NID [32]使用来自标准MLP的权重的解释来检测相互作用，而NID + MLP-M使用具有在输出处求和的附加单变量网络的以阻止对主效应和虚假虚假交互作用进行建模。GLIDER [31]是最近的交叉部分方法，它使用Softplus诱导高阶可微性。相比之下，T-NID仅使用标准MLP和GELU激活。GELU的表现明显更好。与NID不同，我们没有发现MLP-M或稀疏正则化的好处尽管结构更简单，但T-NID对NID和NID + MLP-M的一些缺陷免疫。T-NID能够区分 F2和 F4中的主效应和伪交互作用，而NID +MLP-M在F6和GLIDER的8、9、10交互作用中模拟的伪主效应似乎也在与此斗争，T-NID将其识别为交互作用。总的来说，T-NID在计算这些合成任务上的成对统计相互作用效应方面与NID和GLIDER高阶相互作用对于高阶相互作用，我们不报告相对于完全真实的AUC分数，因为随着高阶的增加，这将在组合上变得更加昂贵。由于NID也一次提取一个顺序的相互作用，我们一次一个顺序地比较NID和T-NID的AUC分数，并使用来自其发现的相互作用的并集的地面真值。这样，它们可以相对于彼此进行评估，尽管不是普遍的。除了表2中报告的结果之外，我们还测试了许多不同的架构，并使用NID+ 附录中的MLP-M。在所有情况下，相对结果基本相同， T-NID 得分最高，但配备自己的主效应网络（MLP-M）时，在4向相互作用中得分较低。由于任何阶NID倾向于找到比子集好得多的超集，因此在3路交互中，NID错过几乎所有当前交互，而T-NID相对较好。随着最近的工作[8]，我们已经表明，交叉导数是DNN中交互属性的一个有前途的度量5.2. 对象检测我们运行了两个定性评估泰勒-CAM在多目标检测。在这两种情况下，任务都是确定一对物体是否串联存在我们在COCO注释的图像数据集中测试了对象由于成对数据有限，COCO任务遭受模型过拟合和较低的测试准确度，但我们仍然观察到合理的解释。图2a）示出了由Taylor-CAM分配的最高交互显著性的这种交互。在Yield-or-Go任务中，Taylor-CAM揭示了两种预测策略。第一个是预期的：该模型将让行标志（红色三角形）与汽车（矩形）相互作用，如图2b）所示，然后相应地预测“停止”。在第二个例子中，模型将一辆汽车与所有其他汽车进行交互。人们会期望它将汽车和屈服标志联系起来，但是1229表1：成对相互作用效应的AUC评分前1名的分数以粗体显示。方差分析HierLasso RuleFit AG NID [32] NID MLP-M [32] GLIDER [31] T-NIDF1（x）0。9921. 000. 75410. 9700。995± 4。4e− 30. 973± 0。010. 962 ±0。022F2（x）0. 4680. 6360. 6980. 880。790。85± 3。9e-2 0 84± 0。097 0. 885 ± 0。039F3（x）0. 6570. 5560. 81510. 9991 ± 0. 00。919± 0.0750999 ±0。001F4（x）0. 5630. 6340. 6890. 九九九 0. 850 996± 4。7e-30. 951± 0。073 0. 998 ±0。003F5（x）0。5440. 六二五 0。7970. 6711 ± 0. 00。997± 0。0080. 991±0。016F6（x）0。7800。七三零零。8110六四 098070± 4。8e-20. 767±0。0330. 954 ±0。026F7（x）0。7260.57106660.810840 82± 2。2e− 2 0 751± 0。207 0. 98± 0。021F8（x）0。9290. 9580. 9460. 9370. 9890. 989± 4。5e− 3 0。998± 0。005 1. 0± 0。0F9（x）0。7830.6810584 0. 8080. 830. 83± 3。7e-20. 754± 0. 098 0. 98± 0。023F10（x）0。7650. 5830. 87610. 九九五0. 99 ± 2。1e− 20. 974± 0。0271. 0± 0。0平均0。72106980. 7640. 870。92092±1。8e-20. 892± 0。063 0. 975± 0。015表2：高阶n向相互作用效应的AUC评分3路交互4路交互5路交互[32] T-NID[32] T-NID[32] T-NID平均0。08± 0. 013 0.76 ± 0.07075± 0。130.78 ± 0.11092± 0。060.97± 0. 05日模型发现问题可以通过检查-表3：分类CLEVR的定量分析（%）如果（1）存在汽车，以及（2）不存在红色汽车，由于每个物体都有不同的颜色，（2）意味着一个屈服的迹象存在，因此“停止”。揭开这种推理策略的神秘面纱是Taylor-CAM的独特优势。然而，当正确的标签是“go”时，即例如，汽车和让行标志没有一起出现，Taylor-CAM发现模型很少与任何东西交互，而是所有交互显著性为零或者对象与它们自身交互（紧邻区域）（图2c））。这种自交互是泰勒-CAM在缺乏显著交互的情况下提供的直观且方便的解释5.3. 关系推理Sort-Of-CLEVR是由[23]提出的用于关系推理的玩具数据集。它是CLEVR VQA数据集[14]的计算成本较低的2D形式，重点关注关系问题。在我们的设置中，这些问题包括距离和比较计数任务。为了测试Taylor-CAM关系网络是增强到CNN的简单模块，其使得能够在图像区域之间进行关系推理。在图3中，相互作用区域由两个边界框指示，并且每个图像示出了由Taylor-CAM发现的前4个相互作用。输入是对象的图像和关于交互的特定对象的问题。est及其与另一个对象的关系，输出是该问题的答案。由于这些问题在本质上是关系的，这个问题需要关系推理，我们希望泰勒CAM可以适合解释。我们邀请泰勒-CAM[24]第二十四话滑翔机[31]问题1百分之九十百分之三十五百分之六十问题255%百分之五十百分之三十五问题360%40% 45%读者可以使用图3中发现的交互（如由边界框可视化的）来尝试在查看字幕之前推断感兴趣的对象和他们自己的问题例如，如果前4个交互各自由彼此接近的对象组成，并且如果每个交互包括粉红色正方形，则可以猜测问题是“哪个形状最接近粉红色正方形6个物体分别为（2）以及（3）虽然决策通常是相关的[3]，但Grad-CAM仅被设计用于单独解释单个对象的重要性我们观察到，泰勒CAM提供了更清晰的解释时，决策是关系。为了定量评估，随机选择每个问题的20个被模型正确分类的图像，并用其问题例如，对于问题“最接近绿色正方形的物体的形状是什么？“绿色正方形和最接近它的对象被注释。如果Taylor-CAM1230a) 问：a) 对象b) 问：b) Taylor-CAM将让行标志（红色三角形）与任何当前车辆（矩形）交互。c) 问：d) 问：c) 当不存在相互作用时，泰勒-CAM图2：由Taylor-CAM生成的Top-1边界框，表示多对象检测中的简单交互。注释对，则它被计数为对于该图像是准确与GLIDER相同。如果Grad-CAM的前2个显著性包括注释对，则它被认为对于该图像是准确的。由于Grad-CAM不提供关系解释，我们将Grad-CAM的显著性的这种关系解释称为Grad-CAM*。图4中的边界框分别举例说明了Taylor-CAM和Grad-CAM的单个显著性定量分析的结果报告于表3中。定性性能为了测量Taylor-CAMTaylor-CAM实现了较强的可解释性，其猜测准确性优于Grad-CAM和最近的GLIDER [31]。使用泰勒-CAM，参与者能够逆转e) 问：f) 问：图3：示出了从关系网络对6个视觉问答样本的预测中识别的前4个交互。由泰勒-CAM提出的边界框可以被解释为指示关系。我们建议你测试一下自己，看看你是否能猜到（1）感兴趣的对象和（2）被问到的问题（最接近，最远，或相同的形状），而不看标题。在关系型VQA中，工程师的问题不仅仅是看可视化的交互。我们在表4和表5中报告了不同颜色和问题的广泛可解释性。由于随机采样，Grad-CAM的15个1231a) 问：“哪个形状离粉色正方形最远？”b) 问：“哪个形状最接近黄色正方形？”这会给人一种错误的印象，即这个问题是在询问亲密程度。因此，在对感兴趣的对象和相互作用的部件没有信心的情况下，我们发现单独的排名重要性是不直观的，甚至是误导性的。5.4. 生物医学应用我们还应用了T-NID来确定图4：边界框分别显示了Taylor-CAM（左侧）和Grad-CAM（右侧）的top-1显著性Taylor-CAM从单个前1显著性提供可解释的关系解释，而Grad-CAM依赖于所有显著性来产生非关系热图。表4：用户研究目标准确度（%）[24] 第31话：我的世界，我的世界百分之三3%40%46.第46章. 百分之七蓝色10%22. 2%40%紫色N/A15%10%橙色3. 3% 10%15%黄色25% 百分之七三十三。百分之三表5：用户研究问题准确度（%）[31]第二十四话：一个人的世界问题1百分之四十四三十八岁。百分之九76%问题2百分之十四三十八岁。百分之九55%问题3百分之三十23岁百分之八四十八百分之三虽然一些Grad-CAM颜色的表现明显优于随机猜测（粉红色和黄色），但平均而言，人们很难用Grad-CAM猜测感兴趣的对象。这是因为Grad-CAM仅解释了哪些个体对象对输出有贡献，在关系VQA中，输出是所有这些对象，其具有分配给感兴趣对象和包括在问答中的任何对象（诸如最远或最近的对象）这导致不可解释的并且有时误导性的可视化，使得仅从视觉来猜测感兴趣的对象非常困难。不知道感兴趣的对象，因此更难猜测所问的问题。Grad-CAM、GLIDER和Taylor-CAM在问题1上都做得相对较好。用这三种解释工具来解释亲密关系更容易，因为它通常更明显。然而，我们发现问题2（最远距离）对于Grad-CAM更难解释，可能是因为不清楚感兴趣的对象是什么，其中不同相对接近度的多个例如，远离感兴趣对象的两个对象可能彼此靠近，例如，PPMI研究数据集（www.ppmi-info.org）。我们的分析表明，在预测帕金森病更快的认知进展时，以前认为不相关的各种措施应该一起考虑有关此域的详细信息，请参见附录。6. 体系结构配置请参见附录。7. 结论通过T-NID和Taylor-CAM，我们已经证明，输入交叉导数结合一些简单的启发式和直觉，是解释深度学习中相互作用的强大工具。T-NID使用GELU激活、代表性样本和交互作用二次抽样，成功地对统计交互作用进行排名，优于NID。与此同时，泰勒-CAM广义的Grad-CAM的高阶和有效地解释对象检测和关系推理的相互作用，提供一个用户队列的洞察力，猜测问题VQA只看到顶部发现的视觉交互。未来的工作可能会探索本地化的多模态交互，如在视听任务，代理通过公开我们的代码，我们希望这些简单的解释工具可以被使用和构建，以更好地解释神经网络推理和世界背后的复杂互操作因素。8. 致谢这项工作得到了美国国家科学基金会（NSF）的部分支持，资助号为 1741472 、 1813709 、 1909912 和1934962，美国国立卫生研究院（NIH-NINDS）的部分支持，资助号为P50 NS 108676。本文仅反映作者的意见和结论，而不是资助机构的意见和结论。引用[1] 艾春荣和爱德华·C·诺顿。logit和probit模型中的交互作用项。Economics letters，80（1）：123-129，2003. 二个[2] Hugues Aschard 遗传关联研究中交互作用的观点。Genetic epidemiology，40（8）：678- 688，2016. 二个1232[3] Peter W Battaglia，Jessica B Hamrick，Victor Bapst，Al-varo Sanchez-Gonzalez ， Vinicius Zambaldi ， MateuszMa- linowski，Andrea Tacchetti，David Raposo，AdamSantoro，Ryan Faulkner，et al.关系归纳偏差、深度学习和图网络。arXiv预印本arXiv：1806.01261，2018。二、六[4] 作者：Matthew J.约翰逊和大卫·杜弗诺。泰勒模式自动微分高阶导数在JAX。在神经信息处理系统的进展，研讨会程序转换，2019年。5[5] Rich Caruana、Yin Lou、Johannes Gehrke、Paul Koch、Marc Sturm和Noemie Elhadad。健康护理的易懂模型：预测肺炎风险和医院 30天阅片任务。第 21届 ACMSIGKDD国际知识发现和数据挖掘会议论文集，第1721-1730页，2015年。二个[6] A. Chattopadhay，A. Sarkar，P. Howlader，and V. N.巴拉-萨勃拉曼尼亚。Grad-cam++：深度卷积网络的广义基于梯度的视觉解释。2018年IEEE计算机视觉应用冬季会议（WACV），第839-847页，2018年。一、二、四、五[7] Gary K Chen和Duncan C Thomas。利用生物学知识发现遗传关联研究中的高阶相互作用。 Geneticepidemiology，34（8）：863-878，2010. 二个[8] Tianyu Cui，Pekka Marttinen，and Samuel Kaski.使用神经网络记录成对相互作用。在神经信息处理系统的进展，贝叶斯深度学习研讨会，2019年。二三五[9] Ol iv erEberle ， JochenB üttner ， FlorianKr aüutli ，Klaus-Robert M uüller ， MatteoValleriani ， andGr e′goireMont av on. 建立和解释深层相似性模型。arXiv预印本arXiv：2003.05431，2020。二个[10] 约坦·赫克特林格使用输入梯度解释预测模型ArXiv，abs/1611.07634，2016。一、二[11] 丹·亨德里克斯和凯文·金佩尔。用高斯误差线性单元桥接非线性和随机正则化CoRR，abs/1606.08415，2016。三个[12] 贾尔斯·胡克发现黑盒函数中的加法结构。在2004年ACM SIGKDD知识发现和数据挖掘国际会议- KDD '04的会议录中ACM出版社三、五[13] Joseph D Janizek、Pascal Sturmfels和Su-In Lee。解释说明：深度网络的公理化特征交互。arXiv预印本arXiv：2002.04138，2020。二个[14] Justin Johnson ， Bharath Hariharan ， Laurens van derMaaten ， Li Fei-Fei ， C Lawrence Zitnick ， and RossGirshick.Clevr ： A diagnostic dataset forcompositelanguage and elementary visual reasoning.在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第2901-2910页，2017年。五、六[15] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014. 五个[16] Ge Liu，Haoyang Zeng，and David K Gifford. 可视化基因深度神经网络中的复杂特征交互和特征共享。BMCbioinformatics，20（1）：1- 14，2019. 二个[17] Yin Lou ， Rich Caruana， Johannes Gehrke ， and GilesHooker. 具有成对相互作用的精确可理解模型。在Proceedings of the 19 th ACM SIGKDD internationalconferenceon Knowledge discovery and data mining -KDDACM出版社三、五[18] Gre'goireMontav on ，Sebast ianLapuschkin ，Al exander Binde r ， WojciechSamek ， andKlaus-RobertMüller.用深度泰勒分解解释非线性分类决策。 PatternRecognition，65：211-222，2017. 二个[19] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。PyTorch中的自动区分。在神经信息处理系统的进展，2017年。五个[20] 放大图片作者：Richard S.Zemel和John K.佐斯房间里的大象。CoRR，abs/1808.03305，2018。三个[21] 作者：Andrew Slavin Ross，Michael C.休斯，和FinaleDoshi-Velez.因为正确的理由而正确：通过限制其解释来训练可区分的模型。在第26届人工智能国际联合会议论文集，IJCAI'17，第2662-2670页中。中国出版社.一、二[22] Adam Santoro 、 Ryan Faulkner 、 David Raposo 、 JackRae 、 Mike Chrzanowski 、 Theophane Weber 、 DaanWierstra 、 Oriol Vinyals 、 Razvan Pascanu 和 TimothyLillicrap。关系递归神经网络。神经信息处理系统的进展，第7299-7310页，2018年。二个[23] Adam Santoro 、 David Raposo 、 David G Barrett 、Mateusz Malinowski、Razvan Pascanu、Peter Battaglia和Timothy Lillicrap。一个简单的神经网络模型的关系reasoning。神经信息处理系统进展，第4967-4976页，2017年。二、六[24] R. R. Selvaraju ， M. Cogswell ， A. 达斯河，巴西 - 地Vedantam，D. Parikh和D.巴特拉Grad-cam：通过基于梯度的定位从深度网络进行2017年IEEE国际计算机视觉会议（ICCV），第618-626页一二四六八[25] Karen Simonyan Andrea Vedaldi和Andrew Zisserman卷积网络内部：可视化图像分类模型和显着图。arXiv预印本arXiv：1312.6034，2013。一个[26] KrishnaKumarSingh 、 DhruvMahajan 、 KristenGrauman 、 Yong Jae Lee 、 Matt Feiszli 和 DeeptiGhadiyaram 。 Don’t judge CoRR ， abs/2001.03

下载后可阅读完整内容，剩余1页未读，立即下载