可逆解释网络：解缠结隐藏表示，提高深度网络可解释性

126 浏览量更新于2023-10-24 收藏 14.35MB PDF 举报

可解释性

深度神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

92230一种用于解释潜在表示的可逆解缠结解释网络0Patrick Esser � Robin Rombach � Bj¨orn Ommer德国海德堡大学图像处理合作实验室0摘要0神经网络通过学习强大的输入数据表示大大提高了计算机视觉的性能。端到端训练的缺点是黑盒模型的隐藏表示缺乏可解释性：由于分布式编码对于潜在层来说是最优的，以提高其鲁棒性，因此很难将隐藏特征向量的部分或单个神经元的意义归因于其中的含义。我们将解释定义为将隐藏表示转化为用户可以理解的语义概念的翻译。两个域之间的映射必须是双射的，以便目标域中的语义修改正确地改变原始表示。所提出的可逆解释网络可以透明地应用于现有架构之上，无需修改或重新训练它们。因此，我们可以将原始表示转化为等效但可解释的表示，并且在不影响原始表示的表达能力和性能的情况下进行反向转化。可逆解释网络将隐藏表示解缠结为独立的、语义有意义的概念。此外，我们还提出了一种仅通过绘制两个图像的有效方法来定义语义概念，以及一种无监督策略。实验评估证明了对现有分类和图像生成网络以及语义引导图像操作的广泛适用性。01. 引言0深度神经网络通过学习任务特定的隐藏表示而不是依赖预定义的手工制作的图像特征，在各种计算机视觉任务中取得了前所未有的性能[51,15]。然而，由于端到端学习带来的显著性能提升，现在的深度网络成为了缺乏可解释性的黑盒模型：深度网络可能已经找到了0� 两位作者对本文贡献相同。0图1：我们的可逆解释网络T可以应用于任意现有模型。其可逆性保证了从z到˜z的转换不会影响要解释的模型的性能。代码和结果可以在项目页面https://compvis.github.io/iin/找到。0对于模型所做的预测，人类用户无法理解其原因[36]。相反，用户还必须能够理解隐藏表示没有学习到的内容，以及整体模型将因此而失败的数据。因此，可解释性是保护人工智能的先决条件，使其对受影响的用户的决策透明，并理解其适用性、限制和未来改进的最有前途的选择。一个关键挑战是，学习到的潜在表示通常不对应于人类用户可以理解的语义概念。隐藏层神经元被训练来帮助解决网络输出层的整体任务。因此，输出神经元对应于人类可解释的概念，例如语义图像分割中的对象类别[3]或对象检测中的边界框[48]。相反，隐藏层表示tion of semantic concepts is a distributed pattern [9]. Thisdistributed coding is crucial for the robustness and gener-alization performance of neural networks despite noisy in-puts, large intra-class variability, and the stochastic natureof the learning algorithm [13]. However, as a downside ofsemantics being distributed over numerous neurons it is im-possible to attribute semantic meaning to only an individualneuron despite attempts to backpropagate [37] or synthe-size [47, 52] their associated semantic concepts. One solu-tion has been to modify and constrain the network so thatabstract concepts can be localized in the hidden representa-tion [55]. However, this alters the network architecture andtypically deteriorates overall performance [45].Objective: Therefore, our goal needs to be an approachthat can be transparently applied on top of arbitrary existingnetworks and their already learned representations withoutaltering them. We seek a translation between these hid-den representations and human-comprehensible semanticconcepts—a non-linear mapping between the two domains.This translation needs to be invertible, i.e. an invertible neu-ral network (INN) [5, 6, 19, 22], so that modiﬁcations inthe domain of semantic concepts correctly alter the originalrepresentation.To interpret a representation, we need to attribute mean-ing to parts of the feature encoding. That is, we have to dis-entangle the high-dimensional feature vector into multiplemulti-dimensional factors so that each is mapped to a sep-arate semantic concept that is comprehensible to the user.As discussed above, this disentangled mapping should bebijective so that modiﬁcations of the disentangled semanticfactors correctly translate back to the original representa-tion. We can now, without any supervision, disentangle therepresentation into independent concepts so that a user canpost-hoc identify their meaning. Moreover, we present anefﬁcient strategy for deﬁning semantic concepts. It only re-quires two sketches that exhibit a change in a concept ofinterest rather than large annotated training sets for eachconcept. Given this input, we derive the invariance prop-erties that characterize a concept and generate synthesizedtraining data to train our invertible interpretation network.This network then acts as a translator that disentangles theoriginal representation into multiple factors that correspondto the semantic concepts.Besides interpreting a network representation, we canalso interpret the structure that is hidden in a dataset andexplain it to the user. Applying the original representationand then translating onto the disentangled semantic factorsallows seeing which concepts explain the data and its vari-ability. Finally, the invertible translation supports seman-tically meaningful modiﬁcations of input images: Givenan autoencoder representation, its representation is mappedonto interpretable factors, these can be modiﬁed and inversetranslation allows to apply the decoder to project back into92240与现有的解缠绕图像合成[34, 8, 32, 24,7]相比，我们的可逆方法可以应用于现有的自编码器表示，因此不需要修改或重新训练以处理不同的语义概念。此外，对于其他架构，如分类网络，可解释性有助于分析其不变性和鲁棒性。总结一下，(i)我们提出了一种新的神经网络可解释性方法，可以应用于任意现有模型而不影响其性能；(ii)我们获得了从隐藏表示到语义概念的可解释表示的可逆转换；(iii)我们提出了一种允许用户高效定义用于我们可解释表示的语义概念的方法；(iv)我们研究了隐藏表示、原始数据的解释，并展示了可逆转换网络实现的语义图像修改。02. 可解释性0解释是两个领域之间的翻译，使得第一个领域的概念可以用第二个领域的概念来理解。在这里，我们对神经网络的内部表示进行解释，以人类可理解的表示为基础。后者的例子包括文本描述、视觉属性或图像。为了解释神经网络，一些方法修改网络架构或训练中使用的损失函数，以获得更易解释的网络。[55]依赖于全局平均池化层来获得类别激活图，即显示哪些输入区域与某个对象类别的预测最相关的热图。[54]通过限制滤波器激活在局部区域来学习部分特定的卷积滤波器。可逆神经网络[5, 6, 19,22]已被用于更好地理解对抗攻击[18]。我们提出的方法是在现有架构中增加可逆变换，而不是用可逆变换替换现有架构。利用可逆性，我们可以在原始表示和可解释表示之间来回映射，不会丢失信息。因此，我们的方法可以应用于任意现有架构，而不会影响其性能，而修改架构的方法总是涉及解释性和性能之间的权衡。大多数关于现有网络可解释性的工作都集中在可视化方面。[53]重建激活网络的特定特征层的图像。[47]使用梯度上升合成图像，使得不同对象类别的类别概率最大化。[52]将其推广到网络中的任意神经元。[38]不直接优化像素值，而是优化生成器网络的输入代码，该网络被训练用于重建图像。��92250[55]避免从头开始合成图像，而是寻找给定图像中激活特定神经元的区域。对于一类特定的函数，[1]将函数分解为可以以像素为单位进行可视化的相关性分数。层次相关传播[37]是一种更通用的方法，根据规则将相关性分数在网络中的输入神经元之间分配。[41]展示了如何在没有访问分类器梯度的情况下获得表示像素对于分类器决策的重要性的显著性图。所有这些方法都假设给定了一组固定的神经元，并且应该根据激活它们的输入来进行解释。然而，[2]，[9]证明了网络使用分布式表示。特别地，语义概念由多个神经元的激活模式编码，单个神经元不是概念特定的，而是参与不同概念的表示。我们通过学习从分布式表示到可解释表示的非线性转换来直接解决这一发现。0虽然 [9]表明对于一般的网络，我们必须期望内部表示是分布式的，但有些情况下表示可以有一个更简单的结构：生成模型是在明确目标下训练的，目标是从简单分布的样本中生成图像，例如高斯分布。大多数方法基于变分自编码器[23,44]，它们试图从其边际分布与标准正态分布匹配的表示中重构图像，或者基于生成对抗网络[11, 14,39]，它们直接将来自标准正态分布的样本映射到由鉴别器网络判断为逼真的图像。高斯密度的凸性使得表示之间的线性操作具有意义。表示之间的线性插值使得沿非线性数据流形进行遍历成为可能[42]。[26]找到了可以用于插值二进制属性之间的视觉属性向量。为此，将包含具有或不具有属性示例的两组图像编码为它们的表示，并且它们的均值之间的方向是视觉属性向量。这样的属性向量也适用于分类器网络[49]，但由于它们的表示没有线性结构，该方法仅限于对齐图像。[42,43]证明了矢量算术也可以实现类比推理。[46]通过找到属性分类器的决策边界的法向量来解释 GAN的潜在空间。[10]使用类似的方法找到与记忆性、美学和情感价值等认知属性相关联的属性向量。虽然这些方法通过修改属性提供了增强的可解释性，但它们仅适用于具有线性结构的表示。相比之下，我们提供了一种方法0将任意表示映射到可解释表示空间。该空间由表示语义属性的因子组成，并且支持线性操作。因此，我们可以在可解释空间中进行语义修改，并且由于我们的转换是可逆的，可以将修改后的表示映射回原始空间。03. 方法03.1. 解释隐藏表示0隐藏表示的可逆转换：假设 f是要解释的给定神经网络。我们对网络 f没有任何限制。例如，f可以是一个对象分类器、分割网络或自编码器。f 将图像 x∈ R h × w × 3 通过一系列隐藏层映射到最终输出 f ( x)。隐藏层的中间激活 E ( x ) ∈ R H × W × C 是图像 x的任务特定表示。这些隐藏表示对人类来说没有意义，我们必须将它们转化为有意义的表示。我们引入符号 z = E ( x )∈ R H ∙ W ∙ C，即 z 是隐藏表示的 N = H ∙ W ∙ C维度展平版本，E 是 f 的子网络，包括产生 z的隐藏层和此层后的子网络将被记为 G，使得 f ( x ) = G ◦ E( x )，如图 1 所示。为了将 z转化为可解释的表示，我们旨在将分布表示 z翻译为因子化表示 ˜ z = (˜ z k ) K k =0 ∈ R N，其中每个K + 1 个因子 ˜ z k ∈ R N k，满足� K k =0 N k =N，表示一个可解释的概念。这种翻译的目标是双重的：一方面，它应该能够分析数据和 f的内部表示之间的关系，以可解释的概念来表示；这需要从z 到 T ( z ) = ˜ z 的正向映射 T。另一方面，它应该能够对 f的内部表示进行语义修改；这需要 T 的逆操作。通过逆映射T − 1，可以将内部表示 z 映射到 ˜z，以语义上有意义的方式修改为 ˜ z�（例如，更改一个可解释的概念），然后映射回 f的内部表示。这样，之前仅在 ˜ z 上定义的语义修改 ˜ z →˜ z � 可以通过 z → z � 应用于内部表示。= T − 1 ( T ( z ) �)。示例见图 2，其中 z 通过将其语义因子 ˜ z k替换为另一图像的因子进行修改。0解释性概念的分解：为了进行有意义的分析和修改，每个因子 ˜ z k 必须表示一个特定的可解释概念，并且作为整体，˜z应该支持广泛的修改。最重要的是，必须能够独立地分析和修改不同的因子 ˜ z k 。这意味着它们的联合密度 p (˜ z ) = �K k =0 p (˜ z k ) 必须进行因子化。为了探索不同的p(˜z) =|T ′(zb)| p�T(zb)|T(za), F�(6)+̸K92260˜ z 1 =“数字”0˜ z 2 =“颜色”0˜ z 0 =“残差”0图2：应用于自动编码器的潜在表示 z，我们的方法实现了语义图像类比。将 z 转换为分解的语义因子 (˜z k ) K k =0 = T ( z ) 后，我们用源图像的 ˜ z k 替换目标图像的 ˜ zk 。从左到右： k = 1 (数字)， k = 2 (颜色)， k = 0 (残差)。0因子，每个因子的分布 p (˜ z k )必须易于从中采样，以便了解因子的变异性，并且两个因子样本之间的插值必须是有效的样本，以分析沿路径的变化。因此，我们指定每个因子服从正态分布，如下所示：0k =0 N (˜ z k | 0 , 1 ) (1)0在没有额外约束的情况下，因子 ˜ z k所表示的语义是未指定的。为了解决这个问题，我们要求 (i)每个因子 ˜ z k 仅与一个可解释的概念相关，并且 (ii)它在其他变化方面是不变的。因此，我们有训练图像对 ( x a, x b )，通过它们的相似性来指定语义，例如包含相同物种动物的图像对来定义“动物物种”的语义概念。每个语义概念 F ∈{ 1 , . . . , K } 由这些图像对定义，并且用相应的因子 ˜ z F表示，我们写作 ( x a , x b ) � p ( x a , x b | F ) 来强调 ( x a ,x b ) 是因子 ˜ z F 的训练对。然而，我们不能期望对于 z中的每个相关的语义概念都有图像对的示例。尽管如此，所有的因子 ˜ z = (˜ z k ) K k =0 ，必须与原始表示 z一一对应，即 z = T − 1 (˜ z ) 。因此，我们引入 ˜ z 0作为一个残差概念，它捕捉到 z的剩余变异性，这些变异性被语义概念 F = 1 , . . . , K错过了。对于给定的训练对 ( x a , x b ) � p ( x a , x b | F )，对应的因子化表示 ˜ z a = T ( E ( x a )) 和 ˜ z b = T ( E (x b )) ，现在必须满足以下条件：(i) 它们的 F-th因子必须反映 ( x a , x b ) 的语义相似性，(ii)它们在剩余的因子上必须是不变的。这通过对于因子之间的F-th 因子引入一个正相关因子 σ ab ∈ (0 , 1) 来表示：0˜ z b F � N (˜ z b F | σ ab ˜ z a F , (1 − σ 2 ab ) 1 ) (2)0对于剩余的因子之间的相关性没有要求，0˜ z b k � N (˜ z b k | 0 , 1 ) k ∈ { 0 , . . . , K } \ { F } (3)0为了将该模型拟合到数据中，我们利用 T的可逆性直接计算和最大化对 ( z a , z b ) = ( E ( x a ) , E (x b )) 这对样本的似然性。我们使用 T的雅可比行列式的绝对值来计算似然性，记为 | T ′ ( ∙ ) |，如下所示：0p ( z a , z b | F ) = p ( z a ) p ( z b | z a , F ) (4) = |T ′ ( z a ) | p ( T ( z a )) ∙ (5)0为了能够高效地计算雅可比行列式，我们遵循之前的工作 [22 ] ，基于 ActNorm、Af�neCoupling 和 Shuf�ing 层构建T ，详细描述见补充材料的 A.1节。在训练中，我们使用负对数似然作为损失函数。将等式( 1 ) 代入等式 ( 5 ) ，将等式 ( 2 ) 和 ( 3 ) 代入等式 ( 6 )，得到每个样本的损失函数 ℓ ( z a , z b | F ) ：0ℓ(za, zb|F) =0k = 0 ∥T(za)k∥2 - log|T'(za)| (7)0k ≠ F ∥T(zb)k∥2 - log|T'(zb)| (8)0+ ∥T(zb)F - σab T(za)F∥201 - σ2ab (9)0这是针对所有语义概念F ∈ {1, ..., K}的训练对(xa,xb)进行优化的。0L =0F = 1 E(xa, xb)�p(xa, xb|F) ℓ(E(xa), E(xb)|F) (10)0请注意，我们描述的情况是图像对共享至少一个语义概念的情况，这包括共享多个语义概念的情况。此外，我们的方法也适用于图像对在语义概念上存在差异的情况。在这种情况下，对于所有因子˜zbk，k ∈ {0, ..., K} \{F}，式（2）成立，并且对于因子˜zbF，式（3）成立。在下一节中，我们将讨论语义概念的维度和起源时，也将使用这种情况。03.2. 获取语义概念0估计因子的维度：语义概念在复杂性和维度上存在差异。给定定义第F个语义概念的图像对(xa, xb)�p(xa,xb|F)，我们必须估计表示该概念的因子˜zF的维度。由于T的可逆性，所有这些因子的维度之和等于原始表示的维度。因此，由网络E捕捉到的语义概念需要占据整体维度的较大份额，而E对其不变。�Lunsup = −Ex∥T(E(x))∥2 − log|T ′(E(x))|(12)92270图3：语义概念训练样本的高效生成：用户只需提供两个草图（第一行）来改变一个语义概念，例如：圆度。然后我们合成训练图像以反映这种语义变化。0xa，xb在第F个语义概念中的相似性意味着它们之间存在正的互信息，只有在潜在表示E(xa)，E(xb)中捕捉到第F个语义概念时，这种相似性才会被保留。因此，基于简化假设，即隐藏表示E(xa)i，E(xb)i的分量是联合高斯分布的，我们用它们的相关性近似它们的互信息，对于每个分量i。对所有分量i求和得到相对得分sF，作为训练图像(xa, xb)�p(xa,xb|F)表示概念F的˜zF的维度的代理，0s F = �0Var(E(xa)i) / Var(E(xb)i)。 (11)0由于相关性在[-1, 1]之间，得分sF在[-N,N]之间，其中N是E的N维潜在表示。对于剩余因子˜z0，使用最大得分N确保所有因子具有相等的维度，如果所有语义概念都被E捕捉到。然后，˜zF的维度NF为NF = � exp sF � K k = 0 exp sk N�。表1展示了可解释因子˜zF表示不同语义概念的估计维度。剩余维度分配给剩余因子˜z0。在具有颜色不变分类器的情况下，与自编码器相比，颜色因子较小。0数据集模型潜在z可解释˜z0维度维度因子˜zF0彩色-AE 64 12位MNIST 19种颜色0分类器64 22位数字011种颜色0表1：估计的可解释因子˜zF表示不同语义概念的维度。剩余维度分配给剩余因子˜z0。与自编码器相比，在颜色不变分类器的情况下，颜色因子较小。0图4：我们的解释网络的逆网络T将可解释领域中的线性路径映射回编码器空间中数据流形上的非线性路径，然后解码为有意义的图像（右下角）。相比之下，编码器空间中线性路径的解码图像会产生幽灵伪影（左下角）。0使用这个近似方法预测维度。0基于语义概念的草图描述：训练需要提供描绘语义概念变化的图像对。通常情况下，很难获得足够数量的这样的示例。以下描述了一种帮助用户轻松指定语义概念的方法。两个草图胜过千言万语：用户只需提供两个草图 y a 和 y b，展示一个概念的变化。例如，一个草图可能主要包含圆形曲线，另一个草图可能主要包含角形曲线，如图3所示。然后，我们利用风格转换算法[40]将训练集中的每个 x转换为两个新图像：x a 和 x b ，分别用 y a 和 y b进行风格化。组合 (x, x a)、(x, x b) 和 (x a, x b)作为感兴趣概念变化的示例。0无监督解释：即使没有语义因素变化的示例，我们的方法仍然可以产生解缠的因素。在这种情况下，我们最小化隐藏表示 z = E(x) 的边缘分布的负对数似然：0由于这导致转换表示中的独立分量，使得用户可以在训练后为该表示属性赋予意义。将我们解缠空间中的线性插值映射回 E的表示空间，会导致数据流形上的非线性插值（参见图4）。这种线性结构允许使用向量算术来探索表示[49]。例如，基于一些具有语义概念变化的图像示例，我们可以找到表示该概念的向量，作为这些图像之间的平均方向（参见公式（14））。与以前的工作不同，我们不依赖于解缠的潜在表示，而是学习将任意给定的表示转换为解缠的表示。leads to a nonlinear interpolation on the data manifold em-bedded by E (see Fig. 4). This linear structure allows to ex-plore the representations using vector arithmetics [49]. Forexample, based on a few examples of images with a changein a semantic concept, we can ﬁnd a vector representingthis concept as the mean direction between these images(see Eq. (14)). In contrast to previous works, we do not relyon disentangled latent representations but learn to translatearbitrary given representations into disentangled ones.˜z ∼ N(˜z|0, 1),x = G(T −1(˜z)).(13)92280图5：在AnimalFaces上的转移：我们将目标图像（最左列）的 ˜ z0 （残差）与源图像（顶部行）的 ˜ z 1（动物类别）相结合，从而将动物类型从源图像转移到目标图像。04. 实验0后续实验使用以下数据集：AnimalFaces[28]、DeepFashion [29, 31]、CelebA [30]、MNIST[27]、Cifar10 [25]和FashionMNIST[50]。此外，我们通过随机给MNIST图像上色来增强数据集，以提供解缠实验的基准（称为ColorMNIST）。04.1. 自动编码器框架的解释0自动编码器学习从低维潜在表示 z = E(x)重构图像。随后，我们将 z映射到可解释的因素上，以进行语义图像修改。请注意，z仅通过给定的网络获得；我们的可逆解释网络从未见过图像本身。0解缠自动编码器的潜在编码：现在我们改变 ˜ z k，这应该以一种语义上有意义的方式修改 z。这测试了我们将其转换为相互解缠、可解释的表示的两个方面：首先，如果其因素已经成功解缠，那么从不同图像中交换因素应该会改变 z 。0图6：在DeepFashion上的转移：我们将目标图像（顶部行）的 ˜ z0 （残差）与源图像（最左列）的 ˜ z 1（外观）相结合，从而将外观从源图像转移到目标图像。0仍然产生有效的表示。其次，如果因素忠实地代表其语义概念，则修改因素应该会改变其相应的语义概念。为了评估这些方面，我们在AnimalFaces数据集上训练了一个自动编码器。作为语义概念，我们利用动物类别和一个残差因素。图5显示了将左侧图像的残差因素与顶部图像的动物类别因素相结合的结果。解码后，结果显示了来自顶部图像类别的动物。然而，它们的注视方向对应于左侧图像。这证明了我们解释空间中语义概念的成功解缠。前面的案例已经证实了我们的方法在大致对齐的图像上的适用性。现在我们在DeepFashion上测试它在非对齐的关节人物图像上的效果。图6展示了与先前实验中的属性交换类似的结果。显然，我们的方法可以处理关节对象，并实现姿势引导的人体合成。最后，我们在Col-orMNIST上进行这个交换实验，以研究多个因素的同时解缠。图2展示了使用三个因素的解释进行交换的结果：数字类型、颜色和残差。0评估无监督情况：为了研究我们的方法在没有关于语义概念的监督的情况下的能力，我们分析了将简单的自动编码器转化为生成模型的能力。由于我们的解释产生了正态分布的表示，我们可以对其进行采样，将其转换回自动编码器的潜在空间，最后解码为图像。MNISTFashionMNISTCIFAR-10CelebA˜zF → ¯F =1|X ¯F |�x ¯F ∈X ¯Fx¯F −1|XF |�xF ∈XFxF .(14)92290TwoStageVAE 12.6 ± 1.5 29.3 ± 1.0 72.9 ± 0.9 44.4 ± 0.7 WGAN GP20.3 ± 5.0 24.5 ± 2.1 55.8 ± 0.9 30.3 ± 1.0 WGAN 6.7 ± 0.4 21.5 ± 1.655.2 ± 2.3 41.3 ± 2.0 DRAGAN 7.6 ± 0.4 27.7 ± 1.2 69.8 ± 2.0 42.3 ±3.0 BEGAN 13.1 ± 1.0 22.9 ± 0.9 71.9 ± 1.6 38.9 ± 0.90Ours 6.4 ± 0.1 16.0 ± 0.1 45.7 ± 0.3 20.2 ± 0.50表2：根据[4]报告的各种基于AE和GAN模型的FID分数。0我们采用了生成模型的标准评估协议，并使用FréchetInceptionDistance（FID分数）来衡量图像质量。[4]提出了一种使用两个变分自动编码器进行生成建模的方法，并取得了与基于GAN的方法竞争的结果。我们遵循[4]，使用基于[33]的自动编码器架构，并使用与[26]中相同的数据集进行训练。表2给出了三次试验中10K生成图像的FID分数的均值和标准差。我们在FID方面明显优于[4]中报告的最新技术。我们的方法可以利用类似GAN的学习相似度度量，从而能够生成高质量的图像。与基于GAN的方法相比，我们可以依靠自动编码器和重构损失。这样可以实现稳定的训练并避免GAN的模式崩溃问题，这解释了我们在FID方面的改进。0除了根据方程（13）描述的模型进行采样之外，我们的方法还支持表示空间中的语义插值，因为可逆网络构成了一个无损的编码器/解码器框架。我们通过对具有属性的图像集合X F = { x F } 和不具有该属性的图像集合 X ¯ F = { x ¯ F }进行编码来获得语义轴 ˜ z F → ¯ F。请注意，这些集合仅在训练之后，即在测试期间才需要。0图7：CelebA：随机抽取的四个样本（角落）和通过无监督训练得到的相应插值，详见第4.1节。0时间。然后通过对 X F 和 X ¯ F的示例之间的平均方向进行编码，得到 ˜ z F → ¯ F 。0这种向量运算依赖于我们解释性表示空间的有意义的线性结构。我们在图4中说明了这种结构。在我们可解释的空间中进行线性行走总是会得到有意义的解码图像，这表明反变换后的表示位于数据流形上。相比之下，在编码器的隐藏表示空间中进行线性行走的解码图像会包含幽灵伪影。因此，我们的模型可以将非线性的隐藏表示转换为具有线性结构的可解释空间。图7可视化了CelebA上的一个二维子流形。图8提供了一个在CelebA数据集上描述的属性之间插值的示例。我们沿着“胡子”和“微笑”属性进行线性行走，增加前者并减少后者。0图8：在解缠绕表示空间中沿语义方向进行插值：前四行显示沿着“胡子”进行的插值，而最后四行显示沿着“微笑”进行的插值。请注意，第1、2、4行中的性别发生了变化，反映了原始数据中“胡子”和“性别”的强相关性。92300图9：左：ColorMNIST上数字分类器的每个类别的输出方差，通过log-softmaxedlogits和类别预测的分布进行评估。T解耦了˜z0（残差）、˜z1（数字）和˜z2（颜色）。右：˜z1和˜z2的1D解耦UMAP嵌入。详见第4.2节。04.2.分类器的解释0在解释自动编码器架构之后，我们现在分析分类网络：（i）一个在ColorMNIST上的数字分类器（准确率约为97%）。为了解释这个网络，我们提取分类头之前的隐藏表示z∈R64。（ii）一个在AnimalFaces类别上训练的ResNet-50分类器[12]。隐藏表示z∈R2048。0完全卷积层之后提取。0网络响应分析：我们现在分析在解释空间中进行操作时类别输出概率如何变化：首先，我们训练翻译器T来解耦K个（加上一个残差）不同的因素˜zk。为了评估，我们修改单个因素˜zk，同时保持所有其他因素不变。更具体地说，我们通过用从谐振势中随机行走的样本替换˜zk来修改˜zk（一种奥恩斯坦-乌伦贝克过程，请参见补充材料的B节），从而得到一系列修改后的因素（˜z（1）k，˜z（2）k，...，˜z（n）k），当进行n次修改时。我们将该序列中的每个元素反转回其隐藏表示，并应用分类器。我们通过逻辑回归和类别预测的分布来分析网络对每个修改后的因素k的响应。0图10：ColorMNIST分类器的潜在空间z=E(x)的UMAP嵌入。点的颜色表示测试样本的类别。我们将潜在表示z映射到可解释表示˜z=T(z)，其中我们在一个因素˜zk中进行随机行走。使用T-1，这个随机行走被映射回潜在空间，并以黑色十字架通过灰色线连接。在左侧，数字因素的随机行走在数字聚类之间跳跃，而在右侧，颜色因素的随机行走（大部分）保持在它起始的数字聚类内。0解释分类器以估计其不变性：网络解释还可以识别学习表示的不变性属性。在这里，我们评估了数字分类器对颜色的不变性。我们学习了一个转换T来解耦数字˜z1、颜色˜z2和一个残差˜z0。图9显示了网络响应分析。logsoftmax值和预测类别的分布对颜色因素的变化不敏感，但对数字表示的变化非常敏感。我们还在图10中展示了反向因素操作的UMAP[35]（以黑色显示）。由于整个修改发生在一个聚类内，这强调了T找到了一个解耦表示，并且分类器对颜色几乎是不变的。此外，我们对每个因素分别进行了另一个1D-UMAP降维，并在图9中绘制了它们的两两相关性。接下来，我们训练了一个转换器T来评估ResNet-50的可解释性。对灰度值˜z1、圆度˜z2和残差˜z0的三个因素的分析显示了分类器对灰度的不变性，但对圆度的不变性。更多细节可以在补充材料的B节中找到。05.结论0我们已经证明了黑盒的潜在表示可以被转化为可解释的表示，其中解耦的因素代表语义概念。我们提出了一种在不丢失信息的情况下执行这种转化的方法。对于任意模型，我们提供了使用可解释表示的能力，这些表示与模型内部使用的表示等效。我们展示了这如何提供对模型和数据的更好理解，正如模型所看到的那样。我们的方法的可逆性使得语义修改成为可能，我们展示了如何利用它来获得最先进的基于自动编码器的生成模型。0这项工作部分得到了德国联邦经济部的支持，该部分属于“KIAbsicherung”项目，德国研究基金会(DFG)项目371923335和421703927的支持，以及NVIDIA公司的硬件捐赠.[18] J¨orn-Henrik Jacobsen, Jens Behrmann, Richard Zemel, andMatthias Bethge.Excessive invariance causes adversarialvulnerability, 2018. 292310参考文献0[1] Sebastian Bach, Alexander Binder, Gr´egoire Montavon,Frederick Klauschen, Klaus-Robert M¨uller和WojciechSamek. 通过逐层相关传播解释非线性分类器决策的像素级解释.PloS one , 10(7):e0130140, 2015. 30[2] David Bau, Bolei Zhou, Aditya Khosla, AudeOliva和Antonio Torralba. 网络解剖学:量化深度视觉表示的可解释性.2017年IEEE计算机视觉和模式识别会议(CVPR), 2017. 30[3] Li

下载后可阅读完整内容，剩余1页未读，立即下载