基于梯度的视觉注意力方法解释变分自动编码器的特征

48 浏览量更新于2023-10-23 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8642变分自动编码器刘文倩1岁，李润泽2岁，郑梦3岁，斯里克里希纳·卡拉纳姆4岁，吴紫燕4岁，比尔·巴努2岁，理查德·J·Radke 3和Octavia Camps 11马萨诸塞州波士顿东北大学2加利福尼亚大学河滨分校3纽约州特洛伊伦斯勒理工学院4马萨诸塞州剑桥联合成像智能公司liu. husky.neu.edu，rli047@ucr.edu，zhengm3@rpi.edu，{first.last}@ united-imaging.com，bhanu@cris.ucr.edu， camps@ece.neu.edurjradke@ecse.rpi.edu摘要卷积神经网络（CNN）模型可解释性的最新进展导致了可视化和理解模型预测的令人印象深刻的进展特别是，基于梯度的视觉注意力方法已经推动了最近使用视觉注意力地图作为视觉解释手段的努力然而，一个关键问题是这些方法是为分类和归类任务而设计的，它们的扩展可以解释生成模型，例如，变分自动编码器（VAE）并非微不足道。在这项工作中，我们迈出了一步，弥合这一关键的差距，提出了第一种技术，以视觉上解释VAE的梯度为基础的注意。我们提出的方法来产生视觉注意力从学习的潜在空间，并证明这种注意力的解释不仅仅是解释VAE预测。我们展示了如何使用这些注意力地图来定位图像中的异常，展示了MVTec- AD数据集上最先进的性能。我们还展示了如何将它们注入模型训练，帮助引导VAE学习改进的潜在空间解纠缠，在Dsprites数据集上演示。1. 介绍在深度学习[22，13，15]的推动下，计算机视觉取得了巨大进展，导致相关算法在现实任务中得到广泛采用，包括医疗保健，机器人和自动驾驶[17，50，23]等。许多此类安全关键和消费者关注领域的应用程序需要清楚地了解算法预测背后的推理，当然还有鲁棒性和性能保证。因此，最近有大量的兴趣，在设计的方式来理解和解释的基础-刘文谦和李润泽对这项工作同样做出了贡献样品A样品B样品C说明z1z2z3图1.我们建议直观地解释变分自动编码器。潜在向量中的每个元素（这里是z1 − z3）都可以用我们的注意力地图单独解释，从而可视化不同样本之间的一致性。为什么驱动输出什么。在Zeiler和Fergus [40]的工作之后，最近的许多努力都花费在开发卷积神经网络（CNN）中可视化特征激活的方法上。其中一项越来越多的工作涉及网络注意力[47，33]，通常通过注意力地图来可视化，这些注意力地图突出了（由训练模型）认为对满足训练标准很重要的特征区域。给定训练的CNN模型，这些技术能够生成注意力地图，该注意力地图可视化特定对象，一只猫，在图像中，帮助解释为什么该图像被归类为属于猫类别。一些扩展[24，36]提供了使用生成的注意力地图作为模型训练期间强制执行的可训练约束的一部分的方法，显示了改进的模型泛化能力以及视觉解释能力。而Zheng et al. [45]使用分类模块来展示如何生成一对这样的注意力图来解释为什么两个人的图像相似/不相似，8643通过设计，所有这些技术都需要执行分类以指导模型的可解释性，从而将它们的使用限制于对象分类问题。从这种分类模型的可解释性开始，人们自然想要解释更广泛的神经网络模型和架构。例如，在Kingma和Welling [21]以及Goodfellow等人的工作之后，生成模型的使用出现了爆炸式增长。[12]，以及随后在各种任务中的成功应用[16，26，37，39]。虽然算法生成建模已经迅速[38，18，30]，解释这种生成算法仍然是一个相对未开发的研究领域。当然，在生成模型中使用视觉注意力的概念[35，2，41]方面有一些正在进行的努力，但这些方法的重点是使用注意力作为特定任务的辅助信息源，而不是视觉上解释生成模型本身。在这项工作中，我们朝着弥合这一关键差距迈出了一步请注意，虽然我们在工作中使用VAE作为生成模型的实例化，但我们讨论的一些想法并不限于VAE，当然也可以扩展到GAN [12]。我们的直觉是，经过训练的VAE的潜在空间可以解释VAE的关键属性，并且生成以潜在空间为条件的解释将有助于解释任何下游模型预测的推理。给定一个训练的VAE，我们提出了新的方法来生成视觉atten- tion地图的潜在空间，通过基于梯度的注意。具体来说，给定学习的高斯分布，我们使用重新参数化技巧[21]对潜在代码进行采样。然后，我们将潜在代码的每个维度中的激活反向传播到模型中的卷积特征虽然这些视觉注意力地图可以作为解释VAE的手段，但我们可以做的远不止这些。VAE的经典应用是异常定位，其中直觉是不是来自用于训练VAE的标准高斯分布的任何输入数据在推断的潜在空间中应该是异常的。有了这个推论，我们现在可以生成注意力地图，帮助直观地解释为什么这个特定的输入是异常的。然后，我们也更进一步，提出了使用这些解释作为线索的方法，以精确地定位图像中异常的位置。我们对最近提出的MVTec异常检测数据集进行了广泛的实验，并在没有任何花哨的情况下使用标准VAE呈现了最先进的异常局部化结果潜在空间解缠结是VAE研究的另一个重要领域，最近取得了很大进展[14，19，46]。我们的视觉注意力解释是以习得的潜在空间为条件的，我们的直觉认为我们-将这些注意力图作为可训练约束的一部分将导致改进的潜在空间解开。为此，我们提出了一个新的学习目标，我们称之为注意力解纠缠损失，并展示了如何训练现有的VAE模型与这种新的损失。我们通过在Dsprites数据集上的实验证明了它在学习解纠缠嵌入方面的影响[29]。总而言之，我们的主要贡献是：• 我们采取了一个步骤，解决相对未探索的问题，视觉解释生成模型，提出新的方法来产生视觉atten，以可变自动编码器的潜在空间为条件的映射。此外，我们展示了如何我们的视觉注意力地图可以多用途。• 我们提出了新的方法来定位图像中的异常，通过使用我们的注意力地图作为线索，展示了最先进的本地化性能，MVTec-AD数据集[3]。• 我们提出了一个新的学习目标，称为注意力解纠缠损失，展示了如何将其纳入标准VAE模型，并证明了它的改进。在Dsprites数据集上证明了解纠缠性能[29]。2. 相关工作CNN视觉解释。最近的许多努力已经花费在解释CNN上，因为它们已经到来在大多数视觉任务中占主导地位。一些广泛采用的试图可视化中间CNN特征层的方法包括 Zeiler 和 Fergus [40] 以及Mahendran 和Vedaldi [27]的工作，其中提出了理解卷积网络层内活动的这一领域的一些最近的扩展基于梯度的方法，如GradCAM [34]计算并可视化从决策单元反向传播到特征卷积层的梯度。另一方面，基于响应的方法[42，47，11]通常向原始CNN架构中添加广告可训练单元以计算注意力地图。在这两种情况下，目标都是定位对模型预测贡献最大的关注和信息量最大的图像区域。然而，这些方法及其扩展[11，24，36]虽然能够解释分类/归类模型，但不能简单地扩展到解释深层生成模型，如VAE。在这项工作中，我们提出的方法，使用基于梯度的网络注意力的哲学，计算和可视化的注意力地图直接从学习的潜在嵌入的VAE。此外，我们使结果8644注意力图端到端可训练，并显示了这种变化如何导致改进的潜在空间解纠缠。异常检测。用于异常检测的无监督学习[1]仍然具有挑战性。异常检测中的最新工作是基于基于分类[31，5]或基于重建的方法。基于分类的方法旨在逐步学习代表性的一类决策边界，如围绕正常类输入分布的超平面[5]或超球体[31]，以区分离群值/异常。然而，它也表明[4]，这些方法有困难处理高维数据。另一方面，基于重建的模型假设异常的输入数据不能被仅用正常输入数据训练的模型很好地重建该原理已被基于传统PCA [20]，稀疏表示[44]和最近的深度自动编码器[49，48]的几种方法所使用。在这项工作中，我们采取了不同的方法来解决这个问题。我们使用我们提出的VAE视觉解释生成方法生成的注意力地图作为线索来定位异常。我们的直觉是，异常数据的表示应该反映在潜在的嵌入中，作为异常，并且从这样的嵌入生成输入视觉解释为我们提供了定位特定异常所需的信息VAE解缠结。人们在理解生成模型的潜在空间解纠缠方面做了大量的工作。Schmidhuber等人的早期工作[32]提出了一个原则，通过最小化一个潜在维度的可预测性来德雅尔丹等al [10]推广了一种基于限制玻尔兹曼机的方法来影响潜变量。Chen等人al扩展GAN [12]框架来设计InfoGAN [8]，以最大化潜在变量子集和观察之间的互信息。一些最近的无监督解缠方法包括β-VAE [14]，其试图探索观察数据中变化的独立潜在因素。虽然β-VAE仍然是一种流行的无监督框架，但它牺牲了重建质量以获得更好的解纠缠。Chen等人等人[7]通过引入基于总相关性的目标将β-VAE扩展为β-TCVAE，而Mathieu等人[28]探索了将潜在表征分解为两个因子以进行解纠缠，Kim等人[29]将潜在表征分解为两个因子以进行解纠缠。[19]提出了FactorVAE，它鼓励表示的分布在各个维度上是阶乘和独立的。虽然这些方法专注于分解每个个体潜在神经元提供的潜在表示，但我们采取了不同的方法。我们通过基于我们提出的视觉解释制定解纠缠约束来加强学习解纠缠空间。视觉注意力地图。为此我们提出了一个新的注意力分离学习目标，我们定量地表明，与现有的工作相比，它提供了更好的性能。3. 方法在本节中，我们将介绍通过基于梯度的注意力生成VAE解释的方法。我们首先在第3.1节中简要回顾VAE，然后介绍我们提出的产生VAE注意力的方法我们讨论了我们的框架，用于使用这些注意力地图定位图像中的异常，并在MVTec-AD异常检测数据集[3]上进行了广泛的实验，建立了最先进的异常定位性能。接下来，我们将展示我们生成的注意力可视化如何通过优化我们新的注意力分散损失来帮助学习一个分散的潜在空间。在这里，我们对Dsprites[29]数据集和定量地证明了与现有方法相比改进的解缠性能。3.1. 一类变分自动编码器一个vanilla VAE本质上是一个自动编码器，它是用输入和解码/重建数据之间的标准自动编码器重建目标以及试图学习标准正态潜在空间分布的变分目标项变分目标通常用在潜在空间分布和标准高斯分布之间计算的Kullback-Leibler分布度量来实现。给定输入数据x，条件分布q（z|x）编码器的标准高斯分布p（z）和重建数据x∈ N，vanilla VAE优化：L=Lr（x，x≠0）+LK L（q（z|其中LKL是Kullback-Leibler发散项，并且Lr是重建项，其通常是平均值-x和x之间的平方误差是3.2. 引起VAE注意我们提出了一种新的技术，通过基于梯度的注意力计算来产生VAE视觉注意力。我们提出的方法与现有的工作[34，47，45]有很大的不同，现有的工作通过从分类模型反向传播分数来计算注意力地图另一方面，我们不受这些要求的限制，并直接使用学习的潜在空间开发注意力机制，从而不需要额外的分类模块。如图2所示和下面讨论的，我们从潜在空间计算分数，然后将其用于计算梯度并获得注意力图。具体地，给定后验分布q（z|x）由数据样本x的经训练的VAE推断，我们使用8645AAkKDW我µz1 αAσzD平均向量，给出分数s，我们反向传播该分数以计算异常注意力M（如等式2所示）。一个MD-D替代方法可以采用正态差分离散.给定用于训练VAE的所有正常图像，我们可以推断出代表分布的总μx和σx输入编码器重新参数关注一代逐元素关注所有正态图像x∈X的嵌入。现在我想，对于每个潜在变量z，假设μy和σy，我我图2.使用VAE的元素智能注意力生成对于异常样本y，我们可以将正态差分布定义为：重新参数化技巧以获得潜在向量z。为每个xy2X2y 2e−[u−（µi−µi）]/[2（（σi）+（σi））]元素zi，我们将梯度反向传播到最后一个卷积，Pq（zi|x）−q（zi|y）（u）=X2y2函数特征图A∈Rn×h×w，给出注意力图Mi对应于zi。具体地，Mi计算为：2π（（σi）+（σi））（四）线性组合：2016 - 05 -2501：01：00Σnk=1αkAk）（2）对于每个潜在变量zi，给定从Pq （zi ）采样的潜在码z ， |X）−q（zi|Y），可以按照上面描述的过程来计算异常注意图M。这在图3中进行了直观总结其中标量αk= GAP（Δ zi），并且Ak是第k个特征通道（k= 1，. . .，n）的特征图A.注：是一个矩阵，因此我们使用全局平均池（GAP）操作以获得标量αk。具体而言，这是：3.3.1结果在本节中，我们评估我们提出的方法来生成视觉解释，以及执行异常定位与VAE。αk= 1小时不（3）第一个字母：P2Apq* ：我们采用常用的受试者工作特征曲线下面积（ROC AUC）进行所有量化绩效评价我们定义真正的位置-p=1q =1k其中T=h×w，Apq是h×w矩阵Ak的位置（p，q）处的像素值。我们现在对所有元素z1，z2，. . .，zD的D维潜在空间，给出M1，. . .，MD（参见图2）。图1中显示了每个Mi表示的内容的示例，其中我们看到consis-在多个数据样本中为每个潜在维度构建高响应区域虽然上述过程为每个潜在维度给出了一个注意力图，但是可以使用任何矩阵聚合方案来获得单个整体注意力图例如，这意味着，在这种情况下，M=1DMi.3.3. 生成异常注意力解释我们现在讨论如何使用我们的基于梯度的注意力用这样一个单类VAE进行推断，其数据是训练的，即，正态数据（例如，数字“1”）应该理想地导致表示标准正态分布的学习潜在空间。因此，给定来自不同类别的测试样本（异常数据，例如数字这种直觉可以通过许多方式来捕捉。一种直接的方法（我们接下来将使用它来显示结果）是采用推断的平均向量并生成结果注意力图。具体地说，我们计算所有元素的总和，阳性率（TPR）是整个测试类中被正确分类为异常的像素的百分比，而假阳性率（FPR）是被错误分类为异常的像素的百分比此外，我们还通过基于我们的ROC曲线搜索最佳阈值来请注意，我们首先对MNIST和 UCSD 数据集进行定性（视觉）评估，然后对MVTec-AD数据集进行更全面的定量评估。MNIST。我们首先在MNIST数据集上定性评估我们的视觉注意力图[9]。使用来自一个数字类的训练图像，我们训练了我们的一类VAE模型，该模型将用于测试所有数字的真实性。测试图像。我们将所有的训练和测试图像重塑为28×28像素的分辨率在图4（顶部）中，我们展示了训练模型的结果在数字“1”（普通类）和测试所有其他数字- 它的（每一个都成为一个异常类）。对于每个测试图像，我们使用我们训练的编码器推断潜在向量并生成注意力图。从结果可以看出，用所提出的方法计算出的注意力地图在直观上是令人满意的。例如，让我们考虑用数字“7”生成的注意力地图作为测试图像。我们的直觉告诉我们，“1”和“7”之间的一个关键区别是“7”中的顶部水平条，我们生成的注意力地图确实突出了这个区域。同样，M1ReLU8646输入µyσyzµx正常数据嵌入σx重新参数化元素式注意力生成异常聚集注意力图3.注意力生成与一类VAE。图4.异常定位结果来自MNIST数据集。图5.来自UCSD Ped1数据集的定性结果L-R：原始测试图像、地面真实掩模、我们的异常注意力局部化图以及输入与VAE重建之间的差异这些样本中的异常是移动的汽车，自行车和轮椅。数字从为“2”生成的注意力图像为我们还显示了其他dig- its的测试结果（例如，“4”，“9”）以及在数字“3”上训练并在同一图中的其他数字上测试的模型。我们注意到，从这些结果中也可以得到类似的观察结果，这表明我们提出的注意力生成机制确实能够突出异常区域，从而捕获潜在潜在空间中导致特定数据样本异常的特征UCSD Ped1数据集：接下来，我们在UCSD Ped 1[25]行人视频数据集上测试了我们提出的方法，其中视频是用固定摄像机捕获的，以监视行人通道。该数据集包括34个训练序列和36个测试序列，约5500个“正常”帧和3400个“异常”帧。我们将数据大小调整为100×100像素，用于训练和测试。我们首先定性地评估我们提出的注意力生成方法在定位异常方面的性能。正如我们从图5中可以看到的（其中相应的感兴趣的异常被注释在左侧，例如，自行车、汽车等），我们的具有注意力图的异常定位技术比简单地计算输入与其重建之间的差（该结果在图中被注释为Vanilla-VAE）执行得好得多。我们注意到，在我们生成的注意力地图中，高反应区域的定位更加精确，这些高反应区域确实对应于这些图像中的异常。接下来，我们使用像素级分割AUROC评分对输入数据和反射之间差异的基线方法我们测试我们提出的注意力生成机制通过反向传播到每个编码器的卷积层：50 × 50，25 ×25和12 × 12，结果如表1所示，我们看到我们提出的机制提供了更好的性能。比基线技术。MVTec-AD数据集：我们考虑最近发布的综合异常检测数据集：MVTec异常检测（MVTec AD）[3]，提供多对象、多缺陷自然图像和像素级基础M8647香草-VAE我们的（Conv1）我们的（Conv2）我们的（Conv3）AUROC0.860.890.920.91表1. UCSD Ped 1使用像素级分割的结果a-AUROC评分。我们比较了使用我们的异常注意力与不同的目标网络层使用香草-VAE重建的异常定位所真相该数据集包含5354个不同物体/纹理的高分辨率彩色图像，测试集中提供了正常和缺陷（异常）图像。我们将所有图像的大小调整为256×256像素，以进行训练和测试。我们进行广泛的定性和定量实验-并在下面总结结果。我们使用ResNet18 [13]作为我们的特征编码器和32维潜在空间来训练VAE。我们进一步使用随机镜像和随机旋转，如在原始工作[3]中所做的那样，以生成增强的训练集。给定一个测试图像，我们推断其潜在表示z以生成异常注意图。鉴于我们的异常注意力地图，我们使用像素响应值上的各种阈值生成二进制异常定位地图，这些阈值封装在ROC曲线中。然后，我们计算并报告ROC曲线下面积（ROC AUC），并根据ROC曲线的FPR和TPR为我们的方法生成最佳IOU数。结果如表 2 所示，其中我们将我们的性能与Bergmann等人的基准论文中评估的技术进行了比较。[3]（请注意，此处的基线与[3]中的方法相同）。从结果中，我们注意到，我们的异常定位方法使用建议的VAE注意，我们获得了更好的结果，对大多数的对象类别比竞争的方法。值得注意的是，其中一些方法是专门为异常定位任务设计的，而我们训练了一个标准的VAE并生成了用于定位的VAE注意力图。尽管这种简单性，我们的方法实现了竞争力的表现，证明了这种注意力生成技术的潜力是有用的任务，而不仅仅是模型解释。我们还在图6中显示了一些定性结果。我们展示了六个类别的结果-三种纹理和三种对象。对于每个类别，我们还显示了数据集提供的四种我们从上一行到下一行显示原始图像、地面真实分割掩码和异常注意力图。可以注意到，我们的注意力地图能够准确地定位这些不同缺陷类别的异常区域。3.4. 注意力解脱在前一节中，我们讨论了如何通过基于梯度的注意力以及VAE的异常注意力图来生成视觉解释。我们还讨论和实验评估使用这些表2. MVTec-AD数据集15个类别像素级分割的定量结果对于每个类别，我们在顶行报告ROC AUC曲线下面积，在底行报告最佳IOU。我们采用[3]中的比较分数。异常注意图，用于在各种数据集上进行异常定位。接下来我们讨论我们提出的VAE注意力的另一个应用：VAE潜在空间解纠缠。用于学习深度生成模型的解纠缠表示的现有方法集中于公式化分解的独立潜在分布，以便学习可解释的数据表示。一些示例包括β-VAE [14]，InfoVAE [43]和FactorVAE [19]等，所有这些都试图用阶乘概率分布对潜在先验进行建模。在这项工作中，我们提出了一种替代技术，基于我们提出的VAE atten- tion，称为注意力解纠缠损失。我们展示了它如何与现有的基线相结合，Fac- torVAE，并证明所产生的影响，通过定性的注意力地图和定量的性能表征与标准的解纠缠指标。AE AE AnoCNN类别（SSIM）（L2）GAN功能字典我们纹理地毯0.870.590.540.720.780.690.380.340.200.1网格0.940.900.580.590.730.880.830.040.020.02皮革0.780.750.640.870.950.710.670.340.740.24瓷砖0.590.510.500.930.800.040.230.080.140.23木材0.730.730.620.910.770.360.290.140.470.14对象瓶0.930.860.860.780.870.150.220.050.070.27电缆0.820.860.780.790.900.010.050.010.130.18胶囊0.940.880.840.840.740.090.110.040.000.11榛子0.970.950.870.720.980.000.410.020.000.44金属螺母 0.890.860.760.820.940.010.260.000.130.49丹0.910.850.870.680.830.070.250.170.000.18螺钉0.960.960.800.870.970.030.340.010.000.17牙刷0.92 0.93 0.90 0.770.940.080.51 0.070.14晶体管0.900.860.800.660.930.010.220.080.030.30拉链0.880.770.780.760.780.100.130.010.000.068648IJIJ因此，我们的直觉是，使用这些注意力地图来进一步引导VAE模型的训练过程应该有助于促进潜在空间的解纠缠。为此，我们的总体思路是使用这些注意力地图作为可训练的约束，以明确地强制从潜在空间中的各个维度计算出的注意力尽可能地分解或分离。我们的假设是，如果我们能够实现这一点，我们将能够学习一个改进的解开潜在空间。为了实现这一目标，我们提出了一个新的损失称为注意力解纠缠损失（LAD），可以很容易地与现有的VAE型模型（见图7）。请注意，虽然我们在这项工作中使用FactorVAE[19]进行演示，但所提出的注意力解脱损失绝不限于此模型，也可以与其他模型结合使用（例如， β-VAE[14]）。建议的LAD需要两个-将张力图A1和A2（每个都是根据等式2从潜在空间中的特定维度计算的）作为输入，并试图尽可能多地分离其中的高响应像素区域。这可以在数学上表示为：白蛋白（A1，A2）LAD = 2·Σijij ijA1+A2（五）ij ij ij ij图6. MVTec-AD的定性结果。在这里，我们提供的结果来自：木材，瓷砖，皮革，榛子，药丸和金属坚果。对于每个类别，我们展示了四种不同类型的缺陷。从图中可以看出，我们的异常注意力地图能够准确定位异常。VAE损失M1其中·是标量积运算，A1和A2分别是注意力图A1和A2中的第（i，j）个像素。所提出的LAD可以直接与标准FactorVAE训练目标LFV集成，从而为我们提供可以表示为：L=LFV+λLAD（6）我们现在用我们提出的公式6的总体学习目标训练FactorVAE，并通过与仅用LFV训练的基线FactorVAE进行比较来评估 LAD 的影响。为此，我们使用FactorVAE [19]中讨论的相同M2逐元素注意力解脱3.4.2结果注意力生成损失图7.训练一个变分自动编码器与所提出的张力解纠缠损失。3.4.1注意力分离（AttentionDisentanglement）正如我们之前所展示的，我们提出的VAE注意力，通过基于梯度的注意力，生成注意力地图，可以解释由训练的VAE表示的潜在空间。我们展示了注意力图如何直观地表示正常和异常图像的不同区域，直接对应于潜在空间的差异（因为我们从潜在代码中产生注意力反数据：我们使用Dsprites数据集[29]，它提供了737，280个二进制64×642D形状图像。定量结果：在图8中，我们比较我们提出的方法（称为AD-FactorVAE）与其他竞争方法的最佳解缠性能（相对于重构误差绘制）：基线因子VAE [19]（仅使用L FV进行训练）和β-VAE[14]。我们注意到，在相同的实验设置下，使用我们提出的LAD进行训练会导致更高的解缠结分数，给出约0.90的最佳解缠结分数，而基线FactorVAE（γ= 40）给出约0.82，两者的重建误差都约为40。我们也z解码器z1输入编码器重新参数化z28649图8.重建误差与解纠缠度量的关系图[19]。每个点的数字表示β和γ值。我们想要低的重建误差和高的解纠缠度量。注意，与β-VAE相比，我们提出的方法获得了更高的解缠结分数（0.73，β= 4为最佳结果）。这些结果表明，我们提出的VAE注意力和LAD在提高现有方法的性能在解纠缠文献中的潜力。这些改进也反映在我们接下来讨论的定性结果中。定性结果：图9显示了使用基线FactorVAE和我们提出的AD-FactorVAE生成的一些注意力图。第一行显示5个输入图像，接下来的4行显示使用基线FactorVAE和我们提出的方法的结果。行2示出了通过从具有最高响应的潜在维度反向传播而使用FactorVAE生成的注意力图，而行3示出了通过从具有次高响应的潜在维度图4和图5示出了与所提出的AD-FactorVAE相对应的注意力图。我们对AD-FactorVAE的直觉和期望是，每个维度从图9中，确实是这种情况，图像中不同区域中的高响应区域（第 4 行和第 5 行），而我们看到基线FactorVAE中的注意力重叠（第2行和第3行）。4. 总结和未来工作我们提出了新的技术来直观地解释变量自动编码器，通过基于梯度的网络注意力向解释深度生成模型迈出了第一步。我们展示了如何使用学习的潜在表示来计算梯度并生成VAE注意力图，而不依赖于分类类型的模型。我们证明了结果的适用性图9. Dsprites数据集上的注意力分离。顶行：原始形状图像。中间两排：FactorVAE的注意力地图。下面两行：注意力地图从AD- FactorVAE。VAE关注两个任务：异常定位和潜在空间解纠缠。在异常定位中，我们使用了异常输入将导致不符合梯度反向传播和注意力生成中的标准高斯的潜在变量的事实这些异常注意图然后被用作线索以生成像素级二进制异常掩模。在潜在空间解纠缠中，我们展示了如何使用来自每个潜在维度的VAE注意力来执行新的注意力解纠缠学习约束，从而提高注意力分离性和解纠缠性能。由于VAE可以推断出完整的后验分布，因此使用我们的方法，可以获得具有重复采样的注意矩阵（图）的分布。虽然可视化该分布的一种方法是使用所得样本均值，但为全矩阵分布生成更通用的视觉解释是未来研究的一个有趣主题。确认本材料基于部分由NSF资助1911197、IISCMMI-1638234，以及美国专利国土安全部，科学和技术局，大学项目办公室，根据赠款奖2013-ST-061-ED0001。本文件中包含的观点和结论是作者的观点和结论，不应被解释为必然代表美国官方政策，无论是明示还是暗示。国土安全部8650引用[1] Samet Akcay ， Amir Atapour-Abarghouei ， and Toby PBreckon. Ganomaly：通过对抗训练进行半监督异常检测。在ACCV，2018年。[2] Youssef Alami Mejjati 、 Christian Richardt 、 JamesTompkin、Darren Cosker和Kwang In Kim。无监督注意力引导的图像到图像翻译。在NeurIPS中。2018年。[3] Paul Bergmann，Michael Fauser，David Sattlegger，andCarsten Steger. Mvtec在CVPR，2019年。[4] Raghavendra Chalapathy和Sanjay Chawla。用于异常检测的深度学习：一个调查。 arXiv 预印本 arXiv ：1901.03407，2019。[5] 拉哈文德拉·查拉帕蒂，阿迪蒂亚·克里希纳·梅农，和圣杰·舒拉。使用单类神经网络的异常检测。arXiv预印本arXiv：1802.06360，2018。[6] AdityaChattopadhay ， AnirbanSarkar ， PrantikHowlader ， and Vineeth N. Balasubramanian Grad-cam++：深度卷积网络的一般化基于梯度的视觉解释。在WACV，2018。[7] Tian Qi Chen，Xuechen Li，Roger B Grosse，and DavidK Duvenaud.分离变量自动编码器中的解纠缠源。在NeurIPS中。2018年。[8] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。在NIPS。2016年。[9] 李登。用于机器学习研究的手写数字图像数据库IEEESignal Processing Magazine，29（6）：141[10] 作者：Guillaume Desjardins库维尔，和尤尔·本·吉奥。通过生成纠缠来解开变异因素。 ArXiv ，abs/1210.5474，2012年。[11] HiroshiFukui，TsubasaHirakawa，TakayoshiYamashita，and Hironobu Fujiyoshi.注意分支网络：视觉解释的注意机制学习。在CVPR，2019年。[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[14] 伊琳娜·希金斯、洛伊克·马特伊、阿尔卡·马特伊、克里斯托弗·伯吉斯、泽维尔·格洛特、马修·M·博特维尼克、沙克尔·穆罕默德和亚历山大·勒希纳。beta-vae：使用受约束的变分框架学习基本视觉概念。在ICLR，2017。[15] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在CVPR，2017年。[16] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR，2017年。[17] 金大凯，郭大洲，何宗英，亚当·P。Harri-son，JingXiao，Chen-Kan Tseng，and Le Lu. PET/CT中食管大体肿瘤体积的精确分割8651双流链式3D深度网络融合。在MICCAI，2019年。[18] 金子拓广牛久义孝原田达也标签噪声鲁棒生成对抗网络。在CVPR，2019年。[19] Hyunjik Kim和Andriy Mnih。通过因子分解法解开。在ICML，2018。[20] Jaechul Kim和Kristen Grauman。局部观察，全局推断：用于检测具有增量更新的异常活动的时空MRF。CVPR，2009。[21] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。CoRR，abs/1312.6114，2013。[22] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS，2012年。[23] 李步宇，欧阳万里，卢胜，曾星宇，王晓刚.Gs3d：一个用于自动驾驶的高效三维物体检测框架。在CVPR，2019年。[24] Kunpeng Li ， Ziyan Wu ， Kuan-Chuan Peng ， JanErnst ， and Yun Fu. 引导注意推理网络。 IEEE T-PAMI，2019年。[25] Weixin Li，Vijay Mahadevan，and Nuno Vasconcelos.拥挤场景中的异常检测与定位 IEEE T-PAMI ， 36（1）：18[26] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。在NIPS。2017年。[27] Aravindh Mahendran和Andrea Vedaldi。通过反转它们来理解深度图像表示。CVPR，2015。[28] EmileMathieu，TomRainforth，SiddharthNarayanaswamy，and Yee Whye Teh.解开解开ArXiv，abs/1812.02833，2018。[29] Loic Matthey ， Irina Higgins ， Demis Hassabis ， andAlexander Lerchner.dsprites ：解纠缠测试 sprites 数据集。 https ： //github.com/deepmind/dsprites-dataset/ ，2017.[30] Nazanin Mehrasa ， Akash Abdu Jyothi ， ThibautDurand，Ji-awei He，Leonid Sigal，and Greg Mori.随机点过程的变分自动编码模型。在CVPR，2019年。[31] Lukas Ruff ， Robert Vandermeulen ， Nico Goernitz ，Lucas Deecke ， Shoaib Ahmed Siddiqui ， AlexanderBinder ， Em-manuelMüller ， andMariusKloft. 深度一级分类。在ICML，2018。[32] JürgenSchmidhube r.用可预测性最小化学习因子码神经元计算，4（6）：863-879，Nov. 一九九二年。[33] 兰普拉萨河 Selvaraju ， Michael Cogswell ， AbhishekDas，Ramakrishna Vedantam，Devi Parikh，and DhruvBatra. Grad-cam：通过基于梯度的定位从深度网络进行视觉解释。InICCV，2017.[34] 兰普拉萨河 Selvaraju ， Michael Cogswell ， AbhishekDas，Ramakrishna Vedantam，Devi Parikh，and DhruvBatra. Grad-cam：通过基于梯度的定位从深度网络进行视觉解释。InICCV，2017.[35] YichuanTang ， NitishSrivastava ， andRuslanSalakhutdinov.用视觉注意力学习生成模型。在NIPS，2013年。8652[36] Lezi Wang ， Ziyan Wu ， Srikrishna Karanam ， Kuan-Chuan Peng，Rajat Vikram Singh，Bo Liu，and DimitrisN.Metaxas集中注意力：学习时注意力的分离性和一致

下载后可阅读完整内容，剩余1页未读，立即下载