可解释性图像分类器：可变形ProtoPNet

143 浏览量更新于2023-10-26 收藏 926KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10265Deformable ProtoPNet：一个基于可变形原型的可解释图像分类器缅因大学University ofjonathan. maine.edu杜克大学alina. duke.edu缅因大学University ofchaofan. maine.edu摘要我们提出了一个可变形的原型零件网络（可变形的ProtoPNet），这是一个可解释的图像分类器，它集成了深度学习的能力和基于案例推理的可解释性。该模型通过将输入图像与训练过程中学习的原型进行比较来对输入图像进行分类，并以“这看起来像那样”的形式给出解释。然而，虽然以前的方法使用空间刚性的原型，我们提出空间灵活的原型来解决这个缺点每个原型是由几个原型的部分，自适应地改变其相对的空间位置取决于输入图像。因此，可变形ProtoPNet可以明确地捕获姿势变化和上下文，从而提高模型准确性和所提供的解释的丰富性。与其他使用原型的基于案例的可解释模型相比，我们的方法实现了最先进的准确性，并给出了更大的上下文解释。该代码可在https://github.com/jdonnelly36/Deformable-ProtoPNet 上获得。1. 介绍机器学习已被许多领域采用，包括高风险应用，如医疗保健[2，29]，金融[46]和刑事司法[3]。在这些关键领域，可解释性对于确定我们是否可以信任机器学习模型的预测在计算机视觉中，越来越多的研究旨在通过整合深度学习的力量和基于案例推理的可解释性来产生准确但可解释的图像分类器[2，4，28，45]。这些模型从训练图像中学习一组原型，并通过将输入图像的部分与训练期间学习的原型进行这使得能够解释形式然而，基于原型的计算机视觉模型使用spa，原型覆盖在其源图像看起来(a) 使用规则（不可变形）原型看起来(b) 使用变形原型图1. 绘制的彩旗的输入图像如何与（a）规则（不可变形）原型和（b）绘制的彩旗类的可变形原型（覆盖在其源图像上）相一致。半刚性原型，不能明确地解释物体的几何变换或姿态变化。受最近在卷积神经网络中建模几何变换的工作的启发[5，16，17，53]，我们提出了一种可变形原型零件网络（可变形ProtoPNet），这是一种基于案例的可解释神经网络，提供空间灵活的可变形原型。在可变形ProtoPNet中，每个原型由几个原型部分组成，这些原型部分根据输入图像自适应地改变它们的相对空间位置。这使得每个原型能够以更高的空间变换容限来检测对象特征，因为允许原型内的部件移动。图1（b）说明了可变形原型的概念;当输入图像与可变形原型进行比较时，可变形原型中的原型部分自适应地输入图像10266改变它们的相对空间位置以检测输入图像的相似因此，可变形ProtoP-Net可以显式地捕获姿态变化，并提高模型的准确性和提供的解释的丰富性。本文的主要贡献如下：（1）我们开发了第一个基于实例的可解释神经网络原型，它提供了空间灵活的可变形原型。(2)我们通过在训练算法中引入角度边界来提高基于实例的可解释神经网络的准确性。(3)我们表明，可变形ProtoPNet可以在CUB-200-2011鸟类识别数据集[47]和斯坦福狗[18]数据集上实现最先进的准确性。2. 相关工作解释深度神经网络有两种一般方法：（1）事后解释训练好的神经网络;（2）构建内在可解释的神经网络，可以解释自己。事后解释技术（例如，使用可解释的替代物[26，33]，激活最大化[9，30，48]，显着性可视化[1，35，36，38-可变形ProtoPNet使用基于案例的推理和原型来构建一个内在可解释的网络。这个想法在[20]中进行了探索，并在[4]中进一步进行，其中引入了原型零件网络（ProtoPNet）。ProtoPNet使用输入图像和学习到的原型之间的相似性得分，以“this looks like that”的形式为其预测生成解释ProtoPNet模型已被多次扩展[27，28，45]。我们在ProtoPNet和TesNet模型的基础上构建可变形的Pro- toPNet [45]。Tes-Net使用余弦相似性度量来计算潜在空间中图像块和原型之间的相似性，并引入损失项来鼓励类内的原型向量彼此正交并分离不同类的潜在空间。所有先前的基于原型的图像分类器使用空间刚性原型。相比之下，Deformable ProtoPNet是第一个使用空间灵活的可变形原型的网络，其中每个原型由几个原型部分组成，这些原型部分根据输入图像自适应地改变其相对空间位置（图1（b））。通过这种方式，我们的可变形ProtoPNet可以捕获姿势变化，并为其预测提供比使用基于案例推理的复杂图像分类器更丰富的解释变形和几何变换。我们的工作与以前的工作密切相关，建模对象变形和几何变换。某位早期在计算机视觉模型中对变形建模的尝试由可变形部件模型（DPM）[10]提供原始的DPM使用梯度直方图（HOG）特征[6]来表示对象及其部分，并使用潜在支持向量机（SVM）进行训练。封装在DPM中的建模空间变形的想法已经扩展到卷积神经网络（CNN）中。证明了CNN的推理算法等同于具有距离变换池化的CNN [12]，并且距离变换池化被扩展到[31]中的变形层中用于行人检测和DeepID-Net [32]中的变形池化（def-pooling）层用于通用对象检测。最近的发展包括空间Transformer网络[16]，以及具有主动卷积[17]和可变形卷积[5，53]的网络。空间Transformer网络[16]预测全局参数变换（例如，仿射变换）应用于输入图像或卷积特征图，目的是归一化图像中目标对象的当在输入特征图的所有空间位置上扫描滤波器时，主动卷积[17]学习并将相同的变形应用于卷积滤波器。另一方面，可变形卷积[5，53]这意味着变形在空间位置和输入图像上是不同的。我们的可变形ProtoPNet建立在可变形卷积网络[5，53]的基础上，通过使用类似的机制来生成变形原型的偏移。然而，我们的 Deformable ProtoPNet 与Deformable Convolutional Network（以及以前的工作）有两个主要的不同之处：（1 ）我们的DeformableProtoPNet提供了可变形的原型，其各个部分可以被人类可视化和理解;（2）通过将原型和原型部分的图像特征和表示约束为固定长度的向量，我们的Deformable ProtoPNet学习了一个具有几何解释的嵌入空间，其中图像特征聚集在超球面上的相似原型周围。使用边缘的深度度量学习。我们的工作还涉及到以前的工作，使用余弦[44]或角余量[8，23，24，43]执行深度度量学习。这些技术使用单位向量来表示神经网络的完全连接的最后一层中的类然后可以引入保证金为了在训练期间增加训练示例的潜在表示与其目标类的向量之间的角度，在训练期间减小目标类logit10267× ×m，nm，n××联系我们∈ {−}∈{−}×√∥ ∥m，nm，nm，n2m，n× ××m，ng（z）（c，l）（c、l）m，n甲乙丙m，nn迫使网络“更努力地尝试”以进一步减小角度，以便降低交叉熵损失。在有余量的训练使用p∈（c，l）表示类的第l个可变形原型c，再次表示为形状为ρ1×ρ2×d其中ρ=ρρ空间位置，我们使用p（c，l）去12个月，n来自同一类的训练样本将在围绕该类的向量的角空间中被聚集，并且它们将与来自不同类的训练样本的潜在表示在训练我们的可变形ProtoPNet时，我们在训练过程中为每个训练示例应用角边缘来膨胀不正确类原型的原型激活3. 可变形原型3.1. 可变形原型我们将首先讨论不可变形原型的一般公式，如在先前的工作中定义的（例如，[4]）。设p（c，l）表示类c的第l个原型，rep-表示为形状为ρ1×ρ2×d的张量，其中ρ=ρ1ρ2注意在可变形原型p∈（c，l ）内的第（ m ， n ）原型部分。图1（b）（右）示出了9个空间位置的可变形原型（表示为33D张量），其中每个空间位置被视为可以四处移动的单独的原型部分，并且表示与其他原型部分空间解耦的语义概念。如果符号一致，则我们使用z表示将与可变形原型p∈（c，l）进行比较的图像特征的张量，并且我们使用z∈a，b表示图像特征张量z ∈ a的空间位置（a，b）处的d维向量。在可变形原型网中，我们要求所有可变形原型p（c，l）的所有原型部分p（c，l）（d维向量）具有相同的L2长度：（c，l）空间位置，并且令p（c，l）表示原型十元p（c，l）的空间位置（m，n）处的d维向量，其中mρ1/2，...，ρ1/2和nρ2/2，...， ρ2/2。（3 3原型有ρ1=ρ2=3和m，n1， 0， 1。令z表示通过使输入图像通过某个特征提取器（例如，a CNN），并且令za，b表示图像特征张量z的空间位置（a，b）处的d维向量。在文献[4]中，原型p ρ，（2）因此，当我们将可变形原型p∈（c，l）表示为其组成原型部分p∈（c，l）的一个带边向量时，所有可变形原型具有相同的L2长度，其等于 p（c，l）2=ρ r2=1（即，所有可变形原型都是单位向量）。我们还要求每个图像特征张量z的每个空间位置（a，b）具有相同的L2长度：z（3）利用等式（2）和（3），我们可以重写平方L2z. 我们可以将每个原型解释为代表一个补丁在输入图像中，我们可以将原型与p<$（c，l）与z<$之间的距离a+m，b+n在等式（1）中为：每个ρ1 ×ρ2 图像特征张量的补丁，使用L2-pa+m，b+n2=<$（2r2−2p<$（c，l）·<$z--a+m，b+n）。相似性函数。从数学上讲，对于每个空间位置（a，b）在图像特征张量z中，规则的非当相似度函数sim（κ）=κ/2 1时，（在等式（1）中定义）之间的可变形原型可变形原型计算其与ρ1的相似性以（a，b）为中心的z贴片为：. ΣΣΣ甲乙丙P-Za+m，b+n×ρ2p<$（c，l）的形状为ρ1ρ2d和一个ρ1ρ2曲面，中心为（a，b），则图像特征张量z的g（z）（c，l）=p（c，l）·za+m，b+n（4）Mn在我们让原型变形之前。注意这个方程其中sim是将L2距离（在图像特征的潜在空间中）转化为相似性度量的函数。在ProtoPNet [4]和Prototree [28]中，基于L2的在ProtoPNet [4]中，原型（原型部件）是一个（4）等价于p∈（c，l）与z∈，ut之间的一个协解具有由等式（2）和（3）给出的附加约束。对于所有要变形的可变形原型p∈（c，l），我们引入f集合以使得当原型被应用在图像特征张量z ∈上的空间位置（a，b）处时，每个原型部分p ∈（c，l）能够四处移动。在数学上，等式（4）变为：空间上连续的斑块，无论其数量g（z）（c，l）=p（c，l）·z、（五）2∥2、（1）Mn10268m，n空间位置ρ.例如，图1（a）（右）illustratia 3× 3不可变形的原型，可以使用甲乙丙m，nM na+m+ m1，b+n+ m2在ProtoPNet中。在可变形ProtoPNet中，我们定义了一个（可变形）原型中的原型部件是在原型张量（形状为ρ1×ρ2×d）内的1×1面片（形状为1× 1×d）（见图2）。我们尤其其中，1=1（z，a，b，m，n）和2=2（z，a，b，m，n）是依赖于αz，a，b，m和n的函数（在3.2节中进一步解释）。这些偏移量使我们能够评估原型零件p（c，l）与10269\（转换层δ偏移量字段δ（δ）（1991年，1992年）（（ẑp（16，0,12.4,2.2（（g（）（16，3）5,5原型相似性输入m，nm，nm，nm，n× ××甲乙丙甲乙丙甲乙丙甲乙丙m，n1 2∥∥在变形位置处的图像特征a+m+ m1，b+n+ m2（ a+m+ n +1 ， b+n+n ）而不是规则网格位置（a+m，b+n）。由于B11和B12通常是压裂的，通常，我们使用特征插值来定义分数位置处的图像特征（在3.2节中讨论）。我们进一步要求插值图像特征具有与规则网格位置处的图像特征相同的L2长度rρ= 9原型部件拉克斯a+m+1，b+n+22= r = 1/πρ。（六）注意，等式（5）等价于p∈（c，l）和z∈，ut之间的可变形卷积[5，53]，其中等式（2）和（6）给出了附加值得注意的是，等式（5）中定义的相似性具有简单的几何解释。设θ（v，w）表示两个向量之间的夹角，设图2.如何变形原型是适用于潜在的代表性的输入图像的彩旗。(a)潜（c、l）a，b，m，n=p（c，l）·za+m+，b+n+（七）将输入Δz馈送到偏移预测函数δ中以产生（b）偏移场。这些偏移用于（c）改变空间位置，表示原型部件p（c，l）对原型的相似性得分的贡献注意，等式（7）为：每个原型部件的相似性，其（d）与输入进行比较以（e）根据等式（5）计算原型相似性。exl等于cos（θ（p∈（c，l），πza+m+ m1，b+n+m2）），即p∈（c，l）与p∈z的余弦相似性a+m+ m1，b+n+m2。张量z是它与一组位置的最大相似度由于p∈（c，l）和z∈h具有相同的L2长度m，na+m+ m1，b+n+m2g（z）（c，l）=maxg（z）（c，l）（八）r（等式（2）和（6）），所有原型部分和所有（内插的）图像特征都存在于d维超-甲乙丙甲乙丙半径为r的球这意味着，仅当它们之间的角度在超球面上很小时，插值图像特征向量a+m+n+2才被认为与原型部分pn（c，l）相似（具有较大的余弦相似性）类似的几何解释也适用于整个可变形原型和变形位置处的图像特征。令z表示插值图像特征在我们的实验中，我们训练了可变形ProtoPNets使用33和22可变形原型。一个22可变形原型p∈（c，l）可以实现为一个形状为2× 2×d（ρ1=ρ2=2）的张量，伸缩为2并且ρ=ρ1ρ2= 4个原型部分在（m，n）处 ∈{（−1，−1），（−1，1），（1，−1），（1，1）}.甲乙丙za−ρ1/2<$+< $1，b−ρ2/2<$+<、...、za+ρ1/2+1，b+ρ2/2+23.2. 等距生成与特征插值在ρ个变形的位置，堆叠成列向量。注意z的L2长度z2=1。然后，我们可以将等式（5）写为：g（z）（c，l）=p（c，l）·z=cos（θ（p（c，l），z）），如图2所示，用于可变形原型的偏移是使用偏移预测函数δ来计算的，该偏移预测函数δ将固定长度的输入特征fz映射到具有与fz相同的空间大小的偏移场。在每个空间中心位置，该场包含2个ρ分量，对应于甲乙丙甲乙丙甲乙丙（1，2）每个ρ原型部件的偏移对这是p∈（c，l）和p ∈（c，l）之间的协相似性的一个特例。由δ产生的偏移量（k， k）可以是整数或1 2你好。由于两p∈（c，l），∆甲乙丙都是单位向量分数先前的工作[5，16，17，53]使用双线性插值-可变形原型和在ρ变形位置处的所有内插图像特征的集合存在于半径为1的ρd这意味着，仅当满足以下条件时，插值图像特征的集合z_i_i被认为类似于实体可变形原型p_i（c，l）：它们之间的角度在超球面上很小。利用等式（5）中定义的可变形原型与变形位置处的图像特征的集合之间的相似性，我们现在定义可变形原型p（c，l）与整个图像特征之间的相似性得分zg（z）10270计算这些分数位置的值。相比之下，我们不使用双线性插值，因为它对于可变形ProtoPNet是不可行的，因为等式（5）中指定的相似度函数依赖于图像特征向量z_a+m+ m_l，b+n+ m_2具有L2长度r的假设;没有这个假设，相似度将不再仅取决于原型类型和图像特征之间的角度。双线性插值打破了这一假设，因为当在具有相同L2范数的两个向量之间插值时，双线性插值10271甲乙丙√m，nWG∥∥ΣΣ由CNN产生的向量za，b将变为具有L2范数的z。甲乙丙固定保证金0的情况。. . 0分，Σ不保持插值向量的L2这可以从几何学上进行非正式的解释：双线性插值选择超平面上与四个插值点相交的一个点，这意味着它永远不会下降阶段 1 ：最后一层之前的层的随机梯度下降（SGD）。我们在f和g的特征上执行随机梯度下降，同时保持h固定。通过这样做，我们的目标是学习一个有用的特征空间，其中图像在超球面上找到一个分数位置我们用L2特点zC类的输入被聚集在原，保范插值函数，在- orem 3.1中引入，以解决这个问题。定理3.1的证明可以在附录中找到。Theo R em3.1.设R_n中的向量为R_n，R_n=1，R_n=2，R_n=3，R_n=4 r表示所有i∈1，2，3，4，对于在超球面上，同一类的p∈（c，l）型与其它类的p ∈（c，l）型是分开的为了实现这一点，我们使用[4]中的集群和分离损失，并在[45]中调整角空间。集群和分离损失定义为：一些常数r，并让z2表示逐元素N向量的平方对于某些常数α∈[0， 1]clst=−1g（苯并咪唑（i））（c，l）（9）且 β∈ [0 ， 1] ，双线性插值运算 zinterp= （ 1−α ）（ 1−β ） <$z1+ （ 1−α ） β<$z2+α （ 1−β ）<$z3+αβ<$z4并不保证<$zinterp<$z2=r。但和Np（c，l）：c=y（i）i=11 ΣL2保模插值运算zinterp=（1−α）（1−β）<$z2+（1−α）β<$z2+α（1−β）<$z2+αβ<$z2sep=MaxNi=1p（c，l）：c=y（i）g（αz（i））（c，l）（10）1 2保证了n =zinterpn =2=r。3 4其中N是输入的总数最后，提出了一种可变形的Pro.是图像特征张量，在每个totype要求每个空间位置z甲乙丙和p∈（c，l）输入i的空间位置，y（i）是x（i）的标签，并且所有z∈P∈（c，l）的L2长度为r. 在我们的实现中，我们通过在卷积输出z的每个空间位置（a，b）处由CNN提取的图像特征以及可变形原型的每个原型部分在它们用于计算之前总是将它们归一化和缩放到长度r来保证这一具体来说，我们--其它值如先前所定义我们受到最近基于边际的软最大损失[8，23，24，43，44]的工作的启发，通过修改传统的交叉熵损失来进一步鼓励这种聚类结构具体地说，我们使用了一种新的交叉熵形式：减法边际交叉熵。这被定义为：对于每个空间位置（a，b），设a，b=rza，b/bza，b=2的卷积输出z和p<$（c，l）=rp（c，l）/rp（c，l）<$（c、l）CE（−）=（-日志（（c，l），y（i））c、lH（−）（一）（c、l））、对于可变形原型的每（m，n）个部分怎么-exp（w（（c，l），c′）g（−）（i）（c，l））通常，当n=0，或i=1c′（（c，l），c′）c、lH（十一）za，b2= 0.这是一个问题，因为零填充和ReLU激活函数既可以创建功能向量，对于z，L2范数为0。我们解决这个问题，通过附加-将一个小值的均匀信道φ=10−5设为p（c，l）其中wh表示最后一层连接，原型p∈（c，l）与类c′的相似性，如果c=y（i），则f（i）=f（i）甲乙丙和z在标准化之前。特别是，全0特性g（−）（i）（c，l）=最大值cos（πθ（pπ（c、l），z，（i））−+）else（十二）4. 变形ProtoPNet图3给出了一个可变形ProtoPNet的体系结构的概述。可变形ProtoPNet由CNN主干f组成，它将图像x映射到潜像特征z，这些特征在每个空间位置被归一化为长度r，然后是可变形原型层g，其中包含第3.2节定义的可变形原型，以及完全连接的最后一层h，它将可变形原型产生的相似性得分组合成每个类别的类别得分。4.1. 培训与[4]类似，可变形ProtoPNet的训练分为三个阶段。NNm，nm，nm，n210272⌊⌋甲乙丙甲乙丙=0。1和+表示ReLU功能减法边缘交叉熵通过人为地减小类别c的可变形原型p（c，l）与来自具有y（i）c的第i个训练图像的变形图像特征的集合z（i）之间的角度来鼓励良好分离的特征空间，从而膨胀两者之间的余弦相似性并增加不正确类别c的类别得分。为了减少这种损失的价值，网络必须更加努力地对抗引入的损伤。通过进一步增加可变形原型P（c，l）和不正确类别的图像特征Z（i）之间的角度，从而导致潜在超球面上的类别之间的更强分离。虽然减少的余量鼓励类之间的分离，但它并不鼓励类内原型之间以及类内原型部分之间的多样性。10273Σ⊤ℓ =∥P P−rI∥,(13)ortho∈×−Hλ= CE+ λ|W|，（16）上一页1z（甲乙丙14原型层g最大池0.913p（0，0）正常化图像x卷积层fzẑ相似性得分FC层H输出logits /class评分转换层δ偏移δ最大池0.127p（c，图3. Deformable ProtoPNet的架构。原型特别是，我们已经观察到，没有进一步正则化的变形通常会导致原型中原型部分的重复。受[45]的启发，我们通过在原型部分之间引入正交性损失来阻止这种行为这被公式化为：（c）2（ρL）2FC其中L是类别c中的可变形原型的数量，(a) 在同一个类中，原型被鼓励彼此正交。(b)在每个原型中，原型部件被鼓励彼此正交。ρL是c类所有原型的原型部分的总数，P（c）RρL×d是一个矩阵，c类的每个原型的每个原型部分在矩阵中排列为一行，I（ρL）是ρL ρL单位矩阵。方程中的矩阵乘法P（c）P（c）（13）包含类c中每对原型部分之间的内积;通过鼓励它接近缩放单位矩阵r2I（ρL），我们鼓励原型部分彼此正交，从而增加原型部分所表示的语义概念的多样性。这种损失与[45]不同，因为它鼓励原型和原型零件水平的正交性而[45]中的正交性损失鼓励类内每对原型之间的正交性，等式（13）鼓励类内所有原型部件之间的正交性。由这些术语创建的空间的可视化可以在图4中看到。有了这些损失条款的定义，我们的整体损失期限为-培训的第一阶段是：λ=CE（−）+λ1λsep+λ2λclst+λ3λortho（14）其中λ1=0。01，λ2=0。1，λ3=0。1是根据经验选择的与[4]中一样，每个可变形原型与其类之间的最后一个层连接设置为1;所有其他连接设置为0。5.第二阶段：原型设计。我们将每个可变形原型p（c，l）投影到最相似的集合上，从某个训练图像中插值图像特征z∈（n）图4.可变形PrototPNet学习的潜在空间的表示。在这种投影方案中，我们允许投影到分数位置上，并且我们将每个原型中的所有原型部分投影到相同的训练图像上，这促进了单个原型的部分之间的凝聚力。第三阶段：最后一层的优化在这个阶段，我们固定所有其他模型参数并优化最后一层连接h。设w（（c，l），c′）如前所述定义。在这个阶段，我们使用损失函数：（（c，l），c′）Hc，lc′=c其中λ1=10−3，CE是标准交叉熵损失。等式（16）右侧的第二项抑制了否定推理过程，如[4]所述。4.2. 原型可视化利用原型投影，我们可以将每个可变形原型p（c，l）与训练图像x相关联。在我们描述如何将原型零件映射到图像块之前，我们首先将下采样因子γ定义为原始图像和图像特征张量之间的空间下采样比率。对于空间大小为224 × 224的图像对于14× 14的空间大小的潜在表示，我们甲乙丙X.在数学上，这被公式化为：p（c，l）←a r gmaxcos（θ（p∈（c，l）·z（θ）.（十五）甲乙丙γ=224= 16。为了在输入图像x上产生可变形原型的可视化，我们将图像x通过网络。这使我们能够获得中心位置第41，8页第41，8页-1,-11,-1第41，8页-1,1R第41，2节第41，8页（46，0）110274××甲乙丙m，nm，nm，n××模型VGG16VGG19Res34Res50Res152密集121中国人161基线70.971.376.078.779.278.280.0ProtoPNet [4]70.3*72.6*72.4*81.1*74.3*74.0*75.4*Def. ProtoPNet（3 ×3，nd）67.971.176.785.978.276.579.6Def. ProtoPNet（3 ×3）73.875.476.786.178.876.479.7Def. ProtoPNet（2 ×2，nd）76.076.176.886.479.278.980.8Def. ProtoPNet（2 ×2）75.776.076.886.479.679.081.2表1.具有3 3和2 2可变形原型的可变形ProtoPNet的准确性，与不同基础架构中的基线模型、ProtoPNet和无变形的可变形ProtoPNet（表示为（nd））的准确性* 我们在完整图像上重新训练了ProtoPNets以进行直接比较，并在这里报告了完整图像的准确性数字，因此这些数字与[4]中报告的数字不同（a′，b′），它产生了原型p（c，l）的最佳相似性：（a′，b′）=argmaxg（λz（λ））（c，l）.测试图像原型零件可变形原型甲乙丙然后，我们可以从偏移场δ（λz）的位置（a′，b′）检索每个原型部分pλ（c，l）的（λ 1，λ 2）偏移对。这些值告诉我们，将原型部分 p∈（ c ， l ）与空间位置（a′+m+ m）处的图像特征进行b ′ + n + b ′ 1，b′+ n + b ′ 2）。中查找相应的修补程序原始图像，我们在原始图像中为每个原型部件p（c，l）创建一个以（γ（a′+m+ n 1），γ（b′+n+ n2））为中心的高度和宽度为γ的正方形边界框。由于可变形原型的所有部分必须投影到来自同一图像的（内插的）图像特征上，这允许我们在同一图像上查看原型的所有部分。4.3. 推理过程相似度评分：0.969×类连接：0.749=贡献点数：0.7。26相似度评分：0.9。64×类连接：0.7。48=贡献点数：0.7。21...图5示出了可变形ProtoPNet在对测试图像x进行分类时的推理过程。特别地，对于给定的图像x和每个类c，可变形原型网络试图通过将潜在特征z与类c的每个学习的可变形原型p（c，l）进行比较来找到x属于类c的证据。在图5中，我们的DeformablePro-toPNet试图通过将图像的潜在特征与该类的每个可变形原型（其组成原型部分在“原型部分”列中可视化）进行比较，来找到测试图像是朱红色捕蝇鸟如图所示，可变形原型内的原型部分（其可以被可视化为来自某个训练图像的补丁）可以随着可变形原型在输入图像上被扫描而自适应地改变它们的相对空间位置，以根据等式（5）计算每个中心位置处的原型相似性得分。所有空间位置上的最大分数根据等式（8）获得，产生原型的单个所有原型的得分相加，得出类的最终得分。红嘴霸鹟总点数：7.531图5. 一个可变形ProtoPNet的推理过程2 ×2个可变形原型。5. 实验和数值结果我们在完整的（未裁剪的）CUB-200-2011鸟类物种分类数据集上进行了可变形ProtoP-Net的案例研究[47]。我们训练可变形ProtoP-Nets与6 3 3变形原型每类，和可变形ProtoPNets与10 2 2变形原型每类，除非另有说明。我们使用 VGG [37] ， ResNet [13] 和DenseNet [14]作为CNN骨干进行实验。ResNet-50的主干在iNaturalist上进行了预训练[41]，所有其他主干都使用ImageNet进行了预训练[7]。有关我们的实验装置的更多详细信息，请参阅补充资料。我们发现，变形ProtoPNet可以实现跨多个骨干architec- tures竞争的准确性。如表1所示，我们的可变形ProtoPNet实现了比ProtoPNet更高的准确性[4]，而10275非10276××××××保证金Ortho丢失变形精度0.10没有86.20.10是的86.40.10.1没有86.40.10.1是的86.400是的86.10.10是的86.400.1是的85.20.10.1是的86.4表2.使用2×2原型进行消融研究。在所有情况下都是可解释的基线模型。对于除VGG-16和VGG-19之外的所有主干架构[37]，具有变形和2 2可变形原型的可变形ProtoPNet在具有相同主干的模型中具有最佳性能。我们在Stanford Dogs上进行了额外的实验 [18]，发现我们的Deformable ProtoPNet在该数据集上的多个骨干架构上也表现良好。详情请参阅补充资料我们发现，使用变形，正交性损失，和减法的利润一般提高（或maintains）的准确性。如表1所示，引入变形可以提高（或保持）大多数脊柱结构的精度。我们对基于ResNet-50的可变形ProtoPNet进行了额外的消融研究，包括变形和不变形如表2（顶部）所示，在相同的裕度和正交性损失设置下，引入变形可以提高（或保持）精度。如表2（下图）所示，在正交性损失和变形的相同设置下，引入减法裕度通常会提高如表2（顶部）和表2（底部）所示，在大多数情况下，引入正交性损失保持准确性。我们发现可变形ProtoPNet可以达到最先进的精度。如表3（顶部）所示，单个可变形ProtoPNet可以实现高精度（86. 1%，每类6 3 3原型，86。4%，每类10 2 2个原型）在CUB-200-2011的完整测试图像上[47]，优于单个Prototree [28]（82. 2%）和3[45]第83话，我的世界5%）。此外，使用2 2原型的5个集成可变形ProtoPNet优于所有竞争模型，实现了最先进的准确性（87。8%）。表3（底部）显示，Deformable Pro- toPNet在斯坦福犬上也表现良好[18]，达到了准确性（86. 5%）与最先进的竞争力。6. 结论我们提出了可变形ProtoPNet，一个基于实例的可变形原型解释神经网络的表3.与CUB-200-2011（顶部）和斯坦福犬（底部）上的其他模型相比，可变形ProtoPNet的准确性和可解释性。使用边界框的方法被标记（bb），使用完整的、未裁剪的图像的方法被标记（f）。对于可变形ProtoPNets，我们将每个类的k个原型表示为kpc，将具有2 2个原型的可变形ProtoPNets表示为2 p，将具有3 3个原型的可变形ProtoPNets表示为3 p，将没有变形的可变形ProtoP-Nets表示为nd。* 使用3个整体模型。** 使用5个整体模型。该模型的竞争性能和透明度将使计算机视觉的可解释模型得到更广泛的使用。可变形原型网的一个局限性是偏移量在每个空间位置的所有可变形原型之间共享另一个限制是，我们观察到一些原型部分和图像部分之间的语义不匹配，这些部分被可变形ProtoP-Net认为是我们计划在未来的工作中解决这些限制。谢谢。这项工作得到了GPU集群的部分支持，该集群由NSF MRI # 1919478资助，位于缅因大学的高级计算组。解释性型号：CUB-200-2011没有一B-CNN [22]：85.1（bb），84.1（f）对象级关注CAM [52]：70.5（bb），63.0（f）CSG[21]82.6（bb）、78.5（f）局部注意PA-CNN [19]：82.8（bb）MG-CNN [42]：83.0（bb），81.7（f）MA-CNN [50]：86.5（f）[11]第十一届中国国际汽车工业展览会TASN[51]：87.0（f）部分关注+原型区域[15]：81.5（bb）、80.2（f）ProtoPNet* [4]：84.8（bb），81.1（f）[28]第二十八章：第一次ProtoTree** [28]：87.2（f）TesNet* [45]：86.2（bb），83.5（f）Def. ProtoPNet [nd，3p，6pc]：85.9（f）Def. ProtoPNet [nd，2p，10pc]：86.4（f）局部注意力。+ 原型+变形Def. ProtoPNet [3p，1pc]：81.5（f）Def. ProtoPNet [3p，3pc]：83.7（f）Def. ProtoPNet [3p，6pc]：86.1（f）Def. ProtoPNet [2p，10pc]：86.4（f）Def. ProtoPNet**[2p，10pc]：87.8（f）解释性模型：斯坦福犬零件级FCAN [25]：84.210277引用[1] SebastianBac h ， Ale xanderBinder ， Gre´ goireMontavon，FrederickKlauschen，Klaus-RobertMüller ，andWojciechSamek.基于逐层相关传播的非线性分类器决策PloS one，10（7）：e0130140，2015。2[2] Alina Jade Barnett ， Fides Regina Schwartz ， ChafanTao，Chafan Chen，Yinhao Ren，Joseph Y.罗和辛西娅·鲁丁基于案例的可解释深度学习模型用于数字乳腺X射线摄影中肿块病变的分类。 Nature MachineIntelligence，3：1061-1070，2021年12月。1[3] 理查德·伯克，德鲁加斯·伯克和德鲁加斯。刑事司法环境中的机器学习风险评估。Springer，2019年。1[4] Chaofan Chen ， Oscar Li ， Daniel Tao ， Alina JadeBarnett，Cynthia Rudin，and Jonathan K Su.这看起来是这样的：深度学习用于可解释的图像识别。 In H.Wallach，H. Larochelle、A. B e ygelzime r、F. d'Alc he´-Buc，E. Fox和R. Garnett，编辑，《神经信息处理系统》，第32卷。Curran Associates，Inc.2019. 一二三五六七八[5] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络在IEEE国际计算机视觉会议（ICCV）的会议记录中，第764-773页一、二、四[6] Navneet Dalal和Bill Triggs。用于人体检测的有向梯度直方图2005年IEEE计算机协会计算机视觉和模式识别会议（CVPR），第1卷，第886-893页。IEEE，2005年。2[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）中，第248IEEE，2009年。7[8] 邓健康，贾国，薛念南，Stefanos Zafeiriou。ArcFace：Additive Angular Margin Loss for Deep Face Recognition.在 IEEE/CVF 计算机视觉和模式识别会议论文集（CVPR）中，第4690-4699页，2019年。二、五[9] D. Erhan，Y. Bengio，A. Courville，and P. Vincent.可视化深层网络的高层特征。技术报告1341，蒙特利尔大学，2009年6月。还在第26届国际机器学习会议（ICML2009）的学习特征层次研讨会上发表，加拿大蒙特利尔。2[10] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用有区别训练的基于零件的模型的对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence，32（9）：16272[11] 傅建龙，郑和良，陶梅。近距离

下载后可阅读完整内容，剩余1页未读，立即下载