可变形原型提升可解释性：Deformable ProtoPNet

12 浏览量更新于2024-06-20 收藏 926KB PDF 举报

可变形ProtoPNet是一种创新的可解释图像分类器，由缅因大学和杜克大学的研究者提出。它旨在解决传统基于原型的计算机视觉模型在处理物体姿态变化和上下文理解上的局限性。在深度学习和可解释性之间找到了平衡，该模型利用深度学习的强大能力进行复杂的学习，并通过结合基于案例的推理，提供直观的解释。传统的原型模型，如规则原型，通常是空间刚性的，这意味着它们不能适应输入图像中的物体形态变化，例如物体的大小、位置或角度调整。为了克服这一问题，可变形ProtoPNet引入了空间灵活的原型设计。每个原型由多个可自适应调整位置的原型部分组成，可以根据输入图像的特征动态变化，从而捕捉到更丰富的几何变换和姿态变化信息。这种新型的网络结构借鉴了卷积神经网络在处理几何变换方面的研究，例如空间变形操作。它允许模型不仅基于输入图像的部分进行分类，还能以直观的方式解释为什么认为某个输入图像属于特定类别，比如“这个图像中的对象与我们学习到的可变形旗子原型匹配”。相比于其他基于原型的可解释模型，可变形ProtoPNet在保持准确性的同时，提供了更为全面的上下文解释，这对于关键领域的应用如医疗、金融和司法决策来说，是提高模型可信度的重要因素。该模型的源代码已开源，可以在<https://github.com/jdonnelly36/Deformable-ProtoPNet> 获取，供研究人员和开发者进一步探索和利用。总结来说，可变形ProtoPNet代表了一种进步的图像分类方法，它在保证模型性能的同时，提升了可解释性，对于推动计算机视觉领域向着既准确又可信赖的方向发展具有重要意义。

10267

× ×

，

联系

我们

∈ {−}

∈

{−}

√

∥ ∥

，

× ×

，

（

）

（

，

）

（

、

）

，

甲

乙

丙

，

迫使网络“更努力地尝试”以进一步减小角度，以便降

低交叉熵损失。在有余量的训练

使用

∈

（

，

）

表示类的第

个可变形原型

，再次表示为形状

为

×ρ

其中

ρρ

空间位置，我们使用

（

，

）

去

个

月，

来自同一类的训练样本将在围绕该类的向量的角空间

中被聚集，并且它们将与来自不同类的训练样本的潜

在表示在训练我们的可变形ProtoPNet时，我们在训练

过程中为每个训练示例应用角边缘来膨胀不正确类原

型的原型激活

可变形原型

3.1.

可变形原型

我们将首先讨论不可变形原型的一般公式，如在先

前的工作中定义的（例如，[4]）。设p

（

，

）

表示类c的

第l个原型，rep-

表示为形状为

×ρ

×d

的张量，其中

注意在可变形

原型

∈

（

，

）内的第（

，

）原型部分

。图

（

）（右）示出

了9个空间位置的可变形原型（表示

为33D张量），其中每个空间位置被视为可以四处移

动的单独的原型部分，并且表示与其他

原型部分空间

解耦的语义概念。

如果

符号一致，则我们使用

表示将与

可变形原型

∈

（

，

）进行比较的图像特征的张量

，并且我们使用

∈

，

表示

图像特征张量

∈

的空间位置（

，

）

处的

维向量

。

在可变形原型网中，我们要求

所有可变形原型

（

，

）

的

所有原型

部分

（

c，l）

（

维向量）具有相同的

长

度：

（

，

）

空间位置，并且令p

（

，

）

表示原型十元p

（

，

）的空间位

置（

，

）处的

维向量

，其中

m ρ

，

...

，

和

，

...

，

2。（3 3原型有

3和

，

1。令

表示通过使输入图像通

过某个特征提取器（例如，a CNN），并且令

，

表示

图像特征张量

的空间位置（

，

）处的

维向量。在

文献[4]中，原型

，

（

）

因此，当我们将可变形原型

∈

（

，

）

表示为其组成原型

部分

∈

（

，

）

的一个带边向量时，

所有可变形原型具

有相同的

长度，

其等于

（

，

）

ρ r

（即，

所有可变形

原型都是单位向量）。我们还要求每个图

像特征张量

的每个空间

位置

（

，

）

具有相同的

长

度：

（

）

利用等式（

）和（

），我们可以重写平方

z. 我们可以将每个原型解释为代表一个补丁

在输入图像中，我们可以将原型与

（

，

）

与

之间的距离

，

在等式（1）中

为：

每个ρ

图像特征张量的补丁，使用

，

（

−

（

，

）

，

）。

相似性函数。从数学上讲，对于每个空间

位置（a

，

b）在图像特征张量z中，规则的非

当相似度函数

sim

（

）

κ/

2 1

时，

（在等式（1）中定义）之间的可变形原型

可变形原型计算其与

的相似性

以（a

，

b）为中心的z贴片为：

ΣΣ

甲

乙

丙

P-

，

×ρ

（

，

）

的形状为

和一个

曲

面，中心为

（

，

）

，则图像特征张量

的

（

）

（

，

）

（

，

）

，

（

）

在

我们让原型变形之前。注意这个方程

其中sim是将

距离（在图像特征的潜在空间中）转化

为相似性度量的函数。在ProtoPNet [4]和Prototree [28]

中，基于L2

的

在ProtoPNet [4]中，原型（原型部件）是一个

（

）等价于

∈

（

，

）

与

∈

，

之间的一个协解

具有由等式（2）和（3）给出的附加约束。

对于

所有要变形

的可变形原型

∈

（

，

）

，我们引入

集合以使得

当原型被应用在图像特征张量z ∈上的空间

位置

（

，

）

处时，每个原型部分

∈

（

，

）能够四处移动

。在数学上，

等式

（4）变为：

空间上连续的斑块，无论其数量

（

）

（

，

）

（

，

）

、

（

五）

∥

、

（

）

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

可变形原型提升可解释性：Deformable ProtoPNet

图像分类器

可变形图像配准框架

不事后解释+可解释图像分类方法 .pptx

可解释图像分类方法+不事后解释.rar

深度学习可解释性：新分类法与研究前景

图像语义分析：从鸿沟到理解的跨越

gwyddion图像处理教程：滤波、旋转与校准

LabelImg图像标注教程：从安装到高级功能

图像处理习题：灰度变换与直方图均衡化详解

深度学习驱动的单目图像深度估计：进展与展望

最新资源