神经网络中可解释的部分-整体层次结构和概念-语义关系

162 浏览量更新于2023-10-26 收藏 14.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

136890神经网络中可解释的部分-整体层次结构和概念-语义关系0Nicola Garau, Niccol´o Bisagno, Zeno Sambugaro, and Nicola Conci University of Trento- Department of Information Engineering and Computer Science - DISI Via Sommarive,9, 38123 Povo, Trento TN0nicola.garau,niccolo.bisagno,zeno.sambugaro,nicola.conci@unitn.it0图1.[彩色更佳]。所提出解决方案的概述。我们的聚合器是一种新颖的用于视觉应用的架构，其中列结构(c)模仿了人类视觉皮层的超列。输入数据(a)通过基于补丁的嵌入(b)被馈送到列中。聚合器架构通过其结构迭代地将信息路由，创建每个图像的神经表示，类似于神经场[37]。在神经表示中，部分-整体层次结构(d)在列的不同层次上出现。同一列可以用不同的抽象级别表示图像的相同补丁（例如，耳朵、头部和狗），对应于列中的每个级别。相邻的列在较低的层次上达成部分表示（例如耳朵、头部），理想情况下，在顶层表示相同的整体（例如狗）。结果特征空间表示数据之间的概念-语义关系，类似于人类的层次组织[38]。属于同一超类（例如动物、车辆）的样本被聚集在一起，概念上相近的类别（例如鸟和飞机）在超类的边缘上表示。0摘要深度神经网络在许多任务中取得了出色的结果，往往超过了人类专家。然而，当前神经网络结构的一个已知限制是对给定输入的网络响应的理解和解释能力较差。这直接与神经模型的大量变量和相关的非线性有关，这些模型通常被用作黑盒子。当涉及到关键应用，如自动驾驶、安全和安全性、医疗和健康时，网络行为的不可解释性往往会引起怀疑和有限的可信度，尽管这些系统在给定任务中的性能准确。此外，单一指标，如分类准确性，提供了对大多数实际场景的非全面评估。在本文中，我们希望在神经网络的可解释性方面迈出一步，提供解释其行为的新工具。我们提出了聚合器。0聚合器是一个能够从视觉线索中提供部分-整体层次结构表示并组织与类别之间的概念-语义层次结构相匹配的输入分布的框架。我们在常见的数据集上评估了我们的方法，如SmallNORB、MNIST、FashionMNIST、CIFAR-10和CIFAR-100，提供了比其他最先进方法更可解释的模型。01. 引言0神经网络的广泛应用以及学习模型的采用一直在引发人们对我们作为人类解释其行为的机会的担忧。对于神经网络来说，可解释性将是一个非常理想的特性，特别是在那些涉及到安全、生命和安全性的应用中，如自动驾驶[13]、医疗保健[40]和金融[45]。尽管这些系统在给定任务中的性能准确，但网络行为的不可解释性往往会引起怀疑和有限的可信度。深度神经网络已经实现了超人类的性能。136900深度神经网络在许多领域中取得了出色的表现，从计算机视觉[16, 29]到自然语言处理[10,54]，以及数据分析[45]。然而，这些取得的性能是以模型复杂性为代价的，使得解释神经网络的工作方式变得困难[34]。这些神经网络通常被部署为“黑盒子”，有数百万个需要调整的参数，大多根据经验和经验法则进行调整。几乎没有机会解释网络设置中的可训练参数如何直接影响给定输入的期望输出。0根据文献，可解释性被定义为“人类能够理解决策原因的程度”[39]。当一个机器学习模型在分类和预测等任务上达到高准确度时，我们能否在不理解为什么做出这样的决策的情况下信任该模型？决策过程是复杂的，我们倾向于使用在处理链末端计算的指标来评估系统在解决给定任务时的性能。虽然单一指标，如分类准确度，达到了超人类的结果，但它们提供了对现实世界任务的不完整描述[11]。作为人类，当我们看着一个有眼睛和四肢的物体时，我们可以通过推理和直觉推断出这些是属于同一实体（整体）的元素（部分），比如一个动物，并且我们可以解释和说明为什么做出这样的决策，通常基于过去的经验、信念和态度[1]。此外，即使在没有见过的动物的情况下，我们可能可以从视觉特征、我们的参考框架[14]和我们对世界中物体的分层组织[38]中判断出它是鱼还是哺乳动物。我们希望神经网络展示相同的行为，这样在概念-语义和词汇关系中接近的对象也会在特征空间中相邻（如图1e所示）。通过这样做，可以直观地识别样本之间的层次关系，以及模型如何学习构建描述每个样本的拓扑结构。因此，我们可以将深度学习中的可解释性定义为“从机器学习模型中提取与数据中包含的关系或模型学习到的关系相关的有关知识”[42]。0在图像分类领域，现有的技术，如transformers [10, 12,54]，神经场[37]，对比学习表示[7]，蒸馏[19]和胶囊[44]，已经取得了最先进的性能，引入了许多新颖之处，如强大的基于注意力的特征和逐补丁分析，位置编码，基于相似性的自监督预训练，模型压缩和部分-整体关系的深度建模。作为独立的方法，这些方法有助于提高网络的可解释性，但仍然缺乏对数据关系的直接强调[7, 10, 12, 37,54]（例如概念-语义0关系）或模型学习到的关系[19,44]（例如部分-整体关系）。检索部分整体层次结构本身并不是一个新的任务，因为它已经在不同的研究领域中被利用，如场景解析[3, 9]和多层次场景分解[23,59]。我们的架构的最终目标不是学习部分整体层次结构，而是专注于学习部分整体表示，作为解释网络行为在不同层次上的一种手段。在[18]中，介绍了如何在神经网络中表示部分整体层次结构的概念思想，试图将上述最先进的框架的优点合并到一个单一的理论系统中（称为GLOM）。GLOM旨在模仿人类学习解析视觉场景的能力。受[14,18]中描述的理论概念的启发，我们构建了一个工作系统，称为Agglomerator，它在模型的不同层次上实现了部分整体一致性[20]和特征空间的分层组织（数据中包含的关系），如图1所示。我们的贡献总结如下：0• 我们引入了一种新颖的模型，称为Agglomerator1，模拟人脑中的皮层柱的功能[15];0•我们解释了我们的架构如何提供模型学习到的关系的可解释性，特别是部分整体关系；0•我们展示了我们的架构如何提供数据中包含的关系的可解释性，即特征空间的层次组织；0•我们在多个常见数据集上提供了优于或与当前方法相当的结果，例如SmallNORB [31]，MNIST[30]，FashionMNIST [57]，CIFAR-10和CIFAR-100[27]，同时依赖更少的参数。02. 相关工作0卷积神经网络（CNNs）[16,46]在计算机视觉中扮演了重要角色，当它们开始在ImageNet挑战赛的图像分类任务中胜过现有文献时[28]。卷积操作可以有效地描述具有空间相关性的数据，从而产生特征图，而池化操作通过总结图像的某些特征在图像块中的存在来对获得的特征图进行下采样。CNN中的池化操作受到批评，因为它不保留与同一对象的特征相关的部分-整体关系[48]的信息[44]。01 代码和预训练模型可以在以下网址找到：0https://github.com/mmlab-cv/Agglomerator136910Transformer [12, 25,35]已经证明能够胜过CNN，这要归功于它们使用自注意力和基于图像的分析来编码强大特征的能力。多头Transformer[10]需要为每个头部单独训练查询、键和值的权重，这比训练CNN更昂贵。与CNN相比，主要优势在于多个头部能够以比池化操作更少的损失将来自图像不同位置的信息进行组合。然而，与CNN相比，类似Transformer的模型通常需要在大型数据集上进行密集的预训练，以达到最先进的性能。多层感知机（MLPs）[33,52]的特点是全连接层，其中每个节点与下一层的每个可能节点相连。尽管它们比CNN更容易训练且具有更简单的架构，但全连接层可能导致网络在大小和参数数量上增长过快，从而无法实现强大的可扩展性。MLPs通过基于图像块的方法[33,52]经历了复兴，从而达到了最先进的性能。它们也可以被视为1x1卷积[18, 33, 52]，不需要池化操作。胶囊网络[21,26, 36, 41, 43,44]试图模仿人脑通过动态分配能够对部分和整体进行建模的神经元组（胶囊）来创建部分和整体的解析树的方式。路由算法确定激活哪些胶囊来描述图像中的对象，低层胶囊描述部分（例如眼睛和四肢），高层胶囊描述整体（例如哺乳动物和鱼）。虽然胶囊能够有效地从图像的不同位置路由信息，但激活的胶囊无法描述图像中的每个可能对象，因此在更复杂的数据集（例如ImageNet、CIFAR-100）上限制了它们的有效性，而在更简单的数据集（例如MNIST）上取得了最先进的结果。虽然部分-整体层次结构在场景解析[3,9]和多级场景分解[23,59]等其他领域已经得到研究，但胶囊网络旨在构建层次结构的内部表示，从而更好地解释最终任务（例如分类）。最近，对所谓的生物启发式人工智能（AI）[14,22]的推动，试图构建能够模仿人脑结构和功能的深度学习网络。在[14]中，作者提出了一种类似于人类新皮层的超列的结构。在[53]中，作者构建了作为单独神经网络的皮层柱状结构，称为皮层柱状网络（CCN）。他们的框架旨在表示场景中的部分-整体关系，以学习用于分类的以对象为中心的表示。0[18]中的作者提出了一个名为GLOM的概念框架，基于相互连接的列，每个列连接到图像的一个补丁，并由堆叠在级别中的自编码器组成。基于MLP的[33]自编码器之间的权重共享允许使用更少的权重进行容易训练的架构，而知识蒸馏[19]允许减少训练参数。基于补丁的方法结合列的空间分布，类似于神经场[37,48]，实现了一种位置编码和视点估计。在训练时，作者建议使用对比损失函数[7]来训练GLOM。这个过程结合了每个列层的Transformer-like自注意机制[54]，旨在达成列之间的共识。使用层级注意力和堆叠自编码器来路由信息，理论上允许GLOM在不同位置和列的不同层次上学习输入的不同抽象级别，与胶囊网络[44]相比，创建了一个更丰富的部分-整体结构。虽然GLOM在[18]中更多地被提出作为一种直觉而不是一个合适的架构，但在这项工作中，我们发展了其基本概念，并将其转化为一个完全工作的系统，并应用于图像分类。03. 方法0我们提出的框架旨在复制类似于人类视觉皮层的超列模式，如图1所示。聚合器汇集了多种方法的概念和构建模块，如CNNs [33]，transformers [10, 12, 54]，神经场[37]，对比学习表示 [7]，蒸馏 [19]和胶囊[44]。在这里，我们介绍了解释架构的主要构建模块的数学符号。每个输入图像被转换为一个特征图，分为N = h ×w个补丁。第n个补丁，其中n ∈ {1, ...,N}，被馈送到相应的列Cn(h, w)，空间位置位于坐标(h,w)。为了更好地阅读，下面的方程中省略了下标n。如图2所示，每个列C(h, w)由K个嵌入级别{l(h,w), kt | k = 0, ...,K}通过位于时间t ∈ {0, ..., t-1, t, t+1, ..., T}的位置(h,w)的自编码器堆栈连接，如[18]中建议的。为了更好地阅读，下面的方程中省略了(h,w)的上标。列的每个级别lkt是一个大小为d的嵌入向量表示。级别lkt和级别lkt-1表示连续的级别；级别lkt-1表示级别lkt的一部分。我们将属于同一层Lkt且具有相同k值的所有列C(h,w)中的所有级别lkt表示为Lkt。作为我们架构的最后一层在最后一个时间步T，它表示为LK T。̸Ωn =eβλn·lkt� eβλn·N(λn)(1)136920图2. [最好以彩色看]我们的聚合器模型（中）的架构，具有信息路由（左）和建筑元素的详细结构（右）。每个立方体代表一个级别lkt。左：（a）图中箭头的图例，表示自顶向下的网络NTD(lk+1t-1)，自底向上的网络NBU(lk-1t-1)，注意机制A(Lkt-1)和时间步骤t。（b）级别lkt由lk-1t，NTD(lk+1t-1)和NBU(lk-1t-1)给出的值的贡献。（c）注意机制A(Lkt-1)在Lkt-1中共享信息。中：从底部到顶部，架构由Tokenizer模块开始，然后是列C(h,w)，每个级别lkt与相邻的级别NTD(lk+1t-1)和NBU(lk-1t-1)连接。结构的顶部是对比H1和交叉熵H2头。右：（d）头H1和H2的结构。（e）自顶向下网络NTD(lk+1t-1)和自底向上网络NBU(lk-1t-1)的结构。03.1. 补丁嵌入0在嵌入阶段，与[33]中一样，我们应用卷积Tokenizer来提取每个大小为H×W像素的图像的特征图，与原始图像相比，这提供了更丰富的表示。按照[33]中的实现，获得的特征图的大小为h×w×d，其中h=H/4，w=W/4。然后，我们将每个n维嵌入向量嵌入到相应坐标(h, w)的相应列C(h,w)的底层级别l0t中。将第n个补丁馈送到空间定位的列C(h,w)类似于神经场的位置编码[37]，其中每个大小为d的嵌入lkt同时表示样本及其相对观察视点。在每个时间步t中，我们将每个图像样本嵌入到列的第一层，即L0t层。0表示为底层L0t。03.2. 超列0列C(h,w)中的时间和空间上的连续级别通过自动编码器连接。自动编码器基于MLP，可以进行模型简化[19]和更快的训练时间。每个自动编码器使用NTD(lk+1t-1)顶部解码器计算级别lk+1t-1对下一时间步级别lkt值的自上而下贡献。类似地，每个自动编码器使用NBU(lk-1t-1)底部编码器计算级别lk-1t-1对下一时间步级别lkt值的自下而上贡献。NTD(lk+1t-1)和NBU(lk-1t-1)具有相似的结构，但激活函数不同，如图2（e）所述。自上而下网络使用GELU激活函数[17]，而自下而上网络依赖于正弦激活函数[47, 50,56]。所有连接Lk+1t-1到层Lkt的NTD(lk+1t-1)共享相同的权重。对于连接Lk-1t-1到层Lkt的NBU(lk-1t-1)也是如此。03.3. 路由0我们架构的关键要素是如何路由信息以获得输入数据的表示，其中部分-整体层次结构出现。在计算损失之前，我们需要通过网络迭代地传播每个批次N，获得每个图像的深度表示。这个过程称为传播阶段，鼓励网络在邻居级别Lkt之间达成共识。理想情况下，这意味着最后一层Lkt中的所有邻居级别应具有相似的值，表示相同的整体；而底层Lkt中的邻居级别（k≠K）应该在较小的组之间共享值，每个组表示相同的部分。达成类似值的向量组已经在图像表示中达成共识，并被称为共识岛屿[18]。这种表示的示例如图1（d）所示。在基于胶囊的方法中[44]，一组神经元被激活以表示具有有限表达能力的部分-整体层次结构。我们的d维层Lkt提供了同样层次结构的更丰富的表示。为了获得这样的表示，在时间步t =0时，我们随机初始化所有值lk0，并将一批B个样本嵌入到底层L00中。值初始化后，我们计算注意力A(Lkt)。与Transformers中使用的自注意机制不同[10, 12,54]，我们采用了与[58]中相同的标准注意力加权。每个注意力权重Ωn计算如下：̸(3)̸136930图3.对比预训练（虚线）和监督训练（实线）过程。在对比预训练中，通过对输入图像I应用随机数据增强，产生两个图像Ia和Ib。通过Tokenizer，我们计算Ia和Ib的特征图，然后将其分割成补丁并嵌入到列的底层L0t中。在传播阶段，信息通过聚合器架构路由，以获得每个样本的神经表示LKT。我们使用有监督对比损失L1对网络进行对比头H1的预训练，获得权重W。在监督训练期间，我们首先将冻结的权重W加载到网络中。然后，对输入图像I应用增强RandAugment[8]，获得Ic，然后按照预训练阶段的相同步骤进行处理。通过最小化交叉熵损失L2，使用分类头H2对网络进行分类任务的训练。0其中 λ n 表示与 λ n 属于同一层 L k t 的可能级别 l k t，N (λ n ) 是一个指示函数，索引属于同一层 L k t的所有邻居级别的级别 λ n，β是确定注意力锐度的参数。在每个时间步 t | t ∈ { 1 , . . . , T}，将包含 B 个样本的批次输入到底层 L 0 t网络中，如第3.1节中所述。我们计算值 l k t 如下：0l k t = avg ( ω l l k t − 1 , ω BU N BU ( l k − 1 t − 1 ), ω T D N T D ( l k +1 t − 1 ) , ω A A ( L k t − 1 )) (2)0其中 avg () 表示算术平均值，ω l ，ω BU ，ω T D ，ω A是可训练的权重。对于层 L K t，不包括贡献 N T D ( l k +1t − 1 )，因为 L K +1 t 不存在。传播阶段需要 T个时间步骤才能到达每个层 L T k 的最终表示。03.4. 训练0我们的架构的训练过程如图3所示。它分为两个步骤：（i）使用监督对比损失函数[7]进行预训练阶段，（ii）使用交叉熵损失进行图像分类的训练阶段。我们首先使用基于图像的对比损失[7]对网络进行预训练。给定一个包含 B个样本的批次，我们复制每个图像 I，以获得样本对 ( I a , Ib )，总共有 2 B 个数据点。然后，我们对 ( I a , I b )进行数据增强RandAugment[8]。两个样本都按照第3.1节中描述的方式输入网络，并在第3.3节中进行传播阶段，以获得最后一层的表示 L K T。然后，我们重新排列 L K T中的 n 个级别 l K T，得到一个维度为 n × d的向量，作为对比头 H 1 的输入，如图2所示。0对于对比头的输出，每个样本由一个维度为 f 1的特征向量描述。我们从批次中取出所有可能的样本对 ( I a, I b )，并计算定义如下的对比损失：0L 1 = ContrLoss ( I a , I b ) = − log e sim ( I a ,I b )0� 2 B k =1 I [ k � = a ] e sim ( I a ,Ib )0其中 sim ( u, v ) = u T v/ ∥ u ∥ ∥ v ∥ 表示向量 u 和 v的归一化点积，I [ k � = a ] 是一个指示函数，如果 k 和 a属于同一类，则值为0，否则为1。使用对比损失对网络进行预训练后，权重被冻结。我们对批次中的每个样本 I c进行数据增强[8]，然后将其输入网络进行传播阶段，以获得每个样本的表示 L K T。然后，在对比头 H 1之上添加交叉熵头 H 2。线性层将 f 1 维特征调整为维度 f2，对应于要预测的每个数据集的类别数。然后，使用交叉熵函数训练新的层：0L 2 = CE ( y, ˆ y ) = − 10f 20i =1 y i log(ˆ y i ) (4)0其中 y 是批次中取出的样本的标签，ˆ y 是要预测的标签。04. 实验0我们在以下数据集上进行实验：SmallNorb (S-NORB) [31]是一个用于3D物体形状识别的数据集。它包含大约200,000个尺寸为96×96像素的5类玩具图像。136940图4.超参数扫描。每条线代表一组参数设置，较深的线表示在验证损失最低的模型。图像取自[6]。0配置错误率%（100个周期后）0I Vanilla (proposed) 12.8 II ReLU激活函数 12.6III 无注意力机制 12.7 IV 线性列层 13.5 V线性对比头 15.8 VI 线性嵌入 17.20表1.在经过100个epoch训练的CIFAR-10上获得的不同Agglomerator配置的消融研究结果。0MNIST [30]和FashionMNIST[57]包含60000个训练图像和10000个测试图像，是灰度手写数字和Zalando的文章，大小为28×28像素。CIFAR-10和CIFAR-100[27]都包含50000个训练图像和10000个测试图像，大小为32×32像素，分别具有10个和100个类别。我们的网络在单个NVIDIA GeForce RTX 3090上使用PyTorchLightning进行端到端的训练。每个数据集的输入图像使用各自标准数据集的归一化进行标准化。我们在每个数据集的原始分辨率上训练我们的网络，除了SmallNorb，它被调整为32×32像素，遵循[21,43]中的标准过程。Tokenizer嵌入创建由nd维向量表示的n= H/4 ×W/4个补丁，其中H和W是输入图像的像素尺寸。因此，对于CIFAR-10、CIFAR-100和SmallNorb，相应的列数为8×8，对于MNISTFashionMNIST，为7×7。在预训练期间，我们使用以下超参数：300个epoch，循环学习率[49]在[0.002,0.05]范围内，批量大小B = 1024，级别嵌入d =128，级别数K = 3，迭代次数T = 2K =6，dropout值0.3，对比特征维度f1 =512，权重衰减5e-4。在训练阶段，我们使用相同的超参数恢复网络训练，f2是与每个数据集对应的类别数。05. 定量结果0我们在表2中报告了每个数据集的定量结果。基于胶囊的模型[21, 36, 41, 43,44]在简单的数据集（SmallNorb、MNIST和FashionMNIST）上可以取得良好的性能，但在类别更多的数据集（CIFAR-100）上无法泛化。基于卷积的模型[2, 16, 24,46]可以泛化到不同的数据集，但牺牲了模型的解释性，主要是由于最大池化操作。基于Transformer的方法[12]和基于MLP的方法[33,52]能够在更复杂的数据集上取得最佳性能，但对于较小的数据集没有提供测试。0然而，要达到这种准确性水平，它们依赖于在昂贵的计算架构上进行长时间的预训练（数千个TPU天），并在ImageNet [28]或JFT-300M[51]数据集上实施数据增强，这些数据集并不公开。可以看出，我们的方法在简单的数据集上与基于胶囊的方法表现相当，同时在更复杂的数据集上实现了更好的泛化性能。此外，我们的方法比大多数基于Transformer和基于MLP的方法具有更少的参数，并且可以在更小的架构上更短的时间内训练。消融研究。我们通过评估架构的不同组成部分对验证损失的影响来分析我们架构的贡献，在经过50个epoch后进行评估。考虑的参数按与验证损失值的相关性降序排列，包括嵌入维度d、对比特征向量f1、学习率、权重衰减、dropout和级别数K。结果在图4中报告。我们在CIFAR-10上进行了50次不同参数组合的训练。在表1中，我们展示了我们的网络配置（I）与（II）和（III）的相似性。在（I）中，正弦激活和共享注意力是提供可解释结果的关键，允许形成一致性的共识。简化版本只使用线性层而不是列层（IV），对比头（V）或线性嵌入（VI）的性能下降。06. 定性结果：可解释性0我们的方法通过明确建模部分-整体层次结构，提供了模型学习到的关系的可解释性，并通过特征空间的层次组织来解释数据中包含的关系。一致性岛屿作为多级部分-整体层次结构的表示。在传播阶段，鼓励同一层Lkt上的相邻级别达成共识，形成一致性岛屿。一致性岛屿表示不同层次的部分-整体层次结构。在图5中，我们提供了在MNIST和CIFAR-10上获得的一致性岛屿的几个示例。136950方法参考模型锚点错误率% 参数数量（百万）0训练架构 S-Norb MNIST F-MNIST C-10 C-10002.54 0.26 - - - 0.2 GPU CapsNet [ 41 , 44 ] 2.70 0.25 6.38 10.6 82.00 6.8 GPU Matrix-CapsNet [ 21 ] 1.40 0.44 6.14 11.9 - 0.3GPU Capsule VB [ 43 ] 1.60 0.30 5.20 11.2 - 0.2 GPU0ResNet-110 [ 2 , 16 , 24 ] Conv - 2.10 5.10 6.41* 27.76* 1.7 GPU VGG [ 2 , 46 ] - 0.32 6.50 7.74* 28.05* 20 GPU0ViT-L/16 [ 12 ] Transf - - - 0.85* 6.75* 632 TPU0ConvMLP-L [ 33 ] Conv/MLP - - - 1.40* 11.40* 43 TPU MLP-Mixer-L/16 [ 52 ] MLP - - - 1.66* - 207 TPU0我们的Conv/MLP/Caps 0.01 0.30 7.43 11.15 40.97 72 GPU0表2.在SmallNorb（S-Norb）、MNIST、FashionMNIST（F-MNIST）、CIFAR-10（C-10）和CIFAR-100（C-100）数据集上的Top-1准确率错误百分比结果。�表示在ImageNet上预训练的网络获得的结果。0图5.MNIST和CIFAR-10数据集样本在不同K级别上出现的一致性岛屿的矢量表示。我们展示了经过对比预训练100个时期后，每个级别k的每个补丁的一致性向量。在k=1级别上，网络的行为类似于特征提取器，其中每个单元表示具有邻居之间很少一致性的空间特征。在中间级别k=2,3,4上，邻居单元在图像的特定部分上达成一致，为平面的不同部分创建不同的岛屿。在最后一级k=5上，出现了两个岛屿，就对象和背景的表示达成一致。由于我们训练网络进行分类任务，两个岛屿的颜色之间的距离很小，因为图像的所有部分倾向于达成一致，表示相同的整体。0使用K=5级别训练的网络。每个箭头表示位置（h，w）处级别ltk的值，通过线性层将其从d维降低到2D。随着Lkt的增加，邻居Lkt中的ltk倾向于就共同表示达成一致。0整个图像样本中所代表的整体。在较低的级别上，出现较小的岛屿，每个岛屿代表整体的一部分。MNIST的样本在不同级别上的岛屿变化较少，因为数据更简单。136960（a）ResNet-110 [16 ] O=12%0（b）ViT-L/16 [12 ] O=24%0（c）Ours O=2%0（d）ConvMLP-L [33 ] O=12%0（e）Matrix-CapsNet [21 ] O=20%0（f）图例0图6. 仅在CIFAR-10数据集上训练的多种方法的潜在空间的2D表示，使用主成分分析（PCA）[ 55]获得。PCA为数据提供了从多维空间到2D空间的确定性基变换。图例（f）显示了按照WordNet层次结构[ 38]将类别分为超类Vehicles和Animals。不同的方法（a，b，c，d，e）都能够将样本聚类在两个超类之间。然而，（a，b，e）显示的潜在空间中类别彼此靠近，而两种基于MLP的方法（c，d）能够在超类之间提供更清晰的分离。这两种方法在每个超类的边缘上显示了概念-语义上相似的样本，例如飞机和鸟类。在每个超类内部，语义上相似的样本被连续地表示，例如鹿和马，或汽车和卡车。我们的方法（c）提供更好的类间和类内可分离性。每种方法的重叠百分比O也被报告。重叠区域是发生具有更高层次严重性[ 4 ]的错误的概率更高的区域。0表明层次结构中的较少级别就足以获得类似的结果。因此，我们的聚合器能够在不同的抽象级别上以不同的方式表示补丁。在同一级别上，空间相邻的补丁具有相同的值，就部分和整体的表示达成一致。潜在空间组织作为数据中概念-语义关系的表示。最近的网络旨在最大化潜在空间中样本之间的类间距离并最小化类内距离。虽然准确性很高，但它们在数据表示方面提供的可解释性很小。因此，错误发生的可能性较小，但错误严重性（定义为WordNet词汇层次结构中两个类之间的距离）不会减小。如图6所示，我们的网络在语义上组织输入数据，类似于人类的词汇层次结构。07. 限制0我们的方法在网络结构中引入了新类型的超参数，如嵌入维度、层数和补丁大小，需要进行调整。我们相信可以找到更好的参数设置。0数据集的增加可以提高准确性，同时保持可解释性。此外，更多的参数通常会导致架构更容易过拟合和更难训练。为了提高网络的准确性，我们需要在大型数据集上进行预训练（例如在ImageNet上），这需要大量的计算资源在合理的时间范围内完成。希望未来能够有强大的TPU架构公开可用，我们目前正在研究对我们的网络进行高效的预训练策略。08. 结论0我们提出了Agglomerator，这是一种在神经网络中表示可解释的部分-整体层次结构和概念-语义关系的方法。我们相信可解释的网络是人工智能和深度学习成功的关键。通过这项工作，我们希望推广初步的实现和相应的图像分类任务结果，并希望激发其他研究人员调整我们的解决方案以解决更复杂和多样化的任务。136970参考文献0[1] Dolores Albarracin和Robert S Wyer Jr.过去行为的认知影响：对信念、态度和未来行为决策的影响.个性与社会心理学杂志，79(1):5，2000年。20[2] Filipe Assunc¸˜ao, Nuno Lourenc¸o, Penousal Machado,and Bernardete Ribeiro. Denser: 深度进化网络结构表示.遗传编程和可进化机器，20(1):5-35，2019年。6，70[3] Daniel M Bear, Chaofei Fan, Damian Mrowca, Yunzhu Li,Seth Alter, Aran Nayebi, Jeremy Schwartz, Li Fei-Fei, Ji- ajunWu, Joshua B Tenenbaum等. 从视觉场景中学习物理图表示.arXiv预印本arXiv:2006.12373，2020年。2，30[4] Luca Bertinetto, Romain Mueller, Konstantinos Tertikas,Sina Samangooei, and Nicholas A Lord.通过深度网络利用类层次结构进行更好的错误处理.在IEEE/CVF计算机视觉和模式识别会议论文集中，第12506-12515页，2020年。80[5] Irving Biederman. 组件识别：人类图像理解的理论.心理评论，94(2):115，1987年。20[6] Lukas Biewald.使用权重和偏差进行实验跟踪，2020年。软件可从wandb.com获得。60[7] Ting Chen, Simon Kornblith, Mohammad Norouzi, andGe- offrey Hinton. 对视觉表示进行对比学习的简单框架.在国际机器学习会议上，第1597-1607页。PMLR，2020年。2，3，50[8] Ekin D Cubuk, Barret Zoph, Jonathon Shlens, and Quoc VLe. Randaugment: 具有减少搜索空间的实用自动化数据增强.在IEEE/CVF计算机视觉和模式识别会议论文集中，第702-703页，2020年。50[9] Fei Deng, Zhuo Zhi, Donghun Lee, and Sungjin Ahn.生成场景图网络. 在学习表示国际会议上，2020年。2，30[10] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. Bert: 用于语言理解的深度双向Transformer的预训练.arXiv预印本arXiv:1810.04805，2018年。2，3，40[11] Finale Doshi-Velez和Been Kim.迈向可解释机器学习的严谨科学.arXiv预印本arXiv:1702.08608，2017年。20[12] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold, Syl-vain Gelly, et al.一张图片相当于16x16个单词：用于大规模图像识别的Transformer. arXiv预印本arXiv:2010.11929，2020年。2，3，4，6，7，80[13] Sorin Grigorescu, Bogdan Trasnea, Tiberiu Cocias, andGigel Macesanu. 用于自动驾驶的深度学习技术综述. Journal ofField Robotics , 37(3):362– 386, 2020. 10[14] Jeff Hawkins. 一千个大脑: 智能的新理论, 2021. 1 , 2 , 30[15] Jeff Hawkins, Subutai Ahmad, and Yuwei Cui.一种关于新皮层中的列如何使学习世界的结构的理论. Frontiers inneural circuits , 11:81, 2017. 20[16] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别. In Proceed- ings of the IEEEconference on computer vision and pattern recognition ,pages 770–778, 2016. 2 , 6 , 7 , 80[17] Dan Hendrycks and Kevin Gimpel. 高斯误差线性单元（GELUs）.arXiv preprint arXiv:1606.08415 , 2016. 40[18] Geoffrey Hinton. 如何在神经网络中表示部分-整体层次结构.arXiv preprint arXiv:2102.12627 , 2021. 2 , 3 , 40[19] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean.提取神经网络中的知识. arXiv preprint arXiv:1503.02531 , 2015.2 , 3 , 40[20] Geoffrey E Hinton.将部分-整体层次结构映射到连接主义网络中. Arti�cial Intelligence, 46(1-2):47– 75, 1990. 20[21] Geoffrey E Hinton, Sara Sabour, and Nicholas Frosst.通过EM路由的矩阵胶囊网络. In International conference onlearning representations , 2018. 3 , 6 , 7 , 80[22] Kjell Jørgen Hole and Subutai Ahmad. 一千个大脑:迈向生物约束的人工智能. SN Applied Sciences , 3(8):1–14, 2021. 30[23] Yining Hong, Li Yi, Josh Tenenbaum, Antonio Torralba,and Chuang Gan. Ptr:一个基于部分的概念、关系和物理推理的基准. Advances inNeural In- formation Processing Systems , 34, 2021. 2 , 30[24] Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, and Kil-ian

下载后可阅读完整内容，剩余1页未读，立即下载