胶囊网络对图像仿射变换的鲁棒性提升

84 浏览量更新于2023-10-25 收藏 12.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

72850提高胶囊网络对图像仿射变换的鲁棒性0Jindong Gu 慕尼黑大学西门子公司，企业技术部0jindong.gu@siemens.com0Volker Tresp 慕尼黑大学西门子公司，企业技术部0volker.tresp@siemens.com0摘要0卷积神经网络（CNN）通过使用池化操作实现平移不变性。然而，这些操作不能保持学习表示中的空间关系。因此，CNN无法推广到输入的各种几何变换。最近，胶囊网络（CapsNets）被提出来解决这个问题。在CapsNets中，每个实体由一个向量表示，并通过动态路由算法路由到高级实体表示。CapsNets对输入的仿射变换比CNN更具鲁棒性。然而，它们在变换后的输入上的性能与未变换版本之间仍存在巨大差距。在这项工作中，我们首先重新审视路由过程，通过展开其前向和反向传递来进行研究。我们的研究发现，路由过程既不对泛化能力，也不对胶囊网络的仿射鲁棒性有贡献。此外，我们探索了胶囊变换的局限性，并提出了仿射胶囊网络（Aff-CapsNets），它对仿射变换更具鲁棒性。在我们的基准任务中，模型在MNIST数据集上进行训练，在AffNIST数据集上进行测试，我们的Aff-CapsNets将基准性能大幅提高（从79%提高到93.21%），而不使用任何路由机制。01. 引言0人类的视觉识别对仿射变换非常不敏感。例如，图像中的实体以及实体的旋转版本都可以被人类视觉系统识别出来，只要旋转不太大。卷积神经网络（CNN）是目前图像分析的主要方法，通过在包含目标对象不同变换的大量数据上进行训练，实现了对仿射变换的鲁棒性。然而，在许多现实任务中，由于训练数据有限，CNN对新颖的仿射变换的鲁棒性是有限的[23]。0为了学习更符合人类感知的图像特征，最近提出了胶囊网络（CapsNets）[23]。提出的CapsNets与CNN主要在两个方面有所不同：首先，它们通过激活向量来表示每个实体，其大小表示其在图像中存在的概率；其次，它们使用迭代路由机制（动态路由过程）将低级实体表示分配给高级实体表示。CapsNets旨在保持两个重要特征：输出姿态向量的等变性和输出激活的不变性。一般的假设是，变化因素的解缠结使得CapsNets对仿射变换比CNN更具鲁棒性。目前用于评估模型对仿射鲁棒性的基准任务是在标准MNIST数据集上训练模型，并在AffNIST数据集上进行测试。CapsNets在AffNIST上的准确率为79%，而具有相似网络规模的CNN仅达到66%[23]。尽管CapsNets在这个任务上表现出了优势，但与在未变换的MNIST测试数据集上达到99%以上的性能仍存在巨大差距。在我们的论文中，我们首先研究了使CapsNets对输入仿射变换具有鲁棒性的组件的有效性，重点关注路由算法。自[23]发表以来，已经提出了许多启发式的路由算法[10, 25,16]。然而，最近的研究[19]表明，迄今为止提出的所有路由算法的性能甚至比均匀/随机路由过程更差。通过数值分析和实证实验，我们的研究发现，动态路由过程既不对泛化能力，也不对CapsNets的仿射鲁棒性有贡献。因此，通过修改路由过程来提高仿射鲁棒性是不可行的。相反，我们研究了CapsNet架构的局限性，并提出了一个简单的解决方案。即，我们建议为所有主胶囊应用相同的变换函数，并用简单的平均过程（称为无路由）替换路由过程。01 每个示例是一个带有小的仿射变换的MNIST数字。N�icijˆuˆuˆuj|i(1)k)(3)72860本文的贡献可以总结如下：1）我们重新审视了胶囊网络的动态路由过程；2）我们研究了当前胶囊网络架构的局限性，并提出了更加鲁棒的仿射胶囊网络（Aff-CapsNet）；3）基于大量实验，我们研究了没有路由的胶囊网络的性质。此外，我们证明了Aff-CapsNet的优越性。本文的其余部分组织如下：第2节首先回顾了胶囊网络和相关工作。第3节通过（不）展开迭代路由过程的前向和后向传递来研究路由过程的有效性。第4节展示了当前胶囊网络在仿射变换上的局限性，并提出了鲁棒的仿射胶囊网络（Aff-CapsNet）。第4节进行了大量实验来验证我们的发现和提出的修改。最后两节讨论和总结我们的工作。02. 背景和相关工作0在本节中，我们首先描述了具有动态路由的胶囊网络，然后回顾了相关工作。02.1. 胶囊网络基础0胶囊网络[23]使用胶囊对实体进行编码。每个胶囊由一个活动向量表示（例如，一组神经元的激活），向量的每个元素编码相应实体的属性。激活向量的长度表示实体存在的置信度。输出类别由高级胶囊表示。胶囊网络首先将原始输入特征映射到低级胶囊，然后将低级胶囊路由到高级胶囊。例如，在图像分类任务中，胶囊网络从一个（或多个）卷积层开始，将像素强度转换为低级视觉实体。胶囊网络的后续胶囊层将低级视觉实体路由到高级视觉实体。胶囊网络可以具有一个或多个带有路由过程的胶囊层。给定第 L 层的第 i个低级胶囊 uuu i ，第 ( L +1) 层的第 j 个高级胶囊 sss j，以及变换矩阵 W W W ij ，路由过程为0ˆ u ˆ u ˆ u j | i = W W W ij uuu i , sss j =0其中 c ij 是一个耦合系数，用于模拟 ˆ u ˆ u ˆ u j | i能够预测 sss j 的程度。胶囊 sss j 通过非线性压缩函数 g ( ∙) 缩小到 (0, 1) 的长度，该函数定义为0vvv j = g ( sss j ) = ∥ 01 + ∥ sss j ∥ 2 sss j ∥ sss j ∥(2)0耦合系数 { c ij }通过迭代的路由过程计算得出。它们的更新使得高一致性 (a ij = vvv T j ˆ u ˆ u ˆ u j | i ) 对应于高的 c ij 值。0c ij = exp( b ij ) �0其中初始的 logits b ik是先验概率的对数，并在每次路由迭代中通过 b ik = b ik +a ij 进行更新。第 L 层的第 i 个胶囊与第 ( L + 1)层的所有胶囊之间的耦合系数之和为 1，即 � M j =1 c ij = 1。方程式 1、2 和 3 中的步骤在路由过程中重复 K 次，其中sss j 和 c ij 相互依赖。02.2. 相关工作0路由算法：许多论文改进了路由一致性算法。[27]在加权核密度估计框架内概括了现有的路由方法，并提出了两种具有不同优化策略的快速路由方法。[6]提出了一种基于注意力模块的路由过程，只需要快速的前向传递。一致性 a ij也可以基于高斯分布假设[10,2]或距离度量[16]来计算，而不是简单的内积。由于路由过程的计算开销较大，一些工作提出了减少迭代路由过程复杂性的解决方案。[25]将路由策略制定为一个优化问题，该问题最小化了聚类损失和当前耦合分布与其上一状态之间的KL距离的组合。[17]用两个分支近似了昂贵的路由过程：一个主分支从较低层的直接接触中收集主要信息，一个辅助分支根据其他较低胶囊中编码的模式变体补充主分支。理解路由过程：[4]通过使耦合系数可训练将路由过程纳入训练过程中，这些耦合系数应该由迭代路由过程确定。耦合系数与示例无关，在测试阶段保持不变。他们提出的方法只是将迭代更新简化为具有先验耦合系数的单向传递。[5]完全去除了路由过程，并修改了胶囊网络的架构。他们的纯胶囊网络取得了竞争性的性能。然而，尚未研究他们的胶囊网络的性质，例如对仿射变换的鲁棒性，将如何受到路由过程的去除的影响。此外，[19]表明许多路由过程[23, 10, 25,16]都是启发式的，甚至比随机路由分配更差。(4)(7)72870图1：可视化了损失对随机选择的 ˆ u ˆ u ˆ u m | i的梯度。蓝线对应于梯度反向传播中展开的路由迭代，黄线对应于滚动的路由迭代。03. 重访CapsNets的动态路由0在本节中，我们从理论和实证的角度分析动态路由。通过展开路由过程的反向传播和滚动路由过程的前向传播，我们展示了路由过程在CapsNets中的作用。03.1. 路由迭代的反向传播0迭代路由过程的前向传递可以写成以下迭代步骤0sss ( t ) j=0i c ( t ) ij ˆ u ˆ uˆ u j | i0vvv ( t ) j = g ( sss (0c ( t +1) ij = exp( b ij + � t r =1 vvv ( r) j ˆ u ˆ u 0k exp( b ik + � t r =1 vvv ( r) k ˆ u ˆ u ˆ u k | i )0其中上标 t ∈ { 1 , 2 , ... } 是迭代的索引。c (1) ij 和 b ij的初始化如方程式3所示。假设有 K 次迭代和分类损失 L (yyy,ttt )，其中 yyy = ( ∥ vvv ( K ) 1 ∥ , ∙ ∙ ∙ , ∥ vvv ( K ) M∥ ) 是预测，ttt 是目标，通过路由过程的梯度为0∂ ˆ u ˆ u ˆ u m0∂vvv ( K )0M0∂ L0∂sss ( K ) j ˆ u ˆ u ˆ u j | i∂c ( K ) ij0∂ ˆ u ˆ u ˆ u m | i (5)梯度通过展开的路由迭代传播，通过方程式5的第二项，这也是昂贵的路由过程的主要计算负担0在CapsNets中的路由过程。通过展开这个项，我们证明了 ∂ L0∂ ˆ u ˆ u ˆ u m | i≈ C ∙ ∂ L0∂vvv ( K )m0∂vvv ( K )0∂sss ( K ) m c ( K ) im (6)0其中 C是一个常数，可以在优化过程中与学习率整合在一起（见附录A中的证明）。这个近似意味着可以忽略通过方程式5中的c ( K ) ij 流动的梯度。0c ( K ) ij可以在梯度反向传播中被视为常数，并且路由过程可以从CapsNets的计算图中分离出来。为了在实证上确认方程式6，我们可视化了 ∂ L0∂ ˆ u ˆ u ˆ u m |i。根据[23]，我们在MNIST数据集上训练了一个CapsNet。架构和超参数的值可以在附录B中找到。我们首先在路由过程之前随机选择胶囊预测 ˆ u ˆ u ˆ u j |i，然后在两种情况下可视化它们接收到的梯度：1）像[23]中一样展开路由迭代；2）通过在梯度反向传播中将所有 c ij视为常数来滚动路由迭代（即忽略方程式5中的第二项）。如图1的每个图中所示，两种情况的梯度（蓝线和黄线）相似。在本节中，我们的目标是展示路由过程的内在贡献是识别特定常数作为耦合系数 c ( K )ij。毫无疑问，通过在梯度反向传播中滚动路由迭代可以节省计算成本和内存占用。两种情况的计算图可以在附录C中找到。03.2. 路由迭代的前向传递0前向迭代路由过程可以被表示为一个函数，将胶囊预测映射到耦合系数，即 ˆ u ˆ u ˆ u → CCC ( K ) = { c ( K ) ij}，其中低级胶囊的索引 i 变化从 1 到 N，高级胶囊的索引 j变化从 1 到M。给定一个实例，不失一般性，我们假设真实类别是第 M个（即 vvvM）。根据CapsNet的思想，实例的最优耦合系数 CCC � = {c � ij } 可以描述为0CCC�=max{cij}f(ˆuˆuˆu)max{cij}(0iciMˆuˆuˆuM|i 0iciMˆuˆuˆuM|i)0−0M −1 �0j0icijˆuˆuˆuj|i 0icijˆuˆuˆuj|i))0其中第一项描述了目标类别上的一致性，第二项对应于非真实类别上的一致性。最优耦合系数CCC�对应于目标类别上的一致性最大化，非真实类别上的一致性最小化的情况。72880图2：绿色线对应具有动态路由的模型，品红色线对应没有路由过程的模型。对于两个模型，目标类别上的一致性随着训练时间的增加而增加，非真实类别上的一致性减少。这些值是在整个训练或测试数据集上平均计算的。0许多路由算法的不同之处仅在于它们如何近似CCC�。例如，原始工作[23]使用迭代路由过程来近似CCC�。[4]则通过使{bij}可训练来近似{c�ij}，其提议可以理解为只有一步路由的学习先验耦合系数。通过进一步改进，我们展示了最优sss�j可以在不需要耦合系数的情况下学习，如下所示：0sss�j0ic�ijˆuˆuˆuj|i=0ic�ijWWW�ijui=0iWWW′ijuuui. (8)0在训练过程中，通过梯度下降法更新变换矩阵WWWij。耦合系数cij由低级胶囊与相应高级胶囊之间的一致性确定。训练过程以sss�j，WWW�ij，c�ij的参数值结束。如方程8所示，CapsNet可以通过简单地学习一个变换矩阵WWW′ij而不需要c�ij来实现相同的结果。换句话说，低级胶囊与高级胶囊之间的连接强度c�ij可以在变换矩阵WWW′ij中隐式地学习。因此，我们可以得出结论，不同的近似CCC�的方法并不会产生显著的差异，因为耦合系数将隐式地学习。我们可视化了耦合系数的隐式学习过程。在我们的实验中，我们引入了无路由方法，通过将所有耦合系数cij设置为常数1/M来移除迭代路由过程。在每个训练时期，目标类别和非真实类别上的一致性在图2中可视化。作为对比，我们还可视化了0与动态路由过程相对应的CapNets的一致性值。我们可以观察到，在训练过程中，目标类别上的一致性增加（在左图中）对于两种情况都是如此，而非真实类别上的一致性减少（在右图中）。换句话说，f(ˆuˆuˆu)在具有/不具有路由过程的CapNets中都增加，这意味着耦合系数可以隐式地学习。总之，CapsNet的仿射鲁棒性不能归因于路由过程。我们得出结论，通过修改当前的基于一致性的路由算法来提高CapsNet的鲁棒性是可行的。04. 胶囊网络的仿射鲁棒性0除了动态路由过程之外，CapsNet与传统CNN的另一个区别是CapsNet的架构。CapsNet使用胶囊来表示每个实体，并通过变换矩阵将其转化为高级实体。在本节中，我们研究了变换过程在仿射鲁棒性方面的限制，并提出了鲁棒仿射胶囊网络。04.1. CapsNets的限制0CapsNet从两个卷积层开始，将像素强度转换为主要（低级）胶囊（例如，图3中的红色长方体是胶囊 uuu i）。每个主要胶囊具有一定的感受野（例如，用黄色矩形标记的图像补丁 xxx i ）。对于所有输入，uuu i的感受野的坐标是相同的。换句话说，主要胶囊只能看到输入图像中的特定区域。我们用 uuu i = p i ( xxx i )表示相应的转换过程。每个主要胶囊通过相应的变换矩阵转换为高级胶囊。每个变换矩阵 W W W ij 学习如何将第 i个低级胶囊转换为第 j 个高级胶囊，即 ˆ u ˆ u ˆ u j | i = t j |i ( uuu i ) 。对应于输入补丁 xxx i 的变换过程可以描述为0ˆ u ˆ u ˆ u j | i = W W W ij uuu i = t j | i ( uuu i ) = t j | i ( p i ( xxx i )) . (9)0变换矩阵 W W W ij 只能对在某个时刻出现在 xxx i位置的实体进行有意义的变换。变换函数 t j | i ( ∙ )的输入域是 U i。在测试阶段，如果在输入上进行新的仿射变换，相应的变换过程 t j | i ( p i ( xxx ′ i )) 就没有意义，因为 p i ( xxx ′ i )不在输入域 U i 中。换句话说，变换矩阵 W W W ij描述的不是有意义的变换，因为 xxx ′ i的实体在训练过程中从未出现在补丁 xxx i的位置。因此，CapsNet在对输入的新的仿射变换的泛化能力上受到限制。72890图3：CapsNets的限制示意图：变换矩阵 W W W ij 只能将 uuu i 转换为高级胶囊，而 W W W kj 只能对 uuu k进行有意义的变换。当输入被转换（例如旋转）时，对应于 uuu i 的感受野不再是 xxx i 。对于新的 uuu i ，使用 W W W ij的变换过程可能会失败。04.2. 鲁棒的仿射胶囊网络0为了克服上述限制，我们提出了一个非常简单但有效的解决方案。具体而言，我们建议为所有主要胶囊使用相同的变换函数（即确保t j | i ( ∙ ) ≡ t j | k ( ∙ )）。我们通过共享一个变换矩阵来实现一个鲁棒的仿射胶囊网络（Aff-CapsNet）。形式上，对于Aff-CapsNets，我们有 W W W ij= W W W kj ，� i, k ∈ { 1 , 2 , ∙ ∙ ∙ , N } (10)0其中 N是主要胶囊的数量。在Aff-CapsNets中，变换矩阵可以对所有主要胶囊进行有意义的变换，因为它在训练过程中学习如何将所有低级胶囊转换为高级胶囊。变换矩阵共享也在之前的一篇论文中进行了探索[21]。不同之处在于，他们的目标是节省参数，而我们的目标是使CapsNets对仿射变换更加鲁棒。从另一个角度来看，主要胶囊和高级胶囊分别对应于局部坐标系和全局坐标系。变换矩阵应该将局部坐标系映射到全局坐标系。有人可能会想，从每个局部坐标系到全局坐标系的变换需要一个特定的变换矩阵。在现有的架构中，坐标系是高维的。因此，一个共享的变换矩阵能够成功地对所有局部坐标系进行变换。05. 实验和分析0实验包括两个部分：1）我们在流行的标准数据集上使用不同的路由机制（包括无路由）训练CapsNets，并从多个角度比较它们的性能；2）我们展示Aff-CapsNets在基准数据集上优于CapsNets，并实现了最先进的性能。对于所有这些实验0在本节中，我们使用5个随机种子训练模型，并报告它们的平均值和方差。05.1. 动态路由的有效性0在第3节中，我们展示了在没有路由过程的情况下，CapsNets可以在隐式学习中学习到路由机制。我们在本节的实验中旨在调查当训练时没有路由时，CapsNets的优势是否消失。我们在训练过程中考虑以下路由过程：01. 动态路由：使用标准的动态路由，如[23]中所述；02.滚动路由：使用滚动路由过程，在梯度反向传播期间将耦合系数视为常数，如第3.1节所分析的；03. 可训练路由：使用可训练的耦合系数进行一步路由，如[4]中所述；04. 无路由：没有路由过程，等同于[19, 5]中的均匀路由。0我们在四个标准数据集上使用上述不同的路由过程训练CapsNets，即MNIST [15]，FMNIST [26]，SVHN[18]和CIFAR10[13]。性能报告如表1所示。鉴于每个模型的性能变化，不同模型之间的性能差异相对较小。其原因是耦合系数可以在转换矩阵中隐式学习，并且所有模型都具有类似的转换过程。使用无路由的模型不会阻止耦合系数的学习。我们还可以观察到使用可训练路由或无路由的模型比其他两种模型表现稍好。据我们了解，原因是它们不会遭受耦合系数的极化问题 [17]。72900数据集 MNIST FMNIST SVHN CIFAR100动态路由 99.41 ( ± 0.08) 92.12 ( ± 0.29) 91.32 ( ± 0.19) 74.64 ( ± 1.02)0滚动路由 99.29 ( ± 0.09) 91.53 ( ± 0.22) 90.75 ( ± 0.52) 74.26 ( ± 0.94)0可训练路由 99.55 ( ± 0.04) 92.58 ( ± 0.10) 92.37 ( ± 0.29) 76.43 ( ± 1.11)0无路由 99.54 ( ± 0.04) 92.53 ( ± 0.26) 92.15 ( ± 0.29) 76.28 ( ± 0.39)0表1：在不同标准数据集上使用不同路由过程的CapsNets的性能如下所示，其中使用标准（未转换）的测试数据集。我们可以观察到路由过程并没有提高性能。0从这个实验中，我们只能得出结论，路由过程对CapsNets的泛化能力没有贡献。在工作[23]中，CapsNets除了分类性能外，还展示了许多优越的性质。接下来，我们将分析无路由的CapsNets的性质，并将其与动态路由的CapsNets进行比较。05.1.1 关于胶囊学习表示0在训练CapsNets时，原始输入是从高级胶囊的活动向量（即实例化参数）中重构出来的。重构被视为一种正则化技术。在具有动态路由的CapsNets中[23]，活动向量的维度学习如何跨越包含大变化的空间。为了检查具有无路由的CapsNets的这种属性，我们按照[23]的方法，将扰动的活动向量输入到解码器网络中。0图4：胶囊的解耦个体维度：通过扰动一个活动向量的维度，可以重构输入图像的变化。0维度的扰动也会导致重构输入的变化。我们在图4中展示了一些示例。这些变化包括笔画粗细、宽度、平移、旋转和各种组合。在图5中，我们还可视化了具有动态路由和无路由的模型的重构损失。无路由的CapsNets显示出更小的重构误差，并且可以更好地重构输入。0图5：CapsNets在测试数据集上的Dynamic-R和No-R的平均重构损失在训练过程的每个时期中显示。05.1.2 胶囊之间的并行注意机制0动态路由可以被视为一种并行的注意机制，其中每个高级胶囊都会关注一些活跃的低级胶囊并忽略其他胶囊。并行的注意机制使模型能够在图像中识别多个对象，即使对象重叠[23]。并行注意机制的优越性可以在MultiMNIST数据集[9,23]上的分类任务上展示出来。该数据集中的每个图像包含两个高度重叠的数字。具有动态路由过程的CapsNet在这个任务上表现出很高的性能。在这个实验中，我们展示了胶囊之间的并行注意机制可以在没有路由机制的情况下隐式学习。按照[23]的实验设置，我们在相同的高度重叠数字分类任务上使用No-R训练了一个CapsNet。No-R模型在测试集上达到了95.49%的准确率，而使用Dynamic-R的模型达到了95%的准确率。去除路由过程并不会使CapsNets的并行注意机制消失。05.1.3 对仿射变换的鲁棒性0CapsNets也以其对仿射变换的鲁棒性而闻名。检查是否去除路由过程会影响仿射鲁棒性是很重要的。我们在一个标准基准任务上进行实验。按照[23]的方法，在MNIST训练数据集上训练带有或不带有路由过程的CapsNets，并在上面进行测试CNN [23]99.22%66%Dynamic-R [23]99.23%79%No-R99.22%81.81%72910（a）没有路由过程：CapsNets和Aff-Capsnets在扩展的MNIST测试集和AffNIST测试集上的测试准确率。0（b）使用动态路由：CapsNets和Aff-Capsnets在扩展的MNIST测试集和AffNIST测试集上的测试准确率。0图6：对于有或没有路由过程的两种情况，Aff-CapsNets在AffNIST测试数据集上明显优于CapsNets。0affNIST数据集。MNIST训练数据集中的图像随机放置在40×40像素的黑色背景上，以匹配affNIST数据集中的图像大小。CNN基线与[23]中设置相同。当它们在未经变换的示例上达到不同的准确率时，很难确定哪个模型更擅长于推广到新颖的仿射变换。为了消除这个混淆因素，我们在它们达到相似性能时停止训练模型，遵循[23]。性能如表2所示。在没有路由过程的情况下，CapsNets显示出更好的仿射鲁棒性。总之，我们的实验表明，动态路由过程既不对泛化能力有贡献，也不对仿射鲁棒性有贡献。由于CapsNet的高仿射鲁棒性不能归因于路由过程：相反，是CapsNets的归纳偏好（架构）对仿射鲁棒性有贡献。05.2. Aff-CapsNets的仿射鲁棒性0在第4节中，我们提出了对输入的新颖仿射变换更具鲁棒性的Aff-CapsNets。在这个实验中，我们分别使用Dynamic-R和No-R训练Aff-CapsNets。作为对比，我们还相应地训练了带有或不带有动态路由的CapsNets。我们可视化了在扩展的MNIST测试集和AffNIST测试集上的测试准确率。性能如图6所示。线条显示了平均值，而线条周围的彩色区域描述了不同种子引起的方差。图6a显示了在没有路由过程的情况下训练的模型的准确率。我们可以观察到0模型 MNIST测试 AffNIST测试0表2：在扩展的MNIST测试集和AffNIST测试集上的性能。0Aff-CapsNets在AffNIST上的准确性始终优于CapsNets。在很大程度上，我们的Aff-CapsNets填补了在未变换示例上的测试准确性和变换示例上的测试准确性之间的性能差距。此外，即使在训练中应用动态路由，Aff-CapsNet架构仍然有效（见图6b）。我们还可以观察到，具有动态路由的CapsNets过拟合于当前视点。随着训练过程的进行，耦合系数极化（接近0或1）[17]。耦合系数的极化导致过拟合。此外，具有动态路由的训练比无路由的训练更不稳定。图6b中模型测试性能的方差比图6a中的方差要大得多。我们现在将我们的模型与之前的工作进行比较。在表3中，我们列出了CNN变体和CapsNet变体在此任务上的性能。在没有在AffNIST数据集上训练的情况下，我们的Aff-CapsNets在AffNIST测试数据集上实现了最先进的性能。该实验表明，所提出的模型对输入仿射变换具有鲁棒性。72920在AffNIST数据集上训练的模型？MNIST AffNIST0边缘CNN [28] 是 97.82% 86.79% TransRA CNN[1] 是99.25 % 87.57% BCN [3] 混合* 97.5% 91.60%0CNN [23] 否 99.22% 66% Dynamic-R [23] 否 99.23% 79%GE-CAPS [16] 否 - 89.10% SPARSECAPS [22] 否 99% 90.12%Aff-CapsNet + No-R 否 99.23% 93.21 ( ± 0.65) %0表3：在基准任务上与最先进性能的比较。06. 讨论0常规CNN、Aff-Capsnet和CapsNets之间的区别：卷积层中的每个神经元只连接到输入的局部空间区域。然而，胶囊层中的每个元素（无论是否有动态路由）都连接到所有输入胶囊的所有元素。通过考虑全局信息，胶囊层提取的特征对于某些任务可能更有用，例如仿射变换图像分类或语义图像分割。没有动态路由的胶囊层与全连接（FC）层有什么区别？在FC层中，每个神经元也连接到前一层的所有神经元。与FC层相比，卷积层显示出归纳偏差，即局部连接和参数共享。类似地，胶囊层可能显示出一种新的归纳偏差，即一种新的组合前一层激活的方式。CapsNet架构与CNN架构之间的关系如图7所示。CapsNets可以被看作是与CNN平行的新架构。在过去的几年里，我们的社区一直致力于手动或自动地探索CNN架构。该图表明CNN范式之外还有“空间”：CapsNets，甚至其他未被探索的选项。通过CapsNets深入研究：使CapsNets变得更深的一种方法是将CNN的高级训练技术集成到CapsNets中。集成跳跃连接[8,21]和稠密连接[11,20]已被证明是成功的。与盲目地将更高级的技术从CNN集成到CapsNets不同，更有前途的是对CapsNets中的有效组件进行更深入的研究。我们的研究发现，动态路由过程既不对CapsNets的泛化能力有贡献，也不对其仿射鲁棒性有贡献。这样的结论对于在大规模数据集（例如ImageNet1K数据集[7]）上训练CapsNets非常有帮助。0图7：不同CNN架构和胶囊网络架构之间的关系。0除了目标识别任务之外，CapsNets还应用于许多其他计算机视觉任务，例如目标分割[14]、图像生成模型[12,24]和对抗性防御[10]。目前尚不清楚这些任务是否需要路由过程。如果这些任务也不需要路由过程，那么CapsuleNets的架构可以更轻松地集成到这些视觉任务中。CapsNets中路由过程的必要性[23]证明了动态路由相对于CNN的许多优势。然而，我们的研究表明，当移除路由过程时，并不会使所有优势消失。我们的论文并不声称路由没有任何好处，而是向社区提出了一个问题：路由过程到底有什么好处？如果对于某个任务来说，路由过程是不必要的，那么CapsNets有机会成为一个更易于使用的构建模块。07. 结论0我们重新审视了胶囊网络的动态路由过程。我们的数值分析和广泛实验表明，删除动态路由过程既不会降低CapsNets的泛化能力，也不会降低其仿射鲁棒性。这一观点引导我们将重点放在CapsNet架构上，而不是各种路由过程上，以提高仿射鲁棒性。在探索CapsNet架构的局限性后，我们提出了Aff-CapsNets，它使用更少的参数显著提高了仿射鲁棒性。由于这项工作主要关注仿射变换的鲁棒性，我们研究了具有动态路由的标准CapsNets。改进的CapsNets还展示了其他有益的特性，如对抗鲁棒性和视角不变性。对这些特性的进一步分析将在未来的工作中进行。72930参考文献0[1] Shuhei Asano.提出了具有变换鲁棒性的注意力卷积神经网络。博士论文，早稻田大学，2018年。0[2] Mohammad Taha Bahadori.具有谱胶囊网络。ICML研讨会，2018年。0[3] Simyung Chang, John Yang, SeongUkPark和Nojun Kwak.用于视觉关系推理的广播卷积网络。ECCV，页码754–769，2018年。0[4] Zhenhua Chen和David Crandall.具有可训练路由过程的广义胶囊网络。ICML研讨会，2019年。0[5] Zhenhua Chen, Xiwen Li, Chuhua Wang和DavidCrandall.不使用路由过程的胶囊网络。ICLR开放审查提交，2020年。0[6] Jaewoong Choi, Hyun Seo, Suii Im和MyungjooKang.胶囊之间的注意路由。IEEE国际计算机视觉会议论文集，页码0–0，2019年。0[7] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, KaiLi和Li Fei-Fei.ImageNet：一个大规模的分层图像数据库。CVPR，页码248–255，2009年。0[8] Kaiming He, Xiangyu Zhang, Shaoqing Ren和Jian Sun.深度残差学习用于图像识别。CVPR，页码770–778，2016年。0[9] Geoffrey E Hinton, Zoubin Ghahramani和YeeWhye Teh.学习解析图像。神经信息处理系统进展，页码463–469，2000年。0[10] Geoffrey E Hinton, Sara Sabour和Nicholas Frosst.具有EM路由的矩阵胶囊。ICLR，2018年。0[11] Gao Huang, Zhuang Liu, Laurens Van DerMaaten和Kilian Q Weinberger.密集连接卷积网络。CVPR，页码4700–4708，2017年。0[12] Ayush Jaiswal, Wael AbdAlmageed, Yue Wu和PremkumarNatarajan.CapsuleGAN：生成对抗胶囊网络。ECCV，页码0–0，2018年。0[13] AlexKrizhevsky等。从微小图像中学习多层特征。2009年。0[14] Rodney LaLonde和Ulas Bagci.用于对象分割的胶囊。医学图像深度学习国际会议，2018年。0[15] Yann LeCun, L´eon Bottou, Yoshua Bengio, andPatrick Haffner.基于梯度的学习应用于文档识别。IEEE会议论文集，86(11)：2278–2324，1998年。0[16] Jan Eric Lenssen, Matthias Fey和PascalLibuschewski.群等变胶囊网络。神经信息处理系统进展，页码8844–8853，2018年。[17] Hongyang Li, Xiaoyang Guo, BoDaiWanli Ouyang和Xiaogang Wang.神经网络封装。ECCV，页码252–267，2018年。[18]Yuval Netzer, Tao Wang, Adam Coates, AlessandroBissacco, Bo Wu和Andrew Y Ng.使用无监督特征学习在自然图像中读取数字。2011年。[19]Inyoung Paik, Taeyeong Kwak和Injung Kim.胶囊网络需要改进的路由算法。ArXiv，abs/1907.13327，2019年。[20] Sai Samarth R Phaye, Apoorva Sikka,Abhinav Dhall和Deepti R Bathula.多级密集胶囊网络。亚洲计算机视觉会议，页码577–592。Springer，2018年。[21] Jathushan Rajasegaran, VinojJayasundara, Sandaru Jayasekara, Hirunima Jayasekara,Suranga Seneviratne和Ranga Rodrigo.DeepCaps：使用胶囊网络进行更深入的研究。CVPR，页码10725–10733，2019年。[22] David Rawlinson,Abdelrahman Ahmed和Gideon Kowadlo.稀疏无监督胶囊更好地泛化。arXiv预印本arXiv:1804.06094，2018年。[23] Sara Sabour, NicholasFrosst和Geoffrey E Hinton.胶囊之间的动态路由。神经信息处理系统进展，页码3856–3866，2017年。[24] Raeid Saqur和Sal Vivona.使用动态路由的生成对抗网络。科学与信息会议，页码511–525。Springer，2019年。[25] Dilin Wang和Qiang Liu.动态胶囊之间的优化视角。ICLR研讨会，2018年。[26]Han Xiao, Kashif Rasul和Roland Vollgraf.Fashion-mnist：用于机器学习算法基准测试的新型图像数据集。arXiv预印本arXiv:1708.07747，2017年。[27]Suofei Zhang, Quan Zhou和Xiaofu Wu.基于加权核密度估计的快速动态路由。人工智能和机器人国际研讨会，页码301–309。Springer，2018年。[28] JianZhao, Jianshu Li, Fang Zhao, Xuecheng Nie, YunpengChen, Shuicheng Yan和Jiashi Feng.边缘化CNN：学习深度不变表示。BMVC，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载