预测-调整胶囊网络：一种适用于更深层次结构的新型预测-调整胶囊网络

105 浏览量更新于2023-10-13 收藏 750KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11996PT-CapsNet：一种适用于更深层次结构的新型预测-调整胶囊网络Chenbin Pan和Senem VelipasalarEECS系，锡拉丘兹大学，锡拉丘兹，纽约13244{cpan14，svelipas} @ syr.edu*摘要胶囊网络（CapsNets）通过两阶段过程（部分-整体转换和分层组件路由）将输入解析为不同分辨率级别的各种实例来创建内部表示。由于这两个内部阶段的计算都很昂贵，CapsNet没有得到更广泛的使用。CapsNet的现有变体主要集中在与原始CapsNet的性能比较上，并且在复杂任务上没有优于基于CNN的模型为了解决现有CapsNet结构的局限性，我们提出了一种新的预测调整胶囊网络（PT-CapsNet），并引入了全连接PT胶囊（FC-PT-Caps）和局部连接PT胶囊（LC-PT-Caps）。与现有的CapsNet结构不同，我们提出的模型(i)允许胶囊用于更困难的视觉任务并提供更广泛的适用性;以及（ii）在这些复杂任务上提供比基于CNN的基线更好或可比较的性能。在我们的实验中，我们通过构建更大更深的网络并对分类、语义分割和对象检测任务进行比较，展示了对仿射变换的鲁棒性，以及PT-CapsNet的轻量级和可结果表明，一致的性能改善和显着的参数减少相比，各种基线模型。代码可以在https://github.com/Christinepan881/PT-CapsNet.git上找到。1. 介绍卷积神经网络（CNN）[4][12][27]可以通过组装一组寻找不同模式的小内核来捕获类似于人类视觉系统的对象特征。他们学习丰富要素表示的* 本文提供的信息，数据或工作部分由美国国家科学基金会（NSF）资助1739748和18167325，并由美国高级研究计划能源（ARPA-E）资助。能源部，授予号DE-AR 0000940。作者在此表达的观点和意见不一定代表或反映美国政府或其任何机构的观点和意见。已经允许他们为各种视觉任务找到广泛的应用。当观察一个物体时，人类会将其解构为分层的子部分，并倾向于在物体部分之间建立关系[10]。这个解析过程与胶囊网络（CapsNets）[26]非常一致。胶囊代表不同类型的部件/实例，并且每个胶囊是神经元的集合，封装部件/实例的不同属性，例如，神经元的集合。比例、方向等。胶囊层由多个胶囊组成。后续胶囊层之间的特殊协议/路由机制用于解析不同级别的胶囊。不同属性的封装和协议机制鼓励每个胶囊负责捕获实体是如何表示的，而不是像传统神经元激活那样仅指示其存在。然而，现有的CapsNet变体具有几个限制，阻止它们像CNN一样被广泛采用。首先，胶囊之间的完全成对连接更多地关注全局信息，但不利于捕获不同的局部关系。其次，当堆叠胶囊层时，每个胶囊之间的完全成对连接倾向于指数地增加参数的第三，协议路由机制[26]在计算上是昂贵且耗时的。由于这些限制，目前的CapsNets无法推广到更广泛的更复杂的计算机视觉任务和涉及更深网络的数据集。为了利用CapsNets的所有优点并充分发挥其潜力，我们提出了一种新的预测 - 调整胶囊网络（ PT-CapsNet），以克服以前CapsNets的局限性。我们证明了PT-CapsNet是胶囊网络的可扩展和等变模型，并且从输入胶囊到输出胶囊空间具有更稀疏的投影，提供了更好的鲁棒性和泛化能力。与现有CapsNets变体不同，我们的贡献包括以下内容：我们（i）提出了一个新的PT-CapsNet，它是轻量级和高效的;（ii）引入两个实例层-全连接PT11997Σ×∈∈∈∈×∈∈胶囊层（FC-PT-Caps）和本地连接的PT cap-caps层（LC-PT-Caps）-使PT-CapsNet适用于各种深度学习架构;（iv）设计用于分类的PT-CapsNet架构，其由多个FC-PT-Caps和LC-PT-Caps组成;（v）进行实验以验证PT-CapsNet对仿射变换的鲁棒性，并且通过使用与先前的CapsNet相比少29倍的参数数量来实现更好的结果;（vi）将我们的模型扩展到用于分类、语义分割和对象检测任务的更大的深度学习架构，并且使用少得多的参数实现比基于CNN的基线更好或相当的性能。2. 相关工作考虑到胶囊中存储的丰富信息，已经提出了一些工作来改进CapsNets。在原始CapsNet [26]的基础上构建，EM-Caps [13]使用矩阵来表示姿势，并使用基于期望最大化的路由算法以获得更好的性能。Deep-Caps[20]旨在提高CapsNets [26]在CIFAR 10 [16]数据集上的性能SOVNET [32]使用度中心路由来获得CapsNets的等变模型。GCaps [18]是一个群等变胶囊网络。尽管上述CapsNets变体与原始CapsNets相比实现了改进，但是它们不能达到与常用CNN可比的性能，并且仅适用于简单的图像分类任务。具有ResNet主干的反向点积注意力胶囊网络（IDACapsNet）[29当IDACapsNet使用更简单的CNN主干（0.56M参数）时，它只能提供85.17%的准确率。SR-CapsNet [11]在对抗性防御和视点生成方面实现了有竞争力的性能在[17]中，提出了一种具有用于医学图像分割的编码-解码胶囊架构的与U-Net [24]相比，该模型提供了0.03%的轻微改进，这不是用于语义分割的SOTA。在[23]中，引入了注意群卷积来突出对称性之间的有意义的关系。SubSpaceCapsNet [8]应用于GAN，在半监督分类中实现SOTA性能在[33]和[1]中，作者将CapsNet应用于字体样式验证和COVID-19识别，重新发布。在[2]、[15]中引入了3DCapsNets用于体积对象分类，并且提出了3D点云capsel网络[37]用于对象分类、部分分割和对象重建。然而，这些模型仅采用1-2个胶囊层作为小组成。3. 所建议模型在CapsNet中，每个胶囊是神经元的集合，其表示部件/实例的姿态的不同属性，例如位置、比例、方向等。已经采用不同的方式来表示姿态，并且指示部件/实例的存在概率。此外，在CapsNets中使用非线性来归一化胶囊。Sabour等人[26]使用向量作为姿态结构来表示胶囊，向量的l2范数指示实例存在概率，并且挤压函数作为非线性。Hinton等人[13]，使用4 × 4矩阵来表示部件的姿态，并使用EM路由来确定逻辑单元和非线性。在我们的工作中，我们提出了一个预测调整胶囊网络（PT-CapsNet），这是比以前的CapsNet结构更有效和轻量级PT-CapsNet使用矢量形式来表示胶囊姿态。为了能够处理更大和更复杂的数据集，并使所提出的PT-CapsNet适用于更广泛的具有挑战性的任务，我们还提出了一个完全连接的PT-Capsule层。3.2中的局部连接的PT-胶囊层和3.2中的局部连接的PT-胶囊层。三点三然后，使用这两种类型的胶囊层，我们构建了一个新的深层PT- CapsNet架构，用于Sec. 三点四分。3.1. 预赛设X表示层1处的输入胶囊图，其中C_in是输入胶囊类型的数量，并且N_in是输入姿态向量的维度。层1的功能是在层1+1处将X转移到更高级别的胶囊，YRC输出，N输出。现有CapsNet结构结构首先将C_out-许多不同的变换矩阵M_R_N_in，N_out应用于C_in-许多输入胶囊中的每一个，生成C_in，C_out- 许多预测（uRNout）forCout-许多更高级别的胶囊。目标是探索两个连续层中的胶囊之间的成对关系。产生的预测通常被称为中间投票，然后被转发到协议路由机制。在该阶段中，通过考虑每个更高级别的胶囊的中间投票的重要性/贡献来进一步评估部分-整体关系CinCout-许多权重/耦合系数（w）被计算为对之间的一致性值。最后，通过计算由层l中的胶囊对该输出胶囊做出的中间预测的加权和来产生每个输出胶囊。该两步过程可描述为：ui，j=C在yj=wi，j×我其中，i [1，C_in]和j[1，C_out]指示通信节点的ID第i个输入胶囊和第j个输出胶囊。11998∈∈× ××× ×××××××∈Σin∈∈我∈因此，对于先前的CapsNet，有必要训练大量参数以用于对两个连续层中的胶囊之间的成对关系进行对于完全连接，典型的示例是[26]，其中变换矩阵的参数的总数是CinCoutNinNout。然而，在路由过程的权重分布之后，仅强调预测向量中的一些具有较小权重的压缩矢量对于较高级别的胶囊将不会有太多贡献这是由于以下事实：一般而言，并非一个层中的所有实体都表示一个特定对象的组件，即并非所有的胶囊对都具有显著的关系。因此，成对投影导致提供不必要或冗余信息的过量计算此外，典型的动态路由算法可以很容易地受到具有较长长度的向量的影响，而不管它们的预测是否可靠。补充材料中提供了这一限制的细节因此，大量参数和工作流程的低效率抑制了许多胶囊层的堆叠以按比例放大到大型架构。3.2. 完全连接的PT电容器为了解决上述限制，我们引入了完全连接的预测调整胶囊（FC-PT-Caps）层。对于FC-PT-Caps层，不是使每个输入胶囊对所有输出胶囊进行预测，而是首先通过采用Cin许多变换矩阵（M′）将具有低级姿态的低级胶囊XRCin，NinRNin，Nout）与相应的输入胶囊执行矩阵乘法我们指的是所得胶囊具有高-因此，在第一阶段中，每个胶囊独立地经历姿态当解析对象关系时，如果两个实例是互斥的，则它们将不连接，这意味着不需要一个预测另一个并生成配对预测。考虑到这一点，我们只对每个输入实例进行一次预测换句话说，我们对每个输入实例执行高级姿势变换，而不是使每个实例预测所有高级实例。在第二阶段，调谐机制将从隐藏的胶囊中提取所需的信息，并将其融合以合成高级实例。以这种方式，我们提供了显着的节省内存和计算的要求，这是其他明智的浪费在生成无效的对和冗余的信息。此外，在调整阶段中使用的向量形式权重确保较高级别胶囊的姿态中的每个特征是从隐藏胶囊的姿态中的对应特征推断的，并且不受其他类型的特征的影响，而在先前的CapsNet中，每个中间胶囊中的特征在预测输出时被赋予相同的权重。在我们提出的结构中，两个阶段中的参数都是可训练的，因此它们可以在训练期间积累知识。在以前的CapsNet中，只有第一步是可训练的，以服务于此功能。一般来说，与以前的CapsNets不同，我们的FC-PT-Caps首先执行胶囊预测，然后进行特征调整。按照上述符号，FC-PT-Caps的训练参数的总数可以计算如下：对于逐胶囊预测阶段，水平假设为隐藏胶囊，H∈RCin，Nout。目标转换矩阵的结果为C×Nin ×N输出pa-是学习输入胶囊的低级姿态和高级姿态之间的关系然后，为了探测低级和高级胶囊类型之间的关系，我们使用矢量形式的权重，而不是标量权重，来细化隐藏胶囊。我们把这个过程称为矢量调谐过程。更具体地，当导出每个高级胶囊时，在许多向量中将存在C参数;然后对于特征方面的调谐阶段，CinCout-许多向量权重导致CinCoutNout-许多参数。因此，与先前CapsNet中的C in C out N in Nout-许多参数相比，FC-PT-Caps总共具有C in Nout（Nin+Cout）-许多参数。可以看出，FC-PT-Caps和以前的CapsNet的参数数量的差异是形成权重（v∈RNout），用于执行只受N值的影响和C出来 . 在这项工作中，与对应的C在许多隐藏向量中的元素乘法。在相乘之后，R_C_out，C_in，N_out维空间中的加权隐藏向量为我们根据经验选择胶囊类型的数量（C）为2a，其中a[4，9]，并且胶囊矢量的维度（N_in）选自[4，8，16]。这两种超-沿着C轴求和以获得最终胶囊Y′RC出局N出局。补充材料中提供了说明该过程的图。整个过程可以由等式（1 ）表示。（3 ）和方程（四）：参数选择对应于先前CapsNet常用的设置。基于这些选择，很明显，我们的FC-PT-Caps比其他产品更轻中列出了用于比较的参数的确切数量hiC=（三）第4.2节，以证明我们的模型具有比其他模型少得多的参数。同时提供了在数量上的其中i[l，C_in]和j[l，C_out]分别指示第i个输入胶囊和第j个输出胶囊的ID。参数，我们提出的模型不会失去任何原始CapsNet的功能，并且仍然可以解析y’j=vi，j×11999ΣΣ×∈Σ∈∈∈×HΣΣ=xLCΣi，p，qi、a、bi，ap，bq视觉对象的分层组件结构。为了证明这一点，让我们考虑相同的输入X，并分别用Y和Y′表示以前的CapsNet和我们的FC-PT-Caps的输出。如果两个输出都可以从基于X的相同组合结构中导出，我们可以说之前的CapsNets和FC-PT- Caps可以探索等效的特征空间。该定义保留了从输入空间到输出空间的变换，这意味着分层组合结构中的信息将不会丢失。对于以前的CapsNets，当Eq.（1）和方程（2）的组合，我们得到如等式（1）所示的（五）：C在yj=wi，j×（（五）我基于交换性质和结合性质，上面的求和项可以写为：wi，j×（xi·Mi，j）=xi·（wi，j×Mi，j）.（六）我们可以设置Ti，j=wi，j Mi，j，其中矩阵TRNin，Nout具有分别来自协议路由和投票过程的两个分量。然后，Eq.（5）可以改写如下：C在yj=xi·Ti，j。（七）我类似地，对于我们的FC-PT-Caps，当Eq.（3）和方程（4）的组合，y’j可以写成等式（4）中的形式。（八）、C在之前的CapsNet和FC-PT-Caps。此外，我们的FC-PT-Caps可以使用更少的参数到达相同的目的地，这意味着我们从输入空间到输出空间的投影更加稀疏。因此，可以适当避免通常影响以前CapsNets的过拟合问题，使我们的模型更灵活，可以推广到更复杂的数据集。我们还验证了我们的模型的鲁棒性。四点二。3.3. 局部连接的PT电容器全连接（FC）胶囊层更侧重于提取全局信息，但不利于捕获相邻位置之间的各种局部关系仅堆叠CapsNet的FC层也会生成大量参数，需要大量的内存和计算资源，并导致泛化能力弱和过拟合问题。因此，为了解决这些问题，并进一步增强我们的模型的适用性，我们还提出了一个局部连接的PT-CapsNet，它被称为LC-PT-Caps层。代替如在FC层中对应于单个胶囊的一个胶囊类型，在局部连接层中，一个胶囊类型包围胶囊的映射。因此，为了表示不同LC-PT-Caps层之间的流动，除了胶囊类型轴和胶囊尺寸轴之外，胶囊张量域还包含位置轴。设XLCRCin，Nin，Hin，Win和YLCRCout，Nout，Hout，Wout表示输入和输出特性y’j=然后我们可以写vi，j×（（八）我映射，分别用于LC-PT-Caps层1。类似于FC-PT-Caps层，我们首先将输入胶囊图的低级姿势演变为高级姿势。对于每种类型的胶囊地图，我们使用一个矩阵的滑动窗口哪里vi，j×（xi· Mi′）=xi· （Vi′，j×Mi′），（9）inRNin，Nout，其中共享[K1，K1]的接收字段在不同的位置之间，做矩阵乘法其中每个胶囊矢量在接收场内。再-Vi，j=tile（extend（vi，j）），（10）也就是说，V′∈RNin，Nout是通过首先扩充v∈RN出到矩阵V∈R1，N出，然后沿着对一个字段中的结果向量求和以得到对应位置和胶囊类型处的隐藏胶囊向量。基于胶囊连接隐藏向量-将第一轴中N次然后，我们使用矩阵T′∈类型，我们得到隐藏映射HLCRCin，Nout，Hhid，Whid.该过程可以表示为：RNin，Nout使得Ti′，j = Vi′，j Mi′. 很明显，T’由来自预测阶段和向量调整阶段的参数组成。因此，Eq.（8）可以改写为：LCi，a，bK1K1LCi，ap，bq·Mi，p，q，（12）C在y′j=xi·Ti′，j.（十一）其中hLC关于LCXLCp q表示进化的隐藏向量在[a，b]位置，胶囊向量在[ap，bq]位置12000我比较Eq（7）和（11），很明显，y和y′的第i个输入胶囊类型，并且MLC表示通过经由R N in ，N out 维空间中的矩阵将输入胶囊x投影到RNout空间中，然后对所转移的向量求和来构造。因此，我们可以得出结论，尽管过程不同，但y和y′可以通过以下方式投影到相似的特征空间中：第i个输入胶囊类型的滑动窗口的[p，q]位置处的矩阵该操作是胶囊类型方面的，因此使用共享矩阵，一种类型的输入胶囊将对一种类型的隐藏胶囊进行预测。然后，在许多滑动矩阵组中将存在C，其中12001∈× × ××∈∈Σ=v×hi，ap，bq× × ×××× × × × ××× × × × × × ××生成CK1K1中NNout-用于第一预测阶段的许多参数。对于LC-PT-Caps的第二阶段，类似于FC-PT-Caps中的调谐步骤，我们调整并融合来自隐藏胶囊的信息以获得更高级别的胶囊。为了在RNout，Hout，Wout中产生每个输出胶囊图，我们使用权重的滑动立方体VLCRK2，K2，Nout来在每个输出胶囊图的位置执行逐元素乘法。隐藏胶囊贴图的类型，其中[K2，K2]表示窗口大小（接收字段大小）和N_out表示。发送每个位置的N个输出然后，为了利用来自每种胶囊类型的特征，将加权的隐藏胶囊向量加在一起以得到对应位置处的高级胶囊向量。通过基于输出capsule-type连接产生的capsule贴图，我们可以得到最终的贴图YLC[Cout，Nout，Hout，Wout]。该过程可以表示为：对于每个LC-PT-Caps块，有五个胶囊单元和一个级联单元，如图所示。1.一、对于每个胶囊单元，我们在一个LC-PT-Caps层之后采用BN并且在非线性函数之前。我们为所有LC-PT-Caps层设置K1=1和K2[1，3]每个区块中的第一个胶囊单元（紫色方块）被视为一个过渡单元。处理单元，用于处理来自先前块的输入胶囊图。第一LC-PT-Caps块中的转换单元K2=3，其余的K2=1。第二个帽子--胶囊单元用于更改胶囊要素的大小通过在第二阶段修改滑动立方体的步幅来映射，因此它被称为下采样单元（蓝色方块）。我们不改变第一个LC-PT-Caps块中的特征图大小，其中步幅被设置为1。对于剩余的三个块，我们将步幅设置为2。第三和第四个胶囊单元（粉色方块）用于进一步处理下采样的胶囊输出块我们将这些块的K2设为3和1，然后跨步Cin K2K2LCj、a、bipqLCj，i，p，qLCi，ap，bq、（十三）等于1μ下采样单元和以下两个单元一起形成顺序结构来研究地图-ping转换单元的输出。第五单元LCj，i，p，q是在[p，q]位置称为起始单元（绿色方块），用于第i个隐藏胶囊图的滑动立方体，第j个输出胶囊图，yj，a，b是第j个输出胶囊图的[a，b]位置处的胶囊向量，并且hLC是第i个隐藏胶囊组的[ap，bq]位置处的胶囊向量第二阶段是特征方面的调整，使得为了预测一种类型的胶囊图，将需要许多共享立方体中的C，这导致C位出道C在K2K2N出-许多参数。在那里-因此，LC-PT-Caps层是（C在K1K1中 NN输出）+（C输出C在K2K2N输出）=C输入N个（K1K1中N +K2K2C输出）。说明该过程的图在Sup-A中提供补充材料。LC-PT-Caps中的程序类似于FC-PT-Caps中的程序，其也是预测-调整过程。对于LC-PT-Caps层中的两个阶段，K确定捕获局部特征时的接收场大小，并且由于位置之间的共享权重，与先前的CapsNet相比，它也是轻量级结构。3.4. PT-CapsNet分类我们现在提出了一种新的PT-CapsNet架构，通过使用我们的FC-PT-Caps和LC-PT-Caps层进行分类。图中所示的模型。1由六个主要模块组成：一个卷积块、四个LC-PT-Caps块和一个FC-PT-Caps块。卷积块用于从输入图像中提取初始特征。它包含一个3 × 3卷积层，然后是一个批处理归一化（BN）层和一个ReLU激活层。为了将初始特征转移到胶囊域，我们向特征图添加表示胶囊向量维度的附加轴，使得初始胶囊向量维度为1。学习用于来自所述转变单元的所述输出的不同映射K2被设置为1，为了匹配这个连接的特征图大小，我们将步幅设置为等于并行下采样单元。级联单元用于沿着胶囊型轴合并来自顺序块和接收单元该架构是两个映射的组合，其输出连接到单个封装体输出域中。通过这种方式，我们通过扩大特征映射的胶囊类型通道来缩放CapsNet宽度，以使模型捕获各种实例并更容易训练。在四个LC-PT-Caps块之后，我们将FC-PT-Caps块作为最终分类块。对于从最后一个LC-PT-Caps块生成的特征图，我们将H、W轴与胶囊类型轴连接以将其重塑为FC胶囊域，其仅具有胶囊类型和特征尺寸轴。所得到的特征图为RH×W ×C，N。然后，我们采用一个FC-PT-Caps层。被BN和非线性函数降低，以将特征映射投影到类空间Rcls，16中，其中cls表示班级的数量为了找到获取类别胶囊的最终logits的最佳方式，我们进行消融研究以比较典型的l2范数logits和“生成的logits”，其是指使用附加的FC-PT-Caps层来生成仅具有一个表示分类概率的由于我们的实验结果表明'生成的logits'比l2范数执行得logits，我们添加另一个FC-PT-Caps层，其中输出胶囊域是R[cls，1]，以获得最终预测。第二个过渡单元中胶囊焦点的可视化见图10。2说明语义信息伊其中v12002××图1.一种新的PT-CapsNet构造的图像分类。紫色和蓝色正方形分别表示转变单元和下采样单元，粉色正方形是进一步处理胶囊的单元，并且绿色正方形表示起始单元。LC-PT-Caps单元在图中由（K1，步幅1）、（K2，步幅2）描述。由胶囊的每个级别表示。低隐藏高rgb图2.不同水平胶囊的可视化4. 实验我们的实验有三个部分：（i）为了研究不同因素对模型性能的影响并显示我们的模型的有效性，我们首先进行消融研究;（ii）为了证明PT-CapsNet的鲁棒性，我们将其性能与CIFAR 10 [ 16 ]上仿射变换下的六个不同的先前CapsNet模型进行比较;（iii）为了显示PT-CapsNet的轻量级，可扩展性和更广泛的适用性，我们将其扩展到用于不同任务的更大的深度学习架构，即CIFAR 10，CIFAR 100 [16]和FashionM-NIST数据集的分类，ISIC2018 [6][30]数据集上的语义分割，以及PASCAL VOC数据集上的对象检测[9]。4.1. 消融研究我们的消融研究集中在PT-CapsNet的三个方面。首先，我们调查的预测和调谐类型/顺序。对于第2节中介绍的PT-CapsNet。在图3中，首先执行针对高级姿态的逐胶囊预测，随后是针对更高级胶囊类型的逐特征调谐。然而，首先执行也是合理的针对更高级别的胶囊类型的特征方面的预测，随后是针对更高级别的姿态的胶囊方面的调整消融研究的第二个方面是关于logits。l2范数最常用于计算向量形式胶囊的logit[26]。我们认为，这也是明智的，应用一个额外的胶囊层，以产生类logits为每个胶囊。消融研究的第三方面与非线性函数有关。在原始CapsNet [26]中，squash函数用于归一化胶囊。在[3]中，ReLU函数被用作初级胶囊的非线性swish函数[21]也被证明可以很好地处理大型架构和高级任务[28]。为了研究最佳预测和调整类型/顺序、logit生成方法和非线性函数，我们对MNIST [7]、FashionM-NIST[35]和KMNIST [5]数据集进行了实验，涵盖表1中所示的12个组合。1.一、我们使用了一个更简单的架构，它由两个卷积层作为骨干，两个PT-Capsule层-一个LC-PT-Caps和一个FC-PT-Caps层-作为胶囊部分。卷积层之后是BN和ReLU活化，并且胶囊层之后是BN和非线性的选择。两个卷积层的通道数分别为64和128，两个层的核大小和步长分别为3 LC-PT-Caps和FC-PT-Caps的胶囊类型数量和胶囊尺寸分别为[32，8]和[10，16]LC-PT-Caps的接收场为3 ×3，立方步长为2。每个模型用SGD优化器训练100个epoch，批量大小和初始学习率分别等于128和0.1。对于每50个时期，学习率衰减为0.1。我们在所有边执行4像素零填充，并以0.5的概率进行水平翻转以进行数据增强。Tab.中的测试错误1计算为5次运行的平均值从Tab可以看出1的(i)高级姿态并且在大多数情况下，用于更高级别胶囊类型的特征方面的调整比具有用于更高级别胶囊类型的特征方面的预测和用于更高级别姿态的胶囊方面的调整的模型执行得更好;（ii）“生成的logits”（GL）始终优于基于l2范数的logits12003方法;以及（iii）尽管挤压函数与基于l2范数的方法一起工作得很好，但它不能超过与GL方法一起使用的ReLU 函数的性能。因此，为了构建最好的 PT-CapsNet，我们结合了最有前途的选项-姿势预测，GL方法和模型测试误差预测Logits激活MNISTF-MNISTKMNISTReLU0.758.298.428.129010.6821.767.777.848.19010.4474.44.355.134.29010.3910.363.475.023.58909.5466.06GL0.81壁球特点-0.76Swish明智88.65L2ReLU预测1.66壁球42.26Swish0.63ReLUGL0.74壁球胶囊-0.64Swish明智88.65L2ReLU预测1.5289.9壁球Swish表1. MNIST、Fashion-MNIST和KM-NIST数据集的消融研究。4.2. 仿射变换的鲁棒性我们比较了我们的分类模型，该模型具有0.29M参数，并在第2节中进行了描述。3.4，具有六种基于CapsNet 的方法，关于仿射变换的鲁棒性，用于CIFAR10上的分类。我们比较的方法及其训练参数的数量是 CapsNet （ 8.5M ） [26] ， EM-Caps （ 0.32M ）[13] ， G-Caps （ 7.8M ） [18] ， SR-CapsNet （ 3.2M ）[11] ， DeepCaps （ 8.5M ） [20] 和 SOVNET （ 7.3M ）[32]。我们的仿射变换方法与[32]中相同。我们通过随机转换数据创建了五个训练集和测试集的变体。我们考虑平移和旋转的组合。我们从以下5个组合中选择平移范围和旋转度数：[0像素，0◦]，[2像素，30◦]，[2pix.，60◦]，[2 pix.，90◦]，和[2 pix.，180分]。我们分别在训练集的五个转换版本上训练每个模型，然后在测试集的所有五个转换版本上测试它们。因此，对于每个模型，表2中总结了25个耐用性评价结果。我们的PT-CapsNet在大多数情况下都优于其他人，这表明PT-CapsNet 更强大。在 25 个案例中， SR-CapsNet ，SOVNET和DeepCaps仅提供了8个更好的准确性，但它们的准确性仍然很低。表2.CIFAR-10数据集上的仿射变换实验4.3. 与基于CNN的网络在高级视觉任务上的比较参数的数量比我们的高得多（几乎是11、25和29倍）。此外，PT-CapsNet在未转换数据集上的性能其中具有最少数量的参数的PT-CapsNet进一步证明了鲁棒性主要来自框架和稀疏投影空间。我们进行图像分类，语义分割，和对象检测实验，比较提出的PT-CapsNets与几个基于CNN的模型在各种数据集。为了进行相称的比较，我们在PyTorch框架[19]中复制了所有模型，并报告了我们的复制结果。对于图像分类，我们使用CIFAR-10 [16]、CIFAR-100[16]和未转化CIFAR-10模型（0，0 °）（2，30 °）（2，60 °）（2，90 °）（2，180 °）中文[26]68.2855.5743.5537.4830.89EM[13]62.8549.2841.2734.7329.9GC[18]49.5438.4531.8930.8827.7SR[11]91.4962.2542.1836.8930.26华盛顿特区[20]76.7667.9753.5645.2235.67SN[32]88.3447.5742.2443.7543.52我们91.2170.1850.4146.7940.56仿射变换的（2，30 °）训练模型（0，0 °）（2，30 °）（2，60 °）（2，90 °）（2，180 °）中文[26]73.4569.8761.1752.2945.58EM[13]70.2466.6359.1050.9342.26GC[18]49.548.8845.7542.9338.74SR[11]90.3689.1578.0765.3750.07华盛顿特区[20]84.2482.5474.6363.5448.63SN[32]86.5885.3582.5179.1469.64我们90.1688.4185.278.570.7仿射变换的（2，60 °）训练模型（0，0 °）（2，30 °）（2，60 °）（2，90 °）（2，180 °）中文[26]70.2667.6966.6260.0447.99EM[13]66.5365.0963.2158.0447.61GC[18]49.6350.3148.8447.4343.11SR[11]86.1887.7884.6880.2160华盛顿特区[20]83.9283.6382.7978.0960.02SN[32]82.8683.6383.5783.0680.89我们87.3486.8285.4984.9781.7仿射变换（2，90 °）训练模型（0，0 °）（2，30 °）（2，60 °）（2，90 °）（2，180 °）中文[26]67.8165.6465.4664.3552.79EM[13]64.3363.062.761.4252.08GC[18]49.9851.2450.6349.9546.59SR[11]85.1783.9783.2682.1567.73华盛顿特区[20]82.9182.7882.6682.6268.34SN[32]83.3382.7682.5882.7982.22我们85.4284.7783.8582.8475.91仿射变换（2，180 °）训练模型（0，0 °）（2，30 °）（2，60 °）（2，90 °）（2，180 °）中文[26]61.0859.5360.0459.8559.912004模型mIoU #paramsUnet65.57 31.1百万PT-Caps-Unet66.86 19.8百万DeepLabv3+82.85 59.3百万PT-Caps-DeepLabv3+44.6百万表3.CIFAR10数据集上的图像分类结果模型top-1 acc.Mac.#参数ResNet70.32255.28M1.74MPT-CapsResNet71.39225.79M1.16MWRN81.095.25G36.54MPT-CapsWRN81.583.51G19.23MDenseNet77.12296.51M800.03KPT-CapsDenseNet78.36261.03M655.28K表4.CIFAR100数据集上的图像分类结果模型top-1 acc.Mac.#参数ResNet94.36195.22M1.73MPT-CapsResNet95.28171.5M1.12MWRN95.344.02G36.48MPT-CapsWRN95.572.68G19.21MDenseNet95.39226.66M768.73KPT-CapsDenseNet95.99200.37M726.45K表5.FashionMNIST数据集上的图像分类结果Fashion-MNIST [35]数据集，并采用ResNet-110 [12]，WRN-28-10 [36]和DenseNet-100 [14]作为我们的基线模型。对于语义分割，我们使用 ISIC 2018 数据集[6][30]，并采用U-Net [24]和DeepLabv 3 + [4]作为基线。对于对象检测，我们使用PASCAL VOC数据集[9]，并与YOLO-v5 [31，22]进行比较。我们分别用LC-PT-Caps层和FC-PT-Caps层替换基线中的卷积层和FC层，以构建我们的基于PT-CapsNet的模型。对于PT-DeepLabv 3+和PT-YOLO-v5，我们分别采用在ImageNet [25]和CSPNet [34]上预训练的ResNet-101对于胶囊网络，需要考虑胶囊类型的数量和胶囊尺寸。补充材料中提供了用于PT-CapsNets的超参数以及所有实施细节和一些可视化结果。三个不同数据集的图像分类结果总结在表3、4和5中。我们报告了top-1精度，以验证有效性，以及参数总数（#params）和乘法累加总数（MAC）。以显示我们的PT-CapsNets的紧凑性。可以看出，PT-CapsNet略微优于所有三个CNN基线，同时提供参数数量和计算量的显著减少分割结果总结在表6中，列出了每个模型的平均交集与并集（mIoU）和参数PT-CapsNets可以表6.ISIC 2018数据集上的语义分割结果模型mAP1MAP2预处理召回# paramYOLO-v57852.2154.2883.277.3MPT-帽78.25261.2816.3M表7.PASCAL VOC数据集上的对象检测结果不仅使 UNet 和 DeepLabv3+ 的 mIoU 提高了 1.31% 和0.27%，而且分别提供了36%和25%的参数减少。对于对象检测，使用平均精度（mAP）作为性能度量，并且在表7中针对mAP@.5（mAPl）、mAP@[.5：.95]（mAP2）、精度和召回率评估结果。我们可以看到，基于PT-CapsNet的检测模型相对于YOLO-v5提供了更高的精度和相当的mAP，具有更少数量的参数。在所有不同的任务和比较实验中，PT-CapsNet不仅实现了与基线相比更好或同等的性能，而且还提供了显着的参数减少，这表明性能增强和鲁棒性主要是由于有效的特征描述符和提出的PT胶囊结构。这表明PT-CapsNet在更广泛的应用中具有巨大的潜力。补充材料中提供了示例输出图像。5. 结论和未来工作我们提出了一种新的胶囊网络结构与预测调整机制（PT-CapsNet），利用胶囊网络的丰富的信息容量，并解决其局限性。为了使PT-CapsNet广泛适用，我们引入了完全和局部连接的PT-Capsule层，并使用它们来构建用于分类的PT-CapsNet我们比较了它的鲁棒性仿射变换与几个CapsNets基线。为了展示PT-CapsNet的可扩展性，我们构建了用于分类、分割和对象检测任务的大型深度学习架构，并将其性能与基于CNN的基线进行了比较。这是第一批证明基于胶囊网络的架构可以在具有挑战性数据集和较大图像尺寸的各种任务上优于或达到基于CNN的模型的性能结合显着的参数减少的有前途的结果表明，改进是由于所提出的有效的结构。由于我们的重点是框架和结构，与受体场大小的选择相关的研究将是未来的工作。模型top-1 acc.Mac.#参数ResNet92.69255.27M1.73MPT-CapsResNet93.59225.7M1.12MWRN95.955.25G36.48MPT-CapsWRN95.983.51G19.21MDenseNet95.33296.48M769.16KPT-CapsDenseNet95.71262.38M727.11K12005引用[1] ParnianAfshar，ShahinHeidarian，FarnooshNaderkhani ， Anastasia Oikonomou

下载后可阅读完整内容，剩余1页未读，立即下载