神经网络胶囊的设计与运行效率优化

49 浏览量更新于2023-10-13 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

神经网络封装李红阳1郭晓阳1戴波1欧阳万里2王晓刚11香港中文大学2悉尼大学SenseTime计算机视觉研究小组抽象。胶囊是代表网络中模式的不同变体的神经元的集合。路由方案确保仅应激活类似于较高层中的较低对应物的某些胶囊。然而，计算复杂度成为扩大到更大网络的瓶颈，因为较低的胶囊需要对应于每个较高的胶囊。为了解决这个限制，我们用两个分支来近似路由过程：主分支，其从其在下层中的直接接触收集主要信息;以及辅助分支，其基于在其它下层胶囊中编码的图案变体来补充主分支。与以前的迭代和无监督路由方案相比，这两个分支以快速、有监督和一次性通过的方式通信因此，模型的复杂性和运行时间大大降低。出于路由，使较高的胶囊与较低的胶囊有协议，我们扩展的机制，作为在附近的层中的信息的快速丢失的补偿我们设计了一个反馈协议单元，以发送回更高的胶囊作为反馈。它可以被视为网络的额外正则化。反馈协议是通过比较两个分布（较低和较高的胶囊）之间的最佳运输发散。这样的附加组件见证了胶囊和香草网络的一致收益我们提出的En-capNet在CIFAR 10/100，SVHN和ImageNet的子集上比以前的最先进技术表现得更好。关键词：网络架构设计;胶囊特征学习1介绍卷积神经网络（CNN）[1]已被证明在现代深度学习架构[2，3，4，5]中非常成功，并在各种计算机视觉任务中取得了更好的性能[6，7，8]。通过在卷积中绑定内核权重，CNN具有平移不变性，可以识别相同的模式，而不管空间位置如何。CNN中的每个神经元都是一个标量，可以检测不同的（低级细节或高级区域语义）⋆电子邮件地址：yangli@ee.cuhk.edu.hkH. Li等人2一层一层的模式然而，为了检测具有视点、旋转、形状等的各种变体的相同图案。，我们需要堆叠更多的层，这意味着要“以更大的幅度实现解决方案”[ 9 ]。胶囊[10，11]是一组神经元，其输出以矢量而不是标量的形式表示实体的各种视角，诸如姿态、变形、速度、纹理、对象部分或区域等。它捕获特征及其变体的存在。胶囊不仅检测模式，而且还被训练以学习模式的许多变体。这就是CNN所不能做到的。胶囊的概念提供了关于经由实体（称为胶囊）的实例参数化来对胶囊结构内的不同变体进行编码的特征学习的新视角，从而实现特征等同性属性3并且对对手是鲁棒的。直观地，胶囊检测具有特定变体（其顺时针旋转20度）的图案（例如面部），而不是意识到图案匹配较高层中的变体一个基本的胶囊层由两个步骤组成：胶囊映射和协议路由，如图所示第1（a）段。输入胶囊首先通过变换矩阵映射然后，路由过程涉及相邻层之间的所有胶囊，以通过路由系数进行通信;它确保只有某些类似于较高胶囊的较低胶囊这样的方案可以被看作是一个特征聚类，并通过坐标下降通过几次迭代进行然而，第一映射步骤中的计算复杂度是在CNN中应用胶囊思想的主要瓶颈;较低的胶囊必须为每个较高的胶囊生成对应关系（例如，，典型的选择[10]是具有16维的2048个胶囊，导致变换矩阵中的8百万个参数）。为了解决这个缺点，我们提出了一种替代方案，通过引入两个分支来估计原始路由总和：一个是主分支，其用作来自下层中的直接接触胶囊的主要来源;另一个是辅助分支，其努力搜索沿着信道的其它模式变体并且向主控器补充辅助信息。这两个分支通过它们的系数交织在一起，使得在较低胶囊中编码的特征模式可以被充分利用和交换。与当前的迭代的、短寿命的和无监督的路由方案相比，这样的一遍近似是快速的、轻量的和有监督的此外，在使较高的胶囊具有与较低的胶囊一致的路由效应可以被扩展为直接损失函数。在深度神经网络中，信息不可避免地通过层的堆叠而丢失为了减少附近层中信息的快速丢失，可以包括损失函数以强制较高层中的神经元或胶囊可以用于重建较低层中的对应物。基于这个动机，我们设计了一个协议反馈单元，它发回更高的胶囊作为反馈信号，以更好地监督特征学习。这可以被认为是网络上的正则化这样的反馈一致性通过测量点之间的距离来实现。3等方差是可以相互转换的特征模式的检测。神经网络封装3i=1j=1胶囊标测协议路由（Fig. 1. （a）一个封装体操作包括封装体映射和协议路由。（b）由[10，11]以卷积方式实现的胶囊，其中较低胶囊被映射到所有较高胶囊的空间中，然后被路由以生成输出胶囊。(c)我们提出的capConv层：具有主设备和辅助设备交互的近似路由，以减轻（b）中的当前设计中的计算负担。两个分布使用最佳运输（OT）的分歧，即Sinkhorn损失。 OT度量（例如Wasserstein损失）被承诺优于在一般空间上建模数据的其他选项该附加正则化在训练期间被协议的执行见证了胶囊和香草神经网络的一致收益。总之，与上述两种机制捆绑在一起，我们（i）将神经网络封装在具有主/辅助输入的近似路由方案中，（ii）通过最佳传输发散由agree_m_t_fee_db_ck单元来执行网络的路由。所提出的胶囊网络被表示为EncapNet，并且在CIFAR 10/100，SVHN和ImageNet的子集上的图像识别任务中表现优于先前的最先进技术。代码和数据集可在https://github.com/hli2020/nn封装。2协议路由分析2.1初步：胶囊制剂令u，i，v，j表示层中的输入和输出胶囊，其中i，j指示胶囊的索引输入端胶囊的尺寸和数量输出d1、d2、n1、n2，具体地，即，e. ，{ui∈Rd1}n1，{vj∈Rd2}n2 . 的第一步是从较低的成本向较高的成本部分进行映射：v j|i=wij·ui，其中wij∈ Rd1×d2是一个变换矩阵，我们定义中间输出vj|i∈Rd2 作为从I到O的映射（在[10]中被称为预分配向量）。第二步是协议路由过程，以将所有较低的胶囊聚合成较高的胶囊。映射的激活乘以路由系数cthoughseveraliterationsinanunsuperisedmanner：s（r）=Σc（r）v.国际新闻报伊伊季J|我这就是胶囊理念的亮点所在。它可以被视为一个投票过程：较高胶囊的激活应完全取决于与较低实体的相似性。流行的路由算法包括坐标下降优化[10]和通过期望最大值（EM）[11]的高斯混合聚类，我们将其称为动态和EM路由。近似路由助手D1D2输出胶囊空间距离胶囊硕士（（+H. Li等人4IJIJE-步骤arespectively. 对于动态路由，给定b（0）←0，r←0，我们具有：b（r+1）←b（r）+v ·v（r），⑴ij ijJ| Ij其中，输入的最大值是通过squash（·）来计算的，即，v=s2s.路由系数的更新在1+ s2s坐标下降方式，其交替优化c和v。对于EM路由，给定c（0）←1/n2，r←0，以及输入捕获器的活动记录，我们可以将输入捕获器在第2代自动捕获器中进行聚合：a（r），μ（r），σ（r）←Σ（r），vΣ、（二）j j jM-步骤ai，cijJ|我c（r+1）←Σ（r），p. v，µ（r），σ（r）ΣΣ，（3）国际新闻报J|我J| ijj其中，聚类μj的平均值被视为输出胶囊vj。M步生成是指在一个连接上执行动作，以确定该设备和数据。R. t. 更高的覆盖率;在E步骤中，每个步骤都是可变的，以提高最终的成本效益。从而在迭代R次之后获得来自胶囊层的输出2.2CapNet协议路由分析协议路由的有效性。图2示出了随着网络的发展，相邻胶囊之间的路由本质上，路由过程是从所有较低封装体到较高实体的加权平均（等式11）。（四））。直观地，给定属于第j类的样本，网络试图优化胶囊学习，使得最终胶囊层中的长度（存在概率）应该是最大的这要求类似于胶囊j的其较低对应物的量值应当占据大多数并且与不类似于j的其他对应物相比具有更高的长度。以Dynamiccase的第一行为例。在第一个时期，内核权重w，ij用高斯初始化，因此大多数胶囊彼此正交并且具有相同的长度。随着训练的进行（时期20和80），余弦相似性在零附近的“模糊”胶囊的百分比和长度下降，并且分布演变成极化：最相似和最不相似的胶囊逐渐占据大多数并且保持比其他胶囊更高的长度。随着时间的推移，胶囊化过程（例如200）进一步极化，并且网络处于稳定状态，其中最相似和不相似的胶囊具有比其他胶囊更高的百分比和长度协议路由的作用是调整从较低胶囊到较高胶囊的幅度和相关性，使得可以适当地开启相关较高对应物的激活，并且传递来自较低胶囊的模式信息对电磁路由的分析得出了一致的结论。极化现象被进一步加强（参见图1）。（h）与（d）在图中。（2）译注。不相似胶囊的百分比较低（20% vs 37%），而相似胶囊的长度较高（0.02 vs 0.01）：这意味着EM可能是比动态更好的路由解决方案，这也通过表1中的（a）对（b）来验证。神经网络封装50.1250零点一二500.1250503030300.0430202020200.000零点00.0000.000-1-0.75-0.5-0.2500.250.50.75一比一-0.75-0.5-0.2500.250.50.75一比一-0.75-0.5-0.2500.250.50.751余弦相似度余弦相似度余弦相似度-1-0.75-0.5-0.2500.250.50.751余弦相似度0.1250零点一二50零点5050长度长度长度长度时期10.100.060.04百分比45时代2040零点一35零点零八3025零点零六2015零点零四分10零点零二50零点百分比45时代8040零点一35零点零八3025零点零六2015零点零四分10零点零二5百分比450.06纪元200403530零点零四分0.050.08252015零点零二100.015百分比45403530250.03低百分比较长长度200.020.000零点0零点151050-1-0.75-0.5-0.2500.250.50.75一比一-0.75-0.5-0.2500.250.50.75一比一-0.75-0.5-0.2500.250.50.75一比一-0.75-0.5-0.2500.250.50.751余弦相似度余弦相似度余弦相似度余弦相似度时期1长度百分比4520世纪长度百分比4580年代长度百分比450.06纪元200长度百分比450.10400.10400.10400.05400.08350.08350.0835较高百分比350.06250.06250.06250.03250.04150.04150.04150.02150.0210零点零二5100.025100.015较短长度105图二、随着网络的发展，培训动态。布线倾向于放大并将较低胶囊的图案变体传递到较高胶囊，其大多类似于较低胶囊。顶部：动态路由。底部：EM路由。我们给出了v_j和p_p_d_w_e_c_u_e_u_e_w_e_u_e_u_u_e_u_e_u_u_e_u_u_e_u_u_e_u_e_u_u_e_u_u_e_u_u_e_u_u_e_u_u_e_u e. ， cossim （ vj ， vj|i ）。 Bluelinerepresenttheeverage（acrossallsamples）lengthvj|I/A和G/此外，观察到用向量胶囊和路由来替换传统CNN中的标量神经元是有效的，参见图1。表1中的（a-b）与（c）。为了公平比较，我们在vanilla CNN中对每一层采用相同的斑点形状。然而，当我们将CNN的参数增加到与CapNet相同的数量时，前者在（d）中表现更好。由于固有的设计，CapNet需要比传统CNN更多的参数。（a）与表1中的（c）相比，CapNet为约152Mb，vanilla CNN为24Mb。胶囊网络由[10，11]以组卷积的方式实现，如图所示。第1段（b）分段。假设向量胶囊的放置方式与vanilla CNN中的标量神经元相同。通道中的空间胶囊共享相同的变换核，因为它们在不同位置搜索相同的图案。通道胶囊拥有不同的内核，因为它们表示封装在一组神经元中的各种模式。CapNet中的计算复杂性。从工程学的角度来看，CNN结构中的胶囊的原始设计（参见图1B）。 1（b））是为了节省胶囊映射步骤中的计算成本;否则将需要64×更多的内核参数（假设空间大小为8）来完成映射步骤。然而，由于步骤一必须为后续层中的每个胶囊j生成映射，因此负担没有有效减轻。Tab中的变换内核的输出通道大小1（a-b）是1，048，576（16× 32× 2048）。如果我们向网络提供128的批量大小（甚至更小的选项，例如，32），由于变换核的超大体积而发生OOM（存储器不足）。动态和EM之间的参数大小的细微差异在于，另外，后者在第一个胶囊操作之前具有更大的卷积输出以生成激活;并且它在EM路由中具有一组可训练参数另一个需要考虑的影响是n1×n2的路由系数矩阵，这部分的计算量很小，但需要更长的时间H. Li等人62v表1. vanilla CNN，CapNet [10，11]和EncapNet的比较。所有模型具有六层的深度，并且通过（i）模型参数的数量（Mb），(ii)存储器消耗（MB，在给定的批处理大小下），（iii）运行时间（每批处理大小的秒）和（iv）性能（错误率%）。8和4中的最大批大小是可以适合于动态和EM路由的存储器2的最大度量（ii）和（iii）在CIFAR-10上测量方法参数#记忆大小运行时CIFAR-10MNIST（a）CapNet，dynamic151.243，961（8）0.44414.280.37(b)CapNet，EM152.4410，078（4）0.95712.660.31(c)香草CNN，形状24.44一千六百五十二（一百二十八）0.02614.430.38(d)vanilla CNN，相似参数146.882，420（128）0.14612.090.33（e）EncapNet，master25.76一千四百三十三（一百二十八）0.03913.870.31（f）EncapNet，master/aide60.68一千七百五十五（一百二十八）0.06111.930.25由于要更新的路由迭代次数R，因此运行时间比传统CNN长c，特别是对于包含两次更新交替的EM方法受协议路由方案的启发，以聚合网络中的特征模式，并且考虑到当前解决方案具有很大的计算复杂性，我们求助于下面陈述的一些替代方案3EncapNet：神经网络封装3.1具有主/辅助交互的通过调整成本效益来实现更高的重复使用率在较低层中的所有实体（胶囊）上：Σn1sj=i=1cij·vj|i=c1jvj|1+···+cijvj|i+···+cn1jvj|n1，（4）Σ=cijvj|I+联系我们I=ji/=jcijvj|I.（五）等式（4）可以分为两部分：一个是直接从其较低对应物i接收知识的主映射，其空间位置是空间位置j;另一个是这样的映射，其中i是所有较低对应物i的最大值，其中空间位置与空间位置j不同。因此，可以以监督的方式来近似原始的无监督的和短暂的路由过程（参见图1）。1（c））：（一）|l(Nj,k 1) +m（2）|l(N j,k2)、（6）其中，Nj是沿着信道维度的位置集合，其直接将较低的胶囊（可能存在多于一个）映射到较高的j; Nj是Nj的互补集合，其在沿着信道维度的胶囊中构成该胶囊;k（*）是空间核大小;总共l（·，·）指示在较高的胶囊处的所有贡献的较低的胶囊的位置集合。通常，我们定义了v（1）和v（2）in4单个Titan X GPU，具有12G内存。sj≈m1v神经网络封装72D等式（6）分别作为主激活和辅助激活，它们的系数表示为m1和m2。主分支在两个连续的层中寻找相同的图案，因此仅看到来自其直接下部胶囊的窗口。另一方面，辅助分支用作侧单元以补充来自位于其他通道中的胶囊的信息两个分支中的卷积核都使用空间局部性：核只关注输入端上大小为k1× k1和k2×k2的一个小邻域，该邻域是在v（1）和d（2）上定义的。在这两个由其系数以交互式方式表示的集合中，mas_randid_aid_i v i v i on。系数m（*）是组编码的输出;输入源来自h（1）和d（2），来自主分支和辅助分支的封装中编码的水平标记信息。如图所示的相互作用后。1（c），我们追加批次正常-在最后的步骤中，处理器100包括滤波器[12]、整流非线性单元[13]和挤压操作。为了简洁起见，这些连接性未在图中示出为此，我们封装了一层神经网络，每个神经元被一个胶囊取代，其中它们之间的交互是通过主/辅助方案实现的，并将整个管道表示为capConv层。封装的模块在图1中示出。图3（a），其中若干capConv层利用跳过连接级联。capConv有两种类型。类型I是增加跨模块的胶囊的尺寸并合并空间分布的胶囊。在这种类型中，master分支中的内核大小设置为3。第二种是增加模块深度N，胶囊尺寸不变;空间胶囊的数量也没有改变。此类型中主分支的内核大小设置为1。capFC块是标准神经网络中全连接层的每胶囊维度操作。表2给出了所提出的称为EncapNet的网络的示例。与CapNet比较。与CapNet中为每个更高的胶囊生成大量映射的繁重计算相比，我们的设计只需要主分支和辅助分支中的两个映射计算复杂度大幅降低：变换矩阵中的核大小在第一步是n2第二步中的路由方案是S42 （S是特征图的空间大小接收先前的以表1为例，我们的设计分别减少了1024和256倍在这两个步骤中，与原始8，388，608和4，194，304参数相比，这些参数是最小的。为此，我们用有监督的一次通过主/辅助方案替换无监督的迭代路由过程[10，11与表1中的（a-b）相比，我们提出的方法（e-f）具有更少的参数、更少的运行时间和更好的性能。还观察到，来自辅助分支的侧信息是补充主分支的必要条件，其中基线误差13.87%在CIFAR-10上降低到11.93%，参见图11。表1中的（e）与（f）。3.2网络的反馈一致正则化根据协议路由，如果资源与低成本资源不一致，则应激活更高级别的封装，因此，我们采用H. Li等人8j=1i=11BP没有在QBP在KPSinkhorn迭代出来反馈协议（b）图三. （a）EncapNet的一个模块内的连接，其中几个capConv层（类型I和II）通过跳过连接级联并通过Sinkhorn散度正则化。这是一种设计类型，在第5节中，我们报告了其他变体。(b)辛霍恩散度中的管道和梯度流。需要较高层能够恢复较低层。这种约束（损失）的影响在训练期间被使用并且在推理期间被移除。为了将前面提到的直觉用数学符号表示，令vx={vj}n2且uy={ui}n1分别是空间Z和U中的样本，其中x，y是样本指数考虑一组观察结果，例如下层胶囊， S1=（ u1， . . . ，uy，. . . ，uB）∈ UB1，我们设计一个损失，其强制空间Z上的样本v作为输入（例如，在空间U上通过可微函数gψ：Z → U映射到u ′，即，u′=gψ（v）.数据分布，表示为PΦ，对于所生成的样本集合S2=（u’，. . . ，u′，. . . ，u′）∈UB21x B2应该和S1的分布Pr一样接近。总之，我们的目标是找到最小化两个分布P，Pr∈Prob（U）5：arg minL（P，Pr）之间的一定损失或距离的最小化。在本文中，我们选择了一个最佳运输（OT）度量来测量距离。在两个度量空间（U，U）上支持的两个联合概率分布之间的OT度量被定义为线性规划的解[16]：WQ（Pψ，Pr）= infγ∈Γ（Pψ，Pr）Σ∫EU×UQ（u′，u）dγ（u′，u）Σ、（7）其中γ是偶联;Γ是由乘积空间上具有边缘（Pψ，Pr）的联合分布组成的耦合集。我们的公式省略了一些数学符号;详情见[15，16]。直观地，γ（u′，u）暗示如何将作为s“m”的m“m”从u′移动到u ′或从u ′移动到P r ; Q是将单位质量从u ′移动到u的“总成本”。众所周知，Eqn。当U具有距离D U且Q=D U（u′，u）p时，对于某个指数p，（7）成为概率测度之间的p-Wasserstein距离（或损失，散度）。请注意，等式1中的期望E（·）（7）用于大小为（B1，B2）的小批量在我们的例子中，B1和B2等于训练批的大小。以来5在一些文献中，即，[14，15]，它被称为概率测度，通常表示为μ或ν;耦合是联合分布（测度）。我们在以下上下文中交替使用分布或度量Prob（U）是度量空间U上的概率分布的集合。Sinkhorn散度capConvcapConvcapConvcapConv1 2a 2b 2c类型I类型II类型II类型IIcapFCCls. 损失封装模块中跳过连接（一）+神经网络封装9R+2M两个输入测度对于指数x和y都是离散的（网络中的胶囊k），耦合γ可以表示为在rixP上的一个非线性方程，namelyγ=x，yPx，yδ（vx，uy）∈Prob（Z×U），其中δr表示在点（v，u）∈（Z × U）处的离散的Diracunis换句话说，连续的情况下，Eqn。（七）转换为离散版本，我们得到了所需的OT损失：WQ（Pψ，P）←d−is−c−re−t−eminP∈RB2×B1 Q，P，（8）+其中P满足PT1B =1B，P1B = 1B。·，·1 1 2对于两个矩阵和1m的乘积：=（1/m，. . . ，1/m）∈ Rm. 现在问题归结为给定地面成本Q计算P。我们以迭代的方式采用Sinkhorn算法[17]，该算法在[16]上被保证具有可微的losfuncti。在hb（0）=1B，l←0的情况下，Sinkhorn迭代得到：a（l+1）：=1B1 ，b（1+ 1）：=1B2 、（9）KTb（l）Ka（l）其中吉布斯核Kx，y定义为exp（−Qx，y/ε）;ε是控制因子。对于给定的L次迭代的预算，我们有：P：=P（L）=dlag（b（L））·K·dlag（a（L）），（10）其用作OT耦合的代理。配备了P的计算，并有某种形式的成本Q在手，我们可以最小化最佳运输发散以及网络中的其他损失。在实践中，我们在等式11中引入对原始OT距离的偏置修正。（8），即Sinkhorn散度[15]。给定两组样本vx、uy和相应的分布Pψ、Pr，修正定义为：WQ（Pψ，Pr）= 2WQ（Pψ，Pr）− WQ（Pψ，Pψ）− WQ（Pr，Pr），（11）其中M是模块索引。通过将K中的ε从0调整到∞，Sinkhorn散度具有最佳OT（非平坦几何）和MMD [18]（高维刚性）损失的特性，我们在实验中发现这提高了性能。图3（b）中描绘了计算Sinkhorn散度6请注意，我们应用OT损失的最终目标是使主流（蓝色块）中的特征它是在训练过程中添加的，并讨厌用于推理。因此，Sinkhorn发散器的设计有两个原则：轻量化和胶囊化。子网络gψ和fφ应尽可能增加模型的最小参数;生成器应该被封装以匹配数据结构。请注意，Sinkhorn发散被优化以最小化w.r.t.φ，ψ，而不是[15，19，14]中的实践，通过对抗的方式。6本文中使用的术语Sinkhorn是双重的：一个是表示通过Sinkhorn迭代计算P;另一个是暗示修正的OT散度。210小时Li等人杜乌y讨论。(i)对于L（Pψ，Pr），存在除了OT度量之外的替代方案，Σ例如Kullback-Leibler（KL）散度，其被定义为logdPψu或Jenson-Shannon（JS）散度。在[14]中，观察到当学习由Z上的低维流形支持的分布时，这些距离是不敏感的。如果该模型被发现并且该“规则”被发现，则该模型的上p或t具有不可忽略的交集，这意味着在一些情况下KL和JS不存在或无限。相比之下，最优输运损耗是连续的在温和的假设下，ψ是可微的。(ii)我们的反馈协议单元的设计不限于胶囊框架。它在vanilla CNN上的有效性也通过第5.1节中的实验结果进行了验证。OT分歧中的设计选择。我们使用capConv块的去卷积版本作为映射函数gΦ，用于从高层神经元重建下层在馈送到成本函数Q中之前，来自两个分布的样本被传递到特征提取器fΦ中。提取器由香草神经网络建模，并且可以被视为将U降维到低维空间。有许多选择来设计成本函数Q，例如余弦距离或l2范数。此外，在实验中还发现，如果Sinkhorn迭代过程中的梯度流为ign。或如所示[19]，结果会更好。在Qx，y=Dfφ（u′x），fφ（uy）依赖于φ，ψ（P，K，a，b也依赖于φ，ψ）;因此整个OT可以在标准优化器中训练单元（例如Adam [20]）。整体损失函数。EncapNet的最终损失是跨模块的Sinkhorn散度和边际损失的加权组合[10]。ΣM在此基础上，提出了一种新的计算方法，即k=Lmin（t，v）+λMWQ，其中t，v是分别是capFC层的基础事实和类封装输出;λ是在这两个损失之间协商的超参数（设置为10）。4相关工作胶囊网络。Wang等人。 [21]将路由过程制定为最小化类聚类损失和KL正则化项的优化问题他们提出了一种更通用的方法来正则化目标函数，其与凝聚模糊k均值算法[22]具有相似的精神。Shahroudnejad等人。 [23]解释说，胶囊网络通过无监督的动态路由内在地构建了一个相关路径，以消除对反向过程的需要。当一组胶囊同意父胶囊时，它们构建部分-整体关系，该部分-整体关系可以被认为是h处的关系。一种基于分解的投票矩阵的特征值来获得候选用户激活的可变候选用户网络k[24]是可行的这样的频谱视角见证了比学习诊断问题的EM路由[11]更快的收敛和更好的结果。注意与路由。在[25]中，Mnih等人提出了一种递归模块，通过自适应地选择一系列区域来提取信息，并仅关注所选位置。DasNet [26]允许网络通过从高层到高层的反馈连接迭代地将注意力集中在卷积滤波器上。神经网络封装11更低的。该网络生成一个观察向量，该向量被确定性策略用来选择动作，并相应地改变特征图的权重，以更好地对对象进行分类。Vaswani等人。 [27]制定了机器翻译任务的多头注意力，其中注意力系数通过兼容性函数计算和参数化。上述注意力模型试图从低级神经元到高级神经元学习关注的权重较低的激活由注意力模块中的学习参数加权以生成较高的激活。然而，协议路由方案[10，11]是自顶向下的解决方案：当且仅当最相似的较低对应物具有较大响应时，较高胶囊才应被激活。路由系数通过递归地回看较低的胶囊来获得，并且基于相似性来更新我们的近似路由可以被认为是一种自下而上的方法，它与注意力模型具有相似的精神。5实验实验在CIFAR-10/100 [28]、SVHN [29]和称为“h-I m age Ne t”的大规模AS上进行。我们将其作为ILSVRC 2012分类数据库[30]的一个子集。它由200个硬类组成，基于ResNet-18 [5]模型的预测输出，其前1精度低于其他类。h-ImageNet上的ResNet-18基线模型具有41.83%的top-1准确率。数据集具有用于测试和验证的255725、17101个图像的集合，与用于测试的50000个CIFAR和用于测试的10000个CIFAR相比。由于原始图像的背景太多并且可能太大（超过1500像素），我们手动裁剪每个图像的填充对象（如果没有提供边界框）;在预处理之后，与CIFAR 32的输入相比，每个图像的大小约为 50 到 500 。 “h - I m ag e Ne t” 是为了在与Im ag eN et 具有相似分布的大规模数据集上快速验证 ML 算法而提出的。实作详细数据。如果之后未指定，则各数据集的常规设置相同。初始学习率被设置为0.0001，并以epoch为单位使用调度[200， 300，400]最大epoch为600。亚当[20]使用动量0.9和重量衰减5× 10−4。批量为128。5.1烧蚀分析在这一小节中，我们分析了封装模块中的连通性设计为了公平比较，EncapNet和ResNet的深度是相同的18层（N= 3，n= 2）。它们的结构描述于表2中。请注意，capConv块与CapNet的比较报告见表1，分析见第3.1节。capConv块中的设计。表3（1-4）报告了主分支和辅助分支中的系数m在不使用辅助的情况下，情况（1）用作基线，其中仅从主激活生成较高的胶囊。请注意，9.83%的结果已经优于所有1小时Li等人表2. EncapNet和ResNet的网络架构。所比较的ResNet变体具有相同的输入，并且输出具有相同的EncapNet。 capConv（k，s，p）意味着主胶囊具有k个大小为k、s个时间为s和p个时间为p的卷积。对于该测试和第三项测试，您只需进行简单的转换（）和residΣualbl ockres（）. EncpNet和ResNetis2+i（Ni+1）和2+i2 ni。为简洁起见，省略OT分歧的连接模块输出大小帽尺寸EncapNet v1ResNetM032× 32-3→ 32，conv（3，1， 1）3→ 32，conv（3，1， 1）M1 我II32× 321 →22Σ32→ 32， capConv（3，1， 1）Σ32→ 32， capConv（1，1， 0）× N1Σ32→ 64，res（3， 1，1）Σ64→ 64， res（3， 1， 1）×（n1−1）M2 我II16× 162 →44Σ32→ 32， capConv（3，2， 1）Σ32→ 32， capConv（1，1， 0）× N2Σ64→ 128，res（3， 2，1）Σ128→ 128， res（3， 1， 1）×（n2−1）M3 我II8× 84 →88Σ32→ 32， capConv（3，2， 1）Σ32→ 32， capConv（1，1， 0）× N3Σ128→ 256，res（3， 2，1）Σ256→ 256， res（3， 1， 1）×（n3−1）M4 我II4× 48 →1616Σ32→ 32， capConv（3，2， 1）Σ32→ 32， capConv（1，1， 0）× N4Σ256→ 512，res（3， 2，1）Σ512→ 512， res（3， 1， 1）×（n4−1）M510/100/20016capFCavgPool，FC表1中的情况，由于网络深度的增加结果表明，从这种激活中获得mx比从其他激活中获得m x更容易，例如从一种激活中获得m x。，情况（2）和（3）。当输入端来自于主支路时，如（4）中所定义的“主支路/辅支路v3”，来自于下层胶囊的脉冲信息被主支路和辅支路充分地相互作用，因此与情况相比，我们得到了最好的7.41(2)（3）.表3（5-7）报告了基于情况⑷添加跳过连接的结果。据观察，在两种类型的capConv块中使用的跳过连接使网络收敛更快，并获得更好的性能（5.82%）。我们的最终候选模型采用了一个额外的OT单元，每个模块上施加两个Sinkhorn损失。一个是如图所示的连通性。其中vx是v y的大小的一半;另一个连接与图中所示的跳过连接路径相同，其中vx与v y共享相同的大小;在该跳过连接路径中， “ 解码器 ” 的值为 1 。它的性能（ 4.55% ）优于单独使用一个 OT 分歧（4.58%）。网络规则化设计。图4示出了具有和不具有OT（Sinkhorn）发散的训练损失曲线。结果发现，EncapNet的性能增益比ResNet更明显（两个网络分别增加21%和4%）。此外，我们证明KL散度选项作为距离测量来替代Sinkhorn散度，如表3中的情况（b）所示。两种模型的错误率都有所下降，这表明在网络训练中施加正则化的想法是有效的;这样的附加功能是为了保持特征模式在层间更好地对齐。微妙的是，当我们在EncapNet中用KL替换Sinkhorn时，增益明显不同，而这两个选项在ResNet中几乎无关紧要。7.[ 5 ]中报道的ResNet-20具有8.75%的错误率;部分在线第三方实现（匿名提交链接）占6.98%;我们在PyTorch中运行18层模型，设置在上下文中。神经网络封装13capConv设计误差（%）（1）master（baseline）9.83（2）maser/aidev18.05（3）maser/aidev29.11（4）maser/aidev37.41(5)跳过类型I6.81(6)跳过II6.75(7)跳过两者5.82网络正规化EncapNetResNet(a)capConv块（基线）5.828.037(b)KL损失5.317.72(c)OT损失4.587.67(d1)删除偏置固定4.71-(d2)在PL中做BP4.77-(d3)无提取器fψ5.79-(d4)使用vanillagφ5.01-(d5)在Q中使用l24.90-表3. 对capConv层设计（左）和网络工作区设计（右）的烧蚀分析。EncapNettandResNethavethesame18layers. “twoOTs”表示每个模块有两个来自不同来源的OT分歧。系列（d-*）中的实验基于情况（c），并且通过移除或替换OT单元中的每个组件而进行，同时保持其余因子固定。此外，我们进行了一系列实验（d-*），以证明第3.2节中Sinkhorn发散设计的基本原理。在没有偏置固定的情况下，结果是较差的，因为它不利用OT和MMD发散两者（情况dl）;如果我们在PL路径中反向传播梯度，则错误率略微增加;特征提取器的作用是将两个输入下采样到较低维度上的相同形状，以供后续流水线处理。如果我们移除此功能并使用余弦距离直接比较原始输入（u，u′），则与基线5.82%相比，误差增加了很大的幅度，达到5.79%;如果我们采用l2范数来度量原始输入之间的距离，则损失将不会收敛（未在表3中示出）。这验证了具有特征提取器的迫切必要性;如果从v恢复u’的生成器采用标准CNN，则性能比生成器的胶囊版本差（5.01%），因为数据在网络中以胶囊的形式流动;最后，如果在特征提取后采用l2范数计算P，则性能也会下降。见图 4 。 EncapNet 和ResNet（* OT）的嵌入式最佳传输发散的训练损失采用一个OT单元，如图所示。3（a）对于网络中的每个模块。5.2与最先进技术的如表4中所示，（a）在CIFAR-10/100和SVHN上，与先前的整体相比，我们实现了3.10%、24.01%和1.52%的更好的性能。多作物试验是进一步提高结果的关键因素，也被其他方法广泛使用。(b)在 h-ImageNet上，v1是18层结构，具有合理的top-1准确率51.77%。我们通过堆叠更多的capConv块来进一步增加EncapNet的深度（称为v2），使深度1EncapNet_w/o_OTEncapNet_OT0.1测试误差：5.82%0.010.001测试误差：4.58%0.0001时代2003504505506001ResNet_w/o_OTResNet_OT0.1测试误差：0.01测试误差：0.0010.0001时代200300 4006001小时Li等人与ResNet-101模型进行比较为了减轻运行时的复杂性，由于主/助手交织的通信，我们取代了一些块在浅层与主单独。V3具有更大的输入大小。此外，我们在augm_t_at_ion（v3++）处具有Encap_Net的最优值，并且获得了40.05%的错误率，而亚军WRN [31]为 42.51%。在h-ImageNet上训练大约需要2.9天，使用8个GPU，批量大小为256。（c）第（1）款我们在ILSVRC-CLS（complete-ImageNet）数据集上有一些初步结果，在表4中以前5名错误报告。表4.与最新技术水平相比的分类错误（%）对于最先进的技术，我们在他们的论文中展示了最好的结果+表示轻度增大，而++代表强增强。对于h-ImageNet，我们基于与EncapNet v3++相同的设置来训练模型并报告其他网络的结果。方法CIFAR-10 CIFAR-100 SVHNh-ImageNetEncapNet 4.55 26.77Encap

下载后可阅读完整内容，剩余1页未读，立即下载