没有合适的资源?快使用搜索试试~ 我知道了~
110725DeepCaps:与Capsule NetworksJathushan Rajasegaran1Vinoj Jayasundara1Sandaru Jayasekara1HirunimaJayasekara1 Suranga Seneviratne2Ranga Rodrigo11Moratuwa大学电子和电信工程系2悉尼大学计算机科学学院{brjathu,vinojjayasundara,sandaruamashan,nhirunima}@ gmail.comsuranga. sydney.edu.au,ranga@uom.lk摘要胶囊网络是深度学习中一个很有前途的概念,但到目前为止,它的真正潜力还没有完全实现,在几个具有复杂数据的关键基准数据集上提供了低于标准的性能从卷积神经网络(CNN)的成功中获得直觉,通过深入,我们介绍了DeepCaps1,这是一种深度胶囊网络架 构 , 它 使 用 了 一 种 新 的 基 于 3D 卷 积 的 使 用DeepCaps , 我 们 超 越 了 CIFAR10 , SVHN 和 FashionMNIST上胶囊网络域的最先进结果,同时实现了参数数量减少68%。此外,我们提出了一个类独立的解码器网络,它加强了重建损失作为正则化项的使用。这导致了解码器的一个有趣的属性,它允许我们识别和控制由实例化参数表示的图像1. 介绍在过去的几年里,卷积神经网络(CNN)在许多计算机视觉任务中取得了突破,并且显著优于许多传统的策划特征驱动模型。增加CNN性能的两个共同主题是增加网络的深度和宽度(例如, 网络的级别数和每个级别的单元数),并使用尽可能多的训练数据。虽然CNN已经取得了成功,但它们几乎没有局限性,例如池化引起的不变性和无法理解特征之间的空间关系为了解决这些局限性,Sabouret al.提出了胶囊网络[19],在几个标准数据集中显示出与CNN相当的结果。直观地说,尝试更深入地使用胶囊网络是朝着进一步提高其性能的正确方向迈出的一步1https://github.com/brjathu/deepcapsSabour等人提出的胶囊网络(CapsNet)模型。[19]仅包括一个卷积层和一个全连接胶囊层。所提出的架构与MNIST [16]数据集配合良好,尽管如此,由于与MNIST相比,CIFAR10中复杂形状的性质,具有更复杂对象的数据集(如CIFAR10 [14])的性能通过简单地堆叠这种完全连接的胶囊层来创建深度CapsNet的天真尝试将导致类似于具有几个限制的MLP模型的架构。首先,胶囊网络中使用的动态路由是一个计算成本非常高的过程,并且具有多个路由层会导致更高的训练和推理时间成本其次,最近的研究表明,将完全连接的胶囊层堆叠在彼此之上会导致中间层的学习效果较差[24]。这是由于当存在太多胶囊时,耦合系数往往太小,从而抑制梯度流并抑制学习。第三,已经表明,特别是在低层,相关单位往往集中在局部区域[21]。尽管局部路由可以显著地利用这种观察,但是这种局部路由不能在完全连接的胶囊中实现。为了解决这些由堆叠胶囊层引起的限制,我们提出了以下解决方案。为了减少需要动态路由的多层所引入的计算复杂性,有几种可能的途径:减少尺寸较大的初始层中的布线迭代的数量降低了复杂性,同时不影响特征,因为它们本质上不需要复杂。此外,由于参数共享,在中间层使用3D卷积启发的路由减少了参数的数量。我们可以通过改进梯度流来解决由于朴素堆叠而导致的中间层学习效果差的问题,这涉及到与卷积耦合的跳过连接。此外,在减少110726复杂性,深度胶囊网络必须能够处理比MNIST更丰富的数据集。我们建议,本地化路由将能够捕捉更高层次的信息比完全连接路由。Sabour等人[19]通过重建误差(由解码器网络生成)的合并使用正则化来减少过度拟合。然而,在开发更深的网络时,需要比[19]更强的正则化来减少过拟合,因为模型复杂性随着模型深度的增加而固有地增加。因此,为了增强正则化,我们提出了一个类独立的解码器。我们观察到这个解码器的一个有趣的属性,它提供了学习和扰动的实例化参数的可控性。在现有的胶囊网络和解码器中,不可能保证由给定实例化参数表示的物理属性在所有类中相同在所提出的解码器中,它保证了所表示的属性将是相同的任何给定的实例化参数在所有的类,提供更高的可控性,这是非常有利的,在实际应用和理论研究。为此,在本文中,我们提出了DeepCaps:利用两个关键思想的深度胶囊网络架构:动态路由和深入网络。我们提出的新的动态路由算法实现了参数减少和局部路由,使路由在卷积框架中成为可能,而不是重新排序到完全连接的胶囊,而跳过连接允许我们训练更深的网络。更具体地说,我们在论文中做出了以下贡献:• 提出了一种新的胶囊网络的深度架构DeepCaps,旨在提高胶囊网络的性能,以获得更多的通信,丛图像数据集。此外,我们提出了一种新的基于3D卷积的动态路由算法,以帮助DeepCaps的学习过程。• 提出了一种新的类独立解码器网络,作为一个更好的正则化项。我们进一步研究观察结果,即这种新颖的解码器具有提供对实例参数的可控性的能力。• 在几个基准数据集上评估DeepCaps的性能:我们显著优于现有的最先进的胶囊网络架构,同 时需 要显 著 更少 数量 的 参数 。例 如 ,对 于CIFAR 10数据集,与[19]相比,Deep-Caps的准确性提高了3%,参数数量本文其余部分的组织结构如下:在第2节中,我们讨论了胶囊网络的相关工作,第3节描述了我们的DeepCaps架构和新的3D路由算法,第4节概述了类独立的解码器网络。第5节显示了我们的结果。最后,第六章对全文进行了总结。2. 相关工作我们在深度网络中面临的主要问题之一是梯度的消失/爆炸。当误差信号通过多层时,当它到达网络的开始处时,它可能消失并被洗掉[2],[4],这阻碍了收敛。这个问题在许多提出的模型中得到了解决,其中ResNets[5]和高速公路网络[20]通过身份连接将信号从一层旁路到下一层。 Stochastic depth[10]通过在训练过程中随机丢弃层来缩短ResNets,以允许更好的信息和梯度流。DenseNets [9]通过将所有层(具有匹配的特征图大小)直接相互连接,确保网络中各层之间的最大信息流。为了保持前馈性质,每个层从所有先前层获得附加输入,并将其自己的特征映射传递到所有后续层。它们创建了从早期层到后期层的短路径。Hinton等人提出了将神经元分组的想法。[7]的文件。作为对此的扩展,Sabouret al. [19]提出了一种胶囊间的动态路由算法。动态路由有助于网络实现均衡,而CNN只能通过池化操作实现不变性。除了动态路由,Hintonet al. [8]使用EM路由矩阵胶囊代表每个实体的姿态矩阵。有许多扩展:HitNet [3]使用混合命中和未命中层进行数据扩充。Dilin等人[23]将动态路由作为优化问题来解决,并通过在耦合分布之间引入KL发散来实现更好的性能CapsGan [11]使用胶囊网络作为GAN管道中的神经网络,以获得比卷积GAN更好的视觉与此相反,我们的工作重点是更深入地研究胶囊网络,并提高其在更复杂数据集上的性能。SegCaps [15]使用胶囊进行图像分割,并在LUNA16数据集上实现了最先进的结果这是在路由基础上最接近我们的工作。他们使用2D卷积进行投票。通过使用2D卷积,它将沿深度的所有胶囊作为变换的输入,从而混合胶囊中包含的信息在我们的基于3D卷积的路由中,我们将沿着深度的步幅设计为胶囊维度,因此,沿着深度维度的每个胶囊都被单独投票。110727不不我们的工作探索了创建由多个胶囊层组成的据我们所知,这是第一次尝试vi,j,k,m=Σ ΣΣΦl(i−p,j−q,k−r)·l(p,q,r)to go deeper更深with capsule胶囊networks网络. 此外,即时-胶囊网络的参数显示了一种新颖的p q r(一)一种表示图像的方式,通过在矢量中编码诸如旋转和偏斜的物理变化。实例化参数中的小扰动将改变重构图像中的对应物理变化。但是,究竟是哪个参数引起了重建图像的什么样的变化,目前还没有研究。3. DeepCaps当前形式的动态路由的主要缺点之一[19]是它只能在为了保持中间票V的形状,为了与输入胶囊张量中的通道数Φn l一致,我们使用(1,1,nl)作为3D卷积运算的步长随后,我们将中间投票V重塑为用于所提出的迭代路由算法的接收投票V。它的形状为(wl+1,wl+1,nl+1,cl+1,cl),因为我们对每个s∈cl预测cl+1个胶囊张量。这里,可以使用以下公式解析地计算wl+1的值:Eq.下面2个:完全连接的方式(例如,它不能以卷积方式实现)。在[19]中,主胶囊wl+1=wl−Kernel size+2×Padding步幅+1(2)层中,胶囊向量被展平并动态路由到分类胶囊。因此,如果有必要深入研究[19]中具有动态路由算法的架构,我们需要保持堆叠完全连接的胶囊层,这相当于堆叠MLP模型中的完全连接层。这在计算上不是有效的,因为特征空间在网络的开始处很大。因此,为了堆叠类似于传统CNN的卷积胶囊层,需要一种新的动态路由算法。3.1. 基于3D卷积的动态布线让 的 输出 的 的 胶囊 层 l是Φl∈如果[19]中的动态路由算法用于路由,则它将层l中的所有胶囊路由到层l+1中的所有胶囊。然而,从卷积运算得到的特征图具有局部特征,因此,相邻胶囊共享相似的信息。我们可以通过从层l到层l+1中的胶囊路由一组胶囊s来消除这种冗余,而不是单独路由层l中的每个胶囊。这种修改导致参数数量的显著减少,与动态路由算法相比,通过因子c·(wlwl+1)2来计算类似地,通过3D卷积核将块中的胶囊子集转换为一个投票,我们实现了局部化投票。例如,一个3×3×8的内核将转换-LLLlR(w,w,c,n),其中wl是特征图,cl是3D胶囊张量的数量,nl是原子的数量(即,胶囊尺寸)。在本节中,我们说明了我们提出的新机制,以便路由来自层l的3D胶囊张量以预测新的3D胶囊张量Φl+1∈R(wl+1,wl+1,cl+1,nl+1)。首先,我们将Φ1重塑为单个通道张量Φ1,其 具 有 ( wl , wl , cl×nl , 1 ) 的 形 状 , 并 将 其 与(cl+1×nl+1)个3D卷积核进行卷积。设kl是层l中的第t个核,其中t∈[cl+1×nl+1],其导致中间投票V,并且具有以下形状:(wl+1,wl+1,cl,cl+1×nl+1).为了保持面团的大小,形成相邻的9个胶囊一票。换句话说,在层L中,低级别实体可以由单个胶囊或更经常地由彼此相邻的一组胶囊来表示。因此,我们不是将它们单独路由到更高级别的胶囊,而是将它们分组并路由。由于这些额外的要求,不满足现有的路由算法,我们提出了以下新的路由算法。首先,我们将logitBs初始化为0,其中对于每个s∈[cl],Bs∈R(wl+1,wl+1,cl+1)。使用softmax 3D函数计算相应的耦合系数Ks3,我们建议作为3D大步走不以及深度,让我们为罪恶投票现有softmax函数的版本。[19个]从层L中取出胶囊。见图1.一、使用具有大于1的核的高度和宽度的3D卷积核作为变换矩阵,允许我们预测更高的Ks=softmax 3D(Bs)经验(bpqrs)(三)使用一组较低级别的胶囊。kpqrs=10000x yzexp(bxyzs)V中的每个元素vi,j,k,m可以通过执行3D卷积运算来获得,该3D卷积运算根据以下等式来定义:下面1:这里,logit在来自层l中的胶囊张量s的所有预测胶囊之间被归一化。这是由于层l中的单个胶囊张量预测了所有110728,c,cR图1.使用3D卷积的动态路由:在高级解释中,层l中的每个胶囊张量将预测cl+1个胶囊张量。因此,对于层l+ 1中的胶囊张量,cl数量的预测是可用的。在第一次路由迭代中,所有这些都被相等地加权并求和在一起以获得最终预测S。然后,在接下来的迭代中,根据与S和V的一致性更新耦合系数。层中每个第(p,q,r)l+1。换句话说,层l+1中的每个胶囊张量将算法1使用3D卷积的1:程序ROUTING具有来自层L的C1个对应预测。 每个pre-2:要求:ΦlLLLl∈(w,w,c,n),r和c l+1,nl+1将用k个pqr对判定进行加权以得到单个预测3:Φl←Reshape(Φl)∈R(wl,wl,cl×nl,1)Spqr,将通过squash 3D函数传递,4:V←Conv3D(Φ l)∈R(wl+1,wl+1ll+1×nl+1)如由Eq. 4、限制胶囊向量在0和1之间,因为它代表存在的概率V∈R(wl+1,wl+1,nl+1,cl+1)L(c)一个实体。6:B←0 ∈R(wl+1,wl+1,cl+1L(c)Spqr=squash3D(Spqr)2设p∈wl+1,q∈wl+1,r∈cl+1,s∈cl7:fori迭代8:对于所有p,q,r,kpqrs←softmax 3D(bpqrs)Spqr=·(四)Σ9:对于所有s,S←k·V1个以上2012年12月22日PQRspqrsPQRSPQRPQR10:对于所有s,Spqr←squash3D(Spqr)[19]提出的路由算法的关键概念是通过协议在胶囊Ss和Vs之间的一致性通过下式测量:它们的点积和logit用一致性度量来更新。我们对所提出的路由算法进行了i次迭代,其中我们根据经验设置i=3[19]。 在迭代之后,可以通过S_∞来获得层l +1、Φl+1的输出。3.2. DeepCaps架构尽管[19]提出的架构在MNIST,时尚MNIST [25]和类似数据集上表现良好这是因为MNIST图像可以很容易地用边缘和斑点等低级特征进行分类,而CIFAR10图像需要对特征进行高级理解。因此,在本文中,我们提出了一种新的深度胶囊架构,它包含16个卷积胶囊层和一个完全连接的胶囊层。然而,深入研究胶囊网络带来了一些挑战,我们将在下面讨论并尝试通过提出自定义层来解决这些挑战。11:对于所有s,bpqrs←bpqrs+Spqr·Vpqrs12:returnΦl+1=S在网络的前几层中,由于特征映射空间很大,因此路由在开始时计算成本很高。因此,我们在前几层保持路由迭代次数为1。我们需要层层叠加来构建一个深层胶囊网络。然而,由于所有的操作都需要以胶囊的形式进行,卷积层的堆叠将是无用的,因为它将输出作为标量特征图。因此,为了满足这些要求,我们提出了ConvCaps层,它类似于卷积层,只是它的输出将是压缩的4D张量。我们使用ConvCaps层,其中i=1,并且对于任何i >1,我们使用ConvCaps3D层。假设Φl∈R( wl , wl , cl , nl )是ConvCaps层的输入,Φl+1∈R(wl+1,wl+1,cl+1,nl+1)是来自层l的输出。wl+1是从卷积步距和填充,参考(等式2)的情况。首先,Φl被整形为(w l,w l,cl×n l),并与(cl+1×n l+1)个滤第五章:110729波器卷积,产生(cl+1×n l+1)个宽度为5107302和高度(wl+1,wl+1)。然后,这将被重新整形为(wl+1,wl+1,cl+1,nl+1)形状的Φl+1张量,并且将挤压函数应用于胶囊。这有助于我们将特征映射转换到胶囊域。在[19]中,当i=1时,预测是投票的等权重总和卷积运算是一种替代方法,除了它给出输入胶囊的加权和来预测下一层投票。此外,当i被设置为大于1的值时,ConvCaps3D层与基于3D卷积的动态路由算法1一起使用。为了重塑ConvCaps,我们引入FlatCaps,其用于去除ConvCaps层l中相邻胶囊之间的空间关系,同时保持ConvCaps层l和FC caps层l+1中胶囊之间的部分-整体关系。因此,FlatCaps采用(wl,wl,cl,nl)形状的张量并将其重塑为(al,nl)形状的矩阵,其中,将输入图像编码为最终的胶囊矢量。最后,我们使用解码器网络来重建输入图像,如[19]中所提出的。然而,[19]中提出的解码器仅由两个完全连接的层组成,这不能正确地重建胶囊网络学习的空间关系因此,我们将[19]中的解码器替换为去卷积解码器,其更擅长重构空间关系。3.3. 损失函数我们使用保证金损失[19]作为DeepCaps的损失函数。边际损失函数提高了真实类的类概率,同时抑制了其他类的类概率。Lk=Tk max(0,m+−Vk)2-二(五)+ λ(1−T)max(0,v−m)al=wl×wl×cl。K KFC caps类似于深度神经网络中的全连接层。这里,Φl∈R(al,nl)被映射到Φl+1∈R(al+1,nl+1)。Φ1中的每个胶囊都是反式的。通过变换矩阵在Φ1+ 1中形成胶囊这里,如果真类是k,则Tk为1,否则为0。我们使用m+=0。9,m=0。1作为正确类的下限和不正确类的上限,如Sabour等人 [19]。λ用于控制梯度Wi,j∈Rnl×nl+1. 在这里,W是在在训练的初始阶段进行反向传播。通过反向传播的训练过程。通过使用这些层,我们构建了如图所示的DeepCaps架构。二、该模型包含四个主要模块,跳跃连接CapsCells,3D卷积CapsCells,全连接胶囊层和解码器网络。跳跃连接的胶囊单元具有三个ConvCaps层,第一层输出卷积并跳跃连接到最后一层输出。后跳过连接的动机是减少深度模型中的消失梯度。此外,这允 许我 们使 用跳 过连 接 将低 级 capsule 路 由到 高级capsule。我们使用逐元素层添加来在跳过连接之后连接两个胶囊层由于胶囊用向量表示,因此不使用通道级级联,因为它重复相同的胶囊,但元素级相加减少了偏差并降低了敏感性4. 类独立解码器网络我们的解码器网络由解卷积层[26]其通过利用从DeepCaps模型提取的实例参数来与全连接层解码器[19]相比,这在重建图像时捕获了更多的空间关系此外,我们使用二进制交叉熵作为损失函数以提高性能[12]。现有的解码器被用作胶囊网络的正则化设P∈Ra×b包含所有类的活动向量,其中a是最终类胶囊中的类数,b是胶囊的直径。尺寸 P被具有最高概率的类屏蔽,导致P被屏蔽,如下面的等式所示。第六章:.噪音。 随后,我们有一个带有ConvCaps3D的层,其中路由迭代次数保持为3。然后,ConvCaps输出被展平和合并,pi,j=pi,j i=t0i t(六)在3D布线之前与胶囊的输出同步(in CapsCell 3)在动态路由之前。直观地说,这一步有助于将模型推广到广泛的不同数据集。例如,来自单元格1或2的低级别胶囊对于由具有较差信息内容的图像组成的数据集(例如MNIST)将是足够的,而我们需要足够深入,直到3D ConvCaps胶囊对于由具有丰富信息内容的图像组成的数据集(例如CIFAR10)。收集并连接所有胶囊后,它们将通过FC caps层路由到类胶囊。在这里,决策发生,这里,i∈[a],j∈[b],t=argmaxi(Pi<$2),推理阶段,t=训练阶段的真标签。矩阵P被矢量化并被馈送到解码器网络,如图1B所示。3.第三章。这个向量化的P∈Ra×b包含从t·b到(t+1)·b维的非零值和其他零值。 因此,解码器网络得到- 来自维度特定分布的类信息,其间接地向解码器提供类信息,使得解码器类相关。因此,我们提出了一种新的类独立的解码器网络,作为一个更好的正则化胶囊6107312除了正则化之外,拥有解码器网络的一个关键优势是它可以用于诸如作为数据生成[19]。然而,这些解码器的显著限制是缺乏对由哪个实例化参数捕获哪个物理参数的可控性。例如,如果给定类的某个实例化参数导致该特定类的旋转,则不能保证相同的实例化参数将导致任何其他类中的旋转。因此,生成具有类似要求的数据,例如相同的厚度或偏斜度,是一个挑战。为了解决这些问题,我们提出以下程序。我们没有屏蔽非预测类实例参数,而是只发送Pt∈R1× b,如图所示。4.第一章与[19]中的解码器学习程序相比,每个实例化参数在所提出的方法中,从相同的联合分布中得出因此,由解码器学习的任何给定实例化参数封装的实体将是相同的,而不管图像标签如何。此外,这个过程有助于我们理解MNIST数据集中的变化类型。例如,旋转和伸长是数据集中的主要变化,而局部变化在字符中不太占主导地位,这由活动向量的方差反映。换句话说,引起旋转的恢复参数具有较高的方差,而引起局部变化的恢复参数具有较低的方差。图2.应用四单元DeepCaps模型,其中前三个单元使用i= 1,并且在最后一个单元中基于3D卷积的动态路由。网络,因为它是被迫学习的活动向量联合约束Rb空间内。在我们的设置中,只有向量Pt∈R1×b被馈送到解码器中,其中t=在 训 练 阶 段 中 的 真 标 签 , 并 且 t = argmaxi(Pi2)。图3.[19]中使用的解码器网络,它采用所有向量化的掩码活动向量。图4.建议的解码器,它只需要预测类的活动向量。++++6107325. 实验和结果5.1. 执行我们使用Keras和Tensorflow库来开发DeepCaps。对于训练过程,我们使用Adam优化器[13],初始学习率为0.001,每20个epoch后减少一半。在训练的初始阶段,等式中的λ5设置为0。2,增加到0。5、在培训的后期。这些模型在GTX-1080和V100 GPU上进行训练,表1中报告的7个集成模型使用加权平均集成。5.2. 分类结果我们使用几个基准数据集测试我们的DeepCaps模型,CIFAR 10 [14],SVHN [18],Fashion-MNIST [25]和MNIST [16],并将其性能与现有的胶囊网络架构进行比较。对于CIFAR10和SVHN,我们将32×32×3的图像大小调整为64×64×3,对于其他数据集,在整个实验中使用原始图像大小。表1.DeepCaps,CapsNet [19]和胶囊网络的其他变体的分类准确性我们在CI-FAR 10,SVHN和Fashion-MNIST数据集上优于所有胶囊域网络,同时在MNIST数据集上实现了类似的性能。模型CIFAR10SVHNF-MNISTMNISTDenseNet [9]96.40%98.41%95.40%-ResNet [6]93.57%--99.59%DPN [1]96.35%-95.70%-Wanet al. [22日]---百分之九十九点七九Zhong等人[27日]96.92%-96.35%-Sabour等人[19个]89.40%95.70%93.60%百分之九十九点七五Nair等人[17个]67.53%91.06%89.80%百分之九十九点五[3]第三章73.30%百分之九十四点五92.30%百分之九十九点六八DeepCaps91.01%百分之九十七点一六94.46%99.72%DeepCaps(7-合奏)百分之九十二点七四百分之九十七点五六百分之九十四点七三-尽管我们的结果略低于或等同于最先进的结果,但我们的结果轻松超越了CIFAR 10,SVHN和Fashion-MNIST数据集中所有现有的胶囊网络模型。如果我们采用具有最佳结果的cap-turbine网络实现,与[19]中提出的胶囊网络模型相比,CIFAR 10中有3.25%的改进,SVHN对于Fashion-MNIST数据集,我们的表现优于HitNet [3]的结果1.62%,对于MNIST,DeepCaps产生了同等水平的最新结果。表1显示了我们的结果与现有胶囊网络结果和相应数据集的最新结果的比较。我们强调,我们能够在数据集上实现接近最先进的性能,同时超越所有现有胶囊网络模型的结果。我们仅对CIFAR 10和SVHN数据集的图像进行了重新缩放,作为数据增强,因为与MNIST和F-MNIST相比,它们具有更丰富的高级特征。拥有64×64分辨率的图像允许我们添加更多的层来深入网络。对于在CIFAR10上训练的模型,DeepCaps只有7.22百万参数,而CapsNet [19]有2248万参数。尽管如此,我们在CIFAR10上使用单个模型实现了91.01%,其 中 CapsNet 的 7 个 集 合 准 确 率 为 89.40% 。 我 们 在NVIDIA V100 GPU上测试了两种模型对于32×32×3图像,2.86 ms,而我们的模型仅需要1.3864×64 ×3的图像。5.3. 类无关解码器图像重建我们的类独立解码器作为一个更好的正则化项,但它也有助于共同学习类间重构。因此,所有实例化参数都分布在同一空间中。例如,手写数字中的特定变化,例如粗度、旋转和偏度,在所有类别的实例化参数的相同位置中被捕获换句话说,对于类在[19]中使用的解码器的输出也经受活动向量的扰动的变化,然而,特定维度可能导致一个类的重构输出中的旋转,并且同时,它将不是导致另一个类中的旋转的相同维度。这是由于活动向量分布在维度上可分离的活动向量空间中的事实。使用我们的类独立解码器,我们可以生成任何类的数据与一定的要求。例如,如果我们想从文本中生成粗体数据,我们一旦找到负责任何类的粗体的实例化参数,那么我们可以扰动它以生成所有类的粗体字母,这在[19]中是不能做到的,除非我们知道与所有类的粗体相对应的实例化参数的所有位置见图五、利用这种类独立的解码器,我们可以标记导致重构图像中的特定变化的每个实例化参数。对于我们训练的模型,我们观察到第28个参数总是导致垂直方向的第一个参数是厚度,奈斯此外,我们还观察到,当我们对这些instan进行排名时,根据方差对实例化参数进行分析,具有较高方差的实例化参数引起全局变化,例如旋转、伸长和厚度,而具有较低方差的参数负责局部变化。参见图6。实例化参数空间不限于正交的,因此,很少有实例化参数共享图像的共同属性。 然而,这一实例化过程--610733图5.左半部分图像由我们的解码器网络生成,右半部分图像由[19]中使用的解码器生成当活动向量的第28维在[-0.075,0.075]之间变化时,我们可以清楚地观察到图像左半部分的所有变化都是相同的,就像垂直方向的伸长在右半图像中,每个类别的变化都不同例如0.040.030.020.010.000 5 101520 25 30胶囊细胞内的跳跃连接允许反向传播中的良好梯度流。在网络的底部,当跳过的连接跳过一层以上时,我们使用更高数量的路由迭代。3D卷积用于从用于动态路由的胶囊张量生成投票。这有助于我们将本地化的一组胶囊路由到某个更高级别的胶囊。因此,与Sabour等人相比,我们能够使用更低的计算复杂度更深入地研究胶囊。[19]。我们的模型超越了CI-FAR10,SVHN和Fashion-MNIST的最先进性能实例化参数图6.所有32个实例化参数及其在MNIST数据集中的方差尽管实例化参数空间不是正交的,但是高方差实例化参数在重建图像中示出了清晰的可分离的变化,而低方差实例化参数示出了混合变化。旋转(十)垂直伸长(十八)厚度(一)垂直扩展(三十)局部偏度(六)图7.对上述数字的单个实例化参数的扰动表明,高方差实例化参数导致全局变化,而低方差实例化参数则负责局部变化。具有较高方差的参数显示出明显可分离的变化,如图所示。7 .第一次会议。6. 结论在本文中,我们提出了一种新的胶囊网络深度架构,称为DeepCaps,从跳跃连接和3D卷积的概念最先进的性能MNIST数据集在Cap-网络域。此外,我们引入了一种新的类独立的解码器网络,它作为Deep-Caps的正则化。由于它从分布在同一空间中的活动向量中学习,我们观察到,在所有类中,特定的实例化参数捕获特定的这为数据生成等实际应用开辟了新的途径此外,我们能够在相对复杂的数据集上获得更好的性能,例如CIFAR10,其中[19]中的CapsNet没有表现出显着的性能。作为未来的工作,我们希望建立更深层次和更高层次的理解模型,并应用于Ima-geNet数据集。类无关解码器网络在具有特定要求的数据生成应用中也显示出了潜力,例如生成具有相同风格的文本数据。此外,我们希望研究消除实例化参数之间的相关性。7. 确认的作者谢谢 国家研究库恩-cil, Sri 斯里兰卡(授予12-018),和的斯里兰卡Moratuwa大学信息技术学院,提供计算资源。类间差异610734引用[1] Y. Chen,J. Li,H. Xiao,X. Jin,S. Yan和J. Feng,4467- 4475 7[2] C. Cortes,X. 贡萨尔沃河谷Kuznetsov,M. 莫赫里,S.杨,“Adanet:人工神经网络的自适应结构学习,“在ICML,悉尼,澳大利亚,2017年,第100页。874-883.2[3] A. Del ie`ge,A. Cioppa和M. VanDroogenbroeck,二、七[4] B. 哈里哈兰山口阿尔贝拉兹河。Girshick和J. Malik,447-456. 2[5] K.他,X。Zhang和S. Ren,770- 778 2[6] K. 他,X。Zhang,S.Ren和J.Sun,770-778. 7[7] G. E. Hinton,A.Krizhevsky和S.D. Wang,44比51 2[8] G. E. Hinton,S.Sabour和N.Frosst,2[9] G. Huang,Z.柳湖,加-地Van Der Maaten和K. Q. Wein-berger,“密集连接的卷积网络。”见CVPR,第1卷,第110号,2,檀香山,HI,2017,p. 3. 二、七[10] G. Huang,Y.黄氏Y.太阳,Z. Liu,L. Sedra和K. Q.Weinberger,Amster- dam,Amsterdam:施普林格,2016年,第646-661. 2[11] A. Jaiswal,W. AbdAlmageed,Y. Wu和P. Natarajan,“Capsulegan:生成性对抗胶囊网络,”在ECCV,慕尼黑,德国,2018年,第100页。526-535. 2[12] 诉Jayasundara,S.Jayasekara,H.Jayasekara,J.拉贾塞加兰S. Seneviratne和R. Rodrigo,“文字说明:在WACV中,怀科洛阿村,HI,2019,pp. 254-262. 5[13] D. P. Kingma和J. Ba,“Adam:一种随机优化方法”,ICLR,圣地亚哥,加利福尼亚州,2015年。7[14] A. Krizhevsky和G. Hinton,“Learning multiple layers offeatures from tiny images,”Citeseer,Tech.代表:2009.1、7[15] R. LaLonde和U. Bagci,2[16] Y.勒昆角Cortes和C. J. C. Burges,“手写数字的mnist数据库”,1998年。1、7[17] P.Q.奈尔河,巴西-地Doshi和S. Keselj,“推动胶囊网络的极限”,2018年。7[18] Y. Netzer,T.Wang,中国山核桃A.Coates,A.比萨科湾Wu,和A.Y. Ng,7[19] S. Sabour,N.Frosst和G.E. Hinton,3856- 3866。一二三四五六七八[20] R. K. Srivastava,K. Greff和J. Schmidhuber,“训练非常深的网络”,在NIPS,蒙特利尔,QC,2015年,pp.2377-2385. 2[21] C. 塞格迪 W. 刘先生, Y. 贾, P. Sermanet S. 里德D. 安 格 洛 夫 , D 。 Erhan , V. Vanhoucke , 和 A.Rabinovich,1-9. 1[22] L. 万,M。塞勒,S。Zhang,Y.L. Cun和R.Fergus,“Regularizationofneuralnetworksusingdropconnect,”ICML,vol. 28,no.第3页。1058-1066,2013年6月。7[23] D. Wang 和 Q. Liu , “An optimization view on dynamicrouting between capsules,”2018. 2[24] E. Xi,S.Bing和Y.Jin,1[25] H.肖氏K. Rasul和R. Vollanche,“Fashion-mnist:a novelimage dataset for benchmarking machine learning al-taxms,”CoRR,2017. 四、七[26] M. D. Zeiler , D.Krishnan , G.W. Taylor 和 R.Fergus ,2528-2535. 5[27] Z.钟湖,加-地Zheng,G.康,S. Li和Y. Yang,7
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功