没有合适的资源?快使用搜索试试~ 我知道了~
制作和主办:Elsevier沙特国王大学学报Capsule Networks[10]杨晓波,李晓波.EdwardCa能源和自然资源大学计算机科学&信息学系,P.O. 214,Sunyani,加纳b电子科技大学信息与软件工程学院,中国成都c发展研究大学计算机科学系,P.O. Box 24,Navrongo,加纳阿提奇莱因福奥文章历史记录:收到2019年2019年9月24日修订2019年9月25日接受在线预订2019年保留字:人工智能深度学习胶囊网络挤压函数动态路由期望最大化A B S T R A C T现代计算机视觉任务需要有效解决诸如图像识别、自然语言处理、对象检测、对象分割和语言翻译等问题。符号人工智能及其硬编码规则无法解决这些复杂的问题,导致引入深度学习(DL)模型,如递归神经网络和卷积神经网络(CNN)。然而,CNN需要大量的训练数据,并且无法识别物体的姿态和变形,这导致了胶囊网络的引入。胶囊网络是深度学习的新感觉他们已经实现了这一期望,因为他们在解决上述问题方面的表现即使在性能上有这样的承诺,缺乏架构知识和胶囊的内部工作原理也是研究人员充分利用这一突破的障碍在本文中,我们提供了一个全面的审查国家的最先进的架构,工具和方法,在现有的实现胶囊网络。我们强调了成功,失败和进一步研究的机会,以激励研究人员和行业参与者充分利用这一新领域的潜力这篇调查文章的主要贡献是它解释和总结了当前最先进的Capsule Network架构和实现。©2019作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。内容1.导言12962.人工神经网络和深度学习12963.卷积神经网络(CNN)12973.1.CNN的局限性4.Capsule Networks(CapsNet)12984.1.转换自动编码器12984.2.胶囊之间的动态路由4.3.带EM路由的矩阵胶囊13005.CapsNets结构和实施情况调查13005.1.影响CapsNet性能的5.2.对原始实施的修改13015.3.CapsNets 1302的应用*通讯作者。电子邮件地址:patrick. uenr.edu.gh(M.Kwabena Patrick),adebayo. uenr.edu.gh(A.费利克斯·阿德科亚),强大uds.edu.gh的。Abra Mighty),ybaagyere@uds.edu.gh(B.Y. Edward)。沙特国王大学负责同行审查https://doi.org/10.1016/j.jksuci.2019.09.0141319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com1296M. Kwabena Patrick等人/沙特国王大学学报X1-xe.CUP.Σ5.4.数据来源13035.5.数据预处理13035.6.可视化方法5.7.业绩评估方法13035.8.讨论13046.结论1305融资1305竞争利益声明附录1305参考文献13081. 介绍计算机视觉的应用范围从实时检测制造中的产品缺陷到国防和安全,其中可以分析数千个视频片段。这些都是需要实时解决方案的关键应用。这样的实时需求是人类无法满足的。大量数据的可用性使得神经网络(NN)成为可能(Russakovsky等人,2015)和深度卷积神经网络(LeCun等人,2014; LeCun等人,1998年a)在计算机视觉领域出类拔萃。它们已经有效地用于诸如植物病害检测的任务(Dey等人,2016;Golhani等人,2018; Sladojevic等人,2016)、面部(表情)识别(Sun等人,2017; Fasel和Luettin,2003)、图像处理和语音识别(Sukittanon等人,2004;Abdel-hamid等人,2014; Lecun等人,2015年; Chen等人, 2017年)。CNN是不变的,因为它们可以自动提取特征并以不同的形式处理数据CapsNets(Sabour等人,2017)在MNIST上具有优异的性能(LeCun等人,1998c)dataset. 自2017年推出以来,采用胶囊网络作为核心构建块的深度学习模型CapsNets最流行的版本在不同层之间使用一种称为“协议路由”的算法。该算法取代了CNN中的池化,矢量输出取代了标量输出。Capsule Networks的评论我们认识到(Dombetzki,2018)中的工作,并在此声明,它并没有像本文所做的那样回顾有关该主题的文献。本文的组织如下:在第1中,我们提供了本文的目标以及正在考虑的领域的背景。第2简要概述了深度学习中大量使用的AI概念CNN和CapsNet分别在第3节和第4节第5节回顾了系统的结构、实现和性能评估方法,第6节总结了本文。2. 人工神经网络和深度学习人工智能(AI)是计算机科学中的一个热门领域,它基于生物大脑神经元网络的智能。人工神经元网络包含由加权的突触连接在一起的层和神经元。通过反向传播调整权重(尼尔森,二〇一九年;LeCun等人,1998年b)使网络能够学习。燃烧强度神经元由激活函数控制。非线性也需要它们(Pattanayak,2017)。设x是输入x i和权重w i的加权和的值,则从i = 1n,则n放入CNN输出向量的幅值表示由胶囊表示的特征存在于输入图像中的可能性,而实体的取向表示x¼wi xi1/1ð1Þ实例化参数值。因此,CapsNet将不会将鼻子在嘴下方且眼睛在鼻子下方的图像识别为人脸(Sabour等人,2017年)。然而,CNN将把这个图像分类为人脸,只要它有鼻子、眼睛和嘴巴,因为它们失去了特征之间的空间关系。CNN需要大量的数据来进行训练。这些庞大数据集的获取和标记是劳动密集型的。因此,本文试图通过回顾文献中的实现来突出CNN的弱点本文介绍和评估了在这一新兴领域的最先进的模型,以及考虑可能的激活函数的示例包括S形函数(Eq.(2))、整流线性单元(ReLU)(Glorot等人,2011年)(方程式(4)),软- 最大激活函数(Engelbrecht,2007; Gao 和Pavel,2018;Pattanayak , 2017 ) ( 等 式 2 ) 。 ( 3 ) ) 和 双 曲 正 切 函 数(tanh)(方程(3))。(6)和(7))。100万1ð2Þ由一对水平渐近线约束,x的!1.一、exiCapsNets的未来维度本文的贡献如下:Pxi< $1=x<$n第1页exj3在这一新兴领域向研究人员和行业参与者展示最先进的模型,● 探索未来可能的研究领域,● 探索现行的绩效评估方法。由于胶囊网络相对较新,本文首先试图详细解释它们背后的概念以及作为其构建块的其他概念。其次,我们回顾了最相关的CapsNet实现,它们的优势和局限性,并提出了未来可能的发展方向。据我们所知,这是第一篇全面介绍其中n =输出类的数量,i和j表示第i个和第j个类,其中Pxi是第i个类的预测概率。最大值为100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000其他版本的ReLU,如参数化校正线性单元(PReLU)(等式1)。(5))和Leaky Rectified Linear Unit(Leaky ReLU)解决了零梯度问题。最大值x100;最小值x 100;最小值x 100;最小值x105其中b是在训练期间学习的参数。当b=-1时,●M. Kwabena Patrick等人/沙特国王大学学报1297我们得到了一个称为绝对值的ReLU版本1298M. Kwabena Patrick等人/沙特国王大学学报-ReLU。当b非常小时,激活函数被称为泄漏ReLU。tanh在计算上并不昂贵,并且由下式给出:1e-2x1000x1000x1000x1000x 1000或假设我们有一个4像素的黑白图像(如图1所示)。它可以用计算机表示成一个二维数组。每个像素由8位表示;范围从0到255(或28 =256)的十进制。该范围定义了颜色的强度,使得0是完全黑色,255是纯白,并且在两者之间是黑色和白色之间的灰度强度范围。图Ib示出了具有蓝色(B)、绿色(G)和红色(R)通道的彩色版本。图中的特征 1 C,可以表示-x-x-x根据特征是不存在还是存在,将其设置为0或1。7ð Þ¼exþe-xð Þ为了进一步了解如何选择激活函数,鼓励读者阅读Mhaskar和Micchelli(1994)的工作。NN的另一个重要概念是成本函数的计算感知器通过计算称为均方误差(MSE)的成本函数来学习。有许多其他类型的成本函数可用于确定输出误差。梯度下降(GD)在这方面很有用然而,它要求成本函数是凸的,导致引入随机梯度下降(SGD)。这些概念在深度NN中大量使用,用于诸如语言翻译、植物病害检测等 任 务 ( Dey 等 人 , 2016;Golhani 等 人 , 2018; Sladojevic 等 人 ,2016)、面部(表情)识别(Sun等人,2017; Fasel和Luettin,2003)、图像处理和语音识别(Sukittanon等人,2004;Abdel-hamid等人,2014; Lecun等人,2015年; Chen等人,2017年)等。3. 卷积神经网络(CNNs)在我们完全深入CNN之前,让 图 1展示了计算机如何看到不同形式的2 × 2图像。分别发送卷积神经网络(Wu,2017)具有卷积层,池化层,全连接层和扁平化。在卷积过程中,nxm内核(n > 0和m > 0)扫描输入图像以自动提取特征。过滤器比图像小,并且被施加在图像上,然后基于步幅值在图像上移动以生成特征图。步幅越大,特征图就越小。步幅大于或等于2会导致卷积丢失图像的一些特征。为了保持尽可能多的特征,使用几个唯一的内核来获得几个特征图。为了向模型中添加非线性并降低模型计算复杂性,ReLU(Kuo,2016; He et al.,2015a)在卷积步骤之后立即应用。在特征图上进行池化(或下采样),以确保CNN在不同形式的图像中识别相同的对象它在CNN中引入了空间不变性;这最终成为CNN的主要弱点之一存在几种类型的池化:最大池化、最小池化、平均池化(也称为子采样)和总和池化(Scherer等人,2010年)。最大池化保留最佳特征,因为特征映射中的最大数字指示图像上的位置,从该位置获取图像特征的最接近相似性池化的特征映射被展平成列矩阵,以作为NN的输入用于进一步计算。扁平化后的CNN的最后一部分是Fig. 1. 计算机上可能的图像表示M. Kwabena Patrick等人/沙特国王大学学报1299图二. 用于分类的CNN结构(Saha,2018)。由输入层、隐层和输出层组成的人工神经网络。CNN和ANN在全连接层方面的区别在于,在CNN中,隐藏层必须是全连接的然而,这在ANN中不是严格的要求。在反向传播过程中,权重和特征检测器都被调整以获得更好的性能。图2示出了CNN的示例结构。在CNN中,ANN中的代价函数的等价物是损失函数。分类任务最常见的损失函数是交叉熵函数(DiPietro,2016)。但是,它只对分类有用。对于回归,均方误差是最好的选择4. CapsNet(CapsNet)Hinton和他的同事提出了胶囊网络(Hintonet al.,2011年)作为CNN的替代品。胶囊是等变的,由接受和输出向量的神经元网络组成,而不是CNN的标量值。胶囊的这一特性使其能够学习图像的特征,以及图像的变形和观看条件。在胶囊网络中,每个胶囊由一组神经元组成,每个神经元的输出表示同一特征的不同属性。这提供了通过首先识别其部分来识别整个实体的优点。胶囊的输入是CNN的输出(或特征)。根据胶囊类型处理这些特征Li¼-log或efyiPjef jð8Þ就业。胶囊的输出由胶囊编码的特征存在的概率和通常称为实例化参数的一组向量值组成。胶囊特征存在的概率的责任确保网络的不变性。实例化参数为Hp;q-Xpxlogqx9X其中q= CNN输出的函数,p=目标类的函数。SoftMax(Gao和Pavel,2018)函数(公式10)(10),也称为归一化指数函数)通常在CNN的输出层引入需要限制logit的输出在[0,1]之间。用于表示网络的等方差,指示其识别姿势、纹理和变形的能力。不变性是模型决定保持不变的前提,而不管对输入的任何变换。这种类型称为平移不变是CNN特有的。例如,如果CNN要检测人脸,无论眼睛的位置如何,它仍然会将其检测为人脸。然而,等方差确保考虑面部上的特征的空间位置。因此,等方差不仅考虑图像中眼睛的存在,而且考虑其在图像中的位置等方差是一个理想的属性,fxexj10个CapsNet。jPkexkÞ3.1. CNN的局限性导致CapsNets引入的CNN的主要挑战是它们无法识别图像的姿势、纹理和变形(Sabour等人,2017年)或部分图像。换句它们不是等变的,因此缺乏等价性。此外,CNN中的池化操作会丢失图像中的一些特征。因此,它们需要大量的训练数据来补偿这种损失。与CapsNets相比,它们具有更长的训练时间,部分原因是CNN在深度上很深,而CapsNets在宽度上很深(Shahroudnejad等人,2018年),同时拥有很少的参数。CNN更容易受到对抗性攻击,例如像素扰动(Su et al.,2019a)导致错误分类(Su et al.,2019年b)。由于CNN中的最大池化,与CapsNet中的重建相比,图像重建要求非常高。在文献中存在三种通用的胶囊实现方法这些是变换自动编码器(Hinton等人, 2011)、基于动态路由的向量胶囊(Sabour等人,2017)和基于期望最大化路由的矩阵胶囊(Hinton等人, 2018年)。4.1. 改造自动编码器第一个胶囊网络以标题trans-formingauto-encoders(Hinton等人, 2011年)。它的建立是为了强调网络识别姿势的能力。目标不是识别图像中的对象,而是接受图像及其姿态作为输入,并以原始姿态输出相同的图像 在该第一实现中,胶囊的输出向量由输出值组成,其中一个输出值表示特征存在的概率,其余的输出值表示实例化参数。 胶囊可以排列在不同的水平:较低的水平l称为初级胶囊和较高的水平l +1称为次级胶囊。较低级别的胶囊按顺序.!1300M. Kwabena Patrick等人/沙特国王大学学报X≤ ≤jjs jjsP能够启动一个部分-整体的层次结构。这种部分-整体结构是胶囊网络的一个优点,因为通过识别它们的部分,它可以识别整个实体。为了实现这一点,由较低级别的胶囊表示的特征必须在它们能够激活级别l + 1处的较高级别的胶囊之前具有正确的空间关系。例如,让眼睛和嘴由较低级别的胶囊表示,如果它们的预测一致,则这些胶囊中的每一个可以对表示面部的较高级别的胶囊的姿势进行预测 为了解释第一级胶囊的来源以及ANN如何学习将像素强度转换为姿态参数,使用如图1所示的2D图像。3.第三章。在最简单的情况下,使用具有x和y位置作为其唯一姿态输出的2D图像和胶囊一旦学习,网络将获取图像和所需的位移Dx和Dy,之后它可以输出具有指定姿势位移的图像该网络由独立的胶囊组成,每个胶囊都有自己的“输出p表示图像中存在胶囊特征的可能性 为了计算胶囊对 变 换 图 像 的 贡 献 , 其 “ 生 成 单 元 ” ( 图 中 的 绿 色 或 上 层 胶囊)。 3)被馈送x + Dx和y+Dy作为输入。为了防止不活动的胶囊影响输出,将“生成单元”对胶囊输出的贡献第一次实现的一个主要缺点是需要提供所考虑的实体的偏移(姿势)作为输入最后一个胶囊层也称为类胶囊层。从图像中提取的特征由卷积层完成,输出被馈送到主胶囊层。每个胶囊i(其中1我N)具有活动向量U i e R,以编码层1中的空间矢量U ieR。以实例化参数的形式的信息。第i个较低级别胶囊的输出向量ui被馈送到下一层l + 1中的所有胶囊中。在层l + 1处的第j个胶囊将接收ui并且找到其与对应的权重矩阵Wij的乘积。得到的向量|i是由级别L + 1处的胶囊j表示的实体在级别L处的胶囊i的变换。PC的预测向量,|i表示主胶囊i对类胶囊j的贡献。u^jji<$Wijui11预测向量和代表这些胶囊之间一致性的耦合系数的乘积被执行以获得单个主胶囊iJ.如果一致性高,则两个胶囊彼此相关。结果,耦合系数将增加,否则将减小。对于类别胶囊j的所有这些单独的主胶囊预测的加权和(sj)是计算的。以获得平方函数(vj)的候选。从图4中,可以发现以下内容:Nsj¼ciju^jji121/12JJJ1张jjsjj2张jjsj4.2. Dynamic routing between capsulesJ Jc¼ex p.bijIJð14Þ胶囊网络的下一个修改(Sabour等人,(2017年)将胶囊定义为一组神经元,其实例化参数由活动向量表示,向量的长度表示特征存在的可能性。与先前实现相比的改进在于,在这种情况下不需要姿态数据作为输入该网络由卷积层、主胶囊层和类胶囊层组成初级胶囊层是第一个胶囊层,随后是未指定数量的胶囊层,kexpbik挤压功能确保胶囊输出的长度介于0和1之间,就像一个似然函数。来自一个胶囊层的Vj被传送到下一层胶囊,并以与所讨论的相同的方式进行处理。耦合系数cij确保:级别L中i的预测与层L + 1中j的预测相关联。在每次迭代期间,通过找到u^jji和vj的点积来更新c i j。具体地,与每个胶囊相关联的向量值可以是图三.自动编码器胶囊结构(Hinton等人, 2011年)。M. Kwabena Patrick等人/沙特国王大学学报1301Pb.Σ×××××× ×见图4。 Sabour et al. (2017年)。被看作是两个数的一部分(Shahroudnejad等人, 2018);表示胶囊封装的特征的存在的概率和可以用作层之间的一致性的解释的一组实例化参数。因此,当较低级别的胶囊同意较高级别的层胶囊时,它们构建了表示路径相关性的“部分整体”关系,这一事实导致了相关路径的算法1(动态路由算法(Sabour等人, 2017年)。).1. ROUTING(u^jji;r;l)2. 对于层l中的所有胶囊i和层l中的胶囊j,3. 对于r次迭代,4. 对于层l中的所有胶囊i:ci←softmaxbidsoftmax计算cij5. 对于图层1中的所有胶囊j,请执行以下操作:sj←icij ujji6. 对于层中的所有胶囊jl dsquash计算vj7. 对于层l中的所有胶囊i和层j中的l8. 返回vj4.3. 带有EM路由的与使用矢量输出相反,Hinton等人,(2018)提出了将胶囊的输入和输出表示为矩阵。这是必要的,以减少胶囊之间的转换矩阵的大小,因为与矩阵,他们可以与n个元素,而不是n2时,使用向量。 协议动态路由也被期望最大化算法(Engelin,2018)取代。动态路由是两个姿势向量之间的余弦,这并不完美。 此外,用参数a代替向量的长度来替换由胶囊表示的实体的存在概率。这有助于避免被认为“不客观和不明智”的挤压功能。EM路由算法利用具有多层胶囊的胶囊网络来有效地工作。让主层中的胶囊集合由表示每个胶囊的姿态矩阵及其激活概率的OL在级别L处的胶囊i和级别L + 1处的胶囊j之间是可训练的变换权重矩阵Wij。EM通过确保胶囊i的姿态矩阵被变换权重矩阵Wij变换以在级别L + 1处对胶囊j的姿态矩阵进行投票来工作。表决是输出矩阵Mi和变换矩阵Wij的乘积。Vij¼Mi Wij15通过将Vij和ai输入到非线性EM路由算法中来找到所有L + 1级层的位姿和激活。迭代地,EM更新层L + 1胶囊的均值、方差和激活概率,以及较低和较高级别胶囊之间的分配概率。使用EM进行协议路由可确保层L+ 1中的每个胶囊对应于高斯分布,并且层L中的每个活动胶囊的姿态对应于数据点。5. CapsNets结构和实现综述第一个成功的胶囊网络的基本结构是Sabour和Hinton(2017)的结构,它由两个卷积层组成Conv1有256个通道,每个通道由9个9过滤器组成,步长为1,ReLU激活函数应用于28281 MNIST图像。第二层被设计为卷积胶囊层,632个胶囊,每个胶囊输出8D矢量。大步地每个主胶囊具有8个卷积单元,其以9 × 9内核操作。通过应用挤压函数(作为激活函数)来创建10,16 D胶囊,从而获得非线性。该层也是主要的胶囊层,从Conv1层接收特征作为缩放器输出,之后所有层都必须处理8D矢量值。该层由32个通道组成,66初级胶囊的网格。第三层(DigitCaps)是具有10个16D胶囊的全连接层,每个胶囊接收来自下一层的所有胶囊的输入,以执行基于10个班级。最后一层确定前一层中每个胶囊的长度,以获得实体存在的概率。图像的重建是使用由全连接(FC)层组成的解码器完成的(如图所示)。 5)。5.1. 影响CapsNet性能的数据集的属性对算法的性能至关重要。MNIST数据集很简单,只有一个通道,可以与具有不同颜色、大小、噪声、自然场景背景、仿射变换、单个样本中的多个数字等的更复杂的数据集进行比较。2018)在各种更复杂的数据集上(Gordienko等人,2018年)。在诸如SVHN的困难数据集上(Netzer等人, 2011)和具有高类内变化和背景噪声的CIFAR10(Krizhevsky和Hinton,2009),CapsNet的性能低于现有技术(Xi等人,2017年; Mukhometzianov和Carrillo,2018年; Yang和Wang,2019年),但仍优于CNN(AlexNet)(Mukhometzianov和Carrillo , 2018 年 ) 。 然 而 , 对 于 数 据 集 的 MNIST 家 族 ; MNIST(LeCun等人,1998 c)和Fashion-MNIST(Xiao等人, 2017年),CapsNet可以达到最先进的 性能, 因为他们是比较1302M. Kwabena Patrick等人/沙特国王大学学报图五、 Sabour et al. (2017年)。不那么复杂。改变超参数,如学习率、动量、批量大小、辍学率和学习率衰减,不会显著影响CapsNets的性能。然而,适当的路由操作(Lin等人,2018年)和数字动态路由算法的路由迭代的次数,以及它是影响CapsNet性能的最重要的超参数。已经比较了具有动态路由的CapsNet、CNN和具有EM的CapsNet的收敛性(Chauhan等人,2018)基于超参数,如Optimiz- ers(Adam,Adadelta,Adagrad和Rmsprop),Conv 1层中的通道数,主胶囊层中的胶囊数,主层之后卷积层中的胶囊数,类胶囊层中的胶囊数和例程迭代数。上述参数的较高值导致具有EM路由的矩阵帽中的更快训练和收敛(Chauhan等人,2018年)。它对路由迭代次数敏感,并且在Adam或Rmsprop优化下收敛更快。参数共享(Ren等人,2019)用于减少参数的数量,以提高Caps-Net的整体泛化能力。在这种情况下,通过共享变换矩阵(为每个高级胶囊选择低级胶囊的特征)来共享参数,需要M个而不是MxN个变换矩阵;其中M =高级胶囊的数量,N =低级胶囊的数量。5.2. 对原始实现的Sabour和Hinton(2017)对CapsNet的实施已经提出了几项修改建议(Li,2018; Deliege等人,2018; Xiang等人,2018; Amer和Maul , 2019; Neill , 2018; Rawlinson 等 人 , 2018; Bahadori ,2018; Ma和Wu,2019; Rosario等人,2019年;Zhao等人,2018 b;Li等人,2018年),以解决原始实现的一些限制并提高性能。对协议路由的关键分析表明,它不能自动确保较高级别的封装体(父封装体)与多个较低级别的封装体(子封装体)耦合以形成解析树(Peer等人, 2018年)。 代替允许较低级别的胶囊将其输出发送到所有较高级别的胶囊,如在原始协议路由算法中的情况,较低级别的胶囊可以选择单个父,使得网络能够对白盒对抗攻击具有深度和弹性(Peer等人, 2018年)。 鉴于此,具有由胶囊制成的高性能网络的生成对抗网络(GAN)(Jaiswal等人, 2018年,可以帮助-在确定一个给定的图像是自然或人工创建(假)。评论家越好,生成器学习的速度就越快(Upadhyay和Schrater,2018)。然而,在深度生成模型中对数据的概率分布进行建模很快就变得难以处理。因此,CapsNets成为CNNs的更好替代品(Saqur和Vivona,2018; Sastry,2018)作为GAN中的鉴别器,确保重要信息不会通过池化丢失。动态路由算法可以看出作为一个优化问题,可以用公式表示为目标函数的最小化(Wang和Liu,2018)。这种修改可以防止激活概率随着迭代次数的增加而变得高度不平衡。为了稳定训练过程,Sabour和Hinton(2017)通过使用边际损失对权重矩阵进行正则化。更一般的解决方案是重新调整权重矩阵,并确保每次迭代的输入与胶囊j的所有单个主胶囊预测的加权和(sj)之间的内积设置为低于1(Wang和Liu,2018)。原始CapsNet中的等权初始化路由算法存在收敛速度慢、精度差的问题。更快收敛和提高准确性的更好选择是将初始路由权重建模为通过反向传播训练的可训练参数(Ramasinghe等人,2018年)。我们可以利用这样的认识(并利用这一事实),即主要胶囊预测并不独立于提高CapsNets在多标签分类任务上的性能(Ramasinghe等人,2018年)。关注胶囊的长度而不是单个胶囊的输出证明了成为更好的实体检测方法(Zhang等人,2018年b)。在这种情况下,胶囊的长度对实体的存在进行排名在(Sabour等人, 2017年),Softmax功能用于正常-对表示相邻层的胶囊之间的分配概率的路由系数进行量化。然而,Softmax限制了路由系数可以假设的可能的值集,导致在几次路由迭代后的均匀概率。该问题导致的性能损失可以通过使用Max-Min函数代替Softmax来解决(Zhao等人,2019年)。Max-Min执行尺度不变归一化,允许较低级别的胶囊与Softmax不同的是,它具有独立的价值观。为了更好地学习区分性特征图以供CapsNets后续使用,卷积层可以用密集连接的卷积层代 替 (Phaye等人, 2018年)。然而,在这方面,M. Kwabena Patrick等人/沙特国王大学学报1303增加网络深度导致梯度消失问题。幸运的是,它可以通过向后续层提供来自ResNet先前层的信号来解决(He et al.,2015年b; Larsson例如,2017年)或通过在每层之间添加密集连接以前馈方式(Huang等人,2017年),以国家为中心。也可以认为,Caps-Nets中的路由过程没有适当地集成到训练过程中,因为路由过程没有嵌入到优化过程中,并且最佳路由数量的选择必须手动找到(Chen和Crandall,2018)。此手动选择不保证收敛。除了MNIST或smallNORB(LeCun和Huang,2004)之外,Capsules在其他数据集上的表现比CNNTransfer学习模型(例如InceptionNet和DenseNet)更好,并具有额外的配置,例如增加Conv层和FC层的数量(Phong和Ribeiro,2019)。基于动态路由的CapsNet不保证等变性或不变性(Lenssen等人,2018年)。这是由于姿势的空间是流形,而投票在向量空间中被平均,这一事实不能在流形中产生等方差均值估计。此外,胶囊层中的可训练变换核被定义在空间向量域中发现的局部感受野上,该局部感受野具有不知道姿态的感受野坐标。Lenssen等人(2018年)提出了将等变胶囊层分组,其中姿态向量被限制为组的元素。在一般的协议路由算法下,在一定的条件下,可以保证这些组的等变性和不变性。5.3. CapsNet的应用CapsNet在改善我们的社会经济活动方面很有前途,因为它们可以被部署来解决天文学中的现实问题(Katebi等人,2018),自动驾 驶 汽 车 ( Kumar 等 人 , 2018 ) , 机 器 翻 译 ( Wang et al. ,2018a)、手写和文本识别(Mandal等人,2019年; Zhao等人,2018 a; Kim等人,2018a)意图检测(Xia等人,2018年;Zhang等人 , 2018 a ) 、 情 绪 和 情 感 检 测 ( Wang et al. , 2018c;Rathnayaka等人,2018年; Guo等人,2018; Chao等人,2019)等等。以图像表达的交通数据的时空性质适合于CapsNets用于预测交通速度的应用(Kim等人,2018 b; Ma等人,2018年)和异常驾驶(Kim和Chi,2018年)。随着社交媒体的广泛使用,用户现有的检测方法不能检测视频和图像中的许多形式的伪造。VGG-16(Simonyan和Zisserman,2015)和CapsNets的组合在该领域表现出色(Nguyen等人,2018年)通过显著减少过拟合和提高检测精度。伪造检测方法的挑战是它们无法检测到广泛的攻击,例如计算机生成的视频/图像,重放攻击等。对于自然语言处理(NLP)任务(Renkens和Van,2018; Zhang等人,2018 a),如知识图(KG)完成和保存单词嵌入的模型参数(Ren和Lu,2018),CapsNets表现出比CNN更好的性能(Nguyen等人,2019年; Zhang等人,2018年c)。它们更好地预测了KG中没有发现的三元组的有效性,因为在(主语,关系,宾语)关系三元组中应该存在适当的三元组三重建模问题在KG完成和搜索个性化中具有重要的应用(Nguyen等人,2019年)。在关系提取的任务上,现有模型的性能取决于实例表示的质量,并且它们也没有考虑到结构关系,例如实例在句子中的位置。这可以建模为由胶囊网络执行的多标签分类问题作为多二进制分类(Deng等人,2018年)。在Ren和Lu(2018)的案例中,K-means聚类取代了动态路由,并避免了在迭代过程中使用挤压函数。在迭代之后进行挤压,用新的b ij替换b ij,而不是用新的b ij加上旧的b ij替换b ij (Sabour等人, 2017年)。CapsNet已经在健康中发现了重要的应用(CapsNet等人,2018;Iesmantas 和 Alzbutas , 2018; Mobiny 和 Nguyen , 2018;Zhang 和Zhao,2018)和其他重要领域( Prakash和Gu,2018; Annabi和Ortiz,2018; Garg等人,2017; Duarte等人, 2018年)。通过递归CapsNet提取健康记录中实体之间的语义关系可以有效地用作检测健康问题的基础(Afshary等人,2018)及其严重程度(Wang et al.,2018年b)。医学图像标注数量少和类别不平衡(一类数据远远超过其他类别)问题是对健康领域有效分类的挑战。即使它们可以通过数据增强 部分 缓 解, CapsNet在 类不 平 衡的 情 况下 表 现更 好 (Jimenez-Sanchez等人,2018),在不同的情况下(伯曼,2019)。它们在对象分割方面表现良好(Lalonde和Bagci,2018);由于其出色的像素级分类能力,这是一种非常有用的检查医学图像的技术。CapsNet在其他领域也取得了良好的效果,例如高光谱图像分类(Zhang et al.,2019 a;Zhang等人,2019年b),其中标记数据的可用性是一个 挑战。蛋白质家族结构分类(Jesus等人,2018; Fang等人,2018; Tobing等人,2018; Zhang,2019)是CapsNets应用的另一个领域。CapsNet对层次关系的关注使其在图中比CNN更有优势(Mallea等人,2019;Verma和Zhang,2018)或蛋白质结构分类;这是推断功能和帮助药物设计所必需的过程。为了使分类器能够从很少的例子中学习,生成和非生成胶囊网络的 组 合 可 以 在 达 到 最 大 性 能 后 注 入 缺 失 数 据 ( Gritsevskiy 和Korablyov,2018),如果网络具有比数据更多的通道(路径),则是如此,因为看不见的数据将不会激活现有路由路径中的任何胶囊,而是更喜欢未使用的路由路径。自动驾驶汽车将从CapsNets等计算机视觉应用中受益匪浅。传感器数据需要以闪光速度处理,以便汽车在几秒钟内做出决定。然而,诸如超声波传感器的汽车传感器并未针对高性能进行优化(Popperl等人,2019年),但要更便宜,以便不有助于提高汽车的成本。为了补偿汽车超声波传感器的低硬件性能,Caps-Net已经被用于获得对用于辅助驾驶目的的超声波数据的出色分类性能,例如物体高度确定(Popperl等人,2019年)。这在停车时可能很重要。CapsNets解决的另一个挑战性问题是(环境)声音检测(Iqbal等人,2018; Jain,2019; Vesperini例如,2018年)。与音乐或语音识别相比,对于这个问题,没有领域特定的知识是先验已知的。尽管如此,CNN已经在这一领域取得了一些成功,除了他们无法避免过度拟合的事实通 常 , 具 有高 处 理 要 求 的 算 法可 以 在 硬 件 中 加 速 。脉 动 阵 列(Kung,1982)已被证明是用于改善包括CapsNets(Marchisio等人,2018年b)。例如,在硬件中,可以跳过协议路由算法的初始步骤,然后直接初始化耦合1304M. Kwabena Patrick等人/沙特国王大学学报×¼-系数,以增加算法的运行时间相比,其GPU软件对应。CapsNet易受对抗性攻击(Marchisio等人,2019年)。这些类型的攻击试图通过在输入中引入扰动来欺骗网络执行错误分类。这对于自动驾驶汽车等关键应用非常重要,在这些应用中,识别路标和行人至关重要。5.4. 数据源目前,胶囊网络的性能取决于评估它们的数据集在本节中,我们简要概述了本文所涉及的实现中使用的数据集。CapsNets使用的数据集类型主要分为自然语言处理类型、音频/视频、语音处理和图像处理。拥有这些数据集的好处是帮助研究人员花很少的时间来预处理数据。MNIST(LeCun等人,1998 c)是用于训练CapsNet的最流行的数据集。这部分是由于自原始论文(Sabour et al.,(2017)使用它用于实验评估。它由手写数字组成,是NIST数据集的一个子集,包含60,000个训练图像和10,000个测试数字。就像MNIST、Fashion-MNIST(Xiao等人,2017)包含相同数量的训练集和测试集。这是一个2828灰度图像从70,000时尚产品。这个数据集在我们回顾的一些论文中也很受欢迎。小型NORB数据集(LeCun和Huang,2004)旨在用于涉及使用3D对象的机器视觉任务。它包含图像玩具、汽车
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功