复杂图像处理中基于K-Means路由的LBP胶囊网络研究

15 浏览量更新于2024-01-17 收藏 2.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于K-Means路由的LBP胶囊网络在复杂图像Patrick Mensah Kwabenaa，Benjamin Asubam Weyoria，Ayidzoe Abra Mightyba能源和自然资源大学计算机科学&信息学系，P.O. 214，Sunyani，加纳b电子科技大学信息与软件工程学院，中国成都阿提奇莱因福奥文章历史记录：收到2020年2020年9月30日修订2020年10月8日接受2020年10月15日网上发售保留字：局部二进制模式胶囊网络卷积神经网络K-Means植物病害A B S T R A C T胶囊网络（CapsNets）是为了克服卷积神经网络（CNN）的不变性等缺点而提出的。尽管它们已经实现了等方差，但它们无法识别复杂图像和具有不同背景的图像，如CIFAR-10。现实生活中的图像，如在植物疾病数据集中发现的图像（除了具有不同背景的复杂性之外最初的CapsNet使用CNN作为特征提取器，SoftMax用于归一化，动态路由（DR）使活动胶囊能够进行预测，从而激活更高级别的cap-turbine。然而，CNN并不能作为优秀的纹理提取器，SoftMax限制了胶囊在路由过程中形成最佳耦合在本文中，我们提出使用一种有效的纹理描述符（局部二进制模式-LBP），sigmoid函数和k-means路由分别代替CNN，SoftMax和动态路由。我们在六个公开的数据集上评估了我们的模型; MNIST，时尚MNIST，CIFAR-10，番茄，玉米和柑橘数据集。实验结果表明，该模型生成的参数少，在复杂图像上与现有的多通道胶囊网络具有良好的性能。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍卷积神经网络在图像识别中发挥了关键作用，尽管它们无法考虑特征之间空间关系的重要性，并且还缺乏旋转不变性（Sabour等人，2017）分别导致假阳性和假阴性的产生（Xi等人，2017年）。在CNN中，不同方向上的对象可能不会被类似地表示，这使得它们“数据饥饿”并且需要增强（Xiong等人，#20199;，避免过度？为了解决这些缺点，Capsule Networks（Sabour等人，2017），但它们在匹配CNN在复杂图像上的性能方面仍然面临挑战（Rajasegaran等人， 2019）和图像*通讯作者。电子邮件地址：patrick. uenr.edu.gh（P。 Mensah Kwabena），beneficiary.weyori@uenr.edu.gh （学士学位） Weyori ）， mighty. uds.edu.gh （ A. AbraMighty）。沙特国王大学负责同行审查因为它们倾向于说明图像中的每个对象（Sabour等人， 2017年）。CapsNets在复杂图像上性能差的另一个原因是初始CNN层不足以进行特征提取（Cao等人，2019），因为它往往集中在图像的形状。然而，图像的纹理提供了独特的特征，例如所选区域中的强度或颜色的空间排列，这可以帮助图像部分的独特识别。因此，识别过程可以基于使用纹理描述符的图像部分的纹理和形状目前，动态路由算法使用SoftMax标准化，通过约束路由系数的动态范围，导致胶囊之间的概率的均匀分配（Zhao等人，2019年）。因此，大多数路由系数保持其初始值，只有少数路由系数保持其初始值。它们的值刚好足以将较低级别的胶囊与较高级别的胶囊分开。研究表明，使用其他归一化技术，如Max-Min （ Zhaoet al. ， 2019 ）或sigmoid（Jia& Huang，2020）改进了耦合系数值的分布，从而提高了具有非零背景的数据集（如CIFAR-10）的性能。https://doi.org/10.1016/j.jksuci.2020.10.0061319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comP. Mensah Kwabena、Benjamin Asubam Weyori和A. 阿布拉·莫蒂沙特国王大学学报2575一些研究人员选择增加他们模型的深度和宽度（Phong Ribeiro，2019），试图解决CapsNets在复杂图像上的失败。然而，动态路由具有内环并且在复杂数据上不可扩展，因为它倾向于直接依赖于类的数量，从而将相互关系的数量增加到可能导致过拟合的水平（Mandal等人，2019年）。因此，通过增加CapsNet模型的深度或宽度来增加参数的数量会进一步增加计算复杂性和训练时间。在这项研究中，我们提出了使用一个简单但有效的纹理提取器与K-均值路由识别复杂的图像。我们有动力采用K-Means，因为路由过程类似于聚类（Ren Lu，2018），因为主胶囊（PC）预计将与二级胶囊（PC）连接，它们与二级胶囊具有高度一致性。实验结果表明，该模型可以达到性能值相媲美的国家的最先进的多车道模型对复杂的图像。此外，层激活图的可视化显示，LBP是比CNN更有效的特征提取器，具有不增加模型中可训练参数数量的额外优势。本文的贡献总结如下：1）提出了一种基于（Ren Lu，2018）的k-means路由算法我们使用平方欧几里德度量来计算耦合系数，从而形成可分离的低级别胶囊集群。我们采用了幂压缩（Yang&Wang，2019）来将短向量的长度减少到零，并将长向量增加到1。为了更好地分布耦合系数，我们使用sigmoid函数进行归一化（Jia Huang，2020）。2）我们提出了一种新的架构，利用一个有效的特征提取器（LBP），其性能优于CNN，并且不会增加可训练参数的数量。3)我们通过提供导致所提出的模型的一些决策的内部处理结果的可视化来本文的其余部分组织如下：第2介绍了相关的工作，导致第3节提出的方法，包括k-均值路由算法（KMR）。第4节介绍了验证实验，并讨论了实验结果，之后第5节通过提供未来工作的范围来总结本文。2. 相关作品最初的CapsNet（Sabour等人，2017）与CNN相比，在复杂图像上表现不佳。例如，称为DenseNet的深度CNN（Huang等人，2017年），2720万个参数在CIFAR-10数据集上实现了令人印象深刻的96.40%的准确率。在为该缺陷分配的原因中，主要的是CapsNets试图提取图像中的每个对象的特征（Sabour等人，2017）包括背景和背景对象。由于这个缺点，已经在架构和算法层面上进行了一些尝试，以使CapsNet在识别复杂图像的性能方面达到CNN的水平（Xi等人，2017年）。研究人员采用两种主要方法来提高深度学习模型在困难图像上的性能，这两种方法是基于架构的（Khan等人，2020）和/或算法创新。在架构上，CapsNets中用于特征提取的卷积层可以用密集连接的卷积层代替（Phaye等人，2018），以改善后续层的更具鉴别力的特征图的学习。然而，该方法包括参数数量的爆炸和消失梯度。消失梯度问题可以通过使用剩余连接来部分缓解（He等人， 2015; Larsson等人，2017 年;Deborshi& Sun，2019年），并且还通过以前馈方式在每一层之间添加密集连接（Huang等人， 2017年）。然而，参数的数量在这方面，Deborshi Sun（2019）使用残差连接将CIFAR 10的准确度提高到78.54%，但生成了2500万（M）个参数。一些实现通过设置ResNet来利用剩余连接（He等人， 2016）作为动态路由（DR）算法（Bhamidi&El-Sharkawy，2019）的输入，具有基于跳过连接的8个剩余层。在CIFAR10上以11.86 M参数为代价实现了84.16%的精度提高。七个集合的CapsNet在CIFAR10上实现了89.40%，101.5 M参数。该模型表现不佳，原因是到达PC层的密集连接的功能负载过大（ShalaniBhamidiEl-Sharkawy，2020）。通过允许PC在图像的3个不同尺度上携带信息，对其进行了修改，以提高其在复杂数据上的性能并减少参数数量（ ShamiBhamidi El-Sharkawy ， 2020 ）这一改进实现了 86.42% 的准确度，并在CIFAR10上产生了10.8 M参数。多层胶囊（Phaye等人，2019）另一方面是另一种方法，其中卷积层被密集层取代以提高性能，基于该方法，（Phaye等人，2019）生成了13.4 M参数。与深度增加相反，另一种方法是通过增加车道数量来增加宽度（刘昌，2020）。例如，（Chang Liu，2020）中的模型使用32个车道在CIFAR-10上获得76.79%的准确率，并生成超过870万个参数Rosario等人“s多通道胶囊（Rosario等人，2019）在CIFAR-10上生成了14 M个参数，获得了75.18%的准确率，而Xiang等人提出的多通道实现方法，（ 2018年）实现了75.7%的准确率，11.2 M个可训练参数。由于增加层数（Phong Ribeiro，2019）在提高CapsNet性能方面表现出了有效性，因此已经开发了一些技术来减少此类模型中参数的爆炸。一些研究人员（Xiong et al.，2019年）采用胶囊池，在CIFAR-10上取得重大进展。3D卷积（Rajasegaran等人，2019年）已被用于为7-系综模型创建更深的网络，该模型提高了性能，并将参数数量显着减少到7.22 M。通过DropCircuit，深度，最大池化和扇入路由（AmerMaul，2020）进行的正则化组合已被证明成功地将参数数量减少到6.0M并提高了CIFAR 10的性能。此外，已经采用了更多胶囊层与卷积层的堆叠以及整体平均的使用（Xi等人，2017年）在CIFAR-10数据集上获得71.50%的准确率。CapsNets的性能已经与CNN进行了比较（Ren等人，2019年）在各种规模的改进是在算法水平上。例如，已知SoftMax归一化防止耦合系数的公平分布（Zhao等人，2019年）导致性能下降。替代激活函数，如Sigmoid（Jia &Huang，2020）和Max-Min归一化（Zhao等人，2019年）已被用于产生有希望的结果。还提出了不同的挤压函数（Yang Wang，2019），因为原始挤压对于具有较小ksjk的胶囊产生高激活值。在其他实施方案中，选择，一硕士分支是介绍和辅助通过一互补分支接收直接数据以基于在其他较低级别层中编码的模式变体来补充质量（Li等人， 2018年）。该方法提高了P. Mensah Kwabena、Benjamin Asubam Weyori和A. 阿布拉·莫蒂沙特国王大学学报2576Xnnvj.格¼¼0否则“X .第二个XXnC该算法以及提高复杂数据集的准确性。主 /辅助模型（Li等人， 2018年，产生60.68 M参数。为了有效地估计路由系数并减少训练时间，直通式注意路由（Ahmed Torresani，2019）可以使用注意模块，其中可微分二进制路由器没有引入递归的能力。这种技术允许路由器采取二元决策是否连接或断开之间的主要和次要胶囊。这与动态路由相反，动态路由将主胶囊连接到所有次胶囊，直到路由系数确定丢弃哪个cij。此外，自路由（Hahn等人，2019）消除了较低和较高级别胶囊之间的协议要求，从而通过提供一个独立的从属路由网络到每个较低级别的胶囊。在上述实施方式中，很少注意特征提取层，而更多的通道和层被添加，结果是参数的数量激增并增加了训练时间。这种模型复杂性的增加并不一定会转化为性能的提高。因此，本研究采用了一个简单而有效的特征提取器（LBP），并提出了一种基于有效聚类算法（K-Means）的路由算法，试图在CIFAR-10和其他数据集上以更少的参数获得有竞争力的结果。● 幂Squash：我们采用基于（Yang Wang，2019）的原始squash函数的幂版本kvjkkv jk它抑制较小的激活值相比，较大的（见图。3）。Sigmoid激活：与SoftMax相反，该函数改善了耦合系数的分布，从而提高了性能。实验结果表明，该函数提高了模型的精度和收敛性.3.1. 局部二值模式（LBP）特征提取我们使用局部二进制模式（LBP）（Ojala等人，2002）作为无参数特征提取器，以通过对输入图像的n个相邻像素进行阈值化并计算其等效二进制数来提取图像部分的对比度和空间图案。在这个过程中涉及四个基本步骤：首先，从给定图像I的像素（x，y）中以半径r选择n个相邻像素。计算（x，y）和n个相邻像素之间的强度差作为第二步骤。下一步骤涉及阈值化强度差以通过将所有负差转换为0并且将正差转换为1来导出位向量。上一步的n位向量最终被转换回其十进制值，并用于替换pixel（x，y）。该方法由等式（1）描述并在图1中示出。1.一、n-1LBP 1000mg/kgn¼0对于这些算法级修改的综述，鼓励读者参考（Kwabena等人， 2022年）。我们选择CIFAR-10和其他数据集来评估我们的模型，因为它们在计算机视觉算法中的流行性和复杂性。3. 提出方法本研究的目的是设计一个简单的和浅的CapsNet与较少的参数，以实现高识别精度，利用一个强大的特征提取器和一个新的路由算法。我们通过避免CNN或胶囊层的堆叠来实现浅度，同时采用不会增加可训练参数数量的纹理描述符。我们探索了几种模型修改，并为我们的模型得出以下组合：其中，in为相邻像素的强度，ic为当前像素的强度，n=在半径处选择的相邻像素的数量r，并且f是定义为f1/4的符号函数。1如果x ≥ 0。3.2. 聚类聚类涉及的分区的N个数据点D¼ fx1;x2;···;x Ng <$R q从一q维向量x i¼x1x2···x q 其中x是R分成K个不相交的簇，如果j-k：我们注意到xij是Nxq矩阵，而K是在1 > K > N内定义的整数。Clustering使用由d∈x;y∈ kx-y ∈k表示的空间R q上的范数k：k计算两点x ; y ∈ R q之间的距离，其中2范数（等式（2））是最流行的。1K-Means路由：与动态路由类似，我们的k-means路由基于（RenLu，2018），但独特地使用dx;y¼n第1页2xi-yjð2Þ平方欧几里德距离作为计算logits的距离度量，而不是（Sabour）中的点积例如， 2017）和余弦测量（Ren &Lu，2018）。LBP-CapsNet架构：我们设计网络，使其提取更多的纹理特征，而不是图像形状和边缘，同时减少可训练参数的数量。K-Means（Han等人， 2012）是一种有效的基于中心的聚类算法，其使用基于范数的距离度量来最小化数据点和聚类中心上的平方误差和（SSE）（等式（3））。KL¼dkxi-Ckk23k¼1xi2Ck图1.一、示例图像上的LBP操作说明●●●文献中存在几项关于CapsNets算法变化的工作，这些变化导致复杂数据集上的性能提高。P. Mensah Kwabena、Benjamin Asubam Weyori和A. 阿布拉·莫蒂沙特国王大学学报2577J2¼¼···¼···PPðþ ÞX¼J.XJ1张图片sjk2张图片sjk1kvjk2kvj kK我K1/1N1/1123nn2（六）、Þn挤压-在路由过程中挤压。-原始用途- 路由后的南瓜-使用自定义- 在路由过程中挤压。使用功率表1我们提出的k-means路由与（Sabour et al.， 2017）和（Ren &Lu，2018）。执行动态路由（Sabour等人， 2017）Compositional Coding Capsule（任&璐，2018年）KMR（Ours）目的图像分类文本分类图像分类算法动态路由CCC-K均值路由LBP-K均值路由b ij-距离度量是点积。初始化为0。通过将旧bij添加到新bij进行更新。- 距离度量是余弦相似度。-未初始化。-旧bij未添加到新bij。- 距离是22标准初始化为22标准值为v0。-旧bij未添加到新bij。NormalizerSoftMaxSoftMaxSigmoi d. bij壁球v<$ksjkSJ壁球v¼kvjkv壁球vjn其中，Ck是通过找到聚类中数据点的平均值而获得的第k个聚类的聚类中心。最初选择K个质心作为聚类中心C。距离dx;Cbe-聚类中心的更新和更新。胶囊ui通过耦合系数cij与质心vj耦合的必要条件是设置W ij=1，导致v j¼Pn ui：在给定的r数下点xi和聚类中心Ck之间的距离计算如下：i1; 2; ;N和k1; 2; ;K。聚类中心的更新基于等式（4）发生，直到算法收敛或满足停止标准。路由迭代，我们通过以下等式表示层1-1- 1胶囊vrXcrWijui6Ck¼N1/1uikxið4Þ伊季1/1如果x是C k，则u ik<$1，否则u ik<$0。3.3. K均值路由我们使用k-均值通过将层l胶囊分配给层l来对第l个胶囊层和第101个胶囊层之间的路由进行建模1胶囊的基础上最小化的欧几里德距离mea-没问题。l中的所有n个胶囊uuu· · ·u图层必须找到k个胶囊13K2018），初始化聚类中心vj，并确保它们具有与层L封装体耦合的正确特征。我们使用平方2范数来计算不同层次胶囊之间的相似性。换句话说，使用等式（7）中所示的平方欧几里德范数来计算层1中的胶囊ui和层1中的胶囊v j之间的相似性。d¼22¼Xkui-vjk27在第1层的第1层中用作聚类中心vv v···v到min。1/1最小化等式（5）中所示的目标函数。n生成的对数通过Sigmoid函数传递到计算耦合系数（Jia Huang，2020）：L mink第1页Wijkui-vjk25国际新闻报^Sigmoi d.bijWij1/11/4变换矩阵ncij¼ S形kW i j ui-vjk！ð8ÞL相对于Wij的偏微分产生了一个表达式，该表达式有助于将较低级别的胶囊分配给聚类中心，其中Wij在初始化过程中起着重要作用。1/1其中bij0是logits。在第一路由r1/40期间，初始bij由下式J乌伊克其中对于x次路由迭代，0≤rx<需要Wij来识别层l处的胶囊（Ren Lu，P. Mensah Kwabena、Benjamin Asubam Weyori和A. 阿布拉·莫蒂沙特国王大学学报2578图二、使用CIFAR-10训练的LBP-KM Capsule模型的架构P. Mensah Kwabena、Benjamin Asubam Weyori和A. 阿布拉·莫蒂沙特国王大学学报2579nK1/1bjji1/1BBBb ij ¼k W ij u i-vjKIJ1/1IJ我JJKKIJIJJKIJJi/1ij参数，并可根据需要进行更改JK1/1J1/1IJ我J Kij ←PKIJi- jkJK0然而，我们使用b0pnkWu-v<$0<$2，考虑1/1我们使用Wij来使用等式（9）生成不同的聚类中心：K初始聚类中心（SC）和预测向量（来自PC）之间的欧氏距离，以计算logits。在更新期间，我们不会将旧logits添加到新logits中，因为据报告，这会导致胶囊中的极化问题（Ren Lu，2018）v01Xc0W u1/1ð9ÞDR使用点积来计算fea之间的相似性，PC和SC的结构，而我们采用欧几里德距离为此目的。在DR中计算耦合系数cij在整个路由过程中更新聚类中心v j。使用表达式cess：vr11Xcr1Wijui1/1我们使用幂挤压（参见等式（10）），其具有优于原始挤压函数的一些优点。是完善通过SoftMax，其限制在第3.4.2节中提到。相反，我们发现logits的S形值（等式（8））作为SoftMax的增强（Jia Huang，2020）。对于每个更高级别的胶囊，DR找到预测vec的加权和torssj（即，输入到挤压函数）作为连续的方式，计算集群中心（SC）的集群点（PC特征）。K-Means还计算每个期间的聚类点和中心。用vr1Pk cr1wi jui，with对象n是一个超-v0←1PkWi j ui（等式（9））是SC的初始选择，nvjkvjkkvjk10用于图像分类的所提出的K-Means路由的算法在算法1中示出。算法1. 用于图像分类的K-Means Routing。1.ROUTING（ui;r）集群中心这将作为squash函数的输入，sj在DR中。在表1中可以找到K均值和DR实现的其余差异。3.4. 模型架构所提出的模型如图所示。2，并且它包括两个LBP层、卷积层和一个PC层。输入图像（例如，32 x32 x3 CIFAR-10）被提供给具有128，3x 3内核的第一LBP层（LBP 1）以产生128，30 x30特征图。LBP2由128，3x3内核组成，产生128，28x28特征图。2.初始化v0←1Pk我爱你Conv1将上一层的特征图作为输入它具有128个3x3内核，并且ReLU非线性激活在一个步幅3.b0←PnkW u-v02的1个，以生成128个26x26特征图，作为PC层的输入PC层是一个卷积帽-5.bn W u v6.cij←Sigmoi d. bij一个内核大小为9x9，步幅为3的分层在PC层，u和权重（W）之间的张量积产生由576组成的u（即，6*6*16），8维向量。在Digit Caps7.vj←PncijWijui层. 识别帽将形成k，16D向量，其中k= num。8.返回;返回;返回vj我们使用k-means路由来代替动态路由（Sabour等人，2017）之间的胶囊和平方欧几里德距离，以取代点积。此外，我们用Sigmoid代替SoftMax，并采用具有改进性能的功率压缩函数。在表1中，我们提供了我们的方法与（Sabour et al.， 2017）和（Ren &Lu，2018）。K-Means和动态路由（DR）都在主胶囊层和次胶囊层（SC）之间工作，通过帮助主胶囊层与它们基于特征的相似性而主胶囊（PC）特征是活动向量的形式，其编码对象的空间信息;实例化参数，该向量的长度使用班的贝尔。在解码器网络中有三个完全连接（FC）层，分别由第一层、第二层和第三层中的512、1024和3072个神经元组成。从LBP1到PC层，每一层都是批次标准化的（Ioffe& Szegedy，2015）和脱落的（Srivastava等人， 2014）应用于除了最后一个FC层之外的全连接层。为了使特征提取更具选择性并防止初始层从输入图像中提取不太相关的特征，使LBP 1初始提取形状、强度/纹理，权重矩阵Wij和ui;预测向量ujji，其指示获得第i个PC对第j个SC贡献多少的ujji使用耦合系数将PC连接到相应的SC克恩角所有PC的加权和u 对于特定的SC是s。jjj jjji jSC接收sj作为输入以产生v j。这些一般概念是然而，这两种算法相同，在低级实现中出现差异。我们简要解释这些差异如下：对于给定的ujji，r次迭代和l层，DRlogitsbij为0，并通过将旧logits添加到新logits来更新它们。图三.原始压缩与其Power激活压缩功能的比较。2我计算的可能性的一个实体代表一个1/14.对于r次迭代，P. Mensah Kwabena、Benjamin Asubam Weyori和A. 阿布拉·莫蒂沙特国王大学学报2580（（（（（b）第（1）款（c）第（1）款图四、模型的训练/验证精度和损失;（a）MNIST（b）时尚MNIST（c）CIFAR-10（d）番茄（e）玉米（f）柑橘。P. Mensah Kwabena、Benjamin Asubam Weyori和A. 阿布拉·莫蒂沙特国王大学学报2581表2模型准确性与文献和基线CapsNet结果的比较。未报告的值用问号表示。表3模型参数与其他最先进模型的比较。图像大小在括号中提供，？表示未报告的值。2020年）由LBP 1将特征图从30减少到28生成的那些;即，两个特征图被认为是不太相关的，模型ResNet（Zhang等人， 2018年）丢弃准确度（类别数量）。这一阶段是重要的，以帮助解决CapsNets中有97.28%（10）的问题，它试图在每个AlexNet（Durmus等人，（2017年）95.65%（10）图像中的对象包括背景信息。SqueezeNet（Durmus等人，（2017年）94.30%（10）K均值路由，就像动态路由一样LeNet（Prajwala等人，2018）VGG16（Rangarajan等人，2018年）AlexNet（卜拉希米等人，（2017年）94.85%（10）99.24%（6）98.66%（9）在初级胶囊和次级胶囊（趾帽）层之间。GoogleNet（Brahimi等人，（2017年）99.18%（9）VGG（Suryawati等人， 2019年度）95.24%（10）DR-基线（Sabour等人，（ 2017年）KMR（Ours）90.44%（10）98.06%（10）3.4.1.幂压缩函数我们使用强力挤压（Yang Wang，2019）来保持方向，(c)玉米数据集模型精度LeNet（Ahila Priyadharshini等人， 2019年度）百分之九十七点八九DR（Sabour等人，（基线）百分之九十三点四五KMR（Ours）百分之九十六点七九(d)柑橘数据集模型精度DR（Sabour等人，（基线）百分之九十四点二三KMR（Ours）百分之九十九点四一以及来自输入图像的空间图案特征。LBP2进一步提取或选择它认为重要的特征，将输入向量sj的长度压缩到范围[0，1）内。压缩确保短向量被压缩到几乎为零的长度，而长向量被扩展为值略低于1。 ksjk2原始的挤压函数repre-1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000发送带有s j的刻度表示sj的单位向量。这个功能-ksj k但这并不能解决CapsNets对区分性和非信息性胶囊的高信息敏感性，导致 PC 层中胶囊的激活值分布异常高（ Zonglin Wang ，2019）。原始的挤压倾向于生成高激活值，甚至更小的ks jk导致快速初始增长的功能（见图。（3）表明它是(a)(b)（c）第（1）款(d)(e)（f）第（1）款图五.准确度与路由迭代次数的关系图;（a）MNIST（b）时尚MNIST（c）CIFAR-10（d）番茄（e）玉米和（f）柑橘数据集，用于KMR和基线DR模型。(a)MNIST、时尚MNIST和CIFAR-10数据集型号MNIST时尚-CIFAR-模型MNIST/时尚-MNIST（28x28）CIFAR-10（32x32）番茄/玉米/柑橘（28x28）MNIST10多通道胶囊10.6百万14米？7Envelope +2 Conv（Xi等人，（2017年）？？70.50%（Rosario等人，2019年度）DeeperCaps（Xiong等人， 2019年度）九十九点八四？81.29%MS-CapsNet（Xiang10.8 M11.2百万？多通道胶囊（Rosario等人，？92.63%75.18%例如， 2018年）2019年度）MS-CapsNet（Xiang等人， 2018年）？92.70%75.70%DR-基线（Sabour例如，（2017年）8.2百万9.3 M13.7米DR-基线（Sabour等人，（ 2017年）百分之九十九点七四91.03%百分之六十八点九八KMR（Ours）(b)番茄数据集百分之九十九点六八百分之九十二点七二75.80%P. Mensah Kwabena、Benjamin Asubam Weyori和A. 阿布拉·莫蒂沙特国王大学学报2582(a)（b）（c）图六、在数字帽层形成的聚类的可视化;列（a）是路由之前的原始数据集，列（b）是由KM路由形成的聚类，列（c）是由动态路由形成的聚类。从第1行到第6行分别是MNIST、时尚MNIST、CIFAR-10、番茄、玉米和柑橘数据集。P. Mensah Kwabena、Benjamin Asubam Weyori和A. 阿布拉·莫蒂沙特国王大学学报2583. 吉夫nn表4测试精度和平均时间的推断1000图像。路由方法MNIST[%]f-MNIST[%]CIFAR-10[%]番茄[%]玉米[%]柑橘[%]平均时间博士99.7491.0168.6590.4093.3994.178秒22毫秒KMR99.6792.7275.7898.0696.7799.407秒69毫秒不引入限制胶囊获得高活化值所需的稀疏性。稀疏性用于区分和利用高度区分的胶囊，该胶囊可以从复杂图像和具有不同背景的图像中仅检索必要的信息。我们采用原squash函数的Power版本PowerNVJ 能够通过改变kvj k在PC中计算初始激活值的方式它抑制非信息胶囊，同时通过在PC层中约束胶囊激活值来突出显示有区别的胶囊。图3显示了Power squash如何计算主胶囊的初始激活函数。对于较高的n值，函数随着ksjk值的减小而缓慢增长，并加速随着k，s，j，k的增加而增加。原来的南瓜因为它对于具有较小ksjk的描绘了它们如何从原点快速生长。3.4.2. Sigmoid激活我们使用Sigmoid计算路由系数c ij，因为Soft-Max将c ij约束在较小的区间内（Zhao等人，2019年）。目标是生成系数，使得最大值和最小值之间的差异巨大，从而导致相对较好的分布（Jia Huang，2020）。Sigmoid（Jia&Huang，2020）可以通过为真实特征分配相对较大的耦合系数来区分需要和不需要的特征，从而使相关的预测向量更加明显。我们采用两种方法来尝试减少偏振效应（Paik等人，2019年）的胶囊部分归因于SoftMax。首先，我们使用Sigmoid来创建链接强度的均匀分布，以允许网络表示不确定性。其次，我们避免在计算新logits时使用旧logits（Jia Huang，2020; Ren Lu，2018）。实验结果表明，Sigmoid归一化引起更快的收敛，并避免了准确性的快速下降，因为网络容量通过路由迭代次数的变化而增加或减少（见图2）。 5）。4. 实验在本节中，我们将介绍在六个公开数据集上进行的广泛实验的结果，以评估我们提出的方法的性能。4.1. 数据集和数据预处理我们对数据集和每个数据集采用的预处理方法进行了简要讨论：MNIST：MNIST（LeCun等人， 2012年）是一个手写数字的数据集，由28x28灰度图像组成，具有十个不同的类别。它通常用于训练和测试机器学习分类器。它包含60，000张训练图像和10，000张测试图像。与其他数据集相比，该数据集是最不复杂的。除了将图像在每个方向上移动两个像素，并使用零填充;就像在原始的cap-turbine网络中所做的那样，我们没有对训练数据集应用任何其他预处理。fashion-MNIST：该数据集（Xiao等人，2017年）由70，000件时尚产品的28x28灰度图像组成。有10个不同的类别，每个类别有7,000张图片。60，000张图像用于训练，其余用于测试。这个数据集相对于MNIST来说是复杂的。在训练过程中，我们没有CIFAR-10：CIFAR 10（Krizhevsky Hinton，2009）是一个32x32彩色图像数据集，由50，000张训练图像和10，000张测试图像组成。训练和测试批次都由从不同类别中随机选择的图像组成该数据集比MNIST和时尚MNIST复杂，因为它包含具有不同背景和背景对象的图像。我们没有对这个数据集进行任何预处理，而不是进行增强（Chang&Liu，2020）。上述数据集不存在类不平衡的问题，因为最后三个数据集是植物病害数据集。番茄和玉米疾病数据集：番茄和玉米数据集是 Plant Village（Hughes和Salsman，2015）数据集的子集。番茄数据集由18，159，256 x256彩色图像组成;九类受感染的叶子和一类健康的叶子。该数据集不平衡，最大类中有5，357张图像此数据集中的图像是在受控条件下拍摄的，但背景为非零。另一方面，玉米数据集由3，752，256x256彩色图像组成，分为4类，包括健康类。数据集是不平衡的，一些图像之间的相似性很高。应用于这些数据集的唯一预处理不进行广泛预处理的动机是使我们能够将我们的结果与 Zhang et al. （ 2018 ）的番茄和 Priyadharshini et al（2019）的玉米等基准进行比较。柑橘疾病数据集：该数据集（Rauf等人，2019）由256x256彩色图像组成。它由六个班级组成，包括一个健康班。该数据集是高度不平衡的，最大的类有459个训练图像，而最小的类有28个训练图像，总共有1,500个训练图像和330个测试图像。由于类别不平衡，训练图像数量不足，以及从野外和受控环境中拍摄的图像组合，数据集具有挑战性。唯一的预处理是将图像从256x256调整为28x28。我们没有增强图像，因为我们还想在较小的数据集上评估模型的泛化能力。为了避免过度拟合，我们在使用该数据集进行训练时在模型中使用了dropout。4.2. 实验设置实验是使用Keras和TensorFlow后端在一台64位Windows机器上进行的，该机器具有在CUDA 10.1上运行的NVIDIA GeForce GTX 1060图形处理单元（GPU）和8 GB的专用内存。每个模型都训练了200个epoch，最大和最小批量分别为100和30。采用0.001的学习率和0.9的学习率衰减。我们为每个数据集改变了路由迭代的次数，从1到9，并采用了mar-P. Mensah Kwabena、Benjamin Asubam Weyori和A. 阿布拉·莫蒂沙特国王大学学报2584（GT：3（GT：2GT：1GT：3（（GT：2GT：1(i)㈡㈢㈣㈤（c）第（1）款(i)㈡㈢㈣㈤（f）第（1）款见图7。KMR和DR预测概率的比较;第一和第二对列分别由KMR和DR预测输出和概率组成。最后一列显示地面实况（GT）图像。这些预测是针对（a）MNIST（b）时尚MNIST（c）CIFAR-10（d）番茄（e）玉米和（f）柑橘数据集。P. Mensah Kwabena、Benjamin Asubam Weyori和A. 阿布拉·莫蒂沙特国王大学学报2585克雷蒂安0否则表5每50张图片中错误预测的百分比路由方法MNISTf-MNISTCIFAR-10番茄玉米柑橘博士百分之十百分之十八百分之三十二百分之二十二百分之二十百分之十八KMR百分之十二百分之十四百分之二十四百分之十六百分之十二百分之十（一）(b)(c)见图8。（a）番茄、（b）玉米和（c）柑橘数据集的多类受试者操作特征（ROC）曲线和精度-召回曲线。第一列由ROC曲线组成，而第二列包含KMR模型的精确度-召回率曲线杜松子酒损失函数（Sabour等，2017年，为培养模特。损失由L k¼ T kmax0; m-kvk2kk1-T kkmax 0;

下载后可阅读完整内容，剩余1页未读，立即下载