没有合适的资源?快使用搜索试试~ 我知道了~
基于多级残差网络的鱼类分类MLR-VGGNet
沙特国王大学学报基于多级残差网络VGGNet的鱼类分类Eko Prasetyoa,b,Nanik Suciatia,Chastine Suciachahaa信息学系,智能电气和信息技术学院,Institut Teknologi Sepuluh Nopalgia,Jl. Raya ITS,泗水60111,印度尼西亚b泗水Bhayangkara大学工程学院信息学系,Jl. Ahmad Yani 114,Surabaya 60231,Indonesia阿提奇莱因福奥文章历史记录:2020年12月31日收到2021年5月4日修订2021年5月29日接受2021年6月5日在线发布保留字:多级残差低层特征卷积神经网络非对称卷积鱼类分类VGGNetA B S T R A C T利用卷积神经网络(CNN)开发基于图像的鱼类分类系统具有不再直接进行特征提取和多个这些步骤涉及从初始块到最终块的级联卷积,其中初始块、中间块和最终块分别产生低级、中级和高级特征。由于级联卷积,CNN只产生高级特征。然而,鱼类分类不仅需要高级特征,还需要低级特征,如点,线和纹理,用于表示边缘刺,鳃盖,鳍和皮肤纹理,以实现更高的性能;此外,CNN通常尚未在最后一块中纳入低级特征。本文提出了一种新的残差网络策略--多级残差(MLR),它通过应用依赖可分离卷积将初始块的低级特征与最后块的高级特征相结合。我们还提出了MLR-VGGNet作为从VGGNet继承的新CNN架构,并使用非对称卷积,MLR,批量 归 一 化 和 残 差 特 征 对 其 进 行 了 增 强 。 我 们 的 实 验 结 果 表 明 , MLR-VGGNet 在 Fish-Gres 和 Fish 4-Knowledge数据集上的准确率达到99.69%,相对于原始VGGNet的性能高达10.33%,相对于其他CNN模型的性能高达5.24%。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍鱼类种类人工分类具有挑战性,耗时,需要经验,特别是遇到相似的鱼类种类时。我们可以通过更仔细地观察身体形状、颜色和皮肤轮廓来识别差异。在具有各种背景和光照条件的图像上开发自动鱼类分类系统具有挑战性。因此,几个早期的工作已经做了在开发一个基于图像的应用,阳离子鱼类分类。例如,识别生活在开放的水下环境中的鱼类的系统(Qin等人,2016年),鱼类检测和从海上捕获的视频计数(Labao和Naval,2019年),一种用于检测和分类鱼类物种以监测海上鱼类种群相对丰度变化的系统(Jalal等人,2020年)。在基于图像的自动鱼*通讯作者。电 子 邮 件 地 址 : eko@ubhara.ac.id ( E.Prasetyo ) , nanik@if.its.ac.id(N.Suciati),chastine@if.its.ac.id(C. (Abraham)。沙特国王大学负责同行审查使用手工制作的基于特征的方法的物种分类系统(Bermejo,2007; Hu等人,2012; Qin等人, 2016;Tharwat等人,2018),它通过组合低级特征(次要对象的存在)和高级特征(主要对象的存在)来实现最佳性能,所述低级特征诸如用于表示边缘脊、鳃盖、鳍和皮肤纹理的点、边缘、纹理;所述高级特征诸如头部、尾部和其他身体部分。因此,通过结合低级和高级特征来开发分类系统有望获得更高的性能。然而,手工制作的基于特征的方法需要与数据预处理相关的大量工作,例如异常检测,归一化,不正确的数据处理和特征选择。另一种是使用卷积神经网络(CNN)的非手工制作的基于特征的方法,它具有不再显式进行特征提取和多个特征分析的优点。这些步骤已经包括在使用特定卷积策略的从初始块到最终块的级联卷积初始块、中间块和最终块分别生成低级、中级和高级特征与这种方法相关的研究,例如,从海洋观测网络中捕获的水下视频中识别鱼类的Deepfish框架(Qin et al.,2016);该系统在Fish 4- Knowledge数据集上进行训练,准确率达到98.64%。结合区域卷积https://doi.org/10.1016/j.jksuci.2021.05.0151319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comE. Prasetyo,N. Suciati和C. 吉卜恰沙特国王大学学报5287神经网络和长短期记忆从野外拍摄的18个视频数据集中检测和定位鱼类,并实现了检测性能(Labao和Naval,2019)。CNN还用于解决诸如软饮料类型分类的常见问题(Hafiz等人,2020)、人类动作识别( Jaouedi 等 人 , 2020 ) 和 老 化 分 类 ( Boussaad 和 Boucetta ,2020)。CNN还使用迁移学习技术有效地解决了各种问题,例如使用晶体图卷积神经网络(CGCNN)对材料进行分类以增强分类性能(Lee和Asahi,2021),使用LeNet类模型对磁共振图像进行分类(Aderghal等人,2020)、地球化学异常检测(Li等人,2020年),也。 民用基础设施裂缝检测(杨例如, 2020年)。将CNN与其他方法(如遗传学)相结合也可以增强系统解决问题的能力,包括CNN和遗传算法(GA)的组合,以找到脑肿瘤分类的最佳架构组合(Kabir Anarakiet al.,2019),使用GA分析CNN训练数据的显微图像数据集(Poplap,2020),使用GA确定三个CNN模型的最佳组合权重(Ayan等人,2020),以及用于初始化CNN权重的GA(Ijjina和Chalavadi,2016)。另一方面,这些混合方法提高了性能,但使用更复杂的模型和昂贵的计算,这对于具有有限存储空间的设备(例如移动设备)上的应用并不理想。我们需要某些模型,可与其他模型的结果进行比较,同时使用较小的模型大小和计算。一些研究人员开发了许多CNN架构,例如VGGNet。 (Simonyan和Zisserman,2015),ResNet(He等人, 2016)、InceptionV3(Szegedy等人, 2016)、DenseNet(Huang等人,2017)、Xception(Chollet,2017)和MobileNet(Howard等人,2017年)。以前对CNN的研究建立了卷积概念,旨在实现更好的性能和/或简化架构,同时保持性能。 VGGNet通过使用更小的内核简化了卷积架构(Simonyan和Zisserman,2015),ResNet使用残差概念(跳过连接)来维护可能由于更高级别的卷积而丢失的低级特征(He等人, 2016),Densenet还使用级联和卷积增强了残差的概念(Huang et al., 2017年)。然而,ResNet和Densenet发送的残差仅在同一个块内保持,因此初始块的低级特征直到最后一个块才被保留这意味着在卷积结束时产生的特征通常也是高级特征此外,VGGNet通过使用较小的卷积核大小成功地简化了AlexNet架构,但VGGNet仍然使用大量参数,其性能已被较新的模型所超越通过移除第五个块来减少参数的数量是有益的,因为较新的CNN模型通常使用更显著数量的参数来产生更好的性能。如前所述,CNN进行级联卷积;因此,它只在最后的块中产生高级特征然而,鱼类分类需要一个低级别和一个高级别的特征图,以实现最佳的分类性能。另一方面,目前的CNN还没有结合低级和高级特征。因此,我们有意组合低级和高级特征,通过提出 具有以下细节的多级残差VGGNet(MLR-VGGNet)来克服这个问题:提出了一种新的残差网络策略MLR通过应用DSC计算将初始块的低级特征与结束块的高级特征在在保留特征图的每个块的末尾(低级特征),使用MLR添加一个分支,将低级特征转发到上层卷积层。DSC将使用一个卷积来投影低级特征图,以利用较高特征图尺寸来调整使用预训练的VGGNet作为参数约简的骨干如前所述,VGGNet有一个严重的问题,它有大量的参数。我们在我们提出的CNN架构中使用VGGNet作为骨干,没有第五个块,并用非对称卷积(AC)代替它 AC是由两个序列层组成的卷积,具有用于减少参数数量的3x1和1x3滤波器(Szegedy等人, 2016年)。通常,最后一个块中的参数数量比初始块中的参数数量多,因此可以通过用AC 替换第五个块来减少参数数量。我们使用预训练的VGGNet作为主干,因此我们不再需要使用imagenet训练CNN。我们重新训练额外的新卷积层,并冻结剩余的层,以加快训练过程并实现最佳性能。使用批归一化(BN)和残差机制BN可以获得激活值的稳定分布并缩短epoch训练(Amin等人,2020;Wang等人,2019年度)通过使用缩放和移位计算归一化(Ioffe和Szegedy,2015),而残差网络(ResNet)传达残差特征的概念(跳过连接)以保持较低层地图特征(He等人,2016年)。我们通过将AC层的特征映射发送到下一层来保持AC层的特征映射,并添加BN以获得稳定的输出分布。这种残差嵌入不需要CNN模型的额外参数,因此不会增加模型大小。我们使用Fish-Gres(3248张图像和8种鱼类)和Fish 4-Knowledge(F4 K)数据集(27,320张图像和23种鱼类)将我们提出的架构的性能与最先进的VGG 16,原始VGG 19,ResNet 50,Inception V3和Xception进行了比较。实验结果表明,与使用预训练的CNN模型的最新技术相比,我们的pro-technology实现了更好的性能。因此,我们的模型解决了鱼类物种分类的情况。本文的其余部分组织如下。第2节讨论了鱼类分类和VGGNet的相关工作。第3节描述了我们的建议和其他一些组件。第4节解释了我们的实验结果,并讨论了几种CNN模型的性能比较。最后,第五部分总结了本研究的结论。2. 相关工作2.1. 鱼类分类基于人工特征的方法和基于卷积神经网络(CNN)特征的方法在鱼类分类中的研究仍在蓬勃发展在手工制作的基于特征的方法中,使用颜色和纹理以及多类支持向量机开发了鱼类物种分类系统(Hu等人,2012);通过组装特征提取、特征缩减和分类(Tharwat等人,2018年);以及基于形态特征及其生物统计学的组合的鱼龄分类( Bermejo , 2007 年 ) 。 在 基 于 CNN 特 征 的 方 法 中 , 开 发 了Deepfish框架来识别●●●E. Prasetyo,N. Suciati和C. 吉卜恰沙特国王大学学报5288×MNM“X×鱼从水下视频(秦等,2016年)。还有一个鱼类检测系统,它结合了基于区域的卷积神经网络和长短期记忆来检测和定位鱼类(Labao和Naval,2019)。在鱼类分类领域的大多数研究只集中在应用或结合某些功能和分类器,以达到最佳性能。无论是传统的方法还是基于CNN的方法,都没有研究使用低级和高级特征作为分类鱼类的分类基础这两个特性的使用保证了最佳性能。2.2. VGGNetVGGNet是在2014年ILSVRC(ImageNet大规模视觉识别竞赛)的分类任务挑战中引入的(Simonyan和Zisserman,2015),与ZFNet和AlexNet相比有显著改进(Krizhevsky等人,2012年)的报告。从那时起,VGGNet已经应用于许多分类案例中(Rangarajan et al.,2018;Shallu和Mehra,2018)。还将VGGNet与几种微调的预训练CNN架构进行了比较,如Inception-V3,VGG 16和ResNet 50; VGG 16实现了最高的准确性(Rodrigues等人,2019年)。另一位研究人员还发现 ,Inception V3 、 ResNet50 、 GoogleNet 、VGG16 、 AlexNet 和VGG19的平均性能最好(Lumini和Nanni,2019)。最近的研究表明,不同的架构模型在不同的情况下提供不同的性能结果。这种性能也是从每个CNN的架构参数中获得的。特别是对于VGGNet,它有一个严重的问题,因为它有大量的参数。我们提出了一种继承VGGNet的架构,参数更少,每个区块的参数误码率分别为3.872万、22.144万、148万、590万和708万。参数总数为1471万。VGG19具有类似的架构,由16个卷积层和3个完全连接的层组成,具有2002万个参数。在赢得ILSVRC之后,VGGNet已经成为一个流行的模型,并且已经被许多研究人员开发用于各种目的,包括分类和对象检测。然而,VGGNet的性能已经超过了其他新模型,因此在这项研究中,我们用更少的参数改进了VGGNet,并实现了比新模型更好的性能。减少参数的数量是有益的,因为较新的CNN模型通常使用更有效的数字。参数,以获得更好的结果。因此,为了减少参数的数量,最好的方法是消除最后一个卷积块(第五个块),因为这个块在保留前一个块的同时生成高级特征。我们还使用预训练的VGGNet作为初始权重,以加快训练计算速度,并继承在imagenet数据集训练期间创建的低级特征。同时,我们在训练过程中冻结了四个块,以保持权重并保持层的泛化能力。3.2.非对称卷积非对称卷积(AC)是分解卷积的一种方法,旨在减少CNN的连接和/或参数的数量,而不降低识别性能(Szegedy等人,2016年,2015年)。在AC中,卷积层的掩码滤波器n n被分成两层,具有两个序列不对称滤波器,一个滤波器为n×1和1×n。数学表达式如下:性能y<$FfWi;Fg<$XXW<$i;j<$F<$x-i;y-j<$3. 提出方法1/4XWx100mmi¼-M j¼-NWyjFx-i;y-j#ð1Þ3.1. VGGNet作为架构i¼-Mn-1-NVGGNet由五个块组成,其中每个块由卷积层和最大池组成。VGGNet最流行的架构是VGG16(13个卷积层和3个全连接层)和VGG19(16个卷积层和3个全连接层)。例如,VGG16架构的卷积部分如图1所示。VGG16的卷积部分由五个块组成,其中第一个块到第五个块中的层数分别为两层、两层、三层、三层和三层。每个块的特征图分别是64、128、256、512和512个特征图。此外,num-其中W是2D核滤波器,M和N是W的行和列,F是2D图像,Wx是沿x维度的1D核,Wy是沿y维度的1D核卷积层的参数数量计算如下:PkM:N:fk-11:fk2其中Pk是k层的参数的数量,fk-1是k-1层的特征图的数量,并且fk是k层的特征图的数量例如,一个卷积层的内核大小为3 3,输入32个特征图,输出32个特征图,那么这个数Fig. 1. VGG16的架构NE. Prasetyo,N. Suciati和C. 吉卜恰沙特国王大学学报5289ð× ×þ Þ×¼××F ¼×××BNX¼F轴1/11/1P网络连接或参数rs是3×3×32<$1 AC通过滤波器3 × 1减少参数数量,其中滤波器3× 1 × 32 × 1 × 32 × 1 × 32 × 3:104参数如下:AC层。计算y在k维中的归一化作为前一层激活的结果,我们使用以下公式:y-E½y]通过过滤器1x3降低,13321323: 104参数。参数总数将为6,208个参数,减少了33%。该理论计算实例证明AC减少了CNN的参数。BNc;bypVar½v]:cb其中,E½y]¼1PN Fi是k维中所有y数据的平均值,2N标准卷积和非对称卷积卷积在图中呈现。 二、滤波器大小为3×3的标准卷积是通过将每个像素和周围的相邻像素乘以w i滤波器来进行的,如图2(a)所示。AC由使用一对非对称滤波器的两个序列卷积组成,其中卷积过程通过操作3 - 1滤波器随后是1 - 3滤波器来进行,如图2(b)-(c)所示。3.3. 残差块和批归一化如前所述,我们提出的架构中的跳过连接是为了支持更高的分类结果而实现的。我们在每个AC层上放置一个跳过连接,以便在AC卷积结束时添加前一层的残差。使用如下等式定义残差块y¼FF;figF3其中F和y是在残差块中查看的输入和输出层。函数FF;fWig表示在模型中训练的残差映射在我们的建议中,我们使用一层,然后Wi F.那里在我们的架构中有三个AC;那么剩余的块将被发送三次。残余块的使用是由以下事实激发的:从一个层到下一个层的标识映射渐进地等价于使用若干非线性层来估计复杂函数(He等人,2016年)。因此,将残差块集成到我们提出的模型中将提高系统如上面的公式所述,在特征映射F之后的下一层中存在身份映射。BN在稳定活化值分布和缩短历元方面起着至关重要的作用(Ioffe和Szegedy,2015)。因此,我们在AC层的每一端施加BN,获取ReLU激活结果的分布,而Var½y]¼1N -yi就是方差 而c和b是缩放和移位参数。在新块中使用三倍AC可引起内部协变量移位;随着训练数据和层的增加,激活函数生成的梯度越来越接近于零(Ioffe和Szegedy,2015)。因此,培训的时间也较长。我们在每个3 1和1 3核对卷积的末尾添加BN,以防止内部协变量移位并加快训练过程。3.4. 深度可分离卷积依赖可分离卷积(DSC)是一种卷积方法,其将标准卷积方法分成两个卷积层,由依赖卷积和逐点卷积组成(Howard等人,2017年)。dependenconvolu- tion使用一个单一的过滤器为每个输入通道,而逐点卷积使用1 1过滤器的大小来结合dependenconvolution的输出。 标准卷积和DSC之间的差异如图所示。3.第三章。标准卷积使用以下公式获得输出特征图yk;l;ni;j;m;n:Fki-1;lj- 1;m5i;j;m使用每个输入通道(深度)的独立滤波器进行依赖卷积,我们使用以下公式:yk;l;m¼XFbi;j;m:Fki-1;lj-1;m6i;j其中Fi;j;m;n是标准卷积,Fi;j;m是Dk× Dk的 深 度 卷 积。然后DSC可以配制成:y/DS C/F;f/Wig/F。FbF;fig7图二、非对称卷积,a.3× 3滤波器卷积,b.非对称滤波器,C。使用3× 1滤波器和1× 3滤波器的非对称卷积4ÞE. Prasetyo,N. Suciati和C. 吉卜恰沙特国王大学学报5290B联系我们F×××××图三. 卷积,(a)标准卷积,(b)独立可分卷积。其中使用大小为D k D k的内核 1,其中,使用大小11N. F是输入特征图,W是深度卷积的核大小。在MobileNet中,DSC是卷积的关键组件,以实现具有与标准卷积相当的性能的微小模型(Howard等人, 2017年)。由于其体积小,它消耗的计算资源较少DSC是一个很好的选择,调整低层和上层的特征映射,以最小的计算成本,实现MLR在我们的为了支持MLR-VGGNet模型3.5. 多级残差网络通常,CNN从初始层(产生低级特征)到最终层(产生高级特征)进行级联卷积。低级特征(次要对象的存在)诸如点、线和纹理由初始卷积层产生,用于表示鱼分类问题中的边缘棘、鳃盖、鳍和皮肤纹理;而高级特征(主要对象的存在)诸如头、尾和其他身体部分由最终卷积层产生。由于级联卷积,最后一层只产生高级特征。尽管ResNet还提出了一种残差(skip connec- tion)来保持可能由于更高级别的卷积而丢失的低级别特征,但残差传递不会到达最终层(He等人,2016年)。Densenet还添加了具有连接和逐点卷积的残基,但是残基的传递在同一个块中结束,这意味着CNN直到最后一个块才保持初始块的低级特征(Huang等人,2017年)。因此,我们在VGGNet卷积块的结束使用通过一次性DSC的跳过连接来连接低级和高级特征。将低级特征发送到最终层的主要问题是特征图的大小不相同。例如,在VGG16中,块1结尾处的特征图大小为1122 x64,而块4为142 512。我们不能添加一个从块1到块4结尾的跳过连接。此外,块2和块3的特征图分别为562 128和282256因此,我们提出了一种多级残差(MLR),通过使用深度可分离卷积(DSC)修改特征图源来解析具有不同特征图大小的残差,如图4所示。 发送源要素地图通过跳过连接分支,然后使用DSC进行卷积见图4。 多级残差网络。特征的空间位置不匹配。使用一次性DSC是出于以下原因:(1)对特征图没有显著改变;(2)调整目的地特征图的大小;(3)使用较少的参数/计算。假设Fi是较低层的低级特征图,Wi是根据等式(7)的深度卷积的核。DSC投影仪将所有N个低级特征投影为与F0相同的大小,其中F0的大小为h0×w0×d0(高度×宽度×特征)。Fi层上的di特征的数量通常与F0中的d0不相同。因此,我们修改了方程中的DSC公式(7)B:以调整目标图层中的要素地图大小。我们做不要使用零填充作为一个替代方法,因为会有”“我……Fi¼ DSCFi; fWi;d0 g g g ¼F.FbFi;fWi;d0gð8ÞE. Prasetyo,N. Suciati和C. 吉卜恰沙特国王大学学报5291N×××××××al 1l1l;· ··;al;· ··;al;i2RlF←MLR VGGNet X.!”“我……我不知道因此Fi和F0的大小相同.在这一点上,d维对所有F都是相同的,但对h和w则不同。我们需要 将 两 个 维 度 投 影 为 h0 和 w0; 我 们 使 用 大 小 为 j =2N+1-i 的 max-pooling,并跨越投影s。我们发现hi和wi到h0和w0的投影是以步长s=2N+1-i实现的。因此,max-pooling使用以下公式:输入:将训练数据标记为X¼X1;X2;···;XK,K是类的总数。”“我……输出:y¼fX; %为鱼类种类的类别标签,f为CNN鱼类分类模型X←AugmentX;%来自训练数据的增强图像.我... ΣJ1我nSJð9Þ其中,Rl是层l处的池化区域j,n1/4。Rl. 是数字ele-J.“我!J.J.y←FCF; %FC层是用于分类在Rl中。我们用公式表示步幅s =2N+1-i,如果图像的空间大小也基于2(VGGNet)。因此,我们修改了等式(8)以如下实现最大池化:”“我……Fi;fWi;d0g/min因此,我们使用等式(10)将hi×wi×di投影为大小等于h0×w0×d0。因此,我们结合了所有功能3.7. 测试我们使用准确性作为性能指标,包括训练,验证和测试结果。准确度是正确结果分类与所有分类的比较,使用以下公式:使用以下公式计算水平:精度TP12X `I?公司简介ÞFy¼1/1”“我……FiF011其中TP是真阳性,TN是真阴性,FP是假阳性,FN是训练、验证或测试会话。其中Fi是第i层上的投影特征图(低级特征),而F0是该层上的高级特征图,在该层中,我们将所有投影特征图和F0组合成Fy作为MLR操作的结果。3.6.多级残差VGGNet在这项研究中,我们提出了一种CNN架构,该架构使用VGGNet架构的一部分作为骨干(如图1所示的非绿色块),并添加了几个组件,包括非对称卷积(AC),多级残差(MLR),残差块(RB)和批量归一化(BN)。我们使用了AC块而不是VGGNet的第五个块,其中AC将层数加倍,但具有较小的内核大小,即两对非对称滤波器(3 1和1 3滤波器)。在使用AC的每个卷积结果中,我们使用BN进行归一化以避免内部协变量移位(ICS)并缩短epoch训练。我们还通过向每个AC添加跳过连接来用残差块加强这个块,以便可以保留每层的卷积结果直到最后一层。从图5所示MLR-VGGNet架构的设计中,我们可以看到,我们通过在第四个块的末尾组合它们来保留三个块的低级功能。我们使用N= 3的MLR,通过将高级特征与第一个块的末尾、第二个块的末尾和第三个块的末尾、第四个块的末尾的低级特征相结合。第一,第二,和第三块呈现特征尺寸112264、562128,28 2256、分别 我们用DSC + max-所有的都是142 512。接下来,我们将所有特征映射使用加法运算符,然后是三次AC,BN和残差。最后,我们再次使用最大池大小22和步幅2进行下采样,使得特征图变为72 512。然后将该架构与全连接层连接以执行分类。鱼类物种分类的伪代码如下所示;我们使用整个图像作为所有CNN模型的输入的”“我……模型生成特征图F,然后使用全连接分类器以获得类别标签y。在训练过程中,系统对训练图像进行增强,然后将其作为模型的输入。4. 结果和讨论4.1. 数据集在这项研究中,我们使用Fish-gres和Fish 4-knowledge(F4 k)数据集来比较我们提出的模型和最先进的性能,分别使用60:20:20的比例进行训练,验证和测试数据,然后我们展示了训练,验证和测试准确性的性能。4.1.1. Fish-Gres数据集在 这项 研 究 中, 收 集 了一 个 称 为 Fish-gres 数 据集 的 数 据集(https://data.mendeley.com/datasets/76cr3wfhff/1),其中该数据集由8种鱼类组成,其中每个物种的图像数量从240张图像到577张图像不等(Prasetyo et al., 2020年)。图像数据的示例如图所示。 6(a)-(h),其中物种分别是Chanos Chanos(500张图片),Johnius Trachycephalus(240张图片),Nibea Albiflora(252张图片),Rastrelliger Faughni(544张图片),UtenusMoluccensis ( 577 张 图 片 ) , Eleutheronema Tetradactylum( 240 张图 片), Oreochromis Mossambicus ( 331 张图 片)和Oreochromis Niloticus(564张图片)。4.1.2. 数据集Fish 4-知识Fish 4-Knowledge(F4 K)数据集是从公海中的视频数据集捕获的水下活鱼数据集,用于评估类似CNN的架构(Boom等人,2012年)的报告。图像数量为27,320张图像,分为23个物种;每个物种的图像从16到12,112不等。图像数量的不平衡也会导致性能不足。4.2. 数据增强我们进行了数据增强,以获得更多的图像和过采样的变化。数据扩充是一种策略,它允许我们基于可用数据添加数据的多样性,而无需添加新数据。在这项研究中,我们使用规模扩大,以提供各种大小,旋转; %从MLR提取的特征图VGGNetE. Prasetyo,N. Suciati和C. 吉卜恰沙特国王大学学报5292图五. 多级残差VGG 16.见图6。Fish-gres数据集,(a)Chanos Chanos,(b)Johnius Trachycephalus,(c)Nibea Albiflora,(d)Rastrelliger Faughni,(e)Urehus Moluccensis,(f)Eleutheronema Tetradactylum,(g)Oreochromis Mossambicus,(h)Oreochromis Niloticus。以提供用于拍摄图像的各种方向、平移以提供图像中对象的各种位置、剪切以提供各种形状、以及翻转以提供左右之间的变化4.3. 用于实验的我们通过在 Google Colaboratory 中使用 Python 与 Tensorflow2.3.0和Keras 2.4.3进行实验来实现我们的建议;在培训期间,我们使用了Colab提供的具有16 GB内存的Tesla T4 GPU我们还使用KerasApplication中的预训练CNN比较,包括VGGNet,Inception V3,ResNet50和Xception。4.4. 设计实验通过对各种CNN模型的比较,如原始的VGG 16,VGG 19,ResNet 50 , Inception V3 和 Xception , 证 明 了 所 提 出 的 MLR-VGGNet的性能在所有比较模型中,还使用了来自可用的预训练权重的迁移学习。给出了所有模型的训练参数,如批量大小= 20,epoch= 60,优化器= RMSProp,学习率= 1 e-5,损失函数=分类交叉熵。在训练过程中,VGGNet的四个块被冻结;因此,权重不会改变以保留一般化以生成低级特征的较低层。诸如AC、BN和残差的附加分量被完全训练以实现与鱼类物种分类相对应的具有高级特征生成的权重4.5. 使用Fish-Gres数据集我们 进行了 培训, 验证和 测试准 确性的 性能比较 。与 原始VGGNet的比较表明,所提出的模型优于原始VGGNet,VGG16和VGG19。我们提出的架构在数据测试中取得了更好的性能,VGG16和VGG19骨干的准确率分别为98.46%和97.84%,而原始VGG16和VGG19的准确率分别为89.83%和87.51%相对增幅分别高达8.63%和10.33%这些结果表明,所提出的架构优于原来的VGGNet。如表1所示,与最先进的比较表明,我们提出的模型也优于除ResNet50之外的所有最先进的模型。几乎所有的方法都获得了很高的性能;例如,ResNet 50实现了97.84%的测试准确率,而我们提出的模型实现了98.46%的准确率。我们的模型在训练和验证过程中也取 得 了 最高 的 性 能 , 准 确率 分 别 高 达 97.03% 和 99.69% 。 只 有ResNet50在我们的模型上具有我们的建议在Inception V3模型的测试数据上实现了高达5.24%的相对改进。图7示出了我们提出的分类和其他模型的结果的示例。一般来说,我们的建议和其他模型的分类类似,如图7(a)所示,我们的建议和其他模型分类正确。在某些情况下,我们提出的模型比其他模型更鲁棒,例如图7(b),MLR-VGG 16,MLR-VGG 19和原始VGG 16,它们将心脏分类。E. Prasetyo,N. Suciati和C. 吉卜恰沙特国王大学学报5293表1使用Fish-Gres和F4 K数据集的模型的性能(%)。模型菲什格雷斯F4k培训Val.测试培训Val.测试VGG1682.3091.3689.8380.5283.8582.44VGG1976.3089.9387.5186.2190.1488.07ResNet5095.2098.4297.8482.8090.4088.12Inception V382.8591.6193.2277.5587.7585.66Xception89.9595.7393.5380.2086.7583.70MLR-VGG1696.9799.6998.4697.1196.6696.25MLR-VGG1997.0398.9297.8498.0997.8497.09图7.第一次会议。 Fish-gres数据集中的图像分类结果示例,0:Chanos chanos; 1:Johnius Trachycephalus; 2:Nibea Albiflora; 3 Rastrelliger Faughni; 4:Ubrajus Moluccensis;5:Eleutheronema Tetradactylum; 6:Oreochromis Mossambicus; 7:Oreochromis Niloticus。表2我们提出的CNN架构与几种CNN架构在参数数量、推理时间和模型大小方面的比较。与MLR-VGGNet相比,模型参数(百万)MLR-VGG19推理时间/图像(ms)模型大小(MB)VGG16 14.71 14.34-5.71 509 252VGG19 20.02 37.06 22.32 643 273ResNet50 23.59 46.59 34.08 173 874InceptionV3 21.80 42.20 28.67 117 484Xception 20.86 39.60 25.46MLR-VGG 1612.60- - 556 281MLR-VGG 1915.55- - 679 302而其他模型则不正确。此外,在Fig. 7(c)-(d),我们的建议和其他一些模型分类正确,而其余的都是错误的。我们的建议也是强大的分类图像与多条鱼,如图。 7(c),而其他模型对图像的分类不正确。然而,在某些情况下,我们的建议不能正确分类,如图所示。 7(e),其中单一鱼类未正确分类。一般来说,我们的建议分类鱼类类似于其他模型,但它是更强大的处理图像时,包括几条鱼。这一结果表明,我们提出的模型正确地分类了更多的图像,准确率高达99.69%。其他模型,如ResNet50,达到了98.42%的最高准确率。总之,我们提出的架构模型在Fish-Gres数据集上的表现优于所有最先进的模型,具有非常令人满意的性能。4.6. 使用F4K数据集在使用F4K数据集的比较中,如表1所示,与原始VGG16和VGG19相比,我们的建议优于两者。我们提出的模型也达到了最高的 性 能 , 优 于 所 有 最 先 进 的 训练 , 验证 和 测 试 准 确 率 分 别 为97.11% , 96.66% 和 96.25% , VGG16 ,准确率分 别为 98.09% ,97.84%和97.09%。VGG19。该实验证明,我们提出的MLR-VGGNet架构具有良好的性能。有趣的一点是,由于数据集不平衡,所有最先进的技术都不能在性能低于90%的情况然而,我们在这个实验中也进行了增强使用该数据集的性能表明,我们提出的模型可以解决不平衡问题,并实现优于所有最先进的最佳性能。4.7. 参数分析数量、推理时间和模型大小表2中列出了几种架构的特征学习部分中的参数数量。这些参数不包括在CNN的分类器部分的参数。我们表明,我们提出的模型使用了一些特征; MLR-VGG 16和MLR-VGG 19分别使用了1260万和1555万个这些参数与原始VGG16(1471万)和VGG19(2002万)参数相比分别降低了14%和22%MLR-VGGNet的参数也比最先进的ResNet 50、Inception V3和Xception少,MLR-VGG 16比ResNet50少46.59%。因此,我们提出的模型使用了最少的参数。E. Prasetyo,N. Suciati和C. 吉卜恰沙特国王大学学报5294表2所示的结果表明,我们的建议在MLR-VGG 19中,执行时间比原始VGG 19长6%。同时,其他模型可以认为比我们的建议短,即使其他模型使用更多的参数。其他模型,如Res-net 50和Inception V3,需要更快的执行时间,因为它们在计算复杂性方面采用了更具体的微架构。虽然其他模型的执行时间更快,但与MLR- VGGNet相比,所需的大小模型也很庞大。例如,ResNet 50和Xception分别需要874 MB和864MB的空间来存储架构和权重;这当然不适合在移动设备等存储容量有限的设备上应用。另一方面,MLR-VGG 16和MLR-VGG 19分别需要281MB和302 MB来存储架构和权重。这个数字也比原来的版本分别略高12%和11%,但这些数字也在合理的范围内。5. 结论使用卷积神经网络的自动鱼类分类提供了通过几个级联CNN卷积放弃与数据或特征分析相关的几个步骤的优势。然而,图像上的级联卷积仅在最终块中产生高级特征,并在早期块中留下低级和中级特征。为了在最终块保持低层和中层特征,我们提出了多级残差(MLR)作为一种新的残差网络策略,通过使用深度可分离卷积(DSC)将我们使用VGGNet作为新CNN架构的骨干,通过删除第五个块并将其替换
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- nagios3.0配置中文文档
- 视化系统开发与源码精解目录
- windows95程式大揭秘
- 用OpenSSL编写SSL,TLS程序
- soa架构详细介绍(aqualogic)
- Ant 使用指南 pdf
- javascript 实现输入多行动态输入
- VisualC# 2005_程序设计语言考试大纲
- Linux内核源代码傲游.pdf
- JSF and Visual JSF讲义
- hanshu 以前讨论了由分立元器件或局部集成器件组成的正弦波和非正弦波信号产生电路,下面将目前用得较多的集成函数发生器8038作简单介绍。
- svn 配置 参考 学习
- Servlet+API+中文版
- 送给初学Linux的穷人Linux系统指令大全.pdf
- 不规则三角形网生成等值线算法
- VBS基础-Vbscript 基础介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功