MCCA-Net：水下图像分类的多色卷积和注意力叠加网络

167 浏览量更新于2023-12-09 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

认知机器人2（2022）211MCCA-Net：用于水下图像分类的裴X于曲a，李腾飞a，李国厚a，刘强东，田震a，谢西王b，赵文毅c，潘希鹏d，张卫东aa河南科技学院信息工程学院，河南b大连海事大学信息科学与技术学院，中国c北京邮电大学人工智能学院，中国北京，100876d桂林电子科技大学计算机科学与信息安全学院，桂林，541004aRT i cL e i nf o关键词：水下图像颜色空间图像融合神经网络a b sTR a cT水下图像是一个严重的问题，光的吸收和散射的影响。目前，现有的锐化方法不能有效地解决所有的水下图像退化问题，因此有必要针对退化问题提出具体的解决方案。针对上述问题，本文提出了一种用于水下图像分类的多色卷积和注意力叠加网络（MCCA-Net）。首先，水下图像被转换到HSV和Lab颜色空间并融合以实现细化图像。然后，使用注意机制模块来细化提取的图像特征。最后，垂直层叠卷积模块充分利用了不同层次的特征信息，实现了卷积与注意机制的融合，优化了特征提取和参数约简，提高了MCCA-Net模型的分类性能。大量的水下退化图像分类实验表明，该MCCA-Net模型和方法优于其他模型，提高了水下退化图像分类的精度。我们的图像融合方法在其他模型上的准确率可以达到96.39%，MCCA-Net模型的分类准确率达到97.38%。1. 介绍与陆地上拍摄的图像相比，由于水质的不同，光的吸收和散射将影响水下目标的检测和识别。光吸收导致水下图像质量下降，例如颜色偏差、细节模糊和低照度[1]。前向和后向散射导致水下图像模糊，对比度低，可见性差[2，3]。本文对水下图像进行了分类，确定了水下图像的类型，这将有利于水下图像增强的后续研究针对不同的图像退化问题，目前有多种水下图像增强方法[4]，如颜色补偿[5，6]、颜色校正[7，8]、最小颜色损失[9]和特征融合[10]，这些方法对图像退化分类具有重要意义。水下退化图像的分类主要针对图像的不同退化情况，为后续的水下图像增强提供可靠的依据，节省图像增强时的筛选时间∗ 通讯作者。E-mail：liguohou_hnkjX y@163.com（G. Li）。https://doi.org/10.1016/j.cogr.2022.08.002接收日期：2022年6月22日;接收日期：2022年8月8日;接受日期：2022年8月8日在线预订2022年2667-2413/© 2022作者。Elsevier B. V.代表KeAi Communications Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表认知机器人期刊首页：http://www.keaipublishing.com/en/journals/cognitive-robotics/P. Qu，T. Li，G. Li等人认知机器人2（2022）211212图像增强方法主要针对水下图像的颜色失真、雾化模糊、低照度等退化问题。简单的增强方法不能解决各种退化问题，并且可能存在过度的增强。以及其他问题。因此，对图像退化进行精细分类是非常必要的。针对水下图像的不同退化问题，提出一种多颜色空间融合MCCA-Net模型，利用颜色空间对光照和颜色的敏感性提高分类精度。此外，该模型将卷积和注意力机制相结合并叠加，以提取更丰富的图像特征信息。实验表明，与RGB、HSV、Lab等单色空间相比，多颜色空间的融合在模型训练中具有更高的精度。该方法具有指导意义用于研究设计针对不同退化类别的专用水下图像增强方法。本文的主要贡献总结如下：1) 通过对模型的训练实验和消融实验，得到了单色空间图像和融合图像的比较了不同颜色空间的网络模型，证明了多颜色空间图像特征的有效性，并比较了不同网络模型对多颜色空间图像的分类效果。2) 提出了一种HSV和Lab图像融合的图像处理方法。不同颜色空间的通道图像融合提取双颜色空间特征，增强了水下退化图像的特征，深度学习模型的分类精度。3) 本文采用层叠卷积模块，结合移动反向瓶颈卷积（MBConv）和注意力机制构建MCCA-Net模型。通过扩展和缩小输入通道，利用残差连接和全局变量特征，有效地提高了水下图像的分类精度论文的其余部分如下。第二节简要回顾了水下图像的分类方法。第三部分介绍了图像处理方法和建模框架。第四章比较和分析了不同的颜色空间、模型和模型架构。最后，第5总结了所提出的模型的优点和未来的发展方向2. 相关作品在以前的研究中，已经提出了各种分类问题的水下图像。它们广泛地包含传统分类方法、机器学习方法和深度学习方法。传统的分类方法在早期阶段，都是人工提取特征进行图像分类，并通过算法收集和训练图像中的Deep等人[11]使用k-最近邻和支持向量机对水下鱼类物种进行Cheng等. [12]结合支持向量机对水下浮游生物图像进行分类，与传统神经网络相比，分类准确率提高了7.13%，召回率提高了6.41%。玛丽等人[13]改进了局部导数模式来提取纹理特征，并使用k-最近邻作为分类器，实现了更高的分类精度和更短的执行时间。传统的分类方法是人工提取图像特征。虽然特征来源明确，计算量小，但存在着计算量小，特征不丰富等问题。机器学习方法是人工智能领域的核心，图像的分类是半自动特征提取。基于机器学习的不同方法，Gonzalez-Cidet al. [14]采用人工神经网络对图像进行区域划分，实现了水下海草图像的自动识别。Salman等人[15]利用机器学习方法处理图像或视频对水下鱼类进行分类，结果表明准确率达到了超过百分之九十Li等人。[16]结合水下图像去散射和颜色校正的方法来增强高度浑浊的水下图像，并提出了一种新的图像质量评估指标，该指标在应用于机器学习方法时具有良好的分类性能。Khishe等人[17]将人工神经网络训练的黑猩猩优化方法与水下目标声数据集分类中的离子运动算法进行了比较，证明了算法的可靠性。机器学习可以减少一些人力资源的浪费，提高准确性和效率。用于自动提取图像特征的深度学习方法卷积神经网络（CNN）已被广泛用于图像分类[18，19]，在图像分类和目标检测任务以及文本，视频和音频的不同应用方面取得了重大进展[20，21]。Chatfieldet al. [22]比较了基于CNN的图像分类方法，并证明CNN在增强数据上的表现优于浅层模型。Wang等人[23]提出了一种自适应加权深度卷积网络，该网络对海底类型、飞机和沉船的分类具有很高的准确性Mahmood等人[24]提出了一种残差神经网络，从不同卷积层提取的新图像特征中获得更多的深度特征。Nakayama等人[25]优化了全卷积神经网络，Camvid数据集的准确率达到92.4%。Pennec等人[26]介绍了深度神经网络在可编程门阵列上的实现，用于自主水下航行器（AUV）水下探测。结合物联网技术的模型将成为未来海洋研究的主流技术[27]。Zhao等人。[28]提出了一种分层特征集成和双向传输机制，用于图像上的渐进详细检测，这提高了模型的性能。让未来朝着人工智能的方向发展，实现机器的自主化[29]。Aridosset al. [30]提出了一种深水下图像分类模型该方法对浑浊的水下图像有较好的分类精度。 Yang等[31]提出了一种基于CNN模型的注意力网络。水下和自然图像的分类准确率达到99.3%。Zheng等[32]将点云与全局优化方法相结合，增强深度学习，使其精度达到局部最优解。Irfan等人[33]提出了一种新的卷积自动编码器分类模型，对于大规模水下图像分类具有较好的精度Lu等.[34]使用深度模糊哈希网络来处理图像，P. Qu，T. Li，G. Li等人认知机器人2（2022）211213Fig. 1. 流程图（a）多颜色空间融合，通过融合不同颜色空间中的通道来丰富图像特征。(b)新图像被放入MCCA-Net网络架构中进行训练并获得分类结果。(c)注意力模块和FFN，（d）垂直堆叠卷积模块。交叉熵函数用于输出分类结果。其在准确性和训练速度上具有很强的竞争力。Irfan等人[35]设计了一种新的学习分类器系统，在分类大规模水下图像时具有高精度。虽然深度学习方法可以减少时间、人力和提高准确率，但数据本身的特征提取量大，计算成本高。综上所述，传统分类方法和机器学习方法在水下图像分类算法部分具有一定的突破和优势，但水下图像特征的丰富性影响了分类精度。深度学习方法可以通过网络结构获得丰富的水下图像特征，但存在参数数量多、硬件设备要求高等问题。因此，针对水下退化图像的分类问题，本文采用多颜色空间的方法来丰富图像的有价值特征，并加入注意力模块来降低网络参数的复杂度，提高模型的性能。3. 该方法本文提出的方法卷积图如图1所示，它包括以下三个步骤：1）多颜色空间融合，2）注意力模块，3）垂直堆叠卷积模块。具体来说，第一步是将具有明显特征的颜色空间HSV和Lab图像进行转换，并融合每个通道以增强图像特征。第二步采用MCCA-Net加前馈网络（FFN）中的自注意机制来提取更明显的图像特征。在第三步中，使用垂直堆栈卷积模块将MBConv与注意力机制相结合，以减少参数的数量本文的方法将在下面详细描述3.1. 多色彩空间融合在本文中，我们在三种颜色空间（RGB，HSV和Lab）进行了比较实验。 RGB是日常生活中最常见的图像，由三个通道组成：蓝色（B），绿色（G）和红色（R），但易受照明变化的影响。色调HSV颜色空间的H不受光照条件的影响，颜色饱和度S代表颜色的深度，亮度V与物体的透射率或反射率有关。Lab色彩空间是色彩模式的最大范围，维度L代表亮度，a和b代表色彩相反维度。基于非线性压缩的颜色空间坐标是一个与设备无关的颜色空间，可以减少光照条件的影响Li等[36]提出了多颜色空间编码与注意力机制相结合的方法，融合不同颜色空间的特征对水下图像进行增强。受此启发，本文提出了一种多颜色空间融合的方法来提取特征使用多色空间融合。由于不同的颜色空间和不同的通道对图像有不同的影响。因此，我们认为，本文将Lab与HSV颜色空间相融合，降低噪声的影响，直接判断水下图像的质量，对不同的水下图像退化问题进行分类。本文选择HSV颜色空间中V通道的均衡来实现图像增强。输入RGB图像将转换为HSV颜色空间，分离HSV通道，并均衡V通道。然后，将均衡的V通道与H和S通道组合以形成新的HSV颜色空间。最后，将融合后的HSV颜色空间转换为RGB图像。V通道均衡直方图如图2所示，均衡后的新图像如图3所示。V表示原始图像V通道直方图，并且V表示均衡的V通道直方图。最后，将RGB图像转换为HSV图像和Lab图像，分离HSV图像和Lab图像的各个通道，并将H、L、S、a、V、b通道经过V通道均衡后进行融合，形成新的三通道图像。P. Qu，T. Li，G. Li等人认知机器人2（2022）211214⎨⎧⎪ℎ��=��+图二、HS V 图像中V通道直方图的比较。图3. 均衡后的RGB图像比较。采用多色彩空间融合方法，利用HSV和Lab各通道的融合，突出水下图像的畸变特征，可表示为：ℎ�� =��+��⎪⎩ℎ��=��+.（一）融合后得到各通道融合图像，如图4所示。多颜色空间的融合方法可以增强水下图像，而水下图像的准确分类问题与网络模型有很高的相关性。因此，本文结合卷积网络、注意机制和卷积层的垂直叠加，提高了水下图像分类3.2. 关注模块由于计算机能力和优化算法的限制，在训练数据时使用注意机制尤为重要。该模型利用自我注意力从大量信息中过滤出一些重要信息，并将注意力集中在这些重要信息上，从而实现参与者数量的减少以及双色空间的融合P. Qu，T. Li，G. Li等人认知机器人2（2022）211215√√见图4。融合图像和单通道显示。图五. 自我注意机制结构图。使图像的特征更加丰富。为了节省计算成本，减少计算量，本文在算法中加入了注意力模块，该模型自注意机制不是指输出与输入之间的注意机制，而是指输入数据内部元素之间或输出元素内部元素之间的注意机制。自注意的功能是全局关联权重，然后对输入进行加权求和自注意机制的计算过程如图所示。五、将输入转换为嵌入向量。Value（V）、Query（Q）和Key（K）从嵌入的向量中获得。计算每个向量的得分。V是表示输入特征的向量，Q和K是用于计算的特征向量注意力的重量。Q和K的点积用于获得注意力得分矩阵X，得分可以定义为：��=��∙��.（二）对于梯度稳定性归一化，使用Softmax函数突出显示元素的权重，该函数可以定义为如：��(��,��)= sof tmax(��∙��),(3)��其中，k是Q矩阵和K矩阵的乘积的方差。最后，对权重和相应的键值进行加权和求和。它可以表示为：��（��，��，��）= sof tmax（��max��）��。（四）��自注意机制主要是根据两者之间的关系引入权重，通过计算每个单元（通道之间，像素点之间）的值来加强两者之间的联系，以提高准确性。该模型结合了一个FFN，其输出被用作FFN的输入，并输出相同维度的矩阵。为了解决梯度消失问题，该模块采用了残差神经网络结构，每个FFN的输入都包含了自注意的输出和原始输入。变压器在计算机视觉中引起了越来越多的兴趣，但它们仍然落后于最先进的卷积网络。虽然Transformer具有更大的模型容量，但由于以下原因，它们的泛化可能比卷积网络更差：缺乏正确的概括偏见。MCCA-Net模型构建的混合模型系列可以自然统一深度卷积P. Qu，T. Li，G. Li等人认知机器人2（2022）211216∑��∈��∈��∈��见图6。 MBConv模块。通过简单的相对注意和自我注意，使其更具有普遍性，分类更准确。与输入是一行向量的自然语言自我关注机制不同，图像可以被视为向量的集合。模型中的自我注意抽象变成了一个类似卷积的广义神经网络，卷积核被设置为限制接收场的大小，因此需要多层堆叠来处理整个特征图。3.3. 垂直堆叠卷积模块在神经网络的设计中，卷积层的堆叠经常发生。使用多个卷积层堆叠，然后池化层，可以减少直接卷积带来的参数。而且会有更多的非线性变换，通过卷积的叠加和激活函数的增加，模型的学习能力会更强。该模型通过堆叠模块来提高模型的性能和准确性。由于模型的复杂性，直接使用相对注意力。在本文中，我们选择卷积图像，将其提取到可管理的特征图级别，然后使用下采样来减少空间大小并使用全局注意力。模块的堆叠提高了模型的泛化能力和容量，从而提高了模型的分类精度该模型使用MBConv模块，其中包含Squeeze-and-EX引文（SE）注意机制模块。它使用具有反向残差的深度卷积。MBConv结构主要由1 × 1卷积（维数增加函数）组成，依赖卷积（DW）、SE模块和1 × 1卷积（降维函数）。该模型首先将输入通道大小扩展四倍，然后将隐藏状态四次投影回原始通道大小，以启用剩余连接。MBConv模块结构如图所示。第六章与传统卷积相比，MBConv模块中的反卷积参数可以大大减少。 DW的一个卷积核负责一个通道，这只改变了特征图的大小，而不是通道的数量。SE模块主要包括两个部分：Squeeze和EX citation。W、H和C分别表示特征图的宽度、高度和通道数，大小为W× H × C。第一个Squeeze操作是一个全局平均池，压缩为一个1 × 1 × C的特征图。接下来的EX引用由激活函数GELU（）和Sigmoid（）相加的全连接组成，输出为1 × 1 × C。目的是得到一维向量作为渠道的评价分数，学习渠道之间的相关性，并获得渠道的关注。在最终缩放操作中，缩放操作乘以将计算出的权重值与相应的二维矩阵X进行比较，并输出结果。它可以表示为在预定义的接受域中，每个维度的加权值，可以定义为：y =��∈其中x是位置i的输入，y是位置i的输出，w是位置（i-j）的权重矩阵X，��（i）是i的局部邻域。具体地说，卷积主要是通过固定的内核从局部感受场中提取特征。Self-attention计算归一化相对相似度（exp（））的权重。权重可以表示为：��=∑∑exp（��∈��- 是的（六）在Softmax归一化之前或之后，将全局静态卷积核与w−求和，实现卷积与注意力的结合表达式如下（7）或（8）：��=∑(∑exp(��)��∈��公司简介），（7）��=∑∑exp(��+�� −��)��∈��- 是的（八）��−��P. Qu，T. Li，G. Li等人认知机器人2（2022）211217��MCCA-Net模型由五个阶段的网络组成，每个阶段将空间大小减少两倍，并增加通道数，加上MBConv（MB）或Transformer（TF）块，限制条件是卷积级必须出现在Transformer级之前。这个约束是基于先验知识，即卷积在处理在早期阶段更常见的地方模式。导致具有越来越多的Transformer级的四个变体，MB-MB-MB-MB、MB-MB-MB-TF、MB-MB-TF-TF和MB-TF-TF-TF。本文通过对卷积进行两次叠加，并加入注意力机制模块（MB-MB-TF-TF）来实现网络结构的构建。与其他三种网络结构相比，MB-MB-TF-TF结构在水下退化图像的分类中表现最好。3.4. 损失函数损失函数，也称为目标函数，确定模型预测的程度，并用于表示预测值与真实值之间的差异程度。常用的损失函数是回归损失和分类损失。在本文中，我们在分类损失中使用交叉熵损失函数交叉熵损失可用于二进制和多类任务，主要用于确定预测值为真的概率。表达式如下（9）：=−1∑[��其中p是样本，q是实际标签，m是预测输入，n是总样本大小。模型中的最后一层是全连接的，其输出是输出的每个类别的得分，可以使用Softmax作为激活函数进行处理，以导出每个类别的概率。它可以很好地解决权值更新太慢的问题，当模型较差时，速度较快，当效果良好时，速度较慢在特征提取过程中，从同一退化水下图像中提取相似的特征，在数据收敛时，学习率受输出误差的影响。利用交叉熵损失来判断输出值与真值之间的差异，在反向传播过程中加速了整个权矩阵的更新，从而加快了收敛速度，降低了学习率受到的影响4. 实验结果比较方法：本文将传统和经典的神经网络与MCCA-Net模型进行了比较，如AlexNet[37]，ResNet 50[38]，VGG 19[39]和GoogLeNet[40]，以及较新的网络模型E EsccientNet[41]和CoAtNet[42]。4.1. 评价指标1) 准确度：所有预测正确的样本占所有测试样本的比例，准确度越高越好。2) 精确度：真实样本占所有真实样本预测的比例3) 调用：预测真类的数量与真类的数量之比4) F1：查准率和查全率的综合评价，F1=P<$ R<$2/（P+ 2），P为查准率，R为查全率。4.2. 数据集我们从OceanDark[43]，RUIE[44]，UIEB[45]和EUVP[46]等开放数据集中选择了大约4500张水下图像作为数据集。该数据集涵盖了三种水下图像退化场景，如雾模糊，颜色失真和低光照，用于网络模型的训练。UIEB数据集是一个开源的配对数据集。原始图像来自真实的水下图像，地面实况来自各种传统方法。EUVP数据集是基于不可追溯生成对抗网络（UGAN）合成的。本文在模型中采用不同的训练集和测试集比例进行实验，在7：3的情况下精度更高。本文提出的方法在颜色空间对数据集进行融合，提取不同颜色空间中最明显的特征，通过图像融合提高模型训练的准确性。图7示出了一些水下退化图像和退化图像融合后的图像。4.3. 实验配置本文使用MCCA-Net模型进行预训练和特征提取与学习。对水下图像进行预处理，将原始图像尺寸为256×256PIXELS大小的图像，均匀裁剪成224×224PIXELS大小的输入图像。该模型在4500张图像上进行了训练，并以3：7的比例分为测试集和训练集。网络优化使用Adam优化器和SGD优化器执行。根据优化器的不同，批量大小和学习速率会进行调整以优化学习能力，其他参数值会设置为默认值。本文采用Intel i7P. Qu，T. Li，G. Li等人认知机器人2（2022）211218图第七章多幅水下退化图像及融合图像的显示。图八、RGB 图像下不同类型水下图像的直方图。图第九章HSV 图像下不同类型水下图像的直方图。4.4. 评估模型在不同颜色空间中的分类性能本文利用MCCA-Net模型对不同颜色空间的水下图像进行比较。该机型采用MB-MB-TF-TF结构，用于训练RGB图像、HSV图像、Lab图像、HSVLab图像和N-HSVLabRGB图像是原始的水下退化图像。HSV和Lab是对原始图像进行颜色空间转换后的新图像。 HSVLab图像是HSV和Lab颜色空间融合后的新图像。N-HSVLab图像是在HSV图像中的V通道被均衡之后与Lab图像融合的新图像。MCCA-Net网络模型用于在不同的颜色空间上进行训练。如图8和9。与RGB图像相比，HSV图像中单个通道之间的像素数差异较大，有利于特征的提取当模型使用Adam优化器时，批量大小为32，学习率设置为0.0001。如表1所示，使用MCCA-Net模型进行40次迭代训练，获得不同颜色空间图像的结果。P. Qu，T. Li，G. Li等人表1认知机器人2（2022）211219训练结果在不同的颜色空间。颜色空间准确度（%）精密度（%）召回率（%）F1（%）损失RGB95.6195.7095.5095.600.2156HSV95.9696.1495.5895.860.1884实验室96.1196.1596.0192.080.2157HSVLab96.3996.4396.3196.370.2117N-HSVLab96.9697.0696.8796.960.1680表2不同模型的训练结果。模型准确度（%）精密度（%）召回率（%）F1（%）损失AlexNet[37]95.6195.6795.5095.580.3581ResNet50[38]96.0496.1395.9496.030.1855VGG 19[39]95.8396.0495.7095.870.1823[40]第四十话92.7192.8092.6092.700.4271[41]第四十一话96.0496.0295.9696.000.2006[42]第四十二话96.9697.0696.8796.960.1680MCCA97.3897.4197.3197.360.1008基于HSV图像V通道的均衡化，对色彩空间进行融合，得到N-HSVLab使用SGD优化器，学习率为0.001，批量大小为16，它实现了97.38%的准确率，97.41%的精度和97.31%的召回率4.5. 评估不同模型的分类性能然后，利用融合后的N-HSVLab图像数据集，采用不同的网络模型对水下图像进行分类学习验证了MCCA-Net模型的有效性本文使用AlexNet 、 ResNet 50 、 VGG 19 和 GoogLeNet 等常用网络模型以及新的网络模型 E_xcientNe 和 CoAtNet 来训练 N-HSVLabMCCA-Net模型将框架构建为MB-MB-MB-TF模型，并对部分代码进行了优化。训练N-HSVLab数据集的不同模型的比较结果结果表明，与传统和经典神经网络相比，通过优化网络模型和改变垂直堆叠的卷积模块，MCCA-Net模型的准确率达到97.38%。准确率分别比AlexNet、ResNet50、VGG19和GoogLeNet高1.77%、1.34%、1.55%和4.67%。准确率分别比EsccientNet和CoAtNet模型高4.6. 消融研究1）色彩空间的影响分析本文对是否对图像的颜色空间进行转换和融合进行了消融研究。使用的数据来自UIEB，EVUP，Ocean Dark和RUIE数据集。在此数据上进行消融研究当使用原始RGB图像时，分类准确率为95.61%。在分类中存在特征提取不充分的问题，导致水下图像质量下降。问题的分类精度不高。相比之下，图像融合后，水下图像的特征可以得到增强的HSVLab图像数据集，分类准确率达到96.39%。通过在HSV颜色空间中均衡V通道得到N综合单色空间图像和融合后的双色空间图像的分类结果，融合后的图像分类结果优于单色空间图像，分类精度也有一定的提高1）注意力机制的影响分析在这一部分中，本文对是否引入注意机制进行了消融研究当不引入注意机制时，模型框架是MB-MB-MB-MB。当引入注意力机制时，模型框架可以改变为MB-MB-MB-TF、MB-MB-TF-TF和MB-TF-TF-TF三种不同的堆叠模型结构，其中MB是卷积，TF是注意力机制。通过在RGB图像数据集和N-HSVLab图像数据集上进行训练结果表明，MB-MB-TF-TF模型结构具有较强的泛化能力和较高的分类精度。注意力机制的引入可以在一定程度上提高模型分类的准确性从表3可以看出，当模型框架调整为MB-MB-TF-TF时，模型训练的准确率最高，在真实水下退化图像中的准确率为96.11%;在多颜色空间融合后的图像中的准确率为96.96%。P. Qu，T. Li，G. Li等人认知机器人2（2022）211220表3不同网络结构的分类结果。结构数据集准确度（%）精密度（%）召回率（%）F1（%）MB-MB-MBRGB95.6195.7095.5095.60N-HSVLab96.4696.4796.3996.42MB-MB-MB-TFRGB96.6096.6796.5296.59N-HSVLab96.7596.7596.6896.71MB-MB-TF-TFRGB96.1196.1696.0196.08N-HSVLab96.9697.0696.8796.96MB-MB-TF-TFRGB96.1196.1896.0196.09N-HSVLab96.6096.7396.5196.625. 结论本文提出了一种用于水下图像分类的多色卷积和注意力堆叠网络（MCCA-Net）。考虑到不同颜色空间中的特征点不同，选择了HSV和Lab颜色空间，针对水下图像存在的颜色失真、雾模糊、地面遮挡等退化问题进行融合。的特征比原始图像更好。通过对HSV图像中的V通道进行均衡，增强了图像的特征点，更有利于水下图像的分类。通过实验验证，融合图像分类达到了较高的精度。这些结果对图像增强、图像分割、以及目标定位，例如进行图像分类的预处理以用于图像增强。其前景值得进一步研究。虽然目前的效果不错，但这种方法有一定的局限性。首先，它对退化进行了简单的分类水下图像，但没有进行精细分类。其次，在融合原始水下图像时，需要更明确的特征提取。在未来的工作中，我们将构建一个数据集，用于对退化的水下图像进行精细分类，将考虑为这个数据集设计一个深度网络模型。竞争利益作者声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文报告的工作致谢国家自然科学基金项目（批准号：广西自然科学基金（批准号：62002082）; 广西大学中青年教师科研能力提高项目（批准号：2020KY05034）、广西省自然科学基金项目（批准号：2020GXNSFBA297077）、桂林市科学研究与技术发展计划项目（批准号：2020GXNSFBA238014）、广西大学中青年教师科研能力提高项目（批准号：2020KY05034）、广西省自然科学基金项目（批准号：2020GXNSFBA297077）、桂林市科学研究与技术发展计划项目（批准号：2020GXNSFBA297077）、广西大学中青年教师科研能力提高项目（批准号： 2020KY05034 ）、广西大学中青年教师科研能力提高项目（批准号：2020KY05034）、广西大学中青年教师科研能力提高项目（批准号：2020GXNSFBA297077）。20210217-17）、河南省重点专项科技发展计划（批准号：202102210349、212102210419、202102210388、212102110298、222102210171）。引用[1] W. Zhang，Y.Wang，C.Li等人，通过衰减颜色通道校正和细节保留对比度增强的水下图像增强，IEEE J. Oceanic Eng. 47（3）（2022）718-735。[2] Y. Li，H.卢，J. Li等人，水下图像去散射和分类的深度神经网络，计算。伊莱克特拉Eng. 54（2016）68-77。[3] S. Serikawa，H.卢，水下图像去雾使用联合三边滤波器，计算机。电动Eng. 40（1）（2014）41-50。[4] W. 张丽Dong，X.Pan等人，水下图像的恢复和增强调查，IEEE Access 7（2019）182259-182279。[5] W. 张丽董，W。徐，Retinex启发的水下图像增强的颜色校正和细节保持融合，Comput。电子学。农业192（2022）106585.[6] W. Zhang，X.平移X。Xie等人，彩色校正和自适应对比度增强在水下图像增强中的应用。电气工程91（2021）106981。[7] C. 妈，X。Li，Y.Li等人，用于深海视觉监测系统的视觉信息处理。机器人 1（2021）3-11.[8] H. Lu，Y. Li，T. Uemura等人，使用深度卷积神经网络重建低照度水下光场图像，Future Gener。Comput.系统82（2018）142-148。[9] W. Zhang，P. Zhuang，H. Sun等人，基于最小颜色损失和局部自适应对比度增强的水下图像增强，IEEE图像处理。31（2022）3997-4010。[10] S. Yang，H.卢，J. 李，基于多特征融合的智能交通系统目标检测，IEEE Trans. 内特尔运输单系统（2022年）。[11] 迪普河Dash，使用深度学习技术进行水下鱼类物种识别，在：//2019年第6届信号处理和集成网络国际会议（SPIN），IEEE，2019年，pp。665-669[12] K. Cheng，X.郑，Y.Wang等人，用于浮游生物识别和计数的增强卷积神经网络，PLoS One 14（7）（2019）e0219570。[13] N. Ani Brown Mary，D.Dharma，Coral reef image classification employing Improved LDP for feature extraction，J. 目视Commun. Image Represent 49（2017）225[14] Y. Gonzalez-Cid，A. Burguera，F. Bonin-Font等人，机器学习和深度学习策略识别水下图像中的posidonia草甸//，在：OCEANS 2017-Aberdeen，IEEE，2017，pp. 1比5。[15] A.萨勒曼，A. Jalal，F. Shafait等人，基于深度学习的无约束水下环境中的鱼类分类，Limnol。海洋之神14（9）（2016）570-585。P. Qu，T. Li，G. Li等人认知机器人2（2022）211221[16] Y. Li，H.卢，J. Li等人，水下图像去散射和分类的深度神经网络，计算。电力Eng. 54（2016）68-77。[17] M. Khishe，M.R Mosavi，使用黑猩猩优化算法训练的神经网络对水下声学数据集进行分类，应用声学。157（2020）107005.[18] C. Bentes，D.韦洛托湾Tings，采用卷积神经网络的TerraSAR-X图像中的船舶分类，IEEE J。海洋 Eng 43（1）（2018）258-266.[19] 法医Paoletti，J.M.上河Fernando-Beltran等人，深金字塔残差网络的光谱空间超光谱图像分类，IEEE Trans. Geosci。远程传感器57（2）（2019）740[20] X. Xu，K.林湖，澳-地Gao等人，通过私有共享子空间分离学习跨模态公共表示，IEEE Trans.赛博恩 52（5）（2022）3261-3275。[21] X. Xu，T. Wang，Y. Yang等人，跨模态注意力与语义一致性的图像-文本匹配，IEEE Trans.神经。网络学习. 31（12）（2020）5412-5425。[22] K. Chatfield，K.西蒙尼扬A.Vedaldi等人，魔鬼在细节中的回归：深入研究卷积网络，Comput。Sci. （2014）1405 3531。[23] X. Wang，J. Jiao，J. Yin等人，水下声纳图像分类使用自适应权重卷积神经网络，应用。声音。 146（2019）145-154.[24] M. 阿马尔湾Mohammed，S.An等人，ResFeats：基于残差网络的水下图像分类特征，Image Vis。Comput. 93（2020）103811。[25] Y. 中山，H.Lu，Y.Li等人，WideSegNeXt：使用宽残差网络和NeXt扩张单元的语义图像分割，IEEE Sens. J. 21（10）（2021）11427-11434。[26] L. Pennec，M. Jridi角Dezan等人，AUV水下探测使用FPGA实现的深度神经网络，模式识别。轨道三十一.国际光电学会11400（2020）114000 N。[27] H. Lu，L.Wang，Y.Li等人，CONet：认知海洋网络，IEEE Wirel。Commun. 26（3）（2019）90-96。[28] F. Zhao，H. Lu，W. Zhao等人，用于散焦模糊检测的图像尺度对称协作网络，IEEE Trans. Circuits Syst. Video Technol.32（5）（2022）2719-2731。[29] H. Lu，Y.Li，M.Chen等，大脑智能：超越人工智能，暴徒。网络阿普利卡 23（2）（2018）368-375。[30] M.阿里多斯角Dhasarathan，A.杜姆卡等人，DUICM深层水下图像分类模块使用卷积神经网络，国际J网格高性能。Comput.（IJGHPC）12（3）（2020）88[31] M. Yang，H.Wang，K.Hu等人，IA-Net：一个基于接收-注意模块的水下图像分类网络。海洋Eng. （2022年）。[32] Y. Zheng，Y.郑氏，中国科学院植物研究所所长。Li，S.Yang等人，Global-PBNet：a novel point cloud registration for autonomous driving，IEEE Trans.内特尔运输单系统（2022年）。[33] M. Irfan，J. Zheng，M.，中国科学院昆虫研究所所长。Shahid Iqbal等人，一种新的特征提取模型，以提高水下图像分类，Intell。Comput. 系统 1187（2020）78-91.[34] H. 卢，M.Zhang，X.Xu等人，深度模糊哈希网络用于高效图像检索，IEEE Trans.模糊系统 29（1）（2021）166-176。[35] M. Irfan，J. Zheng，M.，中国科学院昆虫研究所所长。Iqba

下载后可阅读完整内容，剩余1页未读，立即下载