基于Gabor的UNet用于图像语义分割任务

123 浏览量更新于2023-12-09 收藏 923KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取ScienceDirectICTExpress 9（2023）1使用GSAUNet进行语义分割桑吉塔湾Nemadea，c，soul，Shefali P.索纳万湾www.elsevier.com/locate/ictea印度科尔哈普尔希瓦吉大学瓦尔昌德工程学院Sangli计算机科学与工程系b印度Sangli Walchand工程学院信息技术系c印度Aurangabad政府工程学院信息技术系接收日期：2021年5月18日;接收日期：2022年4月25日;接受日期：2022年9月14日2022年9月22日在线提供摘要Gabor滤波器由于其可操纵特性而很好地支持计算机视觉任务，这对于处理图像变换（如图像旋转和图像缩放）非常有用。本文提出了一种基于Gabor的UNet（GSAUNet）模型，其中Gabor滤波器代替了UNet中的一些默认过滤器。此外，它还采用了挤压和激励模块，以增加通道的相互依赖性和注意力机制，专注于网络的一个重要组成部分。在CamVid和Cityscape数据集上评估了GSAUNet的性能，这些数据集实现了语义分割任务的改进版权所有2022作者。出版社：Elsevier B.V.代表韩国通信和信息科学研究所这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：Gabor滤波器; UNet;语义分割1. 介绍由于数字信息和通信技术的巨大发展，计算机视觉系统已经成为许多研究人员和科学家感兴趣的领域。近年来，它推动了卷积神经网络（CNN）的发展CNN是一种深度学习技术，具有网格架构，可以自动学习和适应图像中的空间层次特征和模式。它在所有计算机视觉领域都有应用，特别是图像分类和语义图像分割[1]。语义图像分割为单个像素分配类别。它也被称为基于像素的分类。它是基于通常的图像分割方法，其中的语义描述添加到目标和背景图像，分别。机器在识别图像中的抽象语义特征后，可以挤出语义信息。它旨在定位每个对齐的对象区域。在图像中，语义分割发现存在什么对象，它们的位置以及精确的边界。它对于图像理解和图像分析任务至关重要。可以*通讯作者：印度科尔哈普尔希瓦吉大学瓦尔昌德工程学院计算机科学与工程系。电子邮件地址：sangita. walchandsangli.ac.in（S.B. Nemade），shefali. walchandsangli.ac.in（S.P. Sonavane）.同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2022.09.007有助于各种人工智能（AI）和计算机视觉（CV）领域，如自动驾驶[2]，医学影像诊断[3]和其他领域[4，5]。在所有这些应用中，语义分割是一个至关重要的过程。随着深度神经网络和CNN等新兴技术的进步，语义分割已经领先一步。为此，Zeiler [6]开发了一种可视化技术来获得中间层的功能分类器。使用这种技术作为诊断工具，作者更新了CNN模型，该模型超过了ImageNet分类基准[7]。ApesNet模型由[8]实现，用于道路场景图像的逐像素分割，并且比传统的道路和室内场景理解分割方法具有更高的准确性和更少的分类时间。在所有其他深度网络中，卷积神经网络在语义分割方面表现出惊人的性能。 CNN 已经扩展到全卷积网络（FCN），它在分割图像方面效果非常好[9]。它比CNN有很多优点;例如，删除一个完全连接的层减少了参数，提高了训练时间。两个著名的架构，残差网络和密集网络，被证明是优于FCNs [10残差网络和稠密网络已经被许多研究者进行了实验，并改进了结构设计以增强语义分割。这些模块也已纳入一个苏-2405-9595/© 2022作者。由Elsevier B.V.代表韩国通信和信息科学研究所出版。这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。S.B. Nemade和S.P. SonavaneICT Express 9（2023）1222σλ在文献中已经描述了基于周期编码器解码器的架构、UNet [13例如，Badrinarayanan [14]开发的SegNet架构包括编码器-解码器网络和逐像素分类层。编码器网络架构在拓扑上类似于VGG16网络[15]。解码器网络的功能是将低分辨率编码器特征图映射到全分辨率特征图以进行分类。SegNet仅存储编码器特征图的最大池化索引，并将其用于解码器网络中，用于实现良好性能的逐像素分类。CNNCNN的基本优势在于学习数据的历史抽象的能力虽然CNN在过去几年中经历了数量上的改进，但它受到某些基本限制。CNN对图像的几何变换建模的能力较弱现有的方法大多采用数据扩充的方法，训练样本被扩充，这主要导致数据过拟合问题。因此，CNN最后一层的目标检测和定位的准确性对于语义分割结果来说是不够的。Gabor滤波器利用其多分辨率特性，成功地从图像中提取出有效的特征。Gabor滤波器具有尺度、方向和平移不变性。因此，[20]使用基于Gabor的DCNN进行左心室分割，并取得了比DCNN随机初始化更好的结果。利用Gabor滤波器提取的边缘、方向和尺度信息，可以改善相关的卷积特征。Kang等人[21]已经开发了用于高光谱图像分类的GFDN模型，其中将Gabor滤波器应用于高光谱图像的前三个主成分以提取特征。随后，这些提取的特征与光谱特征相结合，并提供给自动编码器用于分类目的。GFDN模型在印度的准确率达到98.29%。本文的主要重点是提出一种架构，其中边缘，方向和规模的功能检测使用生成的Gabor滤波器组。Gabor滤波器取代了编码器部分的经典UNet中的几个默认滤波器。此外，为了增加通道的相互依赖性，使用挤压和激励模块，并将注意力集中在网络的重要部分本文件其余部分的组织如下GSAUNet方法和实施在第2节中详细介绍。第3节介绍了图像数据库，实施细节和评估指标。结果和讨论见第4节，结论见第5节。2. 方法2.1. Gabor滤波器Gabor滤波器对某些几何变换（如平移、方向和尺度）具有不变性[18已有的研究表明，在CV任务中，Gabor滤波器可以从输入图像中检测出有前景的特征。Gabor滤波器的方向可调特性在传统的滤波器设计中得到了广泛的应用，因为它具有更好的方向和尺度信号分解能力。在Gabor滤波器中，使用不同的方向滤波器来捕获不同方向的边缘信息。因此，包括这些过滤器在UNet中，这可以提高学习的特征对方向和尺度变化的鲁棒性基于Gabor滤波器的滤波窗口通常，在空间域中，通过使用复Gabor函数g（x， y）来形成Gabor滤波器组，即，g（x， y）=fr（x，y）s（x， y）（1）其中fr（x， y）是高斯形函数，而s（x， y）是正弦波函数。对于2D卷积滤波器，高斯包络如下，Pines数据集，而Salinas数据集的准确率为98.86%。Kinikar等人[22]第二十二话g（x， y，σ，θ，λ，γ，θ）=e（−x′2+γ2y′2）e（i（2πx′+π））（二）自定义CNN中的过滤器，用于在不同的姿势和照明条件下进行人脸识别。该模型的准确率达到了89.5%，比自定义CNN提高了3.75%。AGNet模型由[23]实现，用于医学图像分割。在AGNet模型中，Gabor滤波器从下层到深层应用于CNN。此外，它还利用了区域增强机制的帮助下，注意力机制和跳过连接，以提高分割精度。AGNet模型在FMLCD和LiTS数据集上的准确率分别达到Gabor滤波器也在各种应用中得到了广泛的研究，例如人脸识别[24]，纹理分类[25]和交通标志检测[26]，因为它可以描述图像的空间频率结构和空间关系信息的保持。尽管有这样的优势在Gabor滤波器中，它们主要不用于使用深度CNN的语义分割任务。x′=xcosθ+ysinθ（ 3）y′=−xsinθ+ycosθ（ 4）其中，x和y是Gabor矩阵索引、滤波器取向量θ、正弦波长参数λ、虚部单位i、确定函数的椭圆度量的形状的空间纵横比γ、作为Gabor函数中的余弦或正弦因子的幅角的相位偏移psi（ψ）以及高斯包络的标准偏差σ，其决定Gabor函数的支持的大小。在算法1中，P表示每层中所需的滤波器的数量。以度为单位指定的方向（θ）参数采用8个方向，范围从0到（7π/8）。其他三个参数，例如波长（λ）、伽马（γ）和西格玛（σ），根据输出滤波器的数量而变化，并分别由I、J和K变量控制S.B. Nemade和S.P. SonavaneICT Express 9（2023）13而变量k、scale、g和s是迭代变量。psi（ψ）参数是恒定的，并且取0值，因为仅利用了Gabor函数的实部通过改变方程中的一个参数来改变这些参数，可以定义许多滤波器。（二）、需要单独的计算过程来提供一个单独的滤波器。用于几个卷积层的Gabor滤波器组中的每个滤波器是用Gabor结构生成的。所有循环都运行恒定的次数。然而，这个恒定的时间取决于所使用的硬件，并且与给定输入相比可以忽略不计。2.2. UNetUNet是基于全卷积神经网络为生物医学图像分割开发的突破性架构[13]。由于其在生物医学图像中的卓越性能，许多研究人员已经将其应用于大量应用中，例如从遥感数据中提取道路和建筑物[27]以及道路场景分割[28]。由于其快速的计算能力，UNet可以用更少的训练样本生成更无错误和正确的分割结果。因此，UNet通常用于语义分割问题。UNet由收缩路径和扩展路径组成，收缩路径通过学习训练图像的空间细节来获取特征知识。在收缩路径的每一层之后，它将图像的大小减小一半。这些在扩展路径中重用特征，并使用连接过程将这些高级特征知识与扩展路径中生成的信息集成。这是可能的，因为网络在这项研究中，少数卷积层的编码器部分被取代的Gabor核。2.3. 压缩-激发模块挤压和激励网络[29]是CNN的构建这个想法是在卷积块的每个通道中添加参数，这有助于调整特征图的权重。挤压-激励网络是根据这一原理工作的，它由挤压模块和激励模块两部分组成。挤压模块通过全局平均池化描述符挤压每个通道，以将整个特征图减少到单个值。第二个模块，激发模块，映射缩放权重以捕获通道依赖性。它利用一个完全连接的多层感知器来学习自适应权重。为了利用这种通道的注意力的网络的泛化，这种挤压和激励网络被嵌入在本研究中提出的GSAUNet架构中的每一层合同路径之后，这有助于提高网络2.4. 注意机制在任何网络中生成的特征图都包含混合信息。很少有特征图包含聚焦所需的最重要信息。为了实现这一点，在GSAUNet模块中使用了注意力模块。注意力模块是一个单元，其目标是注意力模块首先由[30]引入，用于改进RNN-LSTM机器翻译系统，该系统被进一步研究用于CV任务。注意力模块和空间金字塔被合并以执行语义分割任务[31]。本模块涉及空间注意力和通道注意力。它适用于任何卷积网络，因此本研究将其用于网络解码路径。2.5. GSAUNet模型本研究中提出的GSAUNet模型基于UNet架构，如图1所示。然而，Gabor滤波器取代了编码器部分的经典UNet中的几个默认滤波器。Gabor滤波器具有良好的方向选择性和空间局部性，并且当被并入深度网络的较低层时是有效的因此，在这项研究中，Gabor滤波器在检测目标的效果进行了研究。通过考虑Gabor滤波器的四个参数（即，方向（θ）、尺度（λ）、伽马（γ）、西格玛（σ））并且保持一个参数psi（σ）恒定来生成Gabor滤波器组。S.B. Nemade和S.P. SonavaneICT Express 9（2023）14×××−Fig. 1. GSAUNet架构。在这项研究中，GSAUNet模型的几个卷积层在每一层的初始化步骤中观察Gabor滤波器的效果。Gabor滤波器的样本输出如图2所示。提供给模型进行训练的输入图像和地面实况的大小分别为CamVid和Cityscape的960 720和1024两个卷积操作，包括Gabor滤波器和默认滤波器，由一个最大池函数，以缩小特征图。在最大池化之后，在编码路径期间附加挤压和激励模块。桥与经典的UNet相同。在解码器路径中，在对特征图进行上采样之前，集成了注意力模块。通过转置2D卷积获得输入图像分辨率。挤压和激励网络的输出特征图在解码器的末端，采用最终卷积（11）来生成对复杂输入图像进行逐像素分割3. 实验3.1. 数据集GSAUNet模型在两个基准数据集上进行测试，以查看模型图二. GSAUNet Gabor滤波器及其特征图的示例输出。左上角和右上角是块1 Gabor滤波器，其特征图而左下角和右下角是块2 Gabor滤波器和它的特征图数据集[32]和Cityscape数据集[33]。CamVid是一个室外场景语义分割数据集，包括701个图像。它是第一个视频帧集合。每个像素都与32个对象标签中的一个相关联，例如建筑物，道路，杆等。在这项研究中，GSAUNet模型的整个数据集的划分如下：367张图像用于训练，101张图像用于验证，剩余的233张图像用于测试分割结果。Cityscape是另一个具有对象类语义标签的户外场景分割基准数据集。该数据集是为像素级、实例级和全景级语义分割任务而开发的。每个像素都与35个类别标签中的一个相关，例如建筑物，天空，道路，人行道，树木，围栏，汽车，骑自行车的人等。为了测试语义分割的结果，完整的数据集分为训练，验证和测试。对于训练，2975个图像、500个图像用于验证，剩余的1525个图像用于测试目的。3.2. 实现细节所有实验都是在Ubuntu操作系统、NVIDIA Tesla P100GPU和16 GB内存上进行的。设置的软件环境是Keras深度学习框架（版本-2.3.0），Tensorflow版本2.1.0和CUDA11.0。已经进行了各种实验来选择超参数的最佳值，这反过来又定义了GSAUNet模型。最重要的超参数是优化器.实验考虑了Adam、SGD和Adagrad优化器。亚当以惊人的准确性胜过其他优化者。实验后，将学习率校准到le3。该模型在50个时期内收敛。3.3. 评估指标GSAUNet 模型的定量性能使用一个平均交集（meanIoU）S.B. Nemade和S.P. SonavaneICT Express 9（2023）1表55深度学习语义分割模型在CamVid数据集上与GSAUNet模型和其他五种比较模型的性能比较。良好的准确度以黑体字表示型号/类别UNet赛格内特[14]ENet [35]LERNet [36]循环网[37]GSAUNet模型建筑80.0688.874.779.681.6779.45极6.3227.535.423.825.2972.15天空93.3892.495.188.493.0393.11路93.0597.295.19295.2893.62侧壁59.6584.486.779.684.9289.35树88.7687.377.872.674.7988.62签署6.6420.55143.6NA79.46围栏17.2149.351.744.5NA81.5车34.4982.182.480.2NA91.02行人24.1657.187.243.5NA88.37自行车15.3630.734.151.6NA88.95类平均值47.1965.2070.1063.58175.8385.963平均IoU（%）43.2055.6051.3058.2062.9865.47像素精度（%）79.6782.10n/a67.9091.3891.44评价指标[34]。它也被称为Jaccard指数，是一种广泛使用的像素级分割评估指标。交集大于并集给出了相似性和多样性、现实性和预测性.在这项工作中，平均IoU被用来衡量GSAUNet模型的准确性，它被计算为每个类的IoU的平均值。它落在0%-100%之间，1表示总重叠，0表示预测输出与地面实况之间的总差异。像素精度是另一个使用的评估，它给出了分类像素占所有可用像素的百分比。4. 结果和讨论GSAUNet模型在两个广泛使用的基准数据集上进行了测试：CamVid数据集和Cityscape数据集。此外，该模型4.1. CamVid数据集将GSAUNet模型与经典UNet模型进行了比较，并在CamVid数据集上给出了所提出的模型和经典UNet的定性结果。3.第三章。表1中将GSAUNet模型的平均交集与其他分割架构进行了比较。 SegNet [14] ， ENet [35] ， CyclicNet [37] ，LERNet [36]架构的结果摘自文献中报告的研究，UNet正在定义配置的CamVid数据集上实施。在CamVid数据集上训练的UNet模型实现了79.67%的像素准确度和43.20%的平均IoU。GSAUNet模型的表现优于所有其他五个模型，像素准确度分别为91.44%和65.47%。图3中显示了一些示例;该模型比UNet模型更好地分割了围栏，电线杆，自行车和人等对象。UNet与自行车、行人和标志牌更容易混淆，在这种情况下，这些都不太清楚。然而，在所提出的模型中，杆，建筑物和标志类的检测没有适当地完成。图三. CamVid数据集上的语义分割结果比较：（a）原始图像（b）地面实况（c）UNet结果（d）建议的GSAUNet架构结果。通过比较UNet和GSAUNet模型，如表1所示，观察到CamVid数据集的类平均值增加。在检查每个类别的检测精度之后，已经发现杆、侧壁、栅栏、标志、汽车、行人和骑自行车者类别的精度已经提高。GSAUNet的训练精度和训练损失与UNet相比，如图所示。四、从图中可以看出。4（a）GSAUNet的训练准确率曲线始终大于UNet。在图4（b）中，GSAUNet损耗曲线总是小于UNet。因此，可以观察到GSAUNet比UNet模型更有效。4.2. 城市景观数据集将该模型与UNet模型和其他语义分割模型进行了比较。评价指标S.B. Nemade和S.P. SonavaneICT Express 9（2023）16表2GSAUNet方法与其他语义分割方法在Cityscape数据集上的平均IoU（%）的比较。所有方法中准确度最高的用黑体表示。现有的分割方法与GSAUNet的比较见表2。UNet模型SegNet [14]ENet [35]LERNet [36]DSNet [38]GSAUNet模型平均IoU（%） 46.8 57.00 58.360.6071.92见图4。（a）GSAUNet和UNet的培训准确性。(b)GSAUNet和UNet的培训损失。用于比较的是meanIoU。UNet模型基于给定的配置在Cityscape数据集上执行，而所有其他语义分割模型的结果都来自文献。在 Cityscape 数据集上训练的传统 UNet 模型给出了83.03% 的而 GSAUNet 模型优于 UNet ，像素准确率为92.86%，平均IoU为71.92%。从结果来看，可以看出，GSAUNet模型在平均IoU方面优于其它模型。在 CamVid 和 Cityscape 数据集上的实验结果表明，GSAUNet模型能更好地提取图像的语义描述。该算法采用Gabor滤波器代替编解码器结构中的随机核、压缩和激励5. 结论本文提出了使用UNet，Ga- bor过滤器，挤压和激励模块，注意机制的语义分割。GSAUNet结构采用Gabor滤波器的优点来检测各个方向的边缘。此外，挤压和激发模块促进重要特征通道，注意机制集中在重要特征上。CamVid和Cityscape都是具有挑战性的城市街景数据集，用于实验目的。这些模块的集成结果在语义分割中产生了可接受的准确性。GSAUNet模型在CamVid数据集上产生了65.47%的平均IoU和91.44%的全局准确率。在Cityscape数据集上，GSAUNet模型实现了92.86%的像素准确度和71.92%的平均IoU，这意味着增加训练数据大小是有用的以提高模型性能。结果表明，GSAUNet模型可以获得最佳性能.竞合利益作者声明，他们没有已知的可能影响本文所报告工作确认所有作者均阅读并批准了最终手稿。引用[1] X. Liu，Z.邓，Y.杨，语义图像分割的最新进展，Artiff。内特尔Rev.（2019）1089-http://dx.doi.org/[2] B. Li，S. Liu，W. Xu，W. Qiu，自动驾驶的实时对象检测和语义分割，在：MIPPR（自动目标识别和导航）会议记录，第10608卷，国际光学和光子学学会， 2018 年， pp.106080http://dx.doi.org/10.1117/12.2288713[3] Z.周先生，M.M.R.西迪基河Tajbakhsh，J. Liang，UNEt++：re-designing skip connections to exploit multiscale features in imagesegmentation，IEEE Trans.Med. 影像学（2019）1856//dx.doi.org/10.1109/TMI.2019.2959609网站。[4] S.S. Virgikar，V.K. Pachghare，V.C. Patil，S.K. Jha，CaneSat数据集利用卷积神经网络对sentinel-2进行甘蔗分类，J. King Saud Univ.Inf.Sci.6（B部分）（2020）http://dx.doi.org/10.1016/j.jksuci.2020.09.005，在这个问题上。[5] S.B. Nemade，S. P. Sonavane，基于共现模式的分级水果图像标注的水果质量检测，J. King Saud Univ. - Comput.信息科学34（7）（2022）4592http://dx.doi.org/[6] M.D.泽勒河Fergus，可视化和理解卷积网络，在：Proc. EuropeanConf. Computer Vision，2014，pp. 818http://dx.doi.org/10.1007/978-3-319-10590-1_53[7] A.克里热夫斯基岛萨茨克弗，G. E. Hinton，Imagenet分类与深度卷积神经网络，高级神经信息处理。（ 2012 ）1097http://dx.doi.org/10.1145/3065386[8] C. Wu，H.P. Cheng，S. Li，H. Li，Y. Chen，ApesNet：a pixel-wise efficient segmentation network for embedded devices ， IETCyber-Phys.Syst.TheoryAppl.（2016）78http://dx.doi.org/10.1049/iet-[9] J. 朗，E. 谢尔哈默，T. Darrell ，Fully convolutional networks forsemantic segmentation，in：Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，2015，pp.3431//dx.doi.org/10.1109/CVPR.2015.7298965网站。[10] L.C. Chen，G.帕潘德里欧岛科基诺斯角黄文，张文斌，张文斌，等.马赫内特尔（2017）834 http://dx.doi.org/10.1109/TPAMI.2017。二六九九一八四。[11] K.他，X。Zhang，S. Ren，J. Sun，深度残差网络中的身份映射，在：欧洲计算机视觉会议论文集， 2016 年，pp.630https://arxiv.org/abs/1603.05027v3S.B. Nemade和S.P. SonavaneICT Express 9（2023）17[12] G. Huang，Z. 柳湖，加-地Van Der Maaten ，K.Q. Weinberger，Densely connected convolutional networks ，in ： Proceedings of theProceedings of the IEEE Conference on Computer Vision and PatternRecognition，2017，pp. 4700https://arxiv.org/abs/1608.06993v5[13] O.放大图片作者：J. Brox，Unet：用于生物医学图像分割的卷积网络，在：医学图像计算和计算机辅助干预国际会议论文集，2015年，pp. 234-http://dx.doi.org/10.1007/978-3-319-[14] V.巴德里纳拉亚南，A.肯德尔河，巴西-地Cipolla，Segnet：A deepconvolutional encoder-decoder architecture for image segmentation，IEEE Trans. Pattern Anal.马赫内特尔（2017）2481http://dx.doi.org/[15] K. 西蒙尼扬A. Zisserman，深度卷积网络大规模图像识别，2014年，pp. 1 https：//arXiv：1409.1556v6.[16] G.帕纽蒂湖Minto，P. Zanuttigh，用卷积神经网络和表面拟合对RGBD数据进行分割和语义标记，IET Comput。目视（2017）633-http://dx.doi.org/[17] S.B. Nemade，S.P. Sonavane，使用各种CNN模型进行图像注释的几何变换效果的比较分析，载于：应用计算机视觉和图像处理，Springer，新加坡，2020年，第10页。362http://dx.doi.org/10.1007/978-981-15-4029-5_36[18] S.卢安角陈湾，澳-地Zhang，J. Han，J. Liu，Gabor卷积网络，IEEE Trans. 图像处理。（ 2018 ） 4357-4366 ， http ： //dx.doi.org/10.1109/TIP.2018.2835143网站。[19] Y. Yuan，L.N.Wang，G.钟，W.高，W.Jiao，J.东湾，澳-地沈先生，D.夏，W.项，自适应gabor卷积网络，模式识别。（2022）108495.[20] S. Molaei，M.E.Shiri，K.Horan，D.卡赫罗拜湾Nallamothu，K. Najarian，用于左心室分割的深度卷积神经网络，在：第39届IEEE医学和生物学工程学会年度国际会议，EMBC，2017年，pp.668http://dx.doi.org/10.1109/EMBC.2017.8036913[21] X.康角，澳-地Li，S. Li，H. Lin，高光谱图像分类通过基于Gabor 滤波的深度网络， IEEE J. Sel. Top. 应用地球观测遥感（2017）1166-1178。[22] A. Kinnikar，M. Husain，S.M. Meena，Face recognition using gaborfilter and convolutional neural network ， in ： Proceedings of theInternational Conference on Informatics and Analytics ， 2016 ， pp.1http://dx.doi.org/10.1145/2980258.2982104[23] S. Huang，M. Huang，Y.黄氏Y. Zhang，J. Chen，U. Bhatti，使用深度学习和特征增强的医学图像分割，IET图像处理。（2020）3324 http://dx.doi.org/10.1049/iet-ipr。2019.0772。[24] L. Yu，Z.他，Q。曹，Gabor纹理表示方法的人脸识别使用伽马和广义高斯模型，图像可见。 Comput. （ 2010 ） 177http://dx.doi.org/10.1016/j.imavis.2009。五点十二分[25] W. Li，K.毛氏H. Zhang，T. Chai，用于改进的纹理特征提取的Gabor滤波器的选择，在：IEEE图像处理国际会议，2010年，pp.361http://dx.doi.org/10.1109/[26] J.G. Park，K.J. Kim，Design of a visual perception model with edge-adaptive gabor filter and support vector machine for traffic signdetection ， Expert Syst. Appl. （ 2013 ） 3679 http://dx.doi.org/10.1016/j.eswa.2012.12.072。[27] F.I. Diakogiannis，F. Walnut，P. Caccetta，C.吴，Resunet-a：遥感数据语义分割的深度学习框架，ISPRS J. Photogramm。RemoteSens.（2020）94http://dx.doi.org/[28] M.暹罗湾Gamal，M. Abdel-Razek，S. Yogamani，实时语义分割基准框架，在：第31届神经信息处理系统会议，2017年，pp. 1比6[29] 胡杰湖，澳-地Shen，G. Sun，挤压和激励网络，在：IEEE计算机视觉和模式识别会议的程序， 2018 年， pp. 7132http://dx.doi.org/10.1109/CVPR。2018.00745。[30] D.巴赫达瑙角周，Y。Bengio，通过共同学习对齐和翻译的神经机器翻译，2014年，arXivPrepr。arXiv：1409.0473;https://arxiv.org/abs/1409.0473v7。[31] H.李鹏，熊俊安，L. Wang，Pyramid attention network for semanticsegmentation，2018，arXiv Prepr. arXiv：1805.10180。http：//arxiv.org/abs/1805.10180v3网站。[32] G.J. Brostow，J. Fauzur，R. Cipolla，视频中的语义对象类：一个高清晰度地面实况数据库， Patterns ， Lett 。（ 2009 ）88http://dx.doi.org/10.1016/j.patrec.2008.04.005[33] M. Cordts，M. Omran，S. Ramos，T. M.恩茨韦勒河贝南森，美国弗兰克，S。罗斯湾 Schiele，用于语义城市场景理解的城市景观数据集，在：IEEE计算机视觉和模式识别会议论文集，2016年，pp. 3213http://dx.doi.org/10.1109/CVPR.2016.350[34] S. Hao ， Y. Zhou ， Y. Guo ， A Brief Survey on SemanticSegmentation with Deep Learning ， Neurocomputing （ 2020 ）302http://dx.doi.org/[35] A. Paszke，A. Chaurasia，S. Kim，E. Culurciello，Enet：A deepneural network architecture for real-time semantic segmentation ，2016，arXiv preprintarXiv：1606.02147.[36] J.Wu，Z. Wen，S. Zhao，K. Huang，基于整体注意力的特征传播视频语义分割，模式识别。（ 2020 ） 107268-107279 ，http://dx.doi.org/10.1016/j.patcog.2020.107268。[37] G. Wu，Y. Li，CyclicNet：一种用于语义分割的交替更新网络，Multimedia Tools Appl. （ 2021 ） 3213-3227 ， http ： //dx 。doi.org/10.1007/s11042-020-09791-9网站。[38] W. Wang，Y.傅，Z.平移X。Li，Y. Zhuang，实时驾驶场景语义分割， IEEEAccess （ 2020 ） 36776-36788 ， http ： //dx.doi.org/10.1109/ACCESS.2020.2975640网站。

下载后可阅读完整内容，剩余1页未读，立即下载