皮肤病变自动分割在医学信息学中的应用

151 浏览量更新于2024-01-09 收藏 2.68MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁25（2021）100640用于皮肤病变自动分割Adi Wibowoa，*，Satriawan Rasyid Purnamaa，Panji Wisnu Wirawan a，Hanif Rasyidi ba印度尼西亚三宝垄Diponegoro大学计算机科学、信息学系b澳大利亚国立大学工程计算机科学学院，澳大利亚&A R T I C L EI N FO保留字：皮肤病变分割编码器-解码器MobileNetU-Net随机加权平均A B S T R A C T准确的皮肤病变分割（SLS）是黑色素瘤计算机辅助诊断的重要步骤。皮肤镜图像中皮肤病变的自动检测是具有挑战性的，因为存在伪影并且病变可能具有模糊或不清晰边界的异质纹理、颜色和形状。在这项研究中，自动SLS是使用轻量级的编码器-解码器，MobileNetV 3-UNet，它可以实现低资源的高精度。为了提高SLS中该方法的准确性，进行了综合分析。语义分割方法由编码器-解码器架构、数据增强、学习方案和后处理方法组成。为了增强SLS，我们用来自BCDU-Net的双向ConvLSTM层和来自可分离UNet架构的可分离块修改了解码器。使用随机增强来提高训练数据集中的图像多样性，以避免过拟合。此外，基于随机加权平均（SWA）的学习方案被用来通过平均多个局部最优值来获得更好的泛化能力。我们的方法使用三个公开可用的数据集进行了评估，如ISIC-2017， ISIC-2018 和 PH 2。我们获得了 ISIC-2017 ， ISIC-2018 和 PH 2的骰子系数和 Jaccard 指数分别为87.74%，80.25%; 91.01%，83.44%和95.18%，91.08%。实验结果表明，改进后的MobileNetV 3-UNet方法的性能优于现有的几种方法。1. 介绍黑色素瘤是一种皮肤癌，由于其高度转移性，死亡率很高[1]。虽然它占皮肤癌病例的约1%，但大多数皮肤癌死亡都来自黑色素瘤。预计到2021年，美国将诊断出106110例新的黑色素瘤病例，导致7180例死亡[2]。早期诊断时，黑色素瘤的估计五年生存率超过99%，在晚期检测时约为14%[3]。因此，早期检测对于治疗和预防转移至关重要，这改善了预后。专家们广泛使用皮肤镜检查来早期发现黑色素瘤。皮肤镜检查是一种非侵入性成像技术，可帮助临床医生进行直接显微镜检查，以观察色素沉着皮肤病变的诊断特征[4]。该技术使用光学放大、流体浸没和交叉偏振照明来平移表皮层，与传统方法如不对称边界颜色直径（ABCD）技术相比，这提高了黑素瘤的诊断准确性[5]。然而，通过人类视觉进行的诊断需要时间长，筛选复杂，可能出错[6]。计算机辅助诊断（CAD）系统的开发有助于从皮肤镜图像中早期检测和分析色素性皮肤病变[6此外，使用皮肤镜图像自动分割皮肤病变可以改善皮肤病分类[10]。使用这种方法，皮肤科医生可以检查色素沉着的皮肤病变，并准确定位癌区域。由于病变可能具有模糊和不清晰的边界，异质纹理，颜色，形状和其他伪影（图11）。 1），自动分割仍然具有挑战性[11-13 ]。近日，深基于学习的卷积神经网络网络（CNN）在机器学习和计算机视觉中获得了突出地位，特别是在语义图像分割方面[14]。该模型采用编码器-解码器结构预测piX el到piX el分段[15]。在编码器中，通过下采样降低输入空间分辨率，并且生成增加piX el级区分的低分辨率特征映射（计算效率）随后，对特征表示进行上采样以在解码器中检索全分辨率分割图。* 通讯作者。电子邮件地址：bowo. live.undip.ac.id（A. Wibowo），gmail.com（S.R. Purnama），panji@lecturer.undip.ac.id（P.W. Wirawan），hanif.rasyidi@anu. edu.au（H.Rasyidi）。https://doi.org/10.1016/j.imu.2021.100640接收日期：2021年2月26日;接收日期：2021年5月31日;接受日期：2021年6月2021年6月19日网上发售2352-9148/©2021的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuFig. 1. 皮肤镜图像在皮肤病变的自动分割中提出了挑战。(a)病变边界模糊不清;（b）病变的纹理、颜色和形状不均匀;（c）伪影。（有关此图例中颜色的解释，请读者参考本文的Web版本A. Wibowo等人医学信息学解锁25（2021）1006402A. Wibowo等人医学信息学解锁25（2021）1006403××表1ISIC-2017、ISIC-2018和PH 2数据集规范。图像图像尺寸（piXel）556 × 679至556× 679至交叉验证倍数577×769(3) 通过结合SLS中的几种增强方法来治疗皮肤病变视觉外观的变异性[24]。(4) 为了在测试过程中使用随机加权平均（SWA）学习模式和填充空洞（FITH）后处理方法等技术来改善分割图。2. 材料和方法2.1. 数据集国际皮肤成像协作组（International Skin Imaging Collab）4499×6748 4499 × 6748表2随机扩增参数。使用国际标准工业分类（ISIC）2017 [25]、2018 [26]和PH2数据库[27]来评价拟定的SLS方法。这些数据集包含皮肤镜检查图像，其具有由皮肤病专家注释的地面真实掩模。ISIC-2017、ISIC-2018和PH 2数据集的描述见表1。ISIC-2017皮肤病变挑战数据集线路运行参数扩充类型概率包含训练（2000）、验证（150）和测试（600）图像。的图像大小从556× 679PIXELS到4499× 6748PIXELS不等。的1水平翻转ISIC-2018皮肤病变挑战数据集包括2594张图像，2移动、缩放、旋转比例限制=0.5，旋转限制=0，移位空间1.0训练该数据集被顺序（非随机）分为训练集（1815），验证集（259）和测试集[28]。图像大小3PadIf需要4随机裁剪limit= 0.1边界模式=4空间0.5 空间1.0从556679像素到44996748像素不等PH2数据集具有200个皮肤镜检查图像，每个折叠中具有40个独特图像，5CLAHE-剪辑限制= 4.0，瓷砖PiX el0.9五重交叉验证训练是用四倍的（随机亮度，伽马）网格大小=（8，8）限制=0.2伽马限值=（80，120）数据，而其余的用于测试和验证。所有图像均具有577 ×769像素的适当X线尺寸。2.2. 预处理和后处理6锐化Alpha=（0.2，0.5），PiX el0.9模糊运动模糊7随机亮度=（0.5，1.0）模糊限制=3模糊限制=3PiX el0.92.2.1. 图像大小调整为了调整数据集（ISIC-2017，PH 2）内图像大小的变化，对图像及其相应的地面实况进行了调整，对比度色调限值=0.2192× 256像素（高×宽）。一般来说，3：4（高：宽）的比例色相、饱和度、明度色调限制=20，饱和度限制=30，数值限制=20最好是图像[10，21]。对于ISIC-2018，图像大小调整为256× 256像素[28，29]。2.2.2. 图像增广U-Net [16]利用数据增强，专为小型数据集的医学成像任务而设计。在这里，深度网络架构中的跳过连接加速了收敛，对于解决消失梯度问题至关重要。长跳跃连接可以准确地捕获上下文，以确定对称扩展路径中的局部病变。在实时语义分割的比较研究中[17]，发现MobileNet比ShuffleNet和ResNet等其他编码器更准确18。MobileNetV3 [18]是对MobileNetV2的改进，并且具有轻量级架构，通常是分段的选择。此外，与编码器中的反向残差瓶颈相关联的短跳过连接有效地加速了学习过程的收敛，特别是在具有最小参数的深度网络架构中[19]。由于编码器-解码器概念的灵活性，深度网络架构可以有效地用于生物医学图像分割。此外，用于从图像中提取特征的深度学习模型可以包括从预训练的ImageNet权重进行转移学习[20]。关于皮肤病变分割（SLS）的多项研究[21-本研究的主要目的如下：(1) 利用基于MobileNetV 3和U-Net的轻量级编解码器进行自动SLS，提高网络架构的性能。(2) 对编码器和解码器进行修改，并将其与标准U-Net架构进行比较。使用Albumentation库[30]将增强方法应用于图像。两种类型的增强：piX el级别，其在piX el级别变换图像（例如，颜色）和空间级，其在空间级变换图像（例如，旋转），可以使用。在分割过程中，对图像进行PIXel变换，并对图像和地面真实掩模进行空间变换。皮肤镜筛查或采样期间环境条件的变化可以在训练之前应用标准化图像的增强方法，例如颜色恒定性[24]，但在深度学习期间可能会发生过拟合在这里，图像的变化通过随机增强来放大，并且在训练期间对参数进行微调使用了PiXel级增强，例如随机亮度、伽马、模糊、锐化、对比度、色调、饱和度、值和对比度受限自适应直方图均衡化（CLAHE）。空间水平的增强，如水平翻转，随机裁剪，移位，缩放和旋转，随机使用来创建空间变异性。我们定义了一个基于概率执行的操作序列，如表2所示。在随机增强过程之前和之后的一些示例图像和掩模在图中示出。二、2.2.3. 图像归一化图像和地面真值掩码具有8位的piXel大小，并且每个piX el具有0到255之间的值通过将输入图像除以255将归一化应用于图像中的每个pixel，并且正常PIXEL值范围变为0-1。具体地，通过向上舍入或上取整，地面数据集ISIC-2017ISIC-2018pH2源ISICISICPedro Hispano医院，总数27502594葡萄牙200规模（培训/2000/1501815/259160/40验证）尺寸（试验）600520平均从5-A. Wibowo等人医学信息学解锁25（2021）1006404表3对ISIC-2017、ISIC-2018和PH 2数据集进行预处理和后处理。（培训）增强是标准化0预处理调整大小192X 256X3256X 256X3192X 256X 3（验证或测试）后处理（培训）后处理（验证）后处理（测试）扩增否标准化0FITH否FITH否FITH是否否图三. 提出了端到端语义分割架构中的解耦编码器和解码器模块。2.2.4. 后处理用于分割的常用后处理算法是FITH。我们使用参考文献[21]中描述的FITH方法来改进分割。FITH处理分割输出中的孔，以正确定义病变边界。表3列出了ISIC-2017、ISIC-2018和PH 2数据集的预处理和后处理详细信息。2.3. 网络结构该模型包括一个解耦的编码器和解码器模块，这是结合在一个端到端的语义分割架构的基础上的U-Net。利用跳跃连接的U-Net架构可以使模型更加健壮。编码器使用轻量级MobileNetV3特征提取模型进行了修改。随后，我们研究了短跳跃连接（反向剩余瓶颈）和NAS模块对编码器的影响。在所提出的架构中，跳过连接在四个阶段连接编码器和解码器，并且在最后一个阶段中，编码器和解码器直接连接（图1）。 3）。数据集方法ISIC-2017ISIC-2018pH2预处理调整大小192X 256X 3256X 256X 3192X 256X 3图二、在随机增强过程之前和之后的E X样本图像和地面真实掩模。图四、详细的编码器架构，以及MobileNetV1、MobileNetV2和MobileNetV3之间的差异。A. Wibowo等人医学信息学解锁25（2021）1006405A. Wibowo等人医学信息学解锁25（2021）100640图五. （a）MobileNetV2瓶颈块（反向残差瓶颈），（b）MobileNetV3瓶颈块，以及（c）MobileNetV3中的挤压和激发模块。瓶颈的左侧单元用于短跳过连接，并且右侧单元在下采样之前使用，其没有短跳过连接。见图6。在解码器中的每一级使用的块。 (a)标准U-Net，（b）UNet-LSTM，（c）BCDU，（d）Separable-UNet。6图7.第一次会议。不同的可分离卷积（a）和可分离卷积（b）的结构。A. Wibowo等人医学信息学解锁25（2021）1006407A. Wibowo等人医学信息学解锁25（2021）1006408×6×表4使用ISIC-2017、ISIC-2018和PH 2数据集进行训练和测试的参数。方案验证验证验证SWA时期181SWA学习率预训练权重0.0001 0.00001 0.0001ImageNet ImageNet ImageNet损失函数2.3.1. 编码器为了从原始图像中获得语义信息，提出的编码器使用MobileNet架构进行特征提取。MobileNetV1、MobileNetV2和MobileNetV3架构已在图4中概述。因此，编码器充当语义分割架构中的特征提取器。高精度和轻便是萃取器的基本特点。当网络级减少空间维度时，连接编码器和解码器的跳过连接是标准的（图4）。我们比较了每个MobileNet版本中可用的MobileNetV1架构[31]使用dependency可分离（图4中的橙色块）和逐点卷积而不是标准卷积（图4中的黄色块）。dependency和逐点卷积，分别其次是批归一化和整流线性单元（ReLU6）激活函数。MobileNetV2 [32]使用依赖可分离卷积，具有线性瓶颈的残差连接（图4中的绿色块）和反向残差结构。在这里，层结构由于其低层次的问题属性而更有效（图1）。 5 a）。MobileNetV3 [18]由MobileNetV2结构、MnasNet反向剩余瓶颈层[33]，以及基于瓶颈结构中的挤压和激励（SE）的轻型网络架构搜索模块。SE可以通过增加参数数量和减少可见延迟来提高准确性。MobileNetV3的瓶颈（内核大小为5 5）以及SE模块如图4（蓝色方框）、图5b和图5c所示。SE层用修改的swish非线性增强（图4中的紫色边界）。此外，使用S形模型的SE和swish非线性被硬S形模型（Hσ）取代。由于与ReLU6相比，sigmoid函数的计算量很大，因此使用了如下所示的硬sigmoidHσ（x）=ReLU6（x+3）（一）2.3.2. 解码器在解码器中，我们使用了基于U-Net的架构。解码器以全分辨率产生分割图。通过在每一级的跳过连接特性，可以用几个扩展模块或修改块来修改解码器以提高其性能。探讨了弹性体的张力和修饰，以确定每个模块的优点。我们使用了多个解码器（图6），包括标准U- Net（没有添加或修改），UNet-LSTM（[21]解码器）。2.3.2.1. 标准U-Net。该块在图6a中示出。连接层恢复了在通过各种卷积层时丢失的图像特征，直到它们足够深。下一层是3 × 3卷积层的两倍，随后是要在下一个块中处理的上采样操作各层见图8。（a）ISIC-2017和PH 2数据集的学习模式和（b）ISIC-2018数据集。数据集ISIC-2017ISIC-2018pH2批量888历元200100200学习率0.0010.00010.001学习SWA最佳&SWA最佳&SWA最佳&A. Wibowo等人表5医学信息学解锁25（2021）1006409使用ISIC-2017测试数据集比较不同的编码器网络模型卷积层ACCDICJai森SPE计算时间（s）模型参数VGG16-UNet标准卷积0.92480.84090.75950.78640.97160.02772.38 ×107ResNet 50-UNet残差网络0.9304 0.8608 0.7816 0.8200 0.9700 0.0230 3.26 ×107MobileNetV 1-UNet独立可分离0.9352 0.8690 0.7929 0.8509 0.96370.01578.34 × 106MobileNetV 2-UNet反向残差0.9366 0.8714 0.7941 0.8506 0.9657 0.01978.05×106MobileNetV 3-UNet反向残差+SE0.9381 0.8774 0.8025 0.86240.9636 0.0199 8.27 × 106表6使用ISIC-2017测试数据集比较不同的解码器网络模型ACCDICJai森SPE计算时间（s）模型参数MobileNetV3-BCDU0.93140.86120.77960.84290.96130.02742.16 ×107Copyright © 2018 - 2019 www.wzcn.com版权所有移动网络V3-可分离-UNet0.93850.8753 0.7961 0.8523 0.9678 0.02436.29×106粤ICP备16037888号-1表7使用ISIC-2017测试数据集和MobileNetV 3-UNet比较不同的增强策略Augmentation strategy Spatial augmentation空间增强策略仅失真无失真颜色抖动CLAHE模糊使用gamma锐化无仅空间空间增强与失真[21]误差无失真的空间增强[57]仅CLAHE仅模糊使用gamma锐化建议表8在ISIC-2017测试数据集中比较不同的解码器网络，有和没有图像增强。补充了批处理和ReLU规范化，以加速网络收敛，训练和非线性。使用以下公式计算批次归一化值：β（2）=σ2+ε+STM 。基于BCDU-Net 架构[28] ，实现了nvLSTM模块。在此，解码器具有经由解码器从编码器提取的特征图表9ISIC-2017数据集每个模型的测试结果与训练方案的比较。训练模式模型JAI标准学习与最佳验证MobileNetV 3-BCDU 0.7806MobileNetV3-UNet-LSTM 0.7824MobileNetV3-Separable-UNet 0.7834MobileNetV3-UNet0.7923SWA（恒定，最后20个epochs）MobileNetV 3-BCDU 0.7796MobileNetV3-UNet-LSTM 0.7838MobileNetV3-Separable-UNet 0.7961MobileNetV3-UNet0.8025表10模型（MobileNetV 3-UNet）性能，有和没有后处理。后处理ACC DIC JAI SEN SPE无0. 9381 0. 8751 0. 8023 0. 85880. 9648电话：+86-021- 8888888传真：+86-021 - 88888888跳过连接和先前的解码器块。我们使用双向ConvLSTM层作为标准U-Net解码器扩展，即UNet-LSTM（图6b）。我们想确定双向ConvLSTM层对分割能力的影响。为了均衡双向ConvLSTM层处理的特征映射通道的数量，上采样层被转置卷积取代。Bidirectional ConvLSTM 使用两个ConvLSTM来处理来自跳过连接的输入数据，并将解码路径上采样为双向正向和反向路径。然后，它通过处理数据在两个方向上的依赖性来为这些输入做出决策。在标准ConvLSTM中，只处理前向依赖性。然而，应该考虑序列中的所有信息，并且考虑向后依赖是有效的。此外，从时间角度分析前向和后向依赖性可以提高预测性能[34]。最终输出考虑了存在双曲正切的双向时空信息，其用于以非线性方式组合来自前向和反向状态2.3.2.3. BCDU。具有四个跳过连接的原始BCDU的整个块（图6c）被用于所提出的架构（图3）。与UNet-LSTM相反，在完成后进行批量归一化。模型Jaiyiγxi-λB没有一增强BMobileNetV3-BCDU0.71210.7796MobileNetV3-UNet-LSTM0.74360.78382.3.2.2. UNet-LMobileNetV 3-可分离-UNet0.76820.7961双向CoMobileNetV3-UNet0.77700.8025合并A. Wibowo等人医学信息学解锁25（2021）10064010表11使用ISIC-2017数据集比较模型性能方法ACC DIC JAI SEN SPE计算时间模型参数Res-UNet [22]DCL-PSI [52] 0.9408 0.8566 0.7773 0.8620 0.9671沪公网安备31010502000114号电话：+86-510 - 8888888传真：+86-510- 88888888大干[11] 0.935 0.859 0.771 0.8350.976[12] 0.926 0.830 0.742 0.825 0.953- -DL-AuXILIARY任务[13]0.94320.8713 0.7946 0.8876 0.9651MobileNetV 2-UNet（已提出）0.9366 0.8714 0.7941 0.8506 0.96570.0197-s8.05× 106MobileNetV 3-Separable-UNet（建议）0.9385 0.8753 0.7961 0.8523 0.9678 0.0243-s6.29×106MobileNetV 3-UNet（建议）0.93810.8774 0.8025 0.8624 0.9636 0.0199-s 8.27× 106表12使用ISIC-2018数据集比较模型性能方法ACC DIC JAI SEN SPE计算时间模型参数U-Net [16] 0.890 0.647 0.549 0.708 0.964关注优网[54] 0.897 0.665 0.566 0.717 0.967R2U-Net [54] 0.880 0.679 0.581 0.792 0.928关注R2 U-Net [54] 0.904 0.691 0.592 0.726 0.971BCDU-Net（d= 3）[28] 0.937 0.851-双UNet [23]MobileNetV 3-BCDU（建议）0.9466 0.9060 0.8281 0.8903 0.9695 0.0274-s 2.16 × 107MobileNetV 3-UNet-LSTM（已提出）0.9456 0.9050 0.8265 0.8970 0.9654 0.0272-s 1.81 × 107MobileNetV 3-Separable-UNet（建议）0.94850.9073 0.8315 0.9011 0.9643 0.0243-s6.29×106MobileNetV 3-UNet（建议）0.94790.9098 0.8344 0.90890.96380.0199-s8.27 × 106表13使用PH2数据集比较模型性能方法ACC DIC JAI SEN SPE计算时间模型参数Res-UNet [22][53] 0.938 0.907 0.839 0.932 0.929DCL-PSI [52] 0.9661 0.9413 0.8605 0.9711 0.9585沪公网安备31010502000112号[12] 0.943 0.909 0.800 0.926 0.945- -MobileNetV 3-UNet（建议）0.9870 0.9518 0.9108 0.9892 0.9789 0.0199-s 8.27×106转置卷积此外，在最终卷积层之前实现了具有三个通道输出的卷积层。原始BCDU块用于确定每个卷积和附加卷积层中2.3.2.4. 可分离-UNet。可分离的卷积块被用作Xception架构中的基本块[35]。Xception执行深度可分离卷积，它涉及深度卷积，然后是逐点卷积，即可分离卷积（图7）。Separable-UNet [21]是一种基于U-Net的网络架构。标准卷积层被基于Xception的可分离卷积块（SCB）层取代。我们在解码器块中使用了可分离UNet的SCB，如图6d所示。可分离的卷积块可以改善像素级表示之间的区分并降低解码器的计算复杂度。2.4. 随机加权平均在验证过程中使用模型权重是一种常见的训练方案。然而，如果训练数据集是不平衡的，模糊的，并且很小，那么模型可能会在局部表面上过度拟合SWA[36]通过计算权重的平均值将权重并入最后几个时期的训练方案中。该方法通过对多个权重（点的集合）求平均来解决最优局部问题在权重空间中），这是对传统系综的改进。通过加宽局部曲面点得到全局最优解，并将中点作为全局最优解。这提高了SWA和学习率。在该方法中，可以使用余弦退火调度器以循环学习速率执行训练，其中在循环结束时将几个权重点平均为最优值。另外，当以小的恒定学习速率执行训练时，来自恒定学习速率调度器的终端权重点被平均。在这里，我们以恒定的学习率实现了SWA，如之前关于SLS的研究所示[21]。2.5. 训练和测试最初，一个数据集用于训练，第二个数据集用于验证。第一种方法监控验证数据的分数，最高分数在训练过程中存储为模型权重。然而，SWA不监控验证分数;在终端时期中确定的平均模型权重被用作最终权重。因此，在培训过程中将标准学习方法与SWA验证方法相结合，并对结果进行评估。所有数据集的学习模式如图所示。8.第八条。所有模型都是使用Keras框架实现的[37]。训练在配备NVIDIA RTX2060的i7处理器上进行。有关培训和测试程序的详细信息，A. Wibowo等人医学信息学解锁25（2021）10064011=1-=1-jaccard====ISIC-2017、ISIC-2018和PH 2数据集见表4。ISIC-2017和PH 2的总历元为200，而ISIC-2018为100. 训练过程使用自适应矩估计（Adam）[38]优化模型，ISIC-2017和PH 2的学习率为1 e-3，ISIC-2018为1 e-4。批量值为8。ISIC-2017和PH 2的图像尺寸为192× 256× 3，而ISIC-2018为256×256× 3。此外，ImageNet上的预训练模型权重被uti-lized.对于损失函数，使用Jaccard损失Ljaccard[10]，其是Jaccard指数（JAI）的补充。如果G是地面真值，P是模型的分割结果，则Ljaccard由下式确定：李杰|G P||+的|P|- -一种|GP|G ∩ P|2.6. 绩效评价(3)使用五个常见的评价指标[21评价指标的制定如下：ACCTP+TNTP+TN+FP+FN森TPTP+FNSPETNTN+FP2*TP2*TP+FN+FPJAITPTP+FN+FP(4)(5)(6)(7)(8)其中TP、TN、FN和FP分别表示真阳性、真阴性、假阴性和假阳性。TP表示正确分割的病变像素的数量，而FN表示未分割的病变。TN表示未分割的非病变像素的数量，而分割的非病变像素为FP。3. 理论使用皮肤镜图像分割皮肤病变的几种传统的无监督和有监督方法是可用的。非监督方法包括阈值[39，40]区域合并[9，41]，能量函数[42，43]和聚类[44，45]。无监督方法是有利的，因为不需要数据标记;然而，大型和不同的数据集难以处理。用非监督方法处理模糊的色素边界和复杂的皮肤状况是一个挑战。此外，这些方法涉及许多取决于数据的中间步骤[13]。监督方法主要集中在病变和正常组织的像素特征或区域提取和分类。Xie等人。[46]使用自生成神经网络分类器和遗传算法提取RGB颜色特征。He等人。[47]使用Gabor和灰度共生矩阵（GLCM）特征和SVM分类器确定纹理特征。然而，这种传统的监督方法依赖于低级别的特征，如颜色和纹理，并不能捕捉语义信息，从一个高级别的图像。此外，它的性能是基于多个参数和数据预处理步骤，这使得它非常复杂[21，48]，并限制了它的泛化能力。但是，复杂的预处理和语义分割可以通过深度学习CNN在涉及一系列预处理和语义分割的深度学习方法中，图9.第九条。Mobile Ne tV 3- U N e t 的 Jaccard指数（JAI）的训练和验证（a）和（b）。DIC=A. Wibowo等人医学信息学解锁25（2021）10064012+×见图10。从MobileNetV 3-UNet模型训练中获得的分割。从左到右，显示了输入图像、地面真实掩模、增强以及正常或无增强（均无后处理）。预测piX el分割已经显示出相当大的成功。编码器提取特征图（下采样），这类似于没有平坦化的图像分类机制解码器调整特征图的分辨率（上采样）以获得原始尺寸的图像。全卷积网络（FCN）是第一个解决SLS问题的编码器-解码器架构模型，该问题是用非常深的残差50层开发的[49]。然后，使用基于Jaccard距离[10]，多尺度[50]和多阶段[51]的新损失函数更新FCN。然而，他们的研究在不同类型的皮肤病变上产生了不一致的分割问题，这些问题过拟合了主要的非黑素瘤研究，黑素瘤分割结果较低这个问题是使用逐步积分法与三个FCN模型的集合[52]来解决的。然而，该方法在处理复杂病变图像和在训练期间增加计算复杂度Goyal等人。[53]使用非FCN模型，并使用掩码R-CNN和DeeplabV 3的集合然而，该方法需要高复杂度。另一种非FCN是具有多任务学习方法的金字塔池化网络方法[13]。该架构由一个特征提取器和一个金字塔池模块（PPM）连接到一个并行交叉连接层（CCL）架构。该方法使用两个多尺度特征聚合（MSFA）模块来聚合来自不同尺度特征图的信息。此外，它还将预测作为辅助任务，以帮助分割任务。然而，分割和边缘检测结果在病变边界处略微模糊为了解决生物医学图像分割中的问题，例如有限的数据集和高水平的图像难度，U-Net在研究每个深度级别的特征时非常鲁棒。针对SLS的几种U-Net改进方法都集中在提高效率和特征区分度上，即修改编解码块部分和增加模块。在修改的编码器-解码器中，Tang等人。[21]使用Xception作为编码器，并使用可分离的卷积块层取代解码器块。Zafar等人。[22]使用ResNet50作为编码器来产生更深层次的架构。U-Net中的模块添加机制包括顺序模块组合时空信息和注意模块增加重要信息。Alom等人。[54]使用递归卷积神经网络和递归残差卷积神经网络作为U-Net中的顺序模块。为了从放大和跳过连接层捕获重要的空间和时间特征，Azad等人。[28]提出了一个双向卷积LSTM模块，并添加了三个密集连接的卷积，以减轻编码器在连续卷积中学习冗余特征的问题。Tong等人。[12]提出了注意力门空间和通道注意力U-Net（ASCU-Net），它使用三重注意力机制，以捕捉上下文信息，特征之间的空间相关性，以及目标的更相关的视野。Lei等人提出了修改编码器-解码器块和添加模块的组合。[11]，它集成了生成对抗网络（GAN）机制中的密集卷积U-Net（UNet-SCDC）和双重鉴别模块。在不考虑计算效率的情况下执行优化，并且在移动或实时设备上执行优化是具有挑战性的。一个有趣的方法是MobileNet，它支持移动计算机辅助设备[55]。用于语义分割模型的MobileNet由Siam等人首次执行。[17]。实验结果表明，MobileNetV1作为编码器可以以最小的计算复杂度获得最高的性能。MobileNetV 1引入了dependenconvolution来减少参数的数量，然后是11逐点卷积来聚合每个PIXEL中每个通道的特征信息;这被称为 dependenconvolution 。 MobileNet 的发展是相当显著的 ;MobileNetV 2修改了ResNet架构中经典瓶颈结构的概念，并连接了线性瓶颈之间的逆残差瓶颈主要是提高精度和优化模型的复杂最新的MobileNetV3 [18]通过网络架构搜索进行了增强，并将sigmoid激活函数优化为硬 sigmoid ，以降低计算复杂性并提高准确性。MobileNetV3在每个瓶颈块都有不同的渠道扩展级别。受U-Net上的编码器-解码器架构和效率的启发在 MobileNetV 3 模型的基础上，提出了一种自动 SLS 架构，将MobileNetV 3作为编码器与U-Net作为解码器相结合，以提高SLS的效率。MobileNetV3是一个高效架构的解决方案。BCDU和Separable-UNet还启发我们通过添加一些时间模块（如BCDU）和应用块修改（如Separable-UNet中的块修改）来探索对解码器的修改通过这种探索，获得了 MobileNetV 3-UNet 、 MobileNetV 3-Separable-UNet 、MobileNetV 3-BCDU和MobileNetV 3-LSTM-UNet架构。4. 结果4.1. 实验结果我们比较了所提出的SLS方法中的关键组件效应，该方法包括编码器和解码器网络，随机增强，学习方案和后处理方法。使用ISIC-2017数据集进行了比较实验，该数据集是一个具有挑战性的SLS数据集，具有训练，验证和测试见图11。最后一个卷积层的类激活映射（CAM）（从16个通道中随机选取）。从左到右，显示了输入图像、MobileNetV 3-UNet、MobileNetV 3-Separable-UNet、MobileNetV 3- LSTM-UNet、MobileNetV 3-BCDU、VGG 16-UNet图像和地面实况掩码。A. Wibowo等人医学信息学解锁25（2021）10064013A. Wibowo等人医学信息学解锁25（2021）10064014=见图12。使用MobileNetV 3-UNet的EX样本分割掩码，用于分析SLS中具有挑战性的图像。青色线表示分割掩码，黄色线表示地面实况掩码。(For关于本图图例中颜色的解释，请读者参阅本文）。集4.1.1. 编码器网络比较在U-Net架构中比较了不同的编码器，如VGG 16，ResNet 50和MobileNet（多个版本）。此外，随机增强和SWA学习方案的组合被利用。VGG 16架构由几个类似于vanilla U-Net编码器的标准卷积块组成，ResNet 50架构由最先进的残差瓶颈组成[56]。然而，MobileNet使用深度可分离卷积层来减少参数的数量. 表5显示MobileNet的性能优于VGG16和ResNet50。在这里，VGG16和ResNet50具有JAI值分别为75.95%和78.16%。然而，MobileNetV 3、Mobile-NetV 2和MobileNetV 1获得的JAI值分别为80.25%、79.41%和79.29%。根据SEN和SPE数据，我们认为，VGG16编码器在背景中比在前景中提供更高的优势（分段掩码）。然而，MobileNet专注于前景并产生更好的分割结果，如所获得的ACC，DIC和JAI值所反映的。考虑到参数的数量，MobileNetV1比MobileNetV3或MobileNetV2使用更少的参数。此外，VGG16和ResNet50使用的参数比所有MobileNet版本都多。4.1.2. 解码器网络比较我们使用其他解码器修改了基于U-Net的解码器，例如BCDU，UNet-LSTM和Separable-UNet。在这里，MobileNetV3与解码器配对，并确定其在图像分析中的性能。用于比较的模型是用不同的解码器、随机增强和SWA准备的。采用标准U-Net解码器的MobileNetV 3优于其他解码器，DIC、JAI 和SEN值分别为87.74%、80.25%和86.24%（表6）。Mobi

下载后可阅读完整内容，剩余1页未读，立即下载