基于集成模型的皮肤癌分类方法研究及效果评估

84 浏览量更新于2024-01-09 收藏 1013KB PDF 举报

医学信息学

深度学习模型

身份认证购VIP最低享 7 折!

30元优惠券

医学信息学解锁25（2021）100659一种基于集成的学习马里兰州齐卢尔·拉赫曼Sabir Hossainb，马里兰州，Rabiul Islamc，Md.Mynul Hasanb，鲁拜亚特·阿利姆·赫里希aa吉大港工程技术大学电气和电子工程系，吉大港4349，孟加拉国b吉大港工程技术大学计算机科学与工程系，吉大港4349，孟加拉国c孟加拉国库尔纳工程技术大学电气和电子工程系，Khulna 9203A R T I C L E I N F O保留字：CNN分类深度学习Enhance微调皮肤病变A B S T R A C T背景与目的：皮肤癌是世界上最常见的恶性肿瘤。它如果没有在初期发现，可能是致命的，这使得早期发现非常重要。用肉眼识别它是可能的，但类间的高度相似性和类内的变化使它变得太难了。来检测。由于这种疾病在世界各地的流行，到目前为止，已经开发了许多基于深度学习的自动化系统，以帮助医生早期检测皮肤病变。方法：在这项研究中，我们提出了一个基于加权平均集成学习的模型来分类七种类型的皮肤病变。我们使用了五个深度神经网络模型，即ResNeXt，SeResNeXt，ResNet，Xception和DenseNet作为集成的基础。为了训练和评估我们的模型，我们使用了从官方Human Against Machine（HAM10000）和ISIC 2019数据集收集的18，730张皮肤镜图像，以及类平衡，噪声去除和数据增强技术。我们使用网格搜索方法找到了集合中基础模型的最佳组合，并优化了每个基础模型的平均召回分数。结果：这五个模型在评估过程中表现出色，ResNeXt、SeResNeXt、DenseNet、Xception和ResNet分别达到了88%、89%、91%、88%和84%的宏观平均召回分数。简单平均集成模型将结果提高到93%，加权平均集成获得了94%的召回分数。网格搜索法表明，在最终的模型中，所有模型的影响几乎相等。结论：平均集成可以显著改善结果。我们提出的系统比其他现有的系统表现更好，可以支持皮肤科医生的诊断。1. 介绍皮肤癌已被确定为世界上最常见和最致命的癌症之一[1]。在各种类型的皮肤癌中，恶性黑色素瘤被认为是致命的，因为它更倾向于随着时间的推移缓慢扩散到周围组织中，并且死亡率很高[2]。仅在美国，每小时就有两人以上死亡，每天有9500多人被诊断为皮肤癌[3，4]。这种疾病传播非常迅速，这从以下事实中可以看出：在美国，被诊断患有皮肤癌的人数超过了所有其他癌症的总和[4]，而在70岁以上的人中，至少有五分之一的人受到这种影响[5]。虽然皮肤癌可能危及生命，但进一步的研究表明，如果在早期发现癌症并进行治疗，存活率会增加[6]。研究人员发现，暴露在太阳辐射下是一项研究表明，86%的黑色素瘤患者暴露于紫外线辐射相当长的时间[7]。皮肤镜检查是一种成像程序，用于通过必要的放大倍率观察皮肤中的感兴趣区域，并消除表面反射[8]。这种技术有助于在初级阶段诊断皮肤癌用肉眼检查病变可能是耗时的，主观的，不准确的。一项研究表明，要仅通过目视检查准确识别病变类别，皮肤科医生需要接受广泛的培训和经验，这就是为什么它非常不受欢迎[9]。深度学习在全球范围内用于医学图像分析。通过深度学习对皮肤病变进行准确分类存在一些挑战。首先，高质量数据的可用性是使用深度学习方法获得良好分类结果的关键要求。∗ 通讯作者。电子邮件地址：sabir.cse@cuet.ac.bd（医学博士，侯赛因）。https://doi.org/10.1016/j.imu.2021.100659接收日期：2021年3月15日;接收日期：2021年6月30日;接受日期：2021年7月3日2021年7月14日在线提供2352-9148/©2021的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuZ. Rahman等人医学信息学解锁25（2021）1006592大多数深度卷积神经网络模型都是在数百万张图像上训练的，而在皮肤病变分析中，只有几千张或更少的图像。不同类别中的高相似性和高类别内变化产生了另一个问题[10]。这些也使目视检查过程复杂化。此外，皮肤镜图像中的噪声阻碍了网络的特征提取卷积神经网络（CNN）是一种从图像数据中自动提取有用特征的强大技术。近年来，深度神经网络领域有了实质性的改进，一些网络架构在图像分类问题上表现出了显著的效果。这些架构正在使用一种称为迁移学习的技术用于世界各地的各种应用程序[11]。在这种技术中，特定任务的已训练模型的权重用于一些不同的类型，的任务。有一些非常流行的这样的架构，如VGG- 16 [12]，ResNet [13]，InceptionNet [14]，Xception [15]，DenseNet [16]，MobileNet [17]，ResNeXt [18]，SeResNeXt [19]等。这些架构在复杂性，输入数据大小和深度方面有其差异。它们被成功地用于医学和非医学研究，尽管它们已经在ImageNet [20] 1000类上进行了训练。亨斯勒等[21]在2018年，比较了58名皮肤科医生和CNN模型之间的诊断性能，其中使用Inception-v4作为CNN模型。作者进行了两个级别的实验，其中级别1仅使用皮肤镜图像，级别2同时使用图像和临床信息。CNN模型显示出优于大多数皮肤科医生的二元分类结果，AUC ROC评分为0.86对0.79。Inception-v3模型由Esteva等人在2032种疾病的129，450张临床图像上训练。[22 ]第20段。从2032年开始，临床和视觉相似的疾病被划分为747个培训班，疾病划分算法和分类法。有三个一级节点，在分类学中也被称为推理类，每个节点都有它的后代节点，也被称为二级节点。第一级节点的概率是其所有后代节点的概率之和。该模型在一级和二级中的表现都川原等[23]开发了一个基于AlexNet的迁移学习的系统，用于使用10类Dermofit数据集进行皮肤病变识别。预训练模型的全连接层被转换为卷积层，以便这些全连接层的训练权重可以用作过滤器。81.8%的准确率优于基于相同数据集的其他系统Ain等人提出了一种基于多树遗传规划（MTGP）的多类皮肤癌分类系统。[24]第10段。形状特征、颜色变化信息、基于像素的RGB和灰度级属性被用作馈送到MTGP算法的四个特征，以在单个GP个体中创建四棵树。设计了交叉/变异等遗传算子，以确保每棵树从四种类型中的一种类型的特征进化而来。作者部署了六种不同的算法，有和没有GP和结果表明，所有的GP模型优于所有的非GP模型。In [25]，Mohamed et el.提出了一种皮肤病变分类的方法，该方法通过训练所有层来利用MobileNet和DenseNet模型的迁移学习。采用数据下采样和数据扩充的方法解决了不平衡数据集的问题，提高了性能，最终在MobileNet上获得了92.7%的准确率建立了注意力残差学习CNN（ARL-CNN）模型在[26]中，用于皮肤病变分析，其中模型由多个ARL块、全局平均池化（GAP）层和完全连接层（FC）组成。注意力学习机制增强了深度卷积模型的区分表示能力。Gessert等人在[27]中提出了SeNet、ResNeXt、DenseNet、SeResNeXt和其他一些基于模型的集成学习方法为皮肤病变分类不同的技术被用来解决沉重的类不平衡问题。其中，简单的损失加权逆归一化类频率表现最好。该系统总共使用了54个基本模型进行集成，并发现大多数最新的架构表现更好。5-使用折叠交叉验证性能来选择这些基础模型。Mahbod et el.在[28]中检查了不同输入皮肤镜图像尺寸的影响。该方法采用多尺度多CNN（MSM-CNN）融合模型，其中有90个子模型，最终获得86.2%的召回率。作者表明，图像裁剪提供了更好的结果，而融合基础模型的结果与一个基础模型相比提高了性能。采用灰世界颜色恒常性算法对图像进行预处理。在[29]中，Bi et el.提出了一种基于超连接CNN（HcCNN）的系统，其中超分支分层整合图像特征，并使模型能够从图像中学习更复杂的特征。HcCNN与多尺度注意力块相结合，以引导HcCNN聚焦于重要的皮肤病变区域。作者使用7 PC数据集，诊断准确率为74.9%全分辨率卷积网络（FRCN）用于图像分割，四个预训练模型InceptionV 3、ResNet-50、Inception-ResNet-V2和DenseNet-201用于皮肤病变分类[30]。该框架执行分层五重交叉验证，并使用加权类策略来解决不平衡问题。旋转和翻转用于增加数据集大小。ResNet模型在ISIC2018数据集中达到了最高的诊断准确率89.28%。金奈等提出了一种更快的基于区域的CNN（FRCNN）模型，以VGG-16为骨干，以识别六种皮肤病变[31]。使用数码相机共收集了3551例患者的5846张图像。然后对图像进行注释和增强。并与20位皮肤科医生的诊断结果进行比较。FRCNN的准确率为86.2%，优于皮肤科医生。赛林等通过修改MobileNet架构开发了皮肤病变识别模型[32]。MobileNet的最后五层被一个具有softmax激活的dropout和完全连接层所取代。这减少了参数的数量并提高了速度。作者研究了数据增强和上采样的效果，发现它们很有用。Chaturvedi等人在[33]中提出的系统。采用MobileNet模型的迁移学习对HAM10000数据集的七类皮肤病变进行分类。采用不同的数据增强技术，获得了83.1%的分类准确率。Harangi等人提出了一种基于加权集成的网络，其中AlexNet，VGG和Inception是基础模型，在ISBI 2017数据集上获得了83.8%的准确率。在[34]中。最终基本CNN的全连接层和分类层被移除，并通过插入具有softmax激活的联合全连接层进行互连，以进行最终预测。斯特潘等开发了一个集成模型，用于分类9种类型使用迁移学习的皮肤损伤[35]。从六个数据集收集了数据，还使用了数据增强技术。所有图像都经过预处理，以消除周围的黑色区域。此外，通过使用三种不同的方法来解决类不平衡问题。在基础模型中，EfficientNet的表现优于其他模型，准确率为63.4%。在这项工作中，我们提出了一个基于深度神经网络的皮肤病变分类系统，利用五种最先进的架构， ResNet ， DenseNet ， Xception ，ResNeXt和SeResNeXt。我们使用HAM 10000 [36]和ISIC数据集[36高数据不平衡问题通过使用成本敏感学习来解决[39]。由于数据集中的图像受到头发和其他噪声的影响，我们首先使用图像修复技术[40]将它们移除，并调整它们的大小以匹配Z. Rahman等人医学信息学解锁25（2021）1006593培训模式。训练图像的数量以及它们之间的变化通过数据增强方法增加。这些模型是用各种超参数组合训练的找到最好的结果。最后，我们设计了一个平均集成，通过组合所有的基础模型，这表明在分类结果显着增加和加权平均集成模型，其中最佳的权重组合是由网格搜索方法。这项工作是我们以前工作的更新版本[41]，然而，方法得到了极大的扩展和改进。通过使用Batch Normalization层和额外的Dropout层来增强CNN模型的架构。此外，还引入了两个额外的CNN模型，显著提高了分类结果。由于以前的工作中数据不足，增加了ISIC数据集。最后，通过网格搜索法找到加权集成技术中的最佳模型组合。这些变化提高了分类性能。论文的其余部分安排如下。第2节讨论了我们在这项工作中使用的材料和方法，包括预训练模型，数据准备，模型训练等。第4节详细讨论了实验结果。本文以第5节结束。2. 材料和方法在本节中，我们将详细描述用于构建拟议系统的所有材料和方法，包括预训练模型，数据准备和模型训练。2.1. 深度CNN模型之间所有的的state-of-the-artCNN架构我们使用了ResNeXt101[18] ， SeResNeXt101[19] ， ResNet152V2[42] ，DenseNet201 [16]，Xception [15]，因为这些模型已经更新，并且在ImageNet数据集上显示了出色的结果[20]。2.1.1. 残差网络残差网络是由微软研究团队于2015年推出的[13]。它是最令人印象深刻和广泛使用的网络之一因为这个网络被设计成使用数百个conv层而不失去有效性。当大量卷积层堆叠在一起时，卷积神经网络的性能会下降。在反向传播过程中的权重更新期间，重复的乘法导致较小的梯度，并且这继续变小，并且权重更新非常缓慢，这就是所谓的消失梯度问题[43]。因此，性能迅速下降。ResNet模型通过使用与主路径并行的“捷径”非常有效地解决了这个问题。这种连接背后的主要目的是通过跳过一些中间层来确保信息在残差块内从一层流向另一层。通过这种方式，更深的层，这防止了消失梯度问题。卷积滤波器的大小大多为3× 3，ResNet-50网络有14个残留块。全局平均池化层用于最终残差块的顶部，然后是具有softmax激活的密集层。ResNet-152 [42]比VGG-16简单，尽管它有152层，这意味着VGG-16的8倍深度。ResNet152V2 [22]的前5名准确率为94.2%。2.1.2. ResNeXtResNeXt架构的设计目的是在不增加计算复杂性的情况下提高分类精度。作者在这个模型中引入了一个新的维度，称为基数，它指的是转换集的大小。启发通过VGG [12]和ResNet [13]，网络由一堆残差块组成，其中每个块具有相同的拓扑结构并共享相同的超参数。与ResNet-50相比，ResNeXt-50的验证错误率小于1.7%。基数的进一步增加会显著降低错误率。在ResNeXt-101的情况下，验证误差比ResNet-101小0.8%，而训练误差小于4%。作者还测试了残差块的重要性，发现如果没有这个块，ResNet和ResNeXt的结果都会下降，这证明了它对于更好的优化是必要的。2.1.3. SeResNeXtSeResNeXt是SENet架构家族的成员之一[19]。在该模型中，作者提出了一个新的架构单元，称为“挤压和激励”（SE）块，它包括一个轻量级的门控机制，专注于通过以计算高效的方式显式建模通道之间的关系来提高神经网络的表示能力。在每个SE区块，在挤压阶段有一个整体平均池化，在激发阶段有两个致密层。SE模块可以与其他现有模块集成，如Inception或Residual模块。该架构提供了比ResNet更好的结果，但增加了很小的计算负担。在ImageNet数据集中添加挤压运算符后，前1个错误减少了1.02%。该网络在2017年ImageNet挑战赛中获得第一名，前5名的错误率为2.251%。2.1.4. DenseNet密集连接网络是一个更新的简单网络，由ResNet模型的快捷连接驱动，是ImageNet 挑战中表现最好的网络之一，前5名的准确率为93.6%。在这种架构中，作者提出了一种新的连接模式，其中每一层都相互链接。每一层都从前面的所有层获取输入。以相同的方式，每个层的特征图被提供作为所有后续层的输入。虽然ResNet添加了各个层的特征图，但DenseNet使用了串联过程，并保持了保留信息和汇总信息之间的差异，这导致了特征重用技术。该技术增强了DenseNet的性能我们在本研究中使用的DenseNet201 [16]共有四个密集块，每个块中的层数相同。在两个连续的密集块之间有一个过渡层，由一个1 × 1coNV层和一个2 × 2池化层组成。全局平均池化层应用于最终密集块的顶部，然后是softmax层。2.1.5. XceptionXception [15]网络是一种深度架构，由Google研究人员引入，以取代Inception模块[14]。可分离卷积也被称为依赖可分离卷积，像ResNet [13]这样的跳过连接是该架构的两个主要组成部分。由于计算时间更少，可分离卷积比经典卷积更有效率在可分离卷积中，首先，对输入图像的每个通道执行深度在Xception的情况下，这种顺序用于相反的方向，其中逐点conv后面是dependenconv。该网络在许多分类挑战中表现出令人印象深刻的性能，只有71层，前5名的准确率为94.5%。Z. Rahman等人医学信息学解锁25（2021）1006594��表1数据集的详细信息名称HAMISICFinal光化性角化病（AKIEC）327 867 1064基底细胞癌（BCC）541 3323 3323良性角化病（BKL）1099 2624 2624皮肤纤维瘤恶性黑色素瘤（MEL）1113 4522 4522黑素细胞痣（NV）6705血管病变（VASC）142 253 253图二. 源图像（左），黑帽（中）和无毛图像（右）。为了提高性能，必须在将数据输入网络之前做好充分准备。为此，我们遵循了一些方法来准备数据，这些方法将在后面讨论，以便网络可以在没有任何障碍的情况下2.3.1. 阶级平衡从表1中可以看出，这些类是高度不平衡的在最终的数据集中，它会给系统的性能带来严重的偏差。有一些技术可以避免这个问题，比如数据上采样，其中少数类中的样本数量增加，另一种是成本敏感学习。在这个系统中，我们实现了更简单的成本敏感学习，它通过根据它们的大小为不同的类该方法如下（1）。∑7 ��_��ℎ�� =��=1��其中，第二类是第三类中的样本数2.3.2. 图像预处理（一）Fig. 1. 数据集中的随机样本2.2. 数据集我们使用HAM10000 [36]数据集对我们提出的系统进行训练和评估，该系统包含七种皮肤病变的图像，如表1所示。数据集中的图像总数为10015。然而，数据集是高度不平衡的，并且某些类别中的图像数量很少。因此，我们使用了一个额外的数据集，ISIC 2019 [36我们只使用了其中的七个类，就像HAM数据集一样。此外，许多图像在两个数据集上是共同的，这就是为什么我们通过匹配图像只从两个数据集中获取原始图像的 id并创建最终数据集。事实上，HAM数据集的所有图像除了一些AKIEC图像外，ISIC中有这些图像。由于NV类 HAM数据集包含大量图像，我们没有从ISIC 2019数据集中获取此类图像。两个数据集的详细信息见表1。总共有18，730张图片，我们将它们分为三个部分。每个验证和测试集包含1642个图像，其余的都在训练集中。图 1显示了最终数据集中的一些随机图像。从图中可以清楚地看出类间的高度相似性，这使得用肉眼进行分类变得困难。2.3. 数据准备原始数据可以直接馈送到神经网络，而无需任何预处理技术，但为了提高自动系统根据图1，在部分覆盖病变的图像中存在诸如毛发的噪声是明显的。这阻碍了神经网络从图像中提取必要的信息，从而导致性能低下[44]。对于毛发去除，首先，RGB源图像被转换为灰色。然后，利用blackHat滤波检测出灰度图像中的黑发轮廓。blackHat图像是源图像和形态学闭合操作之间的差异。接下来，基于轮廓创建遮罩。现在，通过应用图像修复技术[ 40 ]，仅包含头发区域的掩模和该掩模的非零像素从源图像中消除，如图所示。二、该过程提供了非常令人满意的结果，因为图像几乎没有毛发，尽管它从图像中去除了一些信息。为了去除其他噪声和伪影，我们使用了中值滤波器。最后，进行图像预处理，这是最常见的类型的预处理技术。我们根据CNN模型的要求，使用双三次插值将数据集中的所有图像从450 × 600 RGB调整为224 × 224。2.3.3. 数据增强我们在这项研究中使用的深度卷积模型需要大量的图像进行训练，以获得更好的性能，而不会过度拟合。但是我们数据集中的图像数量是不够的。同样，训练数据的变化越多，系统就越鲁棒。为了增加训练图像的数量以及这些图像之间的变化，使用了数据增强。这也有助于提高预测性能[45]并减少过拟合问题。作为增强功能，我们使用了旋转，翻转，剪切和缩放。随机旋转角度为0-30度。随机缩放范围为90%至110%。剪切Z. Rahman等人医学信息学解锁25（2021）1006595∑图三. 一些随机的增强图像。范围为0.1，这意味着在一个轴上拉伸10%，同时保持另一个轴不变。由于军团在两个数据集中都位于图像的中间，因此军团不太可能因为这种少量的缩放、旋转和剪切而从图像中消失。来自训练集的一些随机增强图像如图所示。3 .第三章。2.4. 实现细节在医学成像领域，标记数据非常稀缺，这对于创建基于深度学习的高性能系统是一个巨大的挑战。研究人员表明，在ImageNet数据集上训练的大型架构的数据扩充过程和微调[20]缓解了训练数据不足的问题。此外，我们认为，它减少了过拟合问题，并促进了复杂深度学习模型的权重初始化，而不是使用随机初始化[46]。在深度预训练模型中，较早的层提取一般特征，而较晚的层提取基于目标的特征。在见图4。培训模式的架构。五个模型，但RMSProp没有提供理想的结果。亚当的β 1值为0.9，β 2值为0.99找到最佳学习率是一项艰巨的任务，我们尝试了从0.00001到0.01的值，但没有任何一个提供最佳结果。我们还尝试使用循环学习率[50]，它在某些情况下提供了良好的结果，但结果并不稳定。最后，我们使用了一个学习率调度器，它使学习率在20、30和40个epoch后减半，初始速率为0.00001。dropout正则化器防止模型过拟合[51]，我们在两个dropout层中丢弃了30%和50%的神经元，并发现这是最佳的。我们所使用的超参数都是受该领域相关工作2.4.2. 合奏一些深度神经网络的集成总是比任何单一模型提供更好的结果。在这项研究中，我们执行了平均集成学习，为每个模型分配了相同的权重。所有模型的最终softmax输出通过以下公式进行平均（2）。在这项研究中，我们利用了预训练模型的早期层提取的特征。我们使用的模型的总体架构是��=��（二）示于图四、首先，我们从预训练的模型中删除了密集层然后，添加了批范数，dropout和密集层，其中第一个密集层具有512个具有relu激活的神经元，最后一个密集层具有7个神经元，因为分类器系统的7个类具有softmax激活，并且它们都使用glorot uniform [47]初始化。不同型号的批处理大小不同，从16到32，取决于处理器的复杂性和内存容量。2.4.1. 超参数调整超参数，如层数，学习率，优化算法和激活函数在神经网络的性能中起着至关重要的作用。这个调整过程的目标是找到最佳的超参数组合，使模型可以有更强的区分能力。在这项研究中，我们训练了五个深度学习模型，并调整了超参数以获得最佳配置。为了进行调优，我们用不同的超参数值对它们进行了多次训练。首先，我们用不同数量的可训练层对模型进行了微调，ResNet和Xception在数量较少的情况下表现不佳可训练的层。然后，我们使用ImageNet [20]权重初始化对它们进行了充分的训练，并取得了令人满意的结果。其他三个模型在只有几个可训练层的情况下表现得非常好。 Adam [48]和RMSProp [49]优化算法用于所有其中，N是模型i的概率，N是模型的总数。由于深度学习模型在架构和复杂性方面各不相同，因此它们不能提供相同的结果，某些模型提供的结果比其他模型更好。因此，如果我们为表现更好的模型分配更多的权重，这将是有帮助的，并且通过这种方式，可以从任何模型中提取最大输出。这里的挑战是找到模型权重的正确组合，为此，我们使用了图中所示的网格搜索方法。五、我们总共使用了10万种权重组合搜索过程将继续，直到它检查所有组合，最后，该方法为我们提供了最大化给定评估指标的完美权重组合。这项工作在Google免费云服务Google Colab中实现[52]，该服务为Nvidia Tesla K80 GPU提供12GB RAM，Keras [53]和Python。整个系统的流程图如图所示。六、2.5. 评估指标评价指标的选择取决于系统的目标，世界上有一些标准的指标，准确性。但是，当数据存在偏差时，根据分类精度选择模型可能会产生严重的误导。在这项工作中，我们认为宏观平均召回率或平衡准确率作为代表模型真阳性率的主要指标，Z. Rahman等人医学信息学解锁25（2021）1006596表2所有模型的结果以及相关信息。模型召回精度F1得分MCC精度历元训练时间（h）最大值0.88 0.76 0.80 0.78 0.80 40 6.50.89 0.79 0.82 0.80 0.82 50密度网络0.91 0.83 0.86 0.84 0.84 35 3.5Xception 0.88 0.81 0.82 0.80 0.76 40 4.2ResNet 0.84 0.71 0.73 0.75 0.75 35 3.75平均涨幅0.930.870.89 0.87 0.87加权平均增长率0.94 0.87 0.89 0.88 0.88图五、寻找最佳权值组合的网格搜索法。图六、我们提出的系统的整个结构。精密度、Matthews相关系数（MCC）、准确度、F-1测量和ROC-AUC评分。MCC产生一个单一的准确度度量，范围从-1到+1; 1是完美的预测，0是随机预测，-1表示相反的预测。3. 结果宏观平均召回率、精确度、F1得分、MCC、准确度、训练总次数以及七个模型中每个模型的训练时间在表2中报告，其中粗体显示了任何评估指标的最高实现结果。这些值从相应模型的混淆矩阵中获得。的见图7。所有模型的微观ROC-AUC评分。见图8。平均系综模型的混淆矩阵。从该表中可以明显看出，与其他五个基本模型所有模型的受试者工作特征曲线（ROC）在图7中以各种阈值设置进行了描述。曲线下的面积（AUC）评分在每个模型的图表上提供。该度量表示模型的区分能力。在这里，我们使用一个vs所有的方法来绘制曲线。这两个集成模型显示出更高的区分能力相比，其他。3.1. 平均集合模式结果平均集合模型的简要分类结果见表2。在表3中，我们报告了每种方法Z. Rahman等人医学信息学解锁25（2021）1006597表3平均包围模型的结果。类别精确回忆F1得分MCCAKIEC 0.82 1.0 0.90 0.90单位：美元0.96 0.89 0.92 0.910.63 0.99 0.77 0.75DF 0.88 1.0 0.93 0.932019 - 04 - 29 0.84 0.80NV 1.0 0.84 0.91 0.88VASC 0.88 1.0 0.94 0.94表4加权平均包络模型的结果类别精确回忆F1得分MCCAKIEC 0.75 1.0 0.86单位：美元0.95 0.91 0.93 0.920.69 0.99 0.81 0.79DF 0.91 1.0 0.95 0.950.90 0.81 0.85电话：+86-021 - 8888888VASC 0.88 1.0 0.94 0.94表5见图10。加权整体模型的ROC-AUC评分。与其他现有系统的比较。System#classDataMacro-Recall[25]第二十五话[27] 7 HAM +ISIC2018 0.851[28] 7 ISIC 2018+额外0.862[30] 7 ISIC2018 0.871[31]第三十一话[32]第32话[33]第33话[35] 9 ISIC 2019 +其他五个0.525Ours 7 HAM（test）0.93Ours 6 ISIC2019（test）0.93Ours 7 HAM+ISIC20190.94见图9。加权平均系综模型的混淆矩阵。这个模型的类。我们从图1所示的平均系综模型的混淆矩阵中获得了这些结果。8 .第八条。真阳性沿着左上角到右下角提供。这为所有类别呈现了大量的真阳性情况，这是任何系统所期望的3.2. 加权平均集合模式结果为了进一步研究每个模型在集成过程中的影响，我们使用了第2.4.2节中描述的网格搜索方法。我们在表2中报告了加权平均系综模型的简要结果。每个类别的详细结果见表4。图9示出了混淆矩阵，图10示出了具有每个类别的AUC评分的ROC曲线。该模型对所有类别都具有出色的AUC分数。在完成100 000个组合搜索后，我们找到了最佳权重= [0.1351350.27027 0.3783 0.16216 0.054]ResNeXt、SeResNeXt、DenseNet、Xception和ResNet模型。我们还收集了其他权重值和相应的得分，以确定每个模型的权重变化的影响，将在下一节中介绍在表5中，我们比较了我们的系统与其他现有系统的性能。由于所有其他系统都没有报告一些评估指标，因此我们包括了他们提到的任何结果与数据集和他们系统的类的数量。当测试集只包含来自一个数据集的图像时，我们也会报告结果4. 讨论这项工作的主要贡献是设计了一个基于加权集成的模型，该模型在HAM10000和ISIC 2019高度不平衡的七类数据集中实现了出色的性能。来自所有五个基础模型以及平均集合和加权平均集合模型的分类结果在表2中示出。该表还允许我们根据不同的评估指标来比较模型。ResNeXt模型实现了良好的召回率和准确率，尽管它的计算成本比其他模型高，并且需要近6个半小时的训练时间。由于该模型的大量参数，批量大小20相对小于其它批量大小。SeResNeXt模型实现了良好的召回率和准确率，但准确率相对较低。与ResNeXt一样，该模型也比其他模型更复杂，需要5小时的训练时间。DenseNet模型在所有五个指标中表现非常好，只有35个epoch和最后一个密集块训练。此外，它在加权平均集合模型中表现出显著的效果，这将在后面详细讨论。Xception网络经过全面训练，最终在40次训练后表现出良好的分类性能在我们的分类系统中，ResNet模型的表现比其他模型差这个训练过程比其他人快，因为它的结构简单。在所有基础模型中，DenseNet在结果和复杂性方面表现最好。所有模型的ROC-AUC评分报告于图11。7 .第一次会议。所有基础模型均取得了85%至91%的优异结果。Z. Rahman等人医学信息学解锁25（2021）1006598在基础模型中，DenseNet产生的MCC值最好，0.84.加权平均集成模型产生了最好的MCC得分为0.88，而平均集成模型得分为0.87。表2中的平均集合的结果表示集合过程的优越性能。简单的平均可以在几乎每个方面都比任何单个基础模型获得更好的结果，而无需任何进一步的训练。特别是召回率和准确率，这两个重要的指标在偏斜数据的情况下，分别增加到93%和87%。表3显示了该模型的详细结果。在精度方面，该模型对除良性角化病（BKL）以外的所有类别都表现得更好。从图8中的混淆矩阵，我们可以看到78个黑色素瘤（MEL）病变， 44例黑素细胞痣（NV）被归类为良性角化病（BKL）。这主要是因为BKL、MEL和NV之间在颜色、形状和大小方面具有很高的类间相似性。因此，有时即使是皮肤科专家也无法区分它们，并建议进行侵入性测试。然而，我们的主要考虑召回分数是非常好的所有类。图 2 中的平均系综的 R O C - A U C 。 7示出得分比最佳基础模型提高2%最后我们进行的实验是加权平均集成模型。表2中的结果显示了该模型令人印象深刻的能力。该模型具有更大的召回率和F1分数比任何其他模型，包括一个简单的平均合奏。这些结果表明，通过一个简单的网格搜索方法，我们可以利用最好的属性的基础模型。与平均集成相比，加权集成具有相同的精确度，F1得分和ROC-AUC得分，但召回率，MCC和准确率得分略有提高。表4中的分类报告是从图4中的混淆矩阵计算出来的。图9示出了BCC、MEL和NV类的召回分数的改善。混淆矩阵中这些类别的假阴性情况也证明了这一改进。所有类别的ROC-AUC评分和平均值如图所示。10个。最佳权重值【0.135135】0.270270.37830.162160.054]给出了基本模型在集合过程中的作用。SeResNeXt和DenseNet网络的影响力比其他网络更大。Xception模型也有很好的效果。但是ResNet模型对集成模型的影响很小。这里的原因是ResNeXt，SeResNeXt和ResNet架构具有很大的相似性，这导致它们进行相似的特征提取。但DenseNet网络与所有这些网络都不同，它提取不同的特征，对集成过程产生很大影响。然而，为了检查加权平均是否是必要的，我们评估了其他权重组合，发现对于[0.1818 0.1818 0.27270.1818 0.1818]组合，我们得到0.93召回分数。因此，我们可以说，除了DenseNet模型之外，所有基本模型都具有几乎相似的效果，并且表现相同。因此，简单平均集合提供与加权平均几乎相等的结果，因此，加权平均不是必要的。表5显示了我们提出的系统与其他现有系统的比较研究。不同的系统使用不同的数据集，因此直接通过这些结果进行比较是不合适的。[28，30]中的方法具有出色的性能，尽管前者使用了90个基本模型，与我们的方法相比，这是一个复杂且耗时的过程。后者使用两级级联网络，需要为每一级准备数据。然而，总的来说，我们的模型在召回方面表现得比所有模型都好。此外，我们通过分别使用每个数据集的500张图像测试模型来报告宏观平均召回分数。由于ISIC包含了HAM的大部分图像，除了一些AKIEC图像外，在这两种情况下同样如此。我们的工作有一些局限性。虽然我们包含了比以前更多的数据，但仍然不够。医学领域的数据很难获取，因为它们需要有经验的医生手动注释它们。虽然我们使用了数据增强过程，但更可取的做法是包括额外的数据。我们使用了五个预先训练好的模型，其中三个来自同一个建筑家族。验证其他模型可以增强结果。此外，我们将考虑使用注意力机制和先进的数据增强技术，如对抗性训练和神经风格转移。5. 结论在本文中，我们提出了一个自动系统，为七种类型的皮肤病变分类我们利用五个深度学习预训练网络和两个数据集：ISIC 2019和HAM数据集来设计系统。此外，我们使用成本敏感的学习方法来解决高度不平衡的数据集。所有模型的性能都很好，但DenseNet的整体性能优于其他模型。它显示了91%的微回忆分数。然后，我们设计了一个简单的平均集成模型，结合所有五个模型的结果。这种集成模型将微召回分数提高到93%。最后，我们设计了一个加权平均系综模型，使用网格搜索方法调整基模型的效果。通过分析不同的权重组合和性能，我们可以说所有模型几乎都是一样的。因此，加权平均值是不必要的。然而，最终的结果表明，包括来自不同体系结构家族的网络提高了性能。此外，额外的数据被证明是有帮助的。我们获得的召回分数表明我们的模型能够正确识别真阳性，这可以帮助皮肤科医生做出任何决定。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢这项研究没有从公共、商业或非营利部门的资助机构获得任何具体资助。引用[1]皮肤癌事实统计-皮肤癌基金会。https：//www. skincancer.org/skin-cancer-information/skin-cancer-facts/网站。[2]癌症数据美国癌症协会 ; 2020 年，网址 https://www.cancer 。org/cancer/melanoma-skin-cancer.html/.[3]Rogers HW，Weinstock MA，Feldman SR，Coldiron BM. 2012年美国人群中非黑色素瘤皮肤癌（角质细胞癌）的发病率估计。JAMA Dermatol

下载后可阅读完整内容，剩余1页未读，立即下载