医学图像分割的稳健方法在COVID-19研究中的应用

131 浏览量更新于2024-01-09 收藏 1.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁25（2021）100681基于有限数据DominikMüller*，InZakakiSoto-Rey，FrankKramer德国奥格斯堡大学医学院应用计算机科学学院转化医学研究的IT基础设施A R T I C L EI N FO保留字：COVID-19分割有限的数据计算机断层扫描深度学习人工智能A B S T R A C T背景：2019冠状病毒病（COVID-19）影响全球数十亿人的生命，并对公共医疗产生重大影响。对于定量评估和疾病监测，医学成像如计算机断层扫描提供了替代RT-PCR方法的巨大潜力。出于这个原因，高度期望自动图像分割作为临床决策支持。然而，公开可用的COVID-19成像数据有限，这导致传统方法的过拟合方法：为了解决这个问题，我们提出了一个创新的自动分割管道COVID-19感染的区域，它能够处理小数据集作为变体数据库的利用。我们的方法专注于通过执行几种预处理方法和利用广泛的数据增强来实时生成用于训练的唯一和随机的图像补丁。为了进一步降低过拟合风险，我们实现了标准的3D U-Net架构，而不是新的或计算复杂的神经网络架构。结果：通过对20个CT扫描进行k折交叉验证作为COVID-19的训练和验证，我们能够为肺部和COVID-19感染区域开发一个高度准确且稳健的分割模型，而不会对有限的数据进行过度拟合。我们进行了详细的分析和讨论，我们的管道的鲁棒性，通过敏感性分析的基础上的交叉验证和应用预处理技术对模型的一般性的影响。我们的方法在验证时实现了来自放射科医生的预测和注释分割之间的COVID-19感染的Dice相似系数为0.804，在由100名患者组成的单独测试集上为0.661。结论：我们证明了所提出的方法优于相关方法，推进了COVID-19分割的最新技术，并提高了基于有限数据的稳健医学图像分析1. 介绍持续的冠状病毒大流行目前（2021年5月18日）已蔓延至全球220个国家[1]。世界卫生组织（WHO）于2020年1月30日宣布疫情为“国际关注的突发公共卫生事件”，并于2020年3月11日宣布疫情由于严重呼吸综合征冠状病毒2（SARS-CoV-2）的快速传播SARS-CoV-2感染可导致严重肺炎，并可能导致致命后果[3迄今为止，共有163，714，589例确诊病例，导致3，392，649人死亡[1]。通过国际合作，多种疫苗迅速开发，各国已开始大规模疫苗接种。然而，在发生急性呼吸道感染的情况下，仍然没有有效的治疗方法。感染[3，4，6，7]。此外，确诊病例的快速增加和由此产生的估计基本繁殖数表明SARS-CoV-2具有高度传染性[4，6，8]。世界卫生组织将这种新疾病命名为 “ 2 0 1 9 冠状病毒病 ” ，简称： CO V I D -1 9 。作为COVID-19筛查或监测的标准方法的已建立的逆转录聚合酶链反应（RT-PCR）的替代解决方案是医学成像，如X射线或计算机断层成像（CT）。医学影像技术近年来取得了重大进展，现已成为诊断的常用方法，也可用于许多疾病的定量评估[9特别是，胸部CT筛查已成为肺炎的常规诊断因此，胸部CT成像也被强烈推荐用于COVID-19诊断和随访[12]。此外，CT成像在COVID-19量化评估以及疾病监测中发挥着重要作用。COVID-19感染地区* 通讯作者。电子邮件地址：dominik. informatik.uni-augsburg.de（D.Müller）。https://doi.org/10.1016/j.imu.2021.100681接收日期：2021年2月26日;接收日期：2021年7月12日;接受日期：2021年2021年7月27日在线提供2352-9148/© 2021作者。出版社：Elsevier Ltd这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuD. Müller等人医学信息学解锁25（2021）1006812缩写CNNCT卷积神经网络COVID-192019冠状病毒病计算机断层扫描DSC Dice相似系数FP假阳性率FN假阴性率GGO毛玻璃样混浊HU Hounsfield单位IoU交并MIS医学图像分割ROI感兴趣RT-PCR逆转录聚合酶链反应真阴性率TP真阳性率感染早期可通过CT图像上的磨玻璃样阴影（GGO）区分，感染晚期可通过肺实变区分[6，12，13]。CT扫描上的COVID-19感染区域图示见图1。与RT-PCR相比，多项研究表明，CT对于COVID-19筛查更敏感和有效，即使没有出现临床症状，胸部CT成像对于COVID-19检测也更敏感[10，12 值得注意的是，在武汉（中国）进行的一项涉及1014名患者的大型临床研究[12]确定，胸部CT分析可实现COVID-19检测的0.97灵敏度、0.25特异性和0.68准确性尽管如此，医学图像的评价是由放射科医师执行的手动、繁琐和耗时的过程。尽管增加CT扫描分辨率和切片数量导致更高的灵敏度和准确性，但这些改进也增加了工作量。此外，医学图像的注释通常受到临床经验的高度影响[15，16]。这些挑战的解决方案可能是基于自动医学图像分析的临床决策支持系统。近年来，人工智能随着深度学习模型的快速发展，而图像分割是一个流行的子领域[9，17，18]。医学图像分割（MIS）的目的是自动识别和标记感兴趣区域（ROI），例如肺等器官或癌症和病变等医学异常。在最近的研究中，基于神经网络的医学图像分割模型被证明具有强大的预测能力，并取得了与放射科医师关于业绩[9，19]。这将是一个有用的工具，实现这种自动分割的COVID-19感染区域作为临床决策支持医生。通过自动突出显示异常特征和ROI，图像分割能够帮助放射科医生进行诊断、病程监测、减少耗时的检查过程并提高准确性[9，10，20]。然而，训练准确和鲁棒的模型需要足够的注释医学成像数据。因为手动注释是劳动密集型的、耗时的并且需要有经验的放射科医师，因此公开可用的数据是有限的是常见的[9，10，16]。这种数据的缺乏通常会导致传统数据饥渴模型的过度拟合。特别是对于COVID-19，目前无法获得足够大的医学成像数据集[10，16]。在这项工作中，我们努力创造一个准确的和国家的-用于COVID-19肺部感染分割的最新MIS管道，能够在由3D CT体积组成的小型数据集上进行训练。为了避免过拟合，我们利用广泛的动态数据增强，以及不同的预处理方法。为了进一步降低过拟合的风险，我们实现了标准的U-Net架构，而不是其他计算复杂度更高的变体，如U-Net的残差架构。此外，我们使用的灵敏度分析与k折交叉验证可靠的性能评估。我们的稿件组织如下：第一部分介绍了当前的挑战，我们的研究问题和相关工作的COVID-19图像分析研究。在第2节中，我们描述了我们提出的管道，包括数据集，预处理方法，提出的神经网络和评估技术。在第3节中，我们报告了实验结果，并在第4节中详细讨论了这些结果。在第5节中，我们总结了我们的论文，并对未来的工作提出了见解。该手册X包含有关我们训练模型的可用性，所有结果数据和本研究中使用的代码的1.1. 相关工作由于卷积神经网络（CNN）架构在计算机视觉方面取得了突破性进展，神经网络成为自动医学图像分析中最准确和最流行的机器学习算法之一[9，17，21]。这一领域的两个主要任务是分类和分割。医学图像分类旨在将完整图像标记为预定义的类别（例如，诊断），而医学图像分割旨在标记每个像素以识别ROI（例如，器官或医学异常）。流行的深度学习架构，其性能与人类相当，Fig. 1. 胸部CT中COVID-19感染区域的可视化。左图是未分割的CT扫描，而右图显示了肺部（蓝色）和感染（红色）的分割。感染区域可通过甘精胰岛素和肺区域的肺实变区分。从分析的CT数据集获得图像[45]。（有关此图例中颜色的解释，请读者参阅本文的Web版本D. Müller等人医学信息学解锁25（2021）1006813===Inception-v3 [22]，ResNet [23]，以及用于分类的DenseNet [24]和VB-Net [25]，U-Net [26]以及用于分割的U-Net的各种变体[10，27]。为了衡量图像分割模型的性能，重要的是选择合适的指标进行可靠的评估。特别是在医学图像分割中，图像在小但重要的ROI和大量定义为背景的剩余像素之间显示出很大的类别不平衡。理想的度量应该主要集中在ROI的正确可预测性上，其通常小于总图像的像素的5%。Taha等人[28]详细讨论了3D医学图像分割指标的行为和要求，并证明了指标行为既有优点也有缺点。缺点在于分割模式的限制性。即使ROI被正确地识别，由于医学成像中的大的类别不平衡，可能由非计算细化的注释引起的小的注释差异也可能导致剧烈的评分差异。尽管如此，使用假阴性聚焦度量的优势和必要性也在于类不平衡。由于真实的负面影响，其他常见的度量（如准确度）不适合医学图像分割。因此，科学界强烈支持基于 F 分数的度量，如 Dice 相似性系数（ 1 ），也称为 F-1 ，或Intersection-over-Union（2），也称为F-0或Jaccard指数。由于他们处理阶级不平衡的可靠能力，积极和消极的预测，这两个是计算机视觉中最广泛的所有相关的研究，后面提到的医学图像分割，使用一个或两个指标进行评估。相比之下，灵敏度（3）和特异性（4）是医学领域最流行的指标之一。所有度量都基于用于二进制分类的混淆矩阵，其中TP、FP、TN和FN分别表示真阳性率、假阳性率、真阴性率和假阴性率导致了检测病变或结节的各种形状、纹理和定位的挑战性任务。尽管如此，许多方法试图用不同的方法来解决这些问题。用于COVID-19分割的最流行的网络模型是U-Net的变体，其在足够大的2D数据集上实现了合理的性能[5，10，33为了补偿有限的数据集大小，人们更多地关注半监督学习管道[10，41，42]。这些方法优化了对标记数据的监督训练以及对未标记数据的无监督训练。另一种方法是开发特殊的神经网络架构来处理有限的数据集大小。通常，注意力机制内置于经典的U-Net架构中，如Fan等人的Inf-Net[41]或来自Qiu等人的MiniSeg [43]。Wang等人[44]利用了基于非COVID-19相关条件训练的模型的迁移学习策略。特别值得一提的是Ma等人[16，45]使用3D U-Net开发的基准模型，因为作者还通过公开可用的数据集提供了高重现性。2. 方法该管道基于MIScnn [46]，这是一个内部开发的开源框架，用于在Tensorflow/Keras [47]之上使用卷积神经网络和深度学习模型建立完整的医学图像分割管道。MIScnn支持广泛的预处理、数据增强、最先进的深度学习模型和多种评估技术。所实现的医学图像分割流水线在图1中示出。二、2.1. COVID-19胸部CT数据在这项研究中，我们使用了两个公共数据集：Ma et al. [45]有限DSC20002个TP+FP+FNIoUTP公司简介灵敏度TPTP+FNTN（一个）（二）（三）用于模型训练和验证的数据集，以及An et al. [48]作为更大的保留数据集用于额外的测试目的。The Ma et al. 数据集由20个带注释的COVID-19胸部CT体积组成[16，45]。所有病例均确诊为COVID-19感染，肺部感染比例范围为0. 01%至59%[16]。该数据集是第一批公开可用的带有注释的COVID-19感染分割的3D体积集之一[16]。CT扫描从Coronacases Initiative和Radiopaedia收集，并在CC BY-NC-SA下获得许可。每个CT体积首先由初级Annie标记。专属性=TN+FP（4）为了应对冠状病毒的快速传播，许多科学家迅速做出反应，并开发了各种基于深度学习的方法，为抗击COVID-19做出贡献此外，科学界集中精力开发COVID-19分类模型，因为可以收集感染患者的X射线和CT图像，而无需进一步注释[10，20]。这些分类算法可以通过其目标进行分类：1）将COVID-19与非COVID-19（健康）患者进行分类，Jin等人[29]的模型实现了94.1%的灵敏度，95.5%的特异性和0.979的AUC。2)将COVID-19与其他肺炎分类，导致模型的灵敏度为100.0%，特异性为85.18%，AUC为0.97阿巴斯等人[30]。3)COVID-19的严重程度评估，Tang et al.建立的模型真阳性率为91.0%，真阴性率为85.8%，准确率为89.0%[31 ]第30段。于二零二零年年中，临床医生开始发布附有注释ROI的COVID- 19CT图像，从而可训练分割模型。自动分割是COVID-19应用的高度需求[10，32]。肺部、肺叶和肺部感染的分割为随访中的进展评估、入组中严重程度的综合预测和使用感染百分比（POI）的病变分布可视化提供了准确的量化数据[10]。尽管如此，有限数量的注释成像数据tators，然后由两名具有5年经验的放射科医生进行细化，然后由具有10年以上经验的高级放射科医生验证注释[16]。尽管样本量相当小，但注释过程导致了出色的高质量数据集。体积的分辨率为 512X 512（Coronacases Initiative）或630X 630（Radiopaedia），平均切片数约为176（中位数为200）。CT图像被标记为四类：背景、左肺、右肺和COVID-19感染。The An et al. 数据集由632名COVID-19感染患者的未增强胸部CT体积组成，是最大的公开可用COVID-19 CT数据集之一[48]。CT扫描是通过爆发环境从具有症状组合、暴露于感染患者或到爆发区域旅行史的患者中收集的[48，49]。所有患者在初始CT后1天内获得的样本中均具有SARS-CoV-2阳性RT-PCR [48，49]。通过儿童国立医院、NVIDIA和美国国立卫生研究院为COVID-19-20肺部CT病变分割大挑战[ 50 ]的联合工作，数据集的注释成为可能。挑战作者能够注释一个子集，295名患者通过美国委员会认证的放射科医生[50]。通过这一特点作为一个挑战，并不是所有的卷都有公开的注释。然而，我们能够获得100例患者的子集作为额外的测试集。体积的分辨率为512X 512，平均切片数约为75（中位数为65）。CT图像被标记为两类：背景和COVID-19D. Müller等人医学信息学解锁25（2021）1006814--++-+号图二. 用于COVID-19肺部感染分割的已实现医学图像分析管道的流程图。工作流程从COVID- 19数据集开始，以交叉验证中每个折叠的计算评估结果结束感染2.2. 预处理为了简化模型的模式发现和拟合过程，我们对数据集应用了几种预处理方法我们通过将图像的像素强度值裁剪为最小值1250和最大值250来利用Hounsfield单位（HU）尺度，因为我们对感染区域（50至100HU）和肺部区域（1000至700 HU）感兴趣[51]。这是可能的，适用于冠状病毒的倡议和安等人的剪辑方法。CT，因为Radiopaedia体积已经标准化为0到255之间的灰度范围。改变图像的信号强度范围可以极大地影响拟合过程和分割模型的结果性能[52]。为了实现动态信号强度范围的一致性，建议对成像数据进行缩放和标准化。因此，我们将剩余的CT体积同样标准化为灰度范围。因此，所有样品通过z分数标准化医学成像体积通常具有不均匀的体积间距。解释不同的体元间距对于深度神经网络来说是一项具有挑战性的任务。因此，可以通过将成像数据集中的体积恢复为均匀体积间距（也称为目标间距）来大幅降低复杂性。数据集大小，我们通过使用MIScnn中的batchgenerators接口进行了广泛的数据扩充。batchgenerators包[56]是德国癌症研究中心医学图像计算部门的最先进的医学图像数据增强API。我们实现了三种类型的增强：通过镜像，弹性变形，旋转和缩放的空间增强。通过亮度、对比度和伽马变化增强色彩。通过添加高斯噪声进行噪声增强。此外，每种增强方法都有15%的随机概率应用于具有随机强度或参数（例如旋转的随机角度）的当前图像[56，57]。与传统的上采样方法不同，我们在将每个图像转发到神经网络模型之前对每个图像进行实时数据增强。创新的one-the-fly增强技术被定义为在训练过程的每次迭代中创建新颖和独特的图像，而不是预先生成一次固定数量的增强图像。通过这种技术，模型在训练过程中两次遇到完全相同图像的概率显着降低，这被证明大大降低了过拟合的风险[57]。2.4. 逐块分析在图像分析中，有三种流行的方法：ResistvoX el间距还可以直接调整体积形状的大小，确定神经网络模型能够捕获的上下文信息因此，目标间距对最终模型性能有着巨大的影响我们决定对所有CT体积进行重新采样，目标间距为1.58X 1.58X 2.70，从而得到267X 254X 104的中值体积形状2.3. 数据增强数据增强的目的是创建更多的所需模式的合理变化的数据，从而人为地增加训练图像的数量。这种技术导致模型性能和鲁棒性的改善[53为了弥补小完整图像，3D数据的切片分析或通过将体积切片为较小的长方体块的块分析[9]。我们选择了补丁的方法，以利用随机裁剪的拟合过程。通过仅将来自图像的单个裁剪块随机转发到拟合过程，诱导了另一种类型的数据增强，并且额外地降低了过拟合的风险。此外，全图像分析需要对3D体积进行不必要的分辨率降低，以处理巨大的GPU内存需求。通过将体积切片成160X 160X 80的形状，我们能够利用高分辨率数据。所有切片过程均通过手动图像矩阵切片完成。为了进行推断，根据一个网格在贴片之间，我们引入了一半贴片的重叠D. Müller等人医学信息学解锁25（2021）1006815× × × ×× ×× ×∑L=N-Tversky∑大小（80X 80X 40），以提高预测性能。在每个补丁的推理后，它们被重新组装成原始的体积形状，而重叠的区域被平均。2.5. 神经网络模型神经网络结构及其超参数是医学图像分割流水线的关键部分之一。当前用于语义分割的深度学习架构的格局适应了各种变体，这些变体以效率、鲁棒性或性能来区分。然而，U-Net是目前最流行和最有前途的架构，在性能和可变性之间的相互作用[57在这项工作中，我们将标准3D U-Net作为架构实现，而无需任何自定义修改，以避免更复杂的架构（如3D U-Net的残差变体）增加不必要的参数[26，61，62]。我们的架构的输入是一个160X 160X 80的补丁，其中单个通道由归一化的HU组成。我们架构的输出层通过softmax函数（标准化指数函数）对类别概率进行标准化，并返回160X 160X 80掩码，其中4个通道表示每个类别（背景、左肺、右肺和COVID-19感染）的概率。上采样通过转置卷积实现，下采样通过最大池化实现。该架构在最高分辨率下使用32个特征图，在最低分辨率下使用512个特征图。所有卷积都以步长为1 1 1的内核大小为3 3 3应用，除了上采样和下采样卷积以内核大小为2 2 一步两步 22.后对每个卷积块应用批量归一化。建筑结构如图所示。3.第三章。在医学图像分割中，语义注释通常包括对背景类的类分布的强烈偏见。我们的数据集揭示了89%的背景、9%的肺和1%的感染的类分布。为了补偿这种类别偏差，我们使用Tversky指数[63]和分类交叉熵的总和作为模型拟合的损失函数（5）。L总=LTversky+LCCE（5）NNLCCE=-yo，clog（po，c）（ 7）c=1我们实现了Tversky指数（6）的多类适应，这是一个非对称的相似性指数，用于测量分割区域与地面实况的重叠。它允许灵活地平衡假阳性率（FP）和假阴性率（FN）。交叉熵（7）是机器学习中常用的损失函数，计算预测分布和真实分布之间的总熵。通过每个类别c的二进制交叉熵的总和来表示针对多个类别的多类别适应（分类交叉熵），而yo，c是类别标签c是否是针对观察o的正确分类的二进制指示符。变量po，c是观测o属于c类的预测概率。对于模型拟合，使用Adam优化[64]，初始重量衰减为1 e-3。我们使用动态学习率，在训练损失在15个时期内没有减少的情况下，最小学习率设定为1 e-5。为了进一步降低过拟合的风险，我们开发了早期停止技术进行训练，其中训练过程在100个epoch之后停止而没有拟合损失减少。神经网络模型最多训练1000个epoch。我们将epoch定义为150个训练批次的迭代，而不是常见的epoch定义为数据集上的单次这允许改进随机生成的批次的拟合过程，其中数据集充当变异数据库。根据我们可用的GPU VRAM，我们选择了批量大小为2。2.6. 交叉验证敏感性分析为了可靠的鲁棒性评估，我们进行了灵敏度分析，以估计我们的管道的泛化能力和灵敏度。因此，我们对Ma等人进行了多个k倍交叉验证。基于有限的训练数据以及不同的验证子集，可以获得各种模型。作为k倍多，我们使用从2到5的范围作为灵敏度分析导致4个单独的交叉验证分析，TPcc=1TPc+α-FNc+β-FPc（六）14个模特每个模型都是通过k-1折叠的训练过程创建的，并通过每个交叉验证采样中的剩余折叠进行验证。在小型机器人上进行了训练和验证al. 数据集，而An et al. 数据集用作额外的测试集，以进一步确保稳健的评价。例如，这种技术图三. 标准3D U-Net的架构。该网络采用3D贴片（长方体），并输出肺部和COVID-19感染区域的分割。跳过连接是用级联层实现的。Conv：惊厥层; ReLU：校正线性单位层; BN：批量归一化。D. Müller等人医学信息学解锁25（2021）1006816得到以下用于5倍交叉验证的采样：16个样品作为训练数据集（Ma etal. ），4个样本作为验证数据集（Maet al. ）和100个样本作为测试数据集（An et al. ）.此外，我们分析了预处理和数据增强技术对5折交叉验证模型性能的影响。之后，我们没有根据验证结果配置任何超参数，也没有执行任何基于验证监控的训练技术，这也使我们能够利用我们的验证结果进行保持评估。2.7. 评估指标在拟合过程中，我们计算了每个时期的分割性能，随机裁剪和数据增强补丁从验证数据集。这使得能够对训练数据上的过度拟合训练完成后，我们主要使用了医学图像分析领域中广泛流行的四个评价指标对验证集和测试集进行推理性能测量：Dice相似系数、Intersection-over-Union、灵敏度和特异度。此外，我们还计算了准确度和精度，以作为该算法的量化指标。性能测量基于预测和地面实况之间的分割重叠，其通过多个放射学家的共识手动注释，如数据集部分所述。对于Ma et al. 在数据集中，在评估期间，通过平均值将两个肺类2.8. 代码再现性为了确保完全的可重复性并为进一步的研究奠定基础，该项目的完整代码，包括大量的文档，可在公共Git存储库中获得，该存储库在文章X中引用。3. 结果在2台配备24 GB VRAM的NVIDIA QUADRO RTX 6000、一台使用4个CPU和20 GB RAM花费了大约182小时。所有型号都不需要整个1000个时期用于训练，而是在平均312个时期之后提前停止。在训练之后，推断揭示了肺部和COVID-19感染区域的强大分割性能。总体而言，k折交叉验证模型实现了肺部的DSC和IoU约为0.971和0.944，以及Ma等人的COVID-19感染分割的DSC和IoU约为0.804和0.672。数据集，分别。在An等人的额外测试集上，模型实现了约0.661的DSC和约0.494的IoU，用于COVID-19感染分割。此外，模型在验证集上获得的灵敏度和特异性分别为0.778和0.999，在COVID-19感染的测试集上获得的灵敏度和特异性分别为0.580和0.999。有关推理性能的更多详细信息见表1，并在图1中显示。四、表1对于敏感性分析，计算每个k折交叉验证（表1）以及每个数据增强和预处理配置（表2）的平均评价指标。5折交叉验证显示验证集上所有评价指标的最佳性能，而4折交叉验证在测试集上更优。对于COVID-19病变分割，最佳k折交叉验证和最差交叉验证之间的Dice相似系数差异在验证时为0.093，在测试时为0.106。包含数据增强和预处理使流水线性能平均提高了0.647（肺部）和0.630（基于Dice相似系数的COVID-19病变分割），总结见表2。通过验证监测，未观察到过拟合的训练和验证损失函数显示彼此没有显著区别，这可以在图5中看到。在拟合期间，对于5倍交叉验证，性能稳定在约0.383的损失处（图5-D），其是广义DSC（所有类别的平均值）。明智的DSC）为约0.919。由于这种鲁棒的训练过程没有任何过拟合的迹象，我们得出结论，通过广泛的数据增强和来自变体数据库的随机裁剪来拟合随机生成的补丁，对于有限的成像数据是非常有效的。用于5倍交叉验证的模型性能的E-X验证，具有注释的基础事实和预测分割的4个样本在图6中可视化。我们的敏感性分析的性能评价显示，k倍交叉验证之间只有微小但显著的差异。例如，训练数据集大小仅为13个样本的3倍交叉验证在验证集和测试集上实现了准确的分割结果。有趣的是，4倍交叉验证（15个训练样本）在较大的测试集上获得了最佳的DSC和IoU，3倍交叉验证获得了最佳的灵敏度。这表明，泛化能力是模型最重要的标志之一，特别是在有限的数据集上训练时。如果医学状况的所有重要视觉特征都存在于训练集中，则少量样本就足够了通过使用广泛的图像增强和预处理技术，我们创造一个强大模型的管道。然而，如果太多的样本共享相似的形态特征而没有任何变化，则仍然存在过拟合或生成不太通用的模型4. 讨论从医学角度来看，COVID-19感染的检测是一项具有挑战性的任务，也是与肺部分割相比分割准确性较弱的原因之一。其原因是GGO和肺实变形态的多样性。与特异性相比，骰子相似性系数以及灵敏度显示出与可视化分割正确性相比更低但更可靠的性能评估。其原因是，错误的负面预测对这两个指标有很大的影响。特别是，在医学图像分割中，其中ROI与剩余图像相比相当小，一些不正确的预测像素对所得分数具有很大的影响。需要这种严格的度量标准是为了补偿大部分所获得的结果显示了Ma等人和An等人数据集敏感性分析的每个k倍交叉验证的中位Dice相似系数（DSC）、相交对联合（IoU）、肺部和COVID-19感染分割的敏感性（Sens）和特异性（Spec）。包括DSC和IoU的标准差。数据集：Maet al.数据集：An etal.肺部COVID-19病变COVID-19病变k倍CV DSC IoU传感器规格DSC IoU传感器规格DSC IoU传感器规格0.923± 0.10 0.970 0.998 0.775± 0.20 0.635± 0.19 0.747 0.999 0.555± 0.07 0.386±0.07 0.485 0.9980.966± 0.07 0.934± 0.10 0.968 0.999 0.778± 0.19 0.636± 0.18 0.730 0.999 0.598± 0.10 0.426± 0.110.5800.9990.951± 0.22 0.907± 0.29 0.948 0.999 0.711± 0.27 0.552± 0.25 0.731 0.9990.661± 0.07 0.494± 0.09 0.5610.9990.944± 0.11 0.971 0.999 0.804± 0.20 0.672± 0.19 0.778 0.9990.623± 0.04 0.453±0.04 0.513 0.998D. Müller等人医学信息学解锁25（2021）1006817见图4。显示Ma等人和An等人数据集验证和测试的Dice相似系数分布的总结。A：BoX图显示了Ma等人数据集的5倍交叉验证结果。B：BoX图和条形图显示了Ma等人的数据集。C：An等人的k折交叉验证的每个模型的BoX图测试数据集。表2分割流水线被应用了四次，包括内/外预处理和数据增强，以评估它们对模型的性能影响。实现的结果显示了5倍交叉验证的每个CV倍的肺部和COVID-19感染分割的中位Dice相似系数（DSC）和基于Ma等人的全局平均值（AVG）数据集。预处理：包括医学成像中的背景和小ROI。尽管如此，我们的医学图像分割管道允许拟合一个模型，该模型能够以最先进的精度分割COVID-19感染，与在大型数据集上训练的模型相当为了进一步了解我们的方法对所实现的性能的影响，我们通过基于交叉验证和变量数据增强以及应用的预处理配置的敏感性分析来运行和分析我们的流水线。所有其他配置以及神经网络架构保持与方法部分中描述的相同。因此，该实验产生了30个模型（14个模型来自交叉验证，范围从k倍2到5，15个模型来自三个5倍交叉验证运行，具有可变数据增强以及预处理配置）。不同运行的拟合过程表明，广泛的数据增强对于避免过度拟合和提高模型鲁棒性起着重要作用，如图5的拟合曲线所示。由此，模型在训练数据上过拟合。动态数据增强帮助模型学习更通用的模式来识别肺部和感染区域，而不仅仅是记住训练数据。相比之下，预处理方法通过简化计算机视觉任务提高了模型的整体性能。所应用的方法，如重新搜索或裁剪，导致搜索空间减少，增加了模型识别成像数据中的模式这一优势也在在所得到的性能中，这可以在表2中看到。正如预期的那样，没有数据增强和预处理的管道运行似乎是最差的模型。相比之下，预处理技术在5倍交叉验证的测试数据上表现出最高的性能提高。因此，最终的流水线构建组合了用于提高鲁棒性的数据增强和用于提高性能的预处理技术，以便优化推理质量。4.1. 与先前工作的为了进一步评估，我们将我们的管道与其他可用的基于CT扫描的COVID-19分割方法进行了比较。相关工作的信息和更多细节结构化并总结在表3中。作者（Ma等人），他还提供了我们用于分析的数据集，实施了3D U-Net方法作为基准测试的基线[16]。他们能够分别实现肺部和COVID-19感染的DSC为0.70355和0.6078。通过我们的模型，我们能够超越这个基线。值得一提的是，该基线的作者使用20%训练和80%验证的5倍交叉验证样本进行训练，而我们使用反向分布进行k倍交叉验证（k-1倍用于训练，k倍用于验证）。基于Ma等人的数据集，Wang等人。[44]收集了更多样本，扩展了数据集，并应用了3D U-Net，结果DSC为0.704。另一种方法数据扩充：EX包括预处理：EX包括数据扩充：包括预处理：EX包括数据扩充：包括预处理：包括数据扩充：包括折叠肺COVID-19肺COVID-19肺COVID-19肺COVID-1910.711 0.0310.397 0.1660.867 0.5300.907 0.55620.046 0.1860.275 0.0500.979 0.8190.977 0.80130.190 0.2410.168 0.0570.951 0.8140.952 0.82940.080 0.0050.175 0.1140.979 0.8190.979 0.85350.520 0.1940.360 0.2010.964 0.7980.967 0.765平均值 0.309 0.1310.275 0.1180.948 0.7560.956 0.761D. Müller等人医学信息学解锁25（2021）1006818图五. 该图显示了来自四个管道运行的5重交叉验证的训练（红色）和验证（青色）数据的训练过程中的损失过程，包括（“打开”）或排除（“关闭”）数据增强（Data Aug）和预处理（PreProc）技术。这些线通过高斯过程回归计算，代表每个5折交叉验证流水线运行的所有折的平均损失。最终的管道拟合曲线在右下角（D）中示出。（有关此图例中颜色的解释，请读者参阅本文的Web版本Yan等人[65]开发了一种新的神经网络架构（COVID-SegNet），专门用于有限数据的COVID-19感染分割。作者在由Brainlab Co. Ltd（德国）的10例COVID-19病例组成的有限数据集上测试了他们的架构，并能够分别实现肺部和感染的DSC为0.987和0.726。因此，COVID-SegNet以及我们的方法取得了类似的结果。这就提出了一个问题，即是否有可能通过从我们管道的标准U-Net切换到专门为COVID-19感染细分设计的架构（如COVID-SegNet）来进一步提高我们的性能。进一步的方法，目的是利用专门设计的架构，是信息网（范等人）。[41]和MiniSeg（Qiu等人）[43 ]第43段。两者都在2D CT扫描上进行了训练，并分别实现了0.764和0.773的COVID-19感染分段DSC。虽然不同的数据集被用于训练，这导致结果的不可比性，但令人印象深刻的是，它们实现了与基于3D成像数据的方法相似的性能。这些架构的3D转换和集成到我们的管道中将是一个有趣的实验，以评估改进的可能性。其他高性能2D方法（如Saood等人[37]和Pei等人[38]）难以比较，因为这些模型纯粹是在存在COVID-19的2D切片上训练和评估的[66]。4.2. 限制然而，重要的是要注意，目前研究中的大多数分割方法不适合临床使用。当前模型的偏差在于，大多数模型仅使用COVID- 19相关图像进行训练。因此，我们不能确定这些模型能有多好区分COVID-19病变和其他肺炎，或完全无关的医疗条件，如癌症。此外，与COVID-19分类相同，这些模型显示出巨大的差异，这取决于它们在哪个数据集上训练纯粹基于COVID-19扫描的分割模型通常无法在存在其他医疗条件的情况下准确分割[16]。此外，对非COVID-19引起的肺炎病变进行假阳性分割的可能性很高。这表明这些模型可能存在偏差，不适合COVID-19筛查。尽管如此，目前的感染分割模型对于确诊的COVID-19成像已经这为定量评估和疾病监测提供了在临床研究中应用的机会。尽管我们的模型和其他人的模型，有限的数据，能够准确分割，有必要讨论其鲁棒性。目前，只有少数注释的成像数据集可公开用于COVID-19分割。更多的成像数据，特别是更多的差异（不同的COVID-19状态，其他肺炎，健康对照样本等）需要为研究人员收集、注释和出版。与Ma等人类似。[16，45]，必须建立社区接受的基准数据集，以充分确保模型的鲁棒性和可比性。5. 结论即便如此，神经网络也能够提供准确的决策支持，其鲁棒性高度依赖于训练数据集的大小。各种医学状况，如罕见或新型疾病，缺乏用于模型训练的可用数据，这降低了可推广性并增加了疾病的风险。D. Müller等人医学信息学解锁25（2021）1006819见图6。来自放射科医师注释的基础事实与我们的模型（5倍交叉验证）之间的分割在来自Ma等人的不同CT扫描数据集。附录中提供了两个数据集所有样本的可视化。表3COVID-19分割的相关工作概述及所得分割性能的比较。该表根据模型架构、用于可比性的训练数据集信息（如来源、维度（Dim.））样本量以及非COVID-19切片（对照）的存在及其在验证/测试集上的性能。相关工作培训数据集验证/测试性能作者模型架构源尺寸样本量控制DSC-[5] U-Net（Standard）Amyar et al.[5] 2D 1219是0.78 150Fan等人[41] Inf-Net（Attention U-Net）Fan et al.[41] 2D 1650是0.764 50Qiu等人[43] MiniSeg（Attention U-Net）Qiu et al.[43] 2D 3558是0.773 3558Saood等人[37] U-Net（标准）SIRM [66] 2D 80否0.733 20Saood等人[

下载后可阅读完整内容，剩余1页未读，立即下载