深度学习在前列腺癌诊断中的应用及Gleason分级的研究进展

8 浏览量更新于2024-01-09 收藏 2.29MB PDF 举报

医学信息学

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁24（2021）100582前列腺癌诊断中的深度学习和组织病理学图像中的Gleason分级：一项广泛的研究Ali Hasan Md. 林肯 *，马里兰州 Mahir Labib，Tarik Hasan，Mozammal Hossain，Marium-E-Jannat计算机科学与工程系，Shahjalal科技大学（SUST），锡尔赫特，3114，孟加拉国A R T I C L EI N FO保留字：深度学习卷积神经网络计算机辅助检测医学成像前列腺癌的诊断A B S T R A C T在美国男性中，前列腺癌是任何癌症的第二大死亡原因。它也是全世界男性最常见的癌症，每年的数字相当惊人。前列腺癌的最佳预后标志是组织病理学图像上的Gleason分级系统。病理学家基于来自全载玻片图像的肿瘤结构生长模式确定苏木精和伊红（HE使用深度学习的计算机辅助检测（CAD）的最新进展为前列腺癌带来了非常高精度的自动检测和识别范围，就像其他医学诊断和诊断一样。自动化深度学习系统已经从组织病理学图像到前列腺癌的准确分级提供了有希望的结果。许多研究表明，深度学习策略可以比使用病理样本的简单系统获得更好的结果。本文旨在深入了解深度学习在检测前列腺癌和Gleason分级方面的逐步演变。本文还评估了当前状态和现有方法的全面综合概述，以及使用深度学习进行前列腺癌检测的独特见解。我们还描述了研究结果，目前的局限性和未来的研究途径。我们试图使这篇论文适用于深度学习社区，并希望它能鼓励新的合作，为前列腺癌检测和格里森分级创建专门的应用程序和改进1. 介绍前列腺癌是一种严重的世界性疾病。事实上，所有年龄段的男性都可能受到这种致命疾病的影响。日复一日，技术正在将其分支扩展到包括医疗行业在内的各个部门。最近，计算机辅助诊断（CAD）的使用已经增加，以帮助医生做出正确的决定。早期发现快速识别在前列腺癌的诊断和预后中起着至关重要的作用。生物医学成像对于有效的癌症识别和治疗至关重要。病理学家快速有效地检测活检报告中的异常是相当具有挑战性的。手动处理需要大量的时间并延迟治疗。此外，以人手处理并不符合成本效益，而且费时。深度学习可以提供更好的格里森等级，同时通过提高准确性来减少人为错误，无论位置如何。医学成像中的深度学习技术已经显示出有希望的结果。从1980年开始，计算机辅助诊断（CAD）已被用于不同的医学领域。在使用医学成像的CAD应用中，机器学习方法通常用于检测癌症。在过去的十年中，机器学习和深度学习技术有了显著的进步。此外，这种改进也有助于CAD应用。深度学习可以从图像中学习高级特征。随着深度学习方法的引入，有可能在不使用手工制作的特征的情况下实现高检测精度，因为特征可以在训练期间提取。此外，近年来，在大规模并行计算（GPU）的帮助下，深度学习技术在前列腺癌检测和格里森分级中获得了极大的普及。本文旨在介绍一些传统的深度学习技术，以及前列腺癌检测应用和Gleason分级的完整概述。简而言之，我们的论文解释了：● 深入了解不同的组织病理学图像数据集及其来源* 通讯作者。电子邮件地址：gmail.com（A.H.Md.Linkon），mdmahirlabib@gmail.com（Md.M.Labib），tarikhasan12200@gmail.com（T.Hasan），mozammalhossain@live.com（M.Hossain），jannat-cse@sust.edu（M.-E. Jannat）。https://doi.org/10.1016/j.imu.2021.100582接收日期：2021年3月23日;接收日期：2021年4月17日;接受日期：2021年4月18日2021年4月28日网上发售2352-9148/© 2021作者。出版社：Elsevier Ltd这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuA.H.Md. Linkon等人医学信息学解锁24（2021）1005822● 图像预处理、后处理和评估技术及其局限性● 分析现有的重要深度学习方法及其对区分各种前列腺癌Gleason分级● 解决前列腺癌检测和Gleason分级● E.限制和这一领域本文其余部分的组织如下。第2节介绍前列腺癌的基本概念在第3节中，我们讨论了不同的格里森分级方法。第4节描述了深度学习的不同概念。它主要是关于卷积神经网络，它作为图像处理和分析图像数据以进行分类和分割的骨干第5节讨论了世界各地研究人员常用的图像数据集第6节讨论了图像分类、分割、增强和分辨率降低所必需的预处理和后处理第7节讨论了研究人员在使用前列腺组织病理学图像时面临在第8节中，我们讨论了不同研究人员最近使用的不同深度学习模型。我们在第9节总结了我们的整个研究和未来的机会。在第10部分，我们为我们的论文画上了帷幕2. 前列腺癌的基本概念及其检测前列腺癌是美国最常见的癌症，也是男性中第二大致命癌症[1]。为了识别不同类型的前列腺肿瘤，病理学家使用不同的筛查方法。雄性激素如睾丸激素导致前列腺癌生长和存活。像所有癌症一样，前列腺癌开始于大量细胞生长失控并侵入其他组织。细胞癌变是由于其DNA中缺陷或突变的积累。异常细胞DNA的突变导致细胞比正常细胞更快地生长和分裂。当其他细胞死亡时，异常细胞继续存活。前列腺泡腺癌占诊断的前列腺癌的90-95%。导管癌和神经内分泌癌占新增病例的大多数。前列腺是男性生殖器官中的一个小的核桃状腺体，Fig. 1. 前列腺癌组织（左）与正常前列腺组织（右）箭头表示浸润淋巴细胞[115]。包围膀胱下方尿道的系统。它产生的精液可以吸收和运输精子。如图1所示，健康的前列腺组织由非腺体间质（纤维肌组织）和间质周围的腺体组成。这些不同的组织紧密融合并被关节囊包围。每个腺体单位由管腔和上皮细胞组成。前列腺癌最常见于前列腺的外周带。细胞在癌组织中的腺体内外发育，破坏了前列腺癌组织中上皮细胞的复制不受控制，破坏了腺体单位的正常排列。在高级别癌症中，上皮细胞通常替代基质和管腔。3. 格里森分级法格里森分级系统是评估前列腺癌侵袭性的最可靠方法之一[2]，于1967年开发，并于2014年更新。Gleason分级用于描述前列腺腺癌生长模式，并且它们与疾病严重程度相关。根据该系统，前列腺癌根据腺体分化模式分为它从1（预后良好）到5（预后不良）不等。深度学习技术可以为前列腺组织中癌症的自动检测做出重大贡献，并预测癌症阶段的严重程度。3.1. Gleason评分系统在20世纪60年代这项研究涉及2，900名患者进行测试[59]。在这项研究中，博士。唐纳德·格里森解释了前列腺腺癌的组织学生长模式虽然当时有几种分级系统，但这项研究对格里森分级的未来及其演变产生了重大影响。2004年，世界卫生组织（WHO）批准了格里森分级系统。它也被纳入AJCC/UICC分期系统和NCCN指南。经典的Gleason分级系统由五种组织学生长模式组成，并相应地对活检或整个载玻片图像进行分级。Gleason 1描述了最好的分化，而Gleason 5描述了最少的分化。Gleason1与预后相关性更高，对预后更有利。但Gleason 5与预后不良相关。根据经典的Gleason评分系统，如果组织细胞或腺体均匀且小，则分化良好，并归类为Gleason 1。与Gleason 1生长模式相比，Gleason 2具有更多的基质和更多的腺体之间的空间。Gleason 3对来自边缘腺体的细胞有不同的解释。Gleason 4有异常的细胞团块，腺体很少。Gleason 5有一个缺乏或不规则的腺体，它看起来像一片细胞。的格里森分级过程组成的找到和分类根据肿瘤的结构生长模式，将癌组织转化为格里森模式。在将活检报告标记为相应的Gleason评分后，将其转换为1-5级的ISUP等级[ 58 ]。Gleason分级方法是独特的，因为它完全依赖于肿瘤的结构特征。该系统侧重于细胞学外观，而不是最差的模式[75]。Gleason评分（GS）考虑了两种常见模式。该系统是前列腺癌检测的巨大预后标志物之一。ISUP分级系统在世界各地的癌症患者检测中发挥着不可或缺的作用。Gleason分级的正确性对于帮助病理学家做出正确的决定至关重要。2014年后，同质格里森分级已经发展。介绍了非均质格里森分级。在异质性分级方法中，大多数和少数生长模式来自活检。将Gleason分数相加，得到新的Gleason等级。根据ISUP等级，格里森评分3+ 3为ISUP 1级，3+ 4为ISUP 2级。A.H.Md. Linkon等人医学信息学解锁24（2021）1005823+++关于我们ISUP 2、4级三进三，四四、三5和5三是进入四年级。最后，4 5、5 4和5 5属于ISUP 5级。图2表示Gleason评分方法。3.2. Gleason评分困难GP 3补丁和GP 4补丁之间的区别是一项艰巨的任务。研究人员发现GP 3和GP 4的区别比其他格里森模式更有问题[76，77]。主要融合或小的无Lumia腺体可分为GP 3或GP 4 [77]。4. 深度学习技术4.1. CNN的核心组件CNN是一种有助于图像检测、分类和其他处理的神经网络。卷积神经网络（ConvNets或CNN）[5-8 ]也是深度前馈网络，但唯一的区别是相邻层以不同的方式连接。CNN架构堆叠了一些卷积层，池化层。对于越来越深的网络，图像会越来越小，但会提供更多的特征图。CNN架构中不同元素的目的在下面的部分中进行了简要的讨论。4.1.1. 卷积层卷积层是CNN的基本构建块。卷积层有许多内核。每个神经元都充当一个内核。不同种类的内核/滤波器可以对图像执行操作，例如边缘检测，模糊和通过应用卷积锐化。在卷积核中，图像被分割成小块，并从每个小块中提取特征。内核使用一组特定的权重与图像进行通信，方法是将图像的元素乘以接收区域的相应元素[ 10 ]。此外，卷积可以根据步幅，滤波器，填充[11]分为各种形式。4.1.2. 池化层池化层的目的是在图像太大时减少参数的数量，并限制过拟合风险。它还最大限度地减少了计算负荷，内存使用。空间池通常被称为作为子采样或下采样。每张地图的尺寸都被缩小了，但基本细节被保留了下来。CNN使用不同的池化公式，包括最大池化、总和池化、平均池化、L2范数池化、重叠、空间金字塔池化等。[124.1.3. 激活函数在神经网络的最后或在神经网络中，激活函数或层是一个节点，它是学习复杂模式的决定函数。选择有效的激活函数可以加速学习过程。近几十年来，Sigmoid和TanH函数已被用作激活函数。ReLU是目前世界上最常用的激活函数，几乎用于所有CNN架构。ReLU和修改后的版本有助于解决消失梯度问题[15，16]。ReLU的激活函数具有显著的计算效率，因为所有神经元不会同时激活。ReLU在实践中的收敛速度比TanH和Sigmoid快6倍4.1.4. 批次归一化批量归一化通过移动隐藏值（协方差移位）来增加单位值的数量，从而帮助调整深度学习过程。此外，批量规范化使得更容易从每个网络层独立地学习。一个层的特征在批归一化中独立地归一化，均值为零，方差为一[ 17，18 ]。4.1.5. 辍学Dropout是Hinton [19]提出的一种正则化技术，它在训练过程中忽略随机选择的神经元。Dropout可以学习更复杂的特征，而approX iPhone5可以使收敛所需的迭代次数加倍。4.1.6. 全连接层CNN中的全连接（FC）层利用高级图二. Chen等人论文中的Gleason评分[59]。A.H.Md. Linkon等人医学信息学解锁24（2021）1005824××××卷积或池化层的特征。全连接层基于数据集将输入图像分类为各个组[21]。在全连接层中，softmax主要用作分类的激活函数，网络模型中包含的层数没有严格控制。4.1.7. 反池化层在池化操作期间，创建一个矩阵X，记录最大值的位置，而unpool操作将在原始位置插入池化的值，其余元素设置为零。Unpooling通过追踪具有强激活的原始位置回到图像空间来捕获特定于示例的结构。因此，它有效地重建了详细的结构。4.2. 训练方法4.2.1. 迁移学习迁移学习[22，23]是一种机器学习方法，其中预训练模型重用新问题。它不仅会大大加快训练速度，而且需要的训练数据也会大大减少。当神经网络处理新领域的有限数据时，迁移学习是一个强大的工具，并且可以将大量预先存在的数据池转移到任务中。标记的数据集在医学成像中受到限制。迁移学习是管理最小医疗数据的完美选择。迁移学习策略可以分为两个独立的部分。它们是：使用预训练模型作为特征提取器：这种技术使用预训练模型（如ImageNet）作为特征提取器来处理卷积神经网络。这将删除最后一个完全连接的层（分类器层），然后将剩余的层视为新任务。这种方法只训练一个新的分类器，而不是整个网络，这大大加快了训练速度。微调：另一种策略是微调技术。微调技术去除了最后一层。它还选择性地抑制了几个神经层。该过程通过反向传播完成。所有CNN层都可以微调。4.2.2. 端到端学习大多数深度学习系统都有几个实现阶段。然而，深度学习系统将所有这些阶段集成到一个神经网络中。这是一种深度学习方法论，所有参数在一起。参数是在这个过程中一起学习的，而不是一步一步地学习的。端到端学习过程和深度学习过程之间的唯一区别是，端到端学习过程必须联合（同时）收集所有参数，而深度学习过程可以联合或逐步收集参数。因此，每个端到端的学习过程都是一个深度学习过程，但不是每个深度学习过程都是端到端的学习过程。4.2.3. 多任务学习多任务学习（MTL）是机器学习的一个子领域，其中同时解决多个学习任务，同时利用任务之间的共性和差异。与单独训练模型相比，这可以提高任务特定模型的学习效率和预测准确性[87]。根据Rich Caruana等人的说法。[87]，MTL通过利用相关任务的训练信号中包含的特定领域信息来提高泛化能力。它通过在使用共享表示的同时并行训练任务来实现这一点。实际上，额外任务的训练信号起到了诱导偏差的作用。MTL网络使用一个共享的隐藏层，在所有任务上并行训练;每个任务的学习可以帮助其他任务更好地学习。4.3. CNN架构4.3.1. AlexNetAlexNet [25]和LeNet [24]具有非常相似的架构。然而，AlexNet更深入，具有更多的卷积层和每层更多的过滤器。AlexNet有8层，5个卷积层和3个完全连接层。为了增加非线性，ReLU在每个卷积层和全连接层之后实现，而不是TanH。AlexNet还使用dropout而不是正则化来处理过拟合。它还包括数据增强，具有动量的SGD。Oscar等人[49]使用AlexNet优化他们的算法。4.3.2. VGG-16Simonyan等人[28]发明了VGG-16，它有三个全连接和13个卷积层，通过AlexNet继承了ReLU传统。VGG-19是VGG-16的更深入版本。Wang等人将VGG-16与图形卷积网络（GCN）一起使用。4.3.3. GoogleNet（Inception-v1）GoogleNet，也称为Inception-v1 [26]。该体系结构由图像失真、RMSprop和批量归一化组成。在添加另一层之前，网络具有11卷积层，通常用于最小化维度。此外，在网络端使用全局平均池化，而不是完全连接的层。Oscar等人[49]使用GoogleNet从带注释的数据集中获得特征图4.3.4. inception-V3Inception-v3是Google的Inception CNN的第三个版本。InceptionNet-v3引入了几个新的程序，如RMSProp Optimizer，Factorized 7 7卷积，AUXILLARY分类器中的BatchNorm和标签平滑。因式分解卷积减少了参数的数量，而不会降低网络效率。标签平滑可防止过度拟合。Lucas等人[52]使用Inception-v3作为基础架构，而Egevad等人[64]将其用于迁移学习。4.3.5. ResNetResNet [29]是批处理规范化的先驱之一。ResNet引入了第一个跳过连接的概念，允许模型学习恒等函数。Identity函数确保较高层的性能至少与较低层一样好，而不是更差。ResNet可以设计更深的CNN（高达152层），而不会影响模型的泛化能力。Kwak等人。[68]使用ResNet进行特征提取。4.3.6. UNetUNet [30]于2015年首次设计和实施，用于处理生物医学图像。这个架构由三个部分组成：收缩、瓶颈和扩展。在收缩部分中有几个收缩块，每个收缩块使用两个3 3卷积层，然后是2 2最大池化来获取输入。UNet使用相同的特征图将向量扩展到收缩的分割图像。类似编码器的收缩路径用于通过紧凑的特征映射来捕获上下文。瓶颈层在收缩层和膨胀层之间起作用。扩展层就像一个解码器，可以进行精确的定位。许多研究人员将UNet或UNet的修改用于核分割任务[58，654.3.7. MobileNetMobileNet [32]是一个轻量级但健壮的架构来提取特征。它具有较小的神经网络、低延迟、低计算成本和高精度。该架构具有可分离的卷积。点态卷积遵循依赖可分卷积。 Arvaniti 等人。 [48] 使用MobileNet模型从图像中提取特征。A.H.Md. Linkon等人医学信息学解锁24（2021）10058254.3.8. 图卷积网络（GCN）GCN [33]是一种引人注目的神经网络架构，用于图上的机器学习。随机初始化的2层GCN可以产生重要的特征表示，并在网络中利用其结构信息。GCN借鉴了CNN的概念，为图域重新定义了它们。CNN和GCN之间的显著区别在于CNN是专门构建来对规则（欧几里德）结构数据进行操作的，而GCN是CNN的广义版本，其中节点连接的数量变化，并且节点是无序的。Wang等人。[73]使用图卷积网络提出了组织微阵列（TMA）中的弱监督格里森分级方法。5. 数据集分析5.1. PANDA挑战：使用Gleason分级系统进行前列腺癌分级评估[34]PANDA挑战是最大的公共全载玻片图像数据集，大约是CAMELYON挑战的八倍[35]。Radboud大学医学中心的计算病理学小组（CPG）和卡罗林斯卡医学院的医学流行病学和生物统计学系（MEB）开发了这个庞大的数据集。训练集由数字化HE染色活检的约11，000张全载玻片图像组成&。2012年至2017年期间有病理学家报告的患者有资格入选。以20倍放大率扫描所有载玻片，并转换为TIFF格式。公共和私人测试集也总共有800张完整的幻灯片图像。单个病例对应于单个活检（组织标本）。多个病例可以对应于同一患者，但是来自测试集的患者独立于训练集的患者。训练集包含标签噪声。这种标签噪声的引入有几个原因，包括不确定的病理学家报告、注释错误、原始诊断错误、病理学家之间的分歧。对于Radboudumc数据和Karolinska数据，每个测试集由三名泌尿病理学亚专业的病理学家独立分级。由于GLEASON评分的主观性，仍可能存在一些错误。（见图） 3）为熊猫挑战的样本图像。5.2. GLEASON 2019挑战赛[36]GLEASON 2019挑战数据集是Glea-son 2019挑战的另一个数据集，是MICCAI 2019病理学大挑战的一部分。该数据集由一组组织微阵列（TMA）图像组成。训练集包含244个前列腺组织微阵列（TMA）图像，测试集包含87个前列腺组织微阵列（TMA）图像。这些TMA图像是从温哥华前列腺中心收集的。每个TMA图像都由几位专家病理学家详细注释，级别为良性、Gleason 3级、Gleason 4级和Gleason 5级。(See图4）为格里森2019挑战赛的样本图像。图三. Panda Challenge见图4。 Gleason 2019挑战赛的样本图片。5.3. TCGA数据集中癌症基因组图谱计划是地球上领先和最大的数据库之一。TCGA收集并生成了大量数据，包括基于基因组、表观基因组、转录组和蛋白质组数据的不同类型癌症的2.5 PB数据。在不同的时间收集了不同的前列腺癌数据集5.3.1. TCGA-PRAD [38，80]TCGA前列腺癌数据集包含500例病例的数据。本数据集包含属于本研究的临床数据。共有490名患者。500例均行生物学检查。用于TCGA的组织从全球多个地点获得，以满足其累积目标，通常每种癌症类型约500份标本。因此，在扫描仪模态、制造和处理协议方面的图像数据集通常是高度异构的。5.4. PESO数据集[86]PESO数据集由102张全切片图像组成，分为2006年至2011年期间在Radboud大学医学中心（Radboudumc）不同时间收集的训练和测试部分（IRB编号2016-2275）。训练数据集包含62个WSI，62个原始颜色去卷积掩模，25个颜色去卷积掩模和62个训练掩模。测试集包括40个WSI、40个包含160个注释的XML文件、对应于一个测试区域的160个png文件、同一测试区域的一个填充png文件以及描述测试区域是否包含癌症或仅包含良性组织的映射CSV文件。(See 表1）6. 历史学图像的前处理和后处理方法历史学图像是相当大的，并且具有复杂的结构。因此，它们对机器学习算法具有挑战性。由于这些高分辨率图像包含有关图像纹理的大量信息，因此它们为几乎所有类型的癌症提供了最成功的诊断[92]。历史学图像处理是一种执行图像处理操作以获得增强图像或提取一些有用信息的方法。不同的图像处理技术可用于分析这些图像，用于疾病诊断和预后。组织病理学图像处理中使用的一些技术包括：预处理、后处理、分割、采样、特征提取、分类、选择等（表2）许多研究人员使用不同的处理算法进行了成功的研究。根据该研究[94]，Aureon Biosciences Corporation开发了一种专有的图像分析系统A.H.Md. Linkon等人医学信息学解锁24（2021）1005826表1数据集摘要前列腺癌分级采用Gleason分级。系统[34]值为未知基质（结缔组织、非上皮组织）、基质和上皮组合、良性上皮、癌性上皮（Gleason评分3、4、5）。集：±400例（专家评分）私人测试集：±400例（专家评分）TCGA-PRAD通过显微镜检查肿瘤形态收集的肿瘤切除术的全载玻片图像共收集480例患者的771张组织切片开放访问https://wiki.cancerimagingarchive.net/display/Public/www.example.comGLEASON 2019挑战前列腺组织微阵列（TMA）图像温哥华前列腺中心（Vancouver Prostate Center）每个TMA图像都由几位专家病理学家详细注释，级别为良性，Gleason 3级，Gleason 4级和Gleason5级PESO数据集PESO数据集由102张全切片图像组成。在所有组织块中，24%包含2级区域，69%包含3级区域，63%包含4级区域，33%为5级。训练集包含244个前列腺组织微阵列（TMA）图像，测试集包含87个前列腺组织微阵列（TMA）图像训练集包含62个WSI，62个原始颜色去卷积掩码，25个颜色去卷积掩码，62个训练掩码。测试集包含40个WSI 40XML，其中包含160个注释、160个png、160个填充png和一个映射文件开放访问https://gleason2019.grand-challenge.org/Register/开放访问https：//zenodo.org/record/1485967#.YEuMn-0zaV4表2组织病理学图像分析概述 [93].从原始图像（见图）。 5）。直方图均衡化[98]是另一种用于增强图像的图像增强技术然而，在欺诈的情况处理和分割• 彩色照明标准化• 平滑• 去噪• 阈值化• 基于边缘• 活动轮廓具有EX抓地力，选择• 形态计量• 颜色• 纹理• 基于强度• 形态• 线性、非线性特征约简疾病检测，分类和后处理• 监督• 无监督• 神经网络• k-最近邻域• 模糊系统• 形态功能相信增强图像，它没有工作[95]。使用WSI的主要问题是处理极高分辨率的图像和大面积的空白区域。此外，这些图像由大的空白区域组成，导致GPU内存和GPU时间的低效使用。因此，有效地定位关注区域并放大它们将是实现更好性能的关键。这个问题可以很容易地解决使用平铺方法[99]和级联瓦片池化方法[100]（见图。 6）。颜色归一化已成为图像预处理中必不可少的步骤·集群（MAGIC™），其被设计为拍摄前列腺组织的单个HE染色图像并提取若干原始测量值（光谱、形状等）。以及它们之间的空间关联6.1. 预处理高分辨率组织病理学图像的分析是非常耗时的。同时，背景的复杂性和干扰因素会降低处理速度。图像预处理算法有助于防止这种不必要的情况.获得适当特征的能力取决于它。因此，必须指定图像处理算法作为第一项工作的适当条件。图像处理算法受到噪声和各种照明波动的不利影响如果这些消极因素被消除，成功就会增加。在组织病理学图像的预处理中，常用的技术有图像增强、降噪、锐化、平铺、归一化、分辨率降低、染色归一化、感兴趣区域检测、形态学运算等。预处理方法调节图像中的亮度和对比度变化并抑制噪声。这为对亮度和对比度波动非常敏感的分类算法提供了操作的便利性近年来，已经提出了几种预处理方法来减少手动制备载玻片所引起的伪影让我们谈谈一些预处理技术。图像增强是一种有效的特征萃取对于WSI，可以通过使用不同的OpenCV函数（如用于此目的的addWeighted [95]）来反锐化掩蔽[96，97]也增强了高频细节，这可以使用高斯滤波器并减去它来实现因为染色过程在训练图像和测试图像之间显著不同。研究人员使用颜色归一化来逆转由于医院间的染色和扫描变化而导致的组织图像意外改善的影响。然而，根据研究[65]，最好使用源图像而不是颜色归一化图像（见图1）。7）。如前所述，染色组织样本的颜色归一化是全切片图片（WSI）分析中最关键的预处理算法之一[101]。尽管有标准化的染色方案，但由于抗原浓度、孵育时间和温度、载玻片扫描仪条件等的差异，染色结果可能会发生变化[102]。CAD结构的效率和准确性可能受到这种颜色/强度差异的影响。染色归一化方法旨在通过生成各种菌株一致外观的照片来辅助CAD方案[103，104]。研究人员使用不同类型的方法来构建高性能的染色归一化系统。在这篇论文中，他们使用了Macenko图五. 前（左）和后（右）反锐化掩模的结果[97]。名称图像数据数据集大小无障碍数据集链接PANDA挑战：前列腺被单独标记。有效训练集：± 11，000例公开测试开放获取http://tiny.cc/w4foszA.H.Md. Linkon等人医学信息学解锁24（2021）1005827见图6。平铺法[99]。在大多数情况下，深度学习算法用于整个活检或WSI。然而，将CNN集成到WSI中存在某些限制。首先，由于需要详细的图像下采样，可能会丢失区分数据。其次，CNN可能只从图像中的许多判别模式中的一个学习，这将导致数据效率低下[107]。组织学图像中的区分信息被编码在高分辨率的补丁中;因此，诀窍是在高分辨率补丁上训练网络，然后基于补丁级预测来预测整个WSI标签。这些模型使用深度学习技术直接从数据中学习。最重要的是选择图像的代表性块，见图7。颜色归一化可视化，（a）原始图像，（b）归一化图像。(For对本图中颜色图例的解释，读者可参考本文的网络版方法[106]。另一种用于最小化处理时间的预处理策略是感兴趣区域（ROI）检测[108]。在一些框架中，ROI检测和降噪通常同时执行例如，用于组织级特征计算的预处理阶段通过去除具有很少内容和噪声的区域来选择ROI [109]。降噪伴随着ROI检测，以评估用于核水平函数计算的核区域[110]。[ 107 ]第107话：见8和9）。细胞核分割是另一个重要的预处理任务，因为疾病的许多特征，特别是癌症，都在细胞核中表达[111]。事实上，大多数细胞学和组织病理学分析都是基于细胞核的特征。另一方面，细胞核分割是一项复杂的任务：不同的组织类型、染色变化和细胞类型都表现出不同的视觉特征，这使得开发在所有这些情况下表现良好的传统图像分割算法具有挑战性[112]。有许多方法可以通过其对组织病理学图像进行预处理。根据参考文档[81]，我们可以说每一种预处理方法都对CNN有影响。使用相同图8.第八条。深度学习框架中的染色归一化策略[107]。A.H.Md. Linkon等人医学信息学解锁24（2021）1005828+见图9。深度学习框架中的补丁选择技术[107]。针对三种不同预处理方法的组织病理学图像，研究[81]显示了不同预处理方法对卷积神经网络的影响6.2. 后处理研究人员使用不同的后处理技术来进一步改进组织病理学图像分析。在后处理组织病理学图像中，诸如主动轮廓区分、彩色照明、图像压缩、图像缩放、缩放、增强等技术，通常使用。通常，后处理方法用于分类、检测和分割任务。正如我们在参考文献[107]中所看到的，在使用不同的后处理方法后，准确性和性能显著提高。例如，在使用CNN多数投票后，Gleason分级分类的准确性提高了89.2%[113]。通过使用带有尺度嵌入的ResNet，癌症检测的准确率提高了95.3%。与单个网络相比，精度提高了1.9%[114]（见图10）。 10）。语义分割是众所周知的计算机视觉问题，它在医学成像研究中尤其相关[65]。为了避免这个问题，算法提及见参考文件 [65]需求一些复杂后处理方法。不同的后处理技术，如形态学操作也被用来去除伪影[67]。根据研究[67]，我们可以在表3中看到后处理方法的效果。从未来的角度来看，后处理方法将非常有影响力。根据一项研究[52]，尽管基于块的分类可以被认为是准确的，但分类结果可以通过引入广泛的后处理来改善。6.3. 组织病理学图像组织学是对活检或手术标本进行显微镜检查，这些标本已获得并固定在载玻片上，表3[67]中使用的不同方法的分割性能比较不同方法精度召回F1分数使用CNN进行分割，无需后处理0.88230.82350.8453使用CNN和后处理进行0.89210.81230.8460见图10。CNN+投票：对于每个分类的补丁，应用“投票”程序来确定整个图像的最终类别。CNN+融合：集成决策模型来聚合每个补丁的分类并获得整个图像的标签[ 107 ]。A.H.Md. Linkon等人医学信息学解锁24（2021）1005829检查疾病症状。用一种或多种染色剂对这些碎片进行染色，以在显微镜下观察各种组织成分。染色用于突出组织的基本特征以及增强组织对比度。染色旨在暴露细胞成分;复染提供对比，因为它允许在显微镜下识别细胞计数和结构中的缺陷。从染料和金属到标记抗体，组织学使用广泛的染色剂。异染症是一种疾病，其中某些染色剂导致细胞和组织从色素复合物的原始颜色显着改变颜色。通常，石蜡包埋的组织碎片用于染色。它们在用像二甲苯这样的清洁剂清洁（透明）后被再水化和染色。然而，有几种染色技术用于组织病理学图像处理。苏木精和伊红（&HE）染色图。 11是最常用的组织病理学染色过程。病理学家使用苏木精-伊红（HE）染色已经有一百多年的历史.它为病理学家/研究人员提供了非常详细的组织视图。它通过清楚地染色细胞结构来实现这一点，包括细胞质，细胞核和细胞器以及细胞外成分。两种染料，苏木精和伊红，用于H E染色。苏木精的反应就像一种带有紫蓝色的碱性染料。它染色酸性，曙红是一种酸性染料，通常是红色或粉红色。[84]第84话PAS染色：过碘酸-希夫是一种特殊的组织学染色剂，用于标记碳水化合物（糖原、糖蛋白、蛋白聚糖）图12。PAS通常用于糖原沉积的肝组织，这是为了区分不同类型的糖原储存疾病[84]。抗酸染色：抗酸染色是一种鉴别染色，用于区分抗酸菌种，如分枝杆菌代表。蜡状、几乎不可渗透的细胞壁是抗酸器官的特征;它们产生大量的脂肪酸、蜡和复合脂质以及分枝菌酸。抗酸染色是结核分枝杆菌的一个例子（见图1）。 13）。Van Gieson：Van Gieson染色剂是一种常见的染色剂，用于将胶原蛋白与其他结缔组织（如肌肉组织）分离。这是一个经常用来描述不同类型肿瘤中纤维结构的术语。染色剂以苦味酸和酸性品红的混合物形式渗透组织样本，导致胶原蛋白变红。肌肉组织和血细胞在该地区已被涂成黄色（见图。 14）。Gomori Trichrome：Gomori Trichrome（蓝色）（粘膜下层）。三铬染色剂用于染色和识别肌肉纤维、胶原蛋白和细胞核。它们可用于对比骨骼肌、心肌或平滑肌[116]（见图） 15）。7. 前列腺癌图像分析的特定问题基于深度学习的前列腺癌检测和Gleason分级的研究与日俱增。全世界的研究人员都在努力检测前列腺癌并改进格里森分级方法。然而，各种缺点仍然存在。研究人员必须处理这些限制并改进系统。见图11。前列腺H E染色[84]。见图12。高图十三. 使用Ziehl-Neelsen染色的结核分枝杆菌可视化图14. 范吉森染色[117]。图十五岁 Gomori三色（蓝色）（粘膜下层）[116]。• 有限的数据集和隐私问题由于隐私问题，关于前列腺癌的数据集有限。为了保证数据的真实性，必须由多位专家对所有图像进行标注。数据短缺使训练复杂化，并可能导致过度拟合。A.H.Md. Linkon等人医学信息学解锁24（2021）10058210• 千兆像素图像大小前列腺组织显微镜下全切片图像以gigapiX el表示。当我们的输入图像因此，训练和检测如此大尺寸的图像是困难的通过将整幅图像分割成几个图像块，我们可以得到一个更好的解决方案。然而，确定一个完美的补丁大小是一个非常复杂的任务。各种图像/序列显示前列腺癌各种完整的载玻片图像显示前列腺癌的各个方面，需要适当的方式来组合独立的信息。T2加权序列适合于描述分区pro-tate解剖。它可用于深入检查前列腺窝和精囊[41]。表观扩散系数（ADC）与前列腺癌Gleason评分呈负相关[40]。• 迁移学习迁移学习方法可以用来解决数据集缺乏的问题。初始问题和目标问题缺乏相似性，迁移学习会导致负迁移。传统的迁移学习模型单独考虑每个图像，而不交换类别内相关性的细节。它是很难删除层的信心，以减少参数的数量，因为它的性质，它发现低级别的功能。密集连接的层和深度卷积层可能是减少的好点，但很难看出要减少多少层和神经元以避免过拟合[43]。• 观察者间差异观察者间差异是两个或多个观察者研究同一事物所获得的结果之间的差异。当两名或多名病理学家观察活检并提出不同的选择时，观察者内的PCa诊断发生变化。研究人员的问题之一误解可能会影响系统的再现性。计算机辅助系统或人工智能帮助我们更快地确定格里森分数，让我们轻松做出决定。不同的放大率导致不同的信息水平在细胞结构和腺体结构这两种类型的信息之间，细胞结构在高倍视野（HPF）显微图像中清晰地可视化，而腺体结构在低倍视野（LPF）显微图像中清晰地可视化。癌组织包括细胞和结构两个方面，因此，在多个放大倍数的图像是研究工作必不可少的。有时同时输入低放大率和高放大率图像来建模可以提供更好的准确性。• 颜色变化和伪影病理标本切片后放置于含苏木精和伊红的载玻片上时，会产生组织变形、起皱、灰尘混入等不良影响。由于这些伪影可能会改变实际输出，因此引入了一些算法，如模糊[90]和组织折叠[91]根据Daisuke Komura等人[88]，颜色变化是另一个严重的伪影。这种变化是由于不同的染色试剂制造商、染色条件、组织切片厚度、扫描仪型号等造成的。考虑颜色变化可以帮助我们获得更好的准确性。为此，我们需要每个染色组织的足够数据每一个扫描仪。• 正偏压和ROI对齐层Wenyuan等人[44]注意到5倍验证不是患者验证，因为他们没有患者水平的信息。这可能会导致

下载后可阅读完整内容，剩余1页未读，立即下载