生物医学图像分割的机器学习技术综述：应用与挑战

91 浏览量更新于2024-02-03 收藏 1.66MB PDF 举报

机器学习技术

算法模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于生物医学图像分割的机器学习技术：技术方面概述和最新应用Hyunseok Seo1，Masoud Badiei Khuzani1，Varun Vasudevan2，Charles Huang3，Hongyi Ren1，Ruoxiu Xiao1，Xiao Jia1，and LeiXing1 ** 通讯作者：lei@stanford.edu电话：+1 650<$498 <$7896，传真：+1 650 <$498 <$40151. 斯坦福大学医学院放射肿瘤学系医学物理学部，斯坦福，加利福尼亚州，94305，美国2. 斯坦福大学工程学院计算与数学工程研究所，斯坦福，CA，94305，美国3. 斯坦福大学工程与医学学院生物工程系，斯坦福，加利福尼亚州，94305，美国本文被邀请到2020年的特别问题。Phys. 致力于总字数：9313表总数：3，图总数：142摘要近年来，在开发用于医学和自然图像分割的更准确和更有效的机器学习算法方面取得了重大进展。在这篇综述文章中，我们强调了机器学习算法在医学成像领域实现高效准确分割方面的重要作用。我们特别关注与机器学习方法在生物医学图像分割中的应用有关的几项关键研究。我们回顾了经典的机器学习算法，如马尔可夫随机场，k均值聚类，随机森林等，虽然这些经典的学习模型通常不如深度学习技术准确，但它们通常更有效，结构更简单。我们还回顾了不同的深度学习架构，如人工神经网络（ANN），卷积神经网络（CNN）和递归神经网络（RNN），并介绍了过去三年中发表的这些学习模型所获得的分割结果。我们强调了每种机器学习范式的成功和局限性。此外，我们还讨论了与不同机器学习模型的训练相关的几个挑战，并提出了一些解决这些挑战的方法。1. 介绍分割是根据提取的特征将图像聚类成若干相干子区域的过程，例如，颜色或纹理属性，并将每个子区域分类到预定类别之一中。分割也可以被视为图像压缩的一种形式，这是从图像中推断知识的关键步骤，因此在精确医学中具有广泛的应用，用于基于具有不同模态的放射图像（如磁共振成像（MRI），计算机断层扫描（CT）或结肠镜检查图像）开发计算机辅助诊断。一般来说，分割技术分为两类（即，受监督的和不受监督的）。在无监督分割范例中，仅利用图像的结构。特别是，无监督分割技术依赖于图像的强度或梯度分析，通过各种策略，如阈值，图形切割，边缘检测和变形，描绘图像中的目标对象的边界。当边界定义明确时，这种方法表现良好。然而，基于梯度的分割技术容易出现图像噪声和伪影，导致器官/组织边界缺失或扩散。基于图的模型（如马尔可夫随机场）是另一类无监督分割技术，对噪声具有鲁棒性并在一定程度上缓解了这些问题，但由于采用迭代方案来增强多个步骤中的分割结果，因此通常具有较高的计算成本。相比之下，监督分割方法通过训练样本1结合了关于图像处理任务的先验知识。基于图谱的分割方法是监督模型的一个例子，在20世纪90年代引起了广泛关注2，3。这些类型的方法，如概率地图集和统计形状模型，可以很好地捕捉器官的形状，并生成比无监督模型更准确的结果。支持向量机（SVM），随机森林（RF）和k-最近邻聚类也是在过去十年中被严格研究的监督分割技术。然而，这种方法在描绘放射图像中器官的模糊边界方面的成功是有限的。3近年来，在机器学习的监督框架内获得更准确的分割结果方面取得了重大进展。特别是，深度卷积神经网络（CNN）已经实现了自然图像语义分割的最新性能;参见，例如。、4、5。这一成功在很大程度上归功于深度学习网络实现的从手动到自动特征提取的范式转变，以及计算能力的显著提高。这种自动特征提取是由大量的训练数据指导的。Litjens等人对将深度学习应用于医学图像分析的研究趋势进行了很好的组织。6这表明，自2015年以来，深度学习研究急剧增加。Litjens等人的开创性论文6为医学图像分析提供了广泛的深度学习技术。特别是，作者总结了用于各种临床任务的深度学习方法，如图像分类，对象检测，疾病量化和分割等。相比之下，本文的范围更广，因为我们回顾了广泛的机器学习技术，包括深度学习（例如，，见7 - 12），核支持向量机，马尔可夫随机场，随机森林等，然而，我们认为这种机器学习技术的应用，医学图像分割只，并提出在这种情况下的评估结果。本文的其余部分组织如下。在第二节中，我们回顾了经典的机器学习技术，如核支持向量机（SVM），随机森林，马尔可夫随机场，并介绍了它们在医学图像分割中的应用。在第3节中，我们介绍了基于机器学习范式之外的更传统方法的分割方法。在第4节中，我们回顾了深度学习方法的种类，并介绍了过去三年中发表的不同深度学习架构在医学图像分割中在第5节中，我们讨论了当前机器学习模型在医疗应用中的局限性，并提出了规避这些局限性的有用策略。2. 经典机器学习方法2.1. 经典机器学习2.1.1. 核支持向量机SVM是一种有监督的机器学习技术，通过将新的样本分配给一个类或另一个类来制作非概率二元分类器。更具体地说，核支持向量机（SVM）是一种非线性分类器，其中表示是从预先指定的过滤器构建的。这与深度学习范式相反，在深度学习范式中，良好的表示是从数据中学习的。因此，核SVM是样本有效的学习方法，更适合于具有小训练样本大小的医学成像应用。此外，核SVM的训练阶段只涉及调整SVM分类器的超参数，这可以快速有效地进行。与深度学习模型相反，核SVM是一种透明的学习模型，其理论基础是广泛的统计机器学习42图1.基于核支持向量机的分割网络的架构，使用滤波器组结合核特征选择来生成语义表示。随机特征图101、102、D捕捉非线性关系在表示和类标签之间。文献;参见13和其中的参考文献，以了解理论结果。图1描绘了基于核SVM的分割网络的结构。该网络由四个部分组成：• 特征提取：核SVM中的特征提取通常使用具有一组预先指定的滤波器的滤波器组来执行这样的滤波器组可以从输入数据生成不同的表示。此外，由于滤波器不是从数据中学习的，因此需要基于底层分类任务来设计滤波器组。• 特征选择：与深度学习不同，在深度学习中，特征是由训练数据学习和指导的此外，可能存在冗余特征，这些冗余特征增加了特征空间中特征向量的维度并导致过拟合。特征选择算法是从冗余或噪声特征中提取好特征的机制特征选择算法可以是有监督的或无监督的。监督特征选择方法的一些示例是核特征选择14、Relief15和广义Fisher得分16。在17中还提出了使用自动编码器的无监督特征选择。• 随机特征映射：核SVM的核心是一个核函数，它捕捉统计机器学习算法中输入数据和标签的表示之间的非线性关系。形式上，内核函数定义如下：设n是一个非空集合。则函数k：称为上的核函数，如果存在存在一个希尔伯特空间和一张地图g：使得对于所有的x1，x2≠0，我们有k（x1，x2）g（x1），g（x2），[2.1]哪里你好，是希尔伯特空间的内积。关于再生核的一些例子文件是：（事实上，所有这些都是放射状的），(1) 高斯核：高斯核由yk（x，y）exp（xy/）给出。.2 25ND联系我(2) 多项式核：多项式核定义为k<$（x，y）<$（x，y核称为齐次核，当d≥ 1时，称为线性核。 c）d.当c= 0时，(3) 拉普拉斯核：拉普拉斯核类似于高斯核，除了它对b和d宽度参数不太敏感。在局部条件下，k∈（x，y）∈xp（∈x ∈y∈/）。核方法避开了在线性学习算法中学习非线性函数或决策边界相反，核方法只依赖于特征空间中特征映射的内积，这在机器学习文献中通常被称为然而，对于大规模分类问题，内核技巧提供的隐式提升带来了高昂的计算和内存复杂性成本，因为内核Gram矩阵必须通过评估所有数据点对的内核函数来生成。因此，大的训练集会导致大的计算和存储成本。为了缓解这个问题，Rahimi和Recht提出了随机傅立叶特征，旨在通过显式随机特征映射来近似移位不变核k<$（x，y）k<$（x<$y）的低维嵌入18，19。特别地，让：是显式特征图，其中是支持随机特征集。然后，内核k（xy）具有以下内容：k（x，y）（x，）（y，）（d）E[[2.2][2.3]其中，P（n）是概率测度，P（n）是具有支持集- 是的在Rahimi和Rechet18提出的随机傅立叶特征的标准框架中，（x，2cos（x，b），其中b~Uni[0，2]，且（）。在这种情况下，根据Bochner定理20，实际上是平移不变核k<$（x，y）的傅立叶变换。为了训练的目的，在Eq.3.2使用Monte Carlo抽样方法进行近似特别是，让年， ~i.i.d.成为身份证。样品然后，核函数k（x，y）可以近似的样本平均值的期望在方程。3.3.具体而言，以下逐点估计已在18中显示：1个D其中，典型地，k（x，y）（x;j）（y;j），j1[2.4]使用随机傅立叶特征{f（x;）}n，求解以下经验损失最小化：i jj 1最小值1n1NL y，b（x）， nS.T. ：中国人民解放军陆军R/N，西岛i1[2.5]6NN21图2.使用t-SNE图和不同带宽参数，在三维空间中显示随机特征图高斯函数RB F核k（x，y）的1 /2 <$2<$xp（ $x<y<$2）。为了生成特征映射，经过预训练的VGG网络采用了红色和蓝色区域分别对应于由来自采样结肠镜检查图像中的每个类别标签的像素生成的随机特征图。为了增强可视化，我们裁剪了选定的图像，并从每个类别标签中保留了平衡数量的像素。(a)：10.006，（b）：10.003，（c）：10.01，（d）：10.01。对于某个常数R<$0，其中<$（x）<$（<$（x，<$1），<$，<$（x，<m））和<$（<$1，<$，<D）。此外，b是一个偏置项。Rahimi和Recht18的方法由于其计算易处理性而具有吸引力。特别是，在训练过程中准备特征矩阵需要nD计算，而评估测试样本需要nD计算，这大大超过了传统内核方法的复杂性。在图2中，我们使用t-SNE图21说明了核空间中随机特征映射的三维可视化。为了增强可视化，我们裁剪了选定的图像，并从每个类别标签中保留了平衡数量的像素。从图2中，我们可以清楚地观察到带宽参数λ对基于核的分割22架构特别地，如我们从图2（c）和图2（d）观察到的，选择不合适的带宽参数λ 0.1和λ0.1显著地降低了分类精度，并且导致不能被下游线性SVM分离的两个类的混合。分类精度对带宽的敏感性也突出了为内核选择合适的带宽参数的重要性。我们不处理这样的模型选择问题，审查文件。• 线性SVM：在分割网络的最后一层，我们训练线性SVM分类器。这对应于以下损失函数，1TLyi，b（xi）1yb（xi），[2.6]  7IJ基吉克）其中[x]x（0，x）.给定一个新的输入图像（）（i，j）[I][J] 利用特征映射psxij，我们生成类标签yij{$1，$1}使用伊吉简体中文k(x,但是，[2.7]其中sgn是符号函数。2.1.2. 随机森林随机森林或随机决策森林是一种集成学习方法，用于通过组合来自一系列基础模型的决策来构建预测模型。包围盒方法使用多个学习模型来获得更好的预测结果。在随机森林的情况下，该模型创建了一个由随机不相关决策树组成的整个森林，以获得最佳答案。这种方法通常被称为Bootstrap Aggregation或bagging，用于克服偏差方差权衡问题。一般来说，学习错误可以用偏差和方差来解释例如，如果偏差高，则测试结果不准确;如果方差高，则模型仅适合于某些数据集（即，过拟合或不稳定性）。给定训练数据集X<${x1，xn}，其中标签Y{y1，yn}，重复装袋并随机采样（K次）训练数据集，以及通过将二叉树拟合到这些样本来替换原始训练数据集。让Xk和Yk是采样数据集，其中k={1，k，K}，并且让Tb表示关于训练的二叉树，是的。在训练之后，可以通过两种方式对测试数据集x进行预测Xk和• 对来自所有个体的压力求平均值：y=1000T（x=1000T）KK• 在分类树学习误差的偏差通过对各个树的结果进行平均来减少，虽然单个树的预测对其训练集高度敏感，但只要树不相关，各个树的平均值就不敏感如果树是相互独立的，那么中心极限定理将确保方差减少。随机森林使用一种算法，该算法在分割每个候选的过程中选择特征的随机子集，以减少装袋样本22中的树的相关性。随机森林的另一个优点是易于使用，并且只需要调整三个超参数，即树的数量，树中使用的特征数量和装袋的采样率。此外，随机森林的结果具有很高的准确性和稳定性，但其内部过程是一种类似于深度学习的黑箱。2.1.3. 线性回归线性回归可能是统计学和机器学习中最知名的方法之一，其理论性能被广泛研究。尽管它的框架很简单，但它的概念仍然是其他先进技术的基础。在线性回归中，模型由线性函数B8X其未知参数从数据23中估计。简单地说，线性回归就是找到一个能很好地代表模型的线性方程。线性回归模型通常使用l范数的最小化来拟合（例如，2范数最小化是最小二乘方法）。2.1.4. 马尔可夫随机场使用经典机器学习概念的另一种分割方法是马尔可夫随机场（MRF）分割。MRF本身是一个条件概率模型，其中像素的概率受到其相邻像素的影响。MRF是使用图像24、25的局部特征的随机过程。这是一个强大的方法来连接空间连续性，由于事先的上下文信息。因此，它为分割提供了有用的信息。MRF的一个简要总结是很好地描述了MRF由Algimov和Xing26：根据MRF公式，目标图像可以表示为图G{V，E}，其中V是顶点集，E是边集。G中的顶点表示图像和两个顶点之间的边指示相应的像素是相邻的。对于图像中的每个对象S，每个顶点在属于S时被分配标签1，而在不属于S时被分配标签0。然后，体素的标签最终由其与对象S的相似性来确定（即，概率Ps）和每个邻居与对象S的2.2. 基于经典机器学习经典的机器学习算法，如SVM，随机森林或MRF，被应用于经典的医学图像分割25，27 - 31，结果很好。Held等人25可能首先引入了使用马尔可夫随机场的分割方法，以同时解决MR图像上的以下三个实际问题。他们的分割算法捕获了三个关键特征，这三个特征是MR图像分割的实际障碍（即，组织强度的非参数分布、邻域相关性和信号不均匀性）：• 组织强度的非参数分布通过Parzen-window32统计建模。• 相邻组织的相关性与MRF处理，以管理噪声MR数据。• 信号的不均匀性也描述了先验MRF。然后，通过模拟退火或迭代条件模式优化统计模型。他们提供了关于噪声、不均匀性、平滑和优化方法的模拟MR图像的分割。以误差率来衡量准确性，大多数情况下误差率小于10%。在图3和图4中，我们展示了使用FCN33和图3中的具有散射网络34的核SVM对来自GIANA挑战数据集的二、我们9DD图3. FCN在GIANA挑战数据集的采样测试图像上生成的血管发育不良结肠镜图像的分割。上图：使用无线胶囊式内窥镜（WCE）获得的结肠镜图像，中图：描绘FCN的软最大输出的热图，下图：计算为建议分割与地面真实值之间的绝对差异的残差图像的热图。由于在小数据集上进行训练，FCN往往会过拟合，并且不能很好地推广到看不见的数据。在百分之一的数据集上训练两个网络，以展示核SVM架构适应小训练样本大小的能力。图3显示了使用FCN架构的分段结果。中间行对应于从FCN的软最大输出生成的热图。此外，底行示出了残差图像的热图，其被计算为所生成的分割图与地面实况之间的绝对差。从图在图3（a-c）中，我们观察到虽然FCN从周围组织中正确定位了肿胀的血管，但分割结果相当差，如图3的底行所示。在图3（d）的情况下，FCN几乎完全错过了肿胀的血管。图4说明了使用核SVM架构的相同图像的分割结果在这里，热图是通过soft-max函数（也称为soft-max函数）生成的。逆logit函数）的核SVM分类器，即，，对于每个像素，我们生成输出logit100 1T（x）.[2.8]2011年 1月1日 1T（x） 经验值 1D电子不101图4.血管发育不良结肠镜检查图像在来自GIANA挑战数据集的采样测试图像上的分割，通过使用具有核特征选择的VGG滤波器组的核SVM生成。RBF核的带宽1/ 2 × 2通过以下方式选择：最大平均差异优化上图：使用无线胶囊式内窥镜（WCE）获得的结肠镜图像，中间：描绘SVM核分类器的软最大值的热图，底部：计算为所提出的分割与地面实况之间的绝对差的残差图像的热图。尽管在小数据集上进行训练，但核SVM在测试数据集上表现良好。我们从图中观察。3和4的结果表明，核SVM的分割结果优于FCN。此外，虽然FCN错过了图3（d）中的出血区域，但SVM网络生成了正确的分割。图在图5中，我们展示了抖动图以及定义为MIoU2nn11 n 卢恩年22月，2 N 卢恩卢恩[2.9]12 21 11 12 21 22其中，nij是被预测为属于类别j的类别i的像素的数目。我们在测试数据集上计算核SVM网络和FCN的MIoU我们使用不同数量的训练样本来评估每个架构的性能，如图5所示。我们观察到，在一个小的训练数据集上，核SVM比深度学习网络获得了更高的IoU分数。这是由于在核SVM的训练阶段需要确定更少的超参数。相比之下，由于FCN中必须从较小的训练样本大小确定大量的超参数，因此网络易于过拟合，即使使用正则化技术（如dropout）也是如此。11图5.在测试数据集上比较FCN（红色）、使用Mallat散射网络作为滤波器组的核SVM（绿色）和使用预训练的VGG网络作为滤波器组的核SVM（蓝色）的平均IoU得分MIoU。为了调整高斯RBF核中的核参数，执行双样本检验。每个图对应于在不同样本大小上训练的网络的性能。小组（a）：76800像素（1张图像），面板（b）：153600像素（2张图像），面板（c）：在1%的数据集上训练（3张图像），（d）：在5%的数据集上训练（15张图像）。从图5中，我们还观察到，增加训练样本大小不会显著改变核SVM的性能，因为分类器的超参数在训练样本很少的情况下很快收敛到相比之下，由于深度学习网络的大表示能力以及网络中大量的超参数，增加训练样本的数量可以显著提高FCN的性能。3. 其他相关细分方法123.1. 其他相关分割方法3.1.1基于图谱的分割严格来说，基于图谱的分割不属于一般的机器学习算法，而是一种高性能的特定分割方法Rohlfing等人 35数学详细描述了基于图谱的分割：图谱A是映射A：从n维空间坐标到标签。从概念上讲，图集类似于从图像空间到灰度值空间的映射，灰度值空间是图像空间的子集，因此图集本身可以被认为是一种特殊类型的图像，即，标签图像。为了将图谱A应用于新图像S，应当执行配准以用于坐标映射。地图集通常由手动分割生成，可以表示为映射，M：n。对于基于图谱的S图像分割，图像中的每个点在另一个点中具有对应的等价物。两个图像的这种对应关系可以表示为坐标变换T，其将S的图像坐标映射到M的图像坐标上。然后，对于S中的给定位置x，我们可以找到对应的标签x，如下所示：xA（T（x））.[3.1]通过图像配准来确定T的变换3.1.2. 可变形模型分割变形模型分割也是一种具体的分割方法。可变形模型被实现为具有一定弹性以试图保持其形状的像物理体的曲线或表面，而我们想要分割的图像被表示为具有使模型变形以描绘对象形状的力的势场，从而使成本函数36、37最小化。力被定义为内力和外力。内力的作用是保持模型的形状平滑，而外力则与所需图像边界的图像特征有关。代表性的可变形模型分割被广泛地称为活动轮廓，其变形由沿着轮廓的有限数量的控制点的位移确定37岁3.1.3. 超像素分割超像素是通过对像素进行分组而生成的感知上有意义的图像区域。它们通常用于分割算法中作为预处理步骤。一旦形成超像素，它们就被用作后续分割任务的基本处理单元。一个好的超像素算法应该提高使用它的分割算法的性能（速度和结果质量）38。用于生成超像素的算法可以被分类为基于图形、基于梯度上升、基于K均值聚类和基于熵率的方法39，40。Tian等人41提出了一种基于超像素的3D图切割算法来分割磁共振图像上的前列腺。超像素通常也与其他机器学习技术相结合42，43。133.2. 其他相关方法在深度学习方法取得现代进步之前，基于图谱和可变形模型的分割是医学图像最流行的方法之一，Xu等人44和Cabezas等人45很好地描述了它们的结果。Nikolov等人46组织了基于图谱和深度学习的分割的当前性能，这表明一些基于图谱的分割方法比基于深度学习的方法具有更准确的分割结果（下颌骨为98.0% vs. 94.0%）。Ji等人42将超像素应用于MR脑图像分割，Tianet al. 41提出了一种基于超像素的3D图形切割算法，用于分割MR图像上的前列腺。超像素代替像素被认为是3D图切割的基本单元，并且他们还使用3D活动轮廓模型来克服图切割的缺点，如平滑。通过这样做，他们达到了89.3%的平均DSC，这是最高分。Irving等人43为感兴趣区域内的超像素引入了一种简单的线性迭代聚类，并显示了脑肿瘤子区域的更好表示。现在它们已经与深度学习相结合26，47，48。4. 深度学习方法在开始回顾深度学习之前，我们在表1中总结了本节中使用的关键术语。手稿中的术语可能影响激活的区域选择性窗口选择性像素区域过拟合结果对某些数据集前馈网络输入数据经过许多隐藏层最后到达输出层在学习过程之前未设置其值的参数卷积核移动的核元素之间的Atrous距离（权重）降低单个网络层中的信号维数激活函数相对于输入值的逐反向传播通过梯度使用链式法则的下降方法。表1.深度学习术语的定义。14JJi、j图6.人工神经网络（ANN）的结构。(a)感知器（节点）的数学模型。(b)用于ANN的多层感知器（MLP）结构。（b）的隐藏层中的每个节点在（a）中进行数学描述。(c)一个反向传播的例子通过基于损失函数相对于w的梯度经由链式规则更新权重w来最小化损失，其中b是恒定偏置。(d)CNN中卷积运算的一个例子。相同的核权重被应用于输出的卷积运算。4.1. 深度学习网络4.1.1. 人工神经网络深度学习的基本网络模型是ANN，它通过级联感知器从输入到输出完全连接，如图6所示。人工神经元的第一个概念是由McCulloch和Pitts描述的49，它在1958年发展成为感知器图6（a）中的节点第k层中的第j个节点的输出Nk定义如下，Nk=f（∑mk-1ji=0i，j i j其中wk是第k - 1层中的节点的第i个输出对于第k层中的第j个节点的加权值，bk是第k层中的第j个节点的恒定偏置值，f（k）是用于对网络施加非线性的k的激活函数，并且第k - 1层中的节点的总数是mk该网络由多个相互连接的节点组成，如图所示6（b）. 权重和15n nnn1nn在训练期间，通过反向传播原理更新偏差值，以减少预定义的损失函数51 - 54。反向传播是一种将预测和地面实况之间的损失传播回网络的方法，以计算权重的更新量。这是通过遵循梯度下降方法来执行的，该方法利用了微积分中的链式法则。图6（c）显示了反向传播通过链式法则计算损失函数相对于权重的梯度的最简单情况。增加ANN中隐藏层的数量增加了模型的灵活性55 - 57。在20世纪90年代初，Blanz和Gish58表明基于ANN的多层感知器（MLP）可以处理图像分割问题。基于ANN的网络考虑先前层中的特征的所有组合，然而，由于其完全连接的结构59，它们在计算上是昂贵的。4.1.2. 卷积神经网络（CNN）最近的图像分割架构最常用CNN来为图像的补丁分配类别标签。CNN最早由Lecun等人提出，51，60并且已经成为计算机视觉和图像分析中占主导地位的网络架构。卷积层可以有效地捕获图像中的局部和全局特征，并且通过以分层方式嵌套许多这样的层，CNN试图提取更广泛的结构。此外，它们允许通过参数共享进行更有效的学习从捕获图像中越来越复杂的特征的连续卷积层中，CNN可以将图像编码为其内容的紧凑表示。CNN的基本构建块由卷积变换和一组从数据中学习的滤波器以及非线性和池化操作组成。在下文中，我们将回顾每个构建块：• 卷积变换：我们考虑的网络由d个卷积层组成。每一层都应用一个卷积变换，该卷积变换由一组非结构化过滤器（内核） {g<$}以生成输入图像的不同表示。有限指标集卢恩是第n层中过滤器的集合。• 合并操作：池化操作降低了各个网络层中的信号维度，并确保了特征向量相对于变形和平移的鲁棒性。一Lipschitz- con连续池化算子P：Nn 其中，整数S，nn其中Nn/Sn<$Nn <$1<$N称为池化因子。池化操作的一些示例如下，(1) Sub-sampling：ThisoperationamountstoP：Nn n当S1时，Pf是身份运算符。nn n(2) 平均池化：这被定义为Pn：Nn 联系我们SmS 1n1，（Pf）[m]f[k]为SnkSnmm<${0，1，2，n，Nn<$1}.16nn nn(3) 最大池：由P定义：Nn Nn1，（Pf）[m]<$f[S n m]<$maxk{S m，<$，S m<}|f [k]|，对于n<${0，1，2，n，Nd <$1}.• 非线性（或激活）：一种逐点非线性，即Lipschitz|L|X射线|在每个卷积层之后应用。|,x, y is applied after each convolution layer. 非线性的一些例子如下：(1) 双曲正切：非线性定义为：常数L2。exxexx，并具有Lipschitz(2) 校正线性单元（ReLU）：非线性由具有Lipschitz常数L<$1的（x）<$max{0，x}定义。(3) 模量：非线性定义为：|X|，并且具有Lipchitz常数L 。我们注意到ReLU非线性最初由Nair和Hinton61引入，以规避反向传播算法中的梯度消失问题。ReLU的一些修改，如Leaky ReLU62和参数化ReLU63，可以提高CNN的分类精度。CNN的权值共享和平移不变性显著减少了学习参数的数量，降低了计算复杂度。在CNN中，引入池化以通过减小图像的大小来增加感受野，这是可能影响激活的区域。最大池化操作，其适应选择窗口内的最大值（即，选择性像素区域）并有助于提取更鲁棒的特征。在CNN的结尾，类似于ANN，通常会有一个完全连接的层，它将所有先前层的输出加权和，以组合可以代表最终期望输出的特征。在网络训练期间，权重和偏置值通过反向传播更新，以最小化如ANN51 - 54中的预定义损失函数。基于深度学习的分割方法可以通过具有足够训练数据的监督学习来处理646566。要建立可靠的分割模型，前提是要有大量的标记训练数据。在实践中，医学数据通常是稀缺的，注释数据的管理一直是监督式深度学习在医学中广泛使用的瓶颈问题之一。为了更好地理解这一问题，Kaggle 2017数据科学碗在CT肺部扫描中检测肿瘤，由大约2000个患者扫描的数据集组成，而ImageNet大规模视觉识别挑战（ILSVRC）2017由1000个对象类的超过100万张自然图像组成。缓解这个问题的一个重要策略是通过迁移学习，它用于深度学习，以转移在不同但相关的数据集上训练的网络的权重。当大量训练数据稀缺时，迁移学习是任务特定模型训练的可行选择。一般来说，迁移学习要么使用预训练的模型作为所研究任务的特征提取器，要么更戏剧性地通过微调预训练网络的权重，同时在新数据集上替换和重新训练分类器。在转移学习的前一种情况下，移除最后一个全连接层，并将其他层视为固定的特征提取器以适应17图7.递归神经网络（RNN）的结构。一个新的任务这种策略只训练一个新的分类器，而不是整个网络，大大加快了训练过程。医学图像分析中的迁移学习是一个活跃的研究领域，特别是在过去的几年里。Yuan等人69开发了一种用于自主前列腺癌分级的有效多参数MRI迁移学习。Algimov等人70应用迁移学习来增强深度学习模型在肝脏放射治疗毒性预测中的预测能力。Tajbakhsh等人报告了使用深度学习进行分割的迁移学习。71.他们将迁移学习应用于超声扫描中颈动脉壁的分层，并使用Ravishankar等人的预训练权重。还注意到，CNN的性能可以通过在神经网络中使用更多的层来提高，并且最佳层数可以是特定于应用的。Ghafoorian等人73将迁移学习方法引入到在包含脑白质高强度的遗留MRI数据上训练的模型的域适应中。4.1.3. 递归神经网络CNN是一个前馈网络，其中输入数据经过许多隐藏层，最终到达输出层。然而，RNN是一种特殊的网络，其中输入可以通过递归路径受到输出的影响，如图7（a）所示。从输出到新输入的反馈可以起到存储器的作用，为顺序数据的连接提供服务。RNN的成功取决于先前的信息，避免梯度消失问题。RNN的长短期记忆（LSTM）被引入74，以有效地记住网络中以前的信息。LSTM是一系列的单元状态，如图7（b）所示，单元状态有三个角色来确定在遗忘门的当前单元中反映了多少先前信息，在输入门的当前单元中基于先前信息允许多少当前信息，以及在输出门的当前单元基于先前和当前信息的输出被发送到下一个单元状态。门控递归单元（GRU）是LSTM的修改类型，也是RNN75的流行变体。RNN主要用于医学图像分析的分割任务，因为，如果我们假设沿着空间方向的像素阵列作为RNN的顺序输入，那么递归路径有助于根据对先前像素进行分类的结果对当前像素进行分类。换句话说，相对于CNN，顺序对象连接性（形态学）信息被更多地使用。18图8.用于肝脏/肝肿瘤分割的贴片CNN的网络架构4.2. 深度学习将数字图像分割成多个片段以用于各种应用一直是计算机视觉和医学图像分析中的基本任务。多年来，许多研究和评论文章都与参考文献76类似，我们在这里继续将以前关于该主题的研究分为四类：4.2.1. 拼接卷积神经网络基于补丁的架构可能是训练网络进行分割的最简单方法。从输入图像中选取每个像素周围的小块，以块为单元，结合类标签对训练网络。图8中示出了基于路径的架构的示意图。一些流行的分割网络架构就是使用这种方法设计的77 - 80。该块通常被移位一个像素以覆盖在附图标记81中表示的整个图像区域。因此，由于相邻块之间的像素的重复计算，训练网络需要很长时间。另一个必须做出的权衡是选择补丁大小和视野。通过多个池化层传递补丁会导致更高的有效视场，但会导致高频空间信息的丢失。另一方面，从小补丁开始并使用更少的池化层意味着网络可以从中提取的信息更少。因此，应根据具体应用仔细选择贴片尺寸。可以将更复杂的技术应用于分片深度学习网络的输入，以提高分割任务的性能。Algimov和Xing26设计了一种基于补丁的CNN，用于准确分割头颈部（HaN）癌症放射治疗的危险器官（OAR）。这是第一篇证明深度学习对HaN癌症治疗有效性的论文。特别是，为了实现良好的性能，作者应用马尔可夫随机场（MRF）作为后处理步骤，以合并体素连接信息和OAR的形态。对50例计划接受头颈部放疗的患者的3D CT图像进行了性能评估，结果显示DSC对各种器官的改善。在Algimov和Xing成功使用深度学习方法之后，Google DeepMind小组更详细地研究了HaN图像分割。他们将CT数据集应用于3D U-Net，并在描绘方面取得了与专家相似的性能秦等人47在传统的二进制19图9.（a）FCN和（b）U-Net的网络架构。通过基于超像素计算和熵图的预处理，对目标和非目标区域进行分割。通过对训练数据的预处理，估计出三类超像素。然后，通过patch-wise CNN用边界，对象和背景的三个匹配标签训练补丁。Moeskops等人82在网络中使用多个补丁大小来克服补丁大小启发式选择的限制。训练由具有不同补丁大小的单独网络单独执行。仅共享分类的输出层（soft-max）。通过这样做，超参数针对每个补丁大小和相应的内核大小进行了最佳调整。分片特征提取的概念可以应用于如下所述的各种网络架构。4.2.2. 全卷积网络（FCN）FCN是与补丁式CNN33不同类型的网络架构。它由局部连接的层组成，例如卷积，池化和上池化（上采样）。这种类型的网络直接输出全尺寸的分割图。它可以减少超参数的数量和计算复杂性，因为下采样的特征图（池化）。基本架构类似于自动编码器，如图9（a）所示。编码器部分利用池化来提取特征，并且原始输入大小在解码器部分中恢复，同时对从编码器部分提取的更高级别的特征进行去卷积。有许多研究使用FCN进行分割83 - 86。最流行的是U-Net87，它由传统的FCN和编码器部分和解码器部分之间的跳过连接组成，如图9（b）所示。来自编码器部分的高分辨率特征通过跳过连接被传输到解码器部分中的上采样输出并与之组合。然后，连续卷积层可以通过组装编码器和解码器部分来学习更精确的结果。最初的U-Net在医学图像分割任务中表现出了卓越的性能。大多数早期的深度学习方法只能应用于2D图像，然而，在大多数临床情况下，医学图像由3D体积数据组成。与U-Net类似，V-Net是一种基于3D CNN88的3D分割新架构。V-Net使用3D卷积来确保相邻切片之间的相关性以进行特征提取。V网有另一条路连接着20图10. (a)肝脏和肝脏肿瘤分割的结果。黄色、紫色、红色、绿色和蓝色线分别从SBBS-CNN、双帧U-Net、atrous pyramidpooling、拟议的网络和地面实况中获取。(b)以及（c）是（a）中的分割结果的轮廓。每一级的输入和输出以使得能够学习残差值89。通常，3D体积数据大小需要大量的内存。V-Net论文的作者还指出，在具体实现中，用卷积操作代替池化操作可以节省系统内存，因为在反向传播步骤中不再需要将池化的输出映射回输入。此外，通过仅应用解卷积而不是上池化操作，可以更好地理解和分析90替换池化操作。已经发表了许多使用U-Net和V-Net架构进行分割的论文91 - 9394。也许值得注意的是，根据Salehi等人的研究，FCN可能会由于使用整个样本来提取局部和全局图像特征而导致数据不平衡。例如，在病变检测的情况下，正常体素的数量通常比病变体素的数量大500倍。Salehi等人提出了基于Tversky指数的新损失函数，通过处理精确度和召回率之间更好的权衡来减少不平衡。分割结果通常依赖于目标的边界信息。我们最近修改了传统的U-Net，它对边界信息更敏感。我们

下载后可阅读完整内容，剩余1页未读，立即下载