没有合适的资源?快使用搜索试试~ 我知道了~
1自然和医学图像的深层语义分割研究进展Saeid AsgariTaghanaki 1、Kumar Abhishek1、Joseph Paul Cohen2、Julien Cohen-Adad3和GhassanHamarneh11加拿大西蒙弗雷泽大学计算机科学学院2Mila,Univ ersite′ de Montre′ al,加拿大3加拿大蒙特利尔理工大学生物医学工程研究所NeuroPoly实验室摘要(医学)图像语义分割任务包括将图像的每个像素(或仅几个像素)分类为实例,其中每个实例(或类别)对应于一个类别。该任务是场景理解或更好地解释图像的全局上下文的概念的一部分。在医学图像分析领域,图像分割可用于图像引导的介入、放射治疗或改进的放射诊断。在这篇综述中,我们将领先的基于深度学习的医学和非医学图像分割解决方案分为六大类:深度架构、基于数据合成、基于损失函数、序列模型、弱监督和多任务方法。此外,对于每一组,我们分析了这些组的每一个变体,并讨论了当前方法的局限性和未来的研究方向的语义图像分割。1. 介绍深度学习对科学的各个领域产生了巨大的影响。当前研究的重点是计算机视觉最关键的领域之一:医学图像分析(或医学计算机视觉),特别是基于深度学习的医学图像分割方法分割是自然图像中用于场景理解和医学图像分析的重要处理步骤,用于图像引导的干预、放射治疗或改进的放射诊断等。在文献中已经针对不同的医学成像模式引入了大量用于医学图像分割的深度学习方法,包括X射线、可见光成像(例如,彩色皮肤镜图像)、磁共振成像通讯作者:sasgarit@sfu.ca(MRI)正电子发射断层扫描(PET)、计算机断层扫描(CT)和超声(例如超声心动图扫描)。深度架构改进已经成为许多研究人员出于不同目的的焦点,例如,解决深度模型的梯度消失和爆炸,有效的小而准确的模型的模型压缩,而其他工作试图通过引入新的优化函数来提高深度网络的性能。与其他关于自然和医学图像的基于深度学习的语义图像分割的综述论文[35,41,47,52,71,140,179]相比,我们做出了以下贡献:我们提供自然和医学图像语义分割领域的研究贡献的全面覆盖。在成像模式方面,我们涵盖了2D(RGB和灰度)和体积医学图像。我们将语义图像分割文献根据其贡献的性质分为六个不同的类别-架构改进,基于优化功能的改进,基于数据合成的改进,弱监督模型,序列模型和多任务模型。图1指出了我们在本综述中所涉及的类别。其次是全面的审查,我们认识到,并提出了重要的研究方向为每个类别。在以下部分中,我们将讨论图1中可视化的不同类别下的深度语义图像分割改进。对于每个类别,我们首先回顾了非医疗数据集的改进,在随后的部分中,我们调查了医疗图像的改进。arXiv:1910.07655v2 [cs.CV] 2019年11···2弱监督多任务模型资料综合对抗训练GAN基于交叉熵编码器-解码器模型架构降低计算复杂度能量最小化优化功能基于重叠完全卷积网络注意力模型序列模型基于距离LSTM图1:本综述中涵盖的基于深度学习的分割方法概述2. 网络架构改进本节讨论语义具有较浅层的输出。融合步骤如图1B所示。3 .第三章。使用卷积神经网络(CNN)进行图像分割,已应用于自然和医学图像的解释任务[36,84]。这些改进主要归因于探索新的神经架构(具有不同的深度、宽度和连接性或拓扑结构)或设计新类型的组件或层。2.1. 用于语义分割的32倍上采样预测(FCN-32 s)16倍上采样预测(FCN-32 s)8倍上采样预测(FCN-32 s)作为第一个高影响力的基于CNN的分割模型之一,Long等人。[86]提出了用于像素标记的全卷积网络。他们提出了对输出激活图进行上采样(去卷积),从中可以计算像素级输出。网络的整体架构如图所示。二、图2:完全卷积网络可以有效地学习对语义分割等每像素任务进行密集预测[86]。为了在过滤后的输入数据深入网络时保留图像内的上下文空间信息,Long et al.建议将输出图3:全卷积网络的上采样和融合步骤[86]。2.2. 编码器-解码器语义图像分割网络接下来,介绍了编码器-解码器分段网络[103],如SegNet [7]。解码器网络的作用是将低分辨率编码器特征映射到全输入分辨率特征映射,以进行逐像素分类。SegNet的新颖性在于解码器对较低分辨率的输入特征图进行上采样的方式。具体地,解码器使用在对应编码器的最大池化步骤中计算的池化索引(图4)该架构(图4)由一系列非线性处理层(编码器)和一组相应的解码器层组成,后面是一个像素分类器。通常,每个编码器由一个或多个卷积层组成,2倍上采样预测2倍上采样预测泳池3泳池4Pool53批量归一化和ReLU非线性,然后是非重叠的最大池化和子采样。在解码器中使用编码序列中的最大池化索引对由于池化过程引起的稀疏编码进行上采样Ronneberger 等 人 。 [119] 提 出 了 一 种 架 构 ( U-Net),由捕获上下文的收缩路径和实现精确定位的对称扩展路径组成。与图像识别(He等人[45])和关键点检测(Honari等人[49])类似,Ronneberger等人将跳过连接(图5)添加到编码器-解码器图像分割网络(例如SegNet),这提高了模型图5:U-Net [119]架构示意图。输入输出图7显示了网络的详细架构。下采样Conv +BN + Relu上采样图4:顶部:SegNet架构的图示。没有完全连接的层,因此它只是卷积的。下图:SegNet和FCN [86]解码器的示意图。a、b、c、d对应于特征图中的值。SegNet使用最大池化索引对特征图进行FCN上采样通过学习去卷积输入特征图,并添加相应的编码器特征图,以产生解码器输出。该特征图是对应编码器中的最大池化层(包括子采样)的输出注意,FCN [7]中没有可训练的解码器滤波器。Milletari等人[91]提出了一种类似的架构(V- Net;(图6)),该架构添加了剩余连接并将2D操作替换为3D操作,以便处理体积图像。Milletari等人还提出了对广泛使用的分割度量的优化,即,骰子,这将在第4节中更详细地讨论。Jeugo 等 人 [58] , 开 发 了 密 集 连 接 网 络 架 构(DenseNet)的分段版本[53],通过调整类似U-Net的编码器-解码器骨架。在图6:V-Net架构的说明[91]。在图8中,我们可视化应用于第一图像分割网络的简化架构修改,即FCN。几个修改版本(例如,更深/更浅,添加额外的注意块)已经被应用于语义分割[5,32,82,107,113,155 、 170] 。 最 近 在 2018 年 , DeepLabV3+ [23] 在PASCAL VOC 2012 [29]和Cityscapes [177]数据集上表现出许多最先进的分割网络。Zhao等人[172],修改了[86]提出的使用空间金字塔池化模块或编码器-解码器结构(图9)的特征融合操作空间金字塔网络能够通过以多个速率和多个有效视场使用过滤器或池化操作探测传入特征来编码多尺度上下文信息,而后者网络可以通过逐渐恢复空间信息来捕获更清晰的对象边界池化索引4ConvConvConvConv池UPConvConv级联金字塔池化输入输出图7:100层提拉米苏网络架构图[58]。该架构是由密集的块构建的。该架构由具有两个向下转换的下采样路径和具有两个向下转换的上采样路径组成。图9:金字塔场景解析网络概述给定输入图像(a),从最后一个卷积层提取特征图(b),然后应用金字塔解析模块以收获不同的子区域表示,随后进行上采样和级联层以形成最终的特征表示,其在(c)中携带局部和全局上下文信息。最后,将表示送入卷积层以获得最终的每像素预测(d)[172]。向上两个过渡。圆圈表示连接,箭头表示网络中的连接模式。灰色水平箭头表示跳过连接,其中来自下采样路径的特征图与上采样路径中的相应特征图相关联。请注意,上采样和下采样路径中的连接模式不同。在下采样路径中,密集块的输入与其输出相关联,导致特征图数量的线性增长,而在上采样路径中,情况并非如此。输入输出交叉熵交叉熵骰子交叉熵图10:DeepLabV 3+的图示;编码器模块通过在多个尺度上应用atrous(扩张)卷积来编码多尺度上下文信息,而简单而有效的解码器模块则沿着对象边界细化分割结果[23]。FCNSeg-Net U-NetV-Net提拉米苏2.3. 图像分割网络的计算复杂度降低已经做了一些工作来减少时间,图8:随着时间的推移,FCN [86]的体系结构逐步改进。mation。Chen等人。[23]提出结合扩张卷积和特征金字塔池的优点。具体来说,DeepLabv3+通过添加一个简单而有效的解码器模块(图10)来扩展DeepLabv3 [21],以细化分割结果,特别是沿着使用扩张卷积和金字塔特征的对象边界。深度分类网络的计算复杂性[50,74]。一些其他的作品试图简化深层网络的结构,例如,通过张量因子化[69],通道/网络修剪[152]或对连接应用稀疏性[43]。一些方法专注于深度图像分割网络的复杂性优化。与Saxena等人的工作类似。[123],Liu等人。[85]通过执行细胞级和网络级搜索,提出了一种用于语义图像分割的分层神经架构搜索,并在PASCAL VOC 2012 [29]和Cityscapes [177]数据集上获得了与最先进结果相当的结果。相比之下,陈ConvConv密集起来下来密集密集起来下来密集密集输出输入编码器Conv 1x1Conv 3x3Rate 6扩张卷积Conv 3x3Rate 12Conv 3x3Rate 18图像池Conv 1x1解码器上采样Conv 1x1Conv 3x3上采样5N等人[20]专注于使用随机搜索来搜索小得多的atrous空间金字塔池化模块。除了网络架构搜索之外,Srivastava等人[132]还修改了ResNet,以控制通过连接的信息流。Lin等人采用一步融合,不对通道进行滤波。2.4. 基于注意力的语义图像分割注意力可以被看作是使用从几个后续层/特征图传输的信息Hu等人。[51]提出了一种选择机制,其中首先使用全局平均池聚合特征图,并将其简化为单个通道描述符。然后使用激活门来突出最有区别的特征。Wang等人。[146]在深度残差网络(ResNet)中添加了一个注意力模块,用于图像分类。他们提出的注意力模块由几个编码-解码层组成。Fu等人。[31]提出了双重注意力网络,应用空间和基于通道的注意力操作。Li等人。[76]提出了一种基于金字塔注意力的网络,用于语义分割。他们结合注意力机制和空间金字塔来提取精确的密集特征用于像素标记,而不是复杂的膨胀卷积和人工设计的解码器网络。Chen等人[22]将注意力应用于需要多尺度输入的DeepLab。2.5. 对抗性语义图像分割Goodfellow等人[37]提出了一种对抗性的方法来学习深度生成模型。他们的生成对抗网络(GAN)从固定的(例如,标准高斯)分布p z(z),并使用确定性可微深度网络p(. )来近似训练样本x的分布。受对抗学习的启发,Luc等人。[87]训练了一个卷积语义分割网络以及一个对抗网络,该网络区分来自地面真值或分割网络的分割图。损失函数定义为:l(θs,θa)=lmce(s(xn),yn)接近真实情况,即,看起来更现实。用于图像分割的主要模型大多遵循编码器-解码器架构,如U-Net。最近的方法表明,扩张卷积和特征金字塔池可以改善U-Net风格的网络。在第3节中,我们总结了这些方法及其修改后的对应方法如何应用于医学图像。3. 应用于医学图像的在本节中,我们将回顾基于深度学习的2D和体积医学图像分割的不同架构改进。3.1. 基于模型压缩的图像分割为了实时执行图像分割并且能够在处理体积和高分辨率2D图像(诸如CT、MRI和组织病理学图像)的情况下处理更大的图像/(子)体积,已经尝试了若干方法来压缩深度模型。Weng等人[153]将神经架构搜索方法应用于U-Net,以获得在CT、MR和超声图像上具有更好器官/肿瘤分割性能的较小网络。Brugger等人。[14]通过利用组归一化[157]和Leaky ReLU函数,重新设计了U-Net架构,以使网络在3D医学图像分割方面更具内存效率。Perone等人。[110]和Bonta等人。[13]设计了一种与原始卷积神经网络相比具有更少参数的扩张卷积神经网络。其他一些工作[106,160]专注于深度网络的权重量化,以使分割网络更小。3.2. 基于编解码器的图像分割Drozdal等人。[28]提出在将图像推送到主分割网络之前,通过应用简单的CNN来在分割之前对输入图像进行归一化。他们在电子显微镜分割、CT肝脏分割和MRI扫描前列腺分割方面显示出改善的结果Gu等人。[40]提出使用接近网络瓶颈的扩张卷积块沃龙佐夫等人[143](使用[25]中定义的数据集n=1-λ[1bce(a(xn,yn),1)+lbce(a(xn,s(xn)),0)],(一)提出了一种基于图像到图像的框架,以将具有感兴趣对象(存在域)(如肿瘤)的输入图像变换为没有肿瘤的图像(不存在域),即将患病图像转换为健康图像;接下来,其中θs和θa分别表示分割和对抗模型的参数Lbce和Lmce分别是在此设置中,分割器尝试生成分割图模型学习将移除的肿瘤添加到新的健康图像中。这导致从对象捕获详细结构,这改进了对象的分割。Zhou等人[180]提出了一种重新布线的方法,61+e1+e−Σ=p且P(Y=1)=1−=1−p,其中U-Net中使用的长跳跃连接,并在胸部低剂量CT扫描中的结节分割、显微镜图像中的核分割Goyal等人[38]将DeeplabV3 [23]应用于彩色皮肤镜图像,以分割皮肤病变。3.3. 基于注意力的图像分割Nie等人设计了一种注意力模型,用于从MRI图像中分割前列腺,与基线模型(例如V-Net [91]和FCN[86])相比具有更高的准确性。 Sinha等人[128]提出了一种基于多级注意力的架构,用于从MRI图像中分割腹部器官。类似地,Qin等人[115]提出了一种扩张卷积基块,以保留更详细的注意力3D医学图像分割。类似地,其他论文[80,56,77,101,102,105,124]也将注意力概念用于医学图像分割。3.4. 基于对抗训练的图像分割Khosravan等人。[66],提出了一种对抗性训练4. 基于优化函数的改进除了使用第2节中提到的架构修改来提高分割速度/准确度之外,设计新的损失函数还导致后续推理时间分割准确度的提高。4.1. 交叉熵用于图像分割任务的最常用的损失函数是逐像素交叉熵损失(等式1)。2)的情况。这种损失会单独检查每个像素,将类预测向量与独热编码目标(或地面实况)向量进行比较。对于二进制分割的情况,令P(Y= 0)=p和P(Y= 1)= 1p。预测由逻辑/S形函数P(Y=0)给出1 1−x −xx是网络的输出。交叉熵(CE)可以定义为:CE(p,p)=−(p lo g(p)+(1−p)lo g(1−p))。(二)用于多区域(或多类别)分割的方程的一般形式可以写为:胰腺分割的框架,从CT扫描。Son等人[129]应用生成对抗网络进行视网膜图像分割。Xue等人。[161],使用全卷积网络作为生成副词中的分段器,CE =−类4.2. 加权交叉熵plogp(三)从MRI图像中分割脑肿瘤。其他论文[26,27,59,94,99,118,162,168]也成功地将对抗学习应用于医学图像分割。3.5.递归神经网络模型递归神经网络(RNN)是为处理序列而设计的。长短期记忆(LSTM)网络是一种RNN,它引入了自循环以实现长时间的梯度流[48]。在医学图像分析领域,RNN已被用于对图像序列中的时间依赖性进行建模。Bai等人,[8]提出了一种将全卷积网络与递归神经网络相结合的图像序列分割算法,该算法将空间和时间信息结合到分割任务中。类似地,Gao等人[34]应用LSTM和CNN对脑MRI切片中的时间关系进行建模,以改善4D体积中的分割性能。Li等人,[75]应用U-Net获得初始分割概率图,并使用LSTM进一步改进3D CT扫 描 的 胰 腺 分 割 。 类 似 地 , 其 他 工 作 也 将 RNN(LSTM)[4,18,164,173,174]应用于医学图像分割。交叉熵损失单独评估每个像素向量的类预测,然后对所有像素进行平均,这意味着对图像中的每个像素进行相等的学习如果各种类别在图像中具有不平衡的表示,则这可能是有问题的,因为最常见的类别可以支配训练。Long等人[86])讨论了对每个类别的交叉熵损失(WCE)进行加权,以抵消数据集中存在的类别不平衡。WCE定义为:WCE(p,p)=−(β p lo g(p)+(1−p)lo g(1−p))。(四)为了减少假阴性的数量,β被设置为大于1的值,并且为了减少假阳性的数量,β被设置为小于1的值。为了对负像素进行加权,可以使用以下平衡交叉熵(BCE)[159]。BCE(p,p)=−(β p lo g(p)+(1−β)(1−p)lo g(1−p))。(五)Ronnenberger等人。[119]在交叉熵函数中添加了一个距离函数,以加强组件之间的学习距离,从而在对象彼此非常接近的情况下加强更好的分割,如下所7示:8−Σ.12γγDγCEBCE(p,p)+w0·exp(d(x)+d(x))2-2σ2(六)4.4.2特沃斯基损失Tversky loss(TL)[122]是DL的推广。为了控制FP和FN的水平,TL将其加权如下:其中d1(x)和d2(x)是两个函数,用于计算在其细胞分割问题中到最近细胞和第二细胞的边界的距离。TL(p,p)=p,pp,p4.3. 焦点损失为了降低简单示例的权重,使CNN更多地关注困难示例,Lin等人,[83]第83话(一)p)γ与交叉熵p y损失的关系为:γ设置β= 0。5将方程简化为Eq. 10个。4.4.3指数对数损失Wong等人[156]提出使用指数对数Dice损失(Leld)和加权指数交叉熵损失(Lwece)的加权和,以改善FL(p,p<$)=−(α(1−p<$)plog(p<$)+(1−α)p<$(1−p)log(1−p<$))设γ= 0,则方程将等价于BCE。(七)对于要分割的对象的大小之间存在很大变化的任务,在小结构上的分割精度。4.4. 基于重叠测度的损失函数4.4.1骰子丢失/ F1得分图像分割任务的另一种流行的损失函数是基于Dice系数,其本质上是一种平均值,哪里L=weldLeld+wweceLwece,(12)Leld=E[(−ln(Di))],以及(13)Lwece=E[(−ln(p l(x)]。(十四)确保两个样本之间的重叠,并相当于F1评分。该度量的范围从0到1,其中Dice系数为1表示完美且完全的重叠。Dice系数(DC)计算为:x、i和l表示像素位置、预测标签和地面实况标签。Di表示平滑后的Dice损失(通过向等式(1)中的分子和分母添加一个λ= 1用γD和γCE控制训练时的漏标,2TPDC =2TP +FP+FN=2个|X∩Y|.(八)|+|Y|Y|各损失函数的非线性。类似地,Jaccard度量(交集:IoU)计算为:4.4.4Lo va′ sz-Softmax损失由于已经表明Jaccard损失(IoU损失)是亚模的[10],Berman et al.[11]建议使用TPIOU =公司简介=|X∩Y||+|Y|−| X ∩ Y|X∩ Y|(九)Lo va′ sz铰链与Jaccard损失的二进制段,并提出了一个替代的Jaccard损失,称为Lo va′ sz-Softmax损失,它可以应用于多-其中,X和Y分别是预测的分割和真实分割。TP是真阳性、FP假阳性和FN假阴性。我们可以看到DC≥IoU。为了将其用作损失函数,DC可以定义为类 分 割 任 务 。 因 此 , Lo va′ sz-Softmax 损 失 是 离 散Jaccard损失的平滑扩展,定义为:骰子损失(DL)函数[91]:LLovaszSoftmax =1μm|c ∈C|c∈C(m(c))、(15Σ(十一)JC9⟨··⟩联系我们C·)DL(p,p)=2p,pp(十)其中,(·)表示子模的凸闭包其中p0,1n和0p1.一、P和P是基础事实和预测的分割,并且表示点产品。杰卡德的损失,表示它是紧凸闭包并且多项式时间可计算,表示所有类,并且 Jc和m(c)分别表示类c的Jaccard指数和误差向量。10L−ΣΣp∈π形成整体f(s θ(p)) 是 为 前景和Σg(p)102和w=1/(m)∈φG(p)=p−z- −∈4.4.5边界损失Kervadec等人[64]建议计算边界损失LB以及广义Dice损失LGD函数,αLGD(θ)+(1−α)LB(θ),(16)其中损失函数中的两项定义为第五节,我们总结了使用新的损失函数的方法,特别是用于医学图像分割或使用上述(修改)损失函数。在图11中,我们可视化了分割大小物体的不同损失函数的行为对于损失函数的参数,我们使用与作者在各自论文中报告的相同的参数因此,我们使用β= 0。3在Eqn。11,α= 0。25和γ= 2在Eqn. 7,且γ D=γ CE= 1,weld= 0。8和GD(θ)=1韦策= 0。2在Eqn。12个。 从左到右2wG g(p)sθ(p)+pΣWB(一)对于每个图,预测和地面实况掩模的重叠产生更多的假阳性和假阴性。理想情况下,损失值应该随着更多的误报而单调增加,并且(十七)消极的预测。对于大型对象,几乎所有的函数都遵循这个假设;然而,对于小型阿格夫·Gp∈P[sθ(p)+g(p)]+对象(右图),只有组合损失和焦点损失惩罚对于较大的误差单调地更多。换句话说,当分割小的和大的对象时,基于神经网络的函数高度波动(也参见图2)。(12)导致wB[2−sθ(p)−g(p)]≠0,以及p∈πLB(θ)=p∈<$φG(p)sθ(p),(18)其中φG(p)=pz <$G(p),如果pG和,否则。总- 是的f(1−g(p))f(1−sθ(p))表示背景。wG=1个/p∈πBΩ不稳定优化以交叉熵为基础的损失函数和以重叠测度函数为加权正则化函数的损失函数在训练过程中表现出更好的稳定性5. 基于优化函数的医学图像处理标准CE损失函数及其加权版本,如第4节所述,已应用于许多医学图像分割问题[56,77,80,101,102、105、124]。然而,Miletari et al.[91]发现,显示了空间域。4.4.6保守损失Zhu等人[181]提出了保守损失的概念,通过惩罚极端情况和鼓励中等情况来获得较好的泛化能力。保守损失定义为CL(p t)=λ(1 + loga(p t))2<$loga(−loga(p t)),(十九)其中pt是朝向地面实况的预测的概率,并且a是对数的底α和λ根据经验选择为e(欧拉其他工作还包括优化分割度量的方法[104],加权损失函数[120],以及向损失函数添加正则化器以编码几何和拓扑形状先验[9,92]。图像分割(特别是医学图像)中的一个重要问题是克服类别不平衡,对于该问题,基于重叠度量的方法在克服不平衡方面表现出合理的良好性能在− g( p))(1-sθ(p))/(1 −g(p)2.Ω11R=<$E'<$f(x;θ,<$′)−f(x;θ,<$)<$(20)优化用于DL的卷积神经网络(等式1)10)在在某些情况下,例如,在大背景中具有非常小的前景对象的情况下,比原始交叉熵更好地工作Li等人。[79]建议将以下正则化项添加到交叉熵损失函数中,以鼓励平滑分割输出。N2拉吉岛i=1其中,α′和β ′是不同的扰动(例如,高斯噪声、网络丢失和随机化数据变换)应用于输入图像xi。Xu等人。[24]提出通过以下损失函数将传统的活动轮廓能量最小化利用到卷积神经网络中。损失=长度+λ·区域(21)12|Ω|Σ.ΣΣΣ.Σ.表示k个连续侵蚀。哪里1−Σ(p2+q2)|Ω|pQ.2好吧Ω阿拉利dQ 定义为到δq的距离。阿达玛号前景背景假阴性假阳性图11:一个大的(左)和一个小的(右)对象的不同重叠范围的七个损失函数的比较参数α决定了惩罚的水平,i=1,j=1。. .- 是 的-是的xi,jyi,j更大的错误。dp是地面实况分段的距离图长度=.拉乌2 2+u。将mentation作为到边界的无符号距离δp。西姆-其中,来自uxi,j和uyi,j的x和y是水平的和垂直的。方向,分别。. i =1,j =1。i、j1i、jΩ操作1K损失(q,p)=(p-q)gKBkα(26)区域=. u(c-v)2.k=1 μ mi=1,j =1.二、101/50分+(1−ui,j)(c2−vi,j)ΩB=1/5 1/5 1/5(27)01/50其中u和v表示为预测,并且给定图像,分别。c1被设置为1,c2被设置为0。类似于Li等人,[79],Zhou等人。[178],提出将轮廓回归项添加到加权交叉熵损失函数中Karimi等人。[62],基于损失(q,p)=1rαf|r ∈ R|r∈R Ω.Br普切夫q\p预测分割和真实分割之间的函数如下+fs(Brp)<$fp\q+fs BrqCfp\q+fs(Br<$q)<$fq\p](二十八).2019年10月24日星期一其中,第二项是Dice损失函数,并且第一项可以分别用针对p和q的Hausdorff距离的三个不同版本(即,地面真值和预测分割)替换,如下所述;损失(q,p)=1。(p-q)2π。dα+dαβ β(25)Ω中文(简体).其中g(二十三)fHD( p,q)=损失( p,q)+ λΩKS13−其中f q\p=(p-q)2q。fs表示软阈值。BrBr的元素被归一化,使得它们的和为1。pC= 1p.用p和q表示的地面实况和预测分割,Caliva等人。[15]建议测量每个体素到对象边界的距离,并使用权重矩阵来惩罚边界上的错误模型。Kim等人,[67]建议使用水平集能量最小化-作为标准多类交叉求和的正则化子表示半径为r的圆形卷积核。14NΣ∫nnnΣ1−∈卢恩- -Θ∫Ω半监督脑MRI分割的熵损失函数为:好吧. 2Ωnn6. 基于图像合成的医学图像分割深度卷积神经网络严重依赖大数据来避免过度拟合和类不平衡问题,因此本节重点介绍数据增强,L水平(Θ;x)=n=1. x(r)−cΘ。NyΘ(r)dr(二十九)数据空间解决有限数据的问题除了从标准的在线图像增强方法,与+λn=1. yΘ(r).博士Ω几何变换、颜色空间增强,在这一节中,我们讨论图像合成方法,其输出是新的图像而不是修改现有图像。由于基于GAN的分割增强技术,任务已用于各种各样的问题-从遥感图像[95]到记录x(r)yΘ(r)drcn=yθ(r)dr其中x(r)是输入,yΘ(r)是softmax层的输出,Θ是指可学习的参数。Taghanaki等人。[139]讨论了使用基于单独重叠的损失函数的风险,并建议将其用作正则化以及加权交叉熵,以显式处理输入和输出不平衡,如下所示:解剖结构[171],本节涵盖了医学图像分析领域中基于GANChartsias等人。[19]使用条件GAN来生成-从CT图像中提取心脏MR图像。他们表明,利用合成数据提高了分割准确性,仅使用合成数据只会导致分割精度的边际下降。类似地,Zhang等人[169]提出了一种基于GAN的体积到体积转换,用于从相应的CT体积生成MR体积他们表明,合成数据可以提高汽车的分割性能血管MRI容积。Huo等人[54]提出了一种组合Loss=α。NN i=1β(ti−lnpi)+称为Ess-Net的端到端合成和分割网络,用于同时从未配对的MR图像合成CT图像,并在未标记的(1−β)[(1 −ti)ln(1−pi)]CT图像,并表明他们的方法产生了更好的分割性能比甚至分割获得- 是的2海里Np t+SN使用使用手动CT标签训练的模型Abhishek-(1 −α) i=1i=1pii=1ti+S(三十一)等人[2]训练了一个条件GAN来生成皮肤损伤图像从和局限于二进制掩模,并表明,使用合成图像导致更高的皮肤病变seg,其中,α控制Dice项贡献的量,损失函数L和β[0,1]控制假阳性/阴性的模型惩罚水平:当β被设置为小于0.5的值时,FP比FN受到更多的惩罚,因为项(1ti)ln(1pi)被更重地加权,反之亦然。在我们的实现中,为了防止被零除,我们执行加一平滑(加法/拉普拉斯/利德斯通平滑的特定实例)[121],即,我们将单位常数S加到Dice项的分母和分子上。第5节中讨论的大多数方法试图处理输入图像中的类不平衡问题,即,小前景对大背景,在损失函数中提供权重/惩罚项其他方法包括首先识别感兴趣的对象,围绕该对象进行裁剪,然后执行任务(例如,分段)具有更好的平衡类。这种级联方法已被应用于脊髓中多发性硬化病变的分割[39]。心理状态准确度Zhang等人。[167]训练GAN在数字重建的射线照片和X射线图像之间进行转换,并实现了与多器官分割中的Shin等人[125],提出了一种通过使用两个公开可用的脑MRI数据集训练生成对抗网络来生成具有脑肿瘤的合成异常MRI图像的方法类似地,其他作品[42,163,165]利用GAN来合成大脑MR图像。7. 弱监督方法收集大规模精确的像素级注释是耗时且经济昂贵的。然而,可以以相对快速和便宜的方式大量收集未标记和弱标记的图像。因此,无监督模型和弱监督模型是语义图像分割的一个很有前途的方向。Kim et al. [68]提出了一种弱监督语义模型,KΣ联系我们(三十)i=1i15tic分割网络使用unpooling和deconvolution操作,并使用来自deconvolution层的特征图Lee等人。[73]使用dropout [131]在训练和推理过程中随机选择特征,并将许多不同的定位图组合起来生成单个定位图,有效地发现图像中位置之间的关系,并在PASCAL VOC数据集上评估了他们提出的方法。7.1. 弱监督模型在医学图像中的应用丰富注释的医学图像的稀缺性限制了基于监督深度学习的医学图像分析任务解决方案[112],例如定位鉴别放射性疾病特征。因此,期望能够利用无监督和弱监督模型。Kervadec等人[65]在具有弱监督标签的数据集的损失函数中引入了一个可微项,这降低了训练的计算需求,同时还实现了与心脏图像分割的完全超视几乎相似的性能。Afshari等人。[3]使用了一个完全卷积的架构, Mumford-Shah泛函[98]启发损失函数,仅使用边界框注释作为监督,从PET扫描中分割病变。Mirikharaji等人[93]提出学习空间自适应权重图以解释像素级注释中的空间变化,并使用噪声注释来训练皮肤病变的分割模型。Taghanaki等人。[138]提出仅使用图像级标签来学习空间掩码,最小化输入和掩码之间的相互信息,同时最大化掩码和图像标签之间的相互信息Peng等人。[108]提出了一种基于交替方向乘法(ADMM)的离散约束和正则化先验训练CNN的方法。Perone等人[111]将半监督平均教师[141]方法扩展到MRI数据的分割任务,并表明它可以在现实的小数据范围内带来重要的改进。在另一项工作中,Perone等人。[109]使用自集成扩展了无监督域自适应方法,用于语义分割任务。他们展示了这种方法如何提高模型的泛化能力,即使在使用少量未标记数据时也是如此。8. 多任务模型多任务学习[16]是指一种机器学习方法,其中同时学习多个任务,并且由于任务之间存在的共性,每个任务的学习效率和模型性能都得到了提高。Bischke等人。[12]提出了一种级联多任务丢失,以保留用于分割建筑物足迹的分割掩模的边界信息,并在 航 空 图 像 标 记 任 务 上 实 现 了 最 先 进 的 性 能 。Chaichulee等人。[17]扩展了VGG16架构[126],以包括用于患者检测的全局平均池化层和用于皮肤分割的全卷积网络。在新生儿重症监护室进行的临床研究的图像上对所提出的模型进行了评估,并且对照明、肤色和姿势的变化具有鲁棒性。He等人[46]训练了一个类似U-Net [119]的编码器-解码器架构,以同时从CT扫描中分割胸腔器官并执行全局切片分类。Ke等人。[63]训练了一个多任务U-Net架构来解决三个任务-分离错误连接的对象,检测类实例,以及每个对象的像素标记,并在食品显微镜图像数据集上对其进行评估还提出了其他多任务模型,用于分割和分类,以检测图像和视频中的操作面部[100]以及乳腺活检图像[89]和乳房X线照片[72]的He等人通过添加一个新的分支来预测对象掩码以及类标签和边界框来扩展Faster R-CNN [117],并且所提出的模型被称为Mask R-CNN [44]。Mask R-CNN已被广泛用于广泛应用领域的多任务分割模型[1],例如将运动场添加到OpenStreetMap [61],手术机器人的检测和分割[133],从北极的航空图像中了解气候变化模式[166] , 将 卫 星 图 像 转 换 为 地 图 [96] , 检 测 图 像foreground [150]和分割树冠[175]。8.1. 多任务模型在医学图像处理中的应用掩模R-CNN还用于医学图像分析中的分割任务,例如在相差显微镜检查中自动分割和跟踪细胞迁移[142],从组织学和显微镜图像中检测和分割细胞核[60,144,145,149],检测和分割口腔疾病[6],分割神经性溃疡[33],以及标记和分割胸部X射线中的肋骨[154]。Mask R-CNN也已扩展到与3D体积一起工作,并已在CT扫描的肺结节检测和分割以及扩散MR图像的乳腺病变检测和分类方面进行了评价[57,70]。9. 在自然图像上测试的主要型号总结表1列出了本综述中所选论文的摘要、其拟议贡献的性质以及评估它们的数据集。16∼2012数据集[30],一个流行的图像语义分割数据集,我们还列出了他们报告的平均IoU(交集)得分。从表1中可以看出,重点主要放在架构改进上。将第一个基于深度学习的模型(即FCN)与最先进的模型(即DeepLabV 3+)相比,在平均IoU方面有很大的改进(即27%; 62.2%至89.0%)。后一种模型利用了更复杂的解码器,扩张卷积和特征金字塔池。图12:分割小对象和大对象的交叉熵和Dice损失的比较红色像素分别在左列和右列中显示条纹和粉色像素分别表示假阴性和假阳性。对于顶行(即,大前景),骰子损失返回0的情况。对于一个假阴性和对于底行(即,小对象)返回0。66,而交叉熵损失函数输出0。83、两个案子通过考虑假阴性和假阳性,在使用Dice的情况下输出值下降得更多,但交叉熵保持平滑(即, 骰子值为0。93和0的情况。50对于大和小对象相对于交叉熵损失值为1。66、两个人)。10. 讨论和未来方向通过回顾自然和医学图像分割的文献,我们观察到医学图像分割的潜在困难。例如,医学图像可以是高维度的(2D和体积),这不适合当前的GPU;因此,它们需要被处理为子体积/图像。这会阻止模型正确地捕获空间信息/关系。有时,医疗设备会产生独特且难以检测的噪声模式(偏差),这使得难以在推理时间内进行归纳。关于医学领域的另一个潜在困难是缺乏注释数据,这鼓励训练半和无监督模型。与自然图像相比,在医学图像分析模型中编码先验知识通常更有可能。在接下来的章节中,我们详细讨论了语义图像分割的潜在未来研究方向。10.1. 架构根据最先进的方法,具有长和短跳跃连接的编码器-解码器网络深度网络中的跳跃连接通过促进更深网络架构的训练和降低梯度消失的风险,改善了分割和分类性能。它们为类似编码器-解码器的网络提供了更丰富的特征表示,但代价是更高的内存使用率,计算量 , 并 可 能 导 致 传 输 非 歧 视 性 特 征 图 。 类 似 于Taghanaki et al。的方法[136],一个未来的工作方向是优化通过跳过连接传输的数据量。至于单元级架构设计,我们的研究表明,Atrous卷积与特征金字塔池化模块在最近的模型中被高度使用这些方法在某种程度上是经典卷积块的修改与[90,134]中的径向基函数层类似,未来的工作重点可以是设计新的层,以捕获数据的新方面,而不是卷积或将卷积特征
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功