深度学习技术在图像分割领域的影响：对传统方法的影响和分类

88 浏览量更新于2024-02-03 收藏 2.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1了解用于图像分割的Swarnendu Ghosh，Nibaran Das，Ishita Das，Ujjwal Maulik2019摘要机器学习社区已经被过多的基于深度学习的方法所淹没许多具有挑战性的计算机视觉任务，如无约束环境中物体的检测，定位，识别和分割，正在通过各种类型的深度神经网络（如卷积神经网络，递归网络，对抗网络，自动编码器等）有效地解决虽然已经有大量关于对象检测或识别领域的分析研究，但许多新的深度学习技术已经在图像分割技术方面浮出水面。本文从分析的角度探讨了图像分割的各种深度学习技术。这项工作的主要目标是提供一个直观的理解的主要技术，作出了重大贡献的图像分割域。本文从一些传统的图像分割方法出发，描述了深度学习对图像分割领域的影响此后，大多数主要的分割算法已经被逻辑地分类，并配有专门用于其独特贡献的段落有了大量直观的解释，读者有望提高可视化这些过程的内部动态的能力。1介绍图像分割可以定义为一种特定的图像处理技术，用于将图像划分为两个或多个有意义的区域。图像分割也可以被看作是定义图像中分离的语义实体之间的边界的过程从更技术的角度来看，图像分割是为图像中的每个像素分配标签的过程，使得具有相同标签的像素相对于某些视觉或语义属性连接（图11）。①的人。图像分割包含了计算机视觉中一大类精细相关的问题。最经典的版本是语义分割[66]。在语义分割中，每个像素被分类到预定义集合中的一个arXiv：1907.06119v1 [cs.CV] 2019年72图1：语义图像分割（来自Mapillary Vistas数据集的样本[155]）使得属于同一类的像素属于图像中的唯一语义实体。同样值得注意的是，所讨论的语义不仅取决于数据，还取决于需要解决的问题。例如，对于行人检测系统，人的整个身体应该属于同一段，然而对于动作识别系统，可能需要将不同的身体部位分割成不同的类。其他形式的图像分割可以集中在场景中最重要的对象一个特殊的问题，称为显着性检测[19]是从这个诞生这个域的其他变体可以是前景背景分离问题。在许多系统中，如图像检索或视觉问答，通常需要计算对象的数量。实例特定的分段解决了这个问题。实例特定分割通常与对象检测系统相结合，以检测和分割场景中同一对象的多个实例[43]时间空间中的分割也是一个具有挑战性的领域，并且具有各种应用。在对象跟踪场景中，像素级分类不仅在空间域中执行，而且跨时间执行。交通分析或监控中的其他应用需要执行运动分割以分析移动对象的路径。在较低语义层次的分割领域，过分割也是一种常见的方法，其中图像被划分为极小的区域，以确保边界的粘附，以创建大量的虚假边缘为代价。过分割算法通常与区域合并技术相结合来执行图像分割。即使是简单的颜色或纹理分割也可以在各种场景中使用。分割算法之间的另一个重要区别是需要来自用户的交互。虽然希望有完全自动化的系统，但来自用户的一点点交互可以在很大程度上提高分割的质量。这特别适用于我们处理复杂场景或我们没有足够的数据来训练系统的情况。分割算法在现实世界中有多种应用。在医学图像处理[123]中，我们也需要定位各种异常3如动脉瘤[48]、肿瘤[145]、癌性成分如黑色素瘤检测[189]或手术期间的特定器官[206]。另一个细分很重要的领域是监视。许多问题，如行人检测[113]，交通监控[60]需要分割特定的对象，例如人或汽车。其他领域包括卫星图像[11，17]、国防制导系统[119]、人脸[5]、虹膜[51]和指纹[144]识别等取证通常传统的方法，如直方图阈值[195]，杂交[193，87]特征空间聚类[40]，基于区域的方法[59]，边缘检测方法[184]，模糊方法[39]，基于熵的方法[47]，神经网络（Hopfield神经网络[35]，自组织映射[27]），基于物理的方法[158]等。在此目的中被广泛使用然而，这种基于特征的方法有一个共同的瓶颈，它们依赖于领域专家提取的特征的质量。通常，人类必然会错过潜在的或抽象的图像分割特征。另一方面，深度学习通常解决了自动化特征学习的问题。在这方面，计算机视觉中最常见的技术之一很快被称为卷积神经网络[110]，它通过反向传播[182]学习卷积核的级联集。从那时起，它已经得到了显着改进，具有分层训练[13]，校正线性激活[153]，批量归一化[84]，辅助分类器[52]，atrous卷积[211]，跳过连接[78]，更好的优化技术[97]等功能。所有这些都有大量新类型的图像分割技术。各种这样的技术从流行的网络中汲取灵感，如AlexNet[104]，卷积自动编码器[141]，递归神经网络[143]，残差网络[78]等。2动机关于与图像分割相关的传统技术，有许多评论和调查[61，160]。虽然其中一些专门用于应用领域[107，123，185]，而其他则专注于特定类型的算法[20，19，59]。随着深度学习技术的到来，许多新的图像分割算法已经浮出水面。早期的研究[219]已经显示了基于深度学习的方法的潜力。最近的研究[68]涵盖了许多方法，并根据其报告的性能对其进行了比较Garcia et al.[66]列出了各种基于深度学习的分割技术。他们列出了各种最先进的网络在几个现代挑战中的表现这些资源对于了解该领域的当前最新技术非常有用。虽然了解可用的方法对开发产品非常有用，但是，作为研究人员，要为这个领域做出贡献，需要了解使他们自信的方法的基本机制。在目前的工作中，我们的主要动机是回答这个问题，为什么这些方法的设计方式。理解机械原理4现代技术的发展将使应对新挑战和开发更好的算法变得更容易我们的方法仔细分析了每种方法，以了解它们为什么成功，以及为什么它们在某些问题上失败。意识到这种方法的优点和缺点，可以启动新的设计，以获得优点的好处并克服缺点。我们推荐Alberto Garcia-Garcia[66]的作品，以概述一些使用深度学习的最佳图像分割技术，而我们的重点是了解这些技术为什么，何时以及如何在各种挑战中表现图2：流行深度学习架构后续图表的图例2.1贡献这篇论文的设计方式是让新的研究人员获得最大的好处。最初，一些传统技术被讨论，以在深度学习时代之前支撑框架逐渐地，我们讨论了影响深度学习开始的各种因素，以便读者对机器学习的当前发展方向有一个很好的了解在随后的章节中，主要的深度学习算法已经以通用的方式进行了简要描述，以便在读者的脑海中建立一个更清晰的过程概念此后讨论的图像分割算法已被归类为在该领域的最后几年统治的算法的主要家族。所有主要方法背后的概念都通过一种非常简单的语言和最少的复杂数学来解释。几乎所有与主要网络相对应的图表都是使用图1所示的通用表示格式绘制的。二、已经讨论过的各种方法都有不同的体系结构表示。统一的表示方案允许5用户了解网络之间的基本相似性和差异。最后，讨论了主要的应用领域，以帮助新的研究人员追求他们选择的领域3深度学习对图像分割的影响卷积神经网络或深度自动编码器等深度学习算法的发展不仅影响了对象分类等典型任务，而且在其它相关任务中也是有效的，例如对象检测、定位、跟踪，或者在这种情况下是图像分割。3.1卷积分割的有效性作为一种操作，卷积可以简单地定义为在较大图像上卷积较小的内核时执行内核权重和输入值之间的乘积和的函数。对于具有k个通道的典型图像，我们可以沿着x和y方向卷积具有k个通道的较小尺寸的核，以获得2维矩阵格式的输出。已经观察到，在训练典型的CNN之后，卷积核倾向于生成关于对象的某些特征的激活图[214]。鉴于激活的性质，它可以被视为对象特定特征的分割掩模。因此，生成特定需求细分的关键已经嵌入到这个输出激活矩阵中。大多数图像分割算法都使用CNN的这一特性，以某种方式生成解决问题所需的分割掩码。如下图所示，3，较早的层捕获局部特征，如轮廓或一小部分一个物体在后面的图层中，更多的全局特征被激活，例如场、人或天空。从该图中还可以注意到，较早的层与较晚的层相比显示出更尖锐的激活3.2更大和更复杂的数据集深度学习给图像分割世界带来的第二个影响是过多的数据集、挑战和竞争。这些因素鼓励世界各地的研究人员提出各种最先进的技术来实现跨各个领域的细分表1列出了许多这类数据集4使用深度学习进行图像分割如前所述，卷积在生成语义激活图时非常有效，该语义激活图具有固有地构成各种语义的组件。6表1：图像分割域类别数据集[54]第一届全国政协副主席、全国政协委员[122]第122话最后一句话MIT场景解析数据（ADE20K）[222，223]语义边界数据集[75]微软研究院剑桥目标识别图像数据库（MSRC）[188]视频密集注释视频分割（DAVIS）[168]分割视频分割基准（VSB 100）[64]数据集YouTube-视频对象分割[209]自动驾驶剑桥标记视频数据库（CamVid）[23]驾驶城市景观：语义城市场景理解[41][第155话]第155话[178]第67话第一次见面的时候，我就问你[212]第212话：我的世界美国（公告牌成人另类歌曲榜）[202][213]第134话：我的世界，我的世界，我的世界ISPRS数据集[57]Google OpenStreet Map[8] DeepGlobe[49][171]第171话多发性硬化症数据库[129、25]IMT：内膜中层厚度分割数据集[148]SCR：胸部X线片中的分割[201]BRATS：脑肿瘤分割[146]LITS：肝肿瘤分割[74]BACH：乳腺癌组织学[6]IDRiD：印度糖尿病视网膜病变图像数据集[169]ISLES：缺血性卒中病变分割[135]显着性MSRA显着对象数据库[37]检测ECSSD：扩展复杂场景显著性数据集[187]PASCAL-SDATASET[117][210][211]第一届中国国际医疗器械展览会[212]场景文本KAIST场景文本数据库[112]分割[第203话][205]第205话最后一句7图3：来自典型CNN的输入图像和样本激活图。(Top行）输入图像和来自早期层的两个激活图，显示T恤等部件对象和轮廓等特征。（底部行）显示了后面图层的激活图，其中分别包含更有意义的激活，如字段、人和天空片段已经实现了各种方法来利用这些内部激活来分割图像。表2中提供了基于深度学习的主要分割算法的总结以及对其主要贡献的简要描述4.1卷积神经网络卷积神经网络是计算机视觉中最常用的方法之一，它也采用了许多简单的修改来执行分割任务。4.1.1全卷积层分类任务通常需要以类的数量上的概率分布的形式的线性输出。为了将大量的二维激活图转换成线性层，它们通常被展平。扁平化的形状允许执行全连接网络以获得概率分布。然而，这种重塑丢失了图像中像素之间的空间关系。在全卷积神经网络（FCN）[130]中，最后一个卷积块的输出直接用于像素级分类。FCN首先在PASCAL VOC 2011分割数据集上实现[54]，并实现了90.3%的像素准确度和62.7%的平均IOU。另一种避免完全连接线性层的方法是使用全尺寸平均池将一组2维激活图转换为一组标量8表2：基于深度学习的主要分割算法总结。缩略语：史：监督，W：弱监督，U：无人监管，我：互作，P：部分监督，因此：单目标优化，MO：多目标优化，AD：对抗学习，SM：语义分割，CL：类特定分割，IN：实例分割，RNN：递归模块，E-D：编码器解码器架构方法年监督学习类型模块描述SWU我P所以莫ADSMCL在RNNE-D全局平均池化2013CCC特定对象软分割DenseCRF2014CCC使用CRF增强分割FCN2015CCC全卷积层DeepMask2015CCC同时学习分割和分类U-Net2015CCCC具有多尺度特征级联的编码器-解码器SegNet2015CCCC具有转发池化索引CRF作为RNN2015CCCC将CRF模拟为可训练的RNN模块深度解析网络2015CC使用非共享内核合并高阶依赖BoxSup2015CC使用包围盒进行弱监督SharpMask2016CCCC具有多层特征融合的细化Deepmask注重规模2016CCC融合来自多尺度输入的要素语义分割2016CCC用于图像分割的Conv LSTM 和空间抑制2016CCCC使用空间抑制进行实例分割聚乐2016CCCC联合无监督学习分割eNet2016CCC用于实时分割的实例感知分段2016CCC实例分割Mask RCNN2017CCC基于区域投影网络的图像分割大内核问题2017CCCC使用更大的内核来学习复杂特征RefineNet2017CCCC用于精细分割的多路径细化模块PSPNet2017CCC多尺度池用于尺度不可知分割提拉米苏2017CCCCDenseNet 121特征提取器图像到图像翻译2017CCCC用于将图像转换为分割映射的条件GAN带注意力的2017CCCC用于图像分割的注意力模块W-Net2017CCCC基于归一化割损的无监督分割PolygonRNN2017CCCC用RNN深层级联2017CCC处理不同复杂度像素的多级方法空间传播网络2017CCC使用线性标签传播的DeepLab2018CCCAtrous卷积、空间池金字塔、DenseCRFSegCaps2018CC用于分割的对抗性协作2018CC多个网络超像素监控2018CC使用超像素细化作为监控信号深极限切割2018CCC使用极值点进行交互式分割双流融合2019CCC同时使用图像流和交互流SegFast2019CCCC在SqueezeNet编码器图4：具有多尺度特征的9价值观由于这些池化标量连接到输出层，因此对应于每个类的权重可以用于执行以下项的加权求和：在先前的层中对应的激活图。这个过程称为全局平均池（GAP）[121]，可以直接用于各种训练的网络，如残差网络，以找到可用于像素级分割的对象特定激活区。算法的主要问题是，因为这是由于中间子采样操作造成的锐度损失，选项。子采样是卷积神经网络中的一种常见操作以增加谷粒的感官面积。它的意思是，作为一个活跃的-尽管卷积映射在后续层中的大小减小，但在它们上卷积的内核实际上对应于原始图像中的较大区域。然而，它在过程中减小了图像尺寸，当上采样到原始尺寸时会失去清晰度。已经实施了许多方法来处理这个问题。对于完全卷积模型，来自先前层的跳过连接可以用于获得激活的更清晰版本，从该更清晰版本中可以获得更精细的片段。可以用粉笔画出来（参见图4）。另一项工作展示了如何使用高维内核来捕获FCN模型的全局信息，从而创建更好的分割掩码[165]。分割算法也可以被视为边界检测技术。从这个角度来看，卷积特征也非常有用[139]。虽然较早的层可以提供精细的细节，但较晚的层更多地关注较粗糙的边界。DeepMask和SharpMask DeepMask是Facebook AI Research（FAIR）的一个与图像分割相关的项目的名称。它展示了与FCN模型相同的思想流派，除了该模型能够进行多任务处理（参见图11）。5）。它有两个主要分支，图5：Deepmask网络共享特征表示。其中一个分支创建了中心对象的像素级分类或概率掩模，第二个分支生成了与对象识别准确性相对应的分数该网络与16个步幅的滑动窗口相结合，在图像的不同位置创建对象的片段网络在SharpMask[167]中进一步升级，其中每个层的概率掩码以自上而下的方式组合10图6：Sharpmask网络在每一步使用卷积细化以生成高分辨率掩模（参考图6）。sharpmask的平均召回率为39.3，超过了deepmask，后者在MS COCO分割数据集上的平均召回率为36.64.1.2地区提案网络另一个类似的翅膀，开始发展与图像分割是对象定位。像这样的任务涉及定位图像中的特定对象。这类问题的预期输出通常是一组对应于查询对象的边界框。虽然严格地说，这些算法中的一些不解决图像分割问题，但是它们的方法与该领域相关。RCNN（基于区域的卷积神经网络）CNN的引入在计算机视觉领域提出了许多新的问题。其中一个主要是像AlexNet这样的网络是否可以扩展以检测不止一个物体的存在。基于区域的CNN[70]或更常见的R-CNN使用选择性搜索技术来提出可能的对象区域，并对裁剪的窗口进行分类，以基于输出概率分布验证合理的定位。选择性搜索技术[198，200]分析了纹理，颜色或11将像素聚集成对象。与这些片段相对应的边界框通过分类网络，以筛选出一些最合理的框。最后，使用简单的线性回归网络可以获得更紧密的坐标该技术的主要缺点是其计算成本。网络需要为每个边界框命题计算一个前向传递在所有盒子之间共享计算的问题是盒子的大小不同，因此无法实现统一大小的特征在升级后的快速R-CNN[69]中，提出了ROI（感兴趣区域）池化，其中感兴趣区域被动态池化以获得固定大小的特征输出。然而，该网络主要通过候选区域建议的选择性搜索技术来检查。在Faster-RCNN[175]中，使用中间激活图来提出边界框，而不是依赖于外部特征，从而加快了特征提取过程。边界框表示对象的位置，但它们不提供像素级分段。Faster R-CNN网络被扩展为Mask R-CNN[76]，具有并行分支，执行像素级对象特定的二进制分类以提供准确的片段。使用Mask-RCNN，COCO[122]测试图像的平均精度为35.7RCNN算法家族如图7所示。区域建议网络经常与其他网络[118，44]相结合，以提供实例级分割。RCNN在HyperNet[99]的名称下通过使用来自特征提取器的多个层的特征进行了进一步改进区域建议网络也已实施，例如，具体的细分。如前所述，RCNN等方法的对象检测功能通常与分割模型相结合，为同一对象的不同实例生成不同的掩码[43]。4.1.3DeepLab虽然像素级分割是有效的，但两个互补的问题仍然影响性能。首先，较小的内核大小无法捕获上下文信息。在分类问题中，这是使用池化层来处理的，池化层相对于原始图像增加了内核的感觉区域。但是在分割中，这降低了分割输出的清晰度。由于可训练参数的数量显著增加，较大内核的替代使用往往会更慢。为了处理这个问题，DeepLab[30，32]系列算法演示了使用各种方法，如无环卷积[211]，空间池金字塔[77]和完全连接的条件随机场[100]，以高效地执行图像分割。DeepLab算法能够在PASCAL VOC 2012数据集上获得79.7的平均IOU[54]。Atrous/Dilated Convolution任何层中卷积核的大小决定了网络的感觉响应区域。虽然较小的内核提取本地信息，但较大的内核试图专注于更多的上下文信息。然而，较大的内核通常会带来更多的参数。12图7：RCNN定位和细分网络系列13××××××图8：正常卷积（红色）与回旋肌萎缩或扩张（绿色）例如，要有一个6 6的感觉区域，一个人必须有36个神经元。为了减少CNN中的参数数量，通过池化等技术在更高层增加了感觉区域。池化图层可减小图像的大小。当图像由步长为2的2 2内核合并时，图像的大小减少了25%。面积为3的核3对应到原始图像中更大的感觉区域6 6。然而，与以前不同的是，现在卷积核中只需要18个神经元（每层9个）。在分割的情况下，池化产生了新的问题。图像尺寸的减小导致所生成的片段中的锐度损失，因为减小的图被按比例放大到图像尺寸。为了同时处理这两个问题，扩张或atrous卷积起着关键作用。Atrous/Dilated卷积增加了视野，而不增加参数的数量如图8a所示，3 - 3核的膨胀因子为1，可以作用于图像中的5 - 5的区域核的每一行和每一列都有三个神经元，这些神经元与图像中的强度值相乘，图像中的强度值由膨胀因子1分开通过这种方式，内核可以跨越更大的区域，同时保持较低的神经元数量，并保持图像的清晰度除了DeepLab算法之外，atrous卷积[34]也用于基于自动编码器的架构。图9：DeepLab架构与标准VGG网络（顶部）以及级联的atrous卷积（中间）和atrous空间池金字塔（底部）的比较14Σ我空间金字塔池化空间金字塔池化[77]在R-CNN中引入，其中ROI池化显示了使用多尺度区域进行对象定位的好处。然而，在DeepLab中，atrous卷积优于池化层，用于改变视野或感觉区域。为了模拟ROI池化的效果，将具有不同扩张的无卷积的多个分支组合在一起，以利用多尺度特性进行图像分割。全连通条件随机场是一种无向判别概率图模型，常用于解决各种序列学习问题。与离散分类器不同，在对样本进行分类时，它会考虑其他相邻样本的标签。图像分割可以看作是一系列的像素分类。的标签像素不仅取决于其自身的强度值，而且还取决于相邻像素的值。这种概率图模型的使用经常用于图像分割领域，因此值得专门一节（第4.1.4节）。4.1.4利用像素间相关性改进CNN分割使用概率图形模型，如马尔可夫随机场（MRF）或条件随机场（CRF）进行图像分割，即使没有包含基于CNN的特征提取器，也会自行蓬勃发展。CRF或MRF的主要特征在于具有一元和成对分量的能量函数。E（x）=<$θi（xi）单元统计表+θij（xi，xj）IJp`airwisepouchpototentiaxl（一）虽然非深度学习方法专注于构建有效的成对势，如利用长程依赖关系，设计高阶势和探索语义标签的上下文，但基于深度学习的方法专注于生成强一元势并使用简单的成对分量来提高性能。CRF通常以两种方式与基于深度学习的方法相结合。一个作为单独的后处理模块，另一个作为端到端网络中的可训练模块，如深度解析网络[128]或空间传播网络[126]。使用CRF来改进全卷积网络最早的实现之一是启动这种边界细化范例的工作[101]随着全卷积网络用于图像分割的引入，很可能为图像中的对象绘制粗略的片段。不过，想要获得更清晰的片段，还是一个问题。在[29]的工作中，输出像素级预测被用作一个一元势，15β/×-两个-2σ2-2σ2完全连接的CRF。对于图像中的每对像素i和j，成对势被定义为：θij（xi，xj）=µ（xi，xj）第1次试验.||pi−pj||2α||2 ||22σ+w2exp.||pi−pj||2γ（二）这里，如果xi = x j，则μ（xi，xj）=1，否则为0，并且w1，w2是给予内核的权重。该表达式使用两个高斯核。第一个是双层内核，其依赖于两个像素位置（pi，pj）及其在RGB通道中的相应强度。第二个核只依赖于像素的位置。σα、σβ和σγ控制高斯核的尺度。这种成对势能函数的设计背后的直觉是确保RGB通道中相似强度的附近像素被分类在同一类下。这个模型后来也被包含在名为DeepLab的流行网络中（参见第4.1.3节）。在各种版本的DeepLab算法中，CRF的使用能够显著提高Pascal2012数据集的平均IOU（在某些情况下高达4%）。CRF作为RNN虽然CRF是任何基于深度学习的语义图像分割架构的有用后处理模型[101]，但主要缺点之一是它不能用作端到端架构的一部分。在标准CRF模型中，成对势可以用加权高斯和表示。然而，由于精确的最小化是棘手的CRF分布的平均场近似被认为是代表一个简单的版本，这只是一个独立的边际分布的产品的分布。这种自然形式在[221]的作品中，这一步被一组卷积运算所取代，该卷积运算在循环流水线上迭代，正如他们在工作中所报告的，使用所提出的方法获得了74.7的mIOU，而BoxSup和DeepLab分别为71.0和 72.7操作的顺序可以最容易地解释如下。1. 一元势上的SoftMax操作可以给我们提供初始分布。2. 消息传递：卷积使用两个高斯内核，一个空间和一个双边内核。与CRF的实际实现类似，为了高效地计算全连接CRF3. 加权滤波器输出：用具有所需通道数的11个核进行卷积，滤波器输出可以被加权和求和。权重可以通过反向传播很容易地学习。ΣΣΣ16×4. 兼容性转换：考虑到兼容性函数以保持跟踪各种标签之间的不确定性，具有相同数量的输入和输出通道的简单的11卷积足以模拟它。与potts模型分配相同的惩罚不同，这里的兼容性函数可以学习，因此是一个更好的选择。5. 添加一元势：这可以通过从一元势的兼容性变换中简单地逐元素减去惩罚来执行6. 归一化：输出可以用另一个简单的软最大值函数进行归一化.另一个受CRF启发的端到端使用深度解析网络[128]，使用一系列特殊的卷积和池化操作来提升标准VGG类特征提取器（但池化操作较少）的逐像素预测。首先，通过使用在特征图的不同位置上实现大型非共享卷积核的局部卷积，来获得对长距离依赖性进行建模的翻译依赖特征。与标准CRF类似，空间卷积基于局部标签上下文惩罚概率图。最后，使用块最小池化，它在深度上执行像素最小池化，以接受具有最低惩罚的预测。 [126]在《古兰经》中，提出了一种行/列传播模型，用于计算跨图像的全局成对关系。利用从稀疏变换矩阵中提取的密集亲和矩阵，基于像素的亲和度对粗略预测的标签进行重新分类。4.1.5多尺度网络自然场景图像的图像分割的主要问题之一是感兴趣对象的大小是非常不可预测的，因为在现实世界中，对象可能具有不同的大小，并且对象可能看起来更大或更小，这取决于对象和相机的位置。CNN的性质决定了在早期层中捕获精细的小尺度特征，而随着网络的深度移动，这些特征对于更大的对象变得更加具体。例如，由于池化或下采样等操作，场景中的小型汽车在更高层中被捕获的机会要小得多。从各种尺度的特征图中提取信息以创建与图像中的对象的大小无关的分割通常是有益的。多尺度自动编码器模型[33]考虑不同分辨率的激活以提供图像分割输出。PSPNet金字塔场景解析网络[220]建立在基于FCN的像素级分类网络上。来自ResNet-101的特征图17× × ××通过多尺度池化层，将网络转换为不同分辨率的激活，随后对多尺度池化层进行上采样并与原始特征图连接以执行分割（参见图10）。ResNet等深度网络的学习过程通过使用辅助分类器进一步优化。不同类型的池化模块集中在激活图的不同区域。各种大小的池化内核（如11、22、33、66）查看激活图的不同区域以创建空间池化金字塔。在ImageNet场景解析挑战中，PSPNet能够获得平均得分IoU为57.21，相对于FCN的44.80和SegNet的40.79图10：PSPNet的示意图RefineNet使用CNN最后一层的特征为对象分段生成软边界。这个问题在DeepLab算法中通过无环卷积避免了。RefineNet[120]采用了另一种方法，通过细化中间激活图并分层连接它来组合多尺度激活并同时防止锐度损失。该网络由ResNet的每个块的独立RefineNet模块组成。每个RefineNet模块由三个主要模块组成，即残差卷积单元（RCU ），多分辨率融合（MRF）和链式残差池（CRP）（参见图11）。RCU块由一个自适应卷积集组成，它可以微调ResNet权重的预训练权重for the segmentation分割problem问题. MRF层使用卷积和上采样层融合不同分辨率的激活，以创建更高分辨率的映射。最后，在CRP层中，使用多种大小的池化内核激活以从大图像区域捕获背景上下文。RefineNet在Person-Part数据集上进行了测试，它获得了68.6与DeepLab-v2的64.9相比，两者都使用ResNet-101作为特征提取器。4.2卷积自动编码器最后一小节涉及用于执行像素级分类以处理图像分割问题的判别模型。另一种思路是从自动编码器中获得灵感。自动编码器传统上用于从输入样本中提取特征，同时试图保留大部分原始信息。自动编码器基本上由以下部分18图11：RefineNet的示意图编码器，其将输入表示从原始输入编码为可能的根据原始输入图像和重建的输出图像之间的差异来计算损失。解码器部分的生成性质经常被修改并用于图像分割目的。与传统的自动编码器不同，在分割期间，根据重构的像素级类分布与期望的像素级类分布之间的差来计算损失。与RCNN或DeepLab算法的分类方法相比，这种分割方法更像是一种生成过程。这样的方法的问题是防止在编码过程中过度抽象图像。这种方法的主要好处是能够生成更清晰的边界，而复杂性要小得多。与分类方法不同，解码器的生成性质可以学习基于提取的特征创建精细的边界影响这些算法的主要问题是抽象级别已经看到，如果不进行适当的修改，在重建过程中造成了不一致在卷积神经网络的范例中，编码基本上是一系列卷积和池化层或跨步卷积。然而，重建可能是棘手的。从低维特征解码的常用技术是转置卷积或解池层。使用基于自动编码器的方法优于常规卷积特征提取器的主要优点之一是选择输入大小的自由度巧妙地利用了19××通过下采样和上采样操作，可以输出与输入图像具有相同分辨率的像素级概率。这种益处使得具有多尺度特征转发的编码器-解码器架构对于输入大小未预先确定并且需要与输入大小相同的输出的转置卷积转置卷积也被称为分数步长卷积，已被引入以逆转传统卷积操作的效果[156，53]。它通常被称为反卷积。然而，如信号处理中所定义的，反卷积在基本公式方面不同于转置卷积，尽管它们有效地解决了相同的问题。在卷积运算中，基于内核的填充量和步幅来计算输入的值。如图12所示，步幅2将产生步幅1的激活数量的一半。为了使转置卷积能够工作，填充和步幅应该以一种大小变化相反的方式控制。这是通过扩大输入空间来实现的。注意，与核被扩张的无环卷积不同，这里的输入空间被扩张。图12：（左）单位步长的正态卷积。（右）分数步长的转置卷积。另一种减少激活大小的方法是通过池化层。步幅为2的2 × 2池化层将图像的高度和宽度减小到2倍。在这样的池化层中，像素的2 × 2邻域被压缩成单个像素。不同类型的池以不同的方式执行压缩。最大池化考虑4个像素中的最大激活值，而平均池化取其平均值。对应的解池层将单个像素解压缩为2×2像素的邻域，以使图像的高度和宽度4.2.1跳过连接线性跳跃连接经常用于卷积神经网络中，以改善大量层的梯度流[78]。随着网络深度的增加，激活图倾向于关注越来越抽象的东西。20×理念的跳过连接已被证明是非常有效的结合不同层次的抽象，从不同的层，以产生清晰的分割图。U-NET 2015 年提出的U-Net架构被证明对各种问题非常有效，例如神经元结构分割，放射照相和细胞跟踪挑战[177]。该网络的特征在于具有一系列卷积和最大池化层的编码器。解码层包含卷积和转置卷积的镜像序列如到目前为止所描述的，它表现为传统的自动编码器。前面已经提到了抽象级别如何在图像分割的质量中发挥重要作用。为了考虑各种抽象级别，U-Net实现跳过连接，以将未压缩的激活从编码块复制到解码块中的镜像对应物，如图13所示。U-Net的特征提取器也可以升级，以提供更好的分割图。绰号为“一百层提拉米苏”的网络其他现代变体涉及使用胶囊网络[183]以及局部约束路由[108]。U-Net被选为ISBI细胞跟踪挑战赛的获胜者。在PhC-U373数据集中，它的平均IoU为0.9203，而第二好的是0.83。在DIC-HeLa数据集中，它的平均IoU得分为0.7756，明显优于第二好的方法，得分仅为0.46。图13：U-Net的架构4.2.2转发池索引由于各种原因，最大池化一直是用于减小激活图的大小的最常用的技术。激活表示图像的区域对特定内核的响应。在max pooling中，通过仅考虑在该区域内获得的最大响应，将像素区域压缩为单个值。如果典型的自动编码器在编码阶段将像素的2 ×2邻域压缩为单个像素，则解码器必须

下载后可阅读完整内容，剩余1页未读，立即下载