基于全分辨率残差网络的语义分割

183 浏览量更新于2023-10-16 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1+++++茹茹FRUFRU池化残余流解卷FRU汇集河基于全分辨率残差网络的街景语义分割Tobias Pohlen Alexander Hermans Markus Mathias Bastian Leibe视觉计算研究所德国亚琛工业大学tobias. rwth-aachen.de{hermans，mathias，leibe}@ vision.rwth-aachen.de摘要语义图像分割是现代自动驾驶系统的重要组成部分，因为对周围场景的准确理解对于导航和行动规划至关重要。当前最先进的语义图像分割方法依赖于预先训练的网络，这些网络最初是为了将图像作为整体进行分类而开发的。虽然这些网络表现出突出的识别性能（即，什么是可见的？），它们缺乏定位精度（即，什么东西在哪里？）。因此，必须执行附加的处理步骤，以便在全图像分辨率下获得像素精确为了解决这个问题，我们提出了一种新的ResNet类架构，表现出强大的本地化和识别性能。我们通过在网络中使用两个处理流将多尺度上下文与像素级精度相结合：一个流以完整的图像分辨率携带信息，从而能够精确地遵守分段边界。另一个流经历一系列池化操作以获得用于识别的鲁棒特征。这两个流耦合在全图像分辨率使用残差。在没有额外处理步骤和预训练的情况下，我们的方法在Cityscapes数据集上实现1. 介绍近年来，人们对自动驾驶汽车和驾驶员辅助系统的兴趣越来越大自动驾驶的一个关键方面是全面了解汽车行驶的环境。语义图像分割[49，38，21，53，33]是将一组预定义的类标签分配给图像像素的任务，是对通常在街道场景中发现的语义实体的复杂关系建模的重要工具在汽车场景中，它以各种方式使用，例如。作为预处理步骤，以丢弃不太可能包含图1. 示例输出和我们的全分辨率残差网络的抽象结构。网络有两个处理流。残留流（蓝色）保持完整图像分辨率，合并流（红色）经历一系列合并和取消合并操作。这两个处理流使用全分辨率残差单元（FRU）耦合。兴趣[42，15]，以改善对象检测[4，23，24，58]，或与3D场景几何结构[32，17，35]相结合。这些应用程序中的许多都需要精确的区域边界[20]。因此，在这项工作中，我们追求的目标是实现高质量的语义分割与精确的边界粘附。当前最先进的图像分割方法都采用某种形式的全卷积网络（FCN）[38]，该网络将图像作为输入并输出每个类别的概率图。许多论文依赖于已经被证明成功用于图像分类的网络架构，例如ResNet [25]或VGG架构[50]的变体。从预先训练的网络开始，其中目标任务的大量权重可以由辅助分类任务预先设置，减少了训练时间，并且与使用目标应用的（可能有限量的）数据从头开始训练网络相比，通常产生更好的性能然而，使用这种预先训练的网络的主要限制是，4151......4152严重限制了新颖方法的设计空间，因为诸如批归一化[27]或新激活函数之类的新网络元素通常不能被添加到扩展架构中。当使用FCN执行语义分割时，常见的策略是使用池化操作或跨越卷积来连续地减小特征图这样做有两个原因：首先，它显著增加了感受野的大小，其次，它使网络对图像中的小平移具有鲁棒性。虽然池化操作对于识别图像中的对象是非常理想的，但当应用于语义图像分割时，它们会显着存在几种方法来克服这个问题，并获得像素精确的分割。Noh等人[41]学习镜像VGG网络作为解码器，Yu和Koltun [55]引入了扩张卷积来降低其预训练网络的池化因子。Ghiasi等人[20]使用多尺度预测来连续改善其边界粘附性。几种方法使用的替代方法是应用后处理步骤，如CRF平滑[30]。在本文中，我们提出了一种新的网络架构，实现了最先进的分割性能，而不需要额外的后处理步骤，也没有预先训练的架构所施加的限制。我们提出的类ResNet架构通过结合两个不同的处理流，将强大的识别性能与精确的定位能力结合起来。一个流经历一系列池化操作，负责理解图像元素的大规模关系;另一个流携带全图像分辨率的特征图，导致精确的边界粘附。这个想法在图1中可视化，其中两个处理流以蓝色和红色显示。蓝色残余流反映高分辨率流。它可以与经典的残差单元（左和右）以及我们新的全分辨率残差单元（FRU）相结合来自红色汇集通道的FRU充当蓝色流的残留单元，但也经历汇集操作并通过网络携带高级信息。这导致在一个网络，连续组合和计算功能在两个分辨率。本文的主要贡献如下：（i）我们提出了一种面向街道场景中精确语义分割的新型网络架构，其不限于预先训练的架构，并实现了最先进的结果。（ii）我们建议使用两个处理流来实现强识别和强定位性能：一个流经历一系列池化操作，而另一个流停留在完整的图像分辨率。（iii）为了促进这一领域的进一步研究，我们在GitHub上发布了我们的代码和训练模型。2. 相关工作使用CNN进行语义分割所带来的显著性能改进已经在自动驾驶场景的背景下对此类算法提出了由于大量的注释数据对于训练这种深度网络至关重要，因此已经发布了多个新的数据集，以鼓励该领域的进一步研究，包括Synthia [45]，Virtual KITTI [18]和Cityscapes[11]。在这项工作中，我们专注于Cityscapes，这是一个最近的大规模数据集，由真实世界的图像和精心策划的注释组成。鉴于他们的成功，我们将把文献综述限制在基于深度学习的语义分割方法和深度学习网络架构上。语义分割方法。在过去的几年里，最成功的语义分割方法是基于卷积神经网络（CNN）的。早期的方法将其输出限制为自下而上的分割，然后是基于CNN的区域分类[54]。Farabet etet al.使用源自多个尺度的CNN特征执行逐像素分类，然后在超像素区域上聚合这些噪声像素预测[16]。介绍了Long等人提出的用于语义图像分割的全卷积网络（FCN）。[38]使用端到端训练开启了广泛的语义分割研究[13]。Long等人此外，将流行的VGG架构[50]重新表述为全卷积网络（FCN），从而能够使用该架构的预训练模型。为了提高对象边界处的分割性能，添加了跳过连接，允许信息从早期的高分辨率层直接传播到更深层。池层在FCNs中发挥着至关重要的作用，以增加后期单元的感受野大小，并与它的分类性能。然而，它们有一个缺点，即所得到的网络输出是在一个较低的分辨率。为了克服这一点，已经提出了各种策略。一些方法通过某种跳跃连接从中间层提取特征[38，8，36，7]。Noh等人提出一个编码器/解码器网络[41]。编码器通过一系列池化和卷积操作来计算低维特征表示。然后，堆叠在编码器顶部的解码器通过随后的解池和解卷积操作来学习这些低维特征的放大[56]。Simi- larly，Badrinarayananet al. [2，3]在解码器网络中使用卷积而不是去卷积。相比之下，我们的方法通过保持单独的高分辨率处理流，在整个网络中保留高分辨率信息。4153许多方法将平滑操作应用于CNN的最常见的是条件随机场（CRF）[30]应用于网络输出[9，8，12，34，6]。最近，一些论文使用专门的网络架构近似CRF的平均场干扰[57，48，37]。平滑网络预测的其他方法包括域变换[8，19]和基于超像素的平滑[16，39]。我们的方法能够快速结合高分辨率和低分辨率信息，从而实现平滑的输出预测。因此，额外的CRF平滑的实验并没有导致显着的性能改善。网络架构。自从AlexNet架构[31]在ImageNet大规模视觉分类挑战赛（ILSVRC）[47]中取得成功以来，视觉社区已经看到了CNN架构的几个里程碑。网络深度不断增加，首先是流行的 VGG 网 [50] ，然后是使用GoogleNet [51]进行批量归一化最近，许多计算机视觉应用程序都采用了ResNet架构[25]，这通常会导致与早期网络架构的性能提升所有这些发展都表明了适当的架构是多么重要。然而，到目前为止，这些网络中的大多数都是专门针对分类任务定制的，在许多情况下，包括ILSVRC的预训练步骤。因此，当执行像素到像素任务（例如，语义分割）时，其设计选择中的一些可能导致次优性能。相比之下，我们提出的架构是专门为分割任务设计的，并且在Cityscapes数据集上达到了具有竞争力的性能，而无需ILSVRC预训练。3. 用于分段的网络架构前馈网络。直到最近，大多数前馈网络，如VGG变体[50]，深度网络可以通过使用添加层的身份映射来表达原始浅网络可以表达因此，深度网络在训练数据上的表现应该至少与浅层模型一样好。违反这一原则意味着目前的训练算法很难优化非常深的传统前馈网络。He等人提出的残差网络（ResNets）表现出显着改进的训练特性，允许以前无法达到的网络深度。ResNet由一系列剩余单元（RU）组成。如图2b所示，ResNet中第n个RU的输出xn计算为：xn= xn−1+F（xn−1;Wn）（2）其中F（xn−1;Wn）是残差，由Wn参数化。因此，F不是直接计算输出xn，而是只计算与输入xn−1相加的残差。人们通常将这种设计称为跳过连接，因为从输入xn−1到输出xn的连接跳过了实际的计算F。据经验观察，ResNets已经...训练性能优于传统前馈网络。这可以通过网络内的改进的梯度流来解释为了理解这一点，考虑ResNet中的第n和第m个残差单元，其中m > n（即，第m个单元更靠近网络的输出层）。通过多次应用递归（2），Heet al.在[26]中表明，第m个剩余单元的输出允许以下形式的表示：mΣ−1xm= xn+F（xi; Wi+1）.（三）I=n此外，如果l是用于训练网络的损失，则我们可以使用微积分的链式法则并将损失l相对于第n个RU的输出xn的导数由一系列线性层组成在这样的每一层阿盖尔·阿盖尔·阿盖尔lm−1<$F（x;W）一个网络计算一个函数F和输出xn=M=+ii+1。第n层计算为xnxmxmxmI=nxn（四）xn =F（xn−1;Wn）（1）因此，我们发现其中Wn是层的参数（参见2a）。我们指l=xn这类网络体系结构与传统的前馈网络一样。Wnxn .m−1剩余网络（ResNets）。He等人观察到，深化传统的前馈网络往往会导致训练损失增加[25]。从理论上讲，火车-=100xnWn尔xm尔+xI=nF（xi;Wi+1）xn.（五）浅网络的训练损失应该是对应的深网络的训练损失的上界。这我们看到，权重更新取决于两个来源，信息，l和lm−1<$F（xi;Wi+1）。而xmxmI=nxn是因为通过增加层来增加深度ERS严格地增加了模型的表达能力其中包含的信息量可能会减少-取决于深度n，前者允许梯度M4154zm这是独立于深度的。因此，梯度可以不受阻碍地从较深的单元流向较浅的单元。这使得训练非常深的ResNet成为可能。全分辨率残差网络（Full-Resolution Residual Networks，FRRN）在本文中，我们统一了上述两个网络设计原则，并提出了全分辨率残差网络（FRRN），它具有与ResNet相同的优越训练特性，但具有两个处理流。一个流（残差流）上的特征是通过添加连续的残差来计算的，而另一个流（池化流）上的特征是应用于输入的卷积和池化操作序列的直接结果。xn−1(a) 传统前馈网络Xn(b) 残差单元(c) 全分辨率残差单元（FRU）我们的设计的动机是需要有网络，可以联合计算良好的高层次的识别功能和良好的低层次的功能定位。不管具体的网络设计如何，获得好的高级特征需要一系列的池化操作.池化操作减小了特征图的大小，并增加了网络虽然这对于获得强大的高级特征至关重要，但采用深度池层次结构的网络难以跟踪更深层中的低级特征，例如边缘和边界。这使得它们善于识别场景中的元素，但不善于将它们定位到像素精度。另一方面，不使用任何池化操作的网络则相反。它擅长定位对象边界，但在识别实际对象方面表现通过一起使用这两个处理流，我们能够计算这两种类型图2. 该图比较了不同网络设计元素。（a）示出了传统前馈网络中的层;（b）示出了残差单元;（c）示出了全分辨率残差单元。函数G.因此，没有残差计算，我们得到一个传统的前馈网络。通过仔细构造G和H，我们可以将这两个网络原理结合起来。为了表明FRRN具有与ResNet相似的训练特征，我们采用了[26]我的故事使用与前面相同的递归论证，我们发现，对于m > n，zm具有以下表示：mΣ−1zm= zn+H（yi，zi; Wi+1）.（八）I=n然后，我们可以将损失l相对于权重Wn的导数表示为：的特征同时。而FRRN的残差流计算完整图像处的连续残差分辨率，允许低水平的功能来传播努力-尔Wn尔=zznWn.尔+y∂yn中文（简体）拉日什·阿鲁尔lm通过网络，池流经历了一系列池化和非池化操作，产生良好的高级功能。图1显示了=nWn尔zm∂yn+zmI=n我我zn一期+1具有两个不同的处理流。FRRN由全分辨率序列组成，+yWn.（九）剩余单位（FRU）。每个FRU都有两个输入和两个输出，因为它同时在两个输入和两个输出上运行。因此，权重更新取决于三个输入源阵与ResNets的分析类似溪流图2c显示了FRU的结构让sources来源和<$l<$m−1<$H（yi，zi;Wi+1）取决nzmI=nznzn−1是第n个FRU的残差输入，令yn−1成为它的汇集输入。然后输出计算为zn= zn−1+H（yn−1，zn−1;Wn）（6）yn=G（yn−1，zn−1;Wn），（7）其中Wn分别是函数G和H如果G =0，则FRU对应于RU，因为它忽略了池化输入yn，并且网络有效地变成了普通的ResNet。另一方面，如果H ≥0，则FRU的输出仅取决于其输入，F（xn−1;Wn）xn−1F（xn−1;Wn）+Xnzn−1yn−1H（yn−1，zn−1;Wn）G（yn−1，zn−1;Wn）+znynnnn4155关键地取决于深度n，而项λ 1与深度无关。因此，我们实现了一个深度无关的梯度流的所有参数所使用的残差-函数H.如果我们使用这些权重中的一些来计算G的输出，则单元的所有权重都受益于改进的梯度流。这最容易通过重用G的输出来计算H来实现。然而，我们注意到其他设计是可能的。图3显示了我们提出的FRU设计。该单元首先通过使用池化层来连接两个传入流，以便减小残余流的大小然后通过两个卷积41564848CCMzn−1yn−1znFRRN Aconv5×5+ BN+ ReLU3 ×RU48ynFRRN Bconv5×5+ BN+ ReLU3 ×RU48图3.该图显示了我们的全分辨率残差单元（FRU）设计内部的红色框标记由函数G计算的单元部分，而外部的蓝色框指示由函数H计算的部分。单位每个卷积单元由一个3×3卷积层组成，后面是一个批归一化层[27]和一个ReLU激活函数。第二个骗局的结果--卷积单元以两种方式使用首先，它形成网络中下一个FRU的池化流输入，其次，它是计算残差的基础。为此，我们首先使用1×1卷积调整特征通道的数量，然后使用unpooling层。因为特征可能必须被显著地放大（例如，因子为16），我们发现，通过沿着空间维度重复条目的简单放大比双线性插值执行得更好。在图3中，内部的红色框对应于函数而外面的蓝框对应于函数H。我们可以看到，G的输出用于计算concatenate3 ×RU48conv1×1+偏倚Softmax17.7M参数concatenate3 ×RU48conv1×1+偏倚Softmax24.8M参数因为红框完全包含在蓝框中如上所示，这种设计选择导致所有重量的装置具有优良的梯度流动特性。表1显示了我们使用的两种网络架构，以评估我们的方法的分割性能。所提出的架构是基于其他作者所采用的几个原则。我们遵循Nohet al. [41]并使用编码器/解码器公式。在编码器中，我们使用max表1.下表显示了我们的两种网络设计。通过convk×k，我们表示具有m个大小为k × k的核的卷积层。K.符号RUm和FRUm分别指卷积具有m个通道的残差单元和全分辨率残差单元。参数c表示要预测的类的数量。K个像素上的交叉熵损失被定义为1ΣN合并操作。然后将池化的特征图进行分类，在解压缩过程中使用双线性插值进行放大，l=− K i=1 1[pi，yitK]logpi，yi，（10）编码器此外，类似于Simonyan和Zisserman [50]，我们定义了一些基本通道，在每次池化操作后将其加倍（直到某个上限）。我们使用48个通道，而不是像VGG网络那样选择64个基本通道，以便具有可管理的可训练参数数量。根据输入图像的分辨率，我们使用FRRN A或FRRN B来保持感受野的相对大小一致。4. 训练过程继吴等人之后，我们通过最小化自举交叉熵损失来训练网络[52]。设c为数字类，y1，...， y N∈ {1，...， c}是用于像素1，.， N，并且令pi，j是类j和像素i的后验类概率。然后，其中1[x]=1当且仅当x为真且选择tk∈R使得|{i∈{1,..., N}：pi，yi

下载后可阅读完整内容，剩余1页未读，立即下载