深层级联：提高语义分割准确性和速度的新方法

163 浏览量更新于2023-10-16 收藏 2.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3193背景奶牛容易中度硬并非所有像素都是相等的：基于深层级联的李晓晓1刘紫薇1罗萍2，1陈昌来1，2唐晓鸥1，21香港中文大学资讯工程学系2深圳市计算机科学重点实验室。目视专利建议：中国科学院深圳先进技术研究院{lx015，lz013，pluo，ccloy，xtang}@ ie.cuhk.edu.hk摘要（一）提出了一种新的深层级联（LC）方法以提高语义分割的准确性和速度。与由多个独立模型组成的传统模型级联（MC）不同，LC将单个深度模型视为多个子模型的级联。较早的子模型经过训练以处理简单和自信的区域，并且它们逐渐将较难的区域前馈到下一个子模型进行处理。卷积仅在这些区域上计算以减少计算。所提出的方法具有几个优点。首先，LC在浅层阶段对大多数容易区域进行分类，（b）第（1）款72.5%使更深的阶段集中在一些硬区域。这样的自适应和其次，由于在浅层阶段的早期决策，LC加速了深层网络的训练和测试。第三，与MC相比，LC是端到端的可训练框架，允许所有子模型的联合学习。我们在PASCAL VOC和Cityscapes数据集上评估了我们的方法，实现了最先进的性能和快速的速度。1. 介绍语义图像分割具有广泛的应用，例如视频监控[9，36]和自动驾驶[10，5]。最近的高级深度架构，如残差网络（ResNet）[13]和Inception [32]，通过增加深度模型中参数的深度和数量，显着提高了图像分割的准确性。例如， ResNet-101 的深度是 VGG-16 的六倍[29]，在具有挑战性的PASCAL VOC 2012图像分割基准测试中，前者的性能比后者高出4%[8]。虽然通过增加模型容量可以实现有希望的结果，但它们是有代价的运行时的复杂性，这阻碍了部署图1：（a）显示了“奶牛”和“背景”的图像（左）以及Pascal VOC 2012数据集的地面实况标签图（中）。难度级别（例如在右侧图像中，像素的“易识别性”（即，“可识别性”）被可视化，其中像素被划分为三个集合，包括(b)描绘了两个直方图。左侧绘制了VOC验证集中像素相对于每个对象类别的百分比。可以观察到，ES占据大多数对象的至少30%像素。右图显示，HS中70%的像素位于对象边界，具有很大的歧义性。最佳彩色观看，300%变焦。在许多需要实时性能的应用程序中使用现有的深度模型。例如， VGG ， ResNet-101 和 Inception-ResNet 在300×500图像上的分割速度分别为5.7，7.1和9.0帧每秒（FPS），这与实时性相去甚远。为了解决这个针对这一问题，本文提出了深度层级联（LC），它不仅大大减少了深度模型的运行时间，而且提高了它们的分割精度。许多深度架构，包括VGG、ResNet和Inception，都可以通过将其结构调整为LC来受益于上述吸引人的特性层级联继承了传统模型级联（MC）的优点[18，35]，它有多个阶段，通常在每个阶段训练一个分类器。MC能够同时提高物体的速度和精度百分之四点八容易中度硬68.0%百分之二点六1.8%1.7%二点二0.9%1.1%1.0%百分之零点九百分之一点三1.1.2%1.4%0%的百分比1.1%1.2%百分之零点八百分之零点六0.7%0.8%百分之零点六百分之十九点零6.7%边界像素VOC块上的像素百分比自行车鸟船瓶子公共汽车猫椅子牛桌子狗马自行车人植物羊沙发火车电视简单模式3194由于较早的阶段（分类器）拒绝大多数容易的样本（检测窗口），并且较晚的阶段可以关注少量困难的样本，因此减少了错误警报。与MC不同，LC是针对图像分割任务中的深层模型而精心设计的。它将深度网络中的不同层视为不同的阶段。特别是，图像中的大多数像素都可以由较低的阶段识别，而通常拥有比底层多得多的参数的较高的阶段被学习以识别一小部分具有挑战性的像素。在这种情况下，深度模型的运行时间此外，与MC通过保持所有先前阶段固定来学习当前阶段不同，LC联合训练所有阶段以提高性能。LC和MC之间的另一个重要区别是级联策略。在MC中，当前阶段将样本传播到下一阶段，如果其分类得分或概率（即，softmax之后的响应）高于大阈值，例如0。95，表明该样本在95%置信度下被当前阶段归类为阳性。换句话说，后面的阶段细化在前面的阶段中被认为是高度阳性的样本的标签，以减少假警报。相比之下，LC在早期阶段“拒绝”具有高分的样本，但那些具有低和中等置信度的样本被向前传播。图1以LC的分割结果为例来说明这种级联策略。在（a）中，“奶牛”和“背景”的图像我们将验证集中的所有像素划分为三个不同的集合，即易集（ES）包含以大于95%的置信度正确分类的像素中等集合（MS）覆盖具有小于0.95的分类分数的像素。在LC的某个阶段，ES和HS被丢弃，MS被传播到下一阶段，这是由于以下两个原因。首先，如图1右侧直方图所示。1（b），我们观察到HS中几乎70%的1像素位于对象之间的边界上，这表明这些像素由于大的模糊性而非常难以识别。一个例子是由右图图。第1（a）段。在训练期间拟合HS可能导致在测试阶段过度拟合第二，图2的左侧直方图1（b）绘制了VOC值中每个对象类别的像素百分比对于大多数类别，我们1我们发现HS中其他30%的像素有错误的注释。由于我们的目的是提高深度模型的速度和准确性，因此我们不会纠正这些错误的注释，以便与以前的作品进行公平的比较发现至少30%的像素属于ES。由于背景像素占主导地位（72.5%），拒绝ES和HS在早期阶段减少了40多个当前像素，从而显着减少了深度网络的计算，同时通过使更深层关注前景对象来提高准确性本研究的主要贡献有三。(1)这是第一次尝试识别深度模型的像素分割难度。有了这个观察，一部小说《深》层级联（LC）方法被提出来显著减少深度网络的计算，同时提高其分割精度。(2)LC在Inception-ResNet-v2（IRNet）[32]上应用LC后，其速度和准确性分别提高了42.8%和1.7%。(3)LC和以前的模型之间的联系，如模型级联，深度监督网络[17]和dropout [30]。进行了大量的研究，以证明LC的优越性。2. 相关工作语义图像分割。虽然早期的努力集中在具有手工特征的结构模型上[15，16，34，38]，但最近的研究采用深度卷积神经网络（CNN）来学习强表示，这显着提高了分割精度[3，22，23，25，40]。例如，Longet al.[25] 将 CNN 的全连接层转换为卷积层，使用在ImageNet上预先训练的当代CNN架构进行精确的逐像素分类[7]。Chen等人[3]，Zhenget al. [40]和Liuet al.[22，23]进一步表明，马尔可夫随机场（MRF）的反向传播和虽然这些模型的精度很高，但通常计算成本很高，无法实时部署。另一个研究方向[1，21，27]通过使用轻量级网络架构来解决这个问题。例如，SegNet [1]采用了卷积编码器-解码器，并删除了不必要的层以减少参数的数量。ENet [27]使用了瓶颈模块以减少卷积的计算。虽然这些网络的速度加快了，但它们牺牲了以前深度模型中的高这项工作提出了深层级联（LC），它提高了现有深度网络的速度和准确性。它在 Pascal VOC 和Cityscape数据集上实现了最先进的性能，并实时运行。深度学习级联。已经研究了网络级联[2，18，26，33，24]，以提高分类[26]、检测[18]和姿态估计[33]的性能为例如，深度决策网络[26]通过将简单数据从3195图片I股骨柄5×IRNet-A还原-A10×IRNet-B还原-B5×IRNet-C转换L3背景car马无名氏马图像主干5×IRNet-A还原-A10×IRNet-BReduction-B 5×IRNet-C（b）LC全连接SoftmaxConvL1ConvL2图2：（a）描述了用于分类任务的Inception-ResNet-v2（IRNet）。(b)IRNet-LC（Layer Cascade IRNet）是IRNet-LC的一种架构。右边的表格显示了IRNet的结构。很难具有高度混淆的困难情况将由后续的专家网络传播和处理Li等[18]使用CNN级联进行人脸检测，在早期阶段快速拒绝错误检测，并在后期阶段仔细改进检测DeepPose [33]采用分而治之的策略，并设计了一个级联的深度回归框架用于人体姿势估计。与之前单独训练每个网络的网络级联不同，LC被联合优化以提高分割精度。3. 深层级联（LC）秒3.1以Inception-ResNet-v2 [32]为例来说明如何将深度模型转换为LC。该方法可以很容易地推广到其他深度网络。秒3.3介绍了LC的训练算法。3.1. 将深度模型转化为LC网络概述。为了说明 LC 的有效性，我们选择在ImageNet数据集上预训练的Inception-ResNet-v2作为强基线，表示为IRNet，它在Pascal VOC 2012验证集上的表现优于ResNet-101 1.2%。实验表明，LC是能够实现1.7%的改进，在这个竞争力的基线。图2（a）显示了IRNet的架构，它有六个不同的组件，包括“Stem”，“IRNet-A/B/C”和“Reduction-A/B”。不同的组件具有不同的层配置，例如卷积层、池化层和级联层。图的右栏。图 2 分别显示了 “Stem” 和“IRNet-A/B/C”的结构，包括层类型、内核大小和通道数量（括号内）。除非另有说明，否则步幅通常等于1。例如，渠道更具体地说，输入图像被转发到具有3×3内核的三个卷积层，然后学习的特征被分成两个流，分别具有3个和5个卷积层与IRNet类似的网络结构在图像识别方面取得了巨大成功[32]。然而，两个重要的修改是必要的，以适应它的图像分割。首先，为了提高预测的分辨率，我们删除了IRNet末尾的池化层，并通过减少“Reduction-A/B”中的卷积步长（从2到1）来扩大特征图的大小。在这种情况下，我们通过以下方式扩展网络输出（标签映射）的大小：4倍。我们还将IRNet-B/C中的卷积替换为类似于[ 3 ]的扩张卷积。第二，作为特征高分辨率的地图在学习过程中消耗大量的GPU内存，它们限制了小批量的大小（例如，8），使批归一化（BN）层[14]不稳定（因为需要从小批量数据中估计样本均值和方差）。我们通过简单地固定BN中所有参数的值来处理这个问题。这一战略在实践中行之有效。从IRNet到LC（IRNet-LC）。IRNet通过将其不同组件划分为不同阶段而变成LC。级数为3，这是以前级联方法中的常见设置[18，31，33]。如图在图2（b）中，在“还原-A”之前的组分被认为是第一阶段，在“还原-A”和“-B”之间的组分是第二阶段，并且剩余层成为第三阶段。在图2（b）中，这三个阶段分别以黄色、绿色和蓝色区分。例如，阶段1包含一个“Stem”、五个“IRNet-A”和一个“Reduction-A”。此外，我们在每个阶段的末尾添加了两个卷积层和一个softmax损失。在这种情况下，具有一个损失函数的原始IRNet发展为多个(a)IRNet池化第3阶段阶段-2阶段-1阀杆：输入（3）IRNet-B：前一层（1154）Conv 3*3（32）步幅=2以前的（1154）Conv1*1（192）Conv 1*1（128）Conv 3*3（32）Conv 1*7（160）conv 3*3（64）conv 7*1（192）maxpool 3*3（64）stride=2conv 3*3（96）stride=2中文（简体）Conv 1*1（1154）中文（简体）添加（1154）Conv 1*1（64）Conv 1*1（64）Conv 7*1（64）IRNet-C：上一层（2048）conv 3*3（96）Conv 1*7（64）以前的（2048）Conv1*1（192）Conv 1*1（192）conv 3*3（96）Conv 1*3（224）中文（简体）Conv 3*1（256）conv 3*3（192）stride=2maxpool 3*3（192）stride=2中文（简体）Conv 1*1（2048）中文（简体）添加（2048）IRNet-A：前一层（384）3196我我我IJℓ我阶段，每个阶段都有自己的损失函数。现在我们介绍IRNet-LC中三个阶段的信息流在第一阶段，如图所示。2（b），给定3×512×512图像I，阶段1预测21×64×64分割标记图L1，其中每21×1列向量表示为L1∈R21×1，表示概率第i个pix el的置信度（置信度分数）(a) 卷积分别在VOC中。我们有21j=11 =1，这可以通过使用softmax函数来满足如果第i个像素的最大得分，R1=max（L1），以及11111i∈{Lij|j=1…21}，大于阈值ρ（ρ≥ρ），我们接受它的预测，而不把它向前传播，到第二阶段 ρ的值通常大于0.95。作为(b) 区域卷积（c）残差在SEC中介绍。1，阶段-1中的那些像素，其满足0的情况。95占据了一幅图像近40%的区域，包含了大量的易像素和少量的极难像素很有可能被误分类。将它们从网络中移除，可以显著减少计算并提高准确性，使更深层的层能够专注于前景对象。阶段2严格遵循与上述相同的过程来确定哪个像素被转发到阶段3。换句话说，LC只向IRNet引入了一个超参数ρ在我们的实现中，阶段1和阶段2的ρ值相同。具体来说，ρ表示在每个阶段中有多少容易和极难像素被拒绝（丢弃）。较大的ρ值会丢弃较少的像素，而较小的ρ值会丢弃更多的像素。当ρ=1时，0，则没有像素被拒绝。IRNet-LC成为原始IRNet。当ρ=0. 9，52%和35%的像素分别在阶段1和阶段2中被丢弃。然而，如果ρ变小，即ρ<0。9、更多位于对象重要部分的“适度”像素被丢弃，阻碍了深度模型的性能。实验表明，当ρ∈[0. 九，一。0]。例如，当ρ=0时。95，IRNet-LC获得了接近18 FPS的实时性，而IRNet的FPS为9 FPS，同时在VOC值上的准确性优于它0.8%当ρ=0. 985，IRNet-LC将IRNet提高了1.7%，速度为15FPS。在将图像传播通过所有三个阶段之后，我们直接将这些阶段的预测标签映射组合为最终预测，因为不同的阶段预测不同的区域。例如，如图2所示2（b），阶段-1信任大多数“背景”（像素值≥ ρ）中的预测该区域中的像素被标记为1<ρ。在阶段2中，学习预测“较难”的这个过程在第三阶段重复。图3：（a）显示了操作的传统卷积在整个图像上。(b)是区域卷积（RC），其中滤波器仅卷积表示为M的不规则感兴趣区域。其他区域的值被设置为零。(c)示出了残差模块中的RC。最好用彩色观看。3.2. 区域卷积如上所述，阶段2和阶段3仅计算已经向前传播的那些像素上的卷积。图3（b）示出了与（a）中的传统卷积相比的该区域卷积（RC），其应用于整个特征图。RC中的滤波器只卷积一个感兴趣的区域，表示为M，而忽略其他区域，大大减少了计算量。其他区域的值直接设置为零。M可以被实现为二进制掩码，其中M内的像素等于1，否则为零。具体地，（c）示出了如何在残差模块上应用RC，其可以表示为h（I）=I+conv（I），其中特征h通过以下等式的恒等映射[13]获得：以及I上的卷积。我们用上面介绍的RC代替传统的卷积，特征h′（I）是I和RC输出之间的元素和。这相当于学习一个掩码残差表示，其中M内的值是RC的输出，M外的值是从I复制的。它工作得很好，因为LC中的不同阶段处理不同的非重叠区域，并且每个阶段只需要学习它所关注的区域的特征。3.3. 培训IRNet LCIRNet的参数通过ImageNet中的预训练进行初始化。由于IRNet-LC在每个损失函数之前堆叠了额外的卷积层，因此它们的参数通过从正态分布中采样来初始化。给定一组图像及其每像素标签映射，IRNet-LC分两步学习，第一步旨在初始训练，第二步采用级联训练。初始培训。这一步类似于深度监督网络（DSN）[17]，它在网络的不同层有多个相同的其目标+ML3197通过对ImageNet中的一千个图像类别进行分类，使预先训练好的IRNet适应图像分割任务。它学习有区别的和鲁棒的特征。在IRNet-LC中，每个阶段都经过训练以最小化逐像素softmax损失函数，从而测量整个图像的预测标签图和地面真实标签图之间的差异。这些损失函数联合优化使用反向传播（BP）和随机梯度下降（SGD）。级联训练。一旦我们完成了初始训练，我们通过利用第二节中介绍的ρ级联策略来微调IRNet-LC的每个阶段第3.1条与非线性步骤类似，所有阶段都是联合训练的，但不同阶段会最大限度地减少其像素级softmax损失，(a) 输入图像(b) 阶段1（c）阶段2（d）阶段3(e)地面实况不同地区更具体地说，BP中的梯度仅传播到每个阶段中的感兴趣区域，这能够学习与特定难度级别中的区域（像素）相对应的判别特征直观地说，当前阶段对前一阶段中具有低置信度的像素进行微调，使3.4. 与先前模型的LC和MC之间的联系和区别已在第二节中讨论。1.一、LC还涉及深度监督网络（DSN）[17]和dropout[30]。DSN。与DSN类似，LC为每个阶段增加了监督。然而，为了实现硬/易区域的自适应处理，LC针对不同阶段采用不同的监督。相比之下，在每个阶段的DSN保持不变。具体而言，LC中的逐阶段监督由每个像素的估计难度确定。通过这种方式，LC的每个阶段都能够专注于具有类似难度的区域。辍学生LC连接到dropout，因为这两种方法都丢弃了特征图中的一些区域，但它们本质上是不同的。LC丢弃那些像素，置信度，并只传播困难的像素向前到后续阶段。容易和模糊的区域在上层被永久地丢弃，以减少计算，而更深层则更多地关注“硬”区域，如前景对象。Dropout随机地将每层中的像素独立地归零。它可以防止过度拟合，但会稍微增加计算量。在实验中，LC与丢弃比较，确定性能增益主要来自所提出的级联策略。4. 实验设置 . 我们在 PASCAL VOC 2012 （ VOC 12 ） [8] 和Cityscapes [5]数据集上评估了我们的方法。VOC12数据集是一个通用的对象分割基准，图4：VOC12中不同阶段输出的可视化数据集。最好用彩色观看。21节课。在以前的工作之后，我们还使用了[12]提供的额外注释，其中包含10，582个用于训练的图像，1，449个用于验证的图像，以及1，456个图片测试。另一方面，城市景观数据集，主要研究街道场景分割，包含19个类别。在我们的实验中，我们只采用具有精细像素级注释的图像。有2975个训练，500个验证和1525个测试图像。这与现有研究一致[19，4]。我们采用平均交大于并（mIoU）来评估不同方法的性能。4.1. 消融研究在本节中，我们研究了LC中调整概率阈值的效果，并通过与其他同行的比较来证明LC的优点。所有性能均在VOC 12的验证集可能性不大。在LC的每个阶段，我们使用softmax层的像素概率来表示预测的置信度。通过选择合适的概率阈值ρ，LC可以分离出容易处理的区域、中等处理的区域和极难处理的区域。如第3.1，ρ控制每个阶段丢弃多少容易和极难像素。表1列出了阶段1 - 2中处理的像素百分比以及ρ变化时的整体性能。如果ρ=1，LC将退化为DSN，这比完全卷积的IRNet稍好。当ρ减小时，更容易的区域在早期阶段被分类，而困难的区域在后期阶段被逐步处理。可以理解作为硬负采矿[11，28]，这提高了性能。另一方面，如果ρ的值太小，算法可能变得过于乐观，即。许多硬区域在早期阶段被处理，并作出早期决定。当硬区域没有使用更深层接收到足够的推理时，过早的决策会损害性能。如表1所示，当背景未知飞机人瓶猫公共汽车汽车3198表1：概率阈值ρ的消融研究。阶段-22百分比的像素1.81.61.41.21猫车表2：与相关方法的比较。21.81.61.41.21第3阶段椅子表百分之四点九百分之十四点三ρ=0。985，即，LC在早期阶段处理约52%的区域，并实现最佳性能。该值用于所有以下实验中。在实践中，可以使用验证集根据经验选择ρ第一阶段第二阶段第三阶段(a)（b）第（1）款图5：（a）是阶段2和阶段3中标签分布的变化。(b) 显示了在不同阶段中分类的像素的百分比。标签任务，我们有丰富的训练数据来支持学习任务。第三，模型级联（MC）的性能甚至比基线IRNet更差。这是因为MC将IRNet划分为几个独立的子模型。层级联的有效性。到显示的LC的优点，我们将其与第二节中讨论的一些重要同行进行比较。3.4，包括：• IRNet [32]：我们使用第二节中描述的模型。3.1作为基准。为了进行公平的比较，以下所有方法基于该骨干网络。• DSN [17]：通过设置ρ= 1，我们使LC退化为DSN，其中每个阶段处理所有区域，监督是最终目标。• DSN [17] + Dropout [30] ：为了区分我们的方法与dropout，LC与配备随机每个阶段的标签丢失。我们保持脱落率与LC相同。• 模型级联：MC具有与LC相似的网络架构，但具有不同的训练策略，如第2节所述。1.一、具体来说，MC将IRNet分为三个阶段，每个阶段都单独训练。当我们训练某个阶段时，我们固定所有先前阶段的参数这里采用与LC中相同的阈值，即，ρ= 0。九百八十五结果总结在表2中。我们在这里有三个观察。首先，深度监管（DSN）的改进相对有限，这只会导致0的情况。与基线IRNet相比，48由于ImageNet上的预训练是语义分割的常见做法[25]，这有效地防止了梯度爆炸或消失，它使深度监督的优势边际化。其次，随机标签丢失不会对结果产生显著影响。结果是预期的，因为dropout技术旨在减轻给定小训练数据大小的过拟合风险。然而，语义分割是逐像素的，但是每个子模型都很浅，从而削弱了整体建模能力。相反，LC具有级联的吸引人的性质，并且还保持了整个模型的固有深度。保持模型深度自适应硬区域的能力，使我们的方法在比较中脱颖而出。4.2. 阶段分析在本节中，我们将演示LC如何为不同的类启用自适应处理，并可视化由不同区域处理的区域。阶段式标签分发。首先，我们提供跨不同阶段的标签分布分析。这里我们以VOC12中的20个类（不包括“背景”）为例。图图5（a）示出了在阶段2和阶段3中像素的数量如何例如，上面的直方图示出了每个类别的比率，其通过将其在阶段2中的像素数除以在阶段3中的像素数而获得。第一阶段。比率大于1表明阶段2比阶段1更关注相应的类。我们发现，所有的比率都增加了，属于范围一赔一4.第一章这是因为阶段1已经处理了容易的区域（即， “前景”）到阶段2。在底部直方图中可以类似地获得当比较阶段3和阶段2时，我们可以看到阶段3进一步关注更难的类（例如，“自行车”、“椅子”和“餐桌”）。LC学习以“困难意识”的方式处理样本。我们还进行了按类分析，如图所示。5（b）。像“chair”和“table”这样较难的类阶段可视化。在这里，我们可视化了VOC 12和VOC14的不同阶段的输出标签图。百分之十点三百分之四十三点七百分之四十五点九百分之八点二52.6%39.2%百分之六点六百分76.8%标签百分比比率标签百分比比率自行车鸟船瓶子公共汽车猫椅子牛桌子狗马自行车人植物羊沙发火车电视自行车鸟船瓶子公共汽车猫椅子牛桌子狗马自行车人植物羊沙发火车电视ρ10.995 0.985 0.970 0.950 0.930 0.900 0.8001期（%）2期（%）001514232930313530354144315629mIoU（%）72.70 73.56 73.91 73.63 73.03 72.53 71.20 66.95mIoU（%）IRNet [32]72.22[第17话]72.70[30]第30话：我的世界72.63模型级联（MC）44.20层级联（LC）73.913199未知路树建筑天空车极红绿灯交通标志(a) 输入图像(b) 阶段1（c）阶段2（d）阶段3（e）地面实况图6：Cityscapes数据集中不同阶段输出的可视化。最好用彩色观看。城市景观，如图。4和6。并划分了不同阶段的不确定在VOC12中，像“背景”和“人脸”这样的容易区域剩余的前景和边界区域然后由LC中的阶段2和阶段3类似地，在Cityscapes中，像“道路”和“建筑物”这样的简单其他小物体和细节，如4.3. 性能和速度分析与DeepLab和SegNet的比较。为了突出性能和速度之间的权衡，我们将提出的LC模型与两种代表性的最先进方法DeepLab-v2 [4]和SegNet [1]进行了比较。报告了VOC 12的性能，总结见表3。运行时速度是在单个Titan X GPU上测量的为了确保公平的比较，我们评估DeepLab- v2和SegNet时没有任何预处理和后处理，例如，使用额外数据进行训练，多尺度融合或使用条件随机场（CRF）进行平滑。DeepLab-v2达到了70的可接受mIoU。四十二尽管如此，它使用超深的ResNet-101模型作为骨干网络，其推理速度因此很慢（7。1FPS）。相反，SegNet由于模型尺寸较小而速度更快，但其准确性大大降低。特别是，它将速度提高到14。6FPS通过牺牲超过10mIoU。建议的LC在性能大幅下降的情况下满足了具有区域卷积的级联端到端可训练框架使其能够实现最佳性能（73. 91表3：层级联（LC）与现有方法的性能和速度的比较。MiouMSFPSDeepLab-v2 [4]SegNet [1]70.4259.90140.069.07.114.6LCLC（快速）73.9166.9565.142.514.723.6mIoU），具有可接受的速度（14. 7FPS）。进一步的性能和速度权衡。值得指出的是，LC的运行时间可以通过降低ρ来进一步减少，以允许早期阶段处理更多的区域。性能和速度的权衡如图所示。7（a）与相应的ρ值。据观察，降低ρ对精度略有影响，但它大大减少了计算时间。值得注意的是，当LC在23. 6FPS，它仍然表现出66的竞争力mIoU。95，相比之下，七十42人在7点投降。1FPS。我们还在图中包含了每个阶段的运行时。第7（b）段。为获得更高性能而增加的计算主要来自后期阶段。4.4. 基准在本节中，我们展示了LC可以在标准基准测试（如VOC12 [8]和Cityscapes [5]数据集）上实现在[4]之后，采用了atrous空间金字塔池化[4]、三尺度检验和密集CRF [16]。VOC12。表4列出了每个类别和总体平均IoU3200表4：VOC 12测试集的每类结果。在COCO [20]上预先训练的方法用†标记。阿雷奥自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视Miou[25]第二十五话76.834.268.949.460.375.374.777.621.462.546.871.863.976.573.945.272.437.470.955.162.2DeepLab [3]84.454.581.563.665.985.179.183.430.774.159.879.076.183.280.859.782.250.473.163.771.6RNN [40]87.539.079.764.268.387.680.884.430.478.260.480.577.883.180.659.582.847.878.367.172.0阿德莱德[37]91.948.193.469.375.594.287.592.836.786.965.289.190.286.587.264.690.159.785.572.779.1RNN [40]90.455.388.768.469.888.382.485.132.678.564.479.681.986.481.858.682.453.577.470.174.7[6]第六话89.838.089.268.968.089.683.087.734.483.667.181.583.785.283.558.684.955.881.270.775.2DPN† [22]89.061.687.766.874.791.284.387.636.586.366.184.487.885.685.463.687.361.379.466.477.5DeepLab-v2† [4]92.660.491.663.476.395.088.492.632.788.567.689.692.187.087.463.388.360.086.874.579.7LC94.163.091.267.979.593.490.093.837.483.765.990.786.188.887.568.586.964.385.672.280.3LC†85.566.794.567.284.096.189.893.547.290.471.588.991.789.289.170.489.470.784.279.682.7表5：Cityscapes测试集上的每类结果。子路swalk build. 壁围栏极特莱特签署veg. 地形天空人骑手小汽车卡车公共汽车火车mbike自行车MiouRNN [40]296.3 七十三点九八十八点二 47.6 四十一点三三十五点二四十九点五五十九点七九十点六 66.1 93.5 70.4 三十四点七 90.1 三十九点二五十七点五五十五点四四十三点九五十四点六62.5DeepLab [3]297.3 七十七点七八十七点七 43.6 四十点五二十九点七四十四分五五十五点四八十九点四六十七点零九十二点七七十一点二四十九点四 91.4 四十八点七五十六点七四十九点一四十七点九五十八点六63.1[25]第二十五话没有97.4 七十八点四八十九点二三十四点九四十四点二四十七点四 60.1 65 91.4 69.3 九十三点九七十七点一51.4 九十二点六三十五点三四十八点六四十六点五 51.6 六十六点八65.3DPN [22]没有97.5 七十八点五八十九点五 40.4 四十五点九 51.1 56.8 六十五点三九十一点五 69.4 九十四点五七十七点五五十四点二九十二点五四十四分五五十三点四四十九分 52.1 六十四八66.8[39]第39话没有97.6 七十九点二 89.9 三十七点三分 47.6 五十三点二五十八点六 65.2 九十一点八 69.4 九十三点七七十八点九55 93.345.553.447.752.2 6667.1DeepLab-v2 [4] 没有97.8 81.3 九十点三四十八点七四十七点三四十九点五五十七点八六十七点二九十一点八 69.4 九十四点一七十九点八五十九点八九十三点七五十六点五六十七点四五十七点四57.6 六十八点八70.4阿德莱德[19]没有98.082.690.644.050.751.165.071.792.072.094.181.561.194.361.165.153.861.670.671.6LC没有97.983.191.653.757.458.462.073.391.961.393.878.853.193.462.276.953.557.0七十四点七71.1图7：（a）显示了通过调整ρ在层级联（LC）中的性能和速度权衡。（b）是每个阶段所用的时间VOC12测试仪在COCO”[20]这是一个比喻。LC实现了80的mIoU。3，并进一步将mIoU提高到82。7与COCO上的预训练，这是VOC 12基准测试中表现最好的方法。通过仔细观察，我们观察到LC赢得了20个前景类中的16对于其他4类，LC也取得了竞争力的表现。在某些特定类别中观察到较大的增益，例如“自行车”、“椅子”、“植物”和“沙发”。根据我们在图中的统计数据。5、我们发现，这几个类，一般来说，需要更深的阶段才能对硬区域做出决策。城市景观。接下来，我们在Cityscapes基准上评估LC，结果总结在表5中。“sub”表示该方法是否使用二次采样图像进行训练。LC还实现了mIoU为71的良好性能。1，这显示了它对不同对象和场景的强大泛化能力Lin等[19]值得注意的是，[19]使用了更深的骨干网络，并探索了更丰富的上下文信息。我们相信，如果LC与这些技术相结合LC在“传统上被认为是”硬类的课程上获得了结果表明，端到端的级联机制在LC是有意义的，特别是在减轻负担的更深层次的分析容易的区域，但专注于硬区域自适应。5. 结论本文提出了一种基于深层级联的语义图像分割方法，以提高语义图像分割的精度和速度与以前的方法相比，它有三个优点。首先，LC采用了一个“困难意识”的学习范式，其中较早的阶段被训练来处理容易和自信的区域，而困难的区域被逐步转移到后期阶段。其次，由于每个阶段只处理部分输入，LC可以通过使用区域卷积来加速训练和测试第三，LC是一个端到端的可训练框架，可以联合优化不同区域的特征学习，从而在PASCAL VOC和Cityscapes数据集上实现最先进的性能。LC能够实时运行，但仍能产生具有竞争力的精度。谢谢。这项工作得到商汤科技集团有限公司、香港创新及科技支援计划、香港特别行政区研究资助局资助的 “ 优配研究基金 ” （香港中文大学 416713 、14241716、14224316），以及国家自然科学基金委员会（61503366，91320101，61472410;通讯作者为罗萍）。3201引用[1] V.巴德里纳拉亚南，A. Kendall和R.西波拉Segnet：用于图像分割的深度卷积编码器-解码器架构。arXiv预印本arXiv：1511.00561，2015。二、七[2] Z.蔡，M. Saberian和N.瓦斯康塞洛斯学习复杂性感知级联用于深度行人检测。在ICCV，第3361-3369页，2015年。2[3] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crfs的语义图像分割。2015年，国际会议。二、三、八[4] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。 Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。arXiv：1606.00915，2016。五七八[5] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集在CVPR，2016年。一、五、七[6] J. Dai，K. He和J. Sun. Boxsup：利用边界框来监督卷积网络进行语义分割。arXiv：1503.01640v2，2015. 8[7] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，第248-255页，2009。2[8] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。IJCV，88（2）：303-338，2010. 一、五、七[9] C.法拉贝特角库普里湖Najman和Y.乐存。学习用于场景标注的分层特征。PAMI，35（8）：1915 1[10] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好自动驾驶了吗？Kitti Vision基准套件。在CVPR，第3354-3361页，2012中。1[11] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于精确的对象检测和语义分割。在CVPR中，第580-587页，2014年。5[12] B. 哈里哈兰山口阿尔韦湖 Bourd ev，S. Maji和J. 马利克从反向检测器的语义轮廓。载于ICCV，

下载后可阅读完整内容，剩余1页未读，立即下载