金字塔输出：实现语义分割的专业化和融合

176 浏览量更新于2023-10-14 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

专业化和融合：用于语义分割的金字塔输出表示Cheng-Wei Hsiao* 1 Cheng Sun* 1，2Hwann-Tzong Chen1，3Min Sun1，4国立清华大学1华硕AICS部门2风神机器人3AI技术与全Vista医疗保健联合研究中心4@ gapp.nthu.edu.twhtchen@cs.nthu.edu.twsunmin@ee.nthu.edu.tw摘要我们提出了一种新的金字塔输出表示，以确保简约与我们的“专业化和融合”的过程中的语义分割。金字塔比更粗糙级别的事物类更多的两种类型的锥形输出（即，统一和语义金字塔）被这种单元中的所有像素共享相同的语义标签）。该过程通过预测单位单元的相对少量的标签（例如，草的大单元）来构建最终的语义输出。除了“输出”表示，我们设计了一个由粗到细的上下文模块，从不同的水平聚合的“功能”表示。我们通过全面的烧蚀研究验证了我们方法中每个关键模块最后，我们的方法在三个广泛使用的语义分割数据集ADE 20 K，COCO-Stuff和Pascal-Context上实现了最先进的性能。1. 介绍给定RGB图像，语义分割将所有像素的语义标签定义为最近的语义分割方法广泛利用了深度神经网络。一个主要的研究方向是设计新的上下文模块[4，5，6，13，27，28，29，34]，探索网络中更好的我们认为，利用“输出”表示中的结构我们观察到大多数图像中的大部分像素在粗略的空间级别上共享相同的标签（例如，填充类，如天空和草地，或对象的中心区域这种观察导致了一种简约策略，以根据每个输入图像中的类的空间分布在较粗糙的水平上动态地预测语义标签* 作者对本文的贡献相同我们提出了一种新的金字塔式输出表示，以确保我们的“专业化和融合”过程的简约性（图2）。①的人。首先，不是单级输出，而是设计从最粗级到最细级的金字塔输出，使得每个级被学习为比更粗糙级别的事物类更多的东西）。具体而言，两种类型的金字塔输出（单位和语义金字塔）的预测。单位金字塔识别像素的块（被称为单元）是否共享相同的标签（被称为单位单元）（图2）。1-第一行），语义金字塔由多个级别的语义标签组成（图1）。1-第二行）。最后，语义金字塔被“融合”成一个单一的语义输出，根据单位细胞跨层次（图11）。1-底部面板）。注意，我们的草的大细胞）以建立最终的语义输出。除了“输出”表示，我们设计了一个由粗到细的上下文模块，从不同的层次聚合的“功能”表示，我们的主要贡献如下：i）我们引入了金字塔式的“输出”表示和“专门化和融合”过程，以允许每个级别专门化不同的类分布并确保简约性; ii）我们设计了一个上下文模块，以聚合来自不同级别的“特征”表示以进行进一步改进;iii）我们展示了我们的方法在ADE 20 K，COCO-Stuff和Pascal-Context上的有效性。我们以HRNet和ResNet作为主干的方法可以达到与最近最先进的方法相当或更好的结果。2. 相关工作上下文模块。语境对于语义切分的作用是非常重要的，新设计的语境传播策略对语义切分有着越来越多的改进。PSPNet [32]建议将深度特征汇集到几个小而固定的空间分辨率中，以生成全局713727138输入图像统一金字塔预测单胞溷合细胞语义金字塔人草砂杆墙内阁溷合细胞单胞认为保险丝(see当量最终输出人草沙混合细胞（尚未决定）由较粗糙的人完成（罚款粗单细胞混合细胞由较粗糙的人完成（图1：“专门化和融合”方法概述。我们训练一个神经网络来预测两个金字塔输出：统一金字塔将单元分类为“统一单元”（即所有被覆盖的像素共享同一类）或覆盖的像素包含多个类别）;语义金字塔在多个级别预测语义标签橙色的底部面板说明了我们如何将两个预测的金字塔融合到一个最终的语义输出（最左下角的图像）中。直观地，在较粗糙级别的单位单元指示由其在较精细级别覆盖的所有单元因此，我们以从粗到细的方式从单位单元中获取最终的语义标签换句话说，在训练期间忽略混合单元或3.2)和推理（Sec. 3.3）。我们的方法通过训练网络来预测相对少量的单位单元的语义标签（即在较精细级别的大多数单元“由较粗糙的单元完成”），并且使得每个金字塔级别能够专门用于不同的上下文信息。Deeplab [2]采用具有几个膨胀率的膨胀CNN层，这有助于模型捕获不同范围的上下文。最近，自注意方法[22，24]在自然语言处理和计算机视觉中取得了巨大成功，提出了许多变体用于语义分割。DANet [6]在空间维度和信道维度上应用了自我注意。CCNet [13]提出了交叉关注，其中像素仅关注同一列或行的像素ANL [34]将特征汇集到一个固定的空间大小，这是注意力的关键和价值。OCR [27]根据粗略预测池化上下文，并计算深度特征和类中心之间的注意力。CCNet [13]，ANL [34]和OCR [27]能够通过专门设计的参与策略减少计算，同时仍然保留甚至提高性能。受ANL [34]的启发，我们在这项工作中设计了一个新的由粗到细的上下文模块，此外，上下文模块被管理为与所提出的金字塔输出格式无缝集成。分层语义分割预测。层级联（LC）[17]使用三个级联子网络预测相同分辨率的三个语义映射：每个子网络将不确定像素传递到下一个子网络以用于进一步预测，并且所有LC预测都具有相同的水平。相比之下，我们的方法提供了一种新的输出表示，它独立于主干中的子网络，并预测训练后的多级语义图在简约原则此外，不像LC简单地结合基于语义预测本身的语义图，我们训练了一个统一的金字塔，仔细定义的物理意义推断与语义金字塔。PointRend [14]和QGN [3]是探索分层预测的方向的两种最近的方法，其中最终语义分割图以粗略到精细的方式重建，两种方法都从最粗略的预测开始。PointRend [14]通过仅对不确定点进行采样以进行更精细的预测来逐渐增加分辨率，而QGN [3]预测C+1个类，其中额外的这两种方法都产生高分辨率的预测（输入分辨率相同），其有效的稀疏设计。PointRend[14]通过将预测细化到高空间分辨率来实现稍好的mIoU;而QGN [3]注重计算效率，但性能较差。以前的作品[3，14，17]中的分层输出与他们的模型的数据流纠缠在一起此外，所提出的具有定制训练和融合过程的金字塔输出表示（即，所提出的专门化和融合策略）能够实现最先进的性能。27139--×个L⊙水平（总共L个水平令s表示空间步幅L−1重新标记SLSLˆSLSL转换成一个最终语义图Y。根据预测的语义1Σ3. 金字塔输出表示法我们的“专业化和融合”过程的概述给出了两种类型的金字塔输出如图所示。1.在下文中，我们首先在Sec. 3.1.然后，在第二节中介绍了“专业化训练”和“推理融合”阶段。3.2与次级3.3分别。3.1. 语义金字塔与统一金字塔金字塔结构。我们采用由粗到细的金字塔结构来构建金字塔输出格式，其中较细级别的分辨率是其相邻较粗级别的两倍，并且所有单元格（即像素块），除了最精细级别中的像素块此外，输入图像的宽度和高度应可被最粗层的宽度和高度整除;否则，我们将输入RGB调整为3.2. 专业化-培训阶段我们的实验表明，天真地用它们的地面真实对应物Y（），U（）训练预测的Y（），U（）无法提供任何改进。此设置不利用属于单位单元的大量像素已经在较粗级别被预测的事实，因此较细级别最好不在那些预测区域上被冗余地训练。基于鼓励简约和训练专门的金字塔水平的动机，对于金字塔结构中的前身已经被正确分类为单位单元（真阳性）的那些单元，我们的训练过程将它们重新标记为利用每个小批次中的重新标记的地面实况，训练损失计算如下：LL=CE（Y（），Y（））最接近的可除记法。我们用下式来表示金字塔等级的指数L=1L−1重新标记（一），其中+1 ΣBCE（U（），U（）），=1金字塔级别，D是主干特征的潜在维度，C是输出类的数量。如图2b和图2c，我们的模型采用特征张量其中CE是交叉熵，BCE是二进制交叉熵。注意，在单位金字塔中只预测L1级（X∈RD×H×W《易经·系辞上》云：“天有不测风云，地有不测风云。U，因为假设最精细级别L中的所有单元是统一的。单元格（没有后续更精细级别的语义预测曼蒂克金字塔Y（ξ）∈RC×H×WΣˆss和团结待考虑）。我们在实验中表明，每个级别ˆ金字塔U（ξ）∈RH×WΣss=1，…，L.渠道尺寸-已经学会了专注于U的值为1（二进制分类），并被丢弃。注意为了简单起见，在本工作中，最精细级sL的输出步幅与骨干特征X最终的语义输出融合了两个表示为Y ∈ RC×H×W。锥体3.3. 融合-推理阶段在推理过程中，我们将两个预测的金字塔ˆ用于训练的基础真值Y（）、U（）从基础真值每像素语义标记Y导出。Pyramidal ground truth. 在金字塔层级，每个单元格是pyr amidY（）和unitypyr amidU（），推理亲-过程如下将每个像素指向“最粗”单位单元处的语义预测负责原始图像中的ss像素的补丁单元可以是单元内所有像素具有相同标签的单位单元，也可以是具有多个标签的混合单元Y=Σ=1.1Σ上（U（））≥τΣ⊙上（Y（））（二）在地面真值单位金字塔U（）中，positive和negative值分别指示单位单元和混合单元。在真值语义金字塔Y（）中，对于单位单元，其真值语义标签被定义为共享标签⊙1≤Yk<ΣUp（U（k））τΣΣ，通过原始每像素真实值Y中的所有覆盖像素，而对于混合单元，其真实值语义标签是不明确的并且在计算训练损失时被忽略。注意，级别的单位单元格意味着其子单元格也是级别+1的单位单元格。为了避免冗余，在计算训练损失（第二节）和计算训练损失（第二节）时都忽略子单位单元（被称为3.2)而在熔丝阶段（Sec. 3.3）。表征所分配的像素。= 1，…，L−1127140⊙·≥·其中，Up（）将级别处的预测上采样到最精细级别L， τ是用于确定单位单元（即，τ）或混合单元（即，<τ）和1[ ]分别表示逐元素乘法和指示符函数。第一行在Eq.2选择层级中的单位单元处的语义标签。为了确保2检查是否所有其前面的单元格都在水平1（−1）是混合细胞。27141×个--diff×个SLSLSLSLX1联系我们1金字塔平均CACUX池化合并X2* ⁾联系我们XŶ⁽⁾2简体中文CA联系我们加州联系我们联系我们X4XŶ⁽4⁾conv1x1XCA联系我们XX关注concatconv1x1CU联系我们Xconcatconv1x1联系我们金字塔池化骨干网团结头语义中心语义金字塔{1，...，Ŷ⁽L ⁾}统一金字塔{1，{Xdiff}{Xunity}{Xcentroid}平均池化共享conv1x1最近上采样--共享minconv1x1池简体中文简体中文Û⁽3⁾-conv1x1conv1x1XuConv1x1（Xu）X(a) 概况.（b）统一负责人。(c) 语义头。(d) CA：上下文聚合。(e) CU：上下文更新。图2：神经网络架构的图示。(a)两个额外的头被添加到骨干网络，用于预测所提出的统一金字塔和语义金字塔。(b)团结的头。(c)对于语义头，我们设计了一个由粗到细的上下文模块，它包括两个操作-（d）CA：上下文聚合和（e）CU：上下文更新。注意，（b）中的U（）和（c）中的Y（）是r个输出，并且将被融合为一个以用作最终预测（第二节）。3.3）。4. 棱锥头统一体和语义头的架构如图所示。2，并在以下章节中详细说明。类与细胞质心。反映单位单元的定义，我们使用最小池化来查询单元中最偏离的条目是否与单元质心相似，并生成最终单位金字塔U（）∈R×。4.1. Unity头ˆ4.2. 语义中心语ss统一头将来自主干的特征X作为输入，并在U（）中输出统一py r。Unity头的设计（图图2b）遵循单位单元内的每个像素的嵌入必须接近单元的质心的嵌入的思想，因为它们共享相同的语义类。首先，我们采用11卷积层（Conv1x1）将X转换为具有减少的通道Du的Xu。接下来，我们生成所有细胞的质心嵌入以金字塔格式预测语义我们首先使用一个Conv1x1层将主干D到D的通道数投影到 D s ，产生特征 X（L）。模拟-最后给出了语义金字塔Y（）的预测方法 =1，…，L是直接将X（L）合并为L个期望的空间大小：X（X）=平均P〇ol.X（L），2L−Σ，（3）金字塔X（）∈RDu×H×W按平均数计算哪里是平均池化与内核大小质心ss平均Pol（·，k）池化和共享Conv1x1到Xu。测量单元内所有像素的嵌入之间的差异X（）并且步幅设置为k。然后，每个X（X）从潜在维度D s投影到具有卷积的类的数量C。和细胞的质心嵌入，我们对每个层进行。我们在实验中表明，这种最简单（）质心使用最近邻插值的最精细水平-网络设置已经可以实现有希望的改进并将其从Conv1x1（Xu）中减去。随后，后面跟着sigmoid函数的共享Conv1x1将专业化融合策略的影响由粗到细的上下文模块。由于重新-X（） ∈RDu×H×W到X（）HW∈R，其中每个语义分离的语境传播策略的成功率为90%-HWXdiff27142条目产生共享相同语义心理状态的概率，我们进一步设计了一个由粗到细的上下文团结27143initupd−θ联系我们×−查询=CUX，θ将级联的2Ds通道投影回Ds。注意，新连续特征θ（）保持在相同的低我们的金字塔输出格式的模块。直观地说，我们从粗金字塔-中间水平的上下文信息聚合，以帮助在更精细的金字塔水平的预测。图图2c描绘了所提出的从粗到细的语义头部，CU-上下文更新模块。上下文更新模块在图1中示出2e. 为了在lev处更新细化特征X′（）上的上下文特征θ（−1），我们应用其中，{X（）}=1，…，L由方程式（3）具有语境特征θ（θ）=Pyramid Pol.X′（）Σ，（10）{θ（）}=0，...，L−1从粗到细级别：X′（）=C A（）。X（），θ（−1）Σ，（4）θ（）=Conv1x1（）upd.concat.（）（1）init、（11）（）（）。′（）（−1）Σ其中Conv1x1（）由Conv1x1、BN、ReLU组成其中CA和CU代表上下文聚合模块和上下文更新模块，稍后将详细描述。受ANL提高上下文模块效率的策略[34]的启发θ（0）=金字塔P〇〇 l（X（L）），（6）其中PyramidPool使由空间金字塔池化生成的11、33、66和88特征变平[15]。Iterating ℓ from coarse to fine (from 1 to L), the ContextAggregation module refines X (ℓ) using θ(ℓ−1) (while X (1)is refined by the initial context feature θ(0)); the Context Up-dating module then updates the context feature θ(ℓ−1) withthe refined X′(ℓ), forming the new context feature θ(ℓ) whichfacilitatesfiner-levelsemanticprediction byencapsulatingthe information from the coarsest to the current level.一旦粗略到精细上下文模块生成精细特征金字塔{X’（X）}X=1，…L，语义pyramid{Y（） }=1，…，L由下式预测Y（）=Co nvBl ock（）。X′（）Σ，（7）其中 ConvBlock（）由 Conv1x1 、 BN 、 ReLU 和最终Conv1x1组成，后者将Ds投影到类的数量C。在下文中，我们详细描述上下文聚合模块（CA）和上下文更新模块（CU）。CA-上下文聚合模块。上下文聚集模块在图1中示出。2d.为了细化X（），我们使用注意力操作来聚合较粗级别的上下文编码为θ（−1）。具体地，我们将X （）变换为X （），θ（−1）toθ（−1），θ（−1） byConv1x1 layers; then weapply空间分辨率为θ（-1），因此总体上由粗到细的上下文模块有效地运行。5. 实验我们首先在第二节介绍我们的实现细节第5.1条然后，我们报告我们的比较与国家的最先进的方法上的三个数据集。5.2并对Sec. 5.3.最后，进行彻底的烧蚀研究和性能分析，以支持我们设计的组件在第二节的贡献5.4和Sec.5.5，分别。5.1. 实现细节5.1.1培训设置我们主要遵循HRNet-OCR的公开实现动量为0的SGD优化器。九是就业。数据增强包括随机亮度、随机左右翻转、具有从[0. 五二0]，最后随机裁剪为固定大小。所有数据集的裁剪大小、权重衰减和批大小均设置为（512 512，1e 4，16）。基本学习速率和时期的数量被设置为（0. 02，120）、（0. 001，110）和（0. 001，200）用于ADE 20 K，COCO-Stuff，和Pascal-Context。学习率如下功率因数设置为0的多晶硅调度。9 .第九条。5.1.2主干设置我们使用两个骨干网络进行实验 -HRNet 48[23] 和ResNet 101 [10]。为了简单起见，我们确保两个主干都在与最精细金字塔级别相同的空间级别生成特征，即，在我们的实验中输出步幅4关键值HRNet48. HRNet [23]提供了输出步幅4的高分辨率特征，因此我们直接将Unity头和θ角、（五）ΣΣ27144啊。att查询关键值啊。attX（）=注意。X（），θ（−1），θ（−1）Σ，（8）语义头到HRNet的末尾。X′（）=Co nv1x 1（）.concat.X （），X（）ΣΣ，（9）ResNet101。[10]第10话：生而不死。大步走32.为了获得更好的结果，一些最近的方法[18，27，20，12，16]采用了ResNet的扩展版本哪里的关注是的注意操作[22]，输出步幅为8。然而，我们发现这样的修改Conv1x1（）包括Conv1x1、BN、ReLU项目会导致速度降低和占用更多内存，因此我们采用将级联的2Ds通道返回到Ds。标准ResNet和轻量级解码器。我们根本27145×个×个--方法会场骨干mIoU（%）SVCNet [5]CVPR2019ResNet10139.6DANet [6]CVPR2019ResNet10139.7EMANet [19]ICCV2019ResNet10139.9ACNet [7]ICCV2019ResNet10140.1GFFNet [18]AAAI2020ResNet10139.2OCR [27]ECCV2020ResNet10139.5CDGCNet [12] ECCV2020ResNet10140.7我们-ResNet10140.7HRNet [23]TPAMI2019HRNet4837.9CCNet [13]†-HRNet4839.8[34]†-HRNet4840.6OCR [27]ECCV2020HRNet4840.6我们-HRNet4841.0†我们通过用HRNet48表1：ADE20K [33]验证集的比较。方法会场骨干评分PSPNet [32] CVPR2017ResNet26955.38EncNet [29] CVPR2018ResNet10155.67ACNet [7]ICCV2019ResNet10155.84中文（简体）ECCV2020ResNet10156.23我们-ResNet10156.67中文（简体）ECCV2020HRNet4855.98我们-HRNet4858.04表2：ADE20K [33]官方评估。从ResNet中减少每一级的通道数量以节省计算，并将融合模块[23]用作解码器以形成输出步幅4的特征。与扩展的ResNet相比，我们的适应只需要0。75处理时间和0. 88内存占用（有关实现和计算效率的详细信息，请参阅补充资料此外，最近的一些方法[12，16]也采用了ASPP [2]，我们没有采用，用于ResNet主干。5.1.3专业化和保险丝设置对于我们的HRNet48和ResNet101实验，主干特征具有D=720个通道，并且我们在†我们通过用HRNet48表3：COCO-Stuff [1]测试集的比较。方法会场骨干mIoU（%）CFNet [30]CVPR2019ResNet10154.0亚太经合组织网络[9]CVPR2019ResNet10154.7SVCNet [5]CVPR2019ResNet10153.2DANet [6]CVPR2019ResNet10152.6BFP [4]ICCV2019ResNet10153.6ANL [34]ICCV2019ResNet10152.8EMANet [19] ICCV2019ResNet10153.1ACNet [7]ICCV2019ResNet10154.1DGCNet [31] BMVC2019ResNet10153.7CPNet [26]CVPR2020ResNet10153.9SPNet [11]CVPR2020ResNet10154.5GFFNet [18] AAAI2020ResNet10154.2OCR [27]ECCV2020ResNet10154.8中文（简体）ECCV2020ResNet10154.8CaCNet [20] ECCV2020ResNet10155.4我们-ResNet10155.6HRNet [23]TPAMI2019HRNet4854.0OCR [27]ECCV2020HRNet4856.2中文（简体）ECCV2020HRNet4855.3我们-HRNet4857.0表4：Pascal-Context [21]测试集的比较。5.2. 与最新技术水平的根据文献，我们应用多尺度和左右翻转测试增强来报告我们的结果。ADE20K [33].ADE20k是一个包含多种场景的数据集统一头到64和Ds在语义金字塔头到512我们使用L=4的实例化，输出步幅为4、8、16、32，用于语义金字塔。我们设置高阈值τ=0。图9示出了用于单位金字塔中的二元分类器以抑制单位单元预测的假阳性的示例，直观地，假阳性总是引入错误，而假阴性可能有机会通过方法会场骨干mIoU（%）CFNet [30]CVPR2019ResNet10144.89亚太经合组织网络[9]CVPR2019ResNet10145.38CCNet [13] ICCV2019ResNet10145.22ANL [34]ICCV2019ResNet10145.24ACNet [7]ICCV2019ResNet10145.90CPNet [26]CVPR2020ResNet10146.27SPNet [11]CVPR2020ResNet10145.60QGN [3]WACV2020ResNet10143.91GFFNet [18] AAAI2020ResNet10145.33OCR [27]ECCV2020ResNet10145.28中文（简体）ECCV2020ResNet10145.97CaCNet [20] ECCV2020ResNet10146.12我们-ResNet10147.00HRNet [23] TPAMI2019HRNet4844.20CCNet [13]† -HRNet4845.65[34]†-HRNet4845.23OCR [27]ECCV2020HRNet4845.5027146包含35个stuff和115个thing类。训练、验证和测试分割分别包含20 K/2K/3 K图像。ADE20K验证集的结果如表1所示我们的方法使用ResNet101和HRNet48骨干建立了新的最先进的此外，我们将我们对保持测试集的预测提交给ADE20k表2中报告的结果也显示了我们优于先前方法的优势。27147×个转转→→转COCO-Stuff [1]. COCO-Stuff是一个具有挑战性的数据集，包含91个东西和80个事物类。训练集和测试集分别包含9K和1K图像在表3中，我们的方法显示出与ResNet101主干的最新结果相当的性能，并且优于HRNet48主干的先前方法。Pascal-Context [21]. Pascal-Context是一种广泛使用的语义分割数据集。它包含59个类和一个背景类，由4，998个训练图像和5，105个测试图像组成Pascal-Context测试集的结果见表4。使用ResNet101和HRNet48主干，与具有相同主干的先前方法相比，我们的方法实现了最先进的结果。5.3. 计算效率我们比较了表5中的内部实现的测试FPS、每秒训练迭代次数和GPU内存消耗。我们的完整方法示出了与用于语义分割的自我注意模块的最近有效变体[13，34，27]相似的计算效率，同时示出了更好的准确性（表1和表3）。方法测试FPS↑培训it./秒↑记忆↓HRNet48 [23]282.68.2GHRNet48 + CCNet [13]211.79.9GHRNet48 + ANL [34]262.28.6GHRNet48 + OCR [27]242.19.6GHRNet48 +我们242.08.9G表5：比较在图像大小为512 512的GeForce RTX 2080 Ti上测量的模型效率。测试FPS被平均用于处理50个图像。模型训练以4的批量大小进行监控。5.4. 消融研究我们进行全面的消融实验，以验证我们的建议的有效性。在我们的消融实验中，采用了HRNet 32主干，我们将ADE 20 K的原始训练分割为16 K/4K进行子采样，以进行训练和验证。我们在补充资料中对每个实验都做了详细的描述和结构图，这里重点进行比较和讨论。金字塔式输出表征的有效性。如表6所示，在各种模型设置下，我们的金字塔它获得+1。六十五，+1。05和+2。31mIoU改进，无需任何上下文模块，使用ANL模块[34]和建议的粗到细上下文模块。上下文模块的有效性。我们的上下文模块设计符合多层次建议的金字塔输出的本质。如表6中所示，当预测（正弦信号的）标准输出时，glefinest级别），我们的粗到细上下文模块和ANL [34]在基线上获得了类似的改进+1。58（40. 42四十二00）和+1。60（40. 42四十二02）。怎么-曾经，当预测拟议的金字塔输出时，我们的从粗到细的上下文模块实现更显著的+2。24 改善（42。0744. 31）比将单个ANL附加到骨干+1更重要。00（42. 07 43. 07）。此外，我们的模块还获得了比在所有金字塔级别（表示为ANL-multi）+1处应用ANL模块更多的改进。38（42. 07 43. 45），表明我们的设计从较粗的金字塔级别聚合上下文信息的有效性。输出格式场境模块- ANL ANL-multi ours单人（标准）40.42 42.02-42.00金字塔（我们的）42.07 43.0743.4544.31表6：针对两个方面的主要提议的消融研究-i）金字塔输出表示（行）和ii）上下文模块（列）。报告每个设置的平均IoU这里对不同金字塔产出层次进行专业化监督. 为了在训练阶段加强专业化，重要的是将“由较粗糙的人完成”的细胞重新标记为“不关心”。在表7中，我们显示了与其他重新标记策略相比的结果。我们可以看到，单纯地训练所有语义金字塔级别来预测完整的语义分割图没有实现任何改进。这是合理的，因为它忽略了在测试中仅激活更精细金字塔层级中的小部分单元的事实。一个简单的解决方法是在训练期间将地面实况单位单元的所有后代显式地重新标记为通过这样做，不同的语义金字塔级别现在可以专门化由oracle分配的一个明确的+1。现在显示了12mIoU的改进。然而，简单的修复仍然忽略了单位单元预测可能产生假阴性的事实，其中真实单位单元被错误地分类为混合单元，并且因此在推理阶段中引用更精细级别的语义预测。因此，假阴性可能会使训练测试分布不一致。最后，我们将真正单位单元的后代重新标记为“不关心”的设计获得了额外的+0。53mIoU改善。单个输出天真简单的修复我方最后40.4240.4141.5442.07表7：比较我们的金字塔输出的培训过程中的重新标记策略（最右边的3列）。没有为所有实验部署上下文模块。27148----联系我们联系我们改善是否来自辅助监督？有人可能会说，我们的金字塔式输出表征的改进源于多层次的丰富监督，而不是我们的为了澄清贡献，我们跳过推理的每个语义层级。结果表明，每个Y（）在实际中对不同的类学习得更好。例如，Y （4）在t上表现较好，而Y（2）在t上表现较好。更多可视化信息请参见补充资料。1个0-42输出. 在这种情况下，多层次的监管是不利的作为辅助监督。在表8中，我们可以看到4辅助监督确实提高了性能（+0. （第63段）。不过，改善程度比不上-8-12-16-20我们的专业化和融合工艺（+2. （31）这意味着我们卓越表现的主要贡献者不是多层次的监管，但专业化和融合的策略。单个输出aux. 监控专用熔断器42.0042.63（+0.63）44.31（+2.31）表8：如何使用粗级输出。为所有结果部署了拟议的上下文模块。输出表示中的金字塔级别数。本工作的重点是设置L=4金字塔水平的输出步幅4，8，16，32为我们的金字塔输出表示在所有的实验。我们还用L=2级的输出步幅4、32 进行了实验，这产生了稍差的结果（ 44. 31 对4420mIoU）。因此，我们坚持L=4的设置。5.5. 性能分析是否每个金字塔级别都专门针对统一金字塔所选的像素？在表9中，我们根据来自我们预测的单位金字塔（Sec.3.3）。对于每个组，我们显示了四个金字塔级别（四行，’1，2，3，4）.我们可以看到，如果像素引用的金字塔级别与训练的单位金字塔的分配不一致，则mIoU被降级。9），表明不同的语义金字塔级别学习专门预测由我们预测的统一金字塔分配的像素’\4321433.4839.5242.1338.61331.6341.1745.9844.57227.3138.1346.3447.52121.9428.9440.0548.05表9：在一对金字塔层级上的mIoU，其中，指示单位单元预测的层级，并且指示语义预测的层级。当′=时，mIoU高于其他′forevery不同的金字塔等级有不同的职业吗？为了证明我们的直觉，即不同的金字塔水平在不同的类别中具有其专业化，在图1B的每一行3，我们显示了由预测的每个类的IoU图3：每个级别{Y（） }=1，...，4对不同的类。我们展示了由于使用水平Y（）与使用融合Y（）而导致的I0U 降级。定性结果。我们在图1中示出了与强基线HRNet 48-ANL相比的一些定性结果。4.第一章有关更多示例，请参见补充材料。HRNet48-ANL HRNet48-ours图4：定性结果。在示例中，我们的方法在填充物（第一行）、大的东西（第二行）和对象的薄的部分（第三行）中产生更好的结果。6. 结论我们提出了一种新的“输出”表示的语义分割的任务。建议的金字塔输出格式和融合过程遵循的动机，以分配每个像素到一个适当的金字塔级别，以更好地专业化和简约原则。我们还提出了一个上下文模块，这是有效的，适合拟议的金字塔输出的本质，进一步提高我们的性能。通过广泛的实验表明改进。最后，我们的性能与三个广泛使用的语义分割数据集上的最新技术相当或更好鸣谢：这项工作得到了台湾MOST的部分支持，资助110-2634-F-001-009和110-2634-F-007-016，MOST人工智能技术和All Vista Healthcare联合研究中心。我们感谢国家高性能计算中心（NCHC）提供的计算和存储资源。（%）27149引用[1] 作者： Holger Caesar ， Jasper R R. Uijlings 和 VittorioFerrari。Coco-stuff：上下文中的事物和东西类。在2018年IEEE计算机视觉和模式识别会议，CVPR 2018，美国犹他州盐湖城，2018年6月18日至22日，第1209-1218页[2] Liang-Chieh Chen ， Yukun Zhu ， George Papandreou ，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。InComputerVision - ECCV 2018 - 15th European Conference ，Munich ， Germany ， September8-14 ， 2018 ，Proceedings，Part VII，pages 833[3] 你好乔斯和我。艾尔·瓦雷斯和马夏尔·赫伯特。四叉树生成网络：使用稀疏卷积的高效分层场景解析。在IEEE计算机视觉应用冬季会议，WACV 2020，美国科罗拉多州斯诺马斯村，2020年3月1日至5日，2009-2018页[4] 丁恒辉，蒋旭东，刘艾群，Nadia Magnenat-Thalmann，王刚用于场景分割的边界感知特征传播在 2019 年IEEE/CVF计算机视觉国际会议，ICCV 2019，韩国首尔（南），2019年10月27日至11月2日，第6818-6828页[5] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.语义相关性促进了形状变化的上下文分割。在IEEE计算机视觉和模式识别会议上，CVPR2019，长滩，加利福尼亚州，美国，2019年6月16日至20日，第8885-8894页[6] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在IEEE计算机视觉和模式识别会议上，CVPR 2019，长滩，加利福尼亚州，美国，2019年6月16日至20日，第3146-3154页[7] Jun Fu，Jing Liu，Yuhang Wang，Yong Li，YongjunBao，Jinhui Tang，and Hanqing Lu.用于场景解析的自适应上下文网络。在2019年IEEE/CVF计算机视觉国际会议，ICCV 2019，韩国首尔（南），2019年10月27日至11月2日，第6747-6756页[8] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在2018年IEEE计算机视觉和模式识别会议，CVPR 2018，美国犹他州盐湖城，2018年6月18日至22日，第9224[9] Junjun He，Zhongying Deng，Lei Zhou，Yali Wang，and Yu Qiao.用于语义分割的自适应金字塔上下文网络。在IEEE计算机视觉和模式识别会议上，CVPR2019，长滩，加利福尼亚州，美国，2019年6月16日至20日，第7519-7528页[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议，CVPR 2016，美国内华达州拉斯维加斯，2016年6月27-30日，第770-778页[11] 侯启斌、张立、程明明、冯嘉世。条带合并：重新思考场景解析的空间池化。在2020年IEEE/CVF计算机视觉和专利会议TermRecognition ，CVPR 2020， Seattle ，WA ，USA ，2020年6月13-19日，第4002-4011页。IEEE，2020年。[12] Hanzhe Hu，Deyi Ji，Weihao Gan，Shuang Bai，WeiWu，and Junjie Yan.用于语义分割

下载后可阅读完整内容，剩余1页未读，立即下载