边界-语义联合感知的零件级语义部分分析方法

168 浏览量更新于2023-10-12 收藏 1.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9177联合边界-语义感知赵一凡1李佳1，3张宇1田永红2，31北京航空航天大学虚拟现实技术与系统国家重点实验室2北京大学电子工程学院视频技术国家工程实验室3中国深圳鹏程实验室{zhaoyf，jiali}@ buaa.edu.cn，zhangyulb@gmail.com，yhtian@pku.edu.cn摘要野外的对象部分解析需要同时检测场景中的多个对象类并准确地分割每个类中的语义部分，这对类级和部分级歧义的联合存在提出了挑战。尽管它的重要性，但是，这个问题是没有充分探讨在现有的作品。在本文中，我们提出了一个边界和语义感知的联合句法分析框架来解决这个具有挑战性的问题。为了解决零件级模糊问题，提出了一种边界感知模块，使多尺度的中层特征关注零件边界，实现零件的精确定位，然后与高层特征融合，实现有效的零件识别。对于类别级的歧义，我们进一步提出了一个语义感知模块，该模块选择与类别相关的可区分部分特征，以防止不相关的特征被合并在一起。所提出的模块是轻量级的，实现友好，大大提高了性能时，插入到各种基线架构。我们的完整模型在Pascal-Part数据集上设置了新的最先进的结果，包括多类和传统的单类设置，同时运行速度比最近的高性能方法快得多。1. 介绍语义部分分析是将对象分解为语义成分的一种方法，已成为计算机视觉领域的一个研究热点随着大型基准[10，20，24，16]和深度学习模型[25，7，15]的提出，最近的研究显示出在一个特定类别的准确分割方面的出色表现，例如车辆[30，35]，动物[32，31]和人体[40，18]。高质量的部分解析结果将在进一步的应用中非常有用，例如对象检测[2]，姿态估计[4]，信件应寄给贾立和俞章。网址：http://cvteam.net图1.拟议办法的动机。同时解析多个语义类的部分，输入场景（a）具有其自身的挑战，包括不准确的边界定位和类间外观模糊性（b）。所提出的边界-语义感知网络有效地解决了这些问题（c）。信息[12]、细粒度动作检测[34]和分类[41]。已经提出了各种现有的方法来处理对象部分解析，其可以大致分为两类。第一类通常侧重于探索对象部分的内部关系[31，32]和结构信息[18，16]。例如，Liang等人。 [16]提出了一种自监督结构损失来维护解析结构。 Wang等人 [31]建立层次树结构，将基本边界标志按空间关系组合成部分。其他一些工作[37，38，30]也采用了额外的结构信息，例如：人体姿态和3D信息。第二类[9，36，7，8，42]专注于提高图像或特征图中例如，Chen等人。 [9]提出了一种注意力模型来融合不同图像缩放比例的解析结果。Xia等人。 [36]提出了一个两阶段网络，将全局特征与检测到的局部特征融合。尽管现有的模型的有效性，他们主要解决单类设置，对象被假定为预先本地化。在本文中，我们建议9178研究更广泛的多类对象部分解析问题，它同时处理场景中每个类内的所有语义类如图1，在这种新的环境中，即使是最近的强基线[8]也可能面临额外的挑战。特别是多个目标的杂乱外观和类间模糊性可能会导致不准确的边界定位和严重的分类错误。为了解决多类部件解析和处理上述问题，我们提出了一种新的具有边界语义感知的深度架构在所提出的方法的核心，我们开发了两个简单而有效的模块。第一个是边界感知的空间选择模块，它使中间层特征在多尺度上关注部分层边界。在每个尺度上，特征由空间注意力块提升，该空间注意力块由类不可知的部分边界监督，并传递到下一个尺度。通过这种由粗到细的边界细化策略，网络学会专注于解决零件边界的模糊性，并产生更精细的解析结果。然后，将经过边界过滤的中层特征与高层特征进行融合，共同保留浅层边界信息和深层语义上下文。最终聚合的特征是部件类属性的混合，这可能会导致不同类中具有相似外观的部件混淆，例如图1中1.一、然而，如果模型理解每个像素处的在此基础上，我们进一步引入了一个语义感知模块来选择每个像素上最有用的特征，以避免这种混淆。在该模块中，在聚合特征的每个位置处执行频道选择所提出的模块是轻量级的，易于实现，并可以显着提高性能时，插入到不同的基线架构。将所提出的两个轻量级模块结合到一个统一的解析网络中，所提出的方法在Pascal-Part数据集上实现了新的最先进的结果，在多类和单类设置中用于语义对象解析。本文的贡献概括如下：1)我们提出了解决对象部分解析在较少探索的多类设置，并提出了一个统一的网络架构来解决这个重要的问题。2)我们介绍了两个轻量级的，但有效的模块，边界意识和语义意识模块，以解决多类对象部分解析中的部分级和类级的歧义。3)所提出的方法是能够实现国家的最先进的结果在多类和传统的单类设置，同时运行的幅度比最近的高性能的方法更快。2. 相关工作基于结构的部件解析。基于结构的方法[24，19，31，32，18，16，37，38]主要采用成分或形态模型来规范部分解析。例如，Wang等人。 [31]在不同的视角和姿势下构建了一个合成模型，以解析某些动物类别。在[33]中，建立了一个分层的possibility模型来表示人体的组成。Wang等人。 [32]提出了一个联合深度模型，以探索具有全连接CRF的部位和身体之间的关系。一些研究[38，35]还使用结构化树模型以分层方式组织零件。而Liang等人。 [17]提出了一种结构进化的LSTM，通过生成超像素映射来细化解析结果。对于人类解析任务，最近的研究[27，13，16，37，19，11，14]通常探索分割和其他任务之间的关系，特别是姿势估计。例如，Liang等人 [19]提出了一种结构进化LST-M模型来学习用于人类解析的结构图模型。Xia等人 [37]提出了一种联合模型，通过监督姿态估计来细化分割结果。Liang等人。 [16]提出了一种自监督结构敏感网络，以同时估计人体姿势和部分解析。Fang等人。 [13]提出了一种姿势引导模型，将数据集注释用作部分先验。Yamaguchi等人 [40]提出了一种联合估计，以利于服装分割和人体姿势，然后改进服装检索方法[39]。Nie等人。 [27]提出了一种相互学习模型来适应姿势估计任务，以促进零件分割结果。此外，Song等人 [30]将额外的3D信息嵌入到具有师生架构的零件分割规模聚集。语义分割中的尺度聚合技术[7，3，21]已经成为增强模型表示的流行巴德里纳拉亚南等人[3]提出了一种短连接方式，将较低的特征转换为较高级别的表示。Chen等人 [7]提出了一种新的atrous空间金字塔池架构，用于聚合具有不同视野的特征图Amirul等人。 [1]提出了一种具有门控策略的反馈细化网络，以聚合多个级别的特征在零件分割这一特定领域，一些代表性的工作也采用了不同尺度特征的聚合Xia等人 [36]提出一个自动缩放框架，将全局特征与检测到的大的局部特征融合。Chen等人。 [9]提出了一种基于注意力的融合策略来融合具有不同分辨率的图像特征。Zhao等人。 [42]提出了一种具有不同分辨率输入图像的权重共享网络。Luo等人。 [26]在高分辨率和低分辨率特征中使用生成对抗网络来增强语义一致性。此外，也有一些工作集中在准确的边界[28]和自我注意机制[5]。9179图2.我们的联合边界-语义感知网络（BSANet）框架，主要由一个边界感知的空间选择模块和一个语义感知的信道选择模块。边界感知模块的目标是在低层聚集边界附近的局部特征，在高层聚集语义上下文，这是由边缘回归损失监督的。语义感知模块旨在利用有监督的语义对象上下文来增强类相关特征通道的表达。3. 方法3.1. 概述在这一部分中，我们提出了一种新的用于多类对象部分解析的联合边界语义感知网络（BSANet）。、边界感知空间选择模块和语义感知信道选择模块（参见图1B）。2）的情况。在第一个模块中，我们采用边界感知的空间注意力来增强边界附近的特征，这些特征通常是下采样的高级特征中的一部分。每个层次的特征通过边界模块构建级联特征金字塔。这些特征被逐步融合以预测初始分割结果。然后我们将这些特征与1×1convs连接起来，并将它们传递到语义选择模块，该模块强调类相关的特征并抑制不相关的特征。给定具有提取特征PW×H×C的图片I，我们的联合边界语义感知网络可以用于-计算如下：φ（I）=C（S（P<$Ws）<$Wc），（1）其中S是边界监督空间选择模块，C是语义监督通道选择模块。Ws和Wc分别是S和C的注意力权重，图3.三种金字塔解码器的区别。（a）：自顶向下金字塔解码器。（b）：具有特征转移的自顶向下金字塔解码器。（c）空间感知特征金字塔。活泼地φ是最终的分割模型，而φ表示点积运算。3.2. 边界感知空间选择对于对象部分解析，边界模糊性普遍存在，因为通常没有明显的图像证据表明9180（KKKQSi、j递归多尺度结构在图4中，我们示出了第一尺度的详细架构，其对于其他尺度共享类似的结构。鉴于低水平的恐惧-1图P，采用两个线性映射产生t-两个变换后的特征图VN×C和KN×C，其中N = W ×H。然后，特征图K通过边缘编码器Rk（K）以获得零件边界特征。有了这些特征，我们将它们传递给softmax注意力函数σ以生成注意力图，并与特征图V逐点相乘以产生边界增强特征。上述操作可以正式表示为如：图4. 边界感知空间选择机制我单位（Ks）主义P表示来自不同编码的金字塔特征S（Ps）=0i、j两个人，个街区. 图1表示轻质融合块（黄色视图），ii，j）i、j低）。这些特征最终被连接起来以获得最终输出（绿色视图）。VS=tanh（wvPs+bv），（二）Si、j =tanh（wkPs+bk），这意味着部分的过渡。为了解决这个问题，一些现有的方法[6，4]提出添加额外的分支来学习准确的边界预测，这可能会引入大量的计算负担。在本节中，我们提出了一个轻量级的边界注意模块。其基本思想是，在零件解析的任务中，低级和中级特征应该沿着零件边界承担更多的责任，因为它们提供更详细的本地化线索，同时由于它们有限的区分能力而在零件的内部区域被抑制。牢记这一思想，我们建议在特征提取的早期阶段检测与类别无关的零件边界，其中wk，bk，wv，bv是可学习的参数，是标量积运算。注意，代替自监督注意，边缘特征k（K）直接由类别不可知的部分边界正则化。一个典型的边缘解码器由1×1，3× 3，1×1 卷积块组成，具有batchnorm和ReLU。为此，我们通过一个二进制交叉熵传递分类器，它生成软零件边界和COM-与地面的真相。在所有三个尺度上都采用这种监督。因此，辅助部分边界检测任务的总损失由下式给出：是可能的，因为不需要推断语义信息。预测的软边界然后被用于注意ΣSL边缘=−Σγsγc（1−yik）log（1−pik）（三）机制，以强调沿边界的功能和抑制其他中级和低级阶段。如─k=1i∈I+γs（1 −γc）yiklog（pik），在多个特征尺度上执行张力以检测部分在不同层次上的过渡。最后，边界-参加其中pik是地面实况的预测S而我是然后，早期特征用作对高级特征的补偿，以保持分类和边界定位精度。如示于图3、经典的自顶向下路径方法通过上采样或反卷积对高层特征进行解码，提高了解析分辨率，提供了较强的语义特征，但在空间上较粗糙。而在最先进的模型[22，3]中，采用横向连接来融合低级别和高级别特征（见图10）。第3（b）段）。然而，在这种情况下，低层次的图像I的格域。 γk是平衡权重，每个刻度和γc是类平衡权重。通过regulariz-通过边缘损失去除特征注意力，尺度s的每个金字塔特征Ps被空间注意力S过滤。这些特征通过轻量融合操作逐步融合（在图1中表示为“fuse”）4）求Qs。那么这些特征被级联以融合到最终输出F，其可以是在Eqn. （四）Q k= S（P1）<$S（P2）<$. . . S（P k），k= 1. S、而高层特征在空间上被同等对待，这可能会抑制语义特征。为此，我们提出了一种新的边界感知特征金字塔，ΣSF=i=1Qi·wi，（四）在低层强调边界附近的特征以提供更精细的空间预测，并保持高层特征以提供语义预测。目前，边界感知模块需要一个其中S是空间特征金字塔中的下采样尺度特别是对于最后一层的高层特征，我们采用了无空间选择的ASPP结构，以强调其语义理解。K9181i、ji、ji、j图5. PASCAL-Part数据集上的定性比较。与最先进的模型相比，我们的模型生成了更好的结果，具有更精细的局部细节和语义理解。3.3. 语义感知通道选择如第3.1节所讨论的，每个通道映射与相应的语义类别具有一定的映射关系，而不相关的特征将对最终预测造成混淆为了解决这个问题，我们使用辅助语义信息来监督相关特征的注意力权重因此，它实际上使多类零件分割成为一个级联过程，其中理解零件语义需要将类理解为先验。3.4. 联合边界语义感知通过两个选择模块的提议，我们进一步基于DeeplabV 3 [9]编码器构建了我们的联合边界语义感知网络（B-SANet），这是最先进的语义分割网络。边界感知模块和语义感知模块依次进行，以得到最终的预测。我们的最终框架是一个边界语义联合求解过程，在相应的阶段进行不同的损失。′ ′ ′如图 2. 从空间选择模块中得到图像 I 的特征F∈RW×H×C。语义编码器的结构与边缘编码器相似，由若干个3×3，1×1卷积块组成，采用batchnorm和ReLU。为了获得预测的语义特征f（Fc），我们使用每个像素的语义标签来用softmax交叉熵LossLobj. 通过这种方式，监督强调了与特定对象类别相关的特征，这可以进一步消除类间混淆。我们采用软语义标签V来编码语义特征的信道信息，该信道信息通过全局池化操作来生成，以将大小W′×H′×C′减小到1×1×C′。V的第c个值可以表示为：W′ H′在图中的空间特征金字塔的末端2.在特征金字塔的最后一个块上增加一个辅助损失Laux，以加快训练过程。最终部分预测损失Lpart和Laux是在部分类别上定义的我们框架的最终损失函数Lsum被计算为4项的平衡和Lsum=λe·Ledge+λo·Lobj+λa·Laux+Lpart，（7）其中λ{e，o，a}是平衡项。此外，边界和对象的语义地图自动生成的语义部分的标签，这不需要额外的注释。4. 实验4.1. 实验设置Vc=1W′×H′Σ ΣF（Fc），c= 1. . . C′，（5）i=1j =1数据集。PASCAL-Part数据集[10]是迄今为止用于像素级多类对象部分解析最终的通道注意操作A由两个全连接层学习，其强调特征F中的对象相关通道：A=σ（τ（w1 V+b1）w2+b2），Gc=Ac·Fc，c= 1。. . C′，（6）其中τ是整流线性单元（ReLU），σ是sigmoid函数。 w{1，2}、b{1，2}是完全连接层的学习参数。G是通道选择后的最终特征图这个融合的特征图通过一个简单的分类器与通道减少，以获得最终的预测。零件注释。它包含从PASCAL-VOC 2010挑战中收集的20个语义对象的10103幅图像，并具有像素级部分注释。特别是，数据集包含非常详细的部分注释，包括人和动物的眼睛，鼻子和嘴巴我们遵循[31，32]的合并规则用于动物，[30]用于车辆，[9，16]用于人体。该数据集总共产生58个零件类。我们使用训练集中的4998张图像进行训练，使用valset中的5105张图像进行测试，除以[10]。对于单类部分解析，PASCAL-Person-Part是一个广泛使用的基准，有几十个模型，它也是从PASCAL-Part生成的子数据集[10]。我们9182K表1.mIoU在PASCAL部分基准测试中的分割性能平均值：每个对象类的平均mIoU。mIoU：每个部分的类mIoU。†：在MS-COCO数据集上使用预训练模型。方法backg航空自行车鸟船瓶汽车猫椅牛桌狗马mbikeperson盆栽羊沙发火车电视MiouAvg.SegNet [3]85.413.740.711.321.710.736.726.328.516.68.916.624.218.844.735.416.117.315.741.326.124.426.5[25]第二十五话87.033.951.537.747.045.350.839.145.229.431.232.542.442.258.240.338.343.435.766.744.242.344.9[7]第七话89.840.758.143.853.944.562.145.152.336.641.938.749.553.966.149.045.345.340.576.856.549.951.9[8]第八届全国政协委员90.844.860.946.756.847.965.950.060.435.750.542.155.960.669.354.552.048.743.879.856.854.455.9基线90.645.760.748.555.746.866.950.259.433.148.938.355.058.768.654.350.346.542.678.156.454.055.0BSANet-10191.650.065.754.860.249.270.153.563.836.552.843.760.866.073.358.455.049.643.182.261.458.259.1表2.mIoU在Pascal-Person-Part基准上的分割性能*：在建议的数据集上重新训练姿势：使用辅助姿势注释进行学习。基线82.9466.1853.9052.7146.5443.0294.5162.83BSANet-10186.4970.2059.3158.7251.9149.3295.6267.37BSANet-15286.9871.3561.3660.2653.2849.9595.7968.43遵循[9，37]的注释，其由7类3533个图像（1716个用于训练的图像和1817个用于测试的图像）组成，即、背景、头部、躯干、上/下臂和上/小腿。这个具有挑战性的数据集包含各种尺度的多人图像。培训详情。我们在先前的作品中参考了相同的训练方案[7，8]。这些图像随机左右翻转并从0调整大小。五比二在我们的实验中，我们用开始学习率7e-3训练我们的模型，所有这些数据集的权重都有衰减我们的超级参数-设置得很简单，没有铃铛和哨子。在一个NVIDIA1080Ti GPU 上，我们需要大约 15 个小时来训练PASCAL-Part数据集的50 K迭代模型。对于PASCAL-Person基准测试，我们只训练了30 K次迭代，以防止可能的过拟合。的每幅512×512图像的推理时间在0.2秒以内。ASPP的atrous速率遵循先前的工作[7]，设为（6，12，18）。我们在所有模型中设置下采样步幅= 16，并考虑内存和计算成本，使用Resblock2.5我们设λe= 0。10，λa= 0。20且λ0= 0。40，使重量平衡，提高零件分类的规范性。当上采样到相同尺度且γc = 0时，γ s简单地设置为1。1、强调边界。基线和评价。为了验证我们对多对象类部分解析挑战的首次尝试，我们将我们的框架与四个最先进的代表性作品[3，25，7，8]。为了与这些模型进行公平的比较，我们根据原始论文中的训练方案对于[3，25]，我们使用ImageNet预训练的VGG- 16 [29]主干微调的官方模型。对于[7]，我们采用了作者提供的在MS-COCO数据集[23对于[8，7]和我们的模型，我们使用ResNet-101作为主干进行公平比较。值得注意的是，我们的模型是在没有任何额外数据集（如MS-COCO）的情况下训练的。我们在PyTorch中重现了Deeplabv3模型[8]作为我们的基线，它在部件分割基准中的性能稍低，如Tab中所1.一、在本文中，我们选择的平均交集超过联合（mIoU）作为评价标准的所有实验，由于像素精度是不敏感的分割的小4.2. 与最新技术水平的比较PASCAL部分基准。如Tab.所示。1.在两个准则下，将我们的模型与四种现有的方法进行了比较，即：、每对象类mIoU和每部分类mIoU。 FCN [25]是语义分割的基础工作，实现了42. 3%，每部分mIoU的58类。随着更大视场的改进，[7]通过实现49. 9%，这是在COCO预训练模型上微调的。通过复制Deeplab- v3 [8]作为我们的基线，[8]和我们的复制获得了与54相似的结果。4%，54。0%，分别。开始方法姿势一个.头躯干U形臂L形臂u腿L形腿BKGAvg.HAZN [36]80.7959.1143.0542.7638.9934.4693.5956.11注意事项[9]81.4759.0644.1542.5038.2835.6293.6556.39LSTM [19]82.7260.9945.4047.7642.3337.9688.6357.97[16]第十六话83.2662.4047.8045.5842.3239.4894.6859.36Graph-LSTM [19]82.6962.6846.8847.7145.6640.9394.5960.16SS-NAN [42]86.4367.2851.0948.0744.8242.1597.2362.44[8]第八话84.0666.9654.2652.8048.0843.5994.7963.50Str.- LSTM [17]82.8967.1551.4248.7251.7245.9197.1863.57接头[37]C85.50 67.87 54.72 54.30 48.25 44.76 95.32[27]第二十七话64.3965.109183表3.Pascal-Person- Part数据集上烧蚀实验的性能BA-1：只有一个金字塔块的边界感知模块。w/o sup：没有辅助监督的模型。方法头躯干瓦尔姆 Larm 乌列格 Lleg平均值基线82.94 66.18 53.90 52.71 46.54 43.02 94.51全侧84.98 68.04 56.30 55.12 49.82 45.90 95.24 65.06BA-184.92 67.64 55.07 54.78 49.07 45.49BA-all86.5369.76 58.64 57.57 51.38 47.96 95.55 66.77BA-全部（不含补充剂）84.97 68.17 55.69 54.50 49.78 46.24 95.22 64.94BSANet-final86.4970.20 59.31 58.72 51.91 49.32 95.62 67.37从一个强大的基线，我们的最终模型结合边界选择和语义选择，实现了更高的多类对象部分分割结果：五十八mIoU上的2%，远远优于最先进的模型。此外，我们的模型在具有更多零件组件或详细信息的对象上显示出优越的性能，例如。小鸟8 1%，马5。百分之四这验证了我们的模型的有效性，侧重于详细信息，通过聚合多层次的功能。对于椅子、沙发等非多部件组成的特殊类别，该模型也能得到与其他方法相当的结果。解析结果的定性比较如图所示。五、与可视化结果中的那些方法相比，我们的模型生成清晰的边界，并且对更细尺度的像素敏感。此外，我们的方法在单类零件解析和多类遮挡场景下都能产生优异的结果。PASCAL-人-部分。为了验证单类解析任务的性能，我们在广泛使用的人类解析基准上进行了实验。我们将我们的方法与10种最先进的模型进行了比较，并报告了性能，如表1所示。二、特别是，在[37，27]中，人体姿势注释被用作辅助信息以促进部件解析任务。Deeplabv3模型[8]的结果为63。50%mIoU，仅具有像素级部件注释。而[17]通过使用超像素进行细化来生成稍高的结果。此外，我们的基线模型显示出比Deeplabv3 [8]略低的性能，但仍然超过了大多数最先进的模型。受益于边界语义感知框架，我们的模型达到了巨大的性能提升68。43%，提高了约5。6%的mlou。与类无关的部分级别的边界指导，我们的模型显示了优越的结果与混乱的轮廓，例如部分。人的胳膊和腿。我们的模型改进了6. 0%的mIoU在下臂和6. 上臂6%，与最佳模型[37]相比，具有额外的注释。图6. PASCAL-Person-Part边界模块的定性结果。我们的模型明显地改善了局部细节信息，特别是在边界附近的区域.4.3. 性能分析在本节中，我们评估我们提出的两个模块的BSANet，这是边界感知的空间选择模块和语义感知的信道选择模块，分别的有效性。我们进一步分析了其他类似主干上的扩展的性能。边界感知空间选择。为了评估我们的空间选择模块的有效性，我们用不同的消融因子重建我们的模型。选项卡. 3显示了PASCAL-Person数据集上的消融。在第一排，我们首先建立我们的模型与横向连接之间的低层次和高层次的特征地图，如图所示3（b）款。这种有效的操作可以将基线提高2。2mIoU，而我们的边界感知空间选择（BA）模块进一步提高了基线从62。83%到67。百分之三十七我们进一步使用不同的空间块进行实验，而BA-1是仅连接ResNet主干的block-2特征的模型。通过在我们的模块中引入更多的块，性能从64稳步提高。59%到66。百分之七十七在Tab中的第四行。图3示出了没有边界正则化损失的模型，这类似于自注意过程。性能稳定下降，没有辅助损失，我们的se-mantic监督选择块可以进一步提高性能到67。37%，最终跑赢4. 5%的高基线。从图中的可视化结果来看，5，我们的模型在边界注意区域附近的细节上有明显的改进，这在第五列中通过softmax运算计算出来。语义感知信道选择。为了进一步评估语义感知模块，我们进行了我们的实验上的PASCAL-Part数据集的20 VOC语义对象类别。如示于图7，没有语义选择的模型将在近似重复的局部特征中混淆，例如，第二列的船被误认为是汽车。9184表4.PASCAL部分数据集上的模块烧蚀实验(Both基线和BSANet采用相同的Res-101主干。方法边界选择语义选择损失登记Miou表5.不同主干在PASCAL-个人-部分数据集上的性能。方法头躯干瓦尔姆拉姆乌列格Lleg平均值基线（Res50）82.07 63.00 49.46 48.22 43.57 39.35 94.09 59.96基线54.03BSANet-5084.11 65.92 53.23 51.79 45.07 41.33 94.56 62.29BSANetCC56.97基线（Res101） 82.94 66.18 53.90 52.71 46.54 43.02 94.51 62.83BSANetCC55.87BSANet-10186.49 70.20 59.31 58.72 51.91 49.32 95.62 67.37BSANetCC54.59基线（Res152） 83.60 66.23 54.46 52.76 47.02 42.76 94.65 63.07BSANetCCC58.18BSANet-15286.98 71.35 61.36 60.26 53.28 49.95 95.79 68.43图7. PASCAL部分数据集上的定性结果。没有语义选择的第二列很难区分混淆类别，而我们在第三列中的模型表现出更好的性能。定量结果见表1。4.第一章边界选择模块在第一行中实现了与基线的近3%mIoU提升我们的单一语义选择模块在许多情况下也是有效的，这促进了54的结果。03%至55。百分之八十七最后将这两个模块结合起来，达到最佳性能，但计算量也稍高。我们的最终模型实现了4. 在所有58个部件类别的mIoU中占15%。通过采用这些模型，没有监督选择，这是一个自我注意的过程，达到一个小的性能提升54。百分之五十九有不同骨干的模特。我们进一步探索更多具有不同深度的骨干[8]，如表1所示。五、我们的模型易于在多种编解码器架构上扩展，从而大大提高了基线。而较浅的网络显示出与62的IoU相当的性能。29%，下降6。百分之一。深层网络在处理像腿和手臂这样的小而令人困惑的部分方面有很强的能力。推理时间。与[37]相比，6。0 s和[17]与1。在推理阶段，我们的模型在单个消费级1080Ti GPU上每512 ×512图像花费不到200 ms，仅增加9. 与基线相比，8%的推理时间[8]。而另一种快速模型[42]，500毫秒的推理时间会产生低得多的性能。失效模式。如图 8 中的第一行，我们的模型图8.两种典型的故障模式。输入图像，DeepLabv3，我们的结果和地面真实掩模。我们的模型可能会混淆复杂的图像，很容易被人类注释。错误的狗作为马，并介绍了更多的错误，头和腿被认为是马的头和腿。而Deeplabv3 [8]中具有大类混淆的狗在mIoU中表现出更高的表现对于第二种情况，严重的遮挡和视点变化，基线和我们的模型仍然面临着很大的挑战。5. 结论在本文中，我们尝试了较少探索的多类对象部分解析任务，并提出了一个统一的框架来处理它的两个主要挑战，即。边界定位不准确和类间外观模糊。对于第一个挑战，我们求助于从部件标签生成的语义边界信息来正则化空间选择器，其目的是聚集具有更多局部细节的低级特征和具有语义理解的高级特征。对于第二个挑战，我们提出了一个语义监督的通道选择器来选择对象相关的特征图。通过顺序地进行这两个模块，我们的框架在单类和多类解析任务中都优于最先进的模型。致谢这项工作得到了中国国家重点研发计划（ 2017YFB1002400 ）、中国国家自然科学基金（61672072，U1611461和61825101）和北京新星计划（Z181100006218063）的部分支持。9185引用[1] Md Amirul Islam、Mrigank Rochan、Neil DB Bruce和Yang Wang。用于密集图像标记的门控反馈精化网络。在CVPR中，第3751-3759页，2017年。2[2] Hossein Azizpour和Ivan Laptev。使用强监督的可变形零件模型进行对象检测。ECCV，第836-849页，2012年。1[3] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE T-PAMI，（12）：2481-2495，2017年。二、四、六[4] Gedas Bertasius，Jianbo Shi，and Lorenzo Torresani.基于边界神经场的语义分割。在CVPR，第3602-3610页，2016年。4[5] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在CVPR中，第5659-5667页，2017年。2[6] 陈良杰，乔纳森T巴伦，乔治帕潘德里欧，凯文墨菲，和艾伦L尤伊尔。使用cnn和区分性训练域变换的具有特定任务边缘检测的语义图像分割在CVPR中，第4545-4554页，2016年。4[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE T-PAMI，40（4）：834一、二、六[8] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。arXiv：1706.05587，2017。一二六七八[9] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。在CVPR，第3640-3649页，2016年。一、二、五、六[10] Xianjie Chen，Roozbeh Mottaghi，Xiaobao Liu，SanjaFidler，Raquel Urtasun，and Alan Yuille.检测您可以：使用整体模型和身体部位检测和表示对象。在CVPR中，第1971-1978页，2014年。一、五[11] Xiao Chu，Wanli Ouyang，Hongsheng Li，and XiaogangWang.用于姿态估计的结构化特征学习。CVPR，第4715-4723页，2016年。2[12] Jian Dong ， Qiang Chen ， Xiaohui Shen ， JianchaoYang，and Shuicheng Yan.走向统一的人类解析和姿态估计。在CVPR，第843-850页，2014年。1[13] 方浩树、卢冠松、方小林、谢建文、戴玉荣、卢策武。通过姿势引导知识转移的弱和半监督人体部位解析。在CVPR中，第70-78页，2018年。2[14] Ke Gong，Xiaodan Liang，Yicheng Li，Yimin Chen，Ming Yang，and Liang Lin.通过部件分组网络的实例级人工解析。在ECCV中，第770-785页，2018年。2[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。1[16] 梁晓丹，龚克，沈晓辉，林亮。看人：关节体解析&姿态估计网络和一个新的基准。IEEE T-PAMI，2018。一、二、五、六[17] Xiaodan Liang，Liang Lin，Xiaohui Shen，Jiashi Feng，Shuicheng Yan，and Eric P Xing.可解释的结构-演化的lstm。在CVPR中，第1010-1019页，2017年。二、六、七、八[18] Xiaodan Liang，Si Liu，Xiaohui Shen，Jianchao Yang，Luoqi Liu，Jian Dong，Liang Lin，and Shuicheng Yan.使用主动模板回归的深度人类分析。IEEE T-PAMI，12（37）：2402-2414，2015年。一、二[19] 梁晓丹，沈晓辉，冯佳诗，林良，严水城。语义对象解析图。在ECCV中，第125-143页。施普林格，2016年。二、六[20] Xiaodan Liang，Chunyan Xu，Xiaohui Shen，JianchaoYang，Si Liu，Jinhui Tang，Liang Lin，and ShuichengYan.使用上下文化卷积神经网络的人类解析InICCV，December 2015. 1[21] Guosheng Lin，Anton Milan，Chunhua Shen，and Ian Rei-D. Refinenet：用于高分辨率语义分割的多路径细化网络。在CVPR中，第1925- 1934页，2017年。2[22] 林宗义、彼得·多尔、罗斯·格希克、何开明、B-哈拉斯·哈里哈兰和塞尔日·贝隆吉.用于目标检测的特征金字塔网络。在CVPR中，第2117-2125页，2017年。4[23] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。在ECCV，第740-755页，2014中。6[24] SiLiu，Jiashi Feng，Csaba Domokos，Hui Xu，JunshiHuang，Zhenzhen Hu，and Shuicheng Yan.弱颜色类别标签的时尚解析。IEEE Transactions on Multime-dia，

下载后可阅读完整内容，剩余1页未读，立即下载