没有合适的资源?快使用搜索试试~ 我知道了~
室内语义分割中的联合推理和几何感知
2869用于室内语义分割焦建波1,魏云超2,杰泽群3,石红辉4,刘仁森5,托马斯S。黄21牛津大学工程科学系2UIUC,3腾讯人工智能实验室,4IBM研究院,5香港城市大学jianbo@robots.ox.ac.uk,{wychao 1987,zequn.nus,shihonghui 3}@ gmail.comrynson.cityu.edu.hk,t-huang1@illinois.edu摘要结果表明,从RGB-D域联合推理二维外观和三维信息,有利于室内场景的语义分割。然而,大多数的经验方法需要精确的深度图作为输入来分割场景,这严重限制了它们的应用。在本文中,我们提出了联合推断的语义和深度信息,通过提取几何感知嵌入消除这种强约束,同时仍然利用有用的深度域信息。此外,我们使用这种学习嵌入来提高语义分割的质量,(一)(b)第(1)款地面实况分段,通过提出的几何感知传播框架,随后是几个多级跳过特征融合块。通过将单个任务预测网络解耦为语义分割和几何嵌入学习的两个联合任务,以及所提出的信息传播和特征融合架构,我们的方法被证明可以在公开可用的具有挑战性的室内数据集上与最先进的语义分割方法进行比较。1. 介绍语义分割是计算机视觉中的一个基本而又复杂的问题,它是对室内场景中每个像素的语义标签进行推断通过语义分割来获得更好的场景理解,对机器人、视觉SLAM和虚拟/增强现实等应用有着重要的意义。与基于RGB 图像的方法相比,基于具 有深度的RGB(RGB-D)的方法可以利用来自场景的附加3D几何信息来有效地解决对于2D外观单独方法具有挑战性的模糊性,例如,一些枕头在床上与床相似的颜色(图1)。先前的RGB-D语义分割方法通过将深度*通讯作者图 1. 图示 对 的 有效性 的 (b)蒸馏与(a)传统RGB相比,几何感知深度嵌入用于语义分割。信息[33,12,34,13,11,6,32]。实现这一目标的方法主要有两种:使用手工制作的功能或部署基于CNN的模型。早期的作品使用手工制作的图像描述符,如SIFT或HOG,从RGB图像中提取特征。一些特别设计的特征(例如,用于深度描述的表面法线[34]、深度梯度或自旋[33])也用于支持最终分割。对于基于CNN的模型,全卷积网络(FCN)[28]由于通过学习方式提取的高度代表性特征,大大提高一般来说,两个独立的FCN用于从RGB和深度通道中提取特征,然后进行简单的融合[28,11]以进行语义标签预测。所有上述方法都需要与输入RGB图像相关联的地面实况深度图然而,从场景中收集深度数据并不方便与RGB图像捕获进行比较,并且深度和RGB之间的对准本身是一个具有挑战性的问题。因此,我们对这样一个问题感兴趣:是否可能仅将用于语义分割几何信息与单个RGB图像合并作为输入?一些研究尝试[37]已经提出了预-DepEm2870dict深度信息通过多任务网络帮助语义分割任务。语义分割的性能增益主要来自简单的后融合策略。我们认为,深度感知功能没有很好地利用这种方法,我们的目标是学习更好的几何感知特征表示隐式。在这项工作中,我们提出了提取/提取几何感知的信息,通过学习密集的深度嵌入在一个联合推理框架,为单一的RGB图像语义分割。该模型不是直接将深度图像作为输入,而是提取可以指导语义分割的深度嵌入以及RGB输入。在所提出的框架中,这样的学习嵌入,dings融合的特征,从2D外观的几何感知传播块,杠杆年龄的几何亲和力,以指导语义传播。此外,我们发现分割结果往往缺乏细节,特别是在物体边界附近。在特征空间中,提出了一种增量式跨尺度融合方法,进一步丰富了图像的结构细节。某些物体可能具有非常相似的2D外观,无法很好地区分。该模型能将三维几何信息很好地嵌入到学习特征中,使预测结果既具有语义一致性,又具有几何一致性。如图1(a)所示,仅基于2D特征难以分割出枕头,而利用学习的嵌入(DepEm),由于它们与周围环境的3D几何信息不同,它们可以被很好地分类(图1(b))。床的形状也受益于学习的嵌入,这揭示了提取的几何信息的有效性。我们的方法的核心思想是预测语义标签从一个单一的RGB图像,同时考虑3D几何信息隐式。本文的主要贡献概括为:• 我们提出了一种新的方法,通过隐式深度推理提取几何感知嵌入,有效地指导场景分割RGB输入。• 所提出的联合框架能够实现深度和语义标签之间的有效信息融合,并且是端到端可训练的。• 我们 的模 型在 具有 挑战性 的NYU-Dv 2和 SUNRGBD室内语义分割数据集上实现了最先进的性能。2. 相关工作RGB语义分割 由于深度学习在高级视觉任务中取得了巨 大 成 功 [21 , 35], 最 近 的 语 义 分 割 方 法 利 用 了CNN。在[28]中,提出了一种通过端到端训练执行逐像素分类的FCN结构。后来FCN成为大多数基于CNN的方法的基本结构[5,25,24,9,1]。Chen等人[5]采用了一个atrous卷积来扩展感受野,然后是完全连接的条件随机场(CRF)。除了作为后处理步骤之外,CRF还被集成到网络中[40,2,4]以丰富更详细的预测。为了克服FCN的低分辨率限制,一些作品[30,3]提出使用上卷积(也称为去卷积)层来逐层上采样特征。在[30]中,作者首次尝试在卷积层上学习反卷积网络,并结合实例分割以获得最终结果。另一项工作[3]通过池化索引进一步增加了从编码器到解码器的连接。另一种方法[28,3,24]利用多水平/尺度特征来预测最终结果。Li等[24]提出了一种迭代组合多级特征的网络,并证明了很大的改进。RGB-D语义分割。 不同于在2D RGB设置中,使用深度图提供的3D几何信息来增强RGB-D语义分割早期作品[33,12,21,34]设计了为RGB量身定制的具有深度信息的手工制作的功能。提取的特征被进一步馈送到另一个模型中以进行分类。与最近的RGB语义分割类似,CNN也有利于RGB-D方法。一些方法[11,28]将深度图视为RGB图像输入的附加通道,而最近的作品[13,28,32,31,38]首先将深度编码为三维HHA(水平视差,地面高度和重力角度除了RGB语义分割,Longet al. [28]还报告了他们在RGB-D数据上的表现,通过分别预测两种模式的特征并融合最终预测。Eigen和Fergus [11]在全局到局部框架中利用深度和RGB图像Li等[23]通过LSTM层融合了深度和RGB特征 。 Cheng 等 人 [6] 使 用 两 个 独 立 的 局 部 敏 感 的DeconvNets来组合HHA和RGB特征并恢复清晰的边界。Park等人[31]扩展了RefineNet [24]用于RGB-D语义分割。Qi等人[32]提出了一种3D图形神经网络,它建立在深度图的3D点云上,以预测每个像素的语义标签。这些方法都以地面实况深度图作为输入.可替代地,已经做出了一些努力来杠杆化3D几何信息而不将地面实况深度馈送到模型中。Wang等人[37]提出了一个联合框架来预测深度和语义图,随后是分层CRF。只有CNN的最后一层用于预测语义,并且分层CRF在计算上是昂贵的。Hoffman等人[16]建议在训练期间产生不同的幻觉,但为了消除幻觉,2871ememθiiθi保护任务Kokkinos [20]提出了一种名为Uber- Net的CNN,它联合处理几个视觉任务(例如,边界、表面法线、语义分割等),其实现了有竞争力的性能以及高效率。以这种方式,语义分割受益于几个视觉任务,包括表面法线编码几何信息。然而,不同任务之间的信息共享还没有得到很好的探索。3. 几何感知蒸馏本节介绍了几何感知蒸馏的拟议框架,以隐式地提高语义分割性能。整个网络通过联合目标函数进行端到端的训练。3.2. 几何感知引导传播在学习嵌入之后,我们部署它们来改进语义分割。在这里,我们提出了一个几何感知传播(GAP)的方法来利用学习的嵌入作为指导。以这种方式,深度嵌入充当亲和性指导,提供几何信息以更好地对2D外观空间之外的语义特征进行给定嵌入空间中的一个点i,相邻点j∈ N(i),对于用于预测se的分数图中位置j处的对应特征点pjMantic标签,位置i处的传播输出Qi可以用公式表示为,ΣjWij( Gem) pj3.1. 学习深度感知嵌入qi=ΣjWij、(3)这项工作的目标是利用几何形状(深度)信息进行语义分割,而不需要深度注释作为输入。用于这种目的的直观方法是首先预测深度从输入RGB图像映射,然后将其中Gem=fθ(Ii)是学习的深度嵌入,Wij是从几何结构导出的传播权重,导航系统由于Wij表示嵌入空间中的几何亲和性,因此在这里我们将其定义为解耦嵌入的点积,深度信息到传统的RGB-D分割流水线[13,11]。而不是采取这样的顺序和广告-Wij=η(Gi)·(Gj)、(4)特别解决方案,我们建议从RGB图像中学习深度感知嵌入,同时执行语义分割。我们将深度感知嵌入定义为在语义级别上对深度信息和像素亲和力进行编码的表示。具体地,给定具有像素Ii∈RR,G,B的RGB图像I,深度感知嵌入来自可学习的投影函数g(Ii),其将RGB像素变换到具有嵌入的对应的更高维度空间中。ing功能。然后,嵌入学习可以被建模为优化问题:其中η和η分别将原始嵌入解耦为两个子嵌入。为了应对传播过程中的维数变化,语义特征进一步通过δ(pj)映射到相应的嵌入空间。特别地,传播权重由几个卷积单元设计,这些卷积单元可以通过反向传播自动学习。特别地,原始语义特征被添加回传播结果,以避免在整个传播过程中中断。然后将所提出的GAP块定义为,Ση(Gi)·η(Gj)·δ(pj)ΣnminE(g(I);D)+s(I),(1)qi=j埃姆河emWij+p i.(五)giii ji=1其中,E(x,x∈)是数据拟合项,并且D∈是提供要通过投影嵌入的深度信息的地面实况 第二项s(x)=E(g′(x),x)是语义项,旨在嵌入语义信息,其中g′(·)与g(·)部分共享权重。这里n是像素的总数为了获得良好的投影g,我们通过深度神经网络模型对其进行参数化,并且可以通过反向传播来优化嵌入因此,g被定义为fθ,其中f是具有参数θ的深度CNN。最后,优化(Eq. 1)重新表述为,3.3. 网络架构在本节中,我们提出了一种专门设计的深度CNN架构,通过引导传播和金字塔特征融合来提取几何感知信息,用于语义分割。如图2所示,拟议的网络由五个部分组成:共享骨干网络、语义分割分支、深度嵌入分支、几何感知传播块和跳跃金字塔融合块。所提出的网络全局遵循一个编码器-解码器结构,具有多任务预测。网络权值minθΣni=1E(f(I);D)+s(I),(2)编码器主干部分的部分在以下两个任务之间共享。对于解码器部分,上分支预测语义标签,而下分支学习其中s由相同的网络模型θ参数化。通过预测深度图进行深度嵌入。 的特征2872RGB间隙骨干网深度深度嵌入SPF1SPF2分割SPF3SPF4图2.建议的网络架构概述上图显示了两个并行的编码器-解码器网络,用于预测语义标签。和深度信息。骨干编码器的权重彼此共享,而解码器是特定于任务的。在解码器端,学习的嵌入被用于通过几何感知传播(GAP)块来改进语义特征。在底部部分,提取的语义特征(蓝色块)进一步与来自主干的多级特征图融合,以提高最终的语义分割性能。图4.图2所示的SPF块的结构。从SPF。相应的深度图充当用于学习嵌入的监督器。整个网络通过联合目标函数进行端到端训练(详见目标函数部分)。图3.图2中提出的GAP块(顶部)和普通卷积块(底部)的详细结构。表示点积,而深度分支被传播(通过求和)到地震分支以提供多尺度深度引导(Feat-Prop)。在解码器中,不同的尺度特征也被传播以丰富最终的层输出。解码器中的每一层都是上采样,然后是卷积。在语义分支的末端应用几何感知传播块(GAP),以学习的嵌入作为指导来提高语义特征的质量通过跳过金字塔融合块(SPF)与来自骨干网络的多级特征图组合,进一步细化提取的输出。来自底部SPF块的得分图用于最终的语义标签预测。对最右侧的提取要素和每个级别的侧输出几何感知传播。所提出的几何形状感知传播是通过几个卷积层,然后在我们的网络中进行批量归一化和元素操作。GAP的详细结构如图3所示。深度嵌入首先被发送到两个conv单元中以实现几何亲和性。然后以几何相似度为指导进行语义特征融合。最后,将原始语义特征与融合后的信息相结合以输出,如图3中的蓝色块所示。整个传播过程保持着语义特征的维度为了比较,还示出了香草相反,深度被明确地设计为在GAP中作为特征融合的指导。跳过金字塔融合。当图像通过编码器和解码器时,由于可能丢失很多细节信息,间隙1x1 Conv 1x1 Conv 1x1 ConvBatchNormBatchNorm香草骨干专长(d)其他 SPF2SPF1((一)输入功能(c)第((((b)第(1)款侧输出3x3转换侧出3x3转换…Sem FeatDep-EmSem FeatDep-Em1x1转换批次标准Concat1x1 Conv 1x1 Conv批次标准BatchNorm1x1转换批次标准1x1转换ReLU1x1转换ReLU重缩放concat2873∗我尝试在最终语义特征图中丰富和恢复更多细节,如下所示。受用于对象检测的特征金字塔网络[26]的启发,我们建议通过跳过连接从编码器骨干中杠杆化多级特征由于编码器和解码器之间的瓶颈特征空间是具有最少细节的最稀疏的特征空间,解码器恢复的最终特征图几乎不包含有用的因此,我们转向编码器部分以寻求更多的信息。跳跃金字塔融合(SPF)块的结构如图4所示。第一SPF(即,SPF1)将提取的特征作为输入,经过1×1卷积,并在适当的重新配置后与来自编码器主干的特征图连接尺寸。经过3×3卷积后,组合的特征将传播到另一个SPF。同时,每个SPF预测用于语义分割的侧输出。3.4. 目标函数对于语义分割,大多数方法利用交叉熵来测量预测标签和地面实况标签之间的差异。然而,对于现有的语义分割数据集,例如,NYU-Dv 2 [34],SUN RGBD[36],语义标签的分布是戏剧性的不平衡。很少有语义标签支配整个数据集,只留下少量样本用于大量标签。我们在图5中绘制了上述两个数据集的分布。如分布图所示,某些类别(墙、地板等)有比其他(浴缸,袋子等)多得多的样品。这将使学习偏向于那些占主导地位的样本,并导致少数类别的准确率较低。为了缓解数据不平衡问题,我们将最近提出的用于对象检测的损失函数[27]扩展到我们的语义分割任务,如下所示:Σ Σ图5.语义标签在NYU-Dv 2(顶部)和SUN RGBD(底部)上的分布。横轴表示语义标签,纵轴表示样本的相对比例损耗Ld充当等式(1)中所示的嵌入学习的优化中的数据项。连同用于中间层处的语义预测的损失Lsk(SPFk处的Ls)(K层的聚合),我们的最终联合损失函数被公式化为,ΣKL=L s+ L d+L sk。(八)k=1Ls=−我(1−pCi,c)2×100×log(pi,c)、(6)4. 实验4.1. 数据集和指标其中i索引像素,c∈1,2,3,... 表示cate-血淋淋的pi,c是像素i属于类别c的预测概率。事实上,这是一个真实的标签。通过这种损失,硬样品比容易的样品贡献更多例如,如果对一个像素的预测是正确的, p= 0。9,当(1-p)2= 0时,L s的权重较小。01;如果像素被错误地预测为p = 0。1,则权重将大到0。81. 除了语义监督之外,学习深度感知嵌入需要来自深度域的监督。遵循用于深度估计的最先进算法[22],我们使用berHu损失用于我们的深度超视,定义为:.Σ|di−D|、|di−D|≤δ我们主要在两个公共数据集上评估我们的方法:流行的NYU-Dv 2 [34]数据集和大型SUN RGBD [36]数据集。NYU-Dv 2数据集由1449个图像样本组成,这些图像 样 本 具 有 密 集 的 语 义 标 签 和 深 度 信 息 , 来 自Microsoft Kinect捕获的464个不同场景。[34]的标准分割涉及来自249个场景的795张图像用于训练,来自215个场景的654张图像用于测试。语义标签涵盖了近900个不同的类别。在[12]之后,我们在实验中使用了投影的40个类别标签。SUN RGBD数据集由10335个RGB-D图像对组成,这些图像对也具有像素级语义标签,来自现有的RGB-D数据集[34,17,39]以及新捕获的数据。我们Ld=我(di−D)2+δ2i,(7)使用5285/5050的标准培训/测试划分[36],i,|di−D|>δi2δ其中di是从针对pixeli的嵌入g(Ii)导出的预测深度,δ=0。2·maxi(|di−D|)的情况。则37个类别的语义标签的实验。为了评估我们的方法的性能,我们采用了最近的作品中常用的指标[6,31,32,12,2874表1.与NYU-Dv 2数据集上的最新技术进行比较。显示像素准确度百分比(%)、平均准确度和平均IoU以供评估。方法输入PixAcc.mAcc.MiouGupta等人[12个]RGBD60.335.128.6[11]第十一话RGBD65.645.134.1[28]第二十八话RGBD65.446.134.0Lin等[25日]RGB70.053.640.6Mousavian等人[29日] RGB68.652.339.2Cheng等人[6]美国RGBD71.960.745.9Gupta等人[13个国家] RGBD60.3-28.6Deng等[10个国家]RGBD63.8-31.5RefineNet [24]RGB73.658.946.53DGNN [32]RGBD-55.743.1D-CNN [38]RGBD-61.148.4RDFNet [31]RGBD76.062.850.1提出RGB84.868.759.628]:像素精度(PixAcc.),平均准确度(mAcc.),和平均交集大于并集(mIoU)。4.2. 实现细节我们在8 GPU机器上使用PyTorch框架实现了我们的网络 我们使用预训练的ResNet- 50 [14]作为我们的骨干网络,并为解码器分支使用四个上卷积块。除骨干网外的网络参数由[15]中的方法初始化。我们使用Adam求解器[19],其中(β1,β2)=(0. 九比零。#29999;优化网络。梯度裁剪用于语义分支和SPF块。学习率是对于主干,初始化为10−5,对于其他部分,初始化为10−2,每40个epoch除以10该批次大小设置为8。在训练过程中,图像首先被下采样到320×240,并应用数据增强。我们使用随机水平翻转、裁剪和图像颜色增强(例如,伽马偏移、亮度偏移等)。的预测的语义分割图被上采样到原始大小以用于评估。4.3. 与最新技术NYU-Dv 2数据集。NYU-Dv 2数据集与40个类别的比较结果如表1所示。可以观察到,我们的方法导致了对当前最先进技术的实质性请注意,NYU-Dv 2上的大多数方法都是RGB-D方法,这意味着地面实况深度图被用作输入源之一虽然我们的方法只需要RGB图像作为输入,它比基于RGB-D的方法更好。Re-fineNet [24]和RDFNet [31]也利用多尺度信息,但仅通过复杂的配置在骨干上组合特征,而无需侧监督。表1中的这些结果还表明,信息通常提高性能。此外,为了评估我们的模型在不平衡分布数据上的性能,我们还显示了每个类别的结果,如表2所示。从表中所示的类别方面的结果中,我们可以看到我们的方法在大多数类别中的性能优于其他方法特别是在一些书架、书籍、袋子),我们的方法仍然实现了相对较高的IoU。我们将几乎所有类别的鲁棒性归功于有效学习的深度嵌入,以及与2D颜色信息的相关特征共享/融合,以及新引入的损失函数。对于同样样本较少甚至难以与深度图上的墙壁或图片区分开的板(图5中的白板)类别,我们的模型优于其他模型这在一定程度上验证了我们提取的几何感知信息与联合融合策略的有效性。请注意,我们的模型在某些类别上表现不佳,如人,墙,地板,这可能是由于我们隐含的2D和3D联合推理属性,因为与相应的2D外观相比,不同场景中的深度可能会有很大变化。SUN RGBD数据集。我们还将我们的方法与大规模SUN RGBD数据集上的最先进方法进行了结果示于表3中。由于表1中的一些方法未报告SUN RGBD数据集的性能,而其他方法仅报告SUN RGBD数据集的性能,因此表1至表3中的计算方法可能有所不同。在大规模数据集上的比较再次验证了该方法的有效性,其性能优于同类方法。请注意,在SUN RGBD数据集中有许多由捕获设备[36,31]引起的低质量深度图,这可能会影响深度的辅助实用程序。从实验结果可以看出,即使不需要手动裁剪数据,我们的方法也可以达到最先进的性能,这表明学习的深度感知嵌入在表示3D信息方面是有效的。概括。为了评估所提出的方法的泛化能力,我们首先微调我们的模型,最近提出的一个更大的数据集(ScanNet [8]),其中mIoU在val集上达到56.9。此外,我们进一步在室外场景(CityScapes [7])上进行测试以供参考,结果在val上的mIoU为71.4。虽然与最先进的水平相当,但这些额外的评估在一定程度上证明了4.4. 消融研究为了发现拟议网络中每个组件的功能每次烧蚀实验的所有训练和测试程序都保留在2875表2.与NYU-Dv 2数据集每个类别的最新技术水平进行比较。显示了IoU的百分比(%)以供评估,最佳性能以粗体标记。方法[28]第二十八话79.450.366.047.553.232.822.139.036.150.554.2四十五点八11.9 8.6 32.531.037.522.4十三点六Gupta等人[13个国家]68.081.344.965.047.947.929.920.332.618.140.351.342.011.3 3.5 29.134.834.416.428.0Deng等[10] 65.679.251.966.741.055.736.520.333.232.644.653.6四十九点一10.8 9.1 47.627.642.530.2三十二点七Cheng等人[6] 78.587.156.670.165.263.946.935.947.148.954.366.351.720.613.749.843.250.448.5 32.2[31 ]第31话87.060.973.464.665.450.739.949.644.961.267.163.928.614.259.749.049.954.3 39.4建议71.4七十五点二七 十 一 点三七十七点一五 十 三 点三六 十 九 点五51.4六十三点七六十八点二57.361.453.1七 十七 点一五十五点二五十二点五70.4六十四点二51.6六十八点三61.3方法凝块细胞booFrid电视PapToweSho框Boapersnigh辛劳水槽林浴袋ot.ot.ot.[28]第二十八话18.359.127.327.041.915.926.114.16.512.957.630.161.344.832.139.24.815.27.730.0Gupta等人[13个国家]4.760.56.414.531.014.316.34.22.114.20.227.255.137.534.838.20.27.16.123.1Deng等[10个国家]12.656.78.921.619.228.028.622.91.61.09.630.648.441.828.127.609.87.624.5Cheng等人[6]美国24.762.034.245.353.427.742.623.911.258.853.254.180.459.245.552.615.912.716.429.3RDFNet [31]26.969.135.058.963.834.141.638.511.654.080.045.365.762.147.157.319.130.720.639.0提出53.158.142.962.271.740.058.279.244.172.655.955.072.550.833.672.346.350.654.137.8表3.与SUN RGBD上的最新技术进行比较方法输入PixAcc.mAcc.MiouSegNet [3] RGB 72.63 44.76 31.84Lin等[25] RGB 78.4 53.4 42.3Bayesian-SegNet [18] RGB 71.2 45.9 30.7RefineNet [24] RGB 80.6 58.5 45.9Cheng等人[6] RGBD-58.0-建议的RGB85.5 74.9 54.5一样的以仅语义而无深度信息为基准,各组件的性能如表4所示。表中的结果表明,通过利用新的损失函数(Ls)进行网络训练,语义分割性能得到了大幅提高。这主要是由于其专为样品很少的硬类设计的混合物。另一个观察是,结合深度信息能够大大提高性能,这揭示了一起推理2D和3D信息的有效性虽然使用地面实况深度作为输入(由HHA [13]编码)的策略显示了深度信息的有效性从深度分支到语义分支的特征传播(Feature propagation,RMBProp)使得能够在特征空间中隐式地进行彻底的RGB- D融合。通过引入几何感知的传播方案,性能得到显著改善。对于两种融合解决方案(图3),几何感知传播(GAP)的性能优于香草卷积(VanConv)。这要归功于表4.在NYU-Dv 2上对拟定模型进行消融研究型号PixAcc.mAcc. Miou仅半年度64.7 44.1 36.0sem+Ls70.4 50.3 40.6sem+Ls+HHA 72.0 53.2 42.4sem+Ls+DepEm 75.6 57.5 44.7sem+Ls+DepEm+ Doppler Prop 77.9 60.0 45.4sem+Ls+DepEm+ Prop +VanConv 81.6 64.9 55.1sem+Ls+DepEm+ Prop +GAP 83.4 65.6 56.0sem+Ls+DepEm+ β-prop +GAP+SPF 84.8 68.7 59.6从深度嵌入中提取的几何相似性。最终的SPF块与编码器特征进行多级融合,使性能得到进一步提高。4.5. 浅析深度监理虽然我们的模型在测试期间不需要任何深度信息作为输入,但深度监督仍然是网络训练所必需的在这一部分,我们从深度上分析了半监督的可能性,在训练期间仅具有部分深度信息。我们在NYU-Dv 2数据集上进行了实验。原始深度训练数据被重新排列成四个不同的子集,分别占整个训练集的20%、40%、60%和80%。所有这些子集都是通过从原始集合中随机选择而构造的。对于网络训练,由于训练样本可能不存在深度信息,在这种情况下,我们冻结深度分支的学习,只执行推理。网络的其他部分采用与前面实验相同的策略进行训练。结果示于表5中。使用0%的深度数据意味着仅保留语义分支(即,sem+Ls),而对于20%整个模型)。结果表明,深度信息是重要的,以帮助语义分割时,执行壁hes地板ing内阁KS床葛椅子儿沙L表wer门窗口书架路图片对计数器茨坦百叶et书p货架浴窗帘梳妆枕头结构镜炉地板垫道具3DGNN [32]RGBD-57.045.9D-CNN [38]RGBD-53.542.0RDFNet [31]RGBD81.560.147.72876图6. NYU-Dv 2数据集上的定性性能。(a)和(b)分别是输入和地面实况。将我们的方法(e)与仅具有语义分支的结果(c)和没有SPF的结果(d)进行比较。表5.半监督深度绩效评价数据大小0%的百分比百分之二十百分之四十百分之六十百分之八十百分百PixAcc.70.471.277.280.083.184.8mAcc.50.351.058.368.270.368.7Miou40.641.145.651.655.259.6一种监督。此外,来自深度数据的更多监督导致更好的性能。请注意,即使只有20%的深度监督,我们的模型也能够产生比没有深度的基线略好的性能,这证明了我们的模型在学习深度感知嵌入以进行语义分割方面的有效性。4.6. 定性绩效我们在图6中展示了我们的方法在NYU-Dv 2数据集上进行语义分割的一些定性结果。为了进行比较,我们还包括没有深度信息(仅sem-only)和没有跳过金字塔特征融合(没有SPF)的视觉结果。从结果可以看出,通过学习深度感知嵌入,几何信息得到了很好的提取。例如,枕头具有与床非常相似的图案,仅通过2D外观(c)不能容易地区分,而通过深度嵌入(d,e),它们可以很好地分离到相应的类别。类似的例子可以在第三列的垃圾箱和最后一列的门此外,当结合SPF块时,(e)为了与更接近图像域的主干特征融合,恢复了更多的上下文信息和对象例如,第一列墙上的图片和装饰,倒数第二个例子中的小插座,以及窗户,所有显示的例子中的绘画等。5. 结论在本文中,我们提出了一个新的框架,充分利用三维几何信息,通过提取深度感知嵌入隐式单个RGB图像的语义分割。通过对共享骨干网络进行解耦,实现了几何蒸馏和语义标签预测的联合推理.学习的嵌入作为一个指导,以提高几何感知的传播架构的语义特征。提取的特征进一步反馈到共享骨干,以通过跳过金字塔融合块与多级上下文信息我们的模型捕获的二维外观和三维几何信息,只需要一个单一的RGB图像作为输入。室内RGB-D语义分割基准上的实验表明,我们的模型实现了ffab-vor性能对国家的最先进的方法。致谢:我们感谢EP- SRC 计划资助的支持SeebibyteEP/M013774/1 和 IARPA D17 PC 00341 。 YW 由 IBM-ILLINOIS认知计算系统研究中心(C3 SR)提供支持(a)输入RGB(b)地面实况(d)无SPF(c)仅半成品(e)提出2877引用[1] 放大图片作者:J.德帕尼斯。使用局部注意掩码的分段感知卷积网络InICCV,2017. 2[2] Anurag Arnab 、 Sadeep Jayasumana 、 Shuai Zheng 和Philip HS Torr。深度神经网络中的高阶条件随机场。在ECCV,2016年。2[3] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器架构。IEEE TPAMI,39(12):2481-2495,2017。二、七[4] Siddhartha Chandra和Iasonas Kokkinos基于深度高斯crfs的语 义图 像分 割的 快速 、精确 和多 尺度 推理 。在ECCV,2016年。2[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割2015年,国际会议。2[6] Yanhua Cheng,Rui Cai ,Zhiwei Li ,Xin Zhao,andKaiqi Huang.用于rgb-d室内语义分割的具有门控融合的局部敏感反卷积网络。在CVPR,2017年。一、二、六、七[7] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。6[8] 戴安琪,天使X. Chang,Manolis Savva,Maciej Hal-ber , Thomas Funkhouser , and Matthias Nießner.Scannet:室内场景的丰富注释3D重建。在CVPR,2017年。6[9] 戴季峰、何开明、孙建。Boxsup:利用边界框来监督卷积网络进行语义分割。在ICCV,2015年。2[10] Zhuo Deng,Sinisa Todorovic,and Longin Jan Latecki.互斥约束下的rgbd图像语义分割在ICCV,2015年。六、七[11] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在ICCV,2015年。一、二、三、六[12] Saurabh Gupta、Pablo Arbelaez和Jitendra Malik。rgb-d影像室内场景的知觉组织与辨识。CVPR,2013。一、二、五、六[13] SaurabhGupta , RossGirshick , PabloArbela'ez ,andJitendraMalik.从rgb-d图像中学习丰富的特征用于目标检测和分割。2014年,在ECCV。一二三六七[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习arXiv预印本arXiv:1512.03385,2015。6[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 深入研究整流器:超越人类对imagenet分类的水平。在ICCV,2015年。6[16] 朱迪·霍夫曼,索拉布·古普塔,特雷弗·达雷尔。通过模态幻觉学习附带信息。在CVPR,2016年。2[17] Allison Janoch , Sergey Karayev , Yangqing Jia ,Jonathan T Barron , Mario Fritz , Kate Saenko , andTrevor Darrell. 一类别级3D对象数据集:让Kinect发挥作用。在计算机视觉的消费者深度相机中,第141-165页。2013. 5[18] Alex Kendall , Vijay Badrinarayanan , and RobertoCipolla.贝叶斯分段:用于场景理解的深度卷积编码器-解码器架构中的模型不确定性。在BMVC,2015年。7[19] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[20] Iasonas Kokkinos Ubernet:使用不同的数据集和有限的内存训练通用卷积神经网络,用于低,中,高层次的视觉。在CVPR,2017年。3[21] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。InNeurIPS,2012. 2[22] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在3D Vision(3DV),2016年。5[23] Zhen Li,Yukang Gan,Xiaodan Liang,Yizhou Yu,Hui Cheng,and Liang Lin. Lstm-cf:统一上下文建模和lstms融合rgb-d场景标记。在ECCV,2016年。2[24] Guosheng Lin ,Anton Milan,Chunhua Shen,and IanReid. Refinenet:用于高分辨率语义分割的多路径细化网络。在CVPR,2017年。二六七[25] Guosheng Lin,Chunhua Shen,Anton Van Den Hengel,and Ian Reid.用于语义分割的深度结构化模型的高效分段训练。 在CVPR,2016年。 二六七[26] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR,2017年。5[27] Tsung-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功