基于局部敏感的门控融合反卷积网络用于RGB-D室内语义分割

65 浏览量更新于2023-10-15 收藏 863KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3029基于局部敏感的门控融合反卷积网络用于RGB-D室内语义分割程艳华1，2，蔡瑞3，李志伟3，赵欣1，2，黄凯琪1，2，41CRIPAC NLPR，CASIA2中国科学院大学3微软研究院4中科院脑科学与智能技术摘要RGB深度（HHA）GT DeconvNet本文主要研究基于RGB-D数据的室内语义分割。虽然常用的反卷积网络（DeconvNet）在这方面取得了令人印象深刻的成绩，但我们发现仍有改进的空间在两个方面。一是关于边界分割。DeconvNet聚合大的上下文来预测每个像素的标签，这在本质上限制了对象边界的分割精度。另一个是关于RGB-D融合。目前最先进的方法通常将RGB和深度网络与等权重分数融合融合，而不管这两种模态对在不同场景中描绘不同类别的不同贡献。为了解决这两个问题，我们首先提出了一个局部敏感的DeconvNet（LS-DeconvNet）来细化每个模态的边界分割。LS-DeconvNet将来自原始RGB-D数据的局部视觉和几何线索合并到每个DeconvNet中，其能够学习对具有大上下文的粗糙卷积图进行上采样，同时恢复尖锐的对象边界。对于RGB-D融合，我们引入了一个门控融合层来有效地组合两个LS-DeconvNet。该层可以学习调整RGB和深度对每个像素的贡献，以实现高性能的对象识别。在大规模SUN RGB-D数据集和流行的NYU-Depthv2数据集上的实验表明，我们的方法在RGB-D室内语义分割方面取得了新的最先进的结果。1. 介绍室内场景的语义分割是计算机视觉中的一个基本问题，可以应用于家用机器人、SLAM、基于内容的图像检索等智能应用。然而，这是一个非常艰巨的任务，由于来自场景类型的大变化，杂乱的背景，严重的对象遮挡和变化的照明的挑战。得益于近期消费者深度(a) 由于标注每个像素时的大上下文，边界不精确（参见冰箱）框(b) 由于RGB和深度的不正确融合而导致的错误分类对象（见方框）图 1.DeconvNet 对室内场景分割的限制这里使用双流DeconvNet来表示RGB和深度，然后像FCN模型一样使用等权重和进行评分融合请注意，本文中的深度数据被编码为三通道HHA图像，如方法[11]。见图中的结果。4比较照相机，例如Kinect，我们能够捕捉高质量的同步视觉（RGB数据）和几何（深度数据）线索来描绘一个场景。它代表了一个机会，以提高室内场景分割的性能，充分利用这两个互补的方式。对室内语义分割进行了广泛的研究具有手工制作的RGB特征的图形模型（例如SIFT、HOG、LBP等）和深度特征（例如，SPIN图像、深度内核、曲面法线等）在许多方法中使用[23，22，10，7，15]。代替手工特征，提出了补丁式CNN模型[5]和R-CNN模型[11]来学习RGB-D特征超像素或区域提案。最近，全卷积网络（FCN）[19，27]显著推动了语义分割的性能，包括室内和室外场景。 FCN将设计用于分类的CNN模型调整为端到端系统，用于整体场景分割。通过在多个层上重复进行最大池化和下采样，FCN学习嵌入大上下文的不变特征，以实现对每个像素的鲁棒预测，但产生具有低分辨率和不精确边界的粗糙标签图。冰箱3030对于RGB-D融合，[19]采用具有相等权重的简单求和融合来组合RGB和深度FCN模型的预测。已经投入了显着的努力[3，4，21，29，17]来改进场景分割的FCN。在这些扩展中，DeconvNet [21]是一种非常有效和高效的方法来细化FCN的粗略标签映射。DeconvNet的核心思想是学习多层反卷积网络，将FCN的低分辨率标签映射上采样为具有更多细节的全分辨率。我们采用DeconvNet对RGB-D室内场景进行分割，并采用与FCN相同的融合方式，在实验中与FCN相比获得了很大的性能提升。尽管如此，我们发现在两方面仍有改善空间。一是关于边界分割。虽然可以生成高分辨率的标签地图，但DeconvNet的这种卷积-反卷积网络聚合了大的上下文以进行密集预测，降低了其对对象边界的敏感性。如图1（a），DeconvNet将冰箱分割成具有不同轮廓的部分。另一个是关于RGB-D融合。RGB和深度可以在识别不同场景中的不同类别时具有不同的贡献。如图1（b），视觉和几何线索都有利于识别沙发，而同样强调这两种形式可能会混淆对盒子的识别（由于形状混淆而被误分类为枕头）。本文旨在使用RGB-D数据增强DeconvNet进行室内语义分割。我们的第一个贡献是解决边界分割的问题。受最近的CRF-RNN模型[29]的启发，该模型通过条件随机场（CRF）利用像素级线索（如强度和位置）来细化大上下文FCN地图的标签协议，我们试图类似地从像素级线索中受益DeconvNet，但摆脱CRF模型的复杂训练和推理。为此，我们提出了一个局部敏感的DeconvNet语义分割。具体来说，为每个场景构建一个亲和矩阵，以基于低级别RGB-D特征描述相邻像素之间的成对关系（相似或不相似）[10]。然后，将亲和度矩阵嵌入到DeconvNet中，以鼓励局部相似像素的标记一致性（称为“局部敏感”）以及用于上采样的反卷积操作（见图1）。2）的情况。这种局部敏感的DeconvNet可以产生具有精确对象边界的高分辨率分割图。我们的第二个贡献是结合RGB和深度线索更有效地进行语义分割。代替像[19]那样的两种模态具有相等权重的简单分数融合，我们设计了一个门控融合层来自动学习每种模态的不同贡献，以在不同场景中对不同类别进行分类。门控融合层由一系列标准层实现具有可学习的参数，这使得我们的整个系统（RGB LS-DeconvNet +深度LS-DeconvNet +门控融合，称为“LSD-GF”）可以通过有效的反向传播算法进行端到端的训练。在大规模SUN RGB-D数据集[25]和流行的NYU-Depth v2数据集[23]上的实验结果表明，LSD-GF可以显著改善RGB-D室内场景的语义分割。本文的其余部分组织如下。我们首先回顾第2节中的相关工作。然后在第3节中介绍所提出的方法的细节。大量的实验结果以及分析报告在第4节。最后，我们在第5节中得出结论。2. 相关工作细化语义分割的边界。已经进行了许多研究来细化预测图的对象边界，因为它高度影响语义分割的可视化和准确性。这里我们主要关注深度学习模型，并将之前的工作分为两组。一组利用后处理方法对得到的分割图进行改进。库普里耶和al. [5，9]应用由图切割生成的超像素来平滑预测。Chen等人。 [3，4]采用全连接条件随机场（CRF）来优化整体分割图。另一个专注于设计特定的深度学习模型进行密集预测。CRF通过[29，17]纳入FCN，以鼓励标签输出的空间和外观一致性。Affinity CNN [2，20]将额外的像素相似性损失嵌入到FCN中以进行密集预测。与这些方法相比，DeconvNet[21]是一种简单但有效的方法，通过学习多层反卷积网络来细化分割图。然而，DeconvNet的潜力可能是有限的，因为高级预测图聚合了用于密集预测的大上下文。与这篇论文类似，He等人 [12]也试图改进DeconvNet，虽然他们只在DeconvNet之上添加了一个数据驱动的池化层，以平滑每个超像素中的预测。与之不同的是，本文设计了一种局部敏感的DeconvNet，以产生具有精确边界分割的结构化输出。实验结果表明，我们的模型在SUN RGB-D数据集和NYU-Depth v2数据集上都优于[12]。结合RGB和深度数据的语义分割。有效地融合这两种互补的模态可以提高语义分割的性能。大多数方法[23，22，10]只是简单地将手工制作的RGB和深度特征连接起来以表示每个像素或超像素。一些方法[7，15]将RGB和深度线索都合并到图形模型中，如MRF或CRF，用于语义分割。最近3031别人椅子卷积层最大池化层反池化层反卷积层平均池化层RGB417x417209x209105x10553x53209x209#1105x10553x53 53x53点积#2分数地图GT总和#3RGBHHA亲和力矩阵加权门阵列GG局部敏感HHA#11千总和209x209#2总和点积底壁53x5353x53#3105x105209x209417x417105x105门桌53x53209x209全卷积网络反卷积网络门控融合图2.我们的LSD-GF模型的整体架构。LSD-GF主要由三部分组成：1）前端全卷积网络（FCN）。本文采用最新的最先进的FCN模型[4]，该模型利用多尺度atrous算法来减轻分辨率损失并学习鲁棒特征; 2）中间局部敏感反卷积网络。嵌入有相邻RGB-D像素之间的成对关系的亲和矩阵被并入解池化和平均池化操作中，以恢复FCN图的尖锐边界由于计算成本，仅使用两层反卷积网络;3）最终门控融合层。我们合并RGB和深度得分图来学习加权门阵列，以加权场景中每个模态对目标识别的贡献整个网络可以作为一个端到端系统有效地训练（除了亲和力矩阵）。最好用彩色观看递归网络[16]被探索用于RGB-D融合。对于流行的卷积神经网络（CNN），通常使用三个融合级别：Couprie等人。[5]将RGB和深度图像连接为CNN模型的四通道输入（早期融合）; Gupta等人[11]利用两个CNN模型从RGB和深度图像中独立提取特征，然后将它们连接起来以学习最终的语义分类器（中间融合）; Long等人。[19]还学习了两个独立的CNN模型，但直接预测每个模态的得分图，然后进行等权重和的得分融合（后期融合）。通过对比实验，Long等人发现，与其他融合水平相比，晚期融合可以更有效地从两种模式的互补性中获益。本文采用了后期融合版本，但嵌入了一个门融合层，以进一步调整我们的模型，以适应两种模态在不同场景中对不同类别的识别的不同贡献。实验结果表明，该融合方法对混淆类别具有较好的融合效果。3. 我们的方法3.1. 整体架构图2示出了所提出的LSD-GF模型的整体架构。LSD-GF由三部分组成：前端全卷积网络（FCN），中间局部敏感反卷积网络（LS-DeconvNet）和最终门控融合层。 FCN是通过聚合多尺度上下文线索来学习每个像素的鲁棒特征表示。提出的LS- DeconvNet用于恢复高分辨率和精确的基于粗略的FCN地图的场景细节。最后，引入门控融合层，有效融合RGB和深度信息，实现场景语义的精确分割。我们采用最新的最先进的完全卷积版本，称为ASPP[4]作为前端模型。ASPP来自VGG 16层网络[24]，但将atrous算法嵌入到最后的卷积层中（即，conv5 1和conv5 3），同时更换所有完全连接层（即， fc6和 fc8），具有多流和多atrous卷积层。 LS-DeconvNet由一系列解池、解卷积和平均池化层组成。我们采用标准的反卷积操作[21]，但将以像素为中心的亲和力矩阵合并到解池和池化操作中，以恢复尖锐的边界以及上采样。对于门控融合层，我们将RGB和深度的预测图连接起来，以学习加权门阵列，该加权门阵列能够加权场景中每个模态的贡献，以便准确地识别目标。所提出的LSD-GF模型的更多细节在以下小节中描述。3.2. 区域敏感DeconvNet我们现在讨论LS-DeconvNet中的解池、反卷积和平均池化操作的细节。3.2.1局部敏感解池传统的unpooling [28，21]执行最大池化的反向操作，以扩大响应映射的激活。例如，卷积网络中的最大池化层采用3×3尺寸，以及最大激活的位置3032合并地图1 1 1S不Si、ji、j不2解卷1 1 11 1 1平均池化局部敏感解池111 1合并地图1局部敏感平均池但是强调相邻相似像素的相似性。与传统解池算法产生的稀疏响应图相比，该算法在保持对局部对象边界敏感的同时，产生了更密集的响应图。3.2.2反卷积我们的unpooling层的输出是一个放大的激活图，但有许多不连续的边界响应。我们采用反卷积来弥补缺失的细节与多个学习过滤器。反卷积的执行类似于反卷积操作。而不是聚集-图3. LSD-GF的位置敏感解池化以及位置敏感平均池化的图示。为了清楚地比较，我们只显示了传统和我们的一个3×3大小的过滤器窗口（红色矩形）放置在右下角，它记录在开关变量中。对于反卷积网络中的相应解池，它基于开关变量将每个激活放回其原始池化位置，如图1左上所示。3.尽管这些方法[28，21]证明了解池有助于重建详细的对象边界，但由于过度依赖于具有大上下文的输入响应映射，其能力可能受到很大限制。为了解决这个问题，我们将局部视觉和几何线索加入到解池中，以恢复精确的对象边界，并称之为假设Fun∈Rc×h×w表示输入响应映射，其中c是特征通道的数量，h是height 和 w 是 width 。输出的未合并映射是 Fun∈Rc×nh×nw，放大n倍。A∈Rhw×hw是表示所有像素之间的成对相似性的整体相似性矩阵。对于每个特征向量x∈F un（视为锚），我们生成一个局部像素中心的亲和矩阵Ax={Ax|1≤i，j≤s}，大小为s×s，其中Ax= 1表示相邻像素与中心锚点相似，以及在过滤器窗口内设置多个输入激活，它将单个输入激活映射到多个输出。这种操作可以有效地连接许多不连续的边界，并重建丰富的对象结构的语义分割。更多关于反卷积的细节可以在[21]中找到。反褶积的结果图也被放大，但更平滑。我们裁剪地图，使其与unpooling层的输出大小相同。3.2.3局部敏感平均池为了进一步增强具有相似外观和几何形状的空间相邻像素的一致表示，我们在反卷积层的顶部添加了局部敏感平均池化层（没有下采样）。为了更好地理解所提出的池化策略，我们首先介绍常规版本。如图左下角所示。3，传统的平均池计算单个输出的滤波器窗口内的激活的平均值。这样的操作可以实现对噪声和杂波的更鲁棒的特征表示，但它可能会模糊对象边界并导致不精确的语义分割图。为了保持传统平均池化的优点但摆脱其缺点，我们利用上述以像素为中心的亲和度矩阵来迫使xi，j=0表示没有。设Y F un为结果s × s只有局部相似像素有助于平均池化对应于x的未合并映射。我们根据x计算Y作为（s−1−|i−oi|）（s−1−|j−oj|）对于相应的输出，如右下角所示图3.第三章。特别地，设Favg∈Rc×h×w，Favg∈Rc×h×wYi，j=（s−1）2Ai，jx，St（一）i，j∈[1，s]，oi=oj =1+s。分别表示输入和输出响应图对于局部敏感池化层。给定一个功能集在得到的s×s未合并映射中，Y是特征向量在s×s过滤器窗口内，我们计算i， jsavg第i行和第j行的。 o=（oi，oj）是映射到锚点x的中心位置。的示例通过池化对应的输出特征向量y∈FtX作为s=3显示在图的右上角。3. 需要注意的是，Yi，j也可以从其他锚点接收激活，并且我们通过线性加法来聚合所有这些激活y=Σ1i，j∈[1，s]yi，jΣi，j∈[1，s]yi，jXi，j.（二）以生成最终的未合并地图。事实上，局部敏感的解池操作类似于双线性插值与解池类似，Ay是对应于锚y的局部以像素为中心的亲和度矩阵。通过地方-未合并映射111 11 1未合并地图一一一3033最大迭代器k，i，jk，i，j敏感的平均池，我们可以实现连续对象结构的一致和鲁棒的特征表示。3.3. 门控融合提出了门控融合层，有效地结合RGB和深度进行语义分割。实际上，它由三层组成，包括连接层，卷积层和S形层，它们在图1中未示出。2为简洁起见。设Prgb∈Rc×h×w和Pdepth∈Rc×h×w分别表示RGB和深度上的概率图。在这里，通道C等于类别的数目。拼接后得到一个融合概率图Pfusion∈R2c×h×w.然后，我们使用权重为W∈Rc×2c×1×1 的卷积层（ c 滤波器的维度为2c×1×1per滤波器）来学习两种模态的相关性，并权衡它们对预测的贡献每个类别。卷积层的输出是系数矩阵G∈Rc×h×w，其值为0）。请注意，我们将缩放A以匹配相应特征图的分辨率。优化. 我们利用流行的Caffe框架[13]来实现所提出的网络。培训过程可分为两个阶段。在第一阶段，我们在RGB和深度上训练两个独立的局部敏感DeconvNet，用于语义分割，而无需门控融合层。对于每种模态，我们采用（1-iter）次幂）来优化网络，其中基础学习率被设置为0。001，功率为0。9，重量衰减为0。0005，最大迭代次数为20000。前端的FCN模型由预先训练好的在imageNet上[6]。中间的反卷积层用[27]之后的恒等滤波器初始化，而较小的层学习率lr mut = 0。01被用来代替对于其它层，lr mut=1。我们利用5 ×5局部像素为中心的亲和力矩阵的所有unpooling和平均池化层，除了最后一个平均池化层，它使用11×11大小。我们发现这些设置可以更有效地训练网络，Gk，i，j =2002年ck′=1融合′k，i，j×Wk，k′，i，j（三）每个模态用于语义分割。在第二阶段，我们添加门控融合层，然后微调k ∈ [1，c]，i ∈ [1，h]，j ∈ [1，w].随后的sigmoid层用于正则化G以保持Gk，i，j∈[0，1]。我们将G rgb= G和G depth= 1−G称为加权门，其中G rgb和G depth分别表示我们可以依赖RGB和深度的置信度以将像素（i，j）预测为类别k。这两个系数矩阵用于对RGB和深度的贡献进行加权，如下所示：Prgb=PrgbGrgbP深度=P深度<$G深度h，（4）其中⊙表示Hadamard乘积。最后，我们生成门控融合概率图，P融合=Prgb+Pdept h。（五）我们通过P- 融合预测标签图，并通过随机梯度下降来估计地面3.4. 实现细节预处理。在开始训练网络之前，我们需要获得每个RGB-D场景的整体亲和力矩阵A按照方法[10]，我们为每个像素提取低级RGB-D特征（视觉和几何线索上的梯度），并采用gPb-ucm [1]生成过段。这些过段可以用于通过验证成对像素是否属于相同的过段（相似性为1）来计算A。整个网络的同步RGB和深度数据。我们使用相同的“poly”学习率策略，但使用较小的基础学习率（设置为10 −6）。值得注意的是，传统的DeconvNet [21]利用额外的区域建议和批量归一化来训练它们的网络，而我们的网络直接在417×417大小的裁剪图像上进行训练，非常有效。在测试阶段，我们使用训练好的LSD-GF模型，但将最后的平均池大小扩大到15×15，以获得更准确的分割。4. 实验4.1. 实验装置数据集。我们在两个基准RGB-D数据集上评估了我们的室内场景分割方法，包括大规模SUN RGB-D数据集[25]和流行的NYU-Depth v2数据集[23]。SUN RGB-D数据集由10355张带有像素标签的RGB-D图像组成，这些图像是从五个吸引人的数据集收集的。根据[25]的设置，我们将数据集分为5285张图像的训练集和5050张图像的测试集。NYU-Depth v2数据集由来自室内场景的1449张RGB-D图像组成，其中795张图像用于训练，其余654张图像用于评估。指标. 根据最近的方法[23，10，19，25]，本文采用四个度量来评估语义分割的性能，例如像素准确度，平均准确度，平均 IOU 和频率加权 IOU（f.w.IOU）。设nij为分类为i类P3034表1.比较SUN RGB-D数据集上场景语义分割的结果，包括类准确度以及所有类的平均请注意，在性能评估中忽略“背景”类的像素Song等人[25日]0.01.227.94.17.01.61.51.90.00.67.40.01.18.914.00.90.60.98.3Song等人[25日]0.00.39.70.60.00.90.00.10.01.02.70.32.62.31.10.70.00.45.3Song等人[25日]0.01.435.86.19.50.71.40.20.00.67.60.71.712.0 15.20.91.10.69.0Liu等人[18个国家]0.01.339.15.97.11.41.52.20.00.710.40.01.512.3 14.81.30.91.19.3Liu等人[18个国家]0.00.613.90.50.00.90.40.30.00.73.50.31.52.61.20.80.00.56.0Liu等人[18个国家]0.01.649.28.710.10.61.40.20.00.88.60.81.814.9 16.81.21.11.310.1Ren等人[22日]5.627.0 84.5 35.7 24.2 36.5 26.8 19.29.011.7 51.4 35.7 25.0 64.1 53.0 44.2 47.0 18.6 36.3Li等人[16个]0.028.4 68.0 47.9 61.5 52.1 36.4 36.70.038.1 48.1 72.6 36.4 68.8 67.9 58.0 65.6 23.6 48.1DeconvNet0.439.8 78.3 55.0 43.9 59.6 29.4 45.21.5 35.9 47.7 45.3 36.0 77.6 66.6 51.2 66.1 35.8 51.9我们0.0 44.7 88.8 61.5 51.4 71.7 37.3 51.42.9 46.0 54.2 49.1 44.6 82.2 74.2 64.7 77.0 47.6 58.0J级的假设有n个不同的类别，ti=jniji是属于类别i的像素的总数，并且t =i ti记录所有像素的数量。四指标定义如下：Σ• 像素精度：inii/t;32个类，证明了所提出的方法的有效性。为了进一步验证我们的局部敏感反卷积网络与门控融合的特殊优势，我们将我们的结果与DeconvNet的结果进行了比较。我们可以看到这些改善是显著的。我们将这些改进归功于两个因素：1）局部视觉• 平均准确度：1Σ n/t;和几何线索从原始数据嵌入到ncl• 平均IOU：1个月我II IΣ/（t+n-n）;反卷积网络可以有效地减轻前端FCN模型ncl一二一JiII大背景下; 2）门控熔合层可以有效地• F.W.借据：1美元/（美元+日元）-n）。结合两种互补的模式，TII IIJiII物体识别4.2. 整体性能表1和表2显示了所有最新方法在两个RGB-D场景基准上的性能比较。此外，我们还提供了每个RGB-D数据集上DeconvNet [21]的结果作为强基线。请注意，DeconvNet和所提出的方法之间的唯一区别是，我们用具有门控融合的局部敏感反卷积网络取代了具有简单和融合的传统反卷积网络。SUN RGB-D。根据最近的方法[25，18，22，16]，我们还报告了我们在SUN RGB-D数据集上标记37个类的方法的平均准确度。如表1所示，我们实现了58.0%的平均准确度，与最近的最先进方法相比提高了9.9%[16]。具体而言，我们的业绩大幅提升，纽约大学-深度v2。根据最近的方法[19，11，7，12]1，我们评估了我们在NYU-Depth v2数据集上标记40个类的方法的上述四个指标。如表2所示，我们在所有四个指标上都取得了最佳结果。与最近的最先进方法[12]相比，我们的方法在平均IOU上产生了约5.8%的改进。由于类IOU的度量对对象边界分割更敏感，因此与DeconvNet相比，我们的方法的性能增益进一步验证了所提出的方法可以有效地提高边界精度和识别精度。1最近的方法通常使用合成数据[11]或视频帧[12]来增强训练集因此，我们简单地在SUN RGB-D数据集上预训练我们的模型，然后在NYU v2数据集上对其进行微调。Song等人[25日] 37.845.0 17.421.8 16.9 12.8 18.56.19.69.44.62.22.47.31.04.32.22.3六点九Song等人[25] 32.1 42.66.4 21.5 4.1 12.55.00.8第3.3节1.7 14.8 2.0 15.3 2.01.41.20.9Song等人[25日] 36.4 45.8 15.4 23.3 19.911.6 19.3 6.07.912.83.65.22.27.01.74.45.43.15.6Liu等人[18个国家] 38.947.2 18.821.517.213.4 20.46.811.09.66.12.63.67.31.26.92.42.66.2Liu等人[18] 33.3 43.8 3.0 6.3 22.3 3.9 12.9 3.85.60.9三点八2.2 32.6 2.0 10.1 3.61.81.11.0Liu等人[18] 37.8 48.3 17.2 23.6 20.8 12.1 20.9 9.0 13.1 4.46.2二、四六点八1.07.84.8第3.2节6.4Ren等人[22] 43.2 78.6 26.2 42.5 33.2 40.6 34.3 33.2 43.6 23.1 57.2 31.8 42.3 12.1 18.4 59.1 31.4 49.5 24.8Li等人[16] 74.9 82.3 47.3 62.1 67.7 55.5 57.8 45.6 52.8 43.1 56.7 39.4 48.637.3 9.6 63.4 35.0 45.8 44.5DeconvNet 90.4 92.7 57.7 75.9 83.0 61.2 64.2 43.0 64.7 42.3 59.8 42.5 48.3 29.5 17.5 64.9 54.0 61.7 51.3我们的91.9 94.7 61.6 82.2 87.5 62.8 68.3 47.9 68.0 48.4 69.1 49.4 51.335.024.0 68.7 60.5 66.5 57.6布氏地毯壁衣服地板天花板内阁书床冰箱椅子电视沙发纸表毛巾门淋浴窗口框书架板图片人计数器床头柜百叶窗厕所书桌水槽货架灯窗帘浴缸梳妆台袋枕头平均加速镜3035表2.将NYU-Depth v2数据集上的场景语义分割结果与类IOU以及所有类上的四个提到的度量请注意，在性能评估中忽略“背景”类的像素4.3. 消融研究为了发现所提出的局部敏感DeconvNet和LSD-GF的门控融合的重要性，我们通过独立地或一起移除或替换每个分量来进行消融研究，以用于NYU-Depth v2数据集上的语义分割。请注意，每个消融实验的训练和测试程序都保持完全相同，以便进行公平比较。我们报告了仅RGB、仅深度和两者的结果，如表3所示。我们可以得出如下结论：1）将局部视觉和几何线索（局部敏感）嵌入到去卷积网络中可以大大提高语义分割的性能（比较a与b，c与d，e与i等）。对于每个比较对，唯一的区别是有和没有局部敏感模块; 2）选通融合优于总和融合，以及其他一些流行的等权重分数融合，如像素产生和Dempster-Shafer(DS)[26][27][28][29]这种改进归功于对某些硬物的准确识别在场景中通过门式融合，如沙发上的包厢和椅子上的微弱灯光。这些对象需要有效地权衡RGB的贡献，以便识别深度3)级联局部敏感反卷积网络和门控融合可以实现最佳结果，即，45.9%的平均IOU。由于每个提出的组件都可以使语义分割的一个方面受益，因此将两者结合起来，表3.在NYU-Depth v2数据集上使用平均IOU对拟定模型进行消融研究模型平均IOUa. RGB + DeconvNet37.4B. RGB + LS-DeconvNet40.5C. HHA + DeconvNet33.4D. HHA + LS-DeconvNet38.7e. RGB-HHA + DeconvNet + Sum Fusion42.7F. RGB-HHA + DeconvNet+产品融合40.6G. RGB-HHA + DeconvNet + DS融合42.8H. RGB-HHA + DeconvNet+门控融合43.2I. RGB-HHA + LS-DeconvNet + Sum Fusion45.3J. RGB-HHA + LS-DeconvNet +产品融合44.9K. RGB-HHA + LS-DeconvNet + DS融合45.8L. RGB-HHA + LS-DeconvNet+门控融合（LSD-GF）45.9是很自然的达到最先进的效果。4.4. 可视化比较图4示出了NYU-Depth v2数据集上的语义分割的可视化比较，其涉及来自各种室内场景的杂乱对象。总的来说，我们的LSD-GF方法在以下方面取得了非常有希望的结果：语义切分具体而言，图中第（1）行和第（3）行显示了一些示例，以证明其有效性所提出的门控融合，例如，它有助于正确识别沙发上的盒子（强调外观），远离橱柜的冰箱（强调形状），Long等人[19] 69.9 79.4 50.3 66.0 47.5 53.2 32.8 22.1 36.1 50.5 54.2 45.8 11.9 8.6 32.5 31.0 37.5 22.4 13.6 18.3 59.1Gupta等人[11] 68.0 81.3 44.9 65.0 47.9 47.9 29.9 20.3 32.6 18.1 40.3 51.3 42.0 11.3 3.5 29.1 34.8 34.4 16.4 28.0 4.7 60.5 Kendall等人[14个] - -Eigen等人[8]--Deng等人[7] 65.6 79.2 51.9 66.7 41.0 55.7 36.5 20.3 33.2 32.6 44.6 53.6 49.1 10.8 9.1 47.6 27.6 42.5 30.2 32.7 12.6 56.7He等人[12] 72.7 85.7 55.473.6 58.5 60.1 42.7 30.2 42.1 41.9 52.9 59.7 46.7 13.5 9.4 40.744.1 42.0 34.535.6 22.2 55.9Li等人[16个] - -2019 - 06 - 25 10：00 0我们的78.5 87.1 56.670.165.2 63.9 46.9 35.9 47.1 48.9 54.3 66.3 51.7 20.6 13.7 49.8 43.250.4 48.5 32.224.7 62.0Long等人[19] 27.3 27.0 41.9 15.9 26.1 14.1 6.5 12.9 57.6 30.1 61.3 44.8 32.1 39.2 4.8 15.2 7.7 30.0 65.4 46.1 34.0 49.5Gupta等人[11] 6.4 14.5 31.0 14.3 16.3 4.2 2.1 14.2 0.2 27.2 55.1 37.5 34.8 38.2 0.2 7.1 6.1 23.1 60.3 - -一种 28.6 47.0Kendall等人[14个]Eigen等人[8]Deng et al.- -- -- -- ---0- -- --68.0 45.8 32.4--65.6 45.1 34.18.9 21.6 19.228.0 28.6 22.91.09.6 30.6 48.4 41.8 28.19.8 7.6 24.5六十三点八-31.5 48.5He等人[12] 29.8 41.7 52.5 21.1 34.4 7.8 29.260.7 42.2 62.7 47.4 38.6 28.5 7.318.8 15.131.4 70.1 53.8 40.1 55.7Li等人[16个]--四十九点四 - -DeconvNet 30.1 43.2 53.2 26.942.9 22.2 10.6 53.5 50.7 45.2 72.2 54.5 41.6 49.7 10.6 10.6 13.8 30.1 69.9 56.4 42.7 56.0我们的34.2 45.3 53.427.7 42.623.9 11.2 58.8 53.254.1 80.4 59.2 45.5 52.6 15.9 12.716.4 29.371.9 60.7 45.9 59.3壁书地板冰箱内阁电视床纸椅子毛巾沙发淋浴表框门板人窗口床头柜书架厕所图片水槽计数器灯百叶窗浴缸书桌袋货架奥斯图特窗帘奥弗恩奥普梳妆台枕头镜像素Acc.布氏地毯平均加速衣服平均IOU天花板F.W.IOU3036RGB HHA GT LSD-GF w/o门控融合w/o本地敏感w/o两者（一）（二）（三）（四）（五）（六）（七）（八）图4.NYU-Depth v2数据集上场景语义分割的视觉比较对于每行中的场景图像，我们示出：（列1）RGB图像;（列2）HHA图像;（列3）语义分割的基础事实;（列4）我们的LSD-GF方法的结果，即，1;（第5列）其门控融合被总和融合代替的LSD-GF的结果，即，i;（第6列）其位置敏感模块被移除的LSD-GF的结果，即，h;（第7列）LSD-GF的结果，其去除了局部敏感性，并且门控融合被总和融合代替，即，表3中的e详见文中的详细分析最好在放大的彩色图像中查看。椅子的上部（强调两者）。图（4）和图（6）证明了使用位置敏感模块可以生成非常精确的边界分割，如白色冰箱旁边的白色门，镜子与各种反射物体，人在门前。没有局部敏感模块的网络通常会得到不连续的边。此外，我们还展示了一些失败的例子在第（7）行和第（8）行中，由于外观相似，我们的方法将oprops（其他道具的缩写）误分类为towel，由于面部被遮挡而将人误标记为oprops5. 结论在本文中，我们提出了一种新的LSD-GF方法的室内语义分割与RGB-D数据。 LSD-GF由两个主要组成部分组成：1）地点-灵敏的去卷积网络，其被设计用于同时对粗的全卷积图进行上采样并细化对象边界; 2）门控融合，其可以适应RGB和深度的变化贡献，以更好地融合两种模态用于对象识别。在最近的RGB-D场景基准上进行的大量实验表明，与最近的最先进方法相比，LSD-GF可以实现显着的性能增益。致谢这项工作是由国家资助关键研究和发展国家自然科学基金项目（2016YFB1001005）、国家自然科学基金项目（批准号：61673375、61602485）、中科院项目科学（不含）QYZDB-SSW-JSC 006，批准号173211 KYSB 20160008）。我们感谢审稿人对改进本文提出的有益意见。地板壁床内阁表椅子沙发门书架窗画百叶窗帘搁板枕地板垫天花板服装冰箱用纸淋浴毛巾板床头柜水槽马桶灯袋计数器书桌梳妆台镜子图书电视箱式人浴缸支架背景3037引用[1] P. Arbelaez，M.迈尔角Fowlkes和J.马利克轮廓检测与分层图像分割。PAMI，33（5）：898[2] G.贝尔塔修斯湖Torresani，S. X. Yu和J. Shi.卷积随机游走网络用于语义图像分割。arXiv：1605.07681，2016年。[3] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。arXiv：1412.7062，2014年。[4] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。arXiv：1606.00915，2016。[5] C.库普里角法拉贝特湖Najman和Y.乐存。使用深度信息的室内语义分割。InICLR，2013.[6] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，第248-255页[7] Z. Deng，S. Todorovic和L.扬·拉特克。基于互斥约束的rgbd图像语义分割。在ICCV，第1733-1741页[8] D. Eigen和R.费格斯。使用通用的多尺度卷积架构预测深度、表面法线和语义标签。在ICCV，第2650-2658页，2015中。[9] C. 法拉贝特角库普里湖Najm

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于局部敏感的门控融合反卷积网络用于RGB-D室内语义分割

RGB-D语义分割发展的重要节点有哪些？

基于深度学习的RGBD图像语义分割研究现状

rgb-d的图像分割

一种基于Swin-Transformer的特征聚合RGB-D显著性目标检测方法的背景技术

RGB-D yolo

基于RGB-D相机的AGV稠密地图构建及导航 这个题目的背景和实现依据

基于rgb-d相机的机械臂抓取系统设计

RGB-D显著性检测需求分析、市场分析、竞争性分析、应用场景

什么是基于RGB-D数据的三维人脸识别

rgb相机和rgb-d相机有什么区别

三维 重建 开源 rgb-d

RGB-D显著性目标检测

RGB-D-D-Dataset

RGB-D三维测量发展趋势

Gemini2相机如何生成RGB-D数据集

RGB-D显著性目标检测有哪些方法

基于深度学习的 RGBD 图像语义分割算法研究国内外研究现状时间线

scannetv2数据集作者为angeladai,她是斯坦福的一名博士生。她们团队通过收集rgb-d

RGB-D SLAM

帮我写一篇名为一种基于Swin-Transformer的特征聚合RGB-D显著性目标检测方法的专利

最新资源

基于RGB-D相机的AGV稠密地图构建及导航这个题目的背景和实现依据

三维重建开源 rgb-d