深度感知CNN用于RGB-D分割

186 浏览量更新于2023-10-09 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于RGB-D分割的深度感知CNN王维岳[0000−0002−8114−8271]和Ulrich Neumann南加州大学洛杉矶分校{weiyuewa，uneumann}@ usc.edu抽象。卷积神经网络（CNN）由于固定的网格核结构而受到缺乏处理几何信息的能力的限制。深度数据的可用性使得使用CNN的RGB-D语义分割能够取得进展现有技术的方法使用深度作为附加图像或处理3D体积或点云中的空间信息。这些方法具有高计算和存储成本。为了解决这些问题，我们通过引入两个直观，灵活和有效的操作来呈现深度感知CNN：深度感知卷积和深度感知平均池化。通过在信息传播过程中利用像素之间的深度相似性，几何形状被无缝地并入CNN中在不引入任何额外参数的情况下，这两种算子都可以很容易地集成到现有的CNN中。对具有挑战性的RGB-D语义分割基准的广泛实验和消融研究验证了我们的方法的有效性和关键词：CNN中的几何，RGB-D语义分割1介绍CNN的最新进展[29，37，4]在距离传感器（如Kinect、LiDAR等）的帮助下，深度图像与RGB图像一起适用。利用这两种互补的模态与CNN能够提高场景理解的性能然而，由于固定的网格计算结构，CNN仅限于模型几何方差将深度图像中的几何信息合并到CNN中是重要但具有挑战性的。广泛的研究[27，5，17，22，28，6，35]已经进行了这项任务。FCN [29]及其后继者将深度视为另一个输入图像，并构建两个CNN来分别处理RGB和深度。这使网络参数的数量和计算成本加倍。此外，双流网络架构仍然受到CNN的固定几何结构的影响即使给定了两个像素的几何关系，这种关系也不能用于CNN的信息传播另一种方法是利用3D网络[27，32，34]来处理几何形状。然而，体积CNN [32]和3D点云图网络[27]在计算上比2D CNN更昂贵尽管这些进展取得了令人鼓舞的结果，但我们需要寻求一种更灵活，更有效的方法来利用2D CNN中的3D几何信息。2王与诺依曼BC一地面实况深度感知CNNFig. 1.深度感知CNN的插图。A和C标记为桌子，B标记为椅子。它们在RGB图像中都具有相似的视觉特征，而它们在深度上是可分离的深度感知CNN在卷积和池化中结合了像素的几何关系当A是感受野的中心时，C对输出单元的贡献大于B。最右列中的图示出了深度感知CNN的RGB-D语义分割结果。为了解决上述问题，在本文中，我们提出了一个端到端网络，深度感知CNN（D-CNN），用于RGB-D分割。引入了两个新的算子：深度感知卷积和深度感知平均池化。深度感知卷积利用深度相似性项来增强标准卷积我们强制具有与内核中心相似深度的像素对输出的贡献比其他像素这个简单的深度相似项有效地将几何结构并入卷积核中，并且帮助构建深度感知感受野，其中卷积不限于固定网格几何结构。第二个引入的运营商是深度波平均池。类似地，当在特征图的局部区域上应用滤波器时，在计算局部区域的平均值时考虑相邻像素之间的深度的成对关系。视觉特征能够与深度图像中给出的几何结构一起传播这种几何感知操作使得能够利用深度图像定位对象边界。这两个操作符都是基于直觉，即具有相同语义标签和相似深度的像素应该对彼此具有更大的影响。我们观察到具有相同语义标签的两个像素具有相似的深度。如图1所示，像素A和像素C应该比像素A和像素B彼此更相关这种相关性差异在深度图像中是明显的，而在RGB图像中是不被捕获的。通过对CNN中的深度相关性进行编码，在信息传播过程中，像素C对输出单元的贡献大于像素B。深度感知CNN的主要优点总结如下：- 通过利用 C N N 内核处理空间信息的性质，深度图像中的几何能够无缝地集成到 C N N 中。深度感知卷积BACRGB用于RGB-D分割的3– 深度感知CNN不向传统CNN引入任何参数和计算– 深度感知卷积和深度波平均池化都可以以最小的成本取代传统CNN中的标准对应物。深度感知CNN是结合2D CNN和3D几何学的一般框架。比较与国家的最先进的方法和广泛的消融研究RGB-D语义分割说明了我们的方法的灵活性，效率2相关作品2.1RGB-D语义分割在CNN的帮助下，2D图像的语义分割已经取得了令人鼓舞的结果[29，37，4，14]。2D CNN的这些进步和深度传感器的可用性使得RGB-D分割取得了进展。与RGB设置相比，RGB-D分割能够将几何形状集成到场景理解中。在[8，21，10，33]中，深度被简单地视为附加通道并直接输入CNN。一些作品[29，10，9，18，24]将深度编码为HHA图像，其具有三个通道：水平视差、离地高度和法线角度。RGB图像和HHA图像被输入到两个独立的网络中，两个预测在最后一层中相加与传统的2D网络相比，双流网络此外，CNN本身由于其固定的网格计算而在其对几何变换进行建模的能力方面受到限制。Cheng等人[5]提出了一种具有门控融合的局部敏感反卷积网络。他们建立一个特征亲和度矩阵来执行加权平均池化和去池化。Lin等人[19]对深度进行离散化，并为不同离散深度值建立不同分支。He等人。[12]使用跨帧的时空对应来聚合空间和时间上的信息。这需要大量的预处理和后处理，例如光流和超像素计算。或者，许多作品[32，31]试图用3D CNN解决这个问题。然而，体积表示由于高存储器和计算成本而防止按比例放大。最近，引入了点云上的深度学习框架[27，25，26，36，13]Qi et等人[27]在具有从CNN提取的特征的点云上构建了3D k最近邻（kNN）图神经网络，并实现了RGB-D分割的最新技术。虽然他们的方法比3D CNN更有效，但kNN运算具有高计算复杂度和缺乏灵活性。我们不使用3D表示，而是使用原始深度输入，并以更高效和灵活的方式将3D几何形状集成到2D CNN中。2.2CNN中的空间变换由于卷积核的固定结构，标准CNN仅限于对几何变换进行近年来，许多研究都集中在这一问题上。扩张卷积[37，4]增加了感受野大小4王与诺依曼深度深度相似性输入要素Conv内核*深度深度相似性输入要素保持参数的相同复杂性。该算子在语义分割等视觉任务上实现了更好的性能。空间变换网络[15]通过学习全局空间变换来扭曲特征图。可变形CNN [7]学习内核偏移以增加空间采样位置。这些方法已经表明，几何变换可以提高不同视觉任务的性能。随着3D传感器的进步，深度可以以低成本应用。驻留在深度中的几何信息与CNN中的空间变换高度相关。双边滤波器[3，2]广泛用于计算机图形学中，用于保持边缘的图像平滑。它们使用高斯项来加权相邻像素。与双边滤波器类似，我们的方法将像素的几何关系集成到CNN的基本操作中，即。卷积和池化，我们使用加权内核并迫使每个神经元对输出有不同的贡献。该加权核由深度定义，并且能够在不引入任何参数的情况下并入几何关系。3深度感知CNN在本节中，我们将介绍两个深度感知操作：深度感知卷积和深度感知平均池化。它们既简单又直观。两个操作都需要两个输入：输入特征图x ∈Rci×h×w和深度图像D ∈Rh×w，其中c i是输入特征通道的数目，h是高度，w是宽度。输出特征图表示为y∈Rco×h×w，其中co是输出特征通道的数量。虽然x和y都是3D张量，但为了符号清晰，在2D空间域中解释操作，并且它们在不同通道中保持相同。(a)深度感知卷积(b)深度感知平均池化图二. 深度感知CNN中的信息传播的图示。在不失一般性的情况下，我们仅示出了一个内核大小为3× 3的滤波器窗口在图中所示的深度相似性中，较深的颜色表示较高的相似性，而较浅的颜色表示两个像素在深度上较不相似。在（a）中，深度感知卷积的输出激活是深度相似性窗口与输入特征图上的卷积窗口的乘积类似地，在（b）中，深度感知平均池化的输出是通过深度相似性加权的输入窗口的平均值。3.1深度感知卷积标准2D卷积运算是局部网格的加权和。对于y上的每个像素位置p0，标准2D卷积的输出为用于RGB-D分割的5y（p0）= Σpn∈Rw（pn）·x（p0+pn），（1）其中R是x中p0周围的局部网格，w是卷积核。R可以是由核大小和膨胀定义的规则网格[37]，也可以是非规则网格[7]。如图1所示，像素A和像素B具有不同的语义标签和不同的深度，而它们在RGB空间中不可分离。另一方面，像素A和像素C具有相同的标签和相似的深度。为了利用像素之间的深度相关性，深度感知卷积简单地添加深度相似性项，从而在卷积中产生两组权重：1）可学习的卷积核w; 2）两个像素之间的深度相似性FD。因此，Equ. 1成为y（p0）=Σpn∈Rw（pn）·FD（p0，p0+ pn）·x（p0+ pn）.（二）并且FD（pi，pj）被定义为FD（pi，pj）=exp（−α|D（pi）−D（pj）|）、（3）其中α是常数。F_D的选择是基于具有相似深度的像素应当对彼此具有更大影响的直觉。我们将在4.2节中研究不同α和不同FD的影响。x和w的梯度简单地乘以FD。注意，Fd部分在反向传播期间不需要梯度，因此，等式Equ.2不通过深度相似性项对任何参数进行积分。图2（a）说明了这一过程。与卷积中心具有相似深度的像素将在卷积期间对输出产生更大的影响。3.2深度感知平均池化传统的平均池化计算网格R在x上的平均值。它被定义为y（p）=10| R|Σpn∈Rx（p0+ pn）.（四）它平等地对待每个像素，并将使对象边界模糊。地理信息对解决这个问题很有用。类似于深度感知卷积，我们利用深度相似性Fd来迫使具有更一致几何形状的像素对相应输出做出更多贡献对于每个像素位置p〇，深度感知平均池化操作然后变为y（p0）=0pn∈R1FD（p0，p0+pn）Σpn∈RFD（p0，p0+ pn）·x（p0+ pn）.（五）6王与诺依曼在后支撑，坡度应乘以ΣFDpn∈RFD（p0，p0+pn）agation。如图2（b）所示，该操作防止遭受标准池化的固定几何结构。3.3深度感知CNNCNN的一个主要优点是它能够使用GPU来执行并行计算并加速计算。这种加速主要源于网格计算结构的展开卷积运算。然而，这限制了CNN对几何变化建模的能力。在过去的几年里，3D深度学习的研究人员一直专注于深度神经网络中的几何建模。由于体积表示[32，31]具有高存储器和计算成本，点云被认为是更合适的表示。然而，点云上的深度学习框架[26，27]基于构建kNN。这不仅具有高计算复杂度，而且还打破了RGB和深度之间的像素对应关系，这使得框架无法利用CNN网格计算结构的效率。我们利用原始深度输入，而不是对3D数据进行操作。通过使用深度相似性项来增强卷积核，深度感知CNN捕获具有可变换感受野的几何形状。许多工作研究了CNN的空间可变换感受野。扩张卷积[4，37]已经证明增加感受野可以提高网络的性能。在可变形CNN [7]中，Dai等人证明自适应学习感受野可以帮助CNN获得更好的结果。他们还表明，像素内相同的ob-表1. NYU v 2数据集上不同类别的平均深度方差。“所有”d e t e t e t e m e n方差的所有类别。对于每个图像，计算每个类别的深度的逐像素方差。然后在所有图像上计算平均方差。对于“All”，考虑图像中的所有像素以计算深度方差。进一步计算所有图像的平均方差。感受野中的对象比具有不同标记的像素对输出单元的贡献更大。我们观察到，语义标签和深度有很高的相关性。表1报告了NYUv2 [23]数据集上同一类别内和不同类别之间的像素深度方差的统计数据甚至诸如墙壁和地板的大对象的像素深度变化也比整个场景的变化小得多这指示具有相同语义标签的像素倾向于具有相似的深度。该模式集成在Equ中。2、Equ。5、D。在不引入任何参数的情况下，深度感知卷积和深度感知平均池化能够增强CNN的定位能力。我们在第4.2节中评估了不同深度相似性函数FD对性能的影响。为了更好地理解深度感知CNN如何捕获深度几何，图3显示了给定输入神经元的有效感受野。在传统的CNN中，感受野和采样位置在特征图上是固定的。“知”者，谓之“知”;“知”者，谓之“知”。墙地板床椅子桌子全部方差0.57 0.65 0.12 0.230.34 1.20用于RGB-D分割的7通过几何方差调整。例如，在图3（d）的第二行中，绿点被标记为椅子，并且绿点的有效感受野基本上是椅子点。这表明有效感受野大多具有与中心相同的语义标签。这种模式提高了CNN(a)（b）（c）（d）图三. 深度感知CNN的有效感受野的图示。(a)是输入RGB图像。(b)（c）和（d）是深度图像。对于（b），（c）和（d），我们显示了激活单元（绿点）的3× 3深度感知卷积的三个级别中的采样位置（红点）3.4用于RGB-D语义分割的深度感知CNN在本文中，我们专注于使用深度感知CNN的RGB-D语义分割。给定RGB图像以及深度，我们的目标是产生指示每个像素的标签的语义掩码。深度感知卷积和平均池化都很容易取代标准CNN中的对应部分。图层名称conv1 xconv2 xconv3 xconv4 xconv5 xconv6 conv7C3-64-1C3-128-1C3-256-1C3-512-1C3-512-2粤ICP备16016664号-1基线C3-64-1C3-128-1C3-256-1C3-512-1C3-512-2C1-1024-0DeepLabmaxpoolmaxpoolC3-256-1C3-512-1C3-512-2 globalpool+concatmaxpoolmaxpool平均池DC3-64-1 DC3-128-1 DC3-256-1 DC3-512-1 DC3-512-2DC3-1024-12D-CNNC3-64-1maxpoolC3-128-1maxpoolC3-256-1C3-256-1C3-512-1C3-512-1C3-512-2C3-512-2C1-1024-0globalpool+concatmaxpoolmaxpool达夫普尔表2. 网络架构。DeepLab是我们的基线，具有VGG-16的修改版本作为编码器。该概念的定义不包括“C [kernelsize] - [numberofchannels] - [dilation]”。“D C ” 和 “ D 平均池化 ” 分别表示深度卷积和深度感知平均池化。DeepLab[4]是一种最先进的语义分割方法我们采用DeepLab作为语义分割的基线，并使用修改后的VGG-16网络作为编码器。我们用深度感知操作替换了这个网络中的层。基线和深度感知CNN的网络配置在表2中概述。假设conv7有C个通道。在[27]之后，使用全局池化来从conv7计算C-dim向量该载体8王与诺依曼最大迭代器然后附加到所有空间位置并产生2C通道特征图。该特征图之后是1×1卷积层，并产生分割概率图。4实验在三个流行的RGB-D数据集上进行评估：– NYUv 2 [23]：NYUv 2包含1， 449个带有像素标签的RGB-D图像我们遵循40类设置和标准分割，使用795张训练图像和654张测试图像。– SUN-RGBD [30，16]：该数据集有37个对象类别，包括10335张 RGB-D图像，其中5285张作为训练图像，5050张作为测试图像。– 斯坦福室内数据集（SID）[1]：SID包含70， 496个RGB-D图像，包含13个对象类别。我们使用区域1、 2、 3、 4和6作为训练，区域5作为测试。四个常用指标用于评估：像素准确度（Acc）、不同类别的平均像素准确度（mAcc）、不同类别的平均交并比（mIoU）和频率加权IoU（fwIoU）。假设nij是具有基础真值类别i并被预测为类别j的像素的数量，nC是cl的numb作为s，并且si是具有基础真值类别i并被预测为类别j的像素的numb作为si，所有pixel s的所有n um Σ b erisΣs=isi。四个Σmetric被确定为如下：Acc=nii，mAcc=1nii，mIoU=1Σnii，fwIoU西印度群岛nCisinCisi+jnji-nii=1siΣnii.sisi+jnji-nii对于大多数实验，使用修改的VGG-16编码器的DeepLab（参考图10）。表2）是基线。对表2中概述的基于DeepLab的深度感知CNN进行评估，以验证我们方法的有效性，这在本文中被称为“D-CNN”。我们还进行了结合HHA编码的实验[9]。在[29，27，8]之后，两个基线网络分别使用RGB和HHA图像，并且两个网络的预测在最后一层中相加。这种双流网络被称为“HHA”。为了进行公平的比较，我们还使用这种双流方式构建深度感知CNN，并将其表示为“D-CNN+HHA”。在消融研究中，我们进一步用ResNet-50 [11]替换VGG-16作为编码器，以更好地理解深度感知操作的功能我们使用初始学习率为0的SGD优化器。001，动量0。9和批量1。学习率乘以（1-iter）0。每10个iterarions有9个。α设定为8。3. (The在4.2节中研究了α的影响。）通过随机缩放、裁剪和颜色抖动来增强我们使用PyTorch深度学习框架。深度感知卷积和深度感知平均池化算子都是用CUDA加速实现的。代码可在www.example.com上获得github.com/laughtervv/DepthAwareCNN。4.1主要结果将深度感知CNN与其基线和NYUv 2和SUN-RGBD数据集上的并与SID数据集上的基线进行了比较用于RGB-D分割的9RGB深度GT基线HHA D-CNN DCNN+HHA了图 4.第一章纽约大学v2test数据库中的数据段。“G T“没有长大也没有长大。“GT”中的区域是一个非常重要的区域。这两项工作是从预先确定的模型中确定的。NYUv 2表3显示了D-CNN和基线模型之间的定量比较结果。由于D-CNN及其基线处于不同的函数空间中，因此所有网络都是从头开始训练的，以便在本实验中进行公平的比较。在不引入任何参数的情况下，D-CNN通过在卷积运算中引入几何信息来此外，D-CNN的性能也超过了这有效地验证了D-CNN在处理几何形状方面优于“HHA”的能力。我们还将我们的结果与最先进的方法进行了比较。表4示出了D-CNN的良好性能。在这个实验中，使用[4]中的预训练参数初始化网络。Long等人[29]和Eigen等人[8]两者都使用具有HHA/深度编码的双流网络。Yang等人。[12]计算光流和超像素以增强具有时空信息的性能。只有一个VGG网络的D-CNN优于他们的方法。Qi等人。[27]在VGG编码器的顶部构建了一个3D图，并使用RNN来更新图，10王与诺依曼基线HHAD-CNN D-CNN+HHA累积（%）50.159.160.361.4mAcc（%）23.930.839.335.6mIoU（%）15.921.927.826.2fwIoU（%）34.243.044.945.7表3. 在NYUv2测试集上与基线CNN进行比较。网络是从头开始训练的。[29日][八]《中国日报》[12个][27日]HHA D-CNN D-CNN+HHA DM-CNN+HHA [20]D-ResNet-152mAcc（%）46.1 45.1 53.8 55.2 51.153.656.358.458.961.1mIoU（%）34.0 34.1 40.1 42.0 40.441.043.944.746.548.4表4. 与NYUv2测试集上的最新技术进行比较。网络从预先训练的模型中训练。引入了更多的网络参数和更高的计算复杂度。通过将Convl、Conv2、Conv 3中的最大池化层替换为深度感知最大池化（定义为y（p 〇）=max pn∈RFD（p 〇，p 〇 + p n）·x（p 〇 + p n）），我们可以得到进一步的性能改进，并且该实验在表4中被称为DM-CNN-HHA。我们还将基线VGG替换为ResNet-152（使用[ 20]进行预训练），并与表4中的基线[20]进行比较。如表4所示，D-CNN已经与这些最先进的方法相当。通过结合HHA编码，我们的方法在这个数据集上达到了最先进的水平。图4显示了NYUv2测试集的定性比较结果。.D-CNN与其基线之间的比较结果列于表5中。本表中的网络是从头开始训练的。D-CNN的表现远远优于基线。用双流“HHA”网络替代基线能够进一步提高性能。通过与表6中的最先进方法进行比较，我们可以进一步看到D-CNN的有效性与NYUv2类似，在本实验中，网络使用预先训练的模型进行图5示出了SUN-RGBD测试集上的定性比较结果。我们的网络实现了与最先进的方法相当的性能[27]，而他们的方法更耗时。我们将在4.3节中进一步比较运行时间和模型参数的数量。基线HHAD-CNN D-CNN+HHA累积（%）66.672.672.472.9mAcc（%）31.537.938.641.2mIoU（%）22.828.829.731.3用于RGB-D分割的11fwIoU（%）51.458.558.259.3表5. 在SUN-RGBD测试集上与基线CNN进行比较。网络是从头开始训练的。10王与诺依曼[18个国家][27日]HHAD-CNN D-CNN+HHAmAcc（%）48.155.250.551.253.5mIoU（%）-42.040.241.542.0表6.与SUN-RGBD测试集的最新技术进行比较网络从预先训练的模型中训练。在表7中报告了D-CNN与其基线之间的SID的比较结果。网络是从头开始训练的。使用深度图像，D-CNN能够在CNN上实现4%的IoU，同时保留相同数量的参数和计算复杂度。4.2消融研究基线D-CNN累积（%）64.365.4mAcc（%）46.755.5mIoU（%）35.539.5fwIoU（%）48.549.9表7. 与SID区域5上的基线CNN的网络是从头开始训练的在本节中，我们对NYUv2数据集进行消融研究，以验证我们方法的有效性和有效性。最后给出了在NYUv2测试仪上的测试结果。深度感知CNN为了验证深度感知卷积和深度感知平均池化两者的功能，进行以下实验– VGG-1：VGG-16中的Conv 11、Conv 21、Conv 31、Conv 41、Conv51和Conv 6被替换为深度感知卷积。这与表2中的相同。– VGG-2：VGG-16中的Conv4_1、Conv5_1和Conv 6被替换为深度感知卷积。其他层保持与表2中相同。– VGG-3：表2中列出的深度感知平均池化层被替换为常规池化。其他层保持与表2中相同。– VGG-4：仅Convl 1、Conv 2 1、Conv 3 1被替换为深度感知卷积。结果示于表8中。与VGG-2相比，VGG-1在底层添加了深度感知卷积。这有助于网络传播更多具有几何关系的细粒度特征，并将IoU中的分割性能VGG-1也优于VGG-4。顶层conv 4，5具有更多的上下文信息，在这些层上应用D-CNN仍然有利于预测。如[25]所示，并非所有的上下文信息都是有用的。D-CNN有助于捕获更有效的上下文信息。深度感知平均池化操作能够进一步提高准确性。我们还将VGG-16替换为ResNet作为编码器。我们在ResNet上测试深度感知操作。ResNet-50中的Conv 3 1、Conv 4 1和Conv 5 1被替换为深度感知卷积。ResNet-50使用在ADE 20 K上预先训练的参数进行初始化[38]。ResNet的详细架构和培训细节可以在补充材料中找到。结果列于表9中。12王与诺依曼RGB深度GT基线HHA D-CNN DCNN+HHA了图五、 SUN-RGBD数据集上的数据段结果。“G T“没有长大也没有长大。“GT”中的区域是一个非常重要的区域。这两个工作是从预先训练的模型中提取的。我们修改α和FD以进一步验证深度相似性函数的不同选择对性能的影响我们进行以下实验：– α8 3：α设置为8。3. 网络架构与表2相同。– α20：α设置为20。网络架构与表2相同。– α2。5：α设置为2。5. 网络架构与表2相同。– 网络架构与表2相同。D定义为.FD（pi，pj）=0，|D（pi）−D（pj）|≥11、否则（六）表10报告了具有不同深度相似性函数的测试性能。虽然不同α的性能有所不同，但它们都优于基线甚至“HHA”。剪辑FD的结果也与“HHA”相当。这验证了使用深度敏感项来加权神经元贡献的有效性用于RGB-D分割的13基线HHA VGG-1 VGG-2 VGG-3 VGG-4累积（%）50.159.1 60.356.059.359.5mAcc（%）23.930.8 39.332.239.237.3mIoU（%）15.921.9 27.822.427.426.6VGG-1 ResNet-50 D-ResNet-50累积（%）69.468.969.6mAcc（%）53.650.253.3mIoU（%）41.038.841.5表8. 在不同层中使用深度感知操作的结果。实验在NYUv2测试集上进行。网络是从头开始训练的。表9. 在ResNet-50中使用深度感知操作的结果。从预训练模型训练网络。基线HHAα8 3α20α 2。5剪辑FD累积（%）50.159.160.358.558.553.0mAcc（%）23.930.839.335.235.929.8mIoU（%）15.921.927.824.925.320.1fwIoU（%）34.243.044.942.642.937.5表10.使用不同α和FD的结果。实验在NYUv2测试集上进行网络是从头开始训练的。性能分析为了更好地理解深度感知CNN如何优于基线，我们在图6（a）中可视化了每个语义类的IoU改进。静态数据显示，D-CNN在大多数对象类别上的表现优于此外，我们观察到深度感知CNN比基线收敛得更快，特别是从头开始训练。图6（b）示出了关于训练步骤的训练损失演变。我们的网络获得比基线更低的损失值。深度相似性有助于保留边缘细节，然而，当深度值在单个对象中变化时，深度感知CNN可能会丢失上下文信息。一些失效案例可在补充材料中找到。(a)（b）第（1）款见图6。性能分析。(a)D-CNN在NYUv 2测试数据集上的基线上的每类IoU改进。(b)NYUv2训练数据集上训练损失的演变。网络是从头开始训练的。4.3模型复杂性和运行时分析表11报告了D-CNN的模型复杂度和运行时间以及最先进的方法[27]。在他们的方法中，kNN至少需要O（kN）运行时间14王与诺依曼其中N是像素的数量。我们利用原始深度输入的网格结构。如表11中所示，深度感知操作不并入任何新参数。网络的前向时间仅略大于其基线.在不增加任何模型参数的情况下，D-CNN能够有效地将几何信息并入CNN中。基线HHA[27]第二十七话D-CNN-HHAnet.前向（ms）32.564.2214 39.379.7参数数量47.0M 92.0M 47.25M 47.0M92.0M表11. 模型复杂度和运行时比较。运行时在Nvidia 1080Ti上测试，输入图像大小为425× 560× 3。5结论我们通过引入两个操作来提出一种新颖的深度感知CNN：深度感知卷积和深度感知平均池化。深度感知CNN用深度相似性项增强常规CNN，并将几何方差编码到基本卷积和池化操作中。通过适应有效的接收场，这些深度感知操作能够将几何结构并入CNN中，同时保持CNN的效率。该方法在不引入任何参数和计算复杂度的情况下，能够提高性能在RGB-D分割上超过基线大幅度。此外，深度感知CNN是灵活的，并且很容易取代标准CNN中的普通CNN。与最先进的方法和对RGB-D语义分割的广泛消融研究的比较证明了深度感知CNN的有效性和效率。深度感知CNN为具有RGB-D输入的视觉任务提供了通用框架此外，深度感知CNN将原始深度图像作为输入，并弥合了2D CNN和3D几何之间的差距。在未来的工作中，我们将在各种任务中应用深度感知CNN，例如3D检测，实例分割，并且我们将在更具挑战性的数据集上执行深度感知CNN。除了深度输入，我们还将利用更多的几何输入，如法线贴图。确认我们感谢Ronald Yu、Yi Zhou和Qiangui Huang的讨论和校对。本研究由情报高级研究项目活动（ IARPA）通过内政部 /内政部商业中心（DOI/IBC）合同号D17 PC 00288支持。美国政府被授权复制和分发再版政府的目的noý standing- ing任何版权注释。免责声明：本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表IARPA、DOI/IBC或美国政府的官方政策或认可，无论是明示还是暗示。政府的用于RGB-D分割的15引用1. 阿尔梅尼岛Sax，A.，Zamir，A.R.，Savarese，S.：用于室内场景理解的联合2D-3D语义数据。ArXiv电子打印（2017）2. 巴伦J.T.Poole，B.：快速双边求解器。In：ECCV（2016）3. 陈杰，巴黎，S.，Durand，F.：双边网格实时边缘感知图像处理。ACMTransactions on Graphics（TOG）（2007）4. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：基于深度卷积网和全连接crfs的语义图像分割。载于：ICLR（2015）5. 郑，Y.，Cai，R.，Li，Z.，赵，X.，Huang，K.：用于rgb-d室内语义分割的具有门控融合的局部敏感反卷积网络。在：CVPR（2017）6. 库普利角法拉贝特角Najman湖Lecun，Y.：使用深度信息的室内语义分割。载于：ICLR（2013）7. Dai，J.，Qi，H.，Xiong，Y.，李，Y.，张，G.，Hu，H.，魏云：可变形对流网络。In：ICCV（2017）8. Eigen，D. Fergus，R.：预测深度、曲面法线和语义标签一种常见的多尺度卷积架构。In：ICCV（2015）9. 古普塔，S.，格尔希克河Arbelaez，P.，Malik，J.：从RGB-D图像中学习丰富的特征In：ECCV（2014）10. Hazirbas角马，L.，多莫科斯角Cremers，D.：融合网络：通过基于融合的cnn架构将深度融入语义分割In：ACCV（2016）11. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）12. 他，Y.，赵伟文Keuper，M.，Fritz，M.：Std2p：使用时空数据驱动池的RGBD语义分割。在：CVPR（2017）13. 黄，Q，王伟，Neumann，U.：用于点云三维分割的递归切片网络CVPR（2018）14. 黄，Q，王伟，Zhou，K.，（1991年），你S Neumann，U.：场景标记使用门控循环单位与显式长程条件反射。arXiv预印本arXiv：1611.07485（2016）15. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，kavukcuoglu，k.：空间Transformer网络。In：NIPS（2015）16. Janoch，A.，Karayev，S.，Jia，Y.，巴伦J.T. Fritz，M.，Saenko，K.达雷尔，T.：类别级三维对象数据集：让Kinect发挥作用。In：ICCV workshop（2011）17. Khan，S.H.，Bennamoun，M.，Sohel，F.，Togneri，R.：室内场景的几何驱动语义标注。In：Fleet，D.，Pajdla，T.，Schiele，B.，Tuytelaars，T.（编辑）ECCV（2014）18. Li，Z.，甘，Y.，梁湘，Yu，Y.，郑洪，Lin，L.：Lstm-cf：使用lstms统一上下文建模和融合，用于rgb-d场景标记。In：ECCV（2016）19. Lin，D.Chen，G.，Cohen-Or，D.，Heng，P.A.，Huang，H.：基于级联特征In：ICCV（2017）20. 林，G.，Milan，A. Shen，C.，Reid，I.：RefineNet：用于高分辨率语义分割的多路径细化网络。在：CVPR（2017）21. 马，L.，Stueckler，J.，Kerl，C.，Cremers，D.：使用rgb-d相机进行一致语义映射的多视图深度学习在：IROS（2017）22. Nathan Silberman Derek Hoiem P.K.Fergus，R.：rgbd图像的室内分割与In：ECCV（2012）16王与诺依曼23. Nathan Silberman Derek Hoiem P.K.Fergus，R.：rgbd图像的室内分割与In：ECCV（2012）24. Park，S.J.，Hong，K.S.，Lee，S.：Rdfnet：用于室内语义分割的Rgb-d多级残差特征融合。In：ICCV（2017）25. Qi，C.R.，Su，H.，Mo K Guibas，L.J.：Pointnet：对点集进行深度学习，用于3D分类和分割。在：CVPR（2017）26. Qi，C.R.，Yi，L.，Su，H.，Guibas，L.J.：Pointnet++：在度量空间中的点集上进行In：NIPS（2017）27. Qi，X.，廖河，巴西-地贾，J.，Fidler，S.，乌尔塔松河：用于RGBD语义分割的3D图神经网络In：ICCV（2017）28. Ren，X.，博湖Fox，D.：RGB-（d）场景标记：特征和算法。在：CVPR（2012）29. Shelhamer，E.，朗J达雷尔，T.：用于语义分段的全卷积网络。PAMI（2016）30. Song，S.，Lichtenberg，S.P.，Xiao，J.：Sun rgb-d：rgb-d场景理解基准套件。参见：CVPR（2015）31. Song，S.，Xiao，J.：用于RGB-D图像中的非模态3D对象检测的深度滑动插值。见：CVPR（2016）32. Song，S.，余，F.，Zeng，A.，Chang，A.X.，Savva，M.，Funkhouser，T.：从单个深度图像的语义场景完成。在：CVPR（2017）33. 王杰，王志，Tao，D.，S.王G：使用解卷积网络学习RGB-D语义分割的常见和特定In：ECCV（2016）34. 王伟，黄，Q，你S杨，C.，Neumann，U.：形状修复使用3D生成对抗网络和递归卷积网络。In：ICCV（2017）35. 王伟，王，N.，Wu，X.，中国农业科学院，你S杨，C.，Neumann，U.：自定步调的跨模态迁移学习，用于高效的道路分割。In：ICRA（2017）36. 王伟，尤河黄，Q，Neumann，U.：用于三维点云实例分割的相似性组建议网络。CVPR（2018）37. 余，F.，Koltun，V.：通过扩张卷积的多尺度上下文聚合。In：ICLR（2016）38. Zhou，B.，（1991年），中国地质大学，赵，H.，Puig，X.，Fidler，S.，Barriuso，A.Torralba，A.：通过ade20k数据集进行场景在：CVPR（2017）

下载后可阅读完整内容，剩余1页未读，立即下载