基于RGBD维分解残差网络的三维语义场景补全

159 浏览量更新于2023-10-19 收藏 1.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7693基于RGBD维分解残差网络的三维语义场景补全李洁1，2刘宇2龚冬2石勤峰2袁霞1赵春霞1伊恩·里德21南京科技大学，中国2澳大利亚阿德莱德大学摘要RGB图像与深度不同，因为它们携带更多关于颜色和纹理信息的细节，这些细节可以用作深度的重要补充，以提高3D语义场景完成（SSC）的性能。SSC由三维形状完成和语义场景标注两部分组成，而现有的方法大多以深度作为唯一输入，这导致了性能瓶颈。此外，最先进的方法采用具有繁琐网络和巨大参数的3DCNN。我们介绍了一个轻量级的维分解残差网络（DDR）的三维密集预测任务。新的因子分解卷积层有效地减少了网络参数，提出的深度和颜色图像的多尺度融合机制可以同时提高完整性和分割我们的方法在两个公共数据集上表现出很好的性能。与最新的方法SSCNet相比，我们在SC-IoU和SSC-IOU中分别获得了5.9%和5.7%的增益，尽管与SSCNet相比仅使用了21%的网络参数和16.6%的FLOP。1. 介绍我们生活在一个3D世界里，在人类感知系统的视野下，一切都占据了物理空间的一部分同样，3D场景理解也很重要，因为它是对现实世界场景的反映作为三维场景理解中最重要的领域之一，语义场景完成（SSC）有着广泛的应用，包括机器人导航[13]、场景重建[14]、自动驾驶[22]等。然而，由于3D表示[40]带来的维度诅咒和有限的注释数据集，SSC的研究领域在过去几十年中仍然进展缓慢。前两位作者贡献相当。随着深度学习的复兴[21，9，41]和近年来一些大规模数据集的出现[25，5，36]。3D形状处理的研究活动在计算机视觉领域再次蓬勃发展，为SSC注入了新的可能性和目标，同时也带来了一些前所未有的挑战。传统的方法通常利用手工制作的特征，如体素[19]和TSDF [18]来表示3D对象形状，并利用图模型来单独推断场景占用和语义标记[12，19]。当前最先进的技术SSC- Net [36]使用端到端3D网络同时进行场景完成和类别标记。通过网络学习过程将语义和几何信息隐式地结合起来，这两个独立的任务可以相互受益。虽然在场景复杂度和标注精度方面取得了显著的进步，但3D表示带来的大量参数此外，现有SSC中存在的另一个问题是低分辨率表示[36，11]。特别地，由于计算资源的限制，常规方法和基于深度学习的方法都牺牲了高分辨率以折衷可接受的速度。另一方面，大多数现有的方法仅使用深度作为输入，难以区分来自不同类别的对象。例如，同一张桌子上的纸和桌布可以通过颜色或纹理信息容易地区分总之，深度和彩色图像是传感器捕获的不同模态，它们都为我们提供了场景的样子。前者给我们更多的关于物体形状和距离的感觉，而后者传递更多关于物体纹理和显著性的信息实践证明，这两种模式都有助于提高SSC任务的性能[7]，但如何将它们融合仍然是一个尚未解决的问题。为了克服上述问题，我们提出了一个轻量级的语义场景补全网络，7694其利用深度和RGB信息两者。它将3D场景完成和标记制定为联合任务，并以端到端的方式学习。本文的主要贡献有三个方面：• 首先，我们提出了三维卷积的维度分解残差（DDR）块，在不发生性能退化的情况下，显著降低了模型参数。• 其次，将RGB和深度的三维特征图进行多尺度无缝融合，增强了网络的鲁棒性代表能力和提高SC和SSC任务的性能• 第三，所提出的端到端训练网络在NYU [35]和NYUCAD [6]数据集上实现了最先进的性能。本文的其余部分组织如下。第二节简要总结了相关工作，第三节介绍了研究方法.第四节给出了实验结果，第五节分析了所提出的方法的不同部分第6节总结了我们的研究结果，并总结了未来的研究兴趣。2. 相关作品2.1. 三维场景自动完成与语义标注作为3D场景理解的一个重要分支，语义场景补全（SSC）具有许多现实世界的应用，最近在深度学习[21]和大规模注释数据集[36]的支持下受到越来越多的关注。SSCNet [36]是第一个将形状完成和语义标记制定为联合任务并以端到端的方式学习任务的方法。TS 3D[7]基于SSC- Net，并利用额外的网络将颜色信息纳入学习循环。SSC-Net和TS 3D均采用截断符号距离函数（TSDF [18]）对3D体积进行编码，其中每个体素存储到其最近表面的距离值d，并且该值的符号指示体素是在自由空间中还是被遮挡。然而，TSDF是计算密集型的，因为它需要计算表面上的点与属于对象的每个点之间的距离。虽然实现了显著的性能，但是3D卷积表示导致具有高度冗余参数的计算昂贵的网络2.2. 计算效率网络作为深度学习架构的里程碑，ResNet [16]使用残差块来防止网络层变深时发生的性能下降。极端深度网络导致许多任务的最先进性能，包括图像分类[21]，对象检测[30，29，26]和分割[3，15]。然而，这是非常昂贵的计算资源和沉重的负担[16，21]。为了迎合现实世界应用的需求，近年来，将重负荷网络裁剪为轻负荷网络是一种趋势。特征表示考虑到3D场景中包含的冗余信息，第一个频谱的工作尝试用稀疏特征表示来建模场景具体来说，OctNet [31]和O-CNN [39]利用基于八叉树的CNN来表示3D对象形状。PointNet [2]和Kd-Networks [20]采用点云来指示场景的占用。虽然节省了内存和计算，但相邻像素通常映射到同一体素，这不可避免地导致语义标记和场景理解的细节丢失。近两年来，有几种流行的轻量级网络被提出，包括MobileNet [17 ， 34] 和 ShuffleNet [43] 。在 MobileNet中，深度卷积和逐点卷积用于分离通道以及减少参数和计算。在ShuffleNet中，除了采用组逐点卷积和深度卷积外，还开发了Shuffle层，用于不同Shuffle单元之间的信息交换然而，上述模型严重依赖于深度卷积和组卷积，并且主要针对2D网络，因此不能直接应用于3D任务。空间群卷积提高 3D 网络的计算效率。引入了EsscNet [42]，而不是在特征通道维度上进行组卷积，它采用了空间方面的组卷积。空间组卷积的缺点是它手动地将特征分割成单独的部分，这导致性能下降。同时，拆分过程涉及到哈希表的维护和与其他块的协调，移植起来比较麻烦。相反，所提出的DDR块是非常灵活的，并且它可以被植入到任何包含3D模块的网络。2.3. SSC中的模态融合有许多工作集中在2D应用中的RGBD融合[38，27，1，28，12]。RGBD传感器可以同时捕获深度和彩色图像，尽管深度可以用于推断场景的几何形状，但场景的几何形状过于稀疏，无法重建场景的遮挡部分。与深度相比，彩色图像具有更多的纹理、颜色和反射信息，可以作为深度的必要补充。遵循SSCNet的设计理念，TS3D [7]将彩色图像添加到工作流程中。然而，场景标记需要估计两次，并且深度流和颜色流是7695（一）3D DDR3D卷积池化二维DDR2D卷积逐元素添加（b）第（1）款（c）第（1）款图1. (a)语义场景完成的网络架构。以RGBD图像为输入，网络同时预测职业和对象标签。(b)特征提取器的详细结构。(c)下采样块的结构。仍然彼此远离本质。在[10]中，提出了两种融合策略，一种是在第一层连接特征的早期融合，另一种是在输出层之前连接特征的虽然遵循了SSCNet的总体设计并复用了SSCNet的特性，但采用这两种融合策略的性能都比SSCNet差。与特征融合最相关的工作是RDFNet [27]，它利用彩色图像的多尺度融合特征，旨在构建2D分割框架。然而，如前所述，融合3D网络中的特征更具挑战性。在本文中，我们提出了一种新的融合策略，有效地融合了多尺度上的3D深度和颜色特征，而无需引入额外的参数。3. 方法3.1. 概述本节介绍拟议的SSC轻型网络强调了计算效率高的维度一方面，通过对3D卷积和密集连接进行维度分裂，使用DDR块可以显著降低网络参数。另一方面，通过无缝融合深度和彩色图像的3D特征，该网络可以有效地利用RGBD传感器捕获的信息，并且各种输入调制相互补充，从而提高性能。同时实现了形状完成和场景标注。拟议网络的框架如图1所示。该网络有两个特征提取器，分别以全分辨率深度和相应的颜色图像作为输入该网络首先使用2DDDR块来学习局部纹理和几何表示。然后，通过投影层将2D特征图投影到3D空间。然后采用多层次融合策略之后，网络响应被连接并馈送到随后的轻量级Atrous空间金字塔池（ASPP）模块中，以在多个尺度上聚合信息。最后，另外三个逐点卷积层用于预测最终的体素标签。下面将详细介绍各个模块的设计.3.2. 维数分解残差块3.2.1基本复员方案残差层[16]具有允许卷积层近似残差函数的特性xt=Fd（xt−1，{Wi}）+xt−1（1）其中xt−1和xt是输入和输出。函数Fd（xt-1，{Wi}）表示要学习的残差映射，d是块内的膨胀率。这种残差公式便于学习，并简化了堆栈结构中存在的退化问题。大量的层[33]。直接将原始（2D）ResNet块应用到3D密集预测任务中，两个对应的3D残差层将是：多层次特征融合轻质ASPP特征提取器DDRDDRDDRDDR深度图像DDR特征提取器DDRDDRDDRDDRDDR彩色图像L1L2L3L4池特征提取器下采样模块池Conv池DDRConvDDRConvConvDDRDDR2D-3D投影下采样DDRconcatenate下采样转换转换转换DDRconcatenate76961×1×1，w/4ReLU1×1×3，w/4ReLU1×3×1，w/4ReLU3×1×1，w/4ReLU1×1×1，wReLUℱ��ℱ��−1 通道=w3×3×3，wReLU3×3×3，w+��−1��ReLU(a)ResNet 3D��−1channel=w(c)ResNet 3D深度��−1channel=w1×1×3，wReLU1×3×1，wReLU3×1×1，wReLU(b)基本复员方案��−1通道=w(d)更深入的复员方案负责减少和恢复维度，这使得三维分解卷积层形成具有较小输入/输出维度的瓶颈。此外，在每个维度分解卷积中添加无参数的身份快捷方式。稠密的恒等连接不仅有助于鲁棒的特征表示，而且还具有减轻消失梯度问题和加强特征传播的优点[16]。在本文的其余部分，DDR指的是更深的DDR块，除非特别指出。3.3. 双模态多层次特征融合3.3.1特征提取器模块在我们的网络中，有两个并行的分支，分别用于深度和彩色图像的特征提取。如图1（b）所示，特征提取器模块由三个组件组成：二维特征提取器、三维特征提取器和将二维特征映射到三维特征的投影层。网络首先利用2D图2.剩余区块和拟议的复员方案区块。3×3×3卷积如图2（a）所示，三层瓶颈版本如图2（c）所示。然而，这两种结构都将遭受高计算成本的问题，随着网络参数的立方增长。我们建议通过将3D卷积分解为沿每个维度的三个连续所提出的基本DDR块如图2（b）所示，其更深的瓶颈版本如图2（d）所示。通过这种方式，网络可以减少参数并能够根据[37]中的理论捕获3D几何这里我们提供一个小插曲来说明DDR块在降低网络参数方面的有效性：考虑具有输入通道c in，输出通道c in，cout，核大小为kx×ky×kz。在不失一般性的情况下，我们可以假设kx=ky=kz=k。然后将3D CNN中的原始块分解为三个连续的层，分别具有滤波器大小1×1×k，1×k×1和k×1×1原始块和DDR块的计算成本分别与cin×cout×k×k×k和cin×cout×（k+k+k）成比例当k <1时，DDR在降低网络参数方面的优势将被放大成为大，因为3kk3.例如，采用DDR块后，具有3×3×33.2.2更深入的复员方案受瓶颈设计[16]的启发，我们进一步提供了更深的DDR块。具体地，对于每个残差函数，在Di的顶部和底部添加1×1×1层mentional Decomposition convolutions.1×1×1层特征提取器学习本地颜色和纹理表示，第在通过投影层将特征映射到3D空间之后，采用3D特征提取器来获取几何和上下文信息。2D特征提取器为了从2D深度和彩色图像中提取特征，首先使用2D逐点卷积来增加特征图的通道。然后将两个2D DDR块堆叠用于残差学习。通过该过程，输出特征图的分辨率保持与输入图像相同。请注意，在我们的网络中，2D DDR块的参数数量为192，与3DDDR块的195k参数相比，这是微不足道的。因此，我们主要关注3D DDR块的轻量化操作。投影层由于深度图中的每个像素对应于2D特征图中的张量，因此每个特征张量都可以在具有相同深度值的位置处投影到3D体积中。该步骤产生不完整的3D体积，其将其对应的特征张量分配给每个表面体素。对于未被任何深度值占据的体素，设置其特征向量变成零可以使用深度值Iu，v和相机姿态C来计算映射索引Tu，vat（u，v），与每张图片一起提供。由于特征体分辨率低于特征图分辨率，因此几个相邻的特征将被投影到同一体素中，我们使用最大池来模拟这一步骤。利用特征投影层，提取被2D CNN转换为视图独立的3D特征体积。在训练期间，特征图张量和体素之间的映射指数T被记录在用于梯度反向传播的表中。3D特征提取器在特征投影层之后1×1×1，w/4ReLU3×3×3，w/4ReLU1×1×1，wReLU7697c′场景完成语义场景补全方法预处理召回IOU细胞地板壁赢了椅子床沙发表电视炉目标avg.Lin等[23日]58.549.936.40.011.713.314.19.429.024.06.07.016.21.112.0Geiger等人[八]《中国日报》65.758.044.410.262.519.15.88.540.627.77.06.022.65.919.6SSCNet [36]57.094.555.115.194.724.40.012.632.135.013.07.827.110.124.7[42]第四十二话71.971.956.217.575.425.86.715.353.842.411.2033.411.826.7我们71.580.861.021.192.233.56.814.848.342.313.213.935.313.230.4表1.纽约大学数据集上的结果粗体数字代表最佳分数。获取视图无关的3D特征体积。在此步骤中，我们使用两个3D DDR块进一步提取特征在每个DDR块之前添加下采样块图1（c）示出了下采样块的结构。池化层和逐点卷积层被级联以增加下采样块的输出特征图的通道。3.3.2多级特征融合基于3D RGBD的语义分割的一个主要挑战是如何有效地提取颜色特征以及深度特征并将这些特征用于标记。为了充分利用多模态特征，我们提出了一种新的特征融合策略，该策略受到[24，27]的启发。我们采用多模态CNN特征融合，同时保持较低的计算成本。具体而言，通过多个DDR模块提取不同层次的特征，然后通过逐元素相加将这些特征合并在一起。之所以使用逐元素相加而不是其他操作，是因为它可以以微不足道的计算成本巧妙地融合特征。通过级联DDR块，捕获低级特征和高级特征，这增强了明确地调整滤波器的视场以及控制特征响应的分辨率。从不同采样率提取的特征被进一步concate- nated和融合，以生成具有输出层的最终结果，输出层由三个3D逐点卷积层构成，如图1所示。3.5. 训练与损失训练给定训练数据集（即，RGBD图像和3D场景的地面真实体积对象标签），我们的方法可以端到端训练SSCNet [36]设置一个小值（0.05）作为自由空间中体素的权重，用于训练过程中的数据平衡。我们在早期的培训过程中也采取了同样的策略。随着每增加50个训练时期，空体素的权重逐渐加倍，直到它被设置为与其他占用体素相同。所有的实验都是在GPU上使用py- Torch框架进行的.我们的模型使用SGD优化器进行训练，动量为0.9，权重衰减为10- 4，批量大小为2，初始学习率为0.01，当训练损失在5个连续时期内变化小于1 e-4时除以因子10为了训练网络，我们在未归一化的网络输出y上使用softmax交叉熵损失：提高了网络的表示能力，有利于语义场景补全任务的执行。3.4.轻型ASPP模块L=− ΣNc=1wcyi，clog.ΣeyicNeyic′（二）不同的对象类别在室内场景中具有不同的物理3D尺寸。这就要求网络在不同的尺度上捕捉信息，以便可靠地识别对象。Atrous空间金字塔池化（ASPP）[3，4]通过采用具有不同膨胀率的多个并行滤波器来利用多尺度特征，并且已被证明能够有效提高CNN然而，直接将ASPP应用于3D语义场景完成将带来巨大的参数以及大量的计算。基于这一考虑，我们引入了一个轻量级的ASPP（LW-ASPP），它是能够处理规模的变化，而需要较少的计算。具体地，LW-ASPP使用具有不同采样（膨胀）速率的多个并行DDR块通过在DDR块内的三维分解卷积中设置膨胀率扩张的DDR其中y=i，c是二进制地面实况向量i。e. y=i，c=1如果体素i由类别c标记，则N是类别的数量，Wc是失重。为了计算损失函数，我们移除视野和房间之外的所有体素，并包括所有非空体素加上被遮挡的体素。4. 实验在本节中，我们在两个公共数据集上评估和比较了所提出的方法与最先进的方法，即。[35]第35话：定性和定量的结果都证明了该算法在SSC任务上的优越性。4.1. 数据集和指标数据集我们在NYUv2数据集[35]上评估了所提出的方法，该数据集在下文中表示为NYU。纽约大学由1449个室内场景组成，这些场景是通过7698场景补全语义场景补全方法预处理召回IOU细胞地板壁赢了椅子床沙发表电视炉目标avg.Zheng等[第四十四届]60.146.734.6------------Firman等人[6]美国66.569.750.8------------SSCNet [36]75.496.373.232.592.640.28.933.957.059.528.38.144.825.140.0TS3D [7]80.291.074.233.892.946.827.027.961.651.627.626.944.522.042.1我们88.788.579.454.191.556.414.937.055.751.028.89.244.127.842.8表2.NYUCAD数据集上的结果粗体数字代表最佳分数。方法参数/kFLOPs/G细胞地板壁赢了椅子床沙发表电视炉目标avg.我们的深度155.020.630.693.028.66.713.660.320.012.30.30.912.028.9我们的-RGB155.020.619.391.830.53.713.144.437.110.65.531.011.927.2我们的RGBD195.027.221.192.233.56.814.848.342.313.213.935.313.230.4表3.RGB和深度融合的消融实验Kinect传感器在SSCNet [36]之后，我们使用[32]提供的3D注释标签进行语义场景完成任务。NYUCAD [6]使用从3D注释的投影生成的深度图来减少深度和注释的不对准。我们将我们的方法与NYU和NYUCAD数据集上的最新方法进行比较。作为评估度量，使用预测的体素标签和地面实况标签之间的体素级交集（IoU）对于语义场景完成的任务，我们评估观察到的和被遮挡的体素上的每个对象类的IoU。对于场景完成的任务，我们将所有非空对象类视为一个类别，并评估对被遮挡体素的二进制预测的IoU。4.2. 与现有技术方法的比较表1显示了通过我们的方法和现有技术方法获得的纽约大学数据集的结果。我们实现关于不同指标的最先进性能。具体来说，我们实现了最好的性能的场景完成和语义场景完成的任务，也排名第二最好的召回率和精度的场景完成。我们在整体性能上明显优于之前的SSCNet，即语义场景完成的5.7%收益和场景完成的5.9%所提出的网络在某些类别中表现出卓越的性能，如细胞。，桌子，电视，家具.等我们检查这种改进，由于新的ar-方法参数/kFLOPs/GSC-IoUSSC-IoUSSCNet [36]930.0163.855.124.7[42]第四十二话-22.056.226.7我们的深度155.020.659.028.9我们的RGBD195.027.261.030.4表4.我们的方法与其他方法的参数，FLOPs和性能的一致性。4.3. 定量分析由于我们的目标是一个轻量级的三维网络语义场景完成，在本节中，我们列出了所提出的方法以及基线方法的参数和FLOP。如表4所示。具体而言，与最先进的方法SSCNet相比，我们的方法中的参数是在SSCNet中的21.0%，FLOP是SSCNet的16.6%。然而，场景完成和语义场景完成的性能都比SSCNet高出约6%。与ESSC-Net [42]相比，深度仅用作公平比较的输入，我们的方法在计算上对于SC和SSC任务，EsscNet达到了56.2%（SC）和26.7%（SSC）的准确率，而我们达到了59.0%（SC）和28.9%（SSC）。4.4. 定性分析图3.4显示了由所提出的方法（c）和SSCNet（d）生成的场景分割的可视化结果（在不同场景中），地面实况（b）也作为参考提供。所有结果均在架构，它利用了多个水平和多模态，以及数据融合，有效地补充了这些无纹理对象的彩色图像的细节为了验证所提出的网络的鲁棒性和泛化能力，我们还在NYUCAD数据集上进行了实验，如表2所示。与最先进的方法的比较结果呈现相同的趋势。在所有的方法中，我们在语义场景完成和场景完成方面取得了最好的效果.NYUCAD确认集。可以看出，与SSCNet相比，我们的方法的场景完成结果在细节上更加丰富，并且不易出错。可以很容易地看出，我们的方法对诸如壁炉、墙壁和地板之类的对象执行得更好。例如，在第二行和第三行中，SSC将导致壁的细节中的一些缺失，这在我们的算法中很少发生。部分原因是我们的方法更好地处理纹理较少和小的对象，我们属性来自合并的颜色特征。在第（1）行中，我们的7699细胞地板壁窗椅床沙发表电视furn对象（一）（二）（三）（四）（五）（六）(a)RGB和深度图像（b）地面实况（c）我们的（d）SSCNet的结果图3.关于NYUCAD的定性结果。从左至右：输入RGB-D图像，地面实况，通过我们的方法获得的结果，以及通过SSCNet获得的结果[36]。总的来说，我们完成的语义3D场景不那么杂乱，并且与SSCNet相比显示出更高的体素类准确性。详细分析参见第4.4节。7700方法参数/kFLOPs/GSC-IoUSSC-IoU无ASPP132.021.1356.826.8三维ASPP431.063.2862.730.8LW-ASPP195.027.2261.030.4方法参数（k）FLOPs（G）速度（FPS）内存（M）网络深度SSC-IoU（%）SSCNet [34]930.0163.80.753051424.7我们的3D-ResNet1540.5204.71.318412830.8表5.参数、FLOP和性能（有/没有ASPP）。方法有效地捕获关于椅子腿的详细信息此外，与SSCNet相比，该方法保持了大尺寸对象的分割一致性，例如行（2）中的墙壁和地板以及行（4）中的天花板。行（3）显示一个非常具有挑战性的例子，即，窗口，SSCNet和我们的方法都不能获得令人满意的结果。然而，我们的方法可以识别部分信息。第（5）和第（6）行是我们的方法中的失败案例，特别是第（5）行，墙上的壁画与书架上的东西有相似的纹理，因此错误地将其归入书架的范畴。在行（6）中，红色虚线矩形圈出的地面实况家具，SSCNet错误地将其预测为对象类别，我们的网络错误地将其分类为椅子，这可能是由于家具和椅子类别之间的形状和颜色信息非常相似。在补充材料中，提供了更直观的结果。5. 消融研究RGB和深度融合RGB和深度信息对于3D场景理解都很重要。为了验证所提出的多层次融合策略的有效性，我们评估我们的方法的性能，只有深度或RGB图像作为输入。从表3中可以看出，仅使用深度或彩色图像作为输入，我们的方法在SSC上的性能分别为28.9%和27.2%。由于RGB图像携带了更多的细节，如颜色和纹理，这有利于语义信息，这可以从类别电视和美食沙发的结果中看出。而深度的优势在于它承载了更多的几何信息，对于难以通过颜色信息区分的物体，根据其形状来区分要容易得多。比如桌子和地板。此外，深度对于照明变化和相同类别内的显著颜色变化不太敏感，这可以解释对于室内场景，使用深度的结果比使用彩色图像作为输入的结果好一点。同时，在我们的方法中，合并深度和颜色特征显着提高SSC性能，这证明了两个模态信息可以很好地互补。同时得益于网络中采用的轻量级DDR模块，整体计算量和参数都很小。轻量级ASPP ASPP的有效性已在2D语义分割任务中得到验证[3]。然而，ASPP从2D到3D的直接扩展将带来表6.我们的DDR-Net和基于3D-ResNet的网络的推理速度和GPU内存使用所有结果都是在GTX1080ti GPU上获得的，并在纽约大学[33]测试集上进行评估。大量的参数以及使网络繁琐。以DDR模块为核心的轻量级ASPP（LW-ASPP）不仅有效地降低了网络参数，而且继承了ASPP的多尺度信息捕获能力，有利于三维任务的完成。为了验证LW-ASPP的有效性，我们设计了一组实验，其中LW-ASPP被从网络中删除，或被直接从ASPP扩展的3D ASSP取代。从表5中可以看出，当与没有ASPP模块的网络兼容时，添加LW-ASPP将SC-IoU提高3.2%，将SSC-IoU提高3.6%。当用3D-ASPP代替 LW-ASPP时，性能可以进一步提高一个小的裕度，但是牺牲了超过两倍的参数和大约三倍的FLOP。速度/内存和性能的变化如表6所示，DDRNet与SSCNet相比具有相当多的参数和FLOP。DDRNet具有更深的结构，因此比3D-ResNet版本具有更强的非线性表示能力，尽管所需的内存成本更低。此外，DDRNet实现了更快的速度，但性能损失很小。6. 结论本文提出了一种新的结构来处理语义场景完成问题。具体地，端到端的轻量级维度分解残差（DDR）网络被递送用于场景完成和语义场景标记。这两个贡献是提出的因式分解卷积层和一种新的双模态融合机制。前者有效地减少了网络内部的参数，后者可以实现深度图像和彩色图像的多层次无缝融合，在两个公开数据集上的SSC和SC任务中均取得了较好的效果。在未来，考虑区分室内场景的实例以及将洗牌层纳入拟议的轻量级网络将是我们的研究兴趣。确认这项工作得到了国家自然科学基金 61603184 和61773210的我们还感谢澳大利亚研究委员会通过拨款CE140100016和FL130100102提供的支持。7701引用[1] A. Chang，A.戴氏T. Funkhouser M. Halber，M.尼斯纳M. Savva，S. Song，中国黑杨A. Zeng和Y.张某 Matter-port3d ：室内环境中 rgb-d 数据的学习。 arXiv ：1709.06158，2017。[2] R. Q. Charles ， H. 苏， M 。 Kachun 和 L.J. GuibasPointnet：用于3D分类和分割的点集深度学习在CVPR，第77-85页[3] L. C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。TPAMI，40（4）：834[4] L. C. 陈先生， Y. 朱 G. 帕潘德里欧 F. Schroff和H. Adam.用于语义图像分割的具有可分离卷积的编码器-解码器。arXiv预印本arXiv：1802.02611，2018。[5] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，第248-255页[6] M. Firman，O. Mac Aodha，S. Julier和G. J·布罗斯托来自单个深度图像的未观察到的体素的结构化预测。在CVPR中，第5431-5440页[7] M. Garbade，J. Sawatzky，A. Richard和J.胆双流3d语义场景完成。arXiv：1804.03550，2018年。[8] A. Geiger和C.王. 从单个rgb-d图像联合推断3d对象和布局德国模式识别会议，第183-195页，2015年[9] D. 龚，J。扬湖，澳-地Liu，Y.张岛里德角Shen，中国古猿A.Van Den Hengel和Q.石从运动模糊到运动流：深度学习解决方案，用于消除异构运动模糊。在CVPR中，第2319-2328页[10] A. B. S.盖德斯，T. E. de Campos和A. Hilton.结合颜色和深度的语义场景完成：初步实验arXiv预印本arXiv：1802.04735，2018。[11] Y. X.小郭和X.童从单个深度图像完成语义场景的视体积网络。arXiv：1806.05361，2018。[12] S. 古普塔山口阿尔贝拉兹河。Girshick和J. 马利克rgb-d图像室内场景理解：自下而上分割，目标检测和语义分割。IJCV，112（2）：133[13] S. Gupta，P. Arbelaez，and J.马利克rgb-d影像室内场景之知觉组织与辨识。在CVPR，第564-571页[14] J. Hays和A.A. 埃夫罗斯使用数百万张照片完成场景TOG，26（3）：4，2007.[15] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。在ICCV，第2980-2988页[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[17] A. G. Howard ， M.Zhu ， B.Chen ，中国粘蝇D.Kalenichenko，W.小王，T. Weyand，M. Andreetto和H. Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[18] S. 伊萨迪D.Kim，O.希利格斯，D。莫利诺河纽科姆P. Kohli ， J. Shotton ， S. Hodges ， D. Freeman ， A.Davison等人运动融合：使用移动深度照相机的实时3D重建和交互。在UIST，第559ACM，2011年。[19] B. S. Kim，P.Kohli和S.Savarese 基于voxel-crf的三维场景在ICCV，第1425-1432页[20] R. Klokov和V. Lempitsky逃离细胞：用于三维点云模型识别的深度kd网络。在ICCV，第863-872页[21] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS，第1097-1105页[22] C.洛吉耶岛E.帕罗姆奇克M. Perrollaz，M. Yong，J. - D.Yode r、C. 再见，K。Mekhnacha，和A. 不好。动态场景概率分析和碰撞风险评估，提高行车安全。ITSMagazine，3（4）：4[23] D. Lin，S.Fidler和R.乌塔松基于rgbd摄像机的三维目标检测的整体场景在ICCV，第1417-1424页[24] G. Lin，L.米兰角沈和我里德Refinenet：用于高分辨率语义分割的多路径细化网络在CVPR中，第1925-1934页[25] T. Y.林，M。迈尔，S。贝隆吉，J. Hays，P. Perona，D.Ra-manan，P. Doll a'r和C. L. 齐特尼克Microsoftcoco：上下文中的通用对象。在ECCV，第740-755页[26] Y.柳湖，加-地Liu，H. Rezatoeni，T. T.做吧Q施，和我。里德拥挤场景下多目标检测的成对关系学习。arXiv预印本arXiv：1901.03796，2019。[27] S. J. 帕克，K.S. Hong和S.李你Rdfnet：用于室内语义分割的Rgb-dInICCV，2017.[28] X.齐河，巴西-地Liao，J. Jia，S. Fidler和R.乌塔松用于RGBD语义分割的3D图神经网络。在CVPR中，第5199-5208页[29] J.雷德蒙，S.迪夫拉河，巴西-地Girshick和A.法哈迪。你只看一次：统一的实时物体检测。在CVPR，第779-788页[30] S. Ren，K.赫利河Girshick和J.太阳更快的r-cnn：用区域建议网络进行实时目标检测。TPAMI，39（6）：1137[31] G. Riegler，A. O. Ulusoy和A.盖革Octnet：以高分辨率学习深度3D表示。在CVPR，2017年第3卷中。[32] J. Rock，T.Gupta，J. Thorsen，J. Gwak，D.Shin，以及D. 霍伊姆从一个深度图像完成三维物体形状。在CVPR，第2484-2493页[33] E.罗米拉，J.M.阿尔瓦雷斯湖M. Bergasa和R.阿罗约Erfnet：用于实时语义分割的高效残差分解convnetT-ITS，19（1）：263[34] M. Sandler ， A. Howard ， M. Zhu ，中国茶青冈 A.Zhmoginov和L.- C.尘Mobilenetv2：反演残差和线性瓶颈。在CVPR中，第4510-4520页[35] N. Silberman，D. Hoiem、P.Kohli和R.费格斯。室内分割和支持从rgbd图像推断。在ECCV，第746-760页7702[36] S. 宋，F. Yu，中国茶条A. Zeng，中国茶青冈A. X. 张，M。 Savva，以及T. 放克豪瑟从单个深度图像的语义场景完成。在CVPR，第190-198页[37] C. 塞格迪河谷Vanhoucke，S.Ioffe，J.Shlens和Z.沃伊纳重新思考计算机视觉的初始架构在CVPR，第2818-2826页[38] J. Wang，Z. Wang，中国山杨D. Tao，S.见，和G。王.用解卷积网络学习rgb-d语义分割的共同和特定特征。在ECCV，第664- 679页[39] P. S. Wang，Y.刘玉- X.郭角Y. Sun和X.童O-cnn：基于八叉树的卷积神经网络，用于3D形状分析。TOG，36（4）：72，2017.[40] X. Wang和R.杨通过非线性流形嵌入和对齐从单个人脸图像学习3d形状在CVPR，第414-421页[41] Q. Yan，杨氏D. Gong和Y.张某用于盲图像质量评估的双流卷积网络IEEE Transactions on Image Processing，28（5）：2200[42] J. Zhang，H. Zhao，中国粘蝇A. Yaoe，Y. 陈湖，澳-地 zhang和H. 廖娥具有空间组卷积的高效语义场景完成网络在ECCV，第733-749页[43] X. Zhang，X. Zhou，M. Lin和J. Sun. Shufflenet：一个用于移动设备的非常高效的卷积神经网络。在CVPR中，第6848-6856页[44] B. Zheng，Y.郑氏，中国科学院植物研究所所长。赵建春<英>来华传教士。Yu，K. Ikeuchi和S.- C.竹远点云：通过几何和物理推理理解场景在CVPR，第3127-3134页

下载后可阅读完整内容，剩余1页未读，立即下载