各向异性卷积网络用于3D语义场景补全

182 浏览量更新于2023-10-24 收藏 13.63MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

133510各向异性卷积网络用于3D语义场景补全�0李杰1 韩凯2 王鹏3 † 刘宇4 袁霞101 南京理工大学，中国 2 牛津大学，英国 3 伍伦贡大学，澳大利亚 4 阿德莱德大学，澳大利亚0摘要0作为一项逐个体素标记的任务，语义场景补全（SSC）试图从单个深度和/或RGB图像中同时推断场景的占用情况和语义标签。SSC的关键挑战是如何有效利用3D上下文来建模具有形状、布局和可见性严重变化的各种对象或物体。为了处理这种变化，我们提出了一种称为各向异性卷积的新模块，它具有标准3D卷积和一些变体所不可能具备的灵活性和能力。与仅限于固定3D感受野的标准3D卷积相比，我们的模块能够逐个体素地建模维度各向异性。基本思想是通过将3D卷积分解为三个连续的1D卷积来实现各向异性3D感受野，并且每个1D卷积的核大小是自适应确定的。通过堆叠多个这样的各向异性卷积模块，可以进一步增强逐个体素的建模能力，同时保持可控的模型参数数量。在两个SSC基准测试集NYU-Depth-v2和NYUCAD上进行了大量实验，结果显示了所提方法的优越性能。我们的代码可在https://waterljwant.github.io/SSC/上获得。01. 引言0为了在3D物理世界中表现出行为，需要准确理解3D几何和环境的语义。人类可以轻松地从部分观察中推断出场景的几何和语义信息。计算机视觉中的一个开放课题是研究如何使机器具备这种能力，这在许多应用中是可取的，如导航[4]、抓取[20]、3D家居设计[1]等。0�本工作得到中国国家自然科学基金（61773210和61603184）和EPSRC项目基金Seebibyte EP/M013774/1的支持。† 通讯作者。0语义场景补全（SSC）[16]是一项计算机视觉任务，教会机器如何从静态深度和/或RGB图像中感知3D世界。该任务有两个耦合的目标：一个是3D场景补全，旨在推断场景的体积占用情况，另一个是3D场景标记，需要逐个体素地预测语义标签。由于物理场景中的对象在形状、布局和可见性方面存在严重变化，因此主要挑战是如何对3D上下文进行建模以有效地学习每个体素。0最近，通过使用深度卷积神经网络（CNN）取得了SSC [16,6, 8, 10,13]的有希望的进展。一种直接的解决方案是使用3D卷积神经网络[16]来建模体积上下文，它由一系列传统的3D卷积层组成。然而，这种解决方案存在明显的局限性。一方面，3D卷积产生一个固定的感受野，不能适应对象的变化。另一方面，3D卷积对计算和内存消耗较大。提出了3D卷积的变体[10,21]来解决这些问题。例如，[10]中提出了一种轻量级的维度分解网络来减少资源消耗，但仍然未解决对象变化的问题。0在这项工作中，我们提出了一种新的模块，称为各向异性卷积，用于建模物体的变化，这种属性对于竞争方法来说是不可能的。与标准的3D卷积和一些限制于固定感受野的变体不同，新模块适应了维度各向异性的属性，并且使得感受野具有可变大小，即各向异性感受野。基本思想是将3D卷积操作分解为三个连续的1D卷积，并为每个1D卷积配备不同核大小的混合器。沿着每个1D卷积的这些核的组合权重是逐个体素地学习的，因此可以通过连续执行这种自适应的1D卷积来基本建模各向异性的3D上下文。虽然我们使用了多个核...33520由于维度分解方案，我们的模块仍然比3D对应物经济。通过堆叠多个这样的模块，可以获得更灵活的3D上下文，以及从这样的上下文到体素输出的有效映射函数。本文的贡献如下：0•为了完成语义场景的任务，我们提出了一种新颖的各向异性卷积网络（AIC-Net）。它通过自动选择不同体素的适当感受野来灵活地建模3D场景中的对象变化。0•我们提出了一种新颖的模块，称为各向异性卷积（AIC）模块，它根据体素的各向异性特性自适应地调整，并隐式地实现了具有不同大小的3D卷积核。0•与标准的3D卷积单元相比，新模块的计算需求更低，参数效率更高。它可以作为一个即插即用的模块来替代标准的3D卷积单元。0我们在两个SSC基准测试上对我们的模型进行了全面评估。我们的方法在准确性上大幅优于现有方法，建立了新的最先进技术。代码将会提供。02. 相关工作 2.1. 语义场景完成0SSCNet[16]是Song等人提出的第一个尝试在端到端网络中同时预测场景的语义标签和体积占用。然而，3DCNN的高昂成本限制了网络的深度，这影响了SSCNet所达到的准确性。Zhang等人[21]将空间组卷积（SGC）引入SSC中，以加速3D密集预测任务的计算。然而，它的准确性略低于SSCNet。Guo和Tong [8]通过结合2D CNN和3DCNN，提出了视图体积网络（VVNet），以有效降低计算成本并增强网络深度。Li等人[11]将深度和体素同时作为混合网络的输入，并在训练过程中考虑了不同位置元素的重要性[23]。Garbade等人[6]提出了一种联合利用深度和视觉信息的两流方法。具体而言，它首先为推断的2D语义信息构建了一个不完整的3D语义张量，然后采用了一个普通的3DCNN来推断完整的3D语义张量。Liu等人[13]也使用RGB-D图像作为输入，并提出了一个两阶段框架，通过2D-3D重投影层将2D语义分割和3D语义场景完成顺序进行连接。0然而，他们的两阶段方法可能会导致误差累积，产生较差的结果。尽管取得了显著的改进，但这些方法受到3D卷积成本和固定感受野的限制。Li等人[10]为3DSSC任务引入了一种维度分解残差网络（DDRNet）。尽管它在使用更少参数的情况下取得了良好的准确性，但仍存在使用固定感受野的限制。02.2. 超越固定感受野0大多数现有模型利用固定大小的卷积核来建模固定的视觉上下文，当处理具有不同大小的对象时，这些模型的鲁棒性和灵活性较差。Inception系列[17, 19,18]考虑了具有多种大小的感受野，并通过启动具有不同卷积核的多分支CNN来实现这一概念。类似的思想出现在空洞空间金字塔池化（ASPP）[2]中，通过在特征图的顶部使用具有不同空洞（膨胀）率的几个并行卷积来捕获多尺度信息。这些策略本质上采用了多尺度融合的思想，并且相同的融合策略被统一应用于所有位置。Zhang等人[22]通过加权卷积使用不同的卷积核大小选择更合适的感受野。STN[9]设计了一个空间变换模块，以实现平移、旋转和缩放的不变性。然而，它将整个图像视为一个单元，而不是像素级地调整感受野。可变形卷积神经网络（DCNv1）[3]试图根据对象的尺度和形状自适应地调整感受野的空间分布。具体而言，它利用偏移量来控制空间采样。DCNv2[25]通过堆叠更多的可变形卷积层来增加建模能力，并提出使用教师网络来指导训练过程。然而，DCNv2仍然难以控制偏移量以便只关注相关像素。与上述方法不同，本文提出的AIC模块专为3D任务量身定制，特别是针对SSC。它能够通过学习各向异性的像素级感受野来处理具有形状、布局和可见性变化的对象。同时，它在语义完成准确性和计算成本之间实现了权衡。03. 各向异性卷积网络0在本节中，我们介绍了我们的各向异性卷积网络（AIC-Net）用于3D语义场景补全。AIC-Net的核心是我们提出的各向异性卷积（AIC）模块。给定一个单视角的RGB-D图像，AIC-Net预测出密集的3D体素表示，并将每个体素映射到视锥体中的一个标签C = {c1, c2, ..., cN+1}，其中N是物体类别的数量，cN+1表示空体素，{c1, c2, ...,cN}表示不同类别物体所占据的体素。图1展示了我们AIC-Net的整体架构。它包括一个混合特征提取器，用于从深度图和RGB图像中提取特征，一个多阶段特征聚合模块，其中包含一系列的AIC模块来聚合混合特征提取器获得的特征，还有两个额外的AIC模块来融合多阶段信息，接着通过一系列体素卷积层重建3D语义场景。混合特征提取器包含两个并行分支，分别用于提取深度图和RGB图像的特征。每个分支都包含一个2D和3D卷积神经网络的混合结构。2D和3D卷积神经网络通过一个2D-3D投影层相连，使模型能够将2D特征映射为适用于3D语义场景补全的3D特征。我们的混合特征提取器的结构遵循DDRNet的结构。多阶段特征聚合模块由一系列AIC模块组成，每个模块都可以根据需要调整3D上下文。这些AIC模块的输出被串联在一起，另外两个AIC模块融合这样的多阶段信息。然后通过一系列体素卷积层在融合的特征上重建3D语义场景。在本节的其余部分，我们将详细介绍我们的AIC模块（第3.1节），通过堆叠AIC模块实现的多路径核选择机制（第3.2节）以及我们模型的训练损失（第3.3节）。AICAICAICAICAICAICAICAIC1 × 1 × 𝑘1𝑥1 × 𝑘2𝑦 × 11 × 𝑘1𝑦 × 1𝑘1𝑧 × 1 × 1𝑘2𝑧 × 1 × 11 × 1 × 𝑘3𝑥1 × 1 × 𝑘2𝑥1 × 𝑘3𝑦 × 1𝑘3𝑧 × 1 × 11 × 1 × 1𝐗𝑡−1 ∈ ℝ𝐿×𝑊×𝐻×𝐷×××××××××+𝐗𝑡 ∈ ℝ𝐿×𝑊×𝐻×𝐷+++identity×+relurelurelureluxyz33530卷积0卷积0卷积0深度图像0彩色图像02D-3D投影02D-3D投影0串联0图1.AIC-Net的整体网络结构。AIC-Net有两个并行的特征提取器，分别从RGB和深度图像中提取特征。特征提取器包含一个投影层，将2D特征映射到3D空间。之后，我们使用堆叠的AIC模块来获得具有自适应感受野的信息。多尺度特征被串联起来，然后通过另外两个AIC模块融合，接着通过三个体素卷积同时预测占据和物体标签。0视锥体中的一个标签C = {c1, c2, ...,cN+1}，其中N是物体类别的数量，cN+1表示空体素，{c1,c2, ...,cN}表示不同类别物体所占据的体素。图1展示了我们AIC-Net的整体架构。它包括一个混合特征提取器，用于从深度图和RGB图像中提取特征，一个多阶段特征聚合模块，其中包含一系列的AIC模块来聚合混合特征提取器获得的特征，还有两个额外的AIC模块来融合多阶段信息，接着通过一系列体素卷积层重建3D语义场景。混合特征提取器包含两个并行分支，分别用于提取深度图和RGB图像的特征。每个分支都包含一个2D和3D卷积神经网络的混合结构。2D和3D卷积神经网络通过一个2D-3D投影层相连，使模型能够将2D特征映射为适用于3D语义场景补全的3D特征。我们的混合特征提取器的结构遵循DDRNet的结构。多阶段特征聚合模块由一系列AIC模块组成，每个模块都可以根据需要调整3D上下文。这些AIC模块的输出被串联在一起，另外两个AIC模块融合这样的多阶段信息。然后通过一系列体素卷积层在融合的特征上重建3D语义场景。在本节的其余部分，我们将详细介绍我们的AIC模块（第3.1节），通过堆叠AIC模块实现的多路径核选择机制（第3.2节）以及我们模型的训练损失（第3.3节）。03.1. 各向异性卷积0考虑到SSC中物体形状、布局以及遮挡程度的变化，对于不同的体素位置，建模不同的上下文信息来推断占据和语义是有益的。各向异性卷积（AIC）模块被提出来适应这样的变化，允许卷积适应3D几何变形。图2展示了AIC模块的结构。0调制因子0逐位置乘积0逐元素相加0图2.各向异性卷积。对于每个维度，我们将3个并行卷积与不同的卷积核大小设置为示例。不同卷积核的学习调制因子用不同颜色表示。调制因子的值为正数，每行的值之和为1。0我们AIC模块的特点。我们不使用限制在固定3D感受野的3D卷积核（k1 × k2 ×k3），而是通过使每个3D维度的卷积核大小可学习来模拟维度异性特性。为了实现这一点，我们首先将3D卷积操作分解为沿每个维度x，y，z的三个1D卷积操作的组合。在每个维度上，我们可以注入多个（例如我们的实现中的3个）不同大小的卷积核，以实现更灵活的上下文建模。例如，在x维度上，我们可以有三个卷积核，分别为（1 × 1 ×kx1），（1 × 1 × kx2）和（1 × 1 ×kx3）。我们将学习一组选择权重，也称为调制因子，以选择每个维度上的适当卷积核。AIC, 𝐷′𝐗𝑡−1, 𝐷𝐗𝑡, 𝐷+identity1 × 1 × 1, 𝐷1 × 1 × 1, 𝐷′relurelureluXt = Fz(Fy(Fx(Xt−1))) + Xt−1,(1)Xxt =i=1f x(Xt−1, θxi ) ⊙ gx(Xt−1, φx)[i],(2)𝑘1𝑥 = 3𝑘2𝑥 = 5𝑘3𝑥 = 7𝑘1𝑥 = 3𝑘2𝑥 = 5𝑘3𝑥 = 7𝑘1𝑥 = 3𝑘2𝑥 = 5𝑘3𝑥 = 7𝑘1𝑥 = 3𝑘2𝑥 = 5𝑘3𝑥 = 7𝐗𝑡−1p∈{n,m,l}33540图3. 瓶颈版本的AIC模块。第一个卷积将通道数从D减少到D'（D'

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

各向异性卷积网络用于3D语义场景补全

基于卷积神经网络的知识图谱补全方法研究.pdf

语义场景补全 transformer

介绍下经典卷积神经网络的语义变化检测模型

matlab 卷积神经网络 语义分割

SCPNet: Semantic Scene Completion on Point Cloud用的算法是什么是基于transformer的吗？

卷积神经网络的应用场景

卷积神经网络的应用场景包括

深度卷积神经网络 语义分割

画一个卷积神经网络3D图

二维卷积网络和三维卷积网络

典型的卷积神经网络应用场景

3D卷积神经网络的应用

一维卷积神经网络与二维卷积神经网络

全卷积网络与卷积神经网络的区别

卷积神经网络和全卷积网络

稀疏卷积用于卷积神经网络

文本卷积神经网络与卷积神经网络比较 详细点

深层卷积神经网络与浅层卷积神经网络

全卷积语义分割算法原理

最新资源

matlab 卷积神经网络语义分割

深度卷积神经网络语义分割

文本卷积神经网络与卷积神经网络比较详细点