基于稀疏卷积神经网络的插值填充算法

119 浏览量更新于2023-10-13 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7467三维稀疏卷积神经网络的插值填充算法杨玉琦1，2王鹏帅2 刘洋21清华大学2微软亚洲研究yangyq18@mails.tsinghua.edu.cn{penwan，yangliu} @ microsoft.com摘要基于稀疏体素的3D卷积神经网络（CNN）被广泛用于各种3D视觉任务。基于稀疏体素的3D CNN从3D输入创建稀疏非空体素，并仅对它们执行3D卷积操作。我们提出了一个简单而有效的填充方案- 插值感知填充，以填充与非空体素相邻的几个空体素，并将它们涉及到3D CNN计算中，使得当经由三线性插值计算逐点特征时存在所有相邻体素。对于需要逐点特征（一）（b）第（1）款（c）第（1）款（d）其他事项是必不可少的，像语义分割和3D检测，我们的网络实现了更高的预测精度比现有的网络使用最近邻插值或归一化三线性插值与零填充或八叉树填充方案。通过对各种3D分割和检测任务的广泛比较，我们证明了3D稀疏CNN与我们的填充方案结合特征插值的优越性。1. 介绍用于3D深度学习的有效3D表示，如体素[2，30]，点集[19，12]和多边形网格[25，11]，近年来一直在积极研究。其中，基于体素的表示是来自2D像素的自然扩展，并且与基于规则网格的卷积操作兼容，并且适合于快速GPU处理。然而，由于密集3D网格上的存储器存储和CNN计算的高成本，基于密集体素的3D CNN限于粗分辨率输入，如32× 3网格，并且不能处理和生成高分辨率3D内容。为了克服这一限制，基于稀疏体素的CNN [26，21，9，3]被证明是一种计算和内存高效的解决方案，其中仅创建3D形状周围的体素用于存储特征通道。关于3D任务的预测准确性，基于备用体素的CNN在几个大规模基准测试中占主导地位，包括ScanNet分割[6]，KITTI分割[1]和ScanNet检测[18]。图1：用于2D点集（上）和3D点集（下）的各种填充方案。(a)：没有填充的稀疏像素/体素，即，零填充;（b）：具有1-环填料;（c）：具有四叉树填充或八叉树填充;（d）：利用我们的插值感知填充。红色圆圈表示从2D兔子形状采样的2D点，这里省略3D点，因为它们隐藏在体素内部。基于稀疏体素的CNN可以自然地用于提取每个离散体素的特征。然而，逐点特征对于细粒度任务（如3D分割和检测）是必不可少的。在基于稀疏体素的CNN中，通常的做法是将最近体素的特征分配给该点，即。，使用最近邻插值[26，9]。为了在同一体素内提取可区分的点特征，可以采用基于体素的三线性插值。三线性插值需要查询来自附近八个体素的特征，而一些附近的体素可能由于稀疏体素表示而不存在。具体地，基于八叉树的3D CNN [26，27]在非空八分区的8个兄弟八分区上执行CNN计算（参见图2）。最近的基于稀疏体素的CNN [9，3，22]使用哈希表来索引非空体素，并且仅在非空体素中执行CNN计算（参见图1-（c））1-（a））。为了进行插值，现有的作品要么将零特征分配给那些不存在的体素[3]，要么使用归一化的插值权重来折衷丢失的体素[28，23]。我们观察到当前的插值方案是7468O不是最优的，并且在一些实验中甚至产生比最近邻插值更我们的关键思想是让网络学习空体素的特征，并使用这些学习的特征来进行插值，而不是使用零特征。为此，一个简单的解决方案是在构建稀疏体素网格时填充所有原始非空体素的1-环邻居，表示为1-环填充（见图1-（b））。然后，这些增强的体素可以用作CNN的输入，并且插值所需的所有体素特征可以由CNN计算然而，这可能会招致巨大的计算和存储器成本。考虑到我们需要的是点特征，我们只能填充每个点的插值所需的那些体素（见图1）。1-（d））。我们将我们的填充方案称为插值感知填充。利用我们的填充方案，插值对于每个点都是定义良好的，与以前的插值方案相比，网络性能可以与1环填充相比，插值感知填充的存储器成本也少得多。我们改进的插值也方便了网络的设计。先前用于分割和检测的基于稀疏体素的CNN输出离散体素的特征[26，3]，输出体素的分辨率必须足够高以区分不同的点，否则性能可能会显着降低通过定义良好的插值，我们的网络输出粗分辨率体素特征来提取表达性的逐点特征，并进一步降低了计算和内存成本。除了插值的好处之外，我们还比较了图1中的四种不同的填充方案1.一、有趣的是，我们的实验表明，填充本身也提高了网络预测的准确性，即使没有三线性插值。我们的贡献包括通过插值感知填充方案改进稀疏体素CNN的插值，以及用于3D分割和检测的网络架构为了验证我们的方法的有效性和优越性，我们进行了一系列的实验和比较几个典型的三维语义分割和三维检测任务。与使用零填充和无插值的网络相比，我们的网络具有相同数量的可训练参数，分别将 PartNet[17] ， ScanNet [6] 和 KITTI [1] 上分割的平均交集（mIoU）提高了2.2，2.0和2.4，并将ScanNet [6]上的检测mAP提高了2.0。与1环填充相比，我们的插值感知填充方案更实用，内存消耗更少在补充材料中我们相信我们有效的插值和稀疏填充方案将成为稀疏3DCNN的强大插件，并有利于更广泛的应用。2. 相关工作基于网格的体素化是计算机图形学和计算机视觉中流行的3D离散化方法密集体素是2D像素的自然扩展，并且适合于从它们构建3D卷积对于3D闭合形状，早期的作品[16，31]将它们表示为密集体素上的指示函数或距离场，并应用3D CNN来识别3D对象。Brock等人[2]创建基于体素的3D变化自动编码器，用于合成3D形状。Choy等人[5]将递归神经网络引入基于体素的3D解码器，用于从多视图图像推断3D形状。基于体素的3D生成对抗网络（GAN）进一步增强了生成的形状质量[30]。然而，在3D中，密集体素占用（n3）存储空间，并导致昂贵的CNN计算。在实践中，基于密集体素的3D CNN仅在低分辨率网格上工作。3D数据的稀疏性可以用于提高3D CNN的效率。由于大多数体素具有重复的特征，Riegler等人。[21]使用混合网格八叉树来构建3D CNN，以支持高分辨率的3D学习。由于3D表面通常是2D流形或2D流形面片的集合，因此它在3D中仅占用有限的空间。通过将形状表面离散为仅体素，表面可以由一组稀疏体素表示。Wang等人[26]提出了基于八叉树的CNN（O-CNN），其中CNN计算仅发生在不同八叉树级别的子流形稀疏卷积网络[9]和MinkowskiNet [3]进一步限制了仅在非空体素上的存储和CNN计算，并且导致更少的存储器占用和计算成本。基于空间散列的CNN [22]通过避免散列冲突和减少内存开销来提高散列表我们的工作表明，在CNN中使用尽可能少的体素，而不是适当地填充空体素可以提高稀疏3D CNN的性能，而不会扩大网络权重参数的大小。稀疏卷积广泛用于3D信号的3D稀疏卷积[26，9，3]本质上是密集卷积的受限版本，其中在卷积计算期间将不存在的体素上的输入特征图设置为零。卷积运算可以通过GPU版本的稀疏矩阵乘法有效地实现。卷积结果可以通过非零特征的数量进一步归一化，以实现深度完成和图像修复任务的更好性能[24，14，13，10]。在我们的工作中，我们简单地使用未归一化的稀疏卷积。7469联系我们联系我们(a) 输入点云（b）体素化（c）插值感知填充（d）CNN特征（e）插值（f）MLP图2：我们的插值感知填充方案的概述（2D图示）。首先基于给定的空间分辨率对输入点云（a）进行体素化（b），并且在体素化之后，每个体素包含至少1个点。然后填充稀疏非空体素，使得用于内插每个点的所有相邻体素存在（c）。稀疏体素经由基于深度稀疏体素的CNN来处理注意，输出CNN特征（d）的空间分辨率可能比输入（b）更粗糙。对于（d）中由绿色框突出显示的橙色点，检索其相邻体素，并通过插值（e）计算点特征最后，逐点特征被用作用于分割和检测任务的共享MLP（f）的输入。对于需要逐点特征的任务，由基于稀疏体素的CNN产生的体素特征可以通过三线性插值分散到三线性插值稀疏体素没有彻底评估和两个不同的实现传播在文献和代码reposito-ries。由于并非所有相邻体素都存在，因此Choyet al. [3]建议如果相应的体素不存在，则直接使用零特征Wang等人[28]和Tanget al. [23]在它们的实现中使用归一化内插权重来满足单位性质的分割。通过我们的插值感知填充，我们可以直接使用原始插值公式。Mao等人[15]提出了一种新的基于三线性插值的基于点的卷积运算在这里，我们专注于基于稀疏体素的CNN的逐点特征提取，并省略与[15]的比较。3. 方法3.1. 插值感知稀疏填充这里用于基于稀疏体素的CNN的填充与传统的2D图像填充基本上不同我们在空体素周围填充额外的体素作为输入。最初，填充体素的输入特征被设置为零，然后所有体素特征由CNN操作动态产生。对于图像上的2D卷积，由于卷积核的固定形状，靠近图像边界的像素需要虚拟填充像素。并且填充像素的特征被直接设置为零（即，零填充）或图像边界上的反射像素处的特征映射（即，反射填充）。我们的目标是在非空体素周围填充额外的体素，以便在对每个点进行三线性插值时，所有八个最近的相邻体素都存在。3D规则网格[29]内的三线性插值可以写为：ΣIijk·volij k·fij k（一）给定一个输入点云，我们训练一个基于稀疏体素的CNN为下游任务提取逐点特征f（x，y，z）：=ΣIijk·体积、ijk比如3D分割和检测总体管线如图所示。二、首先将输入点云量化并舍入为具有用户指定的空间分辨率的稀疏体素。代替直接在这些非空体素上执行稀疏卷积[9，3，22]，我们为每个点填充插值所需的一组空体素，并将这些空体素的初始输入特征设置为零。在一组CNN操作之后，每个体素包含其提取的特征。对于查询3D点，检索其八个最近的相邻体素，并且对体素特征进行插值以产生其逐点特征。然后，逐点特征通过两个完全连接的层进行处理，并用于每个特定任务。在下面的部分中，我们首先介绍我们的新的插值感知稀疏填充和三线性插值，在第二节。3.1节中的网络设计3.2.其中i，j，k，0，1是八个网格角的索引，vol_ijk是由查询点和与具有索引ijk的角对角相对的角围绕的部分体积，fi_ijk是与角ijk相关联的特征向量，并且I_ijk，0，1指示是否存在对应的体素。接下来，我们来看看两个基础--行填充方案，并提出我们的插值感知填充方案，用于平衡网络性能和运行时内存成本。O-CNN [26]的工作使用八叉树显式构建稀疏体素八叉树填充是八叉树数据结构的结果，因为每个八叉树节点具有8个子节点。图图1-（c）示出了八叉树填充及其2D对应物。然而，用于每个输入点的内插的八个最近邻体素仍然是7470FCfdfbFafvpQfeO·联系我们⌊·⌋哦哦102040s ss80--#voxels #voxels106105104103秒106105104103秒11111111图3：插值感知填充的2D图示。两1020408010204080点p和q在浅灰色像素内因为双-在这两个点处的线性插值查询CNN特征fa、fb、fc、fd、fe、fv，深灰色像素被显式地添加到稀疏像素集合中。不保证存在。我们将此填充方案作为比较的基线之一。N-环填充填充用于插值的体素的最直接的方式是添加所有空体素，这些空体素的中心到非空体素之一的中心的曼哈顿距离不大于N，其中N是正整数。以这种方式，在Eq.1存在。图1-（b）示出了2D和3D中的1为了在非空体素V内部的3D点p=（x，y，z）上使用等式（1）内插CNN特征，（1），我们将插值中涉及的所有空体素填充到CNN计算中。我们假设输入的3D边界框被指定，并且具有最小x、y、z坐标的角由p〇=（x〇，y〇，z〇）表示。插值所涉及的所有八个体素的体素索引计算如下：Ix：= x−xo+ox，Iy：= y−yo+oy，Iz：= z−zo+oz，其中是地板函数，s是体素大小（即，体素边缘长度），以及〇 x，〇 y，〇 z〇。5，0。五、这些体素的中心位置是 p0+ s （ I x+0. 5 ， I y+0 。 5 ， Iz+0 。（五）。图图3示出了插值感知填充的2D图示，其中两个2D点出现在像素V内部。可以看出，填充像素/体素的数量取决于点位置，其在3D中可以从0到26变化由于插值感知填充的构造，填充体素的集合是1环填充的体素的子集。稀疏填充的复杂度统计我们将M表示为非空体素数，八叉树填充，1-环填充和我们的插值感知填充的最差情况内存和计算复杂度分别为（8M ），（27M）和（27M）最坏情况仅发生在输入点云的平均点间距大于2s时，即，所有非空体素彼此不相交。对于插值感知填充，最坏情况进一步要求每个非空体素的八个角区域包含点，并且填充出现在所有非空体素图4：不同不同体素大小下的填充方案。体素尺寸s选自1、1、1、1。输入Bunny模型的边界框大小为2。输入点的数量分别为10000（左）和100000方向前一种极端情况可能存在于将高分辨率稀疏体素用于来自LiDAR扫描的点云中，并且后一种情况下的插值感知填充不会发生在真实输入上。对于来自三维物体和室内场景的点集，常用的稀疏体素尺寸较大，可以实现较小的内存开销和计算效率。图4.在一个例子上应用不同的填充方案后，我们计算了总的体素数，该例子的输入点是从3D Bunny模型中均匀采样的通过插值感知填充的填充体素的数量与通过八叉树填充的填充体素的数量非常相似，其大约为六、当体素高度稀疏时（10000个点，s=1/80），它是非空体素的数量的8倍;而它只是1。当稀疏度为中等时为43.2. 网络设计我们使用具有五个级别的域分辨率的U-Net结构，如图1的左图所示5，其由多个基于稀疏卷积的残差块和跳过连接组成。点特征是从输出体素特征在最精细的水平上内插的。两个附加的FC层被附加在内插特征之后。该网络还可以从粗分辨率体素特征插值逐点特征在图1的右侧面板五、在U-Net的解码器中，在两个最高分辨率上操作的ResNet块被丢弃，这可以进一步降低计算和存储器成本，同时保持类似的性能。与最近邻插值的U-Net网络相比，输出的体素特征必须具有最高的分辨率，否则同一体素中的多个点将无法区分，从而影响网络的性能。所提出的插值感知填充可以被添加到稀疏体素网格的所有分辨率级别，根据我们的实验，这达到了最佳的性能然而，根据前一部分中的复杂度分析所以我们把填充物加到水平线上-零填充单环填充八叉树填充内插感知填充零填充单环填充八叉树填充内插感知填充7471稀疏Conv/Deconv ResBlock×��跳过连接N：重复层的数量D：输出通道的数量图5：基于稀疏体素的U-Net结构。在左侧面板上，输出体素的分辨率与输入相同;在右侧面板上，输出体素的分辨率较粗糙。仅响应于输出体素分辨率以减少计算和存储器成本。4. 实验分析在本节中，我们选择PartNet数据集上的细粒度零件分割任务来评估我们的插值和填充方案以及网络结构，并重点关注我们的贡献。默认情况下，所有实验均为（一）O CTREE耳643四十0±0。25682560环N耳 643四十9±0。0929小行星3790耳643四十6±0。1623 2707INTERP直链643四十二3±0。36512758在配备Intel Core I7- 6850 K CPU（3. 6GHz）和GeForceGTX 2080Ti GPU（11GB存储器）。该实现建立在[23]提供的稀疏体素CNN上。数据集我们选取PartNet的四个类别（椅子、灯具、储物家具、桌子）作为基准，每个类别至少有1000个形状，包含三个层次的语义标签，我们按照原始数据分割进行训练和测试。将输入数据（10000个点）归一化以适合单元框内，并且将网络中最精细的网格分辨率设置为643。网络在点处输出最实验设置我们训练图中的U-Net。5的输出分辨率643来评估不同的内插和填充方案。我们将与填充方案之一集成的U-Net命名为：零填充、1-环填充、八叉树填充、以及分别通过ZERO、RING、OCTREE和INTERP的插值感知填充。我们将最近邻和三线性插值分别表示为NEAR和LINEAR。我们使用上述每个形状类别的设置之一来训练U-Net，并使用部分均值IOU度量[17]评估测试数据的分割为了公平比较，每个网络被训练三次，并且所有网络每次都用相同的参数集初始化。我们使用SGD优化器，学习率为0.1，在最大历元的1/2和3/4处衰减0.1。批量大小设置为24。我们在表中报告平均度量和平均偏差1.一、补充材料中报告了各个类别的IoU指标（3）Z ERONEAR32338. 1± 0。2 248902 I NTERP40.第40章大结局1± 0。13661646表1：不同设置下四个PartNet类别的细粒度分割的质量统计。垫. 是稀疏填充类型，Int.是稀疏插值类型，mIoU是平均部分IoU，Time是批处理（16个对象）上单个向前和向后传播的平均时间（以毫秒为单位），以及Mem. 是一个批处理占用的平均GPU内存（MB）。将实验分组用于分析。通过比较表1中的组（1）和（2）之间的结果，通过内插提高性能。1，我们可以看到，具有不同填充方案的三线性插值（LINEAR）的性能一致地优于最近邻插值（NINEAR），这是可以理解的，因为通过三线性插值可以区分一个体素内的不同点。通过比较组（2）中的填充方案，我们可以看到具有1环填充（RING）的U-Net实现了最佳性能，但是，它在运行时消耗最大的GPU内存并且需要更长的执行时间。八叉树填充并不比零填充更好具有插值感知填充（INTERP）和三线性插值（LINEAR）的U-Net实现了准确性增益和内存成本的良好平衡插值感知填充和1环填充实现了明确定义的三线性插值，并且填充的体素在训练后包含有意义的特征，而零特征用于八叉树填充和零填充的空体素。为了验证填充体素上的学习特征不同于零或某个常数，我们使用插值感知填充来可视化U-Net的输出特征我们提取输出组垫.Interp.出去了Miou时间记忆ZERO耳643四十5 ±3821471ZERO直链六四三四十一5± 0。03981622（2） OCTREE直链六四三四十一4± 0. 059126107472×OO·图6：非空体素（顶行）和填充体素（底行）上的学习特征的可视化。图7：在高分辨率（左）和粗分辨率（右）下的兔子形状的非空像素。当分辨率高时，稀疏体素是不相交的。这些特征在所有体素上被提取并经由降维（T-SNE）将它们映射到RGB图6-上行示出了非空体素上的颜色图，而图6-上行示出了非空体素上的颜色图。6-下排示出了填充体素上的颜色图。填充体素的特征在单个对象中既不相同，也不跨不同形状相同。稀疏填充的贡献通过比较Tab. 1，我们可以看到填充本身也可以帮助提高性能，即使没有三线性插值。我们怀疑原因是填充在非空体素周围有助于信息传播，特别是对于非常稀疏的输入。图7-左图示了在高分辨率下的形状的2D稀疏非空像素。对于位置彼此接近的不相交的非空像素（参见间隙区域周围的像素），与它们相关联的特征图不能经由任何3 × 3卷积彼此传播。有效的信息传播要么需要一个大的内核大小的卷积或发生在粗糙版本的稀疏像素，其中非空像素有更多的邻居，如图所示。7-对。虽然插值感知填充的最差复杂度是（27M），但是在像具有分辨率64 × 3的PartNet实验的真实场景中，平均复杂度是（1M）。95M），远低于最差情况。改进的网络设计我们做了实验来验证输出粗分辨率特征的网络，如图中右图所示。五、输出分辨率为323的结果报告在第（3）组中GTZERO+线性环+线性OCTREE+线性INTERP+线性图8：不同填充和插值方案下分割结果的可视化比较。不同的颜色表示不同的零件标签。在选项卡中。1：与具有零填充和最近邻插值的先前方法[26，9，3]相比，我们的性能要好得多。与组（2）中输出分辨率为643的网络相比，存储量和计算量减少了40%。但是，我们注意到总体mIoU比第（2）组差，这主要是由于存储导致的，IoU下降了4.6（更多细节可以在补充材料中找到）。节中5，我们还测试了在ScanNet分割中输出粗分辨率特征的U-Net（参见第5节）。5.1）和KITTI分割（参见第5.3），我们发现在这些实验中，mIoU与输出精细分辨率特征的U-Net相当或甚至更好结果可视化我们在不同的填充和插值方案下将测试数据集中椅子的分割结果可视化在图中。8. 通过比较结果，我们可以看到，与最接近的插值（第一行）的结果相比，三线性插值（第二行）的结果更平滑，更忠实于地面实况RING和 INTERP的结果总是优于ZERO和OCTREE。零填充具有最差的分割结果。与最先进的In Tab比较。2，我们报告了与其他最先进方法的比较，包括PointNet++ [20]，PointCNN [12]和O-CNN [28]。可以看出，我们的结果比其他人在所有四个形状类别。这主要是由边界和细粒度区域处的更精细分割结果引起的，如我们可以从图1中看到的8. 我们的填充方案提高了插值点特征的表示能力，并有助于区分分割区域边界。在这里，我们应该提到，所采用的O-CNN [28]可以被认为是基于稀疏体素的CNN，其在所有体素分辨率中具有三线性插值和八叉树填充Z ERO +N EAR环+左耳O CTREE+右耳I NTERP + N7473方法Miou椅子灯斯道拉表[20]第二十话34.739.225.340.533.9网络垫.Interp.出去了Miou记忆美国[3]ZEROINTERP耳直链2厘米2七十二2 ±0。3七十二8±0。235146829表2：与PartNet上最先进方法的比较。为了公平比较，我们还在所有体素分辨率中使用插值感知填充。注意，与如Tab的组（2）中所示的具有单个分辨率填充的网络相比，oc树填充和我们的插值感知填充的mIoU分别从41.4增加到41.7和42.3增加到42.7。1.一、5. 比较我们进一步评估和比较我们的方法在其他3D分割和检测任务与国家的最先进的方法的性能在这里，我们使用插值感知填充进行比较，并且没有测试1环填充，因为即使在具有32 GB内存的V100 GPU上，ScanNet和KITTI数据集上具有1环填充的网络也会耗尽内存。5.1. ScanNet上的语义分割ScanNet数据集[6]包含1.5k个室内场景。我们按照[3]进行相同的数据分割和增强，并将整个场景馈送到网络而不进行裁剪。网络结构我们使用与MinkNet [3]相同的具有五个域分辨率级别的U-Net。网络结构与图1相同。5，但是具有更多的残留块（重复的resblock的数量是[2，3，4，6，2，2，2，2]）。唯一的区别是MinkNet使用零填充和最近插值，而我们的网络使用插值感知填充和三线性插值。实验设置与MinkNet [3]的设置类似，编码器中最精细级别的体素大小设置为2 cm，批次大小为9。每个体素处的输入信号是3通道RGB颜色，其中1个附加通道指示体素是否通过填充创建（0表示填充体素，1表示原始非空体素）。在解码器中用于点特征插值的体素大小由S_out表示，并且我们实验了从2cm到8cm的不同S_out以评估特征插值的效果。对于我们的具有特征插值的网络，我们只在S层填充体素。训练方案与[4]中使用的相同：优化器是SGD和MinkNet[3]ZERONEAR8 cm七十4± 0. 12184OursINTERP直链8厘米七十二4±0. 22986表3：ScanNet val集合上的语义分割的质量统计。mIoU是所有类别的平均IOU。利用多项式学习速率策略从0.1开始调整学习速率。我们训练所有模型600个epoch。所有结果均在ScanNet的确认集上进行评价，并在表中显示。3 .第三章。结果分析表3中的比较进一步证实了第2节中的观察结果4：我们的特征插值网络比MinkNet [3]实现了更高的准确性。我们还发现，我们的网络在较粗的分辨率（8厘米）下具有特征插值，与具有高分辨率（2厘米）输出的MinkNet相当：72.4 vs.72.2，而运行时内存消耗较小：290万与3.5M.5.2. ScanNet上的3D物体检测数据集ScanNet数据集包含室内场景的实例分割标签使用这些标签，可以计算每个对象实例的边界框。我们遵循 VoteNet [18] 工作中的数据准备，并使用mAP@0.25和mAP@0.5作为评估指标。网络结构我们选择原始的VoteNet作为基线，它使用PointNet++ [20]作为主干来提取种子点特征。我们还将PointNet++替换为第2节中提到的5级U-Net。5.1并保持所有其他结构不变。种子特征是从U-Net中解码器的第三级提取的，以模仿从PointNet++的SA 2层提取的特征实验设置对于U-Net，我们将编码器中最精细级别的体素大小设置为2cm，解码器Sout的第三级的体素大小为8cm。所有网络的批处理大小都设置为8。点颜色和高度是输入信号，我们在验证集上评估检测结果这个任务中使用的优化器是Adam，初始学习率为0.001。我们训练每个模型200个epoch。学习率在80、120、160个时期衰减0.3结果分析使用更强的主干-稀疏U- Net，ScanNet上目标检测的mAP@0.5提高了3.2。使用插值点功能和插值感知稀疏填充，[12]第十二话33.743.920.149.421.3O-CNN [28]41.746.828.553.837.7我们42.747.629.454.838.97474网络垫。IntmAP@0.25mAP@0.5[18]第五十七章. 8± 0。六点三十四7± 0。4[3]第58话. 7± 0。5379± 0。6我们的INTERP直链六十岁。7±0。841岁4± 0. 6表4：ScanNet验证集上的实例检测的质量统计VoteNet [18]基于PointNet++，我们将其替换为MinkNet [3]并在第二行报告结果。最后一行显示了将我们的插值感知填充和插值方案与MinkNet相结合的结果。(mAP@0.5）从基线增加了6.7。我们的网络与插值感知稀疏填充和三线性插值也优于零填充和最近邻插值，与以前的分割实验一致。注意，稀疏填充可以在任何基于NetworkPad IntSoutmIOUMinkNet [3]Z ERO耳5 厘米61 岁 9±0 。3MinkNet [3]Z ERO直链5厘米61岁4±0. 1我们的I NTERP直链5厘米63岁5±0。3MinkNet[3]Z ERON20 cm61岁5± 0。3我们的I NTERP直链20厘米63岁9± 0。4[23]第二十三话：我的世界9± 0。7我们的I NTERP63.第63章2± 0。3[23]第二十三话20厘米62. 8± 0。2我们的I NTERP直链20厘米63岁7± 0。1表5：KITTI数据集上的语义分割的质量统计。在水平线之间的每个面板中，我们的意思是使用与上面的线相同的网络，同时采用我们的插值感知填充INTERP和三线性插值LINEAR。如Tab中所示五、也很有趣基于稀疏体素的3D卷积，我们相信它可以受益其他更强的基线，如3D-MPA [7]。发现我们与S的而不是设置出来= 20 cm性能更好5.3. KITTI数据集数据集Semantic KITTI [1]包含基于22个序列[8]用语义标签注释的大规模户外场景。每个序列包含由LiDAR传感器获取的数千个点云，即使在单次扫描中，其中的点密度也是相当不均匀的。我们遵循标准的训练-验证分割，并在验证集上报告结果。网络结构我们将插值感知填充和三线性插值插入到两个网络中：图1中的U-Net结构。5，与MinkNet [ 3 ]使用的相同，以及SPVCNN [23]，它由基于低分辨率稀疏体素的U-Net和基于高分辨率点的分支组成。我们的填充和插值方案与SPVCNN的基于体素的U-Net部分相结合实验设置我们使用与[23]相同的设置：编码器中最精细级别的体素大小设置为5cm，批次大小设置为2。输入信号包含3通道点坐标和1通道LiDAR信号。类似于SEC的实验。5.1中，我们使用来自5厘米和20厘米。训练方案与[3]中使用的方案相同：优化器是SGD，学习率从0.24开始，并由带预热的余弦调度器进行调整我们对所有模型进行了15个epoch的训练。结果分析通过使用我们的插值感知填充和三线性插值作为MinkNet [5]和SPVCNN [23]的插件，我们可以看到性能提高S out=5 cm。我们推测，在较粗体素上的插值可能适合于处理极不均匀的分布点。我们还观察到，在零填充设置下，具有三线性插值的MinkNet并不优于具有最近邻插值的MinkNet，如Tab的前两行所示。五、这种现象表明，一个适当的填充方案，如我们的插值感知填充是至关重要的三线性插值。6. 结论在这项工作中，我们提出了一种插值感知填充，可以为基于稀疏体素的CNN实现定义良好的插值。我们的填充方案和改进的网络的功效很好地证明了3D分割和3D检测任务。在未来，我们希望在以下方向探索稀疏填充和相关的插值操作。N维稀疏数据目前，我们的研究主要是在3D中进行的，而所有的稀疏填充方案都可推广到任何维度。然而，增加的运行时内存在高维度中将是严重的副作用。由于来自填充体素的增加的特征图是主要的存储器瓶颈，因此采用像RBF（径向基函数插值）的非规则插值方案来避免填充空体素同时享受特征插值带来的灵活性将是有趣的。RBF神经网络的参数可能是在训练过程中学习的。7475引用[1] J. Behley，M. Garbade，A. Milioto，J. Quenzel，S.本克C. Stachniss和J.胆语义：用于LiDAR序列语义场景理解的数据集。在ICCV，2019年。一、二、八[2] Andrew Brock，Theodore Lim，J.M.里奇和尼克·韦斯顿用卷积神经网络进行生成和判别体素建模在2016年的3D深度学习研讨会（NIPS）一、二[3] Christopher Choy，JunYoung Gwak，Silvio Savarese.4D时空ConvNets：Minkowski卷积神经网络。在CVPR，2019年。一二三六七八[4] Christopher Choy ， Junha Lee ， Rene Ranftl ， JaesikPark，and Vladlen Koltun.用于几何模式识别的高维卷积网络。在CVPR，2020年。7[5] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3D-R2 N2：用于单视图和多视图3D对象重建的统一方法。在ECCV，2016年。二、八[6] 戴安琪，天使 X.Chang ， Manolis Savva ， MaciejHalber，ThomasFunkhouser，andMatthiasNießner.ScanNet：室内场景的丰富注释的3D重建。在CVPR，2017年。一、二、七[7] Francis Engelmann ， Martin Bokeloh ， Alireza Fathi ，Bastian Leibe，and Matthias Nießner. 3D-MPA：用于3D语义实例分割的多建议聚集。在CVPR，2020年。8[8] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？KITTI Vision Benchmark Suite。在CVPR，第3354-3361页，2012中。8[9] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。使用子流形稀疏卷积网络进行3D语义分割。在CVPR，2018年。一、二、三、六[10] Zixuan Huang，Junming Fan，Shenggan Cheng，ShuaiYi，Xiaogang Wang，and Hongsheng Li. HMS-Net：用于稀疏深度补全的分层多尺度稀疏不变网络。IEEE传输图像处理。，29，2020。2[11] Hiroharu Kato 、 Yoshitaka Ushiku 和 Tatsuya Harada 。Neu- ral 3D网格渲染器。在CVPR，2018年。1[12] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi，and Baoquan Chen.PointCNN：X变换点上的卷积。NeurIPS，2018。一、六、七[13] Liu Guilin ， Fitsum A. 凯文 · 瑞达 Shih ， Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.使用部分卷积的不规则孔图像修复。在ECCV，2018。2[14] 刘桂林，Kevin J.放大图片作者：Shih，Wang Ting-Chun ， Fitsum A.Reda ， Karan Sapra ， Zhiding Yu ，Andrew Tao，and Bryan Catanzaro.基于部分卷积的填充技术报告，NVIDIA公司，2018年。2[15] Jiugeng Mao，Xiaogang Wang，and Hongsheng Li.用于3D点云理解的插值卷积网络。在ICCV，2019年。3[16] D. Maturana和S.谢勒VoxNet：用于实时对象识别的3D卷积神经网络。在2015年的智能机器人和系统国际会议（IROS）上。2[17] 莫开春，朱士林，天使X。放大图片作者：Chang，LiYi ， Subarna Tripathi ， Leonidas J. Guibas 和 Hao Su 。PartNet：用于细粒度和分层部件级3D对象理解的大规模基准。在CVPR，2019年。二、五[18] Charles R Qi，Or Litany，Kaiming He，and Leonidas JGuibas.深度Hough投票用于点云中的3D对象检测在ICCV，2019年。一、七、八[19] Charles R.Qi ， Hao Su ， Kaichun Mo ， and LeonidasJ.Guibas PointNet：用于3D分类和分割的点集深度学习。在CVPR，2017年。1[20] Charles R Qi，Li Yi，Hao Su，and Leonidas J Guibas.点-Net++：度量空间中点集上的深度层次特征学习。NeurIPS，2017。六、七[21] Gernot Riegler 、 Ali Osman Ulusoy 和 Andreas Geiger 。Oct- Net：以高分辨率学习深度3D表示在CVPR，2017年。一、二[22] 邵天佳、尹阳、翁燕麟、齐明侯、周坤。H-CNN：基于空间散列的CNN，用于3D形状分析。IEEE Trans.目视Comput. 图形，26（7），2020。一、二、三[23] Haotian Tang，Zhijian Liu，Shengyu Zhao，Yujun Lin，Ji Lin，Hanrui Wang，and Song Han.利用稀疏点-体素卷积搜索高效的3D架构。在ECCV，2020年。一二三五八[24] Jonas Uhrig，Nick Schneider，Lukas Schneider，ThomasBrox，and Andreas Geiger.稀疏不变CNN。在proc Int.Conf. on 3D Vision（3DV），2017. 2[25] Nanyang Wang ， Yinda Zhang ， Zhuwen Li ， YanweiFu，Wei Liu，and Yu-Gang Jiang. Pixel2Mesh：从单个RGB图像生成3D网格模型。在CVPR，2018年。1[26] Peng-Shuai

下载后可阅读完整内容，剩余1页未读，立即下载