点云插值卷积及其在三维点云理解中的应用

23 浏览量更新于2023-10-13 收藏 2.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1578用于三维点云理解的毛小刚王洪生李嘉庚香港中文大学-商汤科技联合实验室{maojiageng@link，xgwang@ee，hsli@ee}. cuhk.edu.hk摘要点云是一种重要的三维表示形式。然而，由于稀疏、不规则和无序的数据结构，直接在点云上应用卷积是具有挑战性的。在本文中，我们提出了一种新的插值卷积运算，InterpConv，来解决点云特征学习和理解问题。其核心思想是利用一组离散的核权值和插值点特征，通过插值函数对相邻的核权值坐标进行卷积。引入了一个归一化项来处理不同稀疏度的邻域。我们的InterpConv被证明是置换和稀疏不变，并可以直接处理不规则的输入。我们进一步设计了基于Inter-pConv层的插值卷积神经网络（InterpCNN）来处理点云识别任务，包括形状分类、对象部分分割和室内场景语义解析。实验表明，该网络可以有效地捕获细粒度的局部所提出的方法在包括ModelNet40、ShapeNetParts和S3DIS在内的公共基准测试中实现了最先进的性能。(a)具有光栅化的3D卷积(c) 具有三线性插值的插值转换(b)图神经网络(d) 带高斯插值的插值卷积1. 介绍点云是由3D传感器获得的重要数据格式，并已在许多现实任务中广泛使用，包括自动驾驶[7]，机器人[32]等。鉴于点云通常是不规则的，无序的和稀疏的，从点云数据中进行有效学习仍然是研究界面临的鉴于卷积神经网络（CNN）在2D图像上的巨大成功，已经做出了许多努力来使卷积操作适应3D点云。目前主要有两种方法来解决这个问题。第一种类型的尝试[24]是直接将不规则的点云光栅化为规则的体素网格，并采用标准的3D卷积来学习形状特征。然而，不规则输入的变换导致几何信息的丢失，并且密集体素网格上的卷积导致沉重的计算负担。其他AP-图1.点上不同类型卷积的图示云红色点表示点云，绿色点表示空间离散的内核权重。（b）中的绿线表示连续卷积核。我们的InterpConv直接将不规则点云作为输入，并通过插值函数将点特征插值到相邻的核权重。方法[43，45，28，49，34，20，46，39]在欧几里德或特征空间中的每个点的邻域中构建局部图，然后在图的每个边缘上应用连续卷积核以学习几何特征。连续核通常由多层感知器（MLP）建模。这些基于图的方法能够直接处理不规则的数据结构，但也存在一些不足。局部图的构造不是稀疏不变的。也就是说，从同一物体表面采样的不同点云密度导致不同的邻域选择，从而可以产生不同的图形构建结果。此外，与离散卷积相比，uti-1579将MLP 化以学习任意连续函数在实践中效果不佳[49]。在本文中，我们提出了一种新的插值卷积运算（InterpConv），以解决图和3D卷积神经网络中存在的问题。我们的方法的关键是使用离散卷积核和插值函数来显式测量输入点云和核权重坐标之间的几何关系。与必须将输入转换为规则网格的3D卷积不同，我们的InterpConv直接采用不规则点云作为输入。每个n×n×c卷积核被分解成n2个核权值，每个核权值有一个1×c的权向量和相对于核中心的坐标p′离散卷积的中心可以在3D空间中的任何位置处放置常规内核，然后可以为每个内核确定内核权重绝对坐标。通过插值函数将输入点插值到相邻的内核权重坐标。为了保证InterpConv是稀疏不变的，在每个核权重向量的邻域中采用点归一化。最后，可以在核权重向量和与它们相关联的点云特征之间计算加权卷积。利用空间离散卷积核权重和显式定义的插值函数，我们的方法比基于图的方法表现得更好，基于图的方法使用连续函数作为卷积核并隐式学习几何关系。图示见图1我们进一步提出了基于InterpConvs的插值卷积神经网络（InterpCNN）。该分类网络由多层多接收域InterpConv块组成，能够同时捕获细粒度的几何结构和上下文信息。分割网络探索了更深层次的架构，以预测所有输入点的语义标签。我们在几个基准数据集上评估了我们的网络，包括ModelNet40 [5]，ShapeNetParts [50]和S3DIS [1]。实验表明，我们的方法在这些数据集上实现了最先进的性能。我们工作的主要贡献如下：• 我们提出了一种新的插值卷积操作（InterpConv），以有效地处理点云识别问题。这样的操作是permuta-具有稀疏性和不变性，可直接处理不规则点云;• 我们设计了基于InterpConvs的网络执行在点云识别和分割问题上优于图神经网络（GNNs）和3D卷积神经网络（3D ConvNets）。2. 相关工作我们的方法与点云上的其他深度学习方法密切相关。我们介绍了文献点通过规则网格和不规则输入进行云特征学习。通过规则网格从点云中学习。当面对不规则的点云作为输入时，一种直观的方法是将这种不规则的数据结构转换为规则的网格。一些方法[15，37，40]将3D对象或点云转换为2D规则网格，即通过多视图投影的图像由于2D CNN在图像上的巨大成功，这些方法工作得很好。然而，并不是所有的几何信息都保持在投影过程中，这些方法通常是低效和耗时的处理稀疏点云数据。另一种方法是将点云栅格化为3D规则网格。VoxNet[24]将原始点云数据转换为占用网格，其存储二进制值以指示空间是否被占用。然后应用3D CNN从这些体素网格中学习。光栅化过程丢失了一些细粒度的几何特征，并且3D卷积既耗时又耗内存OctNet [30]利用体素网格的稀疏性，并使用非平衡八叉树分层划分空间，这节省了大量内存。一些其他的努力[21，42，29]也已经被用于减轻计算负担，但是仍然不能解决在光栅化期间几何信息的损失。与上述方法相比，该方法直接将不规则点云作为输入，无需光栅化，节省时间，精度高。通过不规则输入从点云中学习。目前有许多工作试图直接处理不规则点云数据.开创性的工作PointNet [25]利用共享的MLP和一个最大池化层，这是每突变不变的，来处理无序输入和学习全球代表性。PointNet++[27]通过对点云进行分组和采样来利用局部结构，然后在每个组中应用PointNet来聚合局部特征。然而，如何有效地划分和选择点云仍然是一个挑战。许多方法[16，14，12，19]探索新的分组和采样策略。在[23，8]中，新模块被添加到原始PointNet++中，以获得更好的性能。图神经网络（GNNs）[33]已被广泛用于处理不规则的数据结构。也有一堆工作试图应用GNN来解决点云处理问题。这些方法[43，45，28，22，49，34，20]通常在欧几里得或特征空间的邻域中构建局部图，利用MLP作为连续卷积核函数，并通过从邻域到中心的加权求和或池化来聚合局部DGCNN [45]提出了一种EdgeConv操作，它连接中心和相邻点特征，并通过MLP和maxpooling学习新特征。3DGNN [28]将门控图神经网络[22]应用于语义分割任务。SpiderCNN [49]将连续核函数定义为阶跃函数和泰勒多项式的乘积，1580p′米亚尔KCNet [34]提出了一个内核相关和图池层来利用局部结构。PointCNN [20]在局部图上应用X基于GNN的方法仍然存在一些问题。首先，基于K-最近邻（KNN）的图形构建过程对点云密度敏感。其次，使用MLP直接从点坐标学习是低效的，因为它忽略了一些显式定义的几何关系。与这些方法不同的是，由于引入了归一化项，该方法对点云密度不敏感，并且离散核权值与点云之间的几何关系由插值函数明确定义.3. 方法在本节中，我们首先回顾不同类型的点集上的卷积。然后，我们介绍我们提出的插值卷积运算（InterpConv）和InterpConv算法的关键最后，我们详细介绍了我们的网络架构的三维物体识别和语义分割。3.1. 点集标准的2D和3D卷积在处理规则排列的数据（如图像和体素网格）方面取得了巨大的成功。当涉及到稀疏和不规则的点集（如3D点云）时，已经提出了卷积的多种变体。在本节中，我们将回顾这些卷积，以激励InterpConv操作的设计。考虑标准的3D卷积，让3D体素网格或特征由F：Z3→Rc表示，卷积核权重W是一系列1×c权重向量，其中c是通道数。标准配置在位置p处的解可以用公式表示为值得注意的是，应用图神经网络[45，49，34]来处理点云本质上与连续卷积具有相同的思想。用连续函数W（pδ）代替离散核权W（p′）仍存在一些问题。简单地通过MLP学习连续函数并不总是有效的在实践中[49]。预测的参数可能太多，并且学习过程是低效的并且有时是不稳定的。关于图像中离散核的巨大成功的知识也不能转移到点云3.2. 三维点云的插值卷积在我们的方法中，我们采用离散卷积权重的设计，同时保持连续距离的特性，通过将W（pδ）解耦为两个部分：空间离散核权值W（p′）∈Rc和插值函数T（pδ，p′）.我们注意到，空间离散的核权重W（p’）是1Xc向量，其可以在训练期间被初始化和更新，并且p’是该核权重向量到核中心的相对坐标。插值函数T（pδ，p′）：R3×R3→R将核权重向量p′和相邻输入点pδ的坐标作为输入，并通过cer计算权重。时间插值算法我们的方法需要在一个核权重向量的邻域中的每个输入点到account。为了使卷积稀疏不变，密度归一化项Np′，其对插值权重或邻域对于每个核权重向量W（p′），需要p′的。最后，以位置p为中心的InterpCon v可以用公式表示为：Σ1 ΣF*W（p）=T（pδ ， p′ ）F（p+pδ ） ·W（p′）。（三）N′ppδF*W（p）=Σp′∈NF（p∈+p′）·W（p′），（1）我们注意到，与标准卷积不同，其中内核权重是规则排列的，InterpConvs中的内核权重坐标p'可以灵活设置，甚至可以在训练过程中学习其中n ={p′∈Z3：（−n，−n，−n），···，（n，n，n）}是相对于内核中心的内核权重向量的坐标的集合假设内核大小为2n+ 1，·表示两个向量之间的点生成当涉及到不规则输入时，点不再是规则排列，点之间的距离变得不规则。一些方法[43，46]采用连续权重函数W（pδ），其将相邻点pδ+pδ到中心点pδ 的相对坐标pδ作为输入，以预测卷积权重。连续函数W（pδ）不再是1×c权向量，而是一个映射R3→Rc通常由MLP实现。然后是骗局连续卷积可以表示为 ΣF<$W（p<$）=F（p<$+pδ）·W（pδ）。（二）pδ我们提出的InterpConv操作有三个关键部分：空间离散核权重W、插值函数T和归一化项N。我们首先分别讨论这三个部分，然后介绍完整的算法。离散核权重。在2D卷积[17]中，一个核可以表示为n×n×c张量，其中n表示核大小，c表示通道数。在[6，9]中，一个核被分成n×n个权重向量，每个权重向量的大小为1×c。通过这样做，核权重不再必须被规则地布置，而是可以被灵活地放置在2D网格上。在我们的方法中，我们通过为3D欧几里得空间中的每个卷积核定义一组核权重向量来进一步改进这个想法每个核权重向量W（p′）具有3D坐标p′以存储其相对于1581核中心及其权重存储在1×c向量中，该向量将在训练期间被初始化和更新。矢量坐标p′可以在训练期间固定或更新。为了简化问题，我们修复了内核权重协在大多数实验中，将核权向量排列在3×3×3的三维规则网格上，如果核权向量的总数为二十七岁我们注意到，这是标准3×3×3离散卷积的类比，而核权重向量理论上可以放置在3D空间中的任意位置。当我们将核权重向量排列为立方体时，我们定义了两个重要的超参数：核的大小为n×n×n，核的长度为l。空间离散核权重向量的坐标集可以公式化为：，的。′ ′’。′′′然后我们将输入点和内核权重归一化为单位长度的立方体。最后，我们通过以下公式T tr （p δ ，p′ ）= （1−|x δ−x′|）（1−|y δ−y′|）（1−|z δ−z′|），（5）其中，输入点pδ=（xδ，yδ，zδ）是相对于内核中心的坐标点，并且内核权重坐标p′=（x′，y′，z′）。我们进一步指出，Eq.（5）是归一化点的简化格式。三线性插值的一个性质是自归一化，即输入点赋予的所有8个权重之和可以为1。在高斯插值中，我们将每个输入点pδ分配给p’处的每个核权重向量，其中权重因子由以下高斯函数计算：Φ =（x，y，z）。x，y，z=kl，（x-x′）2+（y-y′）2+（z-z′）2、k∈ − n−1 、···、n−1，，、（四）TG（pδ，p′）=e−δ2σ2δ、（6）其中超参数σ控制衰减速率。救其中p′=（x′，y′，z′）。与标准卷积中核大小的定义类似，核大小n×n×n∈Z3意味着每条边上有n个核权向量的一个内核，和内核权重向量的总数是N3。核长度l∈R是两个相邻权向量之间的距离。它确定了欧氏空间中内核的实际3D大小，并被定义为控制感受野，一个卷积内核可以从该感受野中获得最大的3D尺寸。“see”如果l很小，则卷积核能够捕获细粒度的局部结构，否则它编码更多的全局形状信息。插值函数。在不规则点云上应用离散核的一个问题是核权重向量的空间位置通常不与输入点对齐。简单地将点云栅格化为规则网格[24，11]解决了部分问题，但以丢失局部结构为代价。在我们的方法中，我们解决了这个问题，同时保持所有的细粒度结构，通过采用插值函数。也就是说，我们首先在每个核权向量附近找到一组输入点，然后插值在计算中，如果3D点距离权重向量3σ，则将其对向量的分配系数直接设置为0并且将不计算。值得注意的是，也可以采用其他函数，例如线性基函数作为插值函数。标准化术语。考虑到我们将核权重向量的所有相邻点都纳入计算的事实，归一化对于保持卷积不变性于点密度是必要的有两种正常化的方法。我们可以通过以下方式Σ Ntff聚集体=i=1i i，（7）N其中N是相邻点的数量，fi是第i个点特征，ti表示其插值权重。除了根据点的数量进行归一化外，我们还可以对插值权重的总和进行归一化：ΣNf=i=1tifi.（八）它们的特征被分配给核权重向量，卷积我们提出了两个插值函数：三-骨料ΣNi=1ti线性插值和高斯插值。三线性插值是一种常用的方法，用于通过相邻晶格点的值来近似3D网格中中间点的值。中间点的值由格点值的加权和计算，权值表征中间点与格点之间的接近程度。在我们的方法中，我们采用三线性插值的逆过程也就是说，我们首先计算网格点（核权重坐标）对中间点（输入点）的权重，然后将输入点特征逆分配给具有这些权重的对于三线性插值，我们为核中的每个输入点Pδ找到8个相邻的核权重坐标P’我们可以对每个内核权重向量或整个卷积内核执行归一化。我们认为，每个内核权重向量的归一化更准确，因为输入点不是均匀分布在整个内核。InterpConv算法InterpConv操作将点云坐标及其特征作为输入，并输出新的点坐标和特征。我们注意到，输出点坐标可以设置为与输入点相同，或者从输入点云中下采样。卷积核的中心被放置在每个输出点坐标处，并且核权重坐标进一步由权重向量的相对坐标来确定，如下等式：（四）、我们计算核权向量和相邻输入点之间的插值权，然后δ1582算法1InterpConv算法输入：点坐标p∈R3，点特征f∈Rc输出：输出坐标n∈p∈R3，n∈ w特征n∈f∈Rc′参数：c′核，具有n个权重向量w∈Rc，每个核中共享权重坐标p′∈R31：样本pfromp或p←p2：f或每个pdo3：对于每个p′do4：对于每个相邻p，特征fp做5：pδ←p−p6：t←T（p′，pδ）7：fi←fi+tfp8：fi←Normalize（fi）9：F←[f1，···，fn]10：对于每个内核kdo11：Wk←[wk，···，wk]细粒度的局部结构和形状上下文信息通过组合多分支输出。我们通过堆叠两个PointInception模块来进一步探索更深层次的模型。在分割网络中，我们分享了与U-Net [31]类似的精神，并构建了一个深度编码器-解码器架构。我们在编码器中堆叠多个3×3×3InterpConv层，并且在每个层中，输出点被下采样。在第一个3×3×3InterpConv层中，我们设置内核长度l作为一个小的值，以捕捉细粒度的几何结构，这在语义分割中是重要的。然后，我们在下面的块中逐渐扩大内核长度l以捕获上下文信息。对于解码器中的上采样层，我们利用下面的特征传播层[27]。在具有相同数量输出点的层然后，解码器输出被馈送到InterpConv层核大小为1×1×1，以获得最终预测。1N12：vk←F·Wk13：f←[v0 ， ··· ，vc′]14：returnp，f通过所有相邻点特征的加权和来聚合特征。聚集的特征被进一步归一化以保持其稀疏不变。最后在归一化特征和核权重向量之间应用点生成。卷积核对所有结果求和，并且c′核在输出端构成1×c′的新特征向量坐标系有关详细信息，请参见InterpConv算法。3.3. 网络架构在本节中，我们将介绍基于InterpConv方法的两种深层架构的详细信息。我们探索了在分类网络中嵌入多尺度上下文特征以及在分割网络中嵌入深度编码器-解码器架构详情请参见图2分类网络由一系列Inter- pConv块组成，Inter- pConv块主要由三个Interp-Conv层组成。在InterpConv块中，第一层和最后一层的内核大小为1×1×1，中间层的内核大小为1 × 1 × 2。内核大小3×3×3。第一个InterpConv层减少了通道尺寸和最后一个InterpConv层增加通道尺寸，使中间InterpConv层具有相对较小的输入和输出通道。一个Batch_Norm [13]和ReLU [48]层也跟随在块中的每个Interp-Conv层之后。除此之外，我们提出了PointInception模块来编码多尺度几何特征。类似于 2D CNN 中的Inception 模块[38]，我们的PointInception模块也连接了多分支特征。然而，我们将每个分支设计为具有不同内核长度l的一个InterpConv块。超参数l决定了欧氏空间中相邻核权向量之间因此PointInception模块能够捕获4. 实验在本节中，我们评估了插值卷积神经网络在多个任务上的功效，包括形状分类、对象部分分割和室内场景语义解析。在所有实验中，我们使用 NVIDIATITAN X GPU上的CUDA和PyTorch实现模型我们首先展示了我们的方法对这些任务的性能然后，我们讨论了我们的方法在消融研究的关键组成部分。4.1. 形状分类数据集。我们在基准数据集Model-Net 40 [5]上评估了我们的网络的3D形状分类性能。ModelNet40由40类12，311个CAD模型组成，其中9，843个用于训练，2，468个用于测试。我们使用ModelNet40的点云转换，其中从每个CAD模型中采样2，048个点。我们进一步对1，024个点进行采样，以进行训练和测试[25]。实作详细数据。我们采用图2（a）中的分类网络。我们使用高斯插值作为插值函数，并将所有InterpConv块中的高斯带宽 3σ 固定为 0.1 。在每个 3×3×3Inter-pConv层之后，点云被下采样到输入数量的一半输入点云随机缩放0.8至1.2的因子，然后以零均值抖动0.02标准差的高斯噪声我们训练了480个epoch，初始学习率为0.001，每80个epoch的衰减率为0.7，批量大小为16。结果我们报告了该数据集的总体准确性。在表1中，我们将我们的InterpCNN与其他ap-接近我们证明了基于InterpConvs的深度架构比基于图和基于体素的同行表现得更好，比最好的基于图的网络DGCNN提高了0.8% [45]。我们的方法表现甚至优于Point2Seq [23]和3DCapsule [8]1583PointInception模块(a) 分类网络（b）细分网络图2.插值卷积神经网络（InterpCNN）。灰色框表示输入和输出数据的大小，其他框都是网络层。在分类网络（a）中，我们扩展了Inception模块[38]的思想，并堆叠了两个多分支，多感受野PointInception模块来捕获局部和上下文几何信息。我们注意到，核长度l在不同分支处变化。在分割网络（b）中，我们与U-Net [31]具有类似的精神，并构建了基于InterpConv的深度编码器-解码器架构。核长度l从一个小值开始，随着网络的深入而变大。输入Acc.目录Ins.[26]第二十六话体素百分之八十九点二MiouMiouVRN单曲[4]体素91.3%PointNet [25]80.4%83.7%OctNet [30]混合网格八叉树百分之八十六点五[27]第二十七话百分之八十一点九85.1%[35]第三十五话图87.4%FCPN [29]-84.0%美国有线电视新闻网[11]1024点86.1%[51]第五十一话82.0%百分之八十四点七PointNet [25]1024点百分之八十九点二SSCN [10]百分之八十三点三86.0%[27]第二十七话1024点百分之九十点七SPLATNet [36]83.7%85.4%[27]第二十七话5000点+正常91.9%SpiderCNN [49]81.7%百分之八十五点三[第16话]1024点百分之九十一点八SO-Net [19]81.0%百分之八十四点九[47]第四十七话1024点百分之九十PCNN [2]百分之八十一点八85.1%KCNet [34]1024点91.0%KCNet [34]百分之八十二点二83.7%[20]第二十话1024点百分之九十二点二[47]第四十七话-84.6%DGCNN [45]1024点百分之九十二点二SpecGCN [41]-85.4%SO-Net [19]2048点百分之3DmFV [3]81.0%84.3%InterpConv块InterpConv3 × 3 × 30.05��× 3InterpConv1 × 1 × 1InterpConv1 × 1 × 1InterpConv1 × 1 × 1��× 32��× 32��× 32InterpConv3 × 3 × 3= 0.2InterpConv3 × 3 × 3= 0.4InterpConv3 × 3 × 3= 0.1100/2 ×64100/2 ×64100/2 ×64InterpConv1 × 1 × 1InterpConv1 × 1 × 1InterpConv1 × 1 × 1128/2 ×128128/2 ×128128/2 ×128/2 × 384InterpConv1 × 1 × 1InterpConv1 × 1 × 1InterpConv1 × 1 × 1128/2 ×128128/2 ×128128/2 ×128InterpConv3 × 3 × 3= 0.8InterpConv3 × 3 × 3= 0.4InterpConv3 × 3 × 3= 0.2128/4 ×128128/4 ×128128/4 ×128InterpConv1 × 1 × 1InterpConv1 × 1 × 1InterpConv1 × 1 × 1256/4 ×256256/4 ×256256/4 ×256/4 × 768InterpConv1 × 1 × 11024/4 ×1024Maxpooling1× 1024FC1× 40��× 316/2 ×16InterpConv1 × 1 × 1InterpConv3 × 3 × 3= 0.1100/2 ×32100/4 ×32InterpConv1 × 1 × 1InterpConv3 × 3 × 3= 0.2100/4 ×64/8 × 64InterpConv1 × 1 × 1InterpConv3 × 3 × 3= 0.4128/8 ×128/16 × 128InterpConv1 × 1 × 1��16 × 256Maxpooling1× 256瓷砖上采样256/8 ×256上采样N× 256128/4 ×128上采样128/2 ×128上采样InterpConv1 × 1 × 1��× 128��× m1584九十点九SpiderCNN [49]1024点+正常92.4%RSNet [12]81.4%百分之八十四点九[23]第二十三话1024点百分之九十二点六[20]第二十话84.6%86.1%3D胶囊[8]1024点92.7%DGCNN [45]百分之八十二点三85.1%PointConv [46]1024点+正常92.5%SGPN [44]82.8%百分之八十五点八InterpCNN（我们的）1024点93.0%PointConv [46]82.8%百分之八十五点七[23]第二十三话-85.2%表1.ModelNet40上的分类结果总体准确度报道其中在PointNet++之上添加了许多模块和模型compacity[27]以获得更好的性能。4.2. 对象部分分割数据集。我们在部分分割数据集ShapeNet Parts上评估我们的分割网络[50]。ShapeNet Parts包含来自16个形状类别的16,880个模型，其中14,006个用于训练，2,874个用于测试。每个模型都有2到6个部分的注释，总共有50个不同的从模型中采样的每个点都使用零件标签进行注释。实作详细数据。我们用分割网-InterpCNN（我们的）84.0%86.3%表2. ShapeNet零件上的分割结果。类别间的平均IoU（类别）和实例（Ins.）本文报告图2（b）中的工作。在训练过程中，我们从每个对象中随机抽取2，048个点，并使用原始点云进行测试。与分类网络不同，我们利用具有较小核长度l的三线性插值函数，其表现要好得多内核长度 l 在第一个InterpConv层中从0.05开始，在后面的层中加倍。我们在每个GPU和4个GPU中使用32个小批量来训练模型。我们将初始学习率设置为0.005。数据扩充与分类相同。1585图3.在ShapeNet Parts上可视化对象零件分割结果。第一行是地面实况，第二行是我们的预测。从左到右是汽车、摩托车、灯具和椅子。整体精度目录MiouPointNet [25]78.5%47.6%[47]第四十七话81.6%百分之五十二点七RSNet [12]-百分之五十六点五[20]第二十话88.1%65.4%DGCNN [45]84.1%56.1%SGPN [44]百分之八十点八百分之五十点四SPGraph [18]百分之八十五点五62.1%InterpCNN（我们的）88.7%66.7%表3. 6-S3DIS上的折叠验证结果。报告了各类别的总体准确度和平均IOU结果我们在表2中报告了类别和实例的平均IOU。值得注意的是，实例上的平均IOU更现实。我们的方法在实例的平均IOU上比比较方法表现得更好。4.3. 室内场景分割数据集。S3DIS [1]是一个室内感知语义解析数据集，包含 6 个区域的 271 个房间。每个房间都由Matterport扫描仪扫描，扫描中的每个点都用来自13个类别的一个语义标签进行注释我们遵循[25]，将房间分成1m×1 m的块进行培训和测试。实作详细数据。与零件分割任务类似，我们使用图2（b）中的相同架构。不同之处在于，我们在训练过程中从每个1m×1m块中获取4，096个点作为输入。我们为每个输入构建一个9D向量（XYZ，RGB和归一化位置）。其他配置与对象部分分割任务中的配置相同。结果在[25]之后，我们对6个区域进行了6倍验证，并在表3中报告了类别的总体准确性和平均IOU。我们的方法在准确性和平均IOU方面都显著优于最先进的方法。PointNet++DGCNN我们的地面实况图4. S3 DIS与Point- Net++和DGCNN的定性评价比较。4.4. 消融研究我们在ModelNet40和ShapeNet Parts上进行消融研究，以研究InterpCNN的组成部分。核大小n和核长度l的有效性。我们在表4和表5中探索了第一和第二PointInception模块的超参数n和l的不同设置。我们首先尝试将所有InterpConvs的内核大小设置为1×1×1，并且只使用maxpooling层来聚合全局特征。我们注意到，这种架构类似于点网[25]，其中网络不能捕获本地结构。结果，结果更糟。这表明内核大小大于1的InterpConvs的强大功能。对于每个 In ，只需将一个1×1×1InterpConv替换为3×3×3terpConv块获得3%的性能增益。我们也尝试使用更大的内核大小5×5×5的InterpConvs，但性能没有提高。我们证明，利用3×3×3InterpConvs是足够有效的，这也减少了模型参数相比，5×5×5的同行。我们还探讨了不同的内核长度和我们表明，这个超参数有一个显着的效果上的最终性能。核长度l太小或太大都会影响精度。插值函数的有效性。我们在所有任务中尝试高斯和三线性插值函数。在表6中，结果表明高斯插值在分类中表现得更好，而三线性插值在分割中表现得更好。我们认为，三线性插值可以捕捉细粒度的几何结构比高斯对应，这是更重要的分割。高斯插值能够更有效地获取全局形状信息。规范化方法的有效性。我们尝试根据非单调点的数量进行归一化（等式2）。（7））和互操作权重之和（等式（7））。（8））。表7中的结果表明，两种方法都是有效的，并且表现出相当的性能。值得注意的是，在核权重坐标的邻域中仅存在几个近点但存在许多远点的极端情况下，对插值权重的总和进行归一化更合适。1586第一模块第二模块精度1× 1× 11× 1× 1百分之八十九点九内核#33× 3× 35× 5× 592.9%5× 5× 53× 3× 392.8%3× 3× 33× 3× 393.0%内核#5表4.ModelNet40上不同内核大小的结果内核#19内核#29表5.ModelNet40上不同内核长度的结果插值函数ModelNet40ShapeNet零件高斯93.0%百分之八十五三线性92.5%86.3%表6.不同插值函数在Model-Net 40和ShapeNet零件上的结果。椅子显示器汽车吉他瓶飞机图5. ModelNet40上不同InterpConv内核学习的特征激活的可视化标准化方法准确度插值权重92.8%分数93.0%表7.在Model-Net 40上不同归一化方法的结果。方法参数准确度子体积[26] 16. 6 M 89. 2%[25]第25届中国国际汽车工业展览会PointNet++（MSG）[27] 12M 90.7%InterpCNN（我们的）12.8M93.0%表8.Mod-elNet 40上的模型参数和性能比较更多零件更少零件边界不清注释混乱图6.在ShapeNet Parts上可视化故障案例方法比PointNet++稍慢，但比基于图的方法DGCNN快得多。可视化。我们在图5中的第一个3×3×3InterpConv层和图6中的一些失败案例中可视化了不同内核的激活。方法推断时间准确度PointNet++（MSG）[27]26. 8 ms 90. 7%DGCNN [45] 89.7ms 92.2%InterpCNN（我们的）31.4ms93.0%表9.ModelNet40上的推理时间比较模型参数分析。我们在ModelNet40上报告分类网络中的参数数量。表8中的结果表明，即使使用可比较的模型参数，PointNet++的性能仍然比我们的方法差得多。InterpCNN的参数也比其他3D卷积方法少运行时分析。我们总结了基于NVIDIA TITAN XGPU上批量大小为16，1024个点的分类网络的平均推理时间，并将其与相同设置下的开创性工作PointNet++和DGCNN进行了在表9中，我们的ap5. 结论我们提出了一种新的卷积InterpConv和插值卷积神经网络（InterpCNN）用于3D分类和分割。在Mod-elNet 40、ShapeNet Parts和S3 DIS上的实验结果表明，与现有方法相比，该方法具有良好的对于未来的工作，我们计划基于可学习的内核权重坐标探索新的深度架构，并将我们的方法应用于其他点云处理任务，包括3D检测和实例分割。确认这项工作得到商汤科技集团有限公司的部分支持，部分由香港研究资助局的一般研究基金资助，资助额为CUHK14202217，CUHK14203118，CUHK14205615，CUHK14207814，CUHK14213616，CUHK14208417，香港中文大学14239816，部分由香港中文大学直接拨款。第一模块第二模块精度0的情况。05-0 1- 020的情况。1-02- 0。492.4%0的情况。1-02- 0。40的情况。2-0。4- 0。893.0%地面真相失败例1587引用[1] Iro Armeni，Ozan Sener，Amir R Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的三维语义解析。在IEEE计算机视觉和模式识别会议集，第1534-1543页，2016年。二、七[2] Matan Atzmon，Haggai Maron，and Yaron Lipman.基于扩展算子的点卷积神经网络 arXiv 预印本 arXiv ：1803.10091，2018。6[3] Yizhak Ben-Shabat 、 Michael Lindenbaum 和 AnathFischer。使用用于卷积神经网络的3D修改的Fisher向量表示的 3D 点云分类和分割 arXiv 预印本 arXiv ：1711.08241，2017。6[4] Andrew Brock、Theodore Lim、James M Ritchie和NickWeston。用卷积神经网络进行生成和判别体素建模。arXiv预印本arXiv：1608.04236，2016。6[5] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。二、五[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2018。3[7] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页，2017年。1[8] Ali Cheraghian和Lars Petersson 3dcapsule：扩展capsule架构以分类3d点云。2019年IEEE计算机视觉应用冬季会议（WACV），第1194-1202页。IEEE，2019。二、五、六[9] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764

下载后可阅读完整内容，剩余1页未读，立即下载