基于组卷积的体素VAE网络用于点云分割

18 浏览量更新于2023-10-12 收藏 911KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8500VV-NET：用于点云分割的带组卷积的体素VAE网络孟宪宇1，4，高林2，赖玉坤3，迪内什·马诺查11马里兰大学帕克分校2中国科学院计算技术研究所移动计算与普适设备北京市重点实验室3卡迪夫大学计算机科学与信息学院4清华大学mengxy19@umd.edu，gaolin@ict.ac.cn，LaiY4@cardiff.ac.uk，dm@cs.umd.edu摘要提出了一种新的点云分割算法。我们的方法将非结构化点云转换成规则的体素网格，并进一步使用基于内核的插值变分自动编码器（VAE）架构来编码每个体素内的局部几何形状传统上，体素表示仅包括布尔占用信息，其不能以紧凑的方式捕获体素内稀疏分布的点。为了处理稀疏分布的点，我们进一步采用径向基函数（RBF）来计算每个体素内的局部连续表示。我们的方法产生了一个很好的体积表示，有效地处理噪声点云数据集，更强大的学习。此外，我们进一步将群等变CNN引入到3D中，通过定义作用于Z3及其同构集的对称群上的卷积算子。这在不增加参数的情况下提高了表达能力，从而导致更鲁棒的分割结果。我们强调了标准基准测试的性能，并表明我们的方法在ShapeNet和S3DIS数据集上的性能优于最先进的分割算法。1. 介绍包括分类和分割的3D数据处理如今已经发展，因为3D数据可以使用3D扫描仪或深度相机容易地捕获。它在处理点云等不规则、无序的数据格式方面有着突出的优势。处理流水线还必须对输入数据的旋转、缩放、平移和置换具有鲁棒性，如[3]中所述。然而，以前的工作未能捕捉点云内部的对称性。我们在本文中解决这些问题，提出了一个新的代表-*通讯作者在一个统一的框架中考虑点的空间分布和群对称性。在本文中，我们解决的问题，开发更有效的学习方法，使用规则的数据结构，如基于体素的表示，保留和开发空间分布。通常，每个体素仅包含布尔占用状态（即，占用或未占用），而不是其他详细的点分布，因此只能捕获有限的细节。我们解决这个问题，通过调查替代表示，它可以有效地编码点的分布在一个体素。主要结果：我们提出了一种新的学习方法，点云分割关键是要切实做到--每个体素内的码点分布直接将点分布视为0-1信号是高度非平滑的，并且不能根据Mairhuber- Curtis定理来完整地表示[26]。相反，我们将非结构化的点云转换为体素网格。此外，每个体素被进一步细分为子体素，子体素通过平滑径向基函数在体素内插值稀疏点样本，该径向基函数以点样本为中心对称且正定。然后可以有效地压缩该平滑信号我们的RBF和VAE的组合提供了一种有效的方法来表示深度学习体素内的点分布。3D表示的关键问题是确保点云分割的结果不会由于相对于外部坐标系的任何旋转、缩放或平移而改变。为了捕获点云的内在对称性，我们使用组等变卷积[5]并结合由类似于[3]的mlp函数提取的每点特征这些群卷积最初是为二维图像提出的，我们将它们推广到Z3及其同构集上，用于三维点云处理。它们有助于检测要素8501空间，即我们预先训练的RBF-VAE体素网络的潜在空间，从而提高我们方法的学习能力。总体而言，我们提出了VV-Net，一种新颖的具有群卷积的体素VAE网络，并将其应用于点云分割。我们的方法是有用的分割ob-objectives到部分和3D场景到个人的语义ob-objectives。我们已经评估并比较了它在标准点云数据集上的性能，包括 ShapeNet[29] 和S3DIS[1]。在实践中，我们的方法在这些数据集上的表现优于最先进的方法2。7%和16。12%的平均IoU（交集），分别。即使来自点云的一些地面真实数据被错误地标记，我们的方法也能够计算出有意义的分割，如图4所示。我们工作的新贡献包括：• 我们开发了一种新的信息丰富的基于体素的表示点云数据。每个体素内的点分布使用变分自动捕获。编码器以子体素级别的RBF作为输入。这为学习算法提供了规则结构和捕获详细分布的好处• 我们介绍了定义在三维数据上的群卷积，它编码了对称性和非对称性。在不增加网络参数的情况下，提高了网络的表达能力。2. 相关工作人们对三维数据处理算法越来越感兴趣在本节中，我们简要概述了点云处理和语义分割方面的先前工作3D数据的深度学习点云是3D数据的一种非常通用的表示提出了许多关于深度学习技术的开创性研究工作点网[3]将多层感知器应用于输入点云中的每个点，并进行对称操作以消除排列问题。此外，PointNet通过显式添加变换网络来对齐输入点云，从而对输入点云上的旋转具有鲁棒性。在3D对象分类和语义分割任务中Yi等人。[28]通过数据集中的标签对3D形状进行聚类，然后训练一个分层分割的模型。Wang等人。[23]提出了一个相似性矩阵，该矩阵测量嵌入空间中每对点之间的相似性，以产生语义分割图。为了捕获不同尺度的信息，常用的方法是通过递归采样或递归应用神经网络结构来捕获分层信息特别是，工作[9]将递归神经网络应用于组合切片池层，工作[20]使用稀疏双横向卷积层作为构建块。一些方法在3D网格上工作，并且努力从由网格表示生成的图结构中提取信息。Yu等人。[30]使用谱CNN方法，该方法通过在图拉普拉斯特征基所跨越的谱域Verma等人[22]利用[2]中提出的图卷积设计了一个图卷积算子，其目的是建立滤波器权值与具有任意连通性的图邻域之间的对应关系。基于变分自编码器的深度学习也在[21，8]中用于网格生成。利用邻域挖掘进行点云处理。为了解决缺乏连通性的问题，一些方法使用欧几里德空间中的K-最近邻并利用局部区域内的信息[24，14，13，19]。特别是李[13]模拟点云的空间分布通过构建一个自组织地图并将Point- Net [3]应用于多个较小的点云。此外，作品[24，12，13，14]使用图结构和图拉普拉斯来捕获所选邻域中的局部信息并利用空间信息[14]。Remil等人[18]利用定义为从形状表面采样的点集邻域的形状先验然而，有许多问题使得挖掘邻域信息具有挑战性：首先，拓扑信息不容易通过LiDAR扫描捕获，这使得估计顶点法线更具挑战性。其次，在欧几里得空间中编码K-最近邻域在某些情况下可以同时编码不属于同一对象的两个点（特别是对于两个在我们的工作中，我们没有明确编码的K-最近的邻居在我们的架构。相反，我们的目标是编码的对称信息，而不是编码的邻域信息。使用体素处理点云。一些作品使用体素来处理点数据（例如，[23、31、15、16]）。这些方法将神经网络应用于体素化数据，并且由于其不规则和无序的数据格式而不能直接应用于原始点云。然而，分辨率是有限的数据稀疏性和计算成本。为了进行3D检测，Zhou和Tuzel [31]对LiDAR点云进行采样，以减少计算开销和使用最远点采样的点分布不规则性。为了进一步减少体素之间的点的不平衡，他们的方法仅考虑密集填充的体素。它在每个点上应用逐点特征学习函数mlp，并通过对称函数聚集特征。相比之下，我们的方法并不执行抽样来消除不平衡的分布.相反，我们使用常规体素和RBF来提高学习能力。85022split + RBF（·）表示点云缩放体素RBF体素（DxW xH）VAE中文（简体）潜在空间表示（DxW xHxl）亚体素（kxk xk，k= 4）编码器潜层lx 1解码器再收缩（kxk xk，k=4）图2. 分段网络架构。我们强调了我们方法的各个组成部分。网络的输入为图1. 径向基函数插值变分自动编码模块. 对于给定的点云，我们将其划分为等间距的D×H×W体素，并且对于每个体素，我们进一步将其划分为k×k×k个子体素，其中每个子体素值由等式3中的径向基函数定义，而不是由sinc采样的Dirac delta函数。将RBF的核设置为φ（|| · ||2）VAE潜伏期分布。对于具有k×k×k个子体素的体素，我们使用预训练的变分自动编码器来推断潜在空间表示最后，点云可以表示为D×H×W×l体素数据，其中l表示潜在空间的维数。定义在群上的卷积、等方差和变换。众所周知，CNN的强大之处在于平移等变特性，并且它们通过CNN内核权重共享来利用平移对称性[4]。最近，Cohen和Wellin [5]在CNN中引入了90次旋转和二面角翻转的他们把这个理论扩展到一个可操纵的代表-表示，它是基本特征类型的组合，尽管它需要特殊的抗锯齿处理[6]。Cohen等人[4]进一步引入满足广义傅立叶变换的球面互相关，尽管所得球面CNN需要闭合亏格0流形作为输入，使得其可以被投影为球面信号。类似地，Weiler et al.[25]和Worrall et al. [27]设计SO（2）可操纵网络，尽管它们受到离散群的限制并且计算昂贵。所有这些方法都是针对2D图像域或球面域设计的，并且没有一个直接针对3D点数据工作。3. 具有群卷积的体素VAE网在本节中，我们将描述整个算法，并重点介绍流水线的各个阶段。首先，我们对多维离散样本的插值进行了说明，并给出了带有RBF核的VAE的直观动机，它具有以下优点：对称和正定的任何数据位置的选择。我们的公式计算一个更好的表示与编码器解码器的计划，而不是使用标准的，图1中示出了包含n个点和潜在空间表示的点云。输出是点云中每个点的每类分数（对于m个类）。我们使用组卷积模块来检测特征空间中的同现（参见等式5）。对于函数，我们突出显示p4m群g（mx，my，mz，rx，ry，rz，tx，ty，tz）在下面左图（其中m、r和t表示镜像、旋转和平移）。在我们的公式中，一个p4m函数有128个平面贴片，其中每个贴片都与旋转rx，ry，rz和镜像mx，my，mz相关联。在该图中，我们仅示出了8个平面贴片。每个补丁遵循箭头，并经历90°的旋转。外广场上的补丁是镜面反射的内广场上的补丁，反之亦然。标准{0，1}体素（占用）。经验上，{0，1}体素的分布是离散的，不足以完全捕获点分布。此外，其不连续性使得它很难被深度神经网络学习。其次，我们描述了我们的数学框架的基础上定义的群卷积Z3和它们的同构集，以检测潜在空间中的特征的同现。这在不增加参数数量和层数的情况下增加了CNN的表达能力。第三，我们连接n×64个每点特征由MLP函数[3]用序列化的FEA提取我们的网络提取的特征，其中n是点的数量，64是使用PointNet提取的特征的维数。最后，在mlp层之后，我们输出分数图，其指示点属于m个类的概率，如图2的右上角所示，其中m是分割任务中的类的数量（例如，40个在ShapeNet部分分割任务中，13个在S3DIS分割任务中）。3.1. 符号和标记如果G是作用在集合X上的群，f，g：X→C是作用在群G上的，则卷积定义为：∫（fg）（u）=f（uv−1）g（v）dµ（v）（1）G其中，“量”是“量”。设X=Z3，G是与Z3同构的整数变换群. 注意，这是一个特殊情况，G和点网每组卷积点要素序列化要素输出得分潜在空间表示（DxW xHxl）FMaxPool3D2x2x2群卷积堆叠特征图序列化特征NXMFFC32FC16FC16FC8FC8FFC8FC16FC16FC32NX3n × 64n x r共享MLPConv3D1x1x1x16Conv3D3x3x3x8Conv3D3x3x3x8Conv3D3x3x3x4Conv3D3x3x3x285032ii iiX通常是两个不同的集合。在我们的流水线中，输入是一个点云，使用欧几里德空间中的3D坐标（x，y，z）我们用符号（x，y，z）来表示vox el网格的坐标特别地，对于具有n个点的给定点云，该点云包含具有范围D、H和W的3D空间，在Z、Y、X轴上，将点云划分为D×H×W的体素。因此，体素在Z、Y和X方向上的大小为：vD=D/D，vH=H /HvW=W/W。我们的RBF-VAE方案的输出是（D，H，W，l）大小的矩阵，其中l表示编码器-解码器设置的潜在空间维度公司现采用国际群等变卷积的对称群的概念。给定一个群G，我们可以通过对标准CNN的分析来定义G-CNN，通过类似地定义群G上的函数G-卷积。3.2. 径向基函数VAE格式传统的体素表示可以被认为是在具有间隔的每个网格点处采样的0-1信号f可能影响f（p）的值，则最接近p的点是主导的。因此，f（p）可以被有效地评估。这里的公式是基于常用的高斯RBF核。经验上，RBF中使用的核，即，（||·||2）具有与VAE潜变量分布相同的形式。此外，我们还展示了4.4节中的不同内核3.2.2变分自动编码器我们的方法使用[11]中强调的方法来对概率编码器和概率解码器进行建模。编码器的目标是将数据点X（Di，Hi，Wi）的后验分布映射到特征向量Z（Di，Hi，Wi），其中（Di，Hi，Wi）表示k × k × k个子体素并且表示为Ki。解码器产生一个似然对应数据点XKi 来自一个潜伏的病毒体ZKi。在我们的设置中，数据点XKi由如公式3中所公式化的RBF内核子体素表示。我们模型的总损失函数可以计算为：Σ沿着每个维度的vD，vH，vW损失=EZ [logP（X（i）|ZK）]插值公式应用傅立叶变换KiKi∈（D，H，W）Kii这种涉及狄拉克δ函数的组合的信号f在频域中产生密集分布-DKL（qφ（ZK|（第十条第㈠款）||Pθ（ZK））+D（q（Z|（第十条第㈠款）||P（Z|（第十（一）段）（四）形成一个哈尔空间（切比雪夫空间），它不能被KLφKiKiθKiKi根据Mairhuber-Curtis theo- rem [26]，有效压实而不是布尔占用信息，我们在这里我们采样ZKi|XKi从ZKi|XKiN（µZK|XK，ZK|XK）和s样本XKi|ZKi从将p处的网格值评估为径向基函数：我我我XKi|ZKiN（µXKi|ZKi，XKi|ZKi ），qφ（ZKi|XKi）ΣNf（p）=01- 02 - 2013张国荣（||p-v||（二）（二）表示编码器网络，Pθ（XKi|ZKi）表示解码器网络。请注意，潜在变量ZKijj2j=1其中N是数据点的数量，wj是标量值，φ（·）是关于每个数据点的对称函数，并且根据Bochner定理是正定的。我们用变分自动编码器测量了k×k×k亚体素上的点分布，得到了一个l维的每个体素的潜在空间，这不仅是紧凑的，而且还捕捉点的空间分布。总体而言，整个点云的体素表示尺寸为D×H×W×l，比标准D×H×W体积表示法。3.2.1径向基函数为了将离散点映射到连续分布，我们使用径向基函数来估计它们在每个子体素中的贡献：仅捕获单个体素通过变分自动编码器方案。对于预训练的VAE模块，我们从固定参数的VAE中推断每个体素，并计算大小为D×H×W×l的最终点云表示，其中l是预训练的VAE模块的潜在空间大小。变分自动编码器以更紧凑的方式捕获体素内的点数据分布。这不仅减少了内存占用，还使我们的学习算法更有效。由于先验分布假设，VAE具有比AE更好的泛化能力，并避免了对训练集的潜在过拟合。3.3. 对称群与等变表示在本节中，我们提出了我们的算法来计算使用对称群的等变表示的f（p）=maxv∈V.−||p-v ||2Σ实验22σ2.（三）目标是建立在基于VAE的体素表示上，用CNN中的过滤器检测特征中的同现最终目标是增强网络表达能力，这里V表示点的集合，p是子体素的中心，并且σ是预定义的参数，通常是子体素大小的倍数原则上，V中的所有点在不增加标准CNN中的层数或滤波器大小的情况下，这项工作[5]说明了当前一代神经网络中的这些问题，其中85042表1. 测试每个模块性能的ShapeNet实验设置：我们的VAE模块如图1所示，组卷积模块如图2所示。我们提出了用于我们的方法（group-conv + RBF-VAE）的参数，并且禁用了一个模块，即只有RBF-VAE没有group-conv和group-conv与{0，1}体素。输入子体素（对于基于VAE的）或体素（对于非基于VAE的）分辨率固定为64×64×64。实验VAE输入VAE输出成组转换器RBF-VAE64×64×64RBF体素16×16×16×8潜在体素没有一group-conv +{0，1}体素没有一没有一64×64×64{0，1}体素（Our）group-conv + RBF-VAE64×64×64RBF体素16×16×16×8潜在体素16×16×16×8潜在体素表2. ShapeNet零件分割结果：我们使用先前的算法和我们的方法突出显示了点云标记上所有类别的实例平均mIoU和mIoU分数。请注意，下面列出的比较性能分别由PointNet [3]，RSN [9]，SO-Net [13]，SynSpecCNN [30]和SPLATNET [20]报告。粗体数字显示了不同对象类别的最佳性能此外，在我们的实验中，我们强调了优于最先进方法的结果底部列出的3个实验对应于表1中的实验设置总的来说，使用RBF-VAE模块和组卷积模块，我们的方法比最先进的方法高出2。5%的平均IoU。如果我们用标准的{0，1}体素VAE模块替换RBF-VAE模块，则训练不会收敛，因为点数据太稀疏。此外，如果我们从整个管道中删除组卷积模块或RBF-VAE模块，mIoU将下降1。3%或1。4%。请注意，汽车和汽车类别具有挑战性，因为它们每个都包含4个或更多部件。尽管如此，我们的方法显示出明显更好的性能。平均IoUAero袋帽车椅子耳朵吉他刀灯笔记本电机马克杯手枪火箭滑冰表PointNet [3]83.783.478.782.574.989.673.091.585.980.895.365.293.081.257.972.880.6RSN [9]84.982.786.484.178.290.469.391.487.083.595.466.092.681.856.175.882.2SO-Net [13]84.681.983.584.878.190.872.290.183.682.395.269.394.280.051.672.182.6SyncSpecCNN [30]84.7481.5581.7481.9475.1690.2474.8892.9786.1084.6595.6166.6692.7381.6160.6182.8682.13[20]第二十话84.681.983.988.679.590.173.591.384.784.596.369.795.081.759.270.481.3RBF-VAE86.182.386.682.481.787.777.191.283.777.594.071.096.186.656.187.889.5group-conv +{0，1}体素 86.082.168.983.880.987.881.291.278.477.494.572.898.086.053.883.990.0组-Conv + RBF-VAE87.484.290.272.483.988.775.792.687.279.894.973.494.486.465.287.290.4表示空间具有最小的内部结构。为了解决这个问题，我们使用对称群和等效CNN来执行有效的数据处理。在这种情况下，G-CNN被定义在线性G空间中，其中G空间中的每个向量都有一个姿态，并且可以通过来自一组变换G的元素进行变换。特别地，G卷积对应于帮助G-CNN中的过滤器检测特征中的同现的操作。G-空间中的变换是结构保持的。本文将文献[5]中为二维图象定义的G-空间公式推广特别地，我们定义并使用p4和p4m作为Z3上的对称群.此外，我们证明了Z3上的群等变卷积，并且底层CNN是群上的函数。当我们-层90对p4上的函数进行旋转，该操作的简化结果如图2所示。3.3.1p4组群p4由绕任意旋转中心平移和旋转90°的所有合成组成，3D网格。我们可以用下式来参数化群p4：使用矩阵乘法。如上所述，两个函数和反函数的组合可以容易地用（rx，ry，rz，tx，ty，tz）表示，因此该运算定义了对称群。群p4通过将质量（rx，ry，rz，tx，ty，tz）乘以点的齐次坐标来作用于Z33.3.2p组4m在这里，我们扩展了群p4，并构造了一个定义在Z3上的对称群p4m，它也包括沿轴对齐平面的镜像（反射）。更正式地说，我们有以下引理：引理3.1群p 4 m由变换、绕网格中任意旋转中心旋转90 °和镜像反射（即，P4加上镜像）。作为上面公式化的群p4，我们可以用整数来参数化群p4m（ mx ， my ， mz ， rx ， ry ， rz ， tx ， ty ， tz ）为Rmx×Rmy×Rmz×其中，Rmx的公式如下：r，r，r，t，t，t，其中r和t是旋转和trans-t。（−1）mxcos（rπ）−（−1）mxsin r π00<$XyzXyzx2x2国际贸易轴 *，分别。这里的“”指的是sin（rxπ）cos（rxπ）00Rmx=0.022分，X、Y或Z。这可以用公式表示为g（rx，ry，rz，T）=Rx× Ry× Rz× T，其中R是绕轴*旋转π·r的旋转矩阵，T是分别沿X 、Y 、Z 轴平移tx、ty 、tz 的平移矩阵。其中0≤rx≤4，0≤ry≤4，0≤rz≤4且（tx，ty，tz）∈Z3.执行组操作0 0 1 00 0 0 1（五）且m∈{0，1 }表示镜像，mx∈ { 0，1}，my∈ {0，1}，mz∈ {0，1}，0 ≤rx ≤4，0 ≤ry ≤4，0 ≤rz ≤4，（tx，ty，tz）∈Z3.群p4m是一个对称群.8505L表3. S3DIS数据集上的语义分割结果。我们的基础指标是在点上计算的交集（IoU），在基准[1]上进行评估。表3和表4之间有一个度量不同，表3中的IoU和AP0。5在表4中，遵循现有文件的做法我们报告这两个指标，而大多数以前的作品选择报告一个或其他。粗体字体的数字表示最佳性能，如果结果优于国家，我们将在实验中突出显示这些数字。艺术方法。请注意，完整的管道（最后一个实验）比仅使用RBF-VAE的性能高1。8%，仅使用group-conv。百分之三十三请注意，PointNet [3]、Engelmann [7]和SPG [12]的性能报告见[12]。RSN [9]的性能在他们的论文中报告。总ACC平均IoU天花板地板壁束柱窗口门椅子表书柜沙发板杂波PointNet（3）78.547.688.088.769.342.423.147.551.642.054.138.29.629.435.2中国（[7]）81.149.790.392.167.944.724.252.351.247.458.139.06.930.041.9SPG（[12]）85.562.189.995.176.462.847.155.368.473.569.263.245.98.752.9RSN（[9]）59.4251.9393.3498.3679.180.0015.7545.3750.1065.5267.8722.4552.4541.0243.64RBF-VAE85.9875.4085.0195.5271.5873.8160.9161.5474.3865.6767.5961.4726.1138.7256.16group-conv +{0，1}体素81.4568.7083.2793.9559.3764.3540.2354.0666.4865.2063.5241.4820.3716.2147.41组-Conv + RBF-VAE87.7878.2287.6495.3674.8075.0468.0371.3376.8772.6770.0861.9733.5649.8160.00表4. S3DIS数据集上的语义分割结果，AP0。五、该指标是平均精度（AP（%）），IoU阈值为0.5。请注意，完整的流水线（group-conv+RBF-VAE）实现了最佳性能，优于最先进的工作和禁用我们的一个模块。Armeni [1]的结果是用于3D对象检测，IoU是在3D边界框上计算的，而SGPN和我们的是基于点云数据集的。请注意，下面列出的比较性能报告在SGPN [23].平均IoU（AP 0.第五章）天花板地板壁束柱窗口门椅子表书柜沙发板亚美尼亚（[1]）49.9371.6188.7072.8666.6791.7725.9254.1116.1546.0254.716.783.91[23]第二十三话54.3579.4466.2988.7777.9860.7166.6256.7540.7746.9047.616.3811.05RBF-VAE79.0088.7397.4377.2079.9167.2762.3981.3667.0874.6855.3837.0833.05group-conv +{0，1}体素72.6688.9895.3264.1367.7449.2155.3574.0264.3468.3829.1122.5813.33组-Conv + RBF-VAE82.1791.6896.5480.3880.6871.8772.9485.8173.8676.7657.6843.8246.35如图2的左下角所示，有128个3D面片经历旋转和平移变换。富变换结构产生于群运算p4m.我们的群运算具有对称群的性质.为了实现，通过复制具有不同旋转翻转组合的变换滤波器来采用具有90次旋转（Rmx×Rmy×Rmz）。对于Rmx ，我们有4×2的组合（4个选择，用于90°旋转，以及是否应用反射，沿着X轴）。如图2所示，面片被堆叠以形成5D张量（ B× （ D-KD ） × （ H-KH ） × （ W-KW ） ×（P·C）），其中B表示批量大小，D、H、W是沿X、Y、Z轴的体素大小，其中在第3.2节中。K=（KD，KH，KW，KCin，KCout）是3D CNN中使用的内核大小，P是总补丁数，Cin和Cout是3D CNN的输入和输出通道我们还开发了一种有效的方法来减少内存占用，其中3D旋转翻转组合是基于沿任意轴应用2D旋转翻转操作构建4. 实现和性能我们的网络架构如图2所示。分别训练RBF-VAE模块和分割模块分别有两个培训原因：RBF-VAE模块的损失是体素方面的，因此整个网络不能从中受益;内存消耗节省到其联合训练大小的1 / 8，Nvidia 1080Ti GPU我们的网络是用100个epoch和24个batch size训练的。推理时间在S3DIS数据集上，我们的网络每帧约为210 ms。我们在两个数据集上评估了我们的分割方法VV- Net：[29]和S3 DIS [1]。此外，我们证明了我们的方法中使用的首先，我们通过在标准{0，1}体素VAE模块和我们的新RBF体素VAE模块。其次，我们评估了组卷积网络模块的表达能力。表2、表3和表4中突出显示了所有这些结果和比较，表1中给出了我们用于部分分割的方法的参数设置我们的代码库在Github上发布4.1. 部分分割零件分割是一项具有挑战性的3D分析任务，其目的是将给定的3D扫描分割成有意义的片段。我们评估了我们的算法，并在表 2 中突出显示了一个大规模ShapeNet数据集的性能，该数据集包含来自16个类别的16，881个形状，总共有50个我们的方法的结果的一些例子如图3所示。图4（顶部）展示了数据集的真实情况，我们可以注意到每个类别都标记了两到五个部分。如[3]所述，我们还将我们的问题公式化为逐点多标签分类。损失函数是交叉熵函数，定义如下：损失=−Lgllogpl，（6）8506其中L是标签的数量，g是地面真值标签的概率，p是每个标签的概率评估指标是点上的 mIoU （平均IoU ），遵循 [3] 中的公式：如果 groundtruth 和predication点的并集为空，那么我们将相应的标签IoU计数为1，因为我们有50个部件和16个形状类别，我们将类别IoU计算为类别上的平均实例IoU。在我们的实验中，（D，H，W）=（16，16，16），k=4，σ=min（vW，vH，vD）和l=8，其中我们捕获4×4×4子体素，具有从变分自动编码器推断的8个潜变量。我们强调的是不同模块的各种组合。与group-conv + RBF-VAE对应的结果突出了基于RBF核与VAE方案和组卷积神经网络模块相结合的VV- Net的性能。我们算法的这个版本比最先进的RSN [9]高出2。5%（mIoU），在16个类别中的12个类别中优于RSN。为了证明单个组件的益处为了公平比较，使用相同的64×64×64分辨率的子体素（对于基于VAE的）或体素（对于非基于VAE的）。本文方法的实现优于群卷积+RBF-VAE方法。形式只使用RBF-VAE由1. 3%（mIoU），在16个类别中的11个类别中更好。我们的方法也比只使用group-conv的方法好1倍。4%（mIoU），在16个类别中的13个类别我们还比较了RBF-VAE与VAE在{0，1}占用网格上的情况。由于点数据是稀疏的，因此对{0，1} VAE的训练不会收敛。这表明了RBF-VAE的必要性和好处。4.2. 场景语义分割我们还评估了Stanford 3D语义解析数据集[1]的性能，该数据集由6种基准测试组成。数据扫描中的每个点都使用来自13个类别的语义标签之一进行注释。在在实验中，（D，H，W）=（16，16，32），k=4，σ=5·min（vW，vH，vD），l=8.表3突出显示了S3DIS数据集上语义分割的结果（类别IoU，总体准确性和平均IoU）此外，表4显示了符合标准的AP（平均精度）结果。IoU阈值为0的ric。五、我们的group-conv + RBF-VAE的实现优于最先进的SPG [12] 16。平均IoU指标的12%。我们的方法（分组卷积+ RBF-VAE）的性能也优于仅使用group-conv或仅使用RBF-VAE，如表3和4的底行中所报告的表5将我们的方法与报告平均IoU的方法进行了比较，并显示了我们方法的优越性能。平均IoUPointCNN [14] 62.74美国[10]我们的78.22表5. S3DIS数据集的语义分割结果。我们使用平均IoU度量将结果与[14]和[10]进行比较。图3. ShapeNet上的零件分割结果。请注意，在表2中，汽车和摩托车的性能低于大多数其他这部分是因为这些类别中有更多的零件：汽车4个标签，汽车5个标签。帽子车椅火箭一B图4. 我们的ShapeNet零件分割算法的失败案例。上面一行显示的是地面实况，下面一行是我们的分割结果。我们的网络预测Cap是一张桌子，深蓝色表示桌面，浅蓝色表示桌腿。在第二列中，深蓝色表示汽车的顶部在第三列中，我们的网络分割了椅子扶手，而地面实况没有。在上一篇专栏文章中，我们的网络预测火箭是一架飞机。在最后一列中，即使是一个人也很难区分火箭和飞机。4.3. 稳健性测试我们还通过去除原始数据中的一些点来评估我们的方法的性能和鲁棒性。特别是，我们对ShapeNet进行了采样-8507缺失数据比率精度0%的百分比92.47百分之七十五92.4887.5%91.70表6. ShapeNet部件分割任务的鲁棒性测试。在该评估中，通过最远点采样对点云进行采样。我们测试了VV-Net网络对缺失点的鲁棒性。我们报告的平均精度为不同的缺失数据率。我们的方法只有0。77%的准确率损失，甚至遗漏了87。5%的点云数据。总体访问平均IoU高斯87.78 78.22逆二次 78.82 65.04表7. RBF核函数在S3DIS语义分割任务中的比较我们比较了高斯核与反二次函数。使用不同的缺失数据比率。我们评估所得到的数据集的性能和准确性。表6显示了我们的鲁棒性测试结果。这表明我们的方法对缺失样本不敏感。4.4. 不同RBF核函数的比较我们的RBF函数用于将到每个点的距离映射到其影响。我们比较了高斯核在我们的方法与反二次函数核。利用该核，位置p处的子体素函数值被定义为：表8. S3DIS数据集上的消融研究。第一行：原始结果;第二排：用传统CNN取代G-CNN;第三行：用RBF网格代替RBF-VAE;第四排：用{0，1}网格替换RBF-VAE体素。注意，VAE潜在变量分布被设计为与RBF结合。我们还考虑将G-CNN直接应用于RBF子体素，但由于VAE编码的紧凑表示并降低了性能，因此这是没有用的。总体访问平均IoU平均IoU阈值为0。5奥里（G-CNN +16×16×32 RBF-VAE）85.9875.4079.00Trad. CNN +16×16×32 RBF-VAE80.6767.6171.43G-CNN +32×32×64 RBF78.1564.1368.11G-CNN+64×64×128精细网格82.3670.0074.14表9.VAE的消融研究。第一行：我们的原始结果;第二行：VAE函数被替换为AE函数。使用相同的参数设置（l=8，k=4）。我们观察到更好的准确性与我们原来的VAE。总体Acc.平均IoU平均IoU阈值为0。5VAE（原始算法）85.98 75.40 79.00RBF-AE+GCNN（改进算法） 82.07 69.60 73.38我们将 VAE替换为AE，并在表 9中突出显示了S3DIS数据集上这种改进方法的性能。两种AE和VAE在训练集上接近，而AE的平均重建损失约为2。在测试集上比VAE高2倍由于先验分布假设，VAE具有比AE更好的泛化能力，并且避免了对训练集的潜在过拟合。5. 结论、局限性和未来工作.1f（p）=max2Σ二、（七）本文介绍了一种新的体素VAE网络（VV-Net）的鲁棒点分割。我们的方法是使用v∈V1+σ·||p-v ||2基于径向基函数的变分自动编码器，以及这里V表示点的集合，p是点的中心，σ是预定义的参数，通常是子体素大小的倍数。结果如表7所示，其中使用高斯内核实现了更好的性能。4.5. 消融研究表8显示了S3DIS数据集上的消融研究结果。首先，当用传统CNN 替换G-CNN 时，平均IoU减少了7。79%，这表明对称信息是有用的。我们进一步验证了RBF-VAE的有效性我们发现没有RBF，{0，1}-VAE通常无法产生合理的结果。这是因为点云在3D空间中是稀疏的。例如，在S3DIS中，每个点云包含4096个点。超过64×64×128亚体素，平均点密度每个子体素仅为0。008.在本例中，我们的原始网格大小为（64，64，128），输入{0，1}卷的大小为16MB。使用RBF-VAE，输入大小减少到2MB。与采用{0，1}个子体素作为输入相比，我们的RGB-VAE方案显著降低了子体素的平均值。理论消耗和计算成本。如表所示，它进一步有助于提高性能。将其与群卷积相结合。我们已经比较了它的性能与国家的最先进的点分割算法，并证明了提高的准确性和鲁棒性的知名数据集。虽然我们在大多数类别中观察到改进的性能，但偶尔我们的方法可能对某些输入形状表现不佳如图4所示，网络表明Cap是一个Table，这可能是由组卷积模块引起的，因为模块编码90°对称性。作为今后的工作，我们希望进一步提高准确性和评价性能。对其他复杂点云数据集的管理。VV-Net架构也可用于其他点云处理任务，如正常估计，我们将在未来的投资。确认本工作得到了国家自然科学基金（No. 61828204号61872440）、北京市自然科学基金（No. L182016）、CCF-腾讯开放基金、中国科学院青年创新促进会和NVIDIA公司捐赠GPU。8508引用[1] 放大图片创作者：Iro Armeni，Ozan Sener，Amir R.Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的3D语义解析在IEEE计算机视觉和模式识别会议（CVPR），第1534-1543页[2] Joan Bruna ， Wojciech Zaremba ， Arthur Szlam ， andYann Le- Cun.图上的谱网络和局部连通网络。arXiv预印本arXiv：1312.6203，2013。[3] R. Qi Charles ， Hao Su ， Mo Kaichun ， and LeonidasJ.Guibas

下载后可阅读完整内容，剩余1页未读，立即下载