视点不变坐标转换下的点云卷积函数

157 浏览量更新于2023-10-15 收藏 960KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1287××用视点不变坐标变换李兴义，吴文轩，张晓丽弗恩和李福新俄勒冈州立大学电气工程与计算机科学学院{lixin，wuwen，xfern，lif}@ oregonstate.edu摘要最近，人们对在不规则采样点云上执行卷积产生了极大的兴趣。点云与光栅图像非常不同，因为点云上不能有规则的采样网格，这使得不规则邻域下的鲁棒性成为重要问题。特别是，k-最近邻（kNN）邻域对泛化提出了挑战，因为邻居的位置在训练和测试时间之间可能非常不同。为了提高点卷积算法对不同邻域采样的鲁棒性，本文提出了一种新的视点不变坐标变换作为点卷积的权值生成函数的输入，同时引入了常规的3D坐标。这允许我们同时向网络提供非不变、尺度不变和尺度+旋转不变的坐标，以便网络可以自动学习将哪些包含在卷积函数中。从经验上讲，我们证明了这有效地提高了SemanticKITTI和ScanNet数据集上点云卷积的性能，以及对显著测试时间下采样的鲁棒性，这可以大大改变kNN邻域中邻居的距离。在实验中，在纯基于点的方法中，我们在Se manticKITTI和ScanNet上使用可比较的基于点的卷积框架KPConv实现了可比较的语义分割性能，但由于使用kNN邻域而不是一个kNN球，因此效率明显更高。1. 介绍卷积神经网络（CNN）重新定义了计算机视觉中几乎所有任务的最新技术。为了将这种成功从2D图像转移到3D世界，有大量的工作旨在开发3D点云上的卷积运算。这对许多应用至关重要，例如自动驾驶和虚拟/增强现实。点云上卷积的一个主流定义涉及离散化由输入点定义的邻域上的连续卷积函数[50，22，65，18，64，73]。在许多点云卷积框架中，多层感知器（MLP）用于隐式地学习每个点上的卷积权重。这样的操作是置换不变和卷积不变的，但是由于需要计算所有点及其所有邻居的所有卷积权重，初始公式是内存密集型的。[66]提出了PointConv，它将MLP解耦为两部分，其中计算可以在多个卷积核之间共享，因此大大降低了内存需求，并允许在点云上构建深度CNN它在3D点云中作为纯点卷积网络具有最佳性能之一，如果图像被视为（常规）点云，则可以在CIFAR-10上匹配2DCNN性能。然而，到目前为止，3D点云分割基准的最佳性能仍然是通过融合算法[62]获得的，该算法联合使用点云网络和稀疏3D卷积方法[14，6]，将点云离散化到3D网格上。原则上，点卷积和稀疏3D卷积都是卷积，因此它们应该具有类似的行为，并且不应该要求使网络结构复杂化并减慢推理速度的融合。因此，我们开始探索点云卷积网络的泛化能力似乎较差的原因，并寻求改善它的方法。我们已经确定的一个罪魁祸首是点云卷积中邻域的选择基于点云的网络在卷积中使用的邻域上引入了新的复杂性。在2D图像中，我们习惯于使用固定大小的邻域，例如3 3或5 5。PointConv和其他基于点的网络采用k-最近邻（kNN），这可能会更加不规则（图1）。1（a）），并且可能使点云网络更难从训练邻域推广到测试邻域，因为这些邻域可能以非常不同的方式是不规则的。通常，点云网络1288图1. （a）点云中的kNN;邻里关系可能非常不规则;（b）ε-球邻域控制邻域的距离;（c）深度网络中kNN和ε-ball之间的邻居搜索时间比较。两者都使用nanoflann和SemanticKITTI上的默认KPConv模型架构实现。邻域搜索比kNN慢2-4倍（最佳彩色视图通过随机抖动点位置来增加数据，但是这种抖动仅提供对不同邻域大小的局部概括。然而，这种简单的快捷方式事实上，即使在2D图像中，从业者通常也依赖于将所有图像重新缩放到相同的比例来避免这种泛化问题。在最先进的KPConv [56]中采用的另一种常见方法是使用一个球，它可以确保相邻点的距离不会太大（图2）。（b）款。然而，kNN的计算速度明显慢于kNN，这给这些网络的训练和测试时间带来了巨大的负担（图10）。（c）第1段。此外，所得到的奇数个相邻点（一些点可能具有更少的相邻点，甚至为0）可能在计算时间和存储器中引入进一步的浪费（例如，在计算时间和存储器中的浪费）。大量零填充以确保向量化计算）。为了使kNN邻域表现良好，重要的是在邻域的选择上建立一些不变性，以便它从训练邻域推广由于PointConv是点坐标上的MLP，因此一个有趣的想法是通过坐标变换直接构建这些不变性。在本文中，我们引入了一种新的视点不变（VI）的描述符的三维坐标利用表面法线和不变的正交基之间的角度然而，需要注意的是，现实生活中的数据很少对旋转/缩放完全不变，例如：对象的尺度可以是许多分类类别的指示符，例如冰箱或汽车，并且在地面上的放置可以是网络的显著特征。我们的研究结果表明，这种视点不变坐标变换与原始3D坐标的组合往往会从kNN邻域上的卷积中产生显着改善的结果，因此它可以与基于点云的卷积网络中最先进的基于球的KPConv相媲美。这将大大提高基于点的网络的应用效率。我们的VI变换包含不变规模变化，这使得网络能够推广到不同规模的社区。当点云在测试时间期间被大量下采样时，这种泛化可以导致显著的性能改进，因为这将使kNN邻域的半径与训练时间显著不同，并且对非不变卷积函数提出挑战。此外，实验表明，与VI trans-form较小的模型遭受的性能损失少得多，铺平了道路，更小的模型具有更高的效率和鲁棒性部署在实践中。虽然我们还没有完全弥合点云卷积方法和稀疏体积方法之间的差距，但我们相信这项研究是朝着更好地理解不规则邻域中卷积的含义迈出2. 相关工作基于体积和投影的方法从2D光栅图像中的卷积到3D的直接扩展是计算体积网格上的卷积[68，39，45，63]。在密集采样的点云中，稀疏体积卷积[6，14]目前比基于点的方法更好。然而，当采样密度非常低或不均匀时，点云卷积具有潜在的更广泛的用例。它们也可以用于高于3维的卷积，例如4D或6D成本体积卷积[67]，其中离散卷积很难应用。将点云投影到多视图2D图像[53，43，34]或晶格空间[52]上的一些其他方法可能会遇到相同的问题。目前，LIDAR的最佳方法是融合基于点的头和体积头[38，49]，这表明两种方法都有各自的优点。特别是，体积方法通常不能获得足够的细节，例如，在薄的部分和物体边界上。改进基于点的网络也可以潜在地改进融合性能基于点的方法PointNet[42] 首先尝试直接在点云上工作，PointNet++[44]通过添加层次结构对其进行了改进。其他研究1289∈--ΣN{|联系我们也试图利用分层结构来聚集来自具有MLP的相邻点的信息[28，35]。其他基于点的方法包括[31][59][25][79][71][58][74]使用不同的想法来改进PointNet[42]并取得了较好的成绩。通常，点云上的卷积方法比上面列出的方法表现得更好[50，22，65，18，64，73]提出学习连续卷积滤波器的离散化。[22]利用侧网络来生成2D卷积核的权重。[50]将其推广到3D点云，并[64]提出了一种有效的近似，对应于深度卷积。EdgeConv[65]通过MLP对相邻点和中心点之间的成对特征进行[18]这是一个考虑因素。逐点CNN[20]为预定义的体素仓定位内核权重，因此它不灵活。SpiderCNN[73]提出了一个多项式权重函数，我们在本文中进行了实验然而，他们没有利用正则化来控制平滑度。PointConv [66]中的主要贡献是一个有效的变体，它不显式生成权重函数，但可以实现，它消除了存储权重的内存需求，允许扩展到“现代”深度网络大小，例如。几十层，每层有几百个过滤器。这也是唯一一篇显示CIFAR-10结果与2DCNN结果相匹配的论文。PointConv 的主要竞争性基于点的卷积方法是KPConv [56]。在KPConv中，卷积权重被生成为每个点和锚点之间的核函数，3D空间中的点被预先指定为分别用于每个层的参数。KPConv由于平滑和良好正则化的核公式而具有良好的性能，但它在锚点的规范中引入了显著更多的参数，并且它们的球邻域计算代价很高。我们表明，与建议的VI坐标变换，PointConv与kNN是竞争与KPConv在性能方面，而更快，由于使用网络[11，46]。也有人对群论方法感兴趣[7，3，9]。这些工作中的大多数要么包括显著的计算开销，要么只适应一种类型的不变性。[8，78，8，54，70，41]旨在解决旋转不变性，但他们的实验需要在训练过程中进行SO（3）增强，如果训练数据集很大，则成本可能很高。在点云上，已经提出了视点不变的点描述符，用于在深度学习之前进行识别和重新定位[47，13]在深度学习中，[78，36，23，29]接近旋转不变性。[36，23，29]提出为每个邻域提取旋转不变特征。[62，75]构建空间Transformer侧网络（RNN）以学习输入点云的全局变换[36]利用了邻域的质心，它对邻域的数量很敏感。[29]该方法依赖于球与从原点到中心点的直线[23]对一组局部邻近点进行主成分分析（PCA）我们的工作不是仅仅关注不变性，而是第一次利用不变坐标变换来研究非不变任务中卷积运算的鲁棒性，并显示出切实的改进。在实验中，我们对这些不变的方法进行了比较，并表明它们未能提高非不变任务的性能。3. 方法3.1. 背景：点云点云可以表示为点的集合P=p1，p2，.，其中每个点pi包含位置向量（例如，如果是3D，则是（x，y，z）R3）以及特征向量（RGB颜色、表面法线等）。包括PointConv在内的一系列工作基于连续3D卷积的离散化将卷积操作推广到点云[50，18，65 ，66] 。对于中心点pxyz=（ x，y， z），其PointConv定义为：的kNN邻域。与KPConv类似，PCNN[1]也为锚点分配核权重，但它不考虑卷积的相邻点。PConv（S，W，F）xyz=（δx，δy，δz）∈GS（δx，δy，δz）（一）卷积中的尺度和旋转不变性在识别系统中建立旋转和尺度不变性一直是计算机视觉的长期目标。一种标准的方法是数据增强[51，16，57，27，5，17]，其中训练集通过包含具有随机重新缩放或旋转的对象来增强。其他研究试图将深度CNN与侧网络整合[33，80，61，72，76，24]或注意模块[60，48]。[82]在馈送到池化层之前，将输入与同一CNN滤波器的几个旋转版本进行卷积。一些技术提出直接在深度卷积层的输入或中间输出上学习变换[21，32]。W（δx，δy，δz）F（x+δx，y+δy，z+δz）其中（δx，δy，δz）表示pxyz的局部邻域G中的点的坐标偏移.F（x+δx，y+δy，z+δz）表示相邻点的特征，W（δx，δy，δz）生成卷积的权值，并通过MLP隐式近似，在[66]中称为WeightNet。最后，S（δx，δy，δz）表示逆局部密度以平衡点云的非均匀采样的影响。PointConv相对于先前连续卷积的新颖性在于它通过以下公式有效地计算W（δx，δy，δz）：1290−−Σµ−µ}{∈|×µµµα α ααµ··||C（ p，K）×µµ µXyzµµµ将其重写为MLP的输出：W（δx，δy，δz）=W2g（W1（δx，δy，δz））（2）其中W1是具有向量输出的具有12层的感知器网络，g是激活函数（例如，ReLU），W2是最终线性层的权重矩阵。因为g（W1（δx，δy，δz））在所有滤波器之间共享，并且W2与（δx，δy，δz）无关，我们可以将卷积重写为：kDTree上的更多节点。通过最先进的nanoflann实现，我们在SemanticKITTI上使用默认的KPConv网络结构进行的测试表明，对搜索球的邻域搜索始终比相应的kNN搜索慢2 - 4倍（图1）。1（c）），大大增加了培训和测试时间。3.3. 一种视点不变的坐标变换PointConv依赖于（x，y，z）坐标来计算PConv（S，W，F）xyz=W2（δx，δy，δz）∈GS（δx，δy，δz）（三）权重对对象的旋转以及点云的采样率在g（W1（δx，δy，δz））F（x+δx，y+δy，z+δz）在此等效公式中，对于一个层中的所有不同滤波器，求和仅可计算一次，因为它们仅在最终W2上不同。这在网络中产生了显着的速度和内存节省，并允许从PointConv层构建数十层的深度网络对于步幅-2卷积/池化，可以仅对点云进行子采样[44]。制剂eq. （3）还允许在（x，y，z）上计算输出[66]，其中没有具有不包含其自身的邻域的特征。因此，分类和语义分割任务可以直接用PointConv网络解决。也可以直接合并其他常用的2D卷积运算，例如：残余连接。扩张卷积可以通过首先对较大的kNN邻域进行采样，然后从邻域中进行子采样来实现。3.2. kNN与球邻域在这一小节中，我们描述了一种视点不变坐标变换，其可以用作PointConv中的权重生成函数的更好的输入。我们的坐标变换是在3D中定义的，基于这样的想法，即表面法向量和从一个点到另一个点的向量可以跨越3D空间的正交基，该正交基对于旋转是不变的，然后在表面法向量和该基之间计算的角度也可以用作尺度不变特征。计算表面法线（通常使用来自邻域的PCA）是许多以前的点云网络（例如，[44]）。但是我们用它来建立视点不变坐标变换的方法是新颖的。假设中心点pµ的表面法线为nµµ，对于每个表面法线为n µ α的点pα，我们给出了它的视点不变（VI）坐标变换w.r.t. pµ是一个8 维向量 r。我们首先记为α=pαpµ，作为pα和pµ之间的差。利用Gram-Schmidt过程从{n<$µ，<$rα}生成一个标准正交基PointConv中的邻域G通常由kNN定义。图1（a）示出了用于将数据传输到网络的潜在鲁棒性问题。{r，v，w}其中：<$rαn<$−（r<$$>n<$）r<$r×vKNN邻域。也就是说，稀疏点云的场比r=||，v = 1 −（rn||,vˆ=√1−(rˆ⊤nˆ，w=）2r×v密集分布的点云。如果仅在密集（高分辨率）点云上训练，则当在测试期间处理稀疏点云时，学习的权重函数可能无法很好地推广到更大的（看不见的）感受野。另一方面，基于球的邻域[56]对不同的采样率具有鲁棒性（图1）。（b）款。 F或点pi，记N∈（pi）=pjPd （pi，pj）<∈为其球邻域.为了减轻计算负担，我们（随机）从N（pi）中选择最多K个邻居。从N（pi）中实际选择的邻居被记为C（pi，K）。与kNN相比，式中表示外积，如图所示二、请注意，该基很少退化，因为在3D表面点云中，nµ和rα不太可能共线。具有全局旋转的场景，基础和法线向量被相同地旋转。因此，nµ、nrα和nα之间的角度保持不变。我们还计算了n阶α和n阶μ在标准正交基上的投影长度. 因此，我们的视点不变描述符提供了矢量nµ、nrα和nα的完整表征。通常，对于pµ邻域中的每个点pα，我们提取以下旋转不变坐标变换：邻域限制了邻居之间的最大距离w.r.t.中心点。由于不同的球可能包含不同数量的邻居，我们取代正常的-βα=[n<$α·n<$µ，rα·nµ，∥rˆα∥rα·nα，nv，nw，∥rˆα∥（五）主论文中的等式（4）中的子S（δ，δ，δ），rα·n||]||]1.一、请注意，PointConv帧的灵活性ϵ我工作允许每个邻居中的邻居数量可变区然而，由于需要探索，因此球邻域搜索比kNN慢得多其中表示叉积。我们将其命名为视点不变（VI）描述符，其中前5个维度是缩放和旋转不变的，因为它们是归一化向量之间的角度，最后3个维度是µ（四）µ1291∈µ·旋转不变。我们相信，使用这种视点不变描述符生成卷积权重将提高对训练集和测试集中的邻域之间的不同尺度和旋转的鲁棒性。注意，PointConv中的权重生成网络是MLP，其原则上具有能够近似（δx，δy，δz）的任何非线性函数的通用近似特性，因此，有足够的数据，网络可以学习W1中的固定变换，其与等式（1）一样有效或更有效，这（五）、然而，首先，目前还不清楚这需要多少数据，其次，深度网络可以很容易过拟合到不太健壮的描述符，因为它们只能看到训练集，而不能充分理解泛化问题。在我们对当前数据集的实验中，我们总是观察到VI变换相对于将（δx，δy，δz）输入到W1的常规方法的显著改进。图2. 对于一对点的给定局部中心点pµ和pα N（pµ），可以得到一组vie wpoint-agnostic基（wr，wr，wv），因此，网络必须具有选择的灵活性。从经验上讲，我们已经观察到显着的- icant性能改善，这种串联的不同层次的不变性。使用VI描述器的额外计算成本很小。它只影响PointConv计算的权重网络中的第一层在输出维数为8或16的情况下，这只会给网络增加微不足道的成本然而，它提供的更好的概括是迷人的。我们采用Open3D库[81]中的估计法线函数，半径= 0.1，最大邻域为30。对于100K点，它需要大约0。0782秒的CPU上的计算，这是不到1/3的时间的网络的前向传递我们使用的硬件包括一个RTX2080 Ti和一个AMD 3600CPU。3.4.完全旋转不变性VI-PointConv 实现了权重的旋转不变性。然而，对于一个完全旋转不变的网络，需要旋转不变的卷积权重和旋转不变的特征。通常使用的（x，y，z）特征不是不变的。为了从网络中获得完全不变性，当需要完全不变性时，我们提出利用旋转不变主曲率作为特征。更具体地说，我们根据[40]计算主曲率（k1和k2）、高斯曲率（G）和平均曲率（H）。最终的特征输入向量是[k1，k2，G，H]。用Gram-Schmidt过程从α和nμ生成，以及可以从它们中提取诸如nμm和nμv之间的角度之类的v个点变化特征VI描述符可以单独使用，也可以与传统的（δx，δy，δz）表示（我们使用简写VI+XYZ作为包含版本）连接，作为等式中权重生成函数W（）的输入。（三）、当连接时，它为学习算法创造了空间，可以自动从旋转不变、缩放和旋转不变以及非不变（δx，δy，δz）卷积权重中进行选择。在现实生活中的分割场景中，并非所有的内核都应该是尺度或旋转不变的。例如，通常骑自行车的人会在自行车的上面，而不是在它的下面。这种关系将仅用非不变特征而不是旋转不变特征来捕获。表1.ModelNet40与Data SO（3）用于3D点云分类的比较SO3/SO 3表示模型是用SO（3）旋转训练测试的，而none/SO 3表示模型是在没有SO（3）旋转测试的SO 3增强的情况下4. 实验4.1. ModelNet40我们首先在ModelNet 40数据集上进行实验，主要目标是展示VI-PointConv在Mod-elNet 40[69]数据集上在SO（3）中产生旋转不变卷积的能力。在这里，我们利用曲率作为输入特征，以实现完全不变性。方法SO3/SO3无/SO 3PointNet（with T-Net）[42]79岁。9-[44]第四十四话八十6-DGCNN（with T-Net）[65]84. 4-[37]第三十七话82岁6-SpiderCNN（with T-Net）[73]78岁7-RIConv[78]86岁。4-美国有线电视新闻网[8]86岁。9-[54]第五十四话87岁0-三角网[70]86岁。7-SPH-Net[41]87岁6-RTN+DGCNN[12]86岁。5-1292--图3. ScanNet数据集的语义分割结果示例。从左到右的图像是地面真值分割、PointConv的预测和VI-PointConv的预测。(Best颜色显示）为了评估SO（3）中的性能，我们以任意角度随机旋转每个点云，并独立执行五次实验，并将平均结果用作最终结果。1024个点用作所有方法的输入。我们的框架是完全旋转不变的，因此在训练期间不需要任何旋转增强，其中所有基线都需要在训练时进行旋转增强在表1中，VI-PointConv显著优于其他基线，而不需要额外的训练时间增加。4.2. ScanNet我们在ScanNet v2[10]数据集上进行3D语义场景分割。我们使用官方分割与1，201个场景用于训练，312个场景用于验证。我们实现了最先进的16层PointConv架构，实现了66. 6%的ScanNet测试集，由作者提供[66]。由于基准组织者不允许在测试集上进行消融研究，补充材料中提供了有关实验设置的更多详细信息为了研究对尺度和邻域大小的鲁棒性，我们在测试时对每个验证点云从原始的100k点进行二次采样，-60K，40K，20K，10K。这相当于downsam-在2D空间中填充图像，因为它增加了kNN邻域，其中K是固定的。(Note 2D常规CNN通常不适用于这种激进的测试-1293MLP输入σ10万6万40 K20 K10 KVI+XYZReLU七十164 四六三。0576454VIReLU63岁360 759. 755 044. 7VI色鹿63岁七六一。557 753 一百四十2表面法线+ XYZReLU六十岁。257 556 八点五十四八块五9表面法线ReLU五十三一百五十六块五247 6433仅XYZReLU61岁758 753 434 六点十七分8VI（仅第一层）ReLU63岁一百六十557 八点四十五八点二十八。2表2. 使用16层PointConv网络的ScanNet验证数据集的性能结果（mIoU，%）。第一列显示被测试的配置，σ列显示激活函数，100k，. . . 10k是指子采样点的数量。默认邻居数为8。可以看出，VI+XYZ显著优于所有其他变体，包括-计算表面法线+（δx，δy，δz），其中包含相同的信息量。此外，单独的VI输入优于表面法线和（δx，δy，δz）输入。MLP输入NBR100K 60K 40K 20K 10KVIKNN63岁3六十岁。7五十九755.044. 7VI联系我们61岁6五十八6五十八052岁3四十6XYZKNN61岁7五十八7五十三4三十四6十七岁8XYZ联系我们四十八9四十三339岁7三十620块7表3. 在ScanNet数据集上的16层PointConv网络上的mIOU结果中，NBR代表无约束类型。100k，. . .，10k是指二次采样点的数量。可以看出，在这两种情况下，kNN的性能都优于B-ballMLP输入NBR100K 60K40K20K10KVI+XYZKNN六十四561岁3六十岁。6五十七351岁2VIKNN61岁0五十八8五十七550块839岁4XYZKNN55. 3 五十三3四十七0三十7十六岁1VI联系我们五十九2五十七555. 1 44. 8 31岁1[77个国家]KNN五十三0四十八644. 4 31岁4十六岁2[29日]联系我们44. 8 四十三039岁3二十六十七岁7岁5表4.在扫描网络数据集上的4层PointConv网络上的mIoU结果，NBR代表非线性类型。 100k，. . . ，10k是指测试时的二次采样点数方法mIoU（%）（试验）mIoU（%）（val）[44]第四十四话三十三岁。9-SPLATNet[52]39岁3-[55]第五十五话四十9-[31]第三十一话四十五8-[74]第七十四话63岁063岁5[66]第六十六话66岁。661岁0KPConv[56]68岁469岁。2VI-PointConv（我们的）67岁6七十一2表5. ScanNet测试集时间做wnsampling[30]）。此外，每个子采样点云进一步绕z轴旋转4个不同的预定义角度-{0°，90°，180°，270°}。这样的操作1294··−可以显著改变局部尺度和旋转。我们还评估了在训练期间不应用旋转增强时的性能。我们发现不同旋转角度之间的性能变化小于1%（见补充资料），因此报告了所有角度的mIoU平均值。验证集性能显示了几个不同的结果在表2中，我们在不同的变体VI+XYZ、仅VI、仅XYZ-之间评估16层PointConv模型（仅将增量坐标（δx，δy，δz）输入到W（）函数，如等式2中所示）。（1）），以及曲面法线和曲面法线+XYZ。对于最后两个设置，我们直接将表面法线作为额外的输入维度输入到等式中的W（）（1），它包含与VI相同的信息内容，但没有不变性。实验结果表明，所提出的VI描述子显著提高了算法的性能和鲁棒性.特别地，它对测试时间下采样比作为输入的（δx，δy，δz）坐标显著更鲁棒例如，在20k个测试点（反映来自训练的5倍下采样），VI描述符仍然保持57。6%的精度，而（δx，δy，δz）坐标版本的性能下降到34。6%，相对改善66. 4%。VI相对于表面法线的改进也非常显著-mIOU改进了8% 10%，这表明VI比常用的表面法线更好地为了进一步探索VI描述符的潜力，我们仅针对第一层用VI描述符替换（δx，δy，δz）与倒数第二行相比，VI描述符显着提高了性能以及鲁棒性。然而，如果我们比较最后一行和第二行（其中VI描述符应用于每一层），则鲁棒性（例如，在10K点处）显著下降，这表明在后面的层中输入VI描述符显著有助于鲁棒性。最后，当我们将VI坐标与（δx，δy，δz）输入，它产生的所有性能最好的-71 在原始验证集上为2%，并且在几乎所有二次采样场景中都更好。这表明，尺度不变、旋转不变和非不变坐标的组合是有益的，潜在地为网络提供了选择其所需的不变性的灵活性。表3显示了使用PointConv的kNN和Bull-ball之间的比较。有趣的是，采用具有（δx，δy，δz）的双球实际上显著降低了性能。使用VI，性能下降不太严重，但仍然存在。我们不确定为什么使用PointConv的3D点云不能使用D-ball，但我们怀疑PointConv可能对每个邻域中具有相同数量的邻居更敏感，以便学习到的权重函数相互比较。1295方法mIoU（%）路人行道停车他地建筑车卡车自行车摩托车其他车辆植被后备箱地形人自行车摩托车手围栏极交通标志PointNet[42]十四岁661岁6三十五7十五岁81 .一、441岁4四十六岁。30的情况。11 .一、30的情况。30的情况。831岁04.第一章6十七岁60的情况。20的情况。20的情况。012个。9二、43 .第三章。7SPG[26]十七岁4四十五028岁50的情况。60的情况。6六十四3四十九30的情况。10的情况。20的情况。20的情况。8四十八9二十七岁2二十四岁60的情况。3二、70的情况。120块8十五岁90的情况。8[52]第五十二话十八岁4六十四639岁10的情况。40的情况。0五十八3五十八20的情况。00的情况。00的情况。00的情况。0七十一19 .第九条。919号。30的情况。00的情况。00的情况。023岁1五、60的情况。0[44]第四十四话20块1七十二041岁8十八岁7五、662. 3 五十三70的情况。91 .一、90的情况。20的情况。2四十六岁。5十三岁8三十00的情况。91 .一、00的情况。0十六岁9六、08. 9[55]第五十五话四十983岁963岁9三十三岁。4十五岁483岁4九十8十五岁2二、7十六岁512个。179岁。5四十九3五十八123岁028岁48. 1 四十九0三十五828岁5[66]第六十六话五十三086岁。268岁6五十七7十六岁089岁。994 2 三十229岁5三十三岁。9三十578岁9六十岁。863岁7四十八8四十五720块4五十九9五十三4三十八岁。6[19]第十九话五十三9九十7七十三。7六十岁。320块486岁。994 2 四十1二十六岁0二十五8三十八岁。981. 4 61岁366岁。8四十九2四十八27 .第一次会议。2五十六3四十九2四十七7KPConv[56]五十八888岁8七十二761岁331岁6九十5九十六。0三十三岁。4三十2四十二544.384.869岁。269岁。161岁561岁611个国家。8六十四2五十六5四十七4VI-PointConv（我们的）五十九688岁8七十二563岁5三十二791.4九十五941岁8三十八岁。6三十五0四十五783岁968岁066岁。951岁250块1二十七岁666岁。6五十七4五十四8表6.SemanticKITTI测试集上基于点的方法的语义场景分割结果在表4中，我们显示了一个更简单的4层模型的结果（更多细节见补充资料）。可以看出，具有kNN的VI仍然显著优于（δx，δy，δz）。特别是，该4层模型中的VI + XYZ已达到与16层模型相当接近的性能，特别是在更显著的测试时间下采样率（例如40k、20k和10k点）下。在10k点上，4层模型甚至优于16层模型，显示了在需要时在实践中部署这种轻量级模型的潜力此外，我们还与[29，77]中的旋转不变描述符进行了比较。最后两行显示了结果，表明我们的VI坐标在实际数据中显著优于那些旋转不变在图3中，我们显示了比较PointConv和VI-PointConv的一些定性结果。可以看出，使用VI-PointConv，PointConv下更多不确定的区域现在可以正确分割，这推动了显着的改进。测试集性能在测试集上，我们实现了与KPConv [56]1296−−（基于点的方法中的最新技术）相当的mIoU（表5）。然而，我们的框架在验证集上显着优于KPConv [56]。请注意，PointConv中使用的kNN仍然比KPConv中的kNN更有效（有关更多详细信息，请参见此外，不可能将VI应用于KPConv，因为它们选择的锚点可能不位于曲面上，并且没有与它们相连的曲面法线。因此，我们认为VI-PointConv比KPConv提供了更大的灵活性。4.3. SemanticKITTI我们还评估了SemanticKITTI[2]（单次扫描）的语义分割性能，SemanticKITTI [2]由从驾驶场景中的22个序列中采样的43，552个每个点云包含10个13k点，由单个Velodyne HDL-64 E激光扫描仪收集，在3D空间中跨度高达160×160×20米。官方训练集包括19，130次扫描（序列00-07和09 10），并且有4，071次扫描（序列08）用于验证。对于每个3D点，仅给出（x，y，z）坐标，而没有任何颜色信息。这是一个具有挑战性的数据集，因为在LIDAR 扫描中，遥远的点是稀疏的。我们采用与ScanNet完全相同的16层架构最小批量为16。初始学习率为10−3，并且每6个历元衰减一半。我们不与任何子采样预处理集成。中报告的表6中，我们实现了基于点的基线之间最先进的语义分割性能，提高了0。比KPConv高8%，比KPConv高6. 比标准PointConv高6%5. 结论在本文中，我们提出了一种新的视点不变变换的三维点坐标，作为输入的权重生成网络的PointConv。这种坐标变换允许我们将相对坐标的旋转、尺度不变以及非不变描述符排列起来，以便网络可以学习选择生成卷积函数所需的不变性。实验表明，这可以显着提高PointConv的性能，使其与基于KP-Conv的KNN-ball邻域相当，并且对不同的kNN邻域、点云的测试时间下采样和小得多的模型更鲁棒。我们的方法为PointConv增加了最小的计算成本，我们相信有许多应用程序可以从中受益。在未来，我们希望进一步探索它的应用在视点不变性是非常重要的问题，如同步定位和地图（SLAM）中的重定位问题。致谢这项工作得到了国家科学基金会资助CBET-1920945，IIS-1751402和IIS- 1911232的部分支持。1297引用[1] Matan Atzmon，Haggai Maron，and Yaron Lipman.基于扩展算子的点卷积神经网络。2018年计算机图形与交互技术国际会议[2] J. Behley，M. Garbade，A. Milioto，J. Quenzel，S.本克C. Stachniss和J.胆语义：一种用于LiDAR序列语义场景理解的数据集。在IEEE/CVF国际会议上，计算机视觉（ICCV），2019年。[3] Arunkumar Byravan和Dieter Fox Se 3-nets：使用深度神经网络学习刚体运动。在2017年国际机器人与自动化会议[4] Chao Chen，Guanbin Li，Ruijia Xu，Tianshui Chen，Meng Wang，and Liang Lin. Anternet：深度层次聚类网络，具有严格的旋转不变表示，用于点云分析。 2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），第4989[5] 龚成，周培成，韩俊伟。Rifd-cnn：用于目标检测的旋转不变和Fisher判别卷积神经网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月[6] Christopher Choy，JunYoung Gwak，Silvio Savarese.4D时空卷积：Minkowski卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第3075-3084页[7] 塔可·科恩和麦克斯·威林群等变卷积网络。在国际机器学习会议上，第2990-2999页[8] TacoSCohen， MarioGeiger ， JonasK？hler ，andMaxWelling. 球形 cnns 。 arXiv 预印本 arXiv ：1801.10130，2018。[9] Taco S Cohen 和 Max Welling 。可控 cnn 。在 ICLR ，2017。[10] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在Proc.计算机视觉和模式识别（CVPR），IEEE，2017。[11] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017.[12] 邓爽，刘波，董秋磊，胡占义。旋转变换网络：学习视点不变点云进行分类和分割。在2021年IEEE多媒体和博览会国际会议（ICME），第1-6页[13] Bertram Drost Markus Ulrich Nassir Navab 和 SlobodanIlic。全局建模，局部匹配：高效而稳健的三维物体识别。见CVPR，第998-1005页。IEEE计算机协会，2010年。[14] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。CVPR，2018年。[15] Fabian Groh ，Patrick Wieschollek和 Hendrik P.A. 伦施Flex-convolution（网格世界之外的百万级点云学习）。在2018年12月的亚洲计算机视觉会议（ACCV）上。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。在ECCV。2014年[17] J oaoF. 恩里克斯和安德里亚·韦达尔迪。Warpedconv-tions：对空间变换的有效不变性在2017年国际机器学习会议（ICML）上[18] P. Hermosilla、T. Ritschel，P-P Vazquez，A. Vinacua，以及T.罗平斯基用于非均匀采样点云上学习的蒙特卡罗卷积。 ACM Transactions on Graphics （ Proceedings ofSIGGRAPH Asia 2018），37（6），2018。[19] Qingyong Hu，Bo Yang，Linhai Xie，Stefano Rosa，Yulan Guo，Zhihua Wang，Niki Trigoni，and AndrewMarkham. Randla-net：大规模点云的高效语义分割。IEEE计算机视觉与模式识别会议论文集，2020年。[20] Binh-Son Hua、Minh-Khoi Tran和Sa

下载后可阅读完整内容，剩余1页未读，立即下载