Grid-GCN:快速可扩展的点云学习

149 浏览量更新于2023-10-23 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于快速和可扩展的点云学习的Grid-GCN徐千庚1孙旭东2吴朝英1王潘曲2乌尔里希·诺依曼11南加州大学2Tusimple，Inc{qiangenx，choyingw，uneumann}@ usc.edu{xudong.sun，panqu.wangtusimple.ai}@ www.example.com摘要由于点云数据的稀疏性和不规则性，直接消耗点的方法已经变得流行。在所有基于点的模型中，图卷积网络（GCN）通过充分保留数据粒度和利用点之间的相互关系，导致显着的性能然而，基于点的网络在数据结构化上花费大量的时间（例如，Faraday PointSampling（FPS）和Neighbor Point Querying），这限制了速度和可扩展性。在本文中，我们提出了一种方法，名为Grid-GCN，快速和可扩展的点云学习。Grid-GCN使用了一种新的数据结构化策略，覆盖感知网格查询（CAGQ）。通过利用网格空间的效率，CAGQ提高了空间覆盖率，同时降低了理论时间复杂度。相比CAGQ 采用了流行的采样方法，如 Faradian PointSampling（FPS）和Ball Query，实现了高达50倍的加速。通过网格上下文聚合（GCA）模块，Grid-GCN在主要点云分类和分割基准测试运行速度比以前的研究快得多。值得注意的是，Grid-GCN在ScanNet上使用81920个点作为输入实现了50 fps补充1和代码2已发布。1. 介绍点云数据在自动驾驶、机器人和无人驾驶飞行器等应用中很受欢迎。目前，LiDAR传感器每秒可以生成数百万个点，提供世界的密集实时表示。点云数据的处理方法有很多种。体积模型是将点云转移到空间量化的体素网格并使用体积卷积在网格空间中执行计算的模型家族[28，45，28]。使用网格作为数据结构化方法，体积方法将点与网格中的位置相关联，并且3D卷积核从相邻体素收集信息。虽然网格数据结构，1https://xharlie.github.io/papers/GGCN supCamReady.pdf2https://github.com/xharlie/Grid-GCN图1：Grid-GCN模型概述。(a)用于点云分割的网络体系结构的图示。我们的模型由几个GridConv层组成，每个层都可以用于下采样或上采样过程。GridConv层包括两个阶段：（b）对于数据结构化阶段，覆盖感知网格查询（CAGQ）模块实现高效的数据结构化，并提供用于高效计算的点组。(c)对于卷积阶段，网格上下文聚合（GCA）模块通过聚合局部上下文在点组上进行图但是，为了保持数据位置的粒度，需要高的体素分辨率。由于计算和内存使用量随着体素分辨率的立方增长，因此处理大型点云的成本很高此外，由于对于大多数点云来说，大约90%的体素是空的[51]，因此不处理信息可能会消耗大量的计算能力。点云数据处理的另一类模型是基于点的模型。与体积模型相比例如，Point- Net [29]直接消耗点云而不进行量化，并在网络的最后阶段聚合信息，因此准确的数据位置是完整的，但计算成本随着点的数量线性增长。后来的研究[30，47，41，37，46]在每一层应用下采样策略来聚合信息56615662到点群中心，因此提取较少的代表点逐层（图 1（a））。最近，提出了图卷积网络（GCN）[32，39，21，49]来为网络层中的每个点组构建本地图，这可以被视为PointNet++架构的扩展[30]。然而，这种体系结构存在高的数据结构化成本（例如，FPS和k-NN）。Liu等人。[27]表明，三种流行的基于点的模型[23，47，41]中的数据结构化成本高达总计算成本的88%在本文中，我们还研究了这个问题，显示的趋势，数据结构的开销方面的可扩展性。本文介绍了Grid-GCN，它融合了体积模型和基于点的模型的优点，以实现高效的数据结构和高效的计算在同一时间。如图1所示，我们的模型由几个GridConv层组成，用于处理点数据。每层包括两个阶段：数据结构化阶段，对代表中心进行采样并查询相邻点;卷积阶段，在每个点组上构建局部图并将信息聚合到中心。为了实现高效的数据结构化，我们设计了覆盖感知网格查询（CAGQ）模块，该模块1）加速中心采样和邻居查询，2)为学习过程提供更完整的点云覆盖。通过体素化实现数据结构化效率，并且通过仅对占用区域执行计算来获得计算效率。我们在第4节中展示了CAGQ为了利用点的关系，我们还描述了一种新的图卷积模块，名为网格上下文聚合（GCA）。该模块执行网格上下文池来提取网格邻域的上下文特征，这有利于边关系计算，而无需增加额外的开销。我们在两个任务上演示Grid-GCN模型：点云分类和分割。具体来说，我们在ModelNet40上执行分类任务，ModelNet10 [43] ，并达到最先进的 93. 1% （无投票），而平均速度比其他模型快 5 倍。我们还在ScanNet [8]和S3DIS [1]数据集上执行了分割任务，并实现了比其他模型平均10倍的速度提升。不-值得注意的是，我们的模型证明了它的能力，实时大-通过在20 ms内处理场景中的81920个点来缩放基于点的学习。（见第5.3.1节）。2. 相关工作为了在2D图像上扩展卷积神经网络模型[12，13]的成功，Voxnet及其变体[28，43，38，4，6]开始将点云或深度图转移到占用网格，应用体积卷积。为了解决内存使用量增加的问题，OctNet[31]为占用的体素构建树结构，以避免在空的空间中进行虽然在数据结构化中是有效的，但是体积方法的缺点是计算效率低和数据粒度损失。点云学习的基于点的方法基于点的模型首先由[29，30]提出，其通过使用池化来聚集点特征来纯化置换不变量。提出了诸如核卷积[2，42]和扩展卷积[36]等方法来更好地捕获局部特征。为了解决排序模糊性，PointCNN [23]预测局部点顺序，RSNet[14]从不同方向依次消耗点基于点的方法中的计算成本随着输入点的数量线性增长。然而，数据结构化的成本已经成为大规模点云的性能瓶颈。点数据的数据结构化策略大多数基于点的方法[30，23，37，26]使用FPS [10]来均匀分布的组中心进行采样。FPS拾取最大化到选定点的距离的点。当中心数不是很小时，该方法的计算时间为O（N2）.一个近似算法[9]可以是O（NlogN）。随机点采样（RPS）具有最小的开销，但它对密度不平衡很敏感。我们的CAGQ模块具有与RPS相同的复杂性，但它一次性执行采样和邻居查询，这甚至比使用Ball Query或k-NN的RPS更快（见表2）。KPConv [36]使用网格子采样来拾取占用体素中的点与我们的CAGQ不同，策略不能查询体素邻居中的点CAGQ 还具有覆盖感知采样（CAS）算法，该算法优化了中心选择，可以实现比FPS更好的覆盖率。或者，SO-Net [22]构建了一个自组织映射。KDNet[15]使用kd树来划分空间。PATs[48]使用Gumble子集采样来取代FPS。SPG [19]使用聚类方法将点分组为超级点。这些方法要么速度慢，要么需要结构预处理。SPLATNet [33，11]中的晶格投影比体素空间保留更多的点细节，但速度较慢。诸如VoxelNet [51，20]等研究通过使用PointNet[29]在每个体素内并应用体素卷积。并行高速模型PVCNN [27]使用类似的方法，但不会逐渐减少每层中的点数。然而，Grid-GCN可以通过CAGQ对大量点进行下采样，并通过考虑局部图中的节点关系来聚合点云学习的GCN图卷积网络已广泛应用于点云学习[41，18，17]。通常为每个点构建局部图5663v vv图2：覆盖感知网格查询（CAGQ）的插图。假设我们想要对M=2个点组进行采样，并为每个组查询K=5个节点。（a）输入是N个点（灰色）。为每个占用的体素列出体素id和点数。（b）我们建立体素点索引，并在每个体素中存储nv=3个点（黄色）。（c）不同取样方法的比较：FPS和RPS更喜欢标记体素内的两个中心。我们的RVS可以随机挑选任何两个占用的体素（例如，（2，0）和（0，0））作为中心体素。如果使用我们的CAS，体素（0，2）将替换（0，0）。（d）中心体素（2，1）的上下文点是其邻域中的黄色点（我们以3×3为例）。CAGQ从这些上下文点中查询5个点（黄色点和蓝色环），然后计算组中心的位置。组，GCN根据点之间的关系聚集点数据。SpecConv[37]通过使用图形傅立叶变换混合点特征。其他研究对中心和节点之间的边缘特征进行建模。其中，[47，26，17，41，49]使用几何关系，而[6，39]探索节点之间的语义关系除了这些功能，我们提出的网格上下文聚合模块考虑覆盖率和提取上下文特征来计算语义关系。3. 方法3.1. 方法概述如图1所示，Grid-GCN构建在一组Grid-Conv层上。每个GridConv层处理N个点的信息并将其映射到M个点。下采样GridConv（N > M）被重复几次，直到学习到最终的特征表示.该表示可以直接用于诸如分类之类的任务，或者在分割任务中通过上采样GridConv层（NM）进一步上采样。GridConv包含两个模块：1. 覆盖感知网格查询（CAGQ）模块，从N个点中采样M个每个组包括K个节点和一个组中心。在上采样过程中，CAGQ直接通过远程连接获取中心，并且仅查询这些中心的节点点2.网格上下文聚合（GCA）模块，为每个点组构建本地图，并将信息聚合到组中心。M组中心作为下一层的数据点传递。为了清楚起见，我们在补充材料中列出了所有符号3.2. 覆盖感知网格查询（CAGQ）在本小节中，我们将讨论 CAGQ 模块的细节。CAGQ的目标是对给定的点云数据进行有效的结构化，简化中心点的采样和邻域点的查询。为了执行CAGQ，我们首先通过设置体素大小（vx，vy，vz）来对输入空间进行体素化。然后，我们将每个点映射到体素索引V_id（u，v，w）=floor（x，y，z）。在这里我们只储存x y z到每个体素中的nv个令Ov表示所有非空体素。然后，我们对M个中心体素Oc<$Ov进行采样。对于每个中心体素vi，我们将其体素邻居π（vi）定义为中心体素邻居内的体素。在图2d中，π（v（2，1））是红色框内的3X3体素。我们将π（vi）中的存储点称为上下文点。由于我们在前一步中建立了点体素索引，因此CAGQ可以快速地检索每个vi的上下文点。之后，CAGQ从每个vi的上下文点中挑选K个节点点。计算组内节点的重心整个过程如图2所示。这里还有两个问题有待解决。(1)我们如何对中心体素Oc Ov进行采样。(2)我们如何从π（vi）中的上下文点中挑选K个节点。为了解决第一个问题，我们提出了我们的中心体素采样框架，其中包括两种方法：1. 随机体素采样（RVS）：每个被占用的体素将具有相同的被拾取概率。在这些中心体素内计算的组中心比RPS在输入点上拾取的中心分布更均匀。我们将在第4节讨论细节。2. 覆盖率感知采样（CAS）：每个选定的中心5664.˜其中f∈c，i最小体素可以覆盖多达λ个被占用的体素邻居。CAS的目标是选择一组中心体素Oc，使得它们可以覆盖最占用的空间。寻求这个问题的最佳解决方案需要迭代所有的选择组合。因此，我们采用贪婪算法来接近最优解：我们首先从O v中随机挑选M个体素作为现任者;从所有未挑选的体素中，我们每次迭代地选择一个来挑战随机现任者。如果增加这个挑战者（同时删除现任者）可以给我们更好的覆盖率，我们就用挑战者替换现任者。对于挑战者vC和现任者vI，竞争力计算为：图3：红点是组中心。黄色的点是它的节点。黑点是前一层中黄色点的节点.覆盖权重是一个重要的功能，因为它对已聚合到每个黄点的黑点的数量进行编码。δ（x）=1，如果x= 0。0，否则，请执行以下操作。ΣC（一）点的特征f i到f i。GCA根据节点与中心的边缘关系，计算出特征点的贡献度，并将这些特征聚合为H加 =V∈π（VC）Σ我δ（CVV）−β· λ（二）中心f 通常，GCA模块可以被描述为f∈c，i=e（χi，fi）<$M（fi）（4）Hrmv=V∈π（V）δ（CV−1）（3）f∈c=A（{f∈c，i}，i∈1，.，（五）是节点的贡献，χ我是其中λ是体素的邻居的数量，并且CV是覆盖体素V的现任者的数量。Hadd表示如果添加VC（通过过覆盖项惩罚）的覆盖增益。Hrmv表示在重新移动VI之后的覆盖损失。如果Hadd> Hrmv，我们用挑战者体素替换现任体素。如果我们将β设置为0，则每次替换都保证提高空间覆盖率。这些方法的比较将在第4节中进一步讨论。节点查询CAGQ还提供了两种策略来从π（vi）中的上下文点中挑选K个节点。1. 立方体查询：我们从上下文点中随机选择K个与PointNet++ [30]中使用的Ball Query相比在图2的场景中，Ball Query从所有原始点（灰色）中采样K个点，并且可能永远不会从只有3个原始点的体素（2，1）中采样任何节点点。2. K-Nearest Neighbors：与传统的k-NN搜索空间都是点不同，CAGQ中的k-NN只需要在上下文点之间进行搜索，使得查询速度大大提高（我们在补充资料中也提供了优化方法）。我们将在下一节中比较这些方法。3.3. 网格上下文聚合对于CAGQ提供的每个点组，我们使用网格上下文聚合（GCA）模块来聚合从节点到组中心的特征。我们首先构造一个局部图G（V，E），其中V由CAGQ提供的群中心和K个结点组成。然后，我们将每个节点连接到组中心。GCA项目节点xyz节点的位置。 M是一个多层感知器(MLP)e是边缘注意函数，A是聚集函数。边缘注意力函数e已经被许多以前的研究探索[47，6，39]。在这项工作中，我们设计了一个新的边缘注意力函数，并进行了以下改进，以更好地适应我们的网络架构（图4）：覆盖权重先前的研究[47，26，17，41，49]使用中心的χ c和节点的χ i来将边缘注意力建模为几何关系的函数（图4 b）。然而，该公式忽略了来自先前层的每个节点点的潜在贡献。直观地说，应该更多地关注具有来自先前层的更多信息的节点。我们在图3中演示了这个场景。考虑到这一点，我们引入了覆盖权重的概念，它被定义为在先前的层中已经聚集到节点的点的数量该值可以在CAGQ中轻松计算，我们认为覆盖权重是计算边缘注意力的重要特征（参见表6中的消融研究）。网格上下文池语义关系是计算边注意力时的另一个重要方面在以前的工作[6，39]中，语义关系是通过使用组中心的特征fc和节点的fea来编码的图fi，其要求从节点中选择组中心在CAGQ中，由于组中心被计算为节点的重心，因此我们提出了网格上下文池，该网格上下文池通过从所有上下文点池化来提取上下文特征fcxt，其充分覆盖了局部图的整个网格上下文池带来以下好处：• fcxt对虚拟群组中心的特征进行建模，5665˜图4：计算从节点n i到中心c的贡献f c，i的不同策略。 fi，χ i是特征图和位置。 e i是从边缘注意函数计算的n i和c之间的边缘特征。（a）Pointnet++[30]忽略ei。（b）基于ni和c之间的低维几何关系计算ei。（c）还考虑中心和节点之间的语义关系，但是c必须在来自前一层的点之一上采样（d）。Grid-GCN 它从所有存储的邻居中池化上下文特征fcxt以在计算中提供语义参考。允许我们计算中心和它的节点之间的语义关系。• 即使在物理点上拾取组中心fcxt仍然是一个有用的功能表示，因为它涵盖了更多的点在附近，而不是只有点在图中。• 由于我们已经在CAGQ中将上下文点关联到fcxt在所有边计算中共享，局部图，并且池化是不需要可学习权重的轻量操作，这引入了很少的计算开销。GCA模块总结在图4d中，边缘张力函数可以建模为e=mlp （ mlpgeo （ xc ， xi ， wi ）， mlpsem（fcxt，fi））（6）4. CAGQ分析为了分析CAGQ的好处，我们在Mod-elNet 40上测试了不同条件下不同采样/查询方法的占用空间覆盖和延迟[43]。中心采样方法包括随机点采样（RPS），Faraday 点采样（ FPS ），我们的随机体素采样（RVS）和我们的覆盖感知采样（CAS）。邻居查询方法包括Ball查询、Cube查询和K-最近邻居。这些条件包括不同的输入点数目、点群中的节点数目和点群数目，它们用N、K和M表示。我们在表2和图中总结了定性和定量评价结果5. 所报告的占用空间覆盖率被计算为所有组的节点所占用的体素的数量与原始N个点所占用的体素的数量之间的比率。更多条件下的结果见补充资料。4.1. 空间覆盖在图5a中，RPS采样的中心集中在具有较高点密度的区域中，使得大部分空间未被覆盖。在图5b中，FPS拾取彼此远离的点，主要是在3D形状的边缘在图5c中，我们的CAS优化了体素选择并覆盖了75。占空间的2%。表2列出了RPS、FPS、RVS和CAS的空间覆盖率百分比。CAS在所有情况下都领先于空间覆盖率（比RPS多30%）。当K较小时，FPS与RVS相比没有优势。有利于CAGQ空间覆盖的因素可归纳如下：• RVS不是从N个点采样中心，而是从占用空间采样中心体素，因此它对点密度不平衡更具弹性（图5）。• CAS通过进行贪婪候选替换进一步优化RVS的结果。每一次更换都保证会带来更好的覆盖率。• CAGQ在每个ocu体素中存储相同数量的点。上下文点更均匀地分布-因此，从上下文点中选取的K个节点也是如此。从而减少了局部区域内密度不平衡造成的覆盖损失。4.2. 时间复杂度我们在表1中总结了不同方法的时间复杂度。详细的推导在补充资料中给出。表2显示了延迟的经验结果。我们看到我们的CAS比FPS快得多，50倍加速。当输入点云的大小为大.这是由于更高的邻域查询速度。由于RVS + k-NN具有更好的时间复杂度，在所有情况下都能取得领先的性能，并且比FPS + k-NN获得6倍的5666（a）随机点采样（b）法拉第点采样（c）覆盖感知采样图5：通过RPS、FPS和CAS显示采样的组中心和查询的节点。蓝色和绿色球表示球查询。红色方块表示多维数据集查询。球和立方体的体积相同。(a)45 .第四十五章6%的占用空间，而FPS占65%，CAS占75。百分之二。样品中心[10]第十届中国国际航空航天博览会O（N）O（NlogN）O（N）查询节点Ball Query Cube Query* k-NN[7] CAGQ k-NN*O（MN）O（MK）O（MN）O（Mnv）表1：时间复杂度我们从N个点中采样M个中心，并查询每个中心的K个邻居。我们将每个体素中的最大点数限制为nv。实际上<而nv通常和K大小相同。算法的时间复杂度为O（NlogN）.* 表明了我们的方法扣除情况详见补充说明。5. 实验特征通道的数量和第一层中的组中的节点的数量（参见表6）。结果示于表3中。我们不经投票就报告结果。对于所有四种设置，我们的Grid-GCN模型不仅在ModelNet 10和ModelNet 40数据集上都实现了最先进的性能，而且具有最佳的速度-准确性权衡。虽然Grid-GCN使用CAGQ模块进行数据结构化，但它的延迟与PointNet相似，PointNet没有数据结构化步骤，但其准确性明显高于PointNet。5.2.三维场景分割数据集和设置我们在两个方面评估我们的Grid-GCN我们在多个数据集上评估Grid-GCN：模-elNet10和ModelNet40[43]用于对象分类，ScanNet[8]和S3DIS[1]用于语义分割。根据PVCNN的惯例[27]，我们报告了每个准确度级别的延迟和性能。我们收集其他模型的结果，无论是从已发表的论文或作者。所有延迟结果均根据相应的批次大小和输入点数报告所有实验均在单个RTX 2080 GPU上进行培训详情见补充资料。5.1. 3D对象分类数据集和设置我们在ModelNet10和ModelNet40数据集上执行分类任务[43]。ModelNet10由10个对象类组成，包含 3991 个训练对象和 908 个测试对象。ModelNet40包括40个不同的类，9843个训练对象和2468个测试对象。我们按照PointNet[29]的惯例准备数据，PointNet使用1024个点和3个空间位置通道作为输入。一些研究使用正常[30，16]，八叉树[40]或kd树作为输入，[26，25]使用投票进行评估。评估为了与具有不同精度和速度级别的不同模型进行比较，我们使用4种不同的设置来训练Grid-GCN，以平衡性能和速度（详情见第5.3节）。变体在大规模点云分割数据集：ScanNet[8]和斯坦福大学3D大型室内空间（S3DIS）[1]。ScanNet由1513个扫描的室内场景组成，每个体素被注释为21个类别。我们遵循[8]中的实验设置，使用1201个场景进行训练，312个场景进行测试。按照 PointNet++[30] 中的常规和S3DIS包含6个大型室内区域，271个房间。每个点都标有13个类别之一由于区域5是唯一一个在每个划分的部分中，对4096个点进行采样用于训练，我们采用[23]中的评估方法。评估我们报告了ScanNet的整体体素标记准确度（OA）和运行时延迟[8]。我们训练了两个版本的Grid-GCN模型，完整模型使用1 ×K节点，紧凑模型使用0.5 ×K个节点。结果见表4。由于分割任务通常使用更多的输入，与分类模型相比，我们在数据结构化方面的优势更加突出。在批量输入相同数量的点（32768）的情况下，Grid-GCN的速度超过PointNet++4。5倍，同时保持相同的准确度水平。与PointCNN [23]和A-CNN [16]等更复杂的模型相比，Grid-GCN是25×5667中心抽样RPSFPSRVS*CVS*RPSFPSRVS*CVS*RPSFPSRVS*CVS*邻居查询球球立方体立方体球球立方体立方体k-NNk-NNk-NNk-NNNKM占用空间覆盖率（%）批次大小= 18812.312.913.114.90.290.500.510.740.840.850.510.771024812864.072.582.385.60.320.780.440.681.471.740.520.721283260.070.161.074.70.370.530.961.1822.2321.082.242.7412812893.699.595.899.70.380.691.031.1732.4832.546.857.2486419.222.922.125.10.641.160.660.821.581.800.650.7681928102482.996.892.494.40.814.900.540.871.535.360.930.9712825679.990.780.093.51.191.191.171.4121.521.515.1917.68128102498.899.999.5100.01.225.251.401.76111.4111.724.1827.6532102470.686.378.391.68.3033.523.346.0219.4943.698.7610.0581920321024098.899.2100.0100.08.93260.484.229.3520.38272.489.6517.44128102472.788.279.192.69.6834.724.328.7171.9993.0250.761.941281024099.7100.0100.0100.010.73258.495.8311.72234.19442.8769.0283.32表2：数据结构化方法的性能比较，在ModelNet40上运行[43]。中心抽样方法包括RPS、FPS、CAGQ的RVS和CAS。邻居查询方法包括Ball查询、Cube查询和K-最近邻居。条件变量包括N个点、M个组和每组K个邻居。占用空间覆盖范围=数量。查询点占用体素的个数/ num.原始N个点的已占用体素。OA≤ 91。5OA≤ 92。0OA>92。0表3：ModelNet10和ModelNet40的结果[43]。我们输入（默认为xyz）OA 延迟（ms）<84.honor 0PointNet[29] 8× 4096 73.9 20.3OctNet[31] volume 76.6-PointNet++[30] 8×4096 83.772.3Grid-GCN（0. 5×K）4×819283.9 16.6OA> 84。0SpecGCN[37]-84.8-PointCNN[23] 12×2048 85.1250.0[50]第五十话网格-GCN（1×K）4×819285.4 20.8A-CNN[16] 1× 819285.4 92.0网格-GCN（1×K）1×819285.4 7.48表4：ScanNet上的结果[8]。Grid-GCN比其他模型平均加速10倍。在批量大小为4和1的情况下，我们用1×K个邻居节点来测试我们的模型。一个紧凑的模型，0。5×K也有报道。MinkowskiNet[5]但它的github示例显示在Scannet上的延迟为103毫秒。我们在表5中显示了S3DIS的定量结果全模型达到了最先进的精度。通过模型简化，我们的紧凑型型号Grid-GCN1−3的速度也超过了其他型号。我们将在消融研究中讨论其细节。和12倍的速度，同时达到最先进的精度。值得注意的是，Grid-GCN可以以50到133FPS的速度运行，具有最先进的性能，这是实时应用所需要的受欢迎的模特以及图6中的视觉结果。我们的紧凑版Grid-GCN通常比其他数据结构模型快4倍到14倍。值得注意的是，即使与没有数据结构的PointNet相比，我们仍然是1。速度提高6倍，同时在mIOU中实现12%的性能增益对于我们的完整模型，我们仍然是最快的，并实现了PVCNN++的2倍加速[27]，这是一项专注于速度的最改进.模式 lNet40 ModelNet10延迟输入（默认为xyz）OA MACC OAMACC（毫秒）PointNet[29]16×102489.286.2--15.0SCNet[44]16×102490.087.6--SpiderCNN[47] 8 ×102490.5---85.0O-CNN[40]八叉90.6---90.0SO-net[22]8 ×204890.887.394.193.9-网格-GCN116×1024 91.588.693.492.115.93DmFVNet[3]16×102491.6-95.2-39.0[48]第四十八话8 ×102491.7--88.6Kd-net[15]kd树91.8 88.594.093.5-[30]第三十话16×1024 91.990.7-26.8网格-GCN216×1024 92.089.795.895.321.8[41]第四十一话16×1024 92.2 90.2-89.7PCNN[2]16×1024 92.3-94.9-226.0[24]第二十四话16×1024 92.6--美国有线电视新闻网[16]16×1024 92.6 90.395.595.368.0KPConv[36]16×6500 92.7---125.05668K渠道池化重量OA延迟网格-GCN032(32 64，256）没有没有91.1 15.4ms网格-GCN132(32 64，256）没有是的91.5 15.9ms网格-GCN232(64 128，256）没有是的92.0 21.8ms网格-GCN364(64 128，256）是的是的92.7 26.2msGrid-GCN满 64（128，256，512）是的是的93.1 42.2ms表6：ModelNet 40上的消融研究[43]。我们的模型有3层GridConv。K是第一个GridConv中的节点数。我们还更改了这3个层的输出特征通道的数量Grid context pooling（这里简称pooling）也在Grid-GCN0−2中被删除。Grid-GCN0还删除了边关系中的覆盖权重。活泼这证明了CAGQ和网格上下文池的效率和有效性。覆盖权重也很有用，因为它在延迟方面引入的开销很小，但提高了整体准确性。(a) 地面实况（b）我们的5.3.1可扩展性分析图6：S3DIS [1]区域5上的语义分割结果Num.点数（N）2048 409616384 40960 81920Num.（M）5121024204840968192输入（默认为xyzrgb）mIOU OA延迟（ms）PointNet++4.78.619.964.6218.9mIOU<54. 0Grid-GCN4.34.78.112.319.8表5：S3DIS[1]区域5的结果Grid-GCN平均比其他模型快8倍我们将GridConv的输出通道减半为Grid-GCN（0。5×Ch）。5.3.消融研究在ModelNet10和ModelNet40的实验中，我们的完整模型有3个 GridConv层。如表6所示，我们对GridConv层的输出特征通道数量、第一个GridConv层中的节点数量K一方面，减少Grid-GCN的通道数量使Grid-GCN3的速度提高了37%另一方面，降低K并从Grid-GCN3中删除网格上下文池表7：不同尺度下ScanNet[8]上的推断时间（ms）。我们将Grid-GCN与PoinNet++[30]在每个场景的不同输入点数量上进行批量大小为1。M是第一个网络层上的点编组数。我们还通过逐渐增加ScanNet上的输入点数量来测试模型我们将我们的模型与PointNet++ [30]进行了比较，PointNet++是最有效的基于点的方法之一。我们在表7中报告了结果。在2048点的设置下，是相似的。然而，当输入点从4096增加到81920时，Grid-GCN实现了PointNet++的11倍加速，这表明我们的模型在处理大规模点云时具有主导能力。6. 结论在本文中，我们提出了Grid-GCN快速和可扩展的点云学习。 Grid-GCN 通过引入覆盖感知网格查询（CAGQ）实现了高效的数据结构和计算。CAGQ通过体素化大大降低了本文还提出了一个图卷积模块网格上下文聚合（GCA），将上下文特征和覆盖信息结合到计算中。通过这两个模块，Grid-GCN在各种基准测试中实现了最先进的精度和速度。Grid-GCN以其优越的性能和无与伦比的效率，可用于大规模实时点云处理应用。PointNet[29]8 ×409641.09-20.9[41]第四十一话8 ×409647.94 83.64178.1SegCloud[35]-48.92--RSNet[14]8 ×409651.93-111.5[30]第三十话8 ×409652.28-DeepGCN [21]1 ×409652.49-45.63TANCONV[34]8 ×409652.885.5-Grid-GCN（0.5×Ch）8 ×409653.21 85.6112.9mIOU>54。03D-UNet[6]8×963体积54.93 86.12574.7[23]第二十三话-57.26 85.91-[27]第二十七话8 ×409657.63 86.8741.15669引用[1] I. Armeni，A. Sax，A. R. Zamir和S. Savarese用于室内场景理解的联合2D-3D语义数据。ArXiv电子印刷品，2017年2月。二、六、八[2] Matan Atzmon，Haggai Maron，and Yaron Lipman.基于扩展算子的点卷积神经网络 arXiv 预印本 arXiv ：1803.10091，2018。二、七[3] Yizhak Ben-Shabat 、 Michael Lindenbaum 和 AnathFischer。3dmfv：使用卷积神经网络实时进行三维点云分类。IEEE Robotics and Automation Letters，3（4）：3145-3152，2018。7[4] Andrew Brock、Theodore Lim、James M Ritchie和NickWeston。用卷积神经网络进行生成和判别体素建模。arXiv预印本arXiv：1608.04236，2016。2[5] Christopher Choy，JunYoung Gwak，Silvio Savarese.4D时空卷积：Minkowski卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第3075-3084页，2019年。7[6] O¨zgu¨ nC¨ic¨ek ， AhmedAbdulkadir ， SoerenSLienkamp ，Thomas Brox，and Olaf Ronneberger.3d u-net：从稀疏注释学习密集体积分割。医学图像计算和计算机辅助干预国际会议，第424-432页。施普林格，2016年。二、三、四、八[7] Thomas Cover 和 Peter Hart 最近邻模式分类。 IEEEtransactions on information theory，13（1）：21-27，1967. 6[8] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在proc 计算机视觉与模式识别（CVPR）IEEE，2017年。二、六、七、八[9] 灵族。使用Voronoi图进行不规则图像采样。博士论文，M。科学论文，以色列理工学院，1992年。二、六[10] Yuval Eldar，Michael Lindenbaum，Moshe Porat，andYehovah Y Zeevi.图像渐进采样最远点策略。IEEE图像处理，6（9）：1305-1315，1997. 二、六[11] Xiuye Gu，Yijie Wang，Chongruo Wu，Yong Jae Lee，and Panqu Wang.Hplflownet：用于大规模点云场景流估计的分层全面点阵流网在IEEE计算机视觉和模式识别会议论文集，第3254-3263页2[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。2[13] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第4700-4708页，2017年。2[14] Qiangui Huang，Weiyue Wang，and Ulrich Neumann.用于点云三维分割的回流切片网络在IEEE计算机视觉和模式识别会议论文集，第2626-2635页二、八[15] 罗曼·克洛科夫和维克多·伦皮茨基逃离细胞：用于三维点云模型识别的深度kd网络。在IEEE计算机视觉国际会议论文集，第863-872页二、七[16] Artem Komarichev，Zichun Zhong，Jing Hua. A-cnn：点云上的环形卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第7421-7430页六、七[17] Shiyi Lan，Ruichi Yu，Gang Yu，and

下载后可阅读完整内容，剩余1页未读，立即下载