学习局部位移实现点云数据的完整性

20 浏览量更新于2023-10-25 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11568学习局部位移实现点云数据的完整性YidaWang 1，David Joseph Tan 2，Nassir Navab 1，FedericoTombari 1，21技术人员1谷歌公司。摘要我们提出了一种新的方法，旨在从表示为3D点云的部分扫描对象和SEMANIC场景完成我们的架构依赖于三个新的层，连续使用的编码器-解码器结构内，专门为手头的任务开发。第一个通过将点特征与一组预先训练的局部描述符进行匹配来进行特征提取。然后，为了避免丢失单个描述符作为标准操作（如最大池）的一部分，我们提出了一种替代的邻居池操作，该操作依赖于采用具有最高激活的特征向量。最后，解码器中的上采样修改了我们的特征提取，以增加输出维度。虽然这个模型已经能够实现与最先进的竞争力的结果，我们进一步提出了一种方法来增加我们的方法来处理点云的通用性为了实现这一目标，我们引入了第二个模型，该模型将我们的层组装在一个Transformer架构中。我们评估两种架构的对象和室内场景完成任务，实现国家的最先进的性能。1. 介绍了解整个3D空间对于人类和机器了解如何安全地在环境中导航或如何与周围的物体交互至关重要。然而，当我们从某个视点捕获对象或场景的3D结构时，由于自遮挡和/或来自其周围的遮挡，整个几何结构的大部分为了解决这个问题，场景[2，27，32]和物体[16，20，39，44，45]的几何完成已经成为一项任务，该任务需要进行2.5D/3D观察并填充遮挡区域，如图所示。1.一、有多种方法来表示3D形状。点云[3，6]，体积网格[8，27]，网格[11]和隐式表面[18，21，40]是最常见的数据。这些表示用于大多数与3D相关的计算机视觉任务，例如分割，分类和完成。对于几何完备化，输入：部分扫描明确重构后视镜！输出量：完成我们的方法图1.从输入的部分扫描到我们的对象完成，我们可视化了重建中的细节量。大多数工作集中在点云或体数据上。其中，具有明确定义的局部邻域的特性使得体积数据更容易用3D卷积处理[7，41，42]。由预定义局部邻域引入的一个缺点是由于体素的恒定分辨率而导致的不准确性，这意味着一个体素可以表示几个小结构。另一方面，点云具有不限制局部分辨率的优点处理点云主要有两个问题：未定义的局部邻域和无组织的特征图。为了解决这些问题，PointNet++ [23]，PMP-Net [35]，PointConv [37]和PointCNN [13]采用k-最近邻搜索来定义局部邻域，而PointNet [22]和Soft-PoolNet[33]采用池化操作来实现每突变不变特征。值得注意的是，与PointNet [22]中的全局特征相比，通过涉及k-最近邻搜索以形成Point-Net ++ [23]中的局部特征，进一步改进了点云PointNet [22]的几个变体也成功地改进了点云完成，如Fold-ingNet [43]、PCN [45]、MSN [16]中所示。其他方法（如SoftPoolNet [33]和GRNet [39]）明确表示排序特征图和体素空间中的局部邻域。本文研究了局部特征的分组，以提高点云的物体和场景的完整性。我们将这些操作应用于编码器-解码器架构中11569其在作为我们的参数模型的一部分的一组位移向量的帮助下迭代地此外，我们还引入了一个新的池- ING机制称为邻居池，旨在下采样的编码器中的数据，而在同一时间，保留个人的特征描述符。最后，我们提出了一个新的损失函数，逐步重建的目标从可观察到的遮挡区域。所提出的方法在ShapeNet [3]的对象完成数据集以及NYU [25]和CompleteScanNet [36]的语义场景完成上进行了评估，获得了显著的改进，从而产生具有细粒度细节的高分辨率再现。2. 相关作品本节重点介绍三个最相关的领域点云完成。给定类似于图1的物体的部分扫描。1、3D完成的目的是估计缺失的形状。在大多数情况下，丢失的区域是由于自遮挡，因为部分扫描是从对象的单个视图捕获的。特别是对于点云，Fold- ingNet [43]和PaddasNet [11]是最早提出基于PointNet [22]特征的对象完成的作品之一，通过将一个或多个2D网格变形为所需形状。然后，PCN [45]通过变形一组更小的2D网格来扩展他们的工作，以重建更精细的结构。通过编码器-解码器架构，ASFM-Net [38]和VRCNet[20]将编码的潜在特征与完成形状先验进行匹配，从而产生良好的粗略完成结果。为了从精细重建的部分扫描中保留观察到的几何形状，MSN [16]和VR-CNet[20]通过使用最小密度采样（MDS）或观察到的表面的最远点采样（FPS）并建立跳过连接来绕过观察到的几何形状。通过嵌入体积子架构，GRNet [39]保留了具有体积U连接的离散化输入几何形状，而在最近的工作中，PMP-Net [35]逐渐重建从观察到最近的遮挡区域的整个对象。PointTr [44]还专注于预测被遮挡的几何形状，是通过将部分扫描代理转换为一组被遮挡代理以进一步细化重建来实现点云完成的前几个Transformer方法之一点云要素。值得注意的是，大量的对象完成工作[11，16，33，35，39，43，45]依赖于PointNet功能[22]。[22]的主要优点是，通过最大池化是置换不变的。这是输入点云的一个关键特征，因为它的数据是非结构化的。然而，最大池化操作分解逐点特征并忽略3D空间中的局部邻域。这促使SoftPoolNet [33]通过基于激活对特征向量进行排序来解决这个问题，而不是为每个元素取最大值实际上，他们能够将这些特征连接起来形成一个2D矩阵，这样就可以应用CNN的传统2D卷积除了通过池化操作构建特征表示外，PointNet++[23]还使用最远点采样（FPS）对点的局部子集进行采样，然后将其馈送到PointNet [22]。基于此特征，SA-Net [34]然后使用KNN将不同分辨率的特征分组以进行进一步处理，而PMP-Net [35]使用PointNet++特征来识别应该重建对象的方向。PointTr [44]还通过将输入点的位置编码添加到Transformer中来解决置换不变问题，而无需池化。语义场景完成。所有的点云计算都是为了重建一个物体而设计的。由于大小和内容的差异，将这些方法从对象扩展到场景是困难的当我们尝试为对象训练这些方法时，我们注意到噪声水平显著增加，以至于场景中的大多数对象显然，对于语义场景补全，目标不仅是构建场景的完整重构，而且还要对每个组件进行语义标记。另一方面，已经有许多基于SSCNet [27]发起的体素网格的语义场景完成方法。使用具有3D卷积的类似体积度量数据[7，41，42]，VVNet [12]对从深度图像反投影的3D体积进行卷积，从而显示相机视图而不是TSDF体积。后来的作品，如3D-RecGAN [42]和ForkNet [32]，在训练期间使用鉴别器来优化卷积编码器和解码器。由于3D卷积在内存消耗方面很重，特别是当输入以高分辨率呈现时，SketchSSC [4]学习场景中所有对象的3D边界，以快速估计不变特征的分辨率真的。虽然目前已有不少针对体语义场景的完成方法，但针对本文所实现的点云语义场景的完成，还没有3. 运营商无论是从单个深度图像重建对象还是场景，目标都是处理给定点11570PPF∈S·i=1··我∈i=1[gb（fa）+h（fa）]b=1我d（f，δi）+ βF {}重建出完整的结构。大多数深度学习解决方案[16，20，33，43，45]通过构建编码器-解码器架构来解决这个问题。编码器获取输入点云以将其相对地下采样为其潜在特征。然后，解码器迭代地对潜在特征进行上采样以重构对象或场景。在本节中，我们将说明我们的新颖的下采样和上采样操作，以满足点云完成。此后，在以下部分中，我们使用我们的操作符作为构建块来组装两种不同的编码器-解码器架构，它们执行对象完成和语义场景完成。我们还讨论了相关的损失函数。3.1. 下采样操作为了形式化下采样操作，我们将输入表示为特征向量Fin={f} |F在|哪里（一）（c）第（1）款（b）第（1）款-11图2. (a)k-关于锚点f的最近邻;（b）锚点f + δi周围的位移向量和相应的权重σi;以及（c）对于所有i，最接近的特征σf到f+δi。因此，如果我们的目标是构建一组输出特征向量，每个输出特征向量的维度为Dout，则我们将该集合构造为，Dout，|Fi n|fi是特征向量，|·|是集合中元素的个数。注意，在编码器的第一层中，然后设置F_ina=1其中不同的可训练参数集合{（δi，σi）}s到输入点云的坐标。我们引入一个分配给每个元素，而不同的i=1每一个人，新颖的下采样操作，灵感来自迭代最近点（ICP）算法[1，5]。从in取一个任意的锚点f，我们首先定义一个向量δRDin。从可训练变量δ中，我们找到最接近f+δ的特征并计算距离。这被正式表述为一个函数把向量。此外，（2）中的变量s和（4）中的变量Dout是超参数。我们将此操作称为特征提取。值得一提的是，所提出的下采样操作与3D-GCN[ 15 ]不同，3D-GCN [15]仅采用余弦相似性。但规模仍然很大d（f，δ）=minf∈Fin（f+δ）−不变，因此适用于对象分类和分割，它们忽略了局部3D其中δ表示来自f的位移向量。用多个位移向量来描述局部几何，每个位移向量都有一个权σ∈R.然后我们将集合赋值为{（δi，σi）}s，并将它们与加权函数进行聚合，几何形状;因此，由于局部几何形状的原始比例丢失而使得完成困难。邻居共享下采样的最后一步操作是通过池化来减小F怎么-tioni=1g（f）=σtanhαi=0时（二）出来然而，与图最大池（GMP）[15]不同的是，它在所有向量上取特征的元素最大值，我们选择具有最高激活。因此，虽然GMP分解其中常数α和β相加以获得数值稳定性。这里，g（f）中的双曲正切在距离d（）小时产生更接近1的值，而在距离大时产生更接近0的值。在实践中，我们可以加快（1）用k-最近邻搜索每个锚点。这种操作的一个简单的例子如图所示二、这说明了第一层中的操作，在该层中，我们处理点云，以便我们可以相对于（δi，σ i）s几何地绘制in中的特征。此外，为了加强锚的影响，在此操作中，我们还介绍了函数h（f）=ρ·f（3）将f投射到ρRDin上，这是一个可训练的参数。注意，函数g（）和h（）都产生标量值。F输出=（四）11571τΣ·作为其池化操作的一部分，我们保留来自Fout的特征描述符。根据（4）中Fout的定义，我们将每个向量faD出局Aa=tanh |g b（fa）|（五）b=1根据（2）中g（）的结果。此后，我们只取具有最高激活的特征向量的数量的1。3.2. 上采样操作编码器中的上采样和池化操作将点云减少为潜在向量。在这种情况下，如果我们直接使用（4）中的操作，则解码器中的第一层以一个向量结束，因为|F在|是一个随后，所有11572FF·|F|特征提取上采样邻居池特征提取特征提取特征提取邻居池上采样位置编码特征提取几何感知Transformer编码器几何感知Transformer解码器图3.这种架构是由建议的运营商建立其编码器和解码器。解码器中的其它层产生单个向量。为了解决这个问题，我们的上采样迭代地运行（4），这样，表示为层的输入，我们将输出特征向量集构建为图4.该架构源自transformers的主干，其中我们使用所提出的操作符将输入的3D点转换为令牌并执行由粗到细的策略。该编码器由特征提取和邻域池化的四个交替层组成。由于输入中的点的数量减少了128倍，我们使用最大池运算符来提取向量作为我们的潜在特征。从编码器获取潜在特征，然后从一系列上采样算子构造解码器，uN向上Fup={Fout}u=1=，[gu（f）+hu（f）]D out，a=| Fin|，u=N向上（六）最终以16,384分的优异成绩完成。4.2. 变压器BaBab=1a=1，u=1第二个建筑旨在展示潜水员-这使向量的数量增加了N。因此，up是特征向量中的Nu除了Sec. 3.1，我们的上采样操作也将N作为超参数。4. 编解码器体系结构为了揭示我们运营商在SEC的优势。3（即特征提取、邻域池化和上采样），我们使用它们作为构建块来构建两种不同的架构。第一个直接实现我们的运算符来构建编码器-解码器，而第二个利用我们的运算符来改进从PointTr [44]导出的变换器。我们建议读者参考补充材料以了解架构的详细参数。4.1. 直接应用第一种架构的目标是建立仅从所提出的运营商（具有ad-最大池）构建它在点云完成中已经具有竞争力。然后，我们提出了一个编码器-解码器架构的基础上，我们的运营商单独如图所示。3 .第三章。操作员的能力，以改善PointTr [44]使用变压器的最新技术。因此，我们提出了一个基于transformer的架构，该架构源自[44]和我们的运营商，如图所示。4.第一章在计算注意力机制的transformer，部分扫描进行二次采样，由于图形处理器的时序约束PointTr [44]实现了远距离点采样（FPS）以减少点的数量，并实现了MLP以将点转换为特征。相反，我们的架构适用于建议的运营商。类似于Sec。4.1，这涉及交替特征提取和邻居池化。由于傅立叶特征[28]和SIREN [26]已经证明正弦激活有助于在逐层结构中呈现复杂信号及其导数，因此将基于3D坐标的位置编码在图4中，我们将此块称为点到令牌。此后，我们使用[44]中的几何感知变换器，它会产生一个粗糙的点云。从粗点云，然后我们用我们的算子替换他们的粗到精策略。这包括一系列交替的特征提取和上采样操作器，如图所示。4.第一章特征提取上采样邻居池上采样特征提取上采样邻居池上采样特征提取上采样邻居池上采样特征提取上采样最大池化粗到细解码器编码器积分兑换代币11573ΣΣPPΣPPP.SPPPL|P|(a) 输入(b) 地面实况最远点采样(c) PoinTr邻居池(e) 我们的结果图 5.第一行比较了 PointTr [44]中的远点采样（ FPS）、PointTr [44] 中的图最大池化（ GMP ） [15] 以及我们在Transformer架构中提出的邻居池化所选择的点令牌。然后，这些令牌被馈送到Transformer和粗到细策略，以产生第二行中所示的重构。(a) 输入（b），无（c），有（d）接地真相图6.比较在具有和不具有L顺序的对象完成中重建的点云的顺序与值得强调的是，Lout→gt=p∈Poutp−从PointTr [44]中了解架构并理解变更的含义。图5中示出了点到令牌和粗到细对整个架构的贡献。我们可以从该图中观察到，来自PointTr [44]的FPS仅找到远处的点，而我们的邻居池化的结果绘制了输入点云的轮廓，以捕获对象的有意义的结构。值得注意的是，通过查看我们的草图，我们已经可以确定该对象是一张桌子。这与PointTr [44]中的随机点此外，我们的粗到细的策略，统一重建的平面区域上的表，以及其基础。后来，在SEC。7，我们数值评估这些优点，以表明各个组件有自己的优点。因为我们之前在SEC讨论过。3.1我们的下采样操作与3D-GMP [ 15 ]的区别，我们很好奇地看到图3.1中的重建。5如果我们用[ 15 ]的余弦相似性和GMP替换PointTr [ 44 ]中的FPS。与PointTr类似，新组合选择遥远的点作为其标记，而最终重建中的表相比之下，我们的代币Lgt→out=p−out（p）2（8）p∈Pgt其中，Rpi（p）是在点云Pi中找到与p最近的点的双射函数。点的顺序。在使用（7）和（8）进行训练后，我们注意到输出重建中的点是从左到右排序的，如图所示。第6（b）段。我们想利用这个组织，进一步调查这种行为。假设的想法，在点中，我们确信输入点云必须是它的一部分，我们引入了一个损失函数，强制第一个子集在出是类似于在。我们将这个损失函数正式写为L阶=S（θout（p））·p−out（p）2（9）p∈P在其中θout（p）是基于θout（p）的out中最近点的索引，而更有意义，最终结果更准确。（θ）=1，如果θ≤|中P|0，否则（十）5. 损失函数给定输入点云（例如，从深度图像来看），完成的目标是建立一组点，以填补我们输入数据中缺失的区域。由于我们以监督的方式训练我们的架构，我们表示Pgt作为地面真理。建成为了评估预测的点云，我们施加了地球移动距离[9]。将输出点与地面实况进行比较，反之亦然，是一个阶跃函数，如果索引在第一个输入点内，则返回1。当我们在图6（c）中用顺序绘制结果时，我们注意到，顺序从观察到的移动到被遮挡的。此外，在训练时，可以看到精细的几何细节，例如椅子的扶手，L秩序;从而改善整体重建。语义场景完成。除了在Sec. 为了完成（7）、（8）和（9）中的损失函数，将语义标签添加到预测的云Pout中的每个点。给定Nc个范畴，我们表示图最大池(d)PointTr +GMP第一最后11574c=1PΣ−ΣγL(a) 输入(b) FoldingNet(c) PCN(d) MSN(e) SoftpoolNet（f） VRCNet(g) PoinTr(h) 我们的（Dir）(i) 我们的（跨）(j) 地面实况图7.对象补全结果中，我们用红点突出显示错误。将每个点标记为独热码li=[li，c]nc为地面实况完成形状。输入扫描是COM-第i个点inout和第c个类别。由于训练是监督的，因此地面实况点云也被标记有语义类别。在训练中建立预测点云与（7）中的地面实况之间的对应关系之后，还提取了地面实况语义标签“fulli”。随后，计算第i个点的二进制交叉熵Ns该数据库提供2，048个点的低分辨率输出和16，384个点的高分辨率输出。我们遵循8猫的标准评估-所有对象都被粗略地归一化到相同的尺度，点坐标范围在-1到1之间。数值结果。我们基于来自Completion3D [29]，PCN[45]和MVP [20]的三种评估策略进行实验。对8个对象（平面，=1微升INC=Ii，c卷筒li，c+（1−1）i，c）（1−logli，c）（十一）cabinet，car，chair，lamp，sofa，table，vessel），他们分别通过L2-Chamfer distance，L1-Chamfer distance和F-Score@1%来测量预测的重建。并将语义损失函数公式化为|Pin|Lsemantic=（十二）活泼地请注意，在本文中，我们还遵循标准协议，其中为倒角距离提供的值乘以103。虽然表1只显示了平均值，其中重量|Pin|0的情况。01γ=我i=i（十三）所有类别的年龄结果，我们请读者参阅补充材料进行更详细的比较。该表中的一个关键观察结果是我们的直接架构超过大多数其他方法的结果的在11种方法中，我们的倒角距离L输出→gt+L gt→输出触发器，以在完成开始收敛时增加语义在训练中的影响。请注意，γ是一个重要因素，因为输出点云在初始迭代中不稳定，这意味着在完成开始收敛之前，它可能会突然从一个迭代变化到下一个迭代。6. 实验为了突出所提出的方法的优点，本节重点介绍了两个实验6.1. 宾语补足语我们在ShapeNet [3]数据库上评估单个对象的几何完成，其中他们将部分扫描的点云作为输入，C11575LL仅比3种方法差，而我们的F-Score@1%比所有方法都好。因此，这确立了我们运营商的实力，因为我们的第一个架构完全由它组成。此外，我们的第二种架构将运算符与Transformer结合在一起，将倒角距离的误差降低了 3-5% ，并将 F-Score@1% 的精度提高了4.5%。该表还考察了秩序对我们重建的影响。有序训练使我们的结果提高0.12-0.13的倒角距离和0.013-0.021的F-Score@1%，验证了我们在图1中的观察结果。六、定性结果。我们比较了图中的对象完成结果。7.最近提出的方法： Fold- ingNet [43] ， PCN [45] ， MSN[16]，SoftPoolNet [33]，VRC-[20][24][25][26]图中的红点突出显示了重建中的错误。所有的方法都重建了一个16,384点的点云，11576××Lin等[14个]6012.0Geiger和Wang [10]6019.6SSCNet [27]6030.5VVNet [12]6032.9卫星网络[17]6034.4ForkNet [32]8037.1CCPNet [46]24038.5SketchSSC [4]6041.1SISNet [2]6052.4我们的（直接）6040.0–with γ = 1 in L6037.2我们的（Transformer）6042.4–with γ = 1 in L6038.9我们的（Transformer）–without L–input P表1.对Completion3D [29]、PCN [45]和MVP [20]数据集及其对象完成任务的相应指标进行FoldingNet获得2，048分，MSN获得8，192分。由于FoldingNet和PCN利用了它们的数学假设，即它们依赖于使一个或多个平面网格变形，因此它们倾向于过度平滑它们的重建，其中更精细的细节（例如船）被展平。相比之下，我们的方法可以执行更好的光滑区域以及更精细的结构。然而，最近的方法，如[16，20，33，44]也可以在船上产生然而，它们产生了更多的错误，这在非传统的灯或椅子上突出显示总的来说，我们的重建更接近地面真相故障案例。除了定性的结果，我们还研究了图中的失败案例。8. 他们中的大多数都是有着不寻常结构的物体，比如汽车，轮子另一个问题是当输入点云的数量不足以描述对象时，表2.语义场景完成在纽约大学[25]数据集。分辨率（x）中的值是输出体积分辨率，即x×0。6x ×x。椅子值得注意的是，与最先进的技术相比，我们的重建在这些情况下仍然更好。6.2. 语义场景补全该评估旨在通过点云或SDF体积从单个深度图像重建场景，其中每个点或体素用语义类分类。最初为2.5D语义分割引入的NYU [25]和ScanNet [6]，后来被注释为语义完成[27，36]，是该领域最相关的基准数据集之一。这些数据集包括成对的深度图像和对应的语义标记的3D重建。语义场景完成与体素。纽约大学提供的室内场景的真实扫描是用Kinect深度传感器采集的。继SSCNet [27]之后，语义类别包括12个不同形状和大小的类别：空的空间，天花板，地板，墙壁，窗户，椅子，床，沙发，桌子，电视，家具和其他物体。由于其他点云完成不处理语义分割，因此我们通过与执行完成和语义分割的基于体素的方法进行比较来开始我们的评估，例如[2，4，10，12，14，17，27，32，46]。考虑到体积数据通过IoU进行评估，我们需要将点云转换为体素网格进行比较。点云优于体素的一个显著优点是我们不受特定分辨率的约束。由于大多数方法的评估值为60 36 60，因此我们将点云转换为此分辨率。我们的方法实现了具有竞争力的平均IoU为42.4%，优于除SISNet之外的所有其他方法[2]。然而，在这方面，(a) 输入(b) PointTr（c）Ours（Dir）(d) 我们的（跨）(e) 地面实况值得一提的是，我们的方法面临额外的问题，图8.对象完成失败案例的示例。与从点云到vox的转换相关的错误FoldingNet [43][33]第三十三话[第29话]PCN [45]MSN [16]GRNet [39]心电图[19][47]第四十七话CRN [30][31]第三十一话VRCNet [20][44]第四十四话ASFM-Net [38]我们的（直接）–without L–input P19.0711.0714.2518.22–––9.138.129.226.688.358.475.1114.319.2012.159.649.978.83––8.29––8.468.595.37–0.5760.6140.6900.6770.7360.7700.724–0.741–0.8010.7880.923Completion3DPCNMVP方法决议平均IoU方法L2-倒角L1-倒角F-评分@1%6.647.960.8166.744.468.094.950.7950.96211577L方法CompleteScanNet NYUFoldingNet [43]11.2514.66[第11话]8.9210.12PCN [45]8.199.98MSN [16]7.288.65[33]第三十三话8.279.29GRNet [39]4.565.80VRCNet [20]4.295.45[44]第四十四话5.085.92我们的（直接）3.174.72我们的（Transformer）3.044.38表3.对CompleteScanNet [36]和NYU [25]数据集进行场景完成评估，测量使用L2距离（乘以103）训练的平均倒角距离，输出分辨率为16，384。埃尔斯此外，NYU数据集中的家具的地面实况体素是一个实体体积，这对于点云方法来说不是一个合理的格式，点云方法这实际上降低了我们方法的IoU。此外，表2包括一个小的消融研究，以验证来自（13）的γ在语义上的贡献。如果我们抛弃（13）通过将γ设置为1，我们模型的IoU降低了7.5-9%;因此，证明了自适应加权语义损失函数的优势点云场景完成。另一个相关数据集来自ScanNet [6]，该数据集由CompleteScan-Net [36]补充了真实语义完成。这包括总共45，451个成对的部分扫描和语义完成训练。我们在表3中的评估将2，048个点作为输入，并使用16，384个点重建场景。由于之前没有关注点云场景完成的工作，因此我们将其与为单个对象完成而设计的方法进行比较，例如 PCN [45] ， MSN [16] ，SoftPoolNet [33]和GR-Net [39]。根据我们在表3中的评估，我们的架构的两个版本都获得了最好的结果。值得注意的是，我们还在表3中的纽约大学数据集上比较了这些方法。同样，所提出的架构也实现了点云场景完成的最7. 消融研究本节重点介绍我们的运营商在Transformer架构中的优势。尽管我们采用了PointTr [44]中的变换器，但我们认为我们添加的每个组件对整体性能都很重要为了评估这一点，我们将点到标记和粗到细分解，然后，我们组成表4，以混合和匹配具有用于对象和场景完成的不同的从粗到精的方法的不同在这两个表中，我们将其他由粗到细的方法分类为：（1）变形，包括变形3D网格的操作;（2）解卷积，其用MLP、1D或 2D 解卷积处理 ; 以及（ 3 ）边缘感知特征扩展（EFE）[19]。然后，我们用黄色突出显示对于每行中的任何给定骨干，我们的粗到细方法都会产生最好的结果。此外，对于每个列中的任何给定的粗到细策略，我们的主干都是最好的。因此，本研究基本上证明了我们的Transformer架构中的每个拟议组件在整体性能中具有重要作用。8. 结论我们提出了三种新的点云处理算子。为了发挥这些运营商的价值，我们将它们应用于两个新的架构，是专为对象完成和语义场景完成。第一个将建议的操作符以编码器-解码器的方式组装在一起，而第二个将它们合并到变压器的上下文中。值得注意的是，这两种架构都产生了极具竞争力的结果，后者在对象和场景的点云完成方面达到了最先进的水平。对象完成粗到细骨干变形deconv EFEOursMSN [16]7.289.34 7.156.91[44]第四十四话5.485.71 4.913.76[33]第三十三话10.08八点二十七分七点六五7.63GRNet [39]VRCNet [20]9.258.095.615.268.88五点零八分4.904.21我们4.93 4.99 4.12三点零四分场景完成粗到细骨干变形deconv EFEOursMSN [16]九点九七12.319.269.08[44]第四十四话八点三八8.498.318.13TreeGAN [24]14.26九点七二9.129.05[33]第三十三话11.73九点二十8.758.64GRNet [39]9.12八点八三8.738.51VRCNet [20]10.0310.208.528.26我们8.198.308.07 七点九六个街区. 在实践中，我们分离主干，从粗到精的策略，将部分扫描中的点作为输入并输出粗点云显然，在我们的方法中，points-to-tokens块是主干的一部分。由于大多数方法也可以以这种方式分离11578表4.混合和匹配评估不同的骨干连接到不同的粗到精的方法，对象和场景的完成。最初提出的组合用黄色标记。11579引用[1] Paul J Besl和Neil D McKay。三维形状配准方法。在SensorfusionIV ： controlparadigmsanddatastructures，第1611卷，第586国际光学与光子学会，1992年。3[2] Yingjie Cai，Xuesong Chen，Chao Zhang，Kwan-YeeLin，Xiaogang Wang，and Hongsheng Li.通过在循环中集成实例和场景来实现语义场景的完成。在IEEE/CVF计算机视觉和模式识别会议论文集，第324-333页，2021年。1、7[3] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。一、二、六[4] Xiaokang Chen ， Kwan-Yee Lin ， Chen Qian ， GangZeng，and Hongsheng Li.通过半监督结构先验的3D草图感知语义场景完成。在IEEE/CVF计算机视觉和模式识别会议论文集，第4193-4202页，2020年。二、七[5] 杨晨和杰拉德·梅迪奥尼。用多幅深度图像的遥感进行目标建模图像与视觉计算，10（3）：145-155，1992. 3[6] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集，第5828-5839页，2017年。一、七、八[7] Angela Dai ， Charles Ruzhongtai Qi ， and MatthiasNießner.使用3d编码器预测器cnns和形状合成的形状完成。正在进行 IEEE 会议计算机视觉和模式识别（CVPR），第3卷，2017年。一、二[8] Angela Dai ， Daniel Ritchie ， Martin Bokeloh ， ScottReed，JürgenSturm，andMatthiasNießner.Scancomplete：用于3D扫描的大在IEEE计算机视觉和模式识别会议论文集，第4578-4587页，2018年。1[9] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议论文集，第605-613页，2017年。5[10] Andreas Geiger和Chaohui Wang。从单个rgb-d图像联合推断 3d 对象和在 German Conference on PatternRecognition中，第183施普林格，2015年。7[11] 放大图片作者： David G. Kim ， BryanC. Russell 和MathieuAubry.学习3D表面生成的papier-mche´在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。一、二、八[12] 郭玉笑和童欣。用于从单个深度图像中完成SE-MANIC场景的视体积网络。国际人工智能联合会议（IJCAI）的筹备工作。AAAI Press，2018. 二、七[13] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi，and Baoquan Chen.Pointcnn：x变换的卷积点神经信息处理系统进展，第820-830页，2018年。1[14] 林大华，桑雅·菲德勒，拉奎尔·乌尔塔孙。基于rgbd相机的三维目标检测的整体在IEEE计算机视觉国际会议论文集，第1417-1424页，2013年。7[15] Zhi-Hao Lin ， Sheng-Yu Huang ， and Yu-Chiang FrankWang.云中卷积：在3D图形卷积网络中学习可变形内核，用于点云分析。在IEEE/CVF计算机视觉和模式识别会议的论文集，第1800-1809页三、五[16] 刘明华，卢胜，杨胜，邵景，胡世民.用于密集点云完成的变形和采样网络。在AAAI人工智能会议论文集，第34卷，第11596-11603页，2020年。一二三六七八[17] Shice Liu ， YU HU ， Yiming Zeng ， Qiankun Tang ，Beibei Jin，Yinhe Han，and Xiaowei Li.看和想：解语义场景完成。In S. Bengio，H. Wallach，H.拉罗谢尔湾格劳曼Cesa-Bianchi和R. Garnett，编辑，神经信息处理系统进展，第263-274页Curran Associates，Inc. 2018. 7[18] Lars Mescheder，Michael Oechsle，Michael Niemeyer，Se- bastian Nowozin ， and Andreas Geiger.Occupancynetworks ： Learning3dreconstructioninfunctionspace.IEEE Conf.计算机视觉和模式识别（CVPR），2019年。1[19] 梁盘。ECG：具有图形卷积的边缘感知点云完成。IEEE Robotics and Automation Letters，5（3）：4392-4398，2020。七、八[20] Liang Pan，Xinyi Chen，Zhongang Cai，Junzhe Zhang，Haiyu Zhao，Shuai Yi，and Ziwei Liu.变分关系点完备网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第8524-8533页一二三六七八[21] 郑俊朴、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科姆和史蒂文·洛夫格罗夫。Deepsdf：学习连续符号距离函数用于形状表示。在IEEE计算机视觉和模式识别会议论文集，第165-174页1[22] Charles R Qi， Hao Su ，Kaichun Mo， and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别会议论文集，第652-660页一、二[23] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. Pointnet++：度量空间中点集的深度层次特征学习。在神经信息处理系统（NIPS）的，2017年。一、二[24] 东旭树，朴成宇，和权俊锡。基于树结构图卷积的三维点云生成对抗网络。在IEEE/CVF

下载后可阅读完整内容，剩余1页未读，立即下载