SA-Net:跳过注意网络用于三维点云完成

138 浏览量更新于2023-10-20 收藏 2.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1939+SA-Net基于层次折叠Xin Wen1，Tianyang Li1，Zhizhong Han2，Yu-Shen Liu11清华大学软件学院，北京，中国2美国马里兰大学帕克分校计算机科学系{x-wen16，lity16}@ mails.tsinghua.edu.cnliuyushen@tsinghua.edu.cnh312h@umd.edu摘要点云补齐的目的是从不完整的点云中推断出三维物体缺失区域的以往的方法通常是基于从不完整输入中提取的全局形状表示来预测完整的点云。然而，这种全局表示往往会损失局部区域的结构细节信息。为了解决这个问题，我们提出了跳过注意力网络（SA-Net）的三维点云完成。我们的主要贡献在于以下两个方面。首先，我们提出了一个跳过注意机制，有效地利用局部结构细节的不完整的点云在推理的缺失部分。跳过注意机制选择性地从不完整点云的局部区域传递几何信息，以生成不同分辨率的完整点云，其中跳过注意以可解释的方式揭示其次，为了充分利用不同分辨率下跳过注意机制编码的几何信息，提出了一种新的结构保持解码器，该解码器采用几何折叠实现完整的形状生成。该方法通过在同一分辨率下使用跳过几何体逐步细化局部区域，保留了我们在ShapeNet和KITTI数据集上进行了全面的实验，结果表明，所提出的SA-Net优于最先进的点云完成方法。1. 介绍最近，点云作为3D对象的格式受到了广泛然而，由这些设备产生的原始点云通常是*通讯作者。本研究得到国家重点研发计划（2018YFB0505400）的支持。跳过-注意预测缺失部分编码解码全局特征重建现有零件先前方法图1.建议的跳过注意的图示。与以往单纯依赖全局形状表示来完成点云的方法相比，本文提出的跳跃注意机制直接在输入的飞机形状中寻找局部信息区域，并有选择地使用这些区域来预测丢失的右翼或重建相似的左翼（红色）。稀疏的、有噪声的，并且由于有限的视角或遮挡[47]，大部分具有严重的缺失区域，这些区域难以通过进一步的形状分析/绘制方法直接处理。因此，原始点云预处理成为许多真实世界三维计算机视觉应用的重要需求。在本文中，我们专注于完成由点云表示的3D形状的缺失区域的任务。点云完成的任务可以大致分解为两个目标[41，47]。第一个目标是第二个目标是根据给定的输入恢复丢失的区域。为了实现这两个目标，目前的研究通常遵循范式框架，从不完整的点云中学习全局形状表示，并进一步利用该表示来估计缺失的几何信息[45，47，22]。然而，编码后的全局形状表示往往会丢失不完整点云局部区域的一些结构细节如图1中所示，为了预测飞机的完整机翼，网络应该首先在不完整的点云中保留现有的左翼。然后，根据两个相似翅膀区域之间的模式相似性，网络可以参考现有的左翼1940解决这个问题的一个直观想法是采用跳跃连接机制，如U-Net [35]，广泛用于图像中的局部区域重建和推理。然而，直接采用跳跃连接进行点云计算存在两个问题。首先，[35]中开发的先前跳过连接不能直接应用于无序输入，因为它根据2D网格的像素顺序连接特征向量。第二，在点云的完成任务中，并不是每个分辨率下的局部区域特征都有助于形状推断和重构。同样地，使用跳连接重新访问它们可能会引入信息冗余，并限制整个网络的特征学习能力。因此，为了在解决跳跃连接问题的同时保留结构细节的信息，我们提出了一种用于点云完成的新型深度神经网络，称为跳跃注意力网络（SA-Net）。该网络被设计在一个端到端的框架中，其中编码器-解码器架构被专门设计用于特征提取和形状完成。跳过注意是指基于注意的特征流水线，它以可解释的方式揭示了完成过程。跳跃注意有选择地传递几何信息，从局部区域的不完整的点云生成的完整的在不同的分辨率。跳跃注意使解码器能够充分利用和保留局部区域上的结构细节。与跳过连接相比，由于注意机制对输入特征的顺序没有预先要求，因此跳过注意可以推广到无序点云。此外，我们的skip-attention算法为网络提供了一种注意力选择，使其能够在不同分辨率下重新访问特征，从而使网络能够有选择地合并编码了所需几何信息的特征，避免了信息冗余的问题。为了充分利用不同分辨率下的跳过注意所选择的几何信息，我们进一步提出了一种具有分层折叠的结构保持解码器来生成完整的点云。分层折叠通过使用来自编码器的相同分辨率的跳过关注的几何信息渐进地详细描述局部区域来保留在上层中生成的点云的结构。具体地，解码器具有与编码器相同数量的分辨率级别，其中跳跃注意将编码器的每个级别连接到解码器的对应级别。为了通过层次分层折叠点云，我们建议从固定大小的2D平面采样2D网格，密度逐渐增加。与现有的点云补全方法[47，41，45]中的解码器相比，所提出的结构保留解码器可以在整个分辨率水平下保留局部区域上的结构细节ELS，这使得网络能够预测完整的形状，保持全局形状的一致性，同时捕获更多的局部区域信息。我们的主要贡献可归纳如下。• 我们提出了一种新的跳跃注意力网络（SA-Net）的点云完成任务，实现了国家的最先进的结果。此外，SA-Net的结构还可以用于提高形状分割的性能，并在无监督形状分类中实现最先进的• 我们提出了跳过注意机制，融合信息的局部区域的特征从编码器到解码器的点特征在不同的分辨率，这使得网络能够推断丢失的区域使用更详细的几何信息从不完整的点云。此外，跳跃注意以一种可解释的方式揭示了完成过程。• 我们提出了一个结构保持解码器的高质量点云生成。它可以逐步详细的点云在不同的分辨率与层次折叠，层次上保持完整的形状在不同的分辨率的结构。2. 相关工作三维计算机视觉是近年来比较活跃的研究领域[5，11，10，12，29，13，31]，其中三维形状补全的研究产生了许多分支。例如，基于几何的方法[40，2，42，23]利用部分输入上表面的几何特征来生成3D形状的缺失部分，基于几何的方法[37，24，32，38]维护形状数据库并搜索相似的补丁来填充3D形状的不完整区域。我们的方法属于基于深度学习的方法，这得益于3D计算机视觉中深度神经网络的最新发展[9，28，20，16，18，15，17，14]。该分支可以根据3D形状的输入形式进一步分类。体积形状完成。三维立体形状的自动完成是计算机视觉发展的一个重要方向。像3D-EPN这样的出色作品[4]考虑了3D体积形状的渐进重建。和Han et. al [8]将全局结构的推断与局部几何细化相结合，以直接生成高分辨率的完整3D体积形状。最近，引入了变分自动编码器来学习形状先验，以推断完整形状的潜在表示[39]。虽然在三维体数据的研究领域已经取得了令人瞩目的进步，但与输入数据的分辨率成立方的计算成本使得难以处理细粒度形状。19411级2级3级重复次数解码器跳跃注意31×1×1×2D平面Concatenate1级2A级3A级1×预测的点2D网格PointNet++折叠块A跳过-注意输入点编码器通过增加在2D平面上采样的2D网格的密度来进行分层折叠。图2. SA-Net的整体架构。SA-Net主要由三个模块组成：编码器（黄色）旨在从输入点云中提取局部区域特征;结构保持解码器（绿色）旨在重建完整的点云并保留局部区域细节;跳过注意（天蓝色）桥接编码器中的局部区域特征和解码器中的点特征。点云完成。基于点云的3D形状完成是一个蓬勃发展的研究领域，得益于PointNet [33]和PointNet++[34]的开创性工作。点云作为三维形状的一种紧凑表示，可以以比三维体数据更小的存储代价表示三维形状的任意细节结构。最近值得注意的研究，如PCN [47]，FoldingNet [45]和At- lasNet [7]通常从局部点云学习全局表示，并基于学习的全局特征生成完整的形状。按照同样的做法，TopNet [41]中提出了一种树结构解码器，用于更好地生成结构感知点云。通过将强化学习与对抗网络相结合，RL-GAN-Net [36]和Render 4Completion [21]进一步改善了生成的完整点云与地面实况的真实性和一致性。然而，大多数这些研究遭受的结构细节的信息丢失，因为他们预测整个点云只从一个单一的全球形状表示。3. SA-Net的体系结构图2显示了SA-Net的整体架构，它由一个编码器和一个结构保持解码器组成。在编码器和解码器之间，跳过注意作为连接局部区域特征（在编码器中从不同分辨率中提取）与解码器的相应分辨率中的点特征的管道3.1. 编码器给定具有其三维坐标的大小为N= 2，048的输入点云，SA-Net的编码器旨在从不完整的输入点云中提取特征在SA-Net中，我们采用PointNet++ [34]框架作为点云特征编码器的骨干。如图2所示，有三个级别的特征提取，其中第一级别和第二级别将输入点云采样为NE=512和NE=256（上标图3.折叠块的插图，它由一个下模块和两个上模块组成，内部有自我关注。折叠块的目的是提高点特征的数量，并细化这些特征中的几何信息。分别对输入点云从不同分辨率水平提取的cal区域特征3.2. 结构保持译码器考虑到编码器从不同的分辨率级别提取局部区域特征，解码器按照相同的方式但以相反的分辨率级别生成点特征是自然的这允许跳过注意在编码器中提取的局部区域特征和解码器中生成的点特征之间建立一个级别到级别的连接受此思想的启发，本文提出了结构保持解码器，其目标是在所有分辨率下逐步生成完整的点云并保持局部区域的结构细节。具体地，如图2所示，结构保留解码器分层折叠点云用于三个分辨率级别，这等于编码器中分辨率级别的数量每个分辨率级的解码器由一个跳跃注意和一个折叠块组成，跳跃注意用于传递来自同一级编码器的局部区域特征，折叠块用于增加点特征的数量。3.3. 折曲块1 2E表示编码器），并且最后一个级别分组输入-将点云放入全局表示中。因此，编码器生成一个全局表示，以及一些局部表示。除了提升点要素的数量，折叠-ing块还涉及扩展点特征的细化，这允许解码器产生更多的DRDMSelf-attentionMC转置D重复矩阵乘法中文（简体）��Self-attention注意力图R逐元素添加（重塑M逐元素减中文（简体）跳过连接CConcatenateMMLPs折曲块下模上模CN×3N×3…2D网格××××1×上模1942一期+1NDJ我点云局部区域上一致的几何细节。请注意，这种问题通常被先前的方法所忽略，在这些方法中，它们要么基于复制的全局表示直接折叠整个点集[47，45]，要么简单地通过多层感知器（MLP）和整形操作产生点云[41]。在SA-Net中，我们从[26]中获得了up-down-up框架的灵感来解决这个问题，并将其作为我们折叠块的基础。图3示出了解码器的第i具有分层折叠的上模块所示第二分辨率级别的点（通过注意红色特征着色）解码器的第二层图4.注意力跳跃的图解。跳跃注意力算法计算完整点云局部区域（Pred中由红色特征生成的红色点对不完整点云中的相似局部区域进行选择性融合，图3的黄色部分，输入ND（Thesuper-注意加权求和。脚本D表示来自前一级的点特征，向上模块首先通过以下方式复制点特征：ND上采样率ri=i的时间，并级联i+1用2D网格。不同于以往的折叠基于解码器[26，47，45]，其仅具有用于点云生成的一个分辨率级别，SA-Net中的解码器为了通过这些级别分层折叠点云，我们建议从固定大小的2D平面采样具有增加密度的2D网格具体地，对于解码器的第i级中的ND个下模块。上模块扩展后的点特征实际上占据了特征空间中的一个小的局部区域，通过整形和特征拼接可以将这些局部区域特征聚合为一个局部区域这种聚集的局部区域特征可以被认为是与先前级别中的特征相比质量更高的细化的点特征，因为它不仅包含来自先前级别的解码器的信息，而且还包含由当前上模块产生的详细信息。然后，在MLP和另一个上模块之后，聚合的局部区域特征可以进一步用于再现新的点特征。具有更好的结构细节的Di从46×46二维平面（大于2，048的最小正方形数）均匀采样Ni个二维网格，如图3的上模块所示。这些采样然后将二维栅格与点要素连接起来。之后，具有2D网格的点特征通过MLP并转换为3维潜在码字[45]。这些3维码字再次与解码器的第i为了整合这些点特征之间的语义和空间关系，我们采用了一个带有MLP的自注意模块来建立特征之间的内在联系，目的是通过注意机制有选择地将相似的特征图3的下半部分显示了该过程。给定解码器中第i层的第j个点特征pi，跳过连接首先计算注意力得分{aj，k|k=1，2，…N D}之间p i和所有点要素{p i|k= 1，2，…N D} in3.4. 跳过注意跳过注意作为管道，将编码器提取的局部区域特征与解码器生成的它还解释了网络如何使用来自不完整形状的信息来完成形状。跳过注意力有两个目的。首先，当生成位于不完整输入的现有区域中的点时，跳跃注意力应该将来自编码器的相同区域的特征融合到解码器中，并引导解码器在该区域中重建更第二，当生成的点位于输入的缺失区域时，跳过注意力算法应该在原始输入点云中寻找可匹配的相似区域，并引导解码器将这些相似区域的形状作为参考JK解码器的第i级为我用于推断缺失区域的形状两个上述目的是通过注意力机制实现的exp（M（p i|θ）T· M（p i|θ））a=0jhkL（一）nism，如图4所示，其中语义相对性j，kNiexp（M（p i|θ）T· M（pi| θ））n=1jhnL在解码器中的点特征和局部区域特征其中M表示具有参数θ的MLP，并且T表示转置操作。h和l表示两个MLP具有不同的参数。我们将点特征的加权和{pi}作为最终的上下文向量，在编码器中，通过注意力分数来衡量，分数越高表示模式相似性越显著（飞机的机翼）。然后，通过加权求和将局部区域特征融合为点特征，最后用于预处理。ki表示在com中的相关区域（也是飞机的机翼将其转换为点特征Pj，如下所示：NDΣi完整的点云。有不同的可能方法来计算跳过注意力管道的注意力。在本文中，我们不...p i← p i+aj，k·M（p i|θg）（2）j jkk=1探索整个空间，但通常选择两个直-输入Pred红点要素生成的点加权和编码器解码器低高注意力色图1943JKiWard实现，在SA-Net中运行良好第一种是直接采用可学习的注意力机制，如up模块所述。第二种方法是计算余弦相似度作为特征间的注意力度量。与可学习注意力相比，未平滑（无softmax激活）的余弦注意力从复杂的编码器网络中引入了更多的信息，可以在解码器中的点特征和编码器中的局部区域特征之间另一方面，平滑的可学习注意力可以从原始点特征中保留更多的信息。对于可学习的注意力，计算来自解码器的点特征pi和所有局部区域特征之间的第i个{r i|k = 1，2，… 从编码器，给出为exp（M（p i|θL）T· M（ri|θL））云完成为了进行定量比较，我们遵循[47]在ShapeNet数据集[3]上评估我们的方法，并通过将来自8个视图的2.5D深度图像反向投影到3D中来为每个对象生成8个部分点云。与Render4Completion [21]不同，我们遵循[41]对稀疏输入进行评估对于完整和部分形状，我们仅对网格表面上的2，048个点进行均匀采样。我们还在KITTI数据集[6]上定性地评估了SA-Net，因为KITTI中没有汽车不完整形状的地面真实情况。ShapeNet数据集。我们使用每点倒角距离作为评价指标。在表1中，SA-Net与两种点云完成方法PCN [47]和TopNet [41]兼容。基于重建的无监督表示学习方法FoldingNet [45]和Atlas-La=0jhkL、（3）Net [7]也包括在内，因为它们的基本编码器-解码器j，kNiexp（M（p i|θL）T· M（ri| θL））n=1jhnL框架也可以推广到点云复杂。其中上标L表示单词learnable。对于余弦距离，注意力得分如下给出（ri）Tpi任务。上述4种方法的结果引自[41]。比较表明，SA-Net在8个类别中的6个类别上优于其他方法，并且还实现了最佳的平均Chamfer距离。a C=kj、（四）j，kri在图5中，我们展示了点的可视化结果王空军使用SA-Net完成云计算，并将其与其中上标C表示单词余弦。与上模中的自注意一样，将局部区域特征{ri}转换为点特征pi，从其他方法中可以发现，SA-Net预测更合理的形状，同时保持更多的一致性。kj帐篷现有零件的几何形状例如在元素的加法，这是相同的方程。（二）、在消融研究（第4.2），我们将定量地比较这两种注意力的表现。3.5. 培训在训练过程中，采用倒角距离（CD）LCD和地球移动器距离（EMD）LEMD训练的总损失是CD和EMD的加权和，定义为Ltotal= LEMD+λLCD，（5）其中λ是本文实验中固定为10的权重参数。LCD和LEMD的定义将在补充文件中详细说明。4. 实验默认情况下，我们使用基于余弦相似度的跳过注意所有实验。节中4.2，我们将其与可学习的注意力进行比较。在评价过程中，我们主要使用倒角距离作为度量，将预测的点云与地面真实值进行比较。4.1. 完井性能数据集。为了评估SA-Net的性能，我们在两个大规模的点数据集上进行了实验如图5（a.2）和5（a.3）所示，在预测丢失的灯座和桌腿时，与其他三种方法相比，SA-Net生成的形状更真实，SA-Net生成的点排列更紧密，形状更接近地面实况。在图5（a.1）和图5（a.4）中，与其他三种方法相比，SA网络更一致地保留了机翼和梁的形状。形状补全任务的定量和定性改进证明了skip-attention引入局部区域特征的有效性，以及结构保持解码器利用局部区域特征重构补全点云的能力此外，在表2中，我们比较了不同方法的网络中可训练参数的数量，这表明SA-Net具有最少的参数数量，同时实现了显着更好的性能。KITTI数据集。KITTI数据集是从真实世界的LiDAR扫描中收集的，其中缺少定量评估的地面实况。因此，我们定性地评估SA-Net的性能的可视化结果。对于图6中的所有方法，使用在ShapeNet数据集中的汽车类别下训练的参数来预测完整的汽车。请注意，在KITTI数据集中，不完整汽车的点数变化范围很大。为了获得固定的输入点数，对于点数超过2048的不完整的汽车，我们随机选取1944表1.ShapeNet数据集上的点云完整性比较，以每点倒角距离×104表示（越小越好）。方法平均平面内阁车椅子灯沙发表船只AtlasNet [7]17.6910.3723.413.4124.1620.2420.8217.5211.62PCN [47]14.728.0918.3210.5319.3318.5216.4416.3410.21[45]第四十五话16.4811.1820.1513.2521.4818.1919.0917.810.69[第41话]9.725.512.028.912.569.5412.29.577.51SA-Net（我们的）7.742.189.115.568.949.987.839.947.23输入TopNetFoldingNetPCN我们的GTA.1A.2A.3A.4输入我们GT(a) ShapeNet上的可视化完成比较。（b）在ShapeNet上完成更多的SA-Net成果。图5.ShapeNet数据集上点云完成比较的可视化我们将SA-Net与（a）中的其他方法进行了比较，(b) 我们展示了SA-Net的更多完成结果。表2.每个方法中可训练参数的数量方法[第41话]PCN [47][45]第四十五话SA-Net（我们的）参数（×106）9.975.292.401.67原始SA网络实现了最佳性能。实验结果证明了注意力在SA网中的有效性。更换注意力输入FoldingNet PCN TopNet我们的在跳跃-注意（Skip-L）和自注意（Fold-C）中，可以专用于这两个模块的不同设计目的。跳跃注意力算法的目标是融合图像的局部区域特征，而非平滑余弦相似度算法允许更多的信息被融合到解码器中。相比之下，自注意的目标是学习一个有区别的点特征，而不是简单地合并邻域特征，因此，自注意中的平滑权重（通过softmax）更适合于网络保持原始特征图6.可视化KITTI数据集上的完成结果2，048点，否则，我们从输入中随机选择点结果如图6所示，从中我们可以发现，我们的SA网络预测了更多的结构细节（汽车层）和更高质量的形状（汽车行李箱）。4.2. 消融研究在本小节中，我们分析了重要模块和超参数对SA-网的影响。为方便起见，所有研究通常都在平面类别上进行注意力的效果。我们开发了三种SA-Net变体来验证SA-Net中注意力的有效性：（1）“无跳跃”是从SA网络中移除跳跃注意的变体。(2)“跳跃-L”是用可学习的注意代替跳跃-注意中的余弦注意的变体。(3) “Fold-C” is the variation that re- places 所有三种变体都具有点特征的信息。我们特别注意到，由于删除多分辨率级别的解码器也会改变跳跃注意力的联系，在第4.3节中，我们将评估解码器在无监督形状分类任务中的有效性表3.每个模块对SA网（平面类）的影响方法不跳过Skip-L折叠CSA-Net CD（×104）2.31 2.25 2.342.18优化损失的影响。为了评估EMD损失和CD损失对SA-Net的影响，我们开发了两种变体：（1）“SA-Net-EMD”是仅使用EMD损失训练的SA-Net的变体;（2）“SA-Net-CD”是仅用CD损失训练的变体。比较结果如表4所示，这证明了EMD和CD都有助于SA-Net的性能。表4.每个优化损失的效果（平面类别）。方法SA-Net-EMD SA-Net-CD SA-Net4除删除/替换CD（×10）22.39 2.232.18module. 结果示于表3中，其中EMD（×10）3.06 4.583.0219452048点 2048折256折64折输出飞机（我们1级2级3级平面（FoldingNet）2048pts第二次折叠2048pts第一次折叠汽车（我们的）桌子（我们的）高低(b)跳跃注意力学习生成翅膀。图8.在跳跃注意中学习到的注意力的可视化图7.不同分辨率输入的可视化完成结果。输入点数的影响。我们分析了SA-网络对不同分辨率输入的鲁棒性，特别是对稀疏输入的性能。在这个实验中，我们将输出点云的数量固定为2，048，并评估SA-Net在分辨率范围从256到2，048的输入点云上的性能。对于小于2,048的点，我们使用KITTI数据集中相同的策略从输入中随机选择点，并将点的数量表5中报告了每点CD的模型性能。在图7中，我们可视化了在不完整点云的不同点数下的完成质量，其中SA-Net在所有输入分辨率上显示出表5.输入点数的影响（平面类别）。2048 1024 512256CD（×104）2.182.28 2.45 3.31跳跃注意力的可视化。在图8中，我们在解码器的第二分辨率级别中可视化注意力，这是为了预测一个完整的平面。我们比较了跳过注意学习生成尾翼和两个机翼的一部分。由相同点特征生成的点在图8（a）和8（b）的左半部分中用红色着色，并且在右半部分中可视化分配给不完整点云的局部区域的点特征的对应注意力分数。如图8（a）所示，当生成属于尾翼的点时，跳过注意在输入点云中搜索相对局部区域（其也是尾翼）以进行预测。在图8（b）中，当预测机翼的点（其中右翼缺失）时，跳过注意力在不完整的点云中选择左翼的区域（通过分配更高的注意力）用于预测两个机翼的形状。在其他类别中也观察到类似的模式，如图8所示。层次折叠的可视化。在图9中，我们将解码器中的分层折叠可视化。我们跟踪一个特定的蓝色载体的折叠过程，1×1×1×…1×图9.在解码器的每一级中的分层折叠的可视化。我们跟踪了一个特定的初始矢量的折叠和点的数量扩展过程，并说明了二维网格采样过程。表示从这个蓝色矢量中导出的点，每个级别中有蓝色矩形。从局部的角度来看，我们观察到每个初始点特征成功地学习生成平面上的特定区域。在初始点特征为蓝色的情况下，生成飞机的左翼。另一方面，从全局角度来看，我们可以观察到SA-Net的折叠过程并不像FoldingNet那样严格遵循2D流形假设[45]。正如[41]所指出的，从2D流形结构中强制学习可能不是训练的最佳选择，因为可能的解决方案的空间受到限制。因此，在SA-Net中观察到的与2D流形的细微偏差对于学习生成变体形状和保留更好的结构细节更灵活。这两个观察结果都证明了层次折叠的有效性。此外，我们还在图9中可视化了汽车和桌子类别下的折叠过程。4.3. 应用程序的模型分析用于语义分割的跳过注意。到为了进一步验证第 3.4 节中提出的跳过注意力的有效性，我们在ShapeNet数据集[46]上进行了语义分割实验，其中数据集分割遵循PointNet++ [34]的先前方法。SA-Net的分割变体（SA-Net-seg）使用与PointNet++相同的架构，除了连接en中的局部区域特征2,048点1，024点512点256点表车(a)跳过注意力学习生成尾翼平面车输入PredPred输入注意力色图初始点特征��3×��31946我们PointNet++PointNetGT（a）ShapeNet上的可视化分割比较。（b）ShapeNet上SA-Net的更多分割结果。图10. ShapeNet上的分割可视化。我们将SA-Net与基线PointNet和PointNet++进行了比较（a）。在（b）中，我们展示了SA-Net的更多分割结果请注意，在（b）中的对象类别中，颜色和标签之间没有对应关系编码器与插值层的功能。在联合上的部分平均交集（pIoU，%）和每类平均pIoU（mpIoU，%）[27]方面的一致性如表6所示，从中我们可以发现，SA-Net-seg大大提高了与PointNet++基线方法的分割性能一致性具体来说，跳过注意力将骨干PointNet++的性能提高了0。6%，以mqu计算。在图10（a）中，我们将分割结果可视化并将 SA-Net-seg 与基线 PointNet 和PointNet++进行比较，从中我们可以发现SA-Net-seg产生更精确的语义标签预测。特别是，SA-Net-seg显着提高了摩托车的层次上的分割精度，其中身体和层次彼此严重重叠。这种改进来自于由来自编码器的跳过注意传递的局部区域特征，这有助于内插层在局部区域中进行更具鉴别力的预测。图10（b）给出了更多的分割结果。表6.ShapeNet上的语义分割结果（%）方法pIoUmpIoUPointNet [33]83.780.4[34]第三十四话85.181.9SO-Net [25]84.981.0[43]第四十三话85.182.3[27]第二十七话86.184.6SA-Net-seg（我们的）85.783.0形状分类中无监督表示学习的结构保持解码器。为了验证我们的结构保留解码器的有效性，我们进一步在 ModelNet40 上进行无监督形状分类实验 [44] 。ModelNet40 上的训练和测试设置也遵循PointNet++[34]。在这个实验中，我们使用了一个分类的变化（SA-Net-cls），其中我们删除了跳过注意从SA-Net。这是因为我们使用全局表示来通过支持向量机（SVM）预测类标签，并且去除跳过注意可以增强嵌入在全局表示中的信息，因为它迫使解码器仅基于表7.ModelNet40下的分类比较方法监督准确度（%）[33]第三十三话[34]第三十四话：一个人[27]第二十七话[43]第四十三话SO-Net[25]是90.9[1]第85.7期[1]第一届全国政协委员[45]第四十五话FoldingNet[45]（MN40）No 84.4[19]第19话[30]第30话SA-Net-cls（Ours）No90.6单一全球代表。编码器和解码器通过自身重构来训练。在表7中，我们比较了SA-Net-cls与对应方法的分类性能，其中所有结果都是在没有法向量的情况下在1，024个点输入下获得的。从表7中我们可以发现，我们的SA-Net-cls在非监督学习方法中实现了最佳性能。SA-Net-cls的结果也与监督方法相当。特别是，我们注意到，我们的SA-Net-cls的分类精度仅为0。比有监督的PointNet++低1%，这与我们的编码器使用的主干完全相同。5. 结论我们提出了一种新的跳跃注意力网络（SA-Net）的点云完成。通过提出的跳过-注意，SA-网络可以有效地利用输入点云中的局部区域的特征为了利用不同分辨率下的局部区域，进一步提出了结构保持解码器，以渐进地生成点云，并结合不同分辨率下的局部区域特征。在ShapeNet和KITTI上完成的实验证明了SA-Net的有效性。在ShapeNet和ModelNet40上的分割和分类实验进一步证明了跳跃注意和结构保持解码器的有效性。1947引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.学习3D点云的表示和生成模型。在机器学习国际会议上，第40-49页[2] Matthew Berger、Andrea Tagliasacchi、Lee Seversky、Pierre Alliez 、 Joshua Levine 、 Andrei Sharf 和 ClaudioSilva。基于点云数据的曲面重构技术研究现状。欧洲计算机图形协会会议论文集，第1卷，第161-185页，2014年[3] Angel X Chang ， Thomas Funkhouser ， Leonidas JGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese，Manolis Savva，Shuran Song，Hao Su，et al.Shapenet：一个信息丰富的3D模型存储库。arXiv：1512.03012，2015。[4] Angela Dai ， Charles Ruzhongtai Qi ， and MatthiasNießner.使用3D编码器预测器CNN和形状合成的形状完成。在IEEE计算机视觉和模式识别会议论文集，第5868- 5877页[5] 高戈，刘玉申，王梦，顾明，勇俊海。基于行业基础类的联机bim资源检索查询扩展方法。建筑自动化，56：14[6] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术相结合：KITTI数据集。国际机器人研究杂志（IJRR），2013年。[7] Thibault Groueix ， Matthew Fisher ， Vladimir Kim ，Bryan Russell，andMathieuAubry. 一个学习3D表面生成的简单方法在CVPR 2018，2018。[8] Xiaoguang Han ， Zhen Li ， Haibin Huang ， EvangelosKalogerakis，and Yizhou Yu.使用深度神经网络进行全局结构和局部几何推断的高分辨率形状完成。在IEEE国际计算机视觉会议论文集，第85-93页，2017年。[9] Zhizhong Han，Xinhai Liu，Yu-Shen Liu，and MatthiasZwicker. Parts4特点：从多个视图中的一般语义部分学习3D全局特征。在2019年国际人工智能联合会议[10] Zhizhong Han ， Zhenbao Liu ， Junwei Han ， Chi-ManVong，Shuhui Bu，and C.L.Philip Chen.网格卷积限制玻尔兹曼机，用于3D网格上结构保留的特征的无监督学习。IEEE Transactions on Neural Network and LearningSystems，28（10）：2268[11] Zhizhong Han ， Zhenbao Liu ， Junwei Han ， Chi-ManVong，Shuhui Bu，and C.L.P.尘基于一种新的置换体素化策略从原始体素中无监督学习3D局部特征。IEEETransactions on Cybernet-ics，49（2）：481[12] Zhizhong Han ， Zhenbao Liu ， Junwei Han ， Chi-ManVong，Shuhui Bu， and Xuelong Li. 基于圆卷积限制Boltz-mann 机的无监督 3D 局部特征学习。 IEEETransactions on Image Processing，25（11）：5331[13] Zhizhong Han，Zhenbao Liu，Chi-Man Vong，Yu-ShenLiu ， Shuhui Bu ， Junwei Han ， and CL Philip Chen.BoSCC：用于空间增强的3D形状表示的空间上下文相关 IEEE Transactions on Image Processing- ing ， 26（8）：3707[14] Zhizhong Han，Zhenbao Liu，Chi-Man Vong，Yu-ShenLiu，Shuhui Bu，Junwei Han，and CL Philip Chen.深层空间：通过耦合soft-max的深度神经网络对空间增强的全局和局部3D特征进行无监督学习。IEEE Transactionson Image Processing，27（6）：3049[15] Zhizhong Han ， Honglei Lu ， Zhenbao Liu ， Chi-ManVong，Yu-Shen Liu，Matthias Zwicker，Junwei Han，and C.L.菲利普·陈。3D2Seq视图：通过具有分层注意力聚合的CNN聚合用于3D全局特征学习的顺序视图。IEEE Transactions on Image Processing，28（8）：3986[16] Zhizhong Han ， Mingyang Shang ， Yu-Shen Liu ， andMatthias Zwicker.查看帧间预测GAN：通过学习全局形状记忆来支持局部视图预测的3D形状的无监督表示学习。在2019年第33届AAAI人工智能会议上[17] Zhizhong Han ， Mingyang Shang ， Zhenbao Liu ， Chi-Man Vong ， Yu-Shen Liu ， Matthias Zwicker ， JunweiHan，and CL Philip Chen. SeqViews2SeqLabels：基于注意力的RNN序列视图聚合学习三维全局特征。IEEETransactions on Image Processing，28（2）：658[18] Zhizhong Han，Mingyang Shang ，Xiyang Wang，Yu-Shen Liu，and Matthias Zwicker.Y2Seq2Seq：通过视图和单词序列的联合重建和预测，对3D形状和文本进行跨模态2019年第33届AAAI人工智能会议（AAAI）。[19] Zhizhong Han ， Xiyang Wang ， Yu-Shen Liu ， andMatthias Zwicker.多角度点云-VAE：通过联合自重构和半对半预测，从多个角度对3D点云进行无监督特征学习。在IEEE计算机视觉国际会议的Proceedings中，第10442-10451页[20] Zhizhong Han，Xiyang Wang，Chi-Man Vong，Yu-ShenLiu，Matthias Zwicker，and CL Chen.3DViewGraph：从无序视图的图形中学习3D形状的全局特征。在2019年国际人

下载后可阅读完整内容，剩余1页未读，立即下载