三维点云的无监督学习表示：局部和全局结构的推理

149 浏览量更新于2023-10-25 收藏 1.27MB PDF 举报

三维点云

清华大学自动化系

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5376三维点云饶永明1，2，3，纪文路1，2，3，周杰1，2，3，41清华大学自动化系2智能技术与系统国家重点实验室3北京国家信息科学技术研究中心4清华大学深圳国际研究生院raoyongming95@gmail.com; {lujiwen，jzhou}@tsinghua.edu.cn摘要一个对象的局部模式和全局模式是密切相关的。虽然对象的每个部分都是不完整的，但对象的底层属性在所有部分之间是共享的，这使得从单个部分推理整个对象成为可能。我们假设，一个强大的表示的3D对象应该模型的属性之间共享的部分和整个对象，并从其他对象区分基于这一假设，我们提出了学习点云表示在不同的抽象层次和全球形状的局部结构之间的双向推理在不同基准数据集上的实验结果表明，无监督学习表示在区分能力、泛化能力和鲁棒性方面优于有监督表示。我们表明，未经监督训练的点云模型在下游分类任务上的表现优于有监督的点云模型。最值得注意的是，通过简单地增加SSG PointNet++1的通道宽度，我们的无监督模型在合成和真实世界的3D对象分类数据集上都超越了最先进的我们希望我们的观察提供一个新的视角，从数据结构中学习更好的表示，而不是人类注释来理解点云。21. 介绍促进机器理解3D世界对于许多重要的现实世界应用至关重要，例如自动驾驶、增强现实和机器人。点云等三维几何数据的一个核心问题是学习-*通讯作者[38]第三十八话：2代码：https://github.com/raoyongming/PointGLR部分尾巴“001”客机图1：我们的主要想法。我们建议通过训练网络来无监督地从数据结构中学习表示，以解决两个问题：从单个部分推理整个对象并且从全局表示推理详细结构。强大的表征是有区别的，通用的和鲁棒的。为了解决这个问题，在广泛的人工注释监督信息的帮助下，建立了点云分析[2，26，28，33，38，43，49，51，54]的当前最先进技术然而，手动标记的数据需要很高的人力成本，并可能限制学习模型的泛化能力。因此，无监督学习是一个有吸引力的方向，以获得通用的和强大的表示三维物体的理解。从未标记数据中学习有用的表示是点云分析中的一个基本而具有挑战性的问题虽然已经做出了几项努力来学习在没有人类监督的情况下点云的表示[1，8，14，18，26，31，47，55，56]，但是这些方法主要基于由生成或重建任务提供的自监督信号，包括自重建[1，8，14，26，47，55，56]、局部到全局重建[ 18，19]、局部到全局重建[19，19]。31]和分布估计[1，26]。这些方法已被证明是有效的局部到全局推理全局到局部推理5377在捕捉点云的结构和低层信息，但通常无法从点云学习高层语义信息。因此，无监督模型的性能仍然远远落后于最先进的监督模型。本文的目标是探索一种既能学习结构信息又能学习语义知识的无监督学习算法，以提高无监督学习表征的质量与局部补丁有噪声并且通常独立于整个图像的图像不同（例如，给定一只狗的补丁，我们无法识别该图像是关于动物还是附近的人），潜在的语义和结构信息在3D对象的所有部分中共享。3D对象的这种独特属性使得从单个部分重新设计整个对象成为可能。基于这一观察，我们假设，一个强大的表示一个3D对象应该模型的基础属性之间共享的部分和整个对象和其他对象distinguishable。如图1所示，给定飞机尾翼的点云，尾翼的良好表示应反映相应飞机的类型。同时，整个飞机的表示应该包含所有必要的细节，以推断这架飞机的局部结构。在本文中，我们提出了一种新的无监督点云表示学习的双向推理网络中的不同抽象层次的局部表示和三维对象的全局表示之间的计划我们的方法简单而有效，可以应用于广泛的深度学习方法来理解点云。虽然大多数现有的无监督学习方法专注于通过学习各种自编码器来利用结构信息，但我们的方法旨在捕获3D点云中局部结构和全局形状具体地，所提出的全局-局部推理（GLR）包括两个子任务：1）局部到全局推理：我们将局部特征与全局形状之间共享属性的获取问题表述为一个自监督度量学习问题，其中局部特征被鼓励比其他对象的特征更接近同一对象的全局特征，使得每个对象的不同语义信息可以通过局部表示来提取; 2）全局到局部推理：我们进一步使用包括自重建和法线估计的自监督任务来学习包含3D对象的必要结构信息的全局特征。我们在几个基准数据集上的实验结果表明，在下游对象分类任务中，无监督学习的点云表示我们的无监督训练模型可以始终优于有监督的模型。与我们的无监督学习方法，我们表明一个简单而轻量级的SSG PointNet++ [38]模型可以实现与监督方法非常有竞争力的结果（ ModelNet40 上的分类准确率为92.2%[52]）。通过简单地增加通道宽度，我们在ModelNet40和ScanObjectNN [46]基准测试中分别获得了93.0%和87.2%的单视图准确度，超过了最先进的非监督和监督方法，而该模型的监督版本存在过拟合问题。2. 相关工作3D点云上的深度学习：近年来，由于深度学习技术旨在直接使用3D点云，3D点云分析得到了快速发展[28，33，37，38，49]。Point- Net [26]开创了这一工作路线，并设计了一个深度网络，可以通过独立学习每个点和融合点特征来处理无序和非结构化的3D点。虽然PointNet很高效，但它无法捕捉到局部结构，而这对CNN的成功PointNet++[38]建议通过开发分层分组架构来缓解此问题，以便在不同的抽象级别上逐步提取局部特征随后的工作，如PointCNN [28]，PointConv [51]和B-Shape CNN [33]也专注于点云的局部结构，并进一步提高捕获特征的质量。由于只需要局部和全局特征之间的关系虽然最近的工作通过提升网络的能力来推动点云深度学习的最新发展，但这项工作提供了一种新的途径，可以在没有任何人类注释的情况下以无监督无监督表示学习：自最早的一天以来，无监督学习一直是计算机视觉中的一组重要方法[13]，其目的是学习数据的转换，使后续的下游问题解决更容易[5]。用于无监督学习的经典深度方法，如自动编码器[21]，生成对抗网络[16]和自回归模型[35]，通过忠实地重建输入数据来学习表示，这些方法专注于数据中的低水平变化，对于分类等下游任务不是很有用。最近关于自监督学习的工作提出了一个强大的模型家族，可以学习具有丰富语义知识的区分表示这组方法设计了各种问题生成器，使得模型需要从数据中学习有用的信息，以解决这些生成的问题[3，10，11，19，44]。在这项工作中，我们也遵循这条路线，并提出通过解决全局-局部双向推理问题来学习点云表示。有几个先前的尝试学习representa-5378{001}我{12}我��1×��1��2×��2解码器反侦察正态��×3公司简512维超球我我逐点预测图2：我们的无监督特征学习方法的总体框架。通过连接局部结构和全局形状来学习表示。我们将不同层次的局部表示和全局表示映射到共享特征空间，并使用自监督度量学习目标从数据中挖掘语义知识。通过进一步结合自我重建和正常的估计任务，一个强大的表示，包含丰富的语义和结构信息可以学习。在没有人监督的情况下点云的测量[1，8，14，18，26、31、47、55、56]。这些方法通过进行数据重构来发现3D点云中的有用信息，这在学习结构信息方面已被证明是有效的然而，由于缺乏有效的语义监督，以前的方法限制了网络我们的方法通过将语义监督与结构监督相结合来解决这个问题。通过对高级语义知识的探索，我们的方法能够像监督方法一样学习区分性表示，同时保持非监督表示的鲁棒性和泛化性。A是一个对称聚合函数，类似于最大池，用于汇总每个点的特征。由于每个点由h独立处理，因此点之间的结构信息仅由聚合函数A捕获。因此，PointNet缺乏捕获本地环境的能力为了解决这个问题，PointNet++及其变体[28，33，51]使用分层结构在不同的抽象级别上逐步学习点云特征。具体地说，在第二层，通过使用迭代最远点采样[38]来提取点集，以产生具有较少点的新集合PP−1，并且我们可以通过在局部点上应用小PointNet来提取局部几何特征f每个点p∈P<$p的质心周围的子集。的3. 方法3D点云理解的核心是学习能够捕获底层形状的有区别的、通用的和鲁棒的表示。为了实现这一目标，在一个无监督的方式，我们提出了点云表示，通过解决局部结构和全局形状之间的双向推理问题。我们的方法的总体框架如图2所示。3.1. 分层点云特征学习我们首先回顾了PointNet++[38]中首次提出的分层点云特征学习框架，我们的方法建立在该框架上。考虑一组具有N个元素的3D点P∈R3，其中每个点pi由3D坐标表示。为了学习基于这些3D坐标的特征，PointNet [37]提出使用对称函数f，该对称函数f对点排列不变，以将点集转移到特征空间中：f（P）= A（h（p1），h（p2），.，h（pN）），（1）其中h是独立处理每个点并共享所有点的参数然后，通过在最高抽象级别的点和特征上应用另一个小的PointNet模型来获得点云g几乎所有以前关于监督点云学习的工作[2，26，28，33，38，43，49，51，54]都采用了端到端的训练范式，其中表示直接从注释的标签中学习。这些方法虽然取得了良好的性能，但忽略了点云本身所包含的内在在这项工作中，我们专注于探索点云的这个属性，并提供一个非常有竞争力的替代点云表示学习。为了从没有人类注释的数据中发现结构和语义信息，我们提出了两个网络需要解决的问题：局部到全局推理和全局到局部推理，其目的分别是无监督地学习语义和结构知识。3.2. 局部到全局推理人类能够识别许多对象，即使只有一小部分的对象这一事实启发我们利用局部部分和整体形状之间的关系5379我我我作为一个自由和丰富的监督信号，用于训练点云理解的因此，局部到全局推理的目标是挖掘不同抽象层次的点云之间共享的语义知识由于全局表示通常比局部表示更好地捕捉三维对象的语义信息，因此局部到目标推理通过从局部表示预测全局表示来为了评估预测，我们将预测公式化为自监督度量学习问题，并使用多类N对损失[40]来监督预测任务。受实例区分的启发[53]，为了学习每个对象的不同语义信息，我们将当前对象的全局表示作为正样本，并使用其他对象的全局表示作为负样本。在下文中，我们描述局部到全局推理的细节。预测网络：由于局部特征{f，fi，f}和全局特征g具有不同的通道数，因此我们无法直接测量它们的相似性。因此，我们首先使用预测网络works{φ，φ}和φ将它们分别嵌入到共享特征空间中。预测-预测网络可以被实现为多层感知器（MLP）网络，并且预测网络在每个抽象级别上被共享。自我监督度量学习：优化预测的一个简单方法是最小化绝对值，在φ（f）和φ（g）之间，最小值预测网络的输出在计算相似性之前，并使用常数值s=64[9]来重新缩放特征。从经验上讲，我们的实验表明，强制将特征分布在半径为s的超球体上将显着稳定训练过程，并提高学习特征的区分能力。讨论内容：所提出的局部到全局推理连接到互信息最大化方法[3，19，22，44]用于无监督图像表示学习。多类别N对损失可以被视为信息NCE的变体[36]。因此，最小化LG2L最大化局部表示和全局表示之间的互信息的下界从这个角度看我们的方法通过最大化不同层次特征的互信息来捕获3D对象的底层语义知识。与以前的工作不同，在相互信息估计器和特征编码器之间执行对抗学习[22]或最大化可见补丁和不可见补丁的相互信息[19]，图像的不同视图[3]或图像的不同模态[44]，我们的工作通过连接3D对象的局部和全局结构来探索点云的独特属性。此外，我们的局部到全局损失提供了InfoNCE的度量学习视图，这与以前基于噪声对比估计的工作不同[34]。受益于我们的修改灵感来自度量学习和人脸识别方法，我们观察到，我们的损失是更有效和稳定比以前的方法点云阿吉吉模仿i，||φ（fi）− φ（g）||. 然而，这一目标可能理解我们实验中的任务。导致将所有输入映射到常数值因此，我们选择使用无监督度量学习任务来监督预测的相对质量。具体来说，对于每个嵌入的局部表示函数，我们强制其嵌入比任何其他对象更接近同一对象的嵌入的全局表示局部到全局推理目标可以写为：Σ3.3. 全局到局部推理由于从未标记的数据中发现对下游任务有帮助的知识通常是相当棘手的，因此局部到全局推理可能不一定导致有用的表示。这一事实也被关于互信息最大化方法的研究所指出[44，45]，其中有证据表明，较大的互信息可能无法保证-李= log（1+exp（sφ（f）（gk）−sφ（f）（g））更好地执行下游任务[45]。Intu-G2l和gk=/g1Σ我i，我（二）然而，由于局部到全局推理仅监督局部表示接近全局表示，因此全局表示的质量是至关重要的。如果全球代表性得到很好的启动，这是一种体面的监督LG2L=Mi，LG2L将提供当地代表，从而创造一个虚拟的，OUS Circle用于学习局部和全局特征。对=−1logMexp（sφ（f）（g））、exp（sφ（f）（gk））（三）相反，学习过程可能会因为全局表示的初始状态不好而获得不可预测的结果。到伊什托克岛其中{g，k，k= 1，2，.，m}是具有批量大小m的小批量中的不同点集的全局表示，并且M是局部特征的数量。受面部识别度量学习研究的启发[9，30，48]，对超球面上的特征进行度量学习，我们将标准化为了避免这个问题，我们提出了一个辅助的全局到局部推理任务来监督网络共同学习有用的表示。具体而言，我们采用两个低层次的生成任务，包括自我重建和正常估计作为两个自我监督信号，这样全局表示需要捕捉点云的基本结构信息。5380自我重建：自重建或点自动编码是一种广泛用于无监督点云表示学习的技术[1，8，14，26，47，55，56]。为了执行自重建，我们采用基于折叠的[55]解码器D将规范的2D网格变形到基于全局表示g的点云的3D坐标上。重建误差定义为倒角距离[12]：实施情况：我们所有的模型都是在一个带有深度学习库Pytorch的GTX 1080ti GPU上训练的[42]。为了表明我们的方法可以用于各种点云网络，我们考虑两个基线模型：PointNet++ [38]和RSCNN [33]。请注意，对于这两个基线模型，我们使用单尺度模型（SSG）[38]作为点分组模块，这是更多比多尺度插值（MSG）小3倍[38]L重建= Σp∈Pminx∈D（g）||2个以上||2+Σx∈D（g）min||x − p||二、（四）p∈P原始PointNet++模型中使用的模块。另外，我们-将每个集合抽象层中使用的MLP分成两个完全连接的层，并在聚合正常的估计：正常的估计是一个更有挑战性的。需要更高层次理解3D形状的底层表面信息与以前追求估计精度的工作[33]不同，我们使用此任务作为监督信号来改善全局表示。因此，我们简单地将3D坐标与全局表示连接起来，并采用共享的轻量级MLPσ来产生估计的范数。余弦损失用于测量估计误差：L= 1 − 1 cos（σ（[p，（g）]），pnormal）.（五）正常Nii我结合局部到全局的推理和全局-到局部推理，我们到达全局-局部双向推理目标：L GLR =L L2G +L G2L =L L2G +L recon + L normal。（六）3.4. 使用GLR进行点云分析使用GLR的无监督学习：点云表示可以通过实施网络来无监督地学习，以解决所提出的全局-局部推理（GLR）问题，其中该表示可以用于各种下游点云分析应用，如对象分类。无监督学习表示的质量通常通过分类任务的线性可分性来评估，其中监督线性SVM[6]模型或单层神经网络在无监督表示上进行训练以测量测试准确度。对于PointNet++[38]模型及其变体，我们使用聚合表示进行分类任务，这是通过总结嵌入的全局和局部表示获得的：f=[A（{φ1（f 1）}），.， A（{φL（fL}）），φ（g）]，（7）操作，分别。实验结果表明，在保持参数个数不变的情况下，该方法可以减少计算量，提高性能。对于无监督学习设置，我们在训练数据的无监督表示上训练线性SVM [6]，并在测试集上报告分类精度。对于监督学习和混合学习设置，我们使用上述聚合表示进行公平比较，并采用两层分类器，其中每层使用比例为50%的dropout技术[41]。我们的模型使用Adam [24]优化器进行训练，基本学习率为0.001，我们每20个epoch将学习率衰减0.7。这些模型被训练了200个epoch，其中Batch Normalization [23]层的动力开始于0.9，并按照[33，38]的实践以每20个历元0.5的速率衰减详细的模型配置可以在补充材料中找到。4. 实验我们在几个广泛使用的点云分类基准数据集上广泛评估了我们的方法，包括 ModelNet 10/40 [52] ，ScanObjectNN [46]和ScanNet [7]。我们首先评估我们的方法的区分能力，泛化能力和跨数据集的鲁棒性，并与最先进的无监督和监督方法进行比较。然后，我们提供了详细的实验来分析我们的方法的模型设计和复杂性。最后，我们将学习到的表示可视化，以便对我们的方法有一个直观的理解。以下描述实验、结果和分析的细节4.1. 无监督点云识别i i设置：我们在ModelNet 40/10上测试了我们的方法[52]其中，我们使用最大池化操作A来聚合从1到L的每个抽象级别的局部特征，并将这些特征与全局特征连接起来。混合学习与GLR：由于监督学习的全局表示可以被视为建议的GLR框架的一个很好的初始化，我们的方法也与监督学习方法兼容，其中GLR作为一个辅助损失，以进一步提高表示的鲁棒性。和ScanObjectNN [46]基准比较，最先进的技术ModelNet 40和ModelNet 10分别在40和10个类中包含9832/3991个训练对象和2468/908个测试对象，其中点从CAD模型中采样。ScanObjectNN [46]是一个真实世界的数据，其中从扫描中提取了2902个3D对象为了进行跨数据集评估，我们在所有实验中使用了ScanNet [7]也用于我们的交叉数据评估实验，我们遵循5381我们的监督PointNet++9393SSG RSCNN表2：我们的方法与ModelNet40和ModelNet10上最先进的无监督3D表示学习方法的分类准确率（%）比较。†表示模型在ShapeNet上训练。92 9291 91方法输入准确度902 4 6通道宽度倍增器901 2 3 4 5通道宽度倍增器图3：我们的无监督模型及其监督模型的ModelNet40分类准确率（%）。表1：ModelNet40上三种不同训练策略的分类准确率（%）。骨干无监督监督混合PN++（小号）92.2291.6992.42PN++（大号）93.0292.0192.76RSCNN（小型）92.1791.6592.26RSCNN（大型）92.9492.1492.78实践[28]，根据实例分割标签从室内场景获取点云。在我们所有的实验中，我们为每个点云采样1024个点进行训练和评估，所有的结果都是使用单个视图测量的，而不使用多视图投票技巧来显示不同模型的整洁性能。表面法线信息用于为我们在ModelNet上训练的模型提供无监督作为输入。对于在ScanObjectNN和ScanNet上训练的模型，我们仅使用自重建损失进行全局到局部推理。与受监督的同行比较：我们首先将我们的方法与图3所示的监督基线进行了比较，在图3中，我们报告了分类使用基本模型（1倍）和更宽的模型（1.5至6倍通道宽度）时，ModelNet40的测量精度。请注意，我们使用了相同的网络架构和训练设置我们的模型和他们的同行进行公平的比较。显然，我们具有不同信道宽度的无监督模型始终优于监督模型。随着模型容量的增加，我们的模型可以实现使用5× PointNet++和4× RSCNN主干，可获得更好的性能并达到最高精度在下面的实验中，我们将基本1×模型和最佳模型分别表示为是-在两个方面，我们进一步比较了三种不同的训练策略：无监督学习，监督学习和混合学习，如表1所示。我们看到，当网络较小时，混合学习的性能优于监督和无监督模型，但当使用大型网络时，无监督方法的性能最佳我们推测，监督模型更容易过度拟合到训练集。所有这些结果表明，我们的无监督表示是更有区别和泛化比其监督对应。比较与的无监督最新技术水平：为了证明所提出的全局-局部推理方法的有效性，我们将我们模型的几种变体与表2中最先进的无监督表示学习方法进行了比较。除了基于点的方法外，我们还与一些先进的基于体素和基于视图的方法进行了比较。请注意，我们只使用ModelNet40作为训练数据，而一些方法是在更大的ShapeNet [52]数据集上训练的。然而，我们的模型优于所有其他方法的大幅度。可以观察到，我们的小型PointNet++模型超越了最先进的方法，我们的大型模型在ModelNet 40上将最佳点云模型（MAP-VAE）显著提升了2.87%。比较与的监督最新技术水平：更值得注意的是，我们的方法甚至可以实现非常有竞争力的结果相比，国家的最先进的监督方法，以无监督的方式。我们将我们的方法与广泛使用的合成数据集ModelNet和最近提出的真实世界数据集ScanObjectNN上的监督方法进行了比较。我们的无监督表示在ModelNet40上训练，然后在目标数据集上训练线性SVM以产生预测。结果总结见表3和表4。令人惊讶的是，我们的无监督学习表示可以胜过所有其他我们的监督准确度（%）公司简介MN10[15]第十五话体素74.40-VConv-DAE [39]体素75.5080.503DGAN [50]体素83.3091.00VSL [29]体素84.5091.00VIPGAN [17]查看91.9894.05[1]第一次点85.7095.30[1]点87.2792.18[55]第五十五话点88.4094.40FoldingNet [55]点84.3691.85MRTNet† [14]点86.40-[56]第五十六话点88.90-MAP-VAE [18]点90.1594.82Ours w/ PN++（小号）点92.2294.82Ours w/ PN++（大号）点93.0295.53Ours w/ RSCNN（Small）点92.1794.605382我们的监督表3：我们的方法与ModelNet40上最先进的监督点云模型的单视图分类准确度（%）的比较。我们还列出了使用更多点的结果，正常信息（此外，我们还展示了模型的监督基线。表5：交叉数据集评价。我们评估了无监督和监督表示对未知数据集的泛化能力。我们报告了使用在目标数据集上训练的线性SVM测量的分类准确度（%）(Sup.：监督）任务辅助核算我们∆ModelNet10 →ModelNet3085.4592.34+6.89ModelNet30 →ModelNet1091.3295.47+4.15ModelNet40 →ScanObjectNN65.9287.22+21.30ScanObjectNN →ModelNet40 78.76 90.80 +12.04ModelNet40 →ScanNet77.3189.23+11.92ScanNet →ModelNet4080.3891.32+10.94ScanObjectNN →ScanNet84.3187.96+3.63ScanNet →ScanObjectNN 82.44 85.43 +2.99采样密度数据效率8090608040201024 512 256 128输入点70100 50 2510 1训练样本（%）表4：我们的方法与ScanObjectNN上最先进的监督点云模型的单视图分类准确度（%）的比较。方法监督精度3DmFV [4]✓73.8PointNet [37]✓79.2SpiderCNN [54]✓79.5[第38话]✓84.3DGCNN [49]✓86.2[28]第二十八话✓85.5Ours w/ PN++（大号）✗87.2Ours w/ RSCNN（Large）✗86.9两个数据集上的单视图设置3中的最先进方法由于仅应用线性分类器，这些结果表明，我们的表示比测试集上的监督表示更具区分力。此外，我们观察到，我们的表示可以在ScanObjectNN上实现非常强大的结果，而无需微调。由于ModelNet和ScanObjectNN中的类别不同，这一证据表明，我们的方法可以发现不同类型的对象共享的语义知识。3在这里，我们借用了图像识别文献中的“视图”概念旋转或缩放的点云）。图4：与监督基线相比，我们的方法在采样密度和训练样本数量上的鲁棒性。交叉数据集评价：为了进一步探索学习表示的泛化能力，我们对ModelNet，ScanObjectNN和ScanNet进行了广泛的交叉数据评估实验，这些实验在类别和来源上都不同。我们的实验是基于PointNet++大型模型的无监督表示进行的，我们将结果与该模型的监督版本进行了具体来说，我们在源数据集上使用监督或无监督学习方法训练特征，并使用在目标数据集上训练的线性SVM 来执行分类。结果如表 5 所示，我们使用ModelNet40中的其余30个类别（除了ModelNet10中的10个类别）来形成ModelNet30数据集。我们看到，无监督学习的表示比有监督的表示具有更强的可转移性，并且我们的模型可以很好地推广到各种看不见的数据，因为我们从数据结构而不是标签中学习。我们的方法即使在交叉数据评估中也能保持很强的性能，这反映了无监督表示可以是跨数据集的3D对象的通用表示。耐用性分析：我们的方法对采样密度和训练样本数量的鲁棒性如图4所示。对于前者，我们测试了模型我们的监督方法点数监督Acc.PointNet [37]1k✓89.2[第38话]1k✓90.5[38]第38话：我的世界1k✓90.7SO-Net [27]1k✓92.5[28]第二十八话1k✓92.5DGCNN [49]1k✓92.9DensePoint [32]1k✓92.8[32]第三十二话：1k✓93.2RSCNN [33]1k✓92.9[33]第十三届全国人大代表选举1k✓93.6DGCNN [49]2k✓93.5[38]第38话：我的世界5k✓91.9SO-Net [27]（nor）5k✓93.4KPConv [43]6.8k✓92.9PN++（大号）1k✓92.1Ours w/ PN++（大号）1k✗93.0RSCNN（大型）1k✓92.0Ours w/ RSCNN（Large）1k✗92.9准确度（%）5383表6：我们的方法的消融研究。我们在ModelNet40上报告了分类准确率（%）。（LL2G：局部到全局推理，Lrecon：自我重构，Agg：多级特征聚集在等式中。（7），Lnormal：正常估计，SN：在ShapeNet上进行培训。）型号L L2GL ReconAgg.L正常SNAcc.一✓86.77B✓90.02C✓ ✓90.96D✓ ✓ ✓91.69E✓ ✓ ✓ ✓92.22F✓ ✓ ✓ ✓ ✓92.30表7：复杂性分析。我们报告了批量大小为16的FLOP和GPU推理吞吐量。在NVIDIA GTX 1080Ti GPU上测量。(pc/s：每秒点云数）型号FLOPsMSG PN++[38]1.68G113个/秒90.5[33]第三十三话0.30G634pc/s92.2我们的PN++（小型）0.31G731个/秒92.2[38]第二届中国国际汽车工业展览会（12票）14.15G9pc/s90.7[33]第10话：我的世界2.95G63个/秒92.7我们的PN++（大号）5.65G194pc/s93.0用1024点训练，稀疏点为1024、512、256、128和64。请注意，与以前的作品[33，38]不同，我们在训练期间没有执行随机输入丢弃。对于后者，我们用随机抽样的100%，50%，25%，10%和1% ModelNet40训练集训练表示，并在整个集合上训练线性我们在这个实验中使用了PointNet++大型模型。一般来说，我们看到我们的模型比他们的监督版本更强大。值得注意的是，我们的方法即使只使用10%（983个样本）和1%（98个样本）的训练样本，也可以保持良好的性能，并在ModelNet40上分别达到91.4%和89.3%的准确率可视化：为了直观地理解我们的方法，我们可视化了无监督学习特征。结果见补充材料。4.2. 方法设计分析消融术研究：为了检查我们设计的有效性，我们基于小型PointNet++网络进行了详细的消融研究。结果总结于表6中。基线模型A可以被视为FoldingNet [55]的变体我们看到，通过拟议的局部到全局推理任务（模型B）训练的模型可以显着改善基线模型3.25%这有力地证明了它的有效性。然后，当合并这两个损失时，准确度可以进一步提高到90.96%。我们还观察到，通过聚合本地和全球代表（模型D），改善了0.73%。我们的完整模型可以通过添加正常估计监督（模型E）来获得，它在ModelNet40上以非常轻的网络实现了 92.22% 的准确率。此外，我们还通过从ShapeNet [52]中添加更多训练数据（模型F）来研究训练集大小，但准确度略有提高（0.08%）。我们推测ModelNet足够大，可以学习一个好的表示。因此，我们在ModelNet上进行复杂性分析：表7显示了我们的模型和几种最先进的方法在GPU上的理论计算成本（以FLOP为单位）和实际推理吞吐量的模型复杂度。我们看到我们的大型模型需要考虑的计算成本，但由于SSG模型的简单性，在GPU这些结果表明，与投票相比，增加通道宽度可以在速度和准确性上实现更好的权衡。对于计算成本敏感的应用程序，我们认为我们的学习模型可以通过模型蒸馏[20]或生成伪标签[25]来提供强有力的监督，以训练用于实时应用的轻量级模型，这是未来研究的一个有趣方向。5. 结论We have proposed a new scheme for unsupervised repre-sentation learning of 3D point clouds by bidirectional global-local reasoning.全面的实验研究表明，我们的无监督学习表示可以超越其监督对应，并在几个广泛使用的基准测试中达到最先进的性能。我们期望我们的方法为从数据结构中学习更好的点云表示而不是人类注释打开一扇新的大门。将学习到的知识转移到更有效的模型，并将我们的方法扩展到更多的点云分析场景，如分割和检测是未来工作的有趣方向。确认这项工作得到了中国国家重点研究与发展计划基金2017YFA0700802的部分支持，中国国家自然科学基金基金61822603、U1813218、U1713214和61672306的部分支持，北京人工智能研究院的部分支持（BAAI），部分由清华大学国强研究所资助，部分由深圳基础研究基金（课题安排）资助JCYJ20170412170602564，部分由清华大学创新科学研究计划资助。5384引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.三维点云的学习表示与生成模型。在ICML，2018。一二三五六[2] Matan Atzmon，Haggai Maron，and Yaron Lipman.基于扩展算子的点卷积神经网络 arXiv 预印本 arXiv ：1803.10091，2018。第1、3条[3] PhilipBachman ， RDevonHjelm ， andWilliamBuchwalter.通过最大化跨视图的互信息来学习表示。arXiv预印本arXiv：1906.00910，2019。二、四[4] YizhakBen-Shabat ， MichaelLindenbaum 和 AnathFischer。3dmfv：使用卷积神经网络实时进行三维点云分类。IEEE Robotics and Automation Letters，3（4）：3145-3152，2018。7[5] Yoshua Bengio Aaron Courville和Pascal Vincent表象学习：回顾与新的视角。T-PAMI，35（8）：1798-1828，2013。2[6] 科琳娜·科尔特斯和弗拉基米尔·瓦普尼克支持向量网络。Machine learning，20（3）：273-297，1995. 5[7] Angela Dai ， Angel X Chang ， Manolis Savva ， MaciejHalber，Thomas Funkhouser，and Matthias Nießner.扫描网：丰富的注释三维重建的室内场景。在CVPR中，第5828-5839页，2017年。5[8] Haowen Deng，Tolga Birdal，and Slobodan Ilic. Ppf折叠网：旋转不变三维局部描述子的无监督学习。参见ECCV，第602-618页，2018年。一、三、五[9] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深层面部识别的附加角裕度损失在CVPR中，第4690-4699页，2019年。4[10] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在ICCV，第1422-1430页，2015中。2[11] Carl Doersch和Andrew Zisserman。多任务自监督视觉学习。在ICCV，第20512[12] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在CVPR中，第605-613页，2017年。5[13] Kunihiko Fukushima和Sei Miyake Neocognitron：一种视觉模式识别机制的自组织神经网络模型。神经网络中的竞争与合作，第267-285页Springer，1982年。2[14] Matheus Gadelha，Rui Wang，and Subhransu Maji.三维点云处理的多分辨率树网络在ECCV，第103-118页一二三五六[15] Rohit Girdhar，David F Fouhey，Mikel Rodriguez，andAb-hinav Gupta.学习对象的可预测和生成矢量表示参见ECCV，第484施普林格，2016年。6[16] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NeurIPS，第2672-2680页，2014中。2[17] Zhizhong Han ， Mingyang Shang ， Yu-Shen Liu ， andMatthias Zwicker.View Inter-prediction gan：通过学习全局形状记忆实现3D形状的无监督表示学习5385以支持本地视图预测。在AAAI，第33卷，第8376-8384页6[18] Zhizhong Han ， Xiyang Wang ， Yu-Shen Liu ， andMatthias Zwicker.多角度点云阀：通过联合自重构和半对半预测，从多个角度对3D点云进行无监督特征学习。ICCV，2019。一、三、六[19] Olivier J Hénaff ， Ali Razavi ， Carl Doersch ， SMEslami，and Aaron van den Oord.具有对比预测编码的数据高效图像识别。arXiv预印本arXiv：1905.09272，2019。二、四[20] Geoffrey Hi

下载后可阅读完整内容，剩余1页未读，立即下载