3D点云的自监督表示学习

35 浏览量更新于2023-10-15 收藏 24.5MB PDF 举报

自监督学习

预训练模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1653503D点云的时空自监督表示学习0黄思远 1 , ˚ , 谢一晨 2 , ˚ , 朱松纯 3 , 4 , 5 , 朱一新 3 , 401 加州大学洛杉矶分校 2 上海交通大学 3 北京智能通用人工智能研究院 4 北京大学 5清华大学0https://siyuanhuang.com/STRL0摘要0迄今为止，各种3D场景理解任务仍然缺乏实用且具有泛化能力的预训练模型，主要是由于3D场景理解任务的复杂性以及由相机视角、光照、遮挡等引入的巨大变化。在本文中，我们通过引入一种时空表示学习（STRL）框架来解决这一挑战，该框架能够以自监督的方式从未标记的3D点云中进行学习。受到婴儿如何从野外视觉数据中学习的启发，我们探索了从3D数据中提取的丰富的时空线索。具体而言，STRL将3D点云序列中的两个时间相关帧作为输入，通过空间数据增强进行转换，并自监督地学习不变表示。为了证实STRL的有效性，我们在三种类型（合成、室内和室外）的数据集上进行了大量实验。实验结果表明，与监督学习方法相比，学习的自监督表示使各种模型能够达到相当或甚至更好的性能，并能够将预训练模型泛化到下游任务，包括3D形状分类、3D物体检测和3D语义分割。此外，嵌入在3D点云中的时空上下文线索显著改善了学习到的表示。01. 引言0点云是一种基本的3D表示，用于视觉分析和场景理解。它与其他3D表示（例如体素、网格）不同，因为它是无处不在的：入门级深度传感器（甚至在手机上）在三角化成网格或转换为体素之前直接产生点云，使其主要适用于3D场景理解任务，如3D形状分析[5]、3D物体检测和分割[58,10]。然而，尽管在3D表示中无处不在，但注释3D点云数据被证明要比其他表示困难得多。0* 表示相等的贡献。0摘要0摘要0摘要0摘要0摘要0摘要0图1：我们方法的概述。通过学习点云序列中的时空数据不变性，我们的方法能够自监督地学习到有效的表示。0与传统的2D图像数据相比，标记的3D点云数据的规模巨大，这使得它在3D视觉任务中无法发挥其潜力。因此，合理利用大量未标记的3D点云数据是大规模3D视觉分析和场景理解成功的必要条件。与此同时，自监督学习从未标记的图像[11, 45, 24, 22, 6, 19, 7]和视频[54, 80, 34,51]中成为了表示学习中一个新兴的方向，具有在下游任务中巨大潜力。在本文中，我们通过利用自监督表示学习来填补这个空白，解决了我们社区长期存在的一个问题——由于3D数据的缺乏监督，监督训练难以产生实用且具有泛化能力的预训练模型。具体而言，我们在模型设计和学习中考虑了以下三个原则：简单性。虽然存在用于3D点云的自监督学习方法，但它们仅依赖于通过重构3D点云进行的空间分析[1,75, 53,20]。这种静态视角的自监督学习是通过复杂的操作、架构或损失函数来设计的，使得训练和泛化到多样化的下游任务变得困难。我们认为这种复杂的设计是人为引入的，是不必要的，可以通过补充缺失的时间上下文线索来减少或消除，就像婴儿如何理解这个世界一样。65360通过数据增强和对比学习数据不变性在图像和视频[ 22 , 6 ,19]上已经显示出了有希望的结果。一个自然的问题是：我们如何在3D点云中引入和利用不变性进行自监督学习？先前的文献[ 1 , 75 , 53 , 20 ]仅在合成数据集[ 5]上的形状分类中验证了自监督学习到的表示，这些数据集与自然室内[ 58 , 10 ]或室外[ 16]环境中的3D数据具有截然不同的特征，因此未能展示出足够的泛化能力以应对更高级的任务（例如3D物体检测）。为了遵循上述原则并应对由此引入的挑战，我们设计了一个时空表示学习（STRL）框架来从无标签的3D点云中学习。值得注意的是，STRL非常简单，只通过学习正样本对来学习，受到了BYOL [ 19]的启发。具体而言，STRL使用两个神经网络，称为在线网络和目标网络，它们相互作用并互相学习。通过对一个输入进行增强，我们训练在线网络来预测另一个通过单独的增强过程获得的与之在时间上相关的输入的目标网络表示。为了学习不变表示[ 12 , 68]，我们探索了嵌入在3D点云中的不可分割的时空上下文线索。在我们的方法中，在线网络和目标网络的输入是从点云序列中采样的在时间上相关的。具体而言，对于自然图像/视频，我们采样两帧具有自然视角变化的深度序列作为输入对。对于像3D形状这样的合成数据，我们通过旋转、平移和缩放来增强原始输入以模拟视角变化。输入之间的时间差异有助于模型捕捉不同视角之间的随机性和不变性。额外的空间增强进一步促进了模型学习3D点云的空间结构；见图1和第3节中的示例。为了推广学到的表示，我们采用了几个实用的网络作为骨干模型。通过在大型数据集上进行预训练，我们验证了学到的表示可以直接或通过额外的特征微调轻松地适应下游任务。我们还证明了学到的表示可以推广到与预训练领域不同的远程领域；例如，从ScanNet [ 10]学到的表示可以推广到ShapeNet [ 5]上的形状分类任务和SUN RGB-D [ 58]上的3D物体检测任务。我们在各个领域进行了大量实验，并通过将预训练表示应用于下游任务，包括3D形状分类、3D物体检测和3D语义分割来测试性能。接下来，我们总结我们的主要发现。我们的方法优于先前的方法。通过使用STRL进行预训练并将学到的模型应用于下游任务，它（i）在无监督学习中优于最先进的方法0在ModelNet40 [ 71]上的方法，通过线性评估达到了90.9%的3D形状分类准确率，(ii)在有限数据的半监督学习中显示出显著的改进，(iii)通过迁移预训练模型提升了下游任务，例如，它改进了SUNRGB-D [ 58 ]和KITTI数据集 [ 16]上的3D物体检测，以及S3DIS [ 2]上的3D语义分割通过微调。简单的学习策略导致了学习到的3D表示的令人满意的性能。通过在表格7和8中的消融研究中，我们观察到STRL可以通过简单的数据增强学习到自监督表示；它在ModelNet40线性分类上稳定地达到了令人满意的准确率（约85%），这与最近的研究结果[ 46]一致，即简单地预测3D方向有助于学习好的3D点云表示。时空线索提升了学习表示的性能。仅依赖空间或时间增强仅能得到相对较低的性能，如表格7和8所示。相比之下，通过学习结合空间和时间线索的不变表示，我们实现了3%的准确率提升。在合成的3D形状上进行预训练确实有助于实际应用。最近的研究[ 73]表明，从ShapeNet学到的表示在下游任务中的泛化能力不好。相反，我们在表格6中报告了相反的观察结果，表明在应用于处理物理世界中获得的复杂数据的下游任务时，预训练在ShapeNet上的表示可以达到可比甚至更好的性能。02. 相关工作0点云的表示学习与传统的结构化数据（如图像）不同，点云是无序的向量集合。这种独特的特性给表示学习带来了额外的挑战。虽然无序集合上的深度学习方法[66, 77, 42]可以应用于点云[52,77]，但这些方法没有利用空间结构。考虑到空间结构，现代方法如PointNet[48]直接将原始点云输入神经网络；这些网络应该是置换不变的，因为点云是无序集合。PointNet通过使用最大池化操作来形成一个表示全局上下文的单个特征向量，该全局上下文由一组点组成。自那时以来，研究者们提出了具有层次结构[49, 33, 13]、基于卷积的结构[25, 74,39, 59, 78, 70, 61]或基于图的信息聚合[13, 64, 55,67]的替代表示学习方法。这些神经网络直接在原始点云上操作，自然地提供了每个点的嵌入，特别适用于基于点的任务。由于所提出的STRL灵活且与各种神经模型兼容，我们设计的STRL利用了每点嵌入引入的有效性。��65370图2：我们的自监督学习框架的示意图。给定两个时空相关的3D点云，在线网络通过预测器预测目标网络的表示。目标网络的参数通过在线网络的移动平均进行更新。0无监督表示学习无监督表示学习可以大致分为生成式方法和判别式方法。生成式方法通常试图通过建模数据的分布或潜在嵌入来重建输入数据，可以通过能量建模[36, 44, 72, 14,35]、自编码[65, 32,4]或对抗学习[17]来实现。然而，这种无监督机制计算成本高，并且不必要地依赖于恢复这些高级细节来学习可推广的表示。0判别式方法，包括自监督学习，最近通过各种对比机制[22,45, 24, 23, 3, 62,63]生成判别性标签以促进表示学习。与最大化数据似然的生成式方法不同，最近的对比方法最大程度地保持了输入数据与其编码表示之间的互信息。在BYOL[19]之后，我们在对比学习中排除了负样本，并设计了STRL通过移动平均目标网络构建稳定和不变的表示。0点云的自监督学习尽管已经提出了各种方法[69, 1, 13, 75,37, 79, 60,46]来进行无监督学习和点云的生成，但这些方法仅仅在合成数据集上的形状分类任务中证明了其有效性，而忽视了自然3D场景上预训练模型的更高级任务。最近的工作开始展示了高级任务（如3D物体检测和3D语义分割）的潜力。例如，Sauder等人[53]训练神经网络通过随机排列物体部分生成的自监督标签来重建点云，而Xie等人[73]通过不同视角之间的密集对应关系进行学习，并使用对比损失。相比之下，所提出的STRL更简单，不需要计算密集的对应关系或重建损失；它仅依赖于点云的时空上下文和结构，在各种高级下游任务上产生更强大和改进的性能。03. 空时表示学习0我们根据BYOL[19]提出的空时表示学习（STRL）方法，并将其简单性扩展到3D点云表示的学习。图2展示了提出的方法。03.1. 构建点云的时间序列0为了学习3D点云的简单、不变和可推广的表示，我们将表示学习定义为使用可能是部分和杂乱的3D物体或场景的点云序列进行训练。给定一系列可能非均匀采样的时间步长，我们将相应的点云序列表示为P“tptuTt“1。我们设计了两种方法来生成训练点云序列以处理各种数据来源。自然序列自然序列是指由RGB-D传感器捕获的数据序列，其中每个深度图像It是场景的投影视图。给定每个时间步骤cext的相机姿态（外部参数），我们使用内部参数cin反投影深度图像，并在世界坐标系中获得一系列点云tpu：0pt“Backproj pIt,cext,cinq,t“1,¨¨¨,T. (1)0合成序列静态点云在本质上是空间的，与自然序列相比缺少关键的时间维度。给定一个点云p0，我们通过连续旋转、平移和缩放原始点云来构建一个序列的点云tpu：0pt“Rtpp t´1q,t“1,¨¨¨,T, (2)0其中t是变换的索引，Rt是采样的变换，模拟时间视角变化。03.2. 表示学习0我们设计STRL来通过两个网络的交互无监督地学习表示。这里，自监督学习的本质是训练在线网络准确预测目标网络的表示。具体来说，由θ参数化的在线网络由主干编码器eθ和特征投影器fθ两个组件组成。类似地，由ϕ参数化的目标网络由主干编码器eϕ和特征投影器fϕ两个组件组成。此外，一个具有参数的预测器r回归目标表示：目标网络作为回归目标来训练在线网络，其参数ϕ是在线参数θ的指数移动平均值。0ϕÐτϕ`p1´τqθ, (3)0其中τPr0，1s是移动平均的衰减率。(4)8 for k1 to K do9B Ð tpui , pvi P T ptPuquNi“110for i1 to N do14LuÑv “ ´2 ¨xrpzθq,zϕy}rpzθq}2¨ zϕ215totaluvvu18ϕ Ð τϕ ` p1 ´ τqθ19 end65380给定一系列点云P，我们通过时间采样器T从P中采样两帧点云pu，pv。通过一组空间增强A（详见第4节），STRL生成两个输入xu“auppuq和xv“avppvq，其中au，av∈A。对于每个输入，在线网络和目标网络分别生成zθ“fθ(peθ(pxu))和zϕ“fϕ(peϕ(pxv))。通过额外的预测器r，STRL的目标是最小化归一化预测和目标投影之间的均方误差：0LuÑv“››››0}r(pzθq)2´zϕ0}zϕ}20›››02“2´2¨xr pzθq，zϕy0}r(pzθq)2¨}zϕ}20最后，我们对公式（4）中的损失进行对称化，通过将xv分别输入在线网络和xu输入目标网络来计算LvÑu。总损失定义如下：0Ltotal“LuÑv`LvÑu. (5)0在每个训练步骤中，只有在线网络和预测器的参数会被更新。目标网络的参数在每个训练步骤之后通过公式（3）进行更新。与[22,19]类似，我们只保留在线网络的主干编码器eθ作为训练结束后的学习模型。算法1详细介绍了提出的STRL方法。04. 实现细节0合成序列生成我们采样以下变换的组合来构造方程Rpq在Eq. (2)中；参见图3b的示例： •随机旋转。对于每个轴，我们在其中绘制随机角度在15度内旋转。0•0• 随机缩放。我们使用因子 s P r 0 . 8 , 1 . 25 s对点云进行缩放。为了增加随机性，每个变换都以 0 . 5的概率进行采样和应用。空间增强空间增强通过改变点云的局部几何来转换输入，这有助于STRL学习更好的点云空间结构表示。具体来说，我们应用以下变换，类似于图像数据增强；参见图3a的示例。 •随机裁剪。随机裁剪一个随机的3D长方体补丁，其体积在原始点云的60%和100%之间均匀采样。长宽比在 r 0 . 75 , 1. 33 s 范围内。0•随机挖空。随机挖空一个随机的3D长方体。3D长方体的每0• 随机抖动。每个点的3D位置在 r 0 , 0 . 05 s0• 随机丢弃。我们以 r 0 , 0 . 7 s的丢弃比例随机丢弃3D点。0算法1：3D点云的STRL0输入：01 t P u : 一组3D点云序列;02 T , A : 时间采样器和空间增强;03 e θ , f θ : 在线编码器和投影器，参数为 θ ;04 e ϕ , f ϕ : 目标编码器和投影器，参数为 ϕ ;05 r : 预测器;06 K : 优化步骤的数量;07 N : 批量大小。0输出：在线编码器 e θ .0/* 采样具有时间相关性的点云批次 * /011 a u , a v P A /* 生成输入 * /012 x u “ a u p p u q , x t “ a v p p v q /* 投影 * /013 z θ “ f θ p g θ p x u qq , z ϕ “ f ϕ p g ϕ p x v qq /*计算损失 * /0/* 计算总对称损失 * /016 end /* 更新在线网络和预测器 * /017 θ, r “ 优化 p θ, r, L total q /* 更新目标网络 * /0•下采样。我们根据编码器的输入维度随机选择所需数量的3D0•归一化。我们将点云归一化为单位球，同时在合成数据上进行训练[5]。在这些增强中，裁剪和挖空对点云的空间结构引入了更明显的变化。因此，我们以 0 . 5的概率应用它们。训练我们使用LARS优化器[76]和余弦衰减学习率调度[40]，其中有一个10个周期的预热期但没有重启。对于目标网络，指数移动平均参数从τ start “ 0 . 996逐渐增加到1。具体来说，我们设置 τ “ 1 ´ p 1 ´ τstart q ¨ p cos p πk { K q ` 1 q{ 2，其中k是当前训练步骤，K是最大训练步骤数。STRL对不同的主干编码器都是有利且具有泛化能力的；有关每个特定实验的编码器结构的详细信息，请参见第5节。投影器和预测器实现为具有激活函数[43]和批归一化[29]的多层感知器（MLPs）；有关详细的网络结构，请参阅补充材料。对于大多数预训练模型，我们使用分布在8个TITAN RTXGPU上的64到256个批次大小。��Figure 3: Spatial data augmentation and temporal sequence generation. Except for the natural sequence generation, eachtype of augmentation transforms the input point cloud data stochastically with certain internal parameters.653905. 实验0我们首先介绍如何在5.1节中对STRL进行各种数据源的预训练。接下来，在5.2节中评估这些预训练模型在各种下游任务上的表现。最后，在5.3节中，我们通过额外的分析实验和对开放问题的讨论，分析了我们模型中不同模块和参数的影响。05.1. 预训练0回顾一下，如3.1节所详述的，我们构建了点云序列并对STRL进行预训练，以学习点云数据的时空不变性。对于合成形状和自然室内/室外场景，我们生成点云的时间序列，并使用下面详细说明的不同策略采样输入对。05.1.1 合成形状0ShapeNet我们从ShapeNet[5]数据集中学习自监督表示模型。它包含来自55个类别的57,448个合成对象。我们按照Yang等人[75]的方法对点云进行预处理。通过使用在公式（2）中定义的时间变换将每个点云增强为两个不同视图，我们生成两个时间校正的点云。进一步应用空间增强以生成点云对作为输入。05.1.2 自然室内和室外场景0我们还从自然室内和室外场景中学习自监督表示模型，其中点云序列是readilyavailable的。使用RGB-D传感器，可以通过在不同的相机姿势下进行扫描来捕获深度图像序列。由于大多数场景都是平滑捕捉的，我们从相邻帧之间的时间相关性中学习时间不变性。ScanNet对于室内场景，我们在ScanNet数据集[10]上进行预训练。它包含707个独特场景的1,513个重建网格。在实验中，我们发现增加帧采样频率只会产生有限的贡献。0对性能的贡献。因此，我们对原始深度序列进行子采样，每100帧作为每个场景的关键帧，总共得到1,513个序列和大约25,000帧。在预训练期间，我们基于每个序列的关键帧生成固定长度的滑动窗口，并在每个窗口内随机采样两个帧。通过使用公式（1）对这两个帧进行反投影，我们生成世界坐标中的点云。我们使用相机位置将这两个点云转换为相同的世界坐标；第一帧的相机中心是原点。KITTI对于室外场景，我们在KITTI数据集[15]上进行预训练。它包括100多个序列，分为6个类别。对于每个场景，图像和点云以大约10FPS的速度记录。我们只使用由Velodyne激光雷达传感器捕获的点云序列。平均每帧约有120,000个点。与ScanNet类似，我们对关键帧进行子采样，并在滑动窗口内采样帧对作为训练对。对于自然场景的预训练，我们通过应用公式（2）中的合成时间变换到这两个点云中，进一步增加数据的多样性。最后，对两个点云都应用空间数据增强。05.2. 下游任务0对于下游任务中的每个任务，我们提供模型结构、实验设置和结果。有关训练细节，请参阅附加材料。05.2.1 形状理解0我们采用之前的工作[1, 53, 69,75]中提出的协议，使用ModelNet40[71]基准测试评估我们预训练模型的形状理解能力。该数据集包含来自40个类别的12,331个对象（9,843个用于训练，2,468个用于测试）。我们按照Qi等人[48]的方法对数据进行预处理，使每个形状在单位空间中采样到10,000个点。如第5.1节所述，我们在ShapeNet数据集上对骨干模型进行预训练。我们使用以下评估指标来衡量学习到的表示。3D-GAN [69]83.3%Latent-GAN [1]85.7%SO-Net [38]87.3%FoldingNet [75]88.4%MRTNet [21]86.4%3D-PointCapsNet [75]88.9%MAP-VAE [75]88.4%Sauder et al. + PointNet [53]87.3%Sauder et al. + DGCNN [53]90.6%Poursaeed et al. + PointNet [46]88.6%Poursaeed et al. + DGCNN [46]90.7%es65400形状分类的线性评估为了对3D形状进行分类，我们在编码的全局特征向量之上附加了一个线性支持向量机（SVM）。按照Sauder等人[53]的方法，这些全局特征是在最后一个池化层之后提取的激活。我们的STRL可以灵活地与各种骨干模型配合使用；我们选择了两个实用的模型——PointNet [48]和DGCNN[67]。SVM使用从ModelNet40数据集的训练集中提取的全局特征进行训练。在预训练和SVM训练期间，我们从每个形状中随机采样2,048个点。表1总结了测试集上的分类结果。所提出的STRL在ModelNet40上优于所有最先进的无监督和自监督方法。0表1：在ModelNet40上进行形状分类的线性评估比较。线性分类器是根据不同自监督方法在ShapeNet数据集上学习到的表示进行训练的。0方法 ModelNet400STRL + PointNet（我们的）88.3% STRL +DGCNN（我们的）90.9%0形状分类的监督微调我们还通过监督微调评估了学习到的表示模型。预训练模型作为点云编码器的初始权重，我们在ModelNet40数据集上根据标签对DGCNN网络进行微调。我们的STRL在最终分类准确率上带来了高达0.9%的显著性能提升；请参见表2a。这一改进比以前的方法更为显著；甚至达到了最先进的监督学习方法[78]的可比性能。此外，我们还展示了我们的预训练模型可以显著提升半监督学习中的分类性能，即在提供有限标记训练数据的情况下。具体而言，我们随机采样不同比例的训练数据，并确保至少选择一个样本作为每个类别的样本。然后，我们在这些有限样本上使用监督进行微调，并在完整的测试集上评估其性能。表2b总结了通过准确性衡量的结果。结果显示，当训练样本的1%和20%可用时，所提出的模型分别获得了2.1%和1.6%的性能提升；当训练样本较少时，我们的自监督模型将更好地促进下游任务。0表2：在ModelNet40上微调的形状分类。自监督预训练模型作为监督学习方法的初始权重。0（a）在完整训练集上微调0类别方法准确率0监督学习0PointNet [48] 89.2% PointNet++[49] 90.7% PointCNN [39] 92.2%DGCNN [67] 92.2% ShellNet [78]93.1%0自监督Sauder等人+DGCNN[53] 92.4%STRL+DGCNN（我们的）93.1%0（b）在少量训练样本上微调0方法1% 5% 10% 20%0DGCNN 58.4% 80.7% 85.2% 88.1%STRL+DGCNN 60.5% 82.7% 86.5% 89.7%0图4：学到的特征可视化。我们使用t-SNE可视化了ModelNet10测试集中每个样本的提取特征。这两个模型都是在ShapeNet上进行预训练的。0嵌入可视化我们使用我们的自监督方法可视化PointNet和DGCNN模型学到的特征，如图4所示；它显示了ModelNet10测试集中不同类别样本的嵌入。采用t-SNE[41]进行降维。我们观察到，除了梳妆台和床头柜这两个通常看起来相似且难以区分的类别，两个预训练模型都能够根据类别很好地区分大多数样本。05.2.2室内场景理解0我们提出的STRL基于视角变换学习表示，适用于合成形状和自然场景。因此，与以往主要进行形状理解的先前工作不同，我们的方法还可以提升室内/室外场景理解任务。本节我们从室内场景理解开始。我们首先在ScanNet数据集上进行自监督预训练，如第5.1节所述。接下来，我们通过标签进行微调，评估3D物体检测和语义分割的性能。3D物体检测需要模型基于输入的3D点云预测3D边界框及其对象类别。在预训练之后，我们对模型进行微调和评估，使用SUN数据集。ectata.3Dnges.elsromeaster-thehatablech.65410RGB-D[58]数据集。它包含10,335个单视图RGB-D图像，分为5,285个训练样本和5,050个验证样本。物体被注释为带有3D边界框和类别标签。我们使用VoteNet[47]进行实验，它是一个以3D点云为输入的广泛使用的模型。在预训练期间，我们稍微修改了它的PointNet++[49]骨干网络，添加了一个最大池化层以获取全局特征。表3总结了结果。与从头开始训练VoteNet相比，预训练提高了1.2个mAP的检测性能，表明从大规模数据集（即ScanNet）中学到的表示可以成功转移到不同的数据集，并通过微调来提高高级任务的性能。它还比最先进的自监督学习方法[73]提高了0.7个mAP。0表3：在SUN RGB-D上微调的3D物体检测0模型方法输入mAP@0.25 IoU0从头开始的VoteNet Geo+Height 57.7 Geo 57.00SR-UNet[9] PointContrast[73] Geo 57.5 VoteNetSTRL（我们的）Geo 58.203D语义分割我们将预训练模型应用于斯坦福大规模三维室内空间（S3DIS）[2]数据集上的3D语义分割任务。该数据集包含从6个室内区域的272个房间中扫描得到的3D点云，每个点都被注释为13个类别之一。我们遵循Qi等人[48]和Wang等人[67]的设置，将每个房间分割成1m×1m的块。与它们不同的是，我们使用只包含几何特征（XYZ坐标）的4096个点作为模型的输入。在这个实验中，DGCNN网络首先在ScanNet上进行自监督预训练。在这里，我们关注只有有限标记数据的半监督学习。因此，我们在每次训练时将预训练模型微调到1-5区域中的一个区域，并在区域6上测试模型。如表4所示，预训练模型始终优于从头开始训练的模型，尤其是在训练集较小的情况下。05.2.3室外场景理解0与室内场景相比，室外环境中捕获的点云由于激光雷达传感器的远程性质而更加稀疏，带来了额外的挑战。在本节中，我们通过将学习到的视觉表示转移到室外场景的3D物体检测任务中来评估所提出的STRL的性能。如第5.1节所述，我们在KITTI数据集上用PV-RCNN[56]进行预训练，这是用于3D物体检测的最先进模型。与VoteNet类似，我们通过添加一个最大池化层来修改PV-RCNN的主干网络，以获得全局特征。01在ShapeNet上预训练的模型取得了更好的结果，为59.2mAP，这在第5.3节中进行了分析和解释。0表4：在S3DIS上微调的3D语义分割。我们以半监督的方式在区域1-5之一上对预训练或初始化的模型进行训练。下面的性能是在S3DIS数据集的区域6上评估的。0微调区域方法准确率 mIoU0区域1（3687个样本）从头开始84.57% 57.85 STRL85.28% 59.150区域2（4440个样本）从头开始70.56% 38.86 STRL72.37% 39.210区域3（1650个样本）从头开始77.68% 49.49 STRL79.12% 51.880区域4（3662个样本）从头开始73.55% 38.50 STRL73.81% 39.280区域5（6852个样本）从头开始76.85% 48.63 STRL77.28% 49.530我们在KITTI3D物体检测基准[16]上对预训练模型进行微调，该基准是KITTI原始数据的一个子集。在这个基准中，每个点云都用3D物体边界框进行了注释。该子集包括3712个训练样本、3769个验证样本和7518个测试样本。表5总结了结果。在所有三个类别中，使用STRL预训练的模型优于从头开始训练的模型。特别是对于自行车类别，可用的训练样本最少，所提出的STRL产生了明显的性能提升。我们在微调时进一步冻结主干模型；结果显示，与从头开始训练模型相比，具有预训练主干的模型达到了可比较的性能。0表5：在KITTI上微调的3D物体检测。我们报告了在KITTI数据集的val集上中等难度的3D检测性能。下面的性能是通过40个召回位置的mAP评估的。0方法 Car（IoU=0.7） Pedestrian Cyclist 3D BEV 3D BEV 3DBEV0PV-RCNN（从头开始）84.50 90.53 57.06 59.84 70.14 75.040STRL + PV-RCNN（冻结主干）81.63 87.84 39.62 42.41 69.6574.200STRL + PV-RCNN 84.70 90.75 57.80 60.83 71.88 76.6505.3.分析实验和讨论0泛化能力：ScanNet与ShapeNet预训练。哪种数据能够使学习模型在其他数据领域具有更好的泛化能力，这仍然是三维计算机视觉中一个未解决的问题。为了阐明这个问题，我们在现有的最大自然数据集ScanNet和合成数据ShapeNet上对模型进行预训练，并测试它们在不同领域的泛化能力。表6总结了我们的跨域实验设置和结果，表明在线性评估下，从在自然场景上预训练的模型到合成形状领域的成功转移，实现了可比较的形状分类性能。D.65420表6：消融研究：跨域泛化能力0（a）在ModelNet40上进行形状分类的线性评估。0方法预训练数据集准确率0STRL + DGCNN（线性）ScanNet 90.4% ShapeNet90.9%0STRL + DGCNN（微调）ScanNet 92.9% ShapeNet93.1%0(b) 在SUN RGB-D上进行微调的3D物体检测。0方法预训练数据集 mAP@0.25 IoU0STRL + VoteNet ScanNet 58.2 ShapeNet 59.20此外，与最近的一项研究[73]相反，我们报告了一个相反的观察结果。具体而言，ShapeNet数据集上预训练的VoteNet模型在SUNRGB-D物体检测中的性能优于ScanNet预训练，证明了ShapeNet数据的更好泛化能力。我们认为有三个潜在原因导致了这样的矛盾结果：(i)Xie等人[73]中用于学习点云特征的编码器过于简单，无法从预训练的ShapeNet数据集中捕捉足够的信息。(ii)ShapeNet数据集提供了具有清晰空间结构和较少噪声的点云，这有利于预训练模型学习有效的表示。(iii)尽管ScanNet中的序列数据量很大，但其模态可能仍然有限，因为它只有707个场景。我们在下面的数据效率实验中进一步支持了这个假设。时域变换如第3.1节所述0并且5.1，我们从物体形状的合成视图变换和物理场景的自然视图变换中学习。为了研究它们的影响，我们通过去除某些变换来分解组合，以生成在ShapeNet数据集上进行预训练时的合成形状的训练数据；表7a总结了结果。对于物理场景，我们在KITTI数据集上对PV-RCNN进行预训练，并比较了使用和不使用从自然序列中采样输入数据训练的模型；表7b总结了结果。在这两种情况下，时间变换都带来了显著的性能提升。空间数据增强我们通过关闭某些类型的增强来研究空间数据增强的效果；见表8。通过将点云增强为不同的形状和尺寸，随机裁剪提高了性能，而随机切割损害了性能，因为它破坏了点云的结构连续性，这对于从邻居那里进行点对点特征聚合至关重要。数据效率为了进一步分析训练数据的大小如何影响我们的模型，我们通过从整个1,513个序列中采样25,000帧深度图像，从ScanNet数据集的一个子集中对DGCNN模型进行预训练。在ModelNet40上进行评估，该模型的性能在线性评估和微调中仅下降约0.5%。0表7：消融研究：时域变换0(a)合成形状。我们通过在不同时间变换下对ModelNet40上的预训练PointNet模型进行线性评估来进行评估。0合成视图变换准确率0完整 88.3% 去除旋转 87.8% 去除缩放87.9% 去除平移 87.2%去除旋转+缩放+平移 85.5%0(b)物理场景。我们冻结PV-RCNN的主干网络，并在KITTI上对3D物体检测器进行微调。它显示了带有和不带有从自然序列中采样输入数据的车辆检测的mAP结果（在40个召回位置下）。0自然序列车辆简单中等困难0� 91.08 81.63 79.39 � 90.17 81.2179.050表8：消融研究：空间数据增强。我们在ShapeNet上对PointNet模型进行不同空间变换的预训练。下面的性能反映了在ModelNet40上进行的线性评估结果。0空间变换准确率0完整 88.3% 去除切割 88.1%去除裁剪 87.5% 去除裁剪和切割87.4% 仅降采样 86.1%0与使用40万帧整个数据集进行训练相比，我们假设增加数据多样性而不是采样密度将提高自监督3D表示学习的性能。鲁棒性我们观察到，所提出的STRL可以通过简单的增强学习自监督表示；它在ModelNet40线性分类上稳定地达到了令人满意的准确率（约85%）。然而，与2D图像预训练[6,19]中显示的结果不同，数据增强对ImageNet线性评估的影响高达10%。我们假设这种差异可能归因于在点云上执行的一般下采样过程，它引入了结构噪声并有助于不变特征学习。06. 结论0在本文中，我们设计了一个时空自监督学习框架，用于学习3D点云表示。我们的方法结构简单，并在将学习的表示迁移到各种下游3D场景理解任务上展示了有希望的结果。未来，我们希望探索如何将当前方法扩展到整体3D场景理解[28，27，26，8，30，50，31]，以及如何通过联合训练来弥合来自各个领域的未标记数据的领域差距。65430参考文献0[1] Panos Achlioptas，Olga Diamanti，IoannisMitliagkas和LeonidasGuibas。学习和对抗生成3D点云。在国际机器学习会议（ICML）论文集中，2018年。1，2，3，5，60[2] Iro Armeni，Ozan Sener，Amir R Zamir，HelenJiang，Ioannis Brilakis，Martin Fischer和SilvioSavarese。大规模室内空间的3D语义解析。在计算机视觉和模式识别（CVPR）IEEE会议论文集中，2016年。2，70[3] Philip Bachman，R Devon Hjelm和WilliamBuchwalter。通过最大化视图间的互信息学习表示。在神经信息处理系统（NeurIPS）的进展中，2019年。30[4] Yoshua Bengio，Li Yao，Guillaume Alain和PascalVincent。广义去噪自动编码器作为生成模型。在神经信息处理系统（NeurIPS）的进展中，2013年。30[5] Angel X Chang，Thomas Funkhouser，LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese，Manolis Savva，Shuran Song，HaoSu等。Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015年。1，2，4，50[6] Ting Chen，Simon Kornblith，MohammadNorouzi和GeoffreyHinton。对比学习视觉表示的简单框架。arXiv预印本arXiv：2002.05709，2020年。1，2，80[7] Xinlei Chen和KaimingHe。探索简单的孪

下载后可阅读完整内容，剩余1页未读，立即下载