无监督点云预训练方法及其在下游任务中的有效性

155 浏览量更新于2023-10-13 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9782通过遮挡完成的无监督点云预训练王瀚辰1刘琦2岳翔宇3琼·拉森比1马特·J. Kusner41剑桥大学2牛津大学3加州大学伯克利分校4伦敦大学学院摘要我们描述了一个简单的点云预训练方法。它分为三个步骤：1.遮罩相机视图中被遮挡的所有点; 2. 学习编码器-解码器模型以重建被遮挡点; 3.使用编码器权重作为下游点云任务的初始化。我们发现，即使我们在单个数据集（ModelNet40）上进行预训练，这种方法也可以在广泛的下游任务中提高不同数据集和编码器的准确性。具体来说，我们表明，我们的方法在对象分类，以及基于部分和语义分割任务中执行以前的预训练方法。我们研究了预训练的特征，发现它们导致宽的下游最小值，具有高变换不变性，并且具有与部分标签高度相关的激活。代码和数据可从以下网址获得：https://github.com/hansen7/OcCo1. 介绍已经出现了一系列令人兴奋的新点云模型，用于对象检测[27，52，64]和分割。[22，26，57，65]。这些方法依赖于标记的大规模点云数据集。不幸的是，由于以下几个原因，对点云进行标注具有挑战性(1)点云可以是稀疏的、被遮挡的并且处于低分辨率，使得点的身份模糊;（2）不稀疏的数据集可以容易地达到数亿个点（例如，用于对象分类的小的密集点云[63]和用于重构的大的巨大点云[66]）;（3）标记单个点或绘制3D边界框比标记2D图像更耗时且更容易出错[50]。这些挑战阻碍了将点云模型部署到标记数据稀缺的新现实世界环境中。然而，当前的3D感测模态（即，、3D扫描仪、立体相机、激光雷达）已经使得能够创建点云数据的大型未标记存储库[13，41]。这激发了最近一系列关于无监督预训练方法的工作最初的工作使用了潜在的生成模型，如生成对抗网络（GANs）[1，14，54]和自动生成网络[1，14，54]少镜头目标识别分割图1：相对于多个预训练方法的随机初始化的相对改进：Jigsaw [42]，cTree [44]和OcCo（我们的）用于各种下游任务。编码器[15，29，59]。这些最近都被跑赢了自我监督的目标[42，56，2，44，20，61]。受最近这一系列工作的启发，我们提出了 Oc-clusion Completion（OcCo），这是一种无监督的预训练方法，包括：（a）经由视点遮挡生成掩蔽点云的机制，以及（b）重建被遮挡点云的完成任务。遮挡+完成的概念基于三个观察结果：（1）在完成被遮挡点云时准确的预训练模型需要理解这些点云的空间和语义属性。(2)3D场景完成[45，9，19]已被证明是学习视觉定位表示的有用辅助任务[43]。(3)基于掩码的完成任务已成为自然语言处理中学习预训练表示的事实标准[11，32，36]，并广泛用于图像[35]和图形[24]的预训练我们证明，在单个对象级数据集（ModelNet40）上进行预训练具体地，我们发现与其他初始化技术相比，OcCo具有以下性质1)在少量学习实验中提高样本效率2）对象分类、对象部分分割和语义分割中的改进的概括; 3）在微调之后发现更宽的局部最小值; 4）更多的语义ObjectNNScanObjectNNShapeNetPartOcCo（我们cTree [43]Jigsaw [41]ModelNetSensatUrban扫描S3disScanNetModelNet相对改善%（acc）相对改善%（mIoU）97831.生成遮挡数据集(e.g.、在ModelNet40上）2.列车编解码器完井模型编码器(e.g.、PointNet、解码器(e.g.、微调权重3.使用编码权重作为模型初始化少量学习，对象分类“卡车”预先训练的编码器（来自步骤2）初始模型微调模型零件分割、语义分割初始模型微调模型图2：OcCo概述。1.采取任何点云数据集，并通过以下方式为每个输入生成遮挡对象：（a）随机采样相机视点，以及（b）从该视点中删除隐藏的点（对于所有实验，我们使用从ModelNet 40生成的相同遮挡数据集）; 2. 训练编码器-解码器模型以完成被遮挡的点云（编码器可以是学习点云的表示的任何模型，解码器可以是任何完成模型）;3.使用学习的编码器权重作为任何下游任务的初始化（例如，少量学习、对象分类、部分/语义分割）。我们表明，OcCo在多个模型和任务中优于各种预训练方法。通过网络解剖[4，5]描述的有意义的表示;5）在抖动，平移和旋转变换下具有更好的聚类质量2. 相关工作无监督预训练由于其在许多问题设置中的成功而越来越受欢迎，例如自然语言理解[11，32]，对象检测[8，16]，图形学习[23，24]和视觉定位[43]。目前，用于点云的两种最常见的无监督预训练方法基于（i）生成建模，以及（ii）生成模型。(ii)自我监督学习生成建模的工作包括基于生成对抗网络（GANs）[54，1，14]，自动编码器[15，29，59]，规范化流[58]和近似凸分解[12]的模型。然而，用于点云上的无监督预训练的生成模型最近已经被自监督方法超越[42，44，56]。这些方法通过学习来预测跨数据集不变的点云的关键几何属性。具体地说，[42]提出了一种基于重排置换点云的预训练过程。它的工作原理是将点云分割成k3个体素，随机排列体素，然后训练模型来预测每个点的原始体素位置。这个想法是预训练的模型im-通过学习这种重新排列，明确地学习点云的几何结构然而，这一目标有两个关键问题：1.体素表示不是置换不变的。因此，如果点云被旋转或旋转，则模型可以学习非常不同的表示。翻译; 2。从真实对象和场景生成的点云将具有与随机排列的云非常不同的结构，因此不清楚为什么在重新排列时准确的预先训练的权重将是对象分类或分割模型的良好初始化。另一个工作[44]使用覆盖树[6]来分层划分点以进行少量学习。然后，他们训练一个模型，将每个点分类到指定的分区。然而，因为覆盖树被设计用于快速最近邻搜索，所以它们可以任意地划分点云的语义上连续的区域（例如，飞机机翼、汽车轮胎）划分到层次结构的不同区域中，因此忽略关键点云几何形状。第三项工作，PointContrast [56]，使用对比学习来预训练场景点云的权重。他们的方法使用完整3D场景的不同视图之间的已知逐点对应。这些逐点对应需要通过将不同的深度图配准到单个3D场景中来对数据进行后处理。因此，他们的方法只能应用于已注册的静态场景，限制了该方法的适用性：我们将OcCo和PointContrast之间的比较留给未来的工作。在下文中，我们将展示基于简单的自监督对象的非监督预训练：完成被遮挡的点云，产生在下游任务上优于[42]和[44]的权重。完成3D形状以学习模型初始化并不新鲜，[43]使用场景完成[45，9，19]作为预训练任务来初始化3D体素描述符以进行视觉定位。为此，他们根据深度图像生成了部分体素化场景，并训练了一个变分自动编码器微调权重摄像机视点9784··→PPPPP {}P∈P||P·P··y1K˛¸zX`X完成。不同的是，我们的重点是描述一个技术nique学习点云模型的初始化。我们的目标是通过这种预先训练的初始化来改进各种下游任务，包括在各种数据集上的少量学习、3. 闭塞完成我们方法的总体思想如图2所示。我们的观察是，通过基于不同视点遮挡点云，然后学习模型来完成它们，完成模型的权重可以用作下游任务的初始化（例如，分类、分段）。这种方法不仅提高了少数学习设置的准确性，而且提高了完全监督任务中的最终泛化准确性。自始至终，我们将点云定义为3D欧几里得空间中为p1，p2，… 其中每个点pi是坐标（xi，yi，zi）和其他特征（例如，颜色和正常）。我们首先描述组成遮挡映射o（）的组件。然后，我们详细介绍了如何学习一个完成模型c（），并在附录中给出了伪代码和架构细节。3.1. 生成遮挡我们定义了一个随机的遮挡映射o：P P（其中P是所有点云的空间），从一个完整的点云到一个被遮挡的点云~。该映射通过从特定视点中移除不能看到的点来构造。这通过三个步骤来实现：（1）完整点云（在世界参考系中）到相机参考系（其指定视点）的坐标中的投影;（2）识别摄像机视点中被遮挡的点;（3）从相机参考系到世界参考系的点的投影。从相机查看点云。相机定义从3D世界参考系到独特的3D相机参考系中的投影。它通过指定相机模型和发生投影的相机视点来实现。虽然可以使用任何相机模型，但为了说明起见，考虑最简单的相机模型：针孔相机。针孔相机的视点投影由简单的线性方程给出：由描述相机视点的旋转矩阵（r个条目）与平移向量（t个条目）的级联来描绘，并且最终矩阵是相机本征函数（f指定相机焦距，γ是相机中的X轴和y轴之间的偏斜度，并且w、h是相机图像的宽度和高度）。给定这些，最终坐标（x_cam，y_cam，z_cam）是相机参考系中的点的位置。我们将内在矩阵称为K，旋转/平移矩阵称为[R|t]。确定遮挡点。我们可以用多种方式来考虑点（xcam，ycam，zcam）：（a）相机参考系中的3D点;（b）具有坐标（fx_cam/z_cam，fy_cam/z_cam）和深度z_cam的2D像素。以这种方式，如果由投影产生的一些2D点具有相同的像素坐标，但是出现在更远的深度处，则它们可以被其他2D点遮挡。为了确定哪些点被遮挡，我们首先使用Delaunay三角剖分来重建多边形网格，然后我们移除属于通过z缓冲确定的隐藏表面的点[47]。从摄影机帧映射回世界帧。一旦被遮挡的点被移除，我们通过等式的逆变换将点云重新投影到原始世界参考系。（一）.因此，随机化遮挡映射〇（）如下构建。修复初始点云。给定相机本征矩阵K，样本旋转/平移矩阵[[R1，1]，. . .，[RVtV]]，其中V是视图的数量。对于每个视图v[V]，使用等式（1）投影到该视点的相机帧中。（1），找到遮挡点并移除它们，然后使用其逆将所有其他点映射回世界参考这得到最终遮挡点云P〜v，每个v ∈[V]。3.2. 完成任务给定由o（）产生的被遮挡点云~，完成任务的目标是学习从P~到完成的点云的完成映射-pingc：P→PP. 完备映射是精确的W。r. t. lossl（·，·）如果EP~o（P）l（c（P~），P）→0。复杂的结构模型c（）是编码器将被遮挡的点云映射到向量，并且解码器完成点云。在预训练之后，编码器权重可以用作初始值。xcamfγw/2t1 简体中文用于下游任务。在附录中，我们给出了伪-ycamZCAM0 01r7r8r9t3（一）OcCo的代码我们描述完成的细节模型体系结构。`[intrinsic]旋转|翻译[R|t]的范围内4. 实验在上文中，（x，y，z）是原始点云坐标（在世界参考中），相机视点被定义为在本节中，我们介绍了预训练（第4.1节）和下游微调（第4.2节）的设置然后，9785·P--×PP在4.3节中示出了少量学习、对象分类、部分和语义分割的结果。4.1. OcCo预培训设置数据集。对于所有实验，我们使用ModelNet40 [55]作为预训练数据集。ModelNet 40包括来自40个类别的12，311个合成CAD对象，数据集被分为9，843/2，468个对象，分别用于训练和测试。我们使用训练集构建预训练数据集。用相机固有参数f=1000，γ=0，ω=1600，h=1200生成遮挡点云对于每个点云，我们随机选择10个视点，其中偏航角、俯仰角和滚转角在0和2π之间均匀选择，并且平移设置为零。架构如上所述，我们的预训练完成模型c（）是编码器-解码器模型。为了表明我们的预训练方法对架构是不可知的，我们选择了三种不同的编码器，包括Point-Net [37]，PCN [60]和DGCNN [53]。这些编码器将被遮挡的点云映射成1024维矢量。我们采用[60]中的基于折叠的解码器，以两步完成被遮挡的点云解码器先出来-放置一个由1024个点组成的粗略形状，coarse，然后围绕coarse中的每个点扭曲4 4 2D网格，以重建精细形状 fine，由16384个点组成。我们使用倒角距离（CD）作为接近度度量在预测P和地面实况P之间：CD（P，P）=1Σmin||x−x||+1个最小值||x−x||.2表1：分类数据集名称类型#类培训/测试数量ModelNet合成409 843/2 468ScanNet实扫描106110/1769ScanObjectNN实扫描152，304/576是随机选择的，并且每个类别包含N个样本。然后在来自测试分割的对象上评估训练的模型。我们将Occo与Jig进行比较-saw [42]和cTree [44]，因为它优于以前的非监督方法[1，54，62，59]以及监督方法变种[38，30，37，53]。我们遵循与cTree相同的设置，其中我们在ModelNet 40上以“K -way N -shot”配置预训练模型对象分类。给定由一组点表示的对象，对象分类预测对象所属的类。我们使用三个基准：模型-Net 40[55]、ScanNet 10 [39]和ScanObjectNN [49]，数据集统计数据总结见表1。后两种方法更具挑战性，因为它们由来自真实世界室内扫描的遮挡对象组成我们使用与[37，53]相同的设置进行微调。具体来说，对于PCN和Point- Net，我们使用Adam优化器，初始学习率为1 e-3，学习率每20个epoch衰减0.7，最小值为1 e-5。对于DGCNN，我们使用SGD优化器，动量为0.9，权重为decay 1 e-4。学习率从0.1开始，然后使用余弦退火[31]以最小值1 e-3衰减。|P| x∈Px∈P|P| x∈P x∈P2（二）我们在之前的全连接层中使用dropout [46]softmax输出层。PointNet和PCN的丢弃率设置为0.7，DGCNN的丢弃率设置为0.5为所有完成模型的损失是粗略形状和精细形状上的倒角距离的加权和：l：=CD（Pcoa rs e，Pcoa rs e）+αCD（Pfin e，Pfin e）.（三）超参数。我们使用Adam [25]优化器，没有权重衰减（L2正则化）。学习率最初设置为1 e-4，每10个epoch衰减0.7。我们对模型进行了50个epoch的预训练。批量大小为32，批量归一化的动量为0.9。方程中的系数α（3）对于前10000次训练迭代被设置为0.01，然后在10000次之后增加到0.1、0.5和1.020000和50000训练步骤。4.2. 微调设置很少有机会学习。少样本学习（FSL）旨在用非常有限的数据训练准确的模型。FSL的典型设置是培训期间，K班9786三个模型，我们训练他们200个epoch，批量大小32. 我们在表3中报告了基于三次运行的测试结果。部件分割。零件分割是一项具有挑战性的细粒度3D识别任务。任务是预测部件类别标签（例如，椅子腿、杯柄）的每个点的位置。为了评估OcCo预训练的有效性，我们使用了ShapeNetPart [3]基准测试，其中包含来自16个类别的16，881个对象，总共有50个部分。每个对象由 2048 个点表示。对于 PCN 和PointNet，我们使用Adam优化器，初始学习率为1 e-3，学习率每20个epoch衰减0.5，最小值为1 e-5。对于DGCNN，我们使用动量为0.9，权重衰减为1 e-4的SGD优化器。学习率从0.1开始，然后使用余弦退火[31]衰减，最小值为1 e-3。我们训练模型250个epoch，9787表2：少量学习结果。我们报告10次运行的平均误差和标准误差，并将最佳结果加粗。基线5路10路10发20发ModelNet40PointNet、RandPointNet、JigsawPointNet、cTreePointNet、OcCo52.0±3.8 57.8±4.9 46.6±4.3 35.2±4.866.5±2.5 69.2±2.4 56.9±2.5 66.5±1.463.2±3.4 68.9±3.0 49.2±1.9 50.1±1.689.7±1.9 92.4±1.683.9± 1.8 89.7± 1.5DGCNN、兰德31.6±2.8 40.8±4.6 19.9±2.1 16.9±1.534.3±1.3 42.2±3.5 26.0±2.4 29.9±2.660.0±2.8 65.7±2.6 48.5±1.8 53.0±1.390.6± 2.8 92.5± 1.982.9±1.386.5±2.2DGCNN，拼图DGCNN、cTreeDGCNN、OcCoScanObjectNNPointNet、Rand57.6±2.5 61.4±2.4 41.3±1.3 43.8±1.958.6±1.9 67.6±2.1 53.6±1.7 48.1±1.959.6±2.3 61.4±1.4 53.0±1.9 50.9±2.170.4±3.3 72.2±3.0 54.8±1.361.8± 1.2PointNet、JigsawPointNet、cTreePointNet、OcCoDGCNN、兰德DGCNN、JigsawDGCNN、cTreeDGCNN、OcCo62.0±5.6 67.8±5.1 37.8±4.3 41.8±2.465.2±3.8 72.2±2.7 45.6±3.1 48.2±2.868.4±3.4 71.6±2.9 42.4±2.7 43.0±3.072.4± 1.4 77.2± 1.4 57.0± 1.361.6±1.2批量大小16.我们在测试期间使用与[37]相同的后处理，并在表4中报告了三次运行的结果。语义分割语义分割预测室内/室外场景下每个点的语义对象类别。我们使用S3DIS基准[3]进行室内场景分割，使用SensatUrban基准[21]进行室外场景分割。S3DIS包含通过Matterport扫描仪在6个不同地方收集的3D扫描，包括271个房间和13个语义类。SensatUrban由超过30亿个注释点组成，覆盖了英国三个城市（伯明翰，剑桥和约克）总计7.6平方 SensatUrban中的每个点都被标记为13个语义类之一。我们使用与[37，53]相同的预处理，后处理和每个点由9维向量（坐标、RGB和归一化位置）描述。我们训练了100个epoch的所有模型，批量大小为24。我们在表5中报告了基于三次运行的结果。4.3. 微调结果很少有机会学习。我们在表2中报告了少量学习的实验结果。我们为每个编码器的最佳结果着色为蓝色，并粗体显示每个数据集的整体最佳得分。我们在所有后续结果中使用相同的着色方案。我们发现Occo的表现优于两个少数-9788拍摄基线 Jigsaw [42] 和 cTree [44] 域内（ Mod-elNet40）和跨域（ScanObjectNN）。我们相信这是由于以下事实：OcCo生成的遮挡将是由于对象的几何结构，而[42]的体素排列和[44]的覆盖树分区可能破坏该结构的各个方面。对象分类。表3比较了OcCo与随机和Jigsaw [42]对象分类的初始化。1我们表明，OcCo初始化的模型在所有数据集上都优于这些基线。OcCo不仅在域内数据集（ModelNet）上表现良好，而且在跨域数据集（ScanNet和ScanObjectNN）上也改进在三个编码器之间是一致的。在下一节中，我们将提供一个解释：在微调基于OcCo的初始化之后发现的局部最小值看起来比使用其它初始化发现的局部最小值宽。对象部分分割。表4比较了OcCo初始化与对象部分分割上的随机和Jigsaw [42我们观察到，OcCo初始化模型在整体准确性和平均类IoU方面优于其他模型。这些结果在各种编码器中是一致的我们进一步分析了为什么OcCo帮助编码器更好地识别对象部分与功能可视化和概念检测第5节。语义分割我们比较随机，拼图和OcCo初始化的室内和室外语义分割任务。对于S3DIS，我们使用[3]之后的6重交叉验证来评估训练模型，并在表5中报告分数。很明显，OcCo初始化模型优于随机和Jigsaw初始化模型。对于SensatUrban，我们在表6中报告了分数。我们观察到，对于预训练数据集中包含的语义类别（例如汽车），OcCo优于随机初始化和Jigsaw对于ModelNet40中未包含的类这是有意义的，因为这些对象的几何形状可能没有被学习的初始化很好地理解最终，我们发现令人鼓舞的是，在对象级别学习表示的OcCo仍然可以提高户外场景分割的泛化能力。5. 分析在本节中，我们首先展示了OcCo预训练导致了一个微调的模型，该模型收敛到比其他初始化更平坦的局部最小值。然后，我们用特征可视化、语义概念检测和无监督交互来评估从OcCo学习到的表示1注意，我们故意没有与cTree [44]进行比较，因为它是专门为少数学习设计的。9789−表3：3D对象分类基准的总体准确度我们报告了三次运行的平均值和标准误差PointNet表4：ShapeNetPart上的整体准确度和并集的交集（mIoU）我们报告了三次运行的平均值和stePointNetPCNDGCNN随机拼图OCCO随机拼图OCCO随机拼图OCCOOA（%）92.8±0.993.1±0.593.4±0.792.3±1.092.6±0.993.0±0.992.2±0.992.7±0.994.4± 0.7mIoU（%）82.2±2.482.2±2.883.4±1.981.3±2.681.2±2.982.3±2.484.4±1.284.3±1.285.0± 1.0表5：在S3DIS上在三次运行中跨越六个折叠的总体准确度（OA）和平均联合交叉（mIoU）PointNetPCNDGCNN兰德拼图OCCO兰德拼图OCCO兰德拼图OCCOOA（%）78.2±0.780.1±1.282.0±1.082.9±0.983.7±0.785.1±0.583.7±0.784.1±0.784.6±0.5mIoU（%）47.0±1.452.6±1.954.9±1.051.1±2.452.2±1.953.4±2.154.9±2.155.6±1.458.0± 1.7表6：Sensat-Urban上的总体点准确度（OA）、平均类别准确度（mAcc）和平均类别交集（mIoU）。我们报告了三次运行的平均值和标准误差我们使用与PointNet相同的预处理过程PointNet86.29 53.33 45.10 80.05 93.98 87.05 23.05 19.52 41.803.3843.47 24.20 63.43 26.86 0.00 79.53PointNet-Jigsaw 87.38 56.97 47.90 83.36 94.72 88.48 22.87 30.19 47.43 15.62 44.49 22.91 64.14 30.33 0.00 77.88PointNet-OcCo87.87 56.14 48.50 83.76 94.81 89.24 23.29 33.38 48.04 15.84 45.38 24.99 65.00 27.13 0.00 79.58PCN86.79 57.66 47.91 82.61 94.82 89.04 26.66 21.96 34.96 28.39 43.32 27.13 62.97 30.87 0.00 80.06PCN-Jigsaw87.32 57.01 48.44 83.20 94.79 89.25 25.89 19.69 40.90 28.52 43.46 24.78 63.08 31.74 0.00 84.42PCN-OcCo86.90 58.15 48.54 81.64 94.37 88.21 25.43 31.54 39.39 22.02 45.47 27.60 65.33 32.07 0.00 77.99DGCNN87.54 60.27 51.96 83.12 95.43 89.58 31.84 35.49 45.11 38.57 45.66 32.97 64.88 30.48 0.00 82.34公司简介88.65 60.80 53.01 83.95 95.92 89.85 30.05 43.59 46.40 35.28 49.60 31.46 69.41 34.38 0.00 80.55DGCNN-OcCo88.67 61.35 53.31 83.64 95.75 89.96 29.22 41.47 46.89 40.64 49.72 33.57 70.11 32.35 0.00 79.74信息. 分析表明，OcCo可以学习丰富的和有区别的点云特征。优化景观的可视化。我们遵循与[28]相同的过程，在图4中可视化随机，Jigsaw和OcCo初始化PointNet的损失景观。所有三个模型都在ScanObjectNN上进行了微调，训练设置见第4.2节。为了可视化，我们使用两个随机向量δ和η来扰动精细-调谐参数θ*，并得到相应的损失值。2D图f（α，β）定义为：f（α，β）=L（θ*+αδ+βη）⑷其中δ和η中的每个滤波器相对于θ* 中的相应滤波器归一化。α和β具有相同的范围[ 1，1]。我们观察到，具有OcCo预训练的模型可以收敛到更平坦的局部最小值，这是已知的。有更好的推广[7，18]。学习特征的可视化。我们使用特征可视化来探索预训练模型在微调之前对点云对象的了解。在图3中，我们从ModelNet 40的测试分割中可视化了对象的特征/嵌入。我们根据它们的通道激活对点进行着色。激活值越大，颜色将越暗。我们观察到OA（%）mAcc（%）mIoU（%）地面蔬建筑壁桥停车轨交通街车步道自水数据集PCNDGCNN随机拼图OCCO随机拼图OCCO随机拼图OCCOModelNet89.2±0.189.6±0.190.1±0.189.3±0.189.6±0.290.3±0.292.5±0.492.3±0.393.0±0.2ScanNet76.9±0.277.2±0.278.0±0.277.0±0.377.9±0.378.2±0.376.1±0.777.8±0.578.5±0.39790图3：OcCo-PointNet对学习特征的可视化。表7：变换下的调整互信息（AMI）。我们报告的平均值和标准误差超过10随机初始化。在“transformation”列下转型ShapeNet10ScanObjectNNJ不RVFHM2DP拼图OCCOVFHM2DP拼图OCCO0.12± 0.010.22± 0.030.33± 0.040.51± 0.030.05± 0.020.18± 0.020.29± 0.020.44± 0.03C0.12± 0.020.19± 0.020.32± 0.020.45± 0.020.06± 0.020.17± 0.020.27± 0.020.42± 0.04CC0.13± 0.030.21± 0.020.29± 0.070.38± 0.040.04± 0.020.18± 0.030.24± 0.040.39± 0.06CCC0.07± 0.030.20± 0.040.28± 0.030.35± 0.050.04± 0.010.16± 0.030.18± 0.090.34± 0.06随机拼图Occo图4：损失景观可视化。预先训练的编码器可以学习低级几何图元，例如，平面，圆柱体和圆锥体，在早期阶段。而它后来识别更复杂的形状，如翅膀，叶子和上半身。我们进一步使用t-SNE来可视化ShapeNet 10上的对象嵌入。我们注意到，在预训练之后形成了可区分的集群。因此，看起来OcCo可以学习对区分对象或场景的不同部分有用的特征这些特征将有益于下游任务，例如，目标分类和场景分割。无监督互信息探测。我们假设没有微调的预训练模型可以以无监督的方式学习标签信息，即，跨域数据集的零触发学习。为了验证，我们利用OcCo-PointNet来提取对象从ShapeNet10和ScanObjectNN。然后，我们使用无监督聚类方法K-means（其中K设置为对象类别的数量）对提取的嵌入进行聚类。为了评估聚类质量，我们计算了生成的聚类和真实聚类之间的调整互信息（AMI）[33]。如果两个聚类是相同的，则AMI达到1，而对于随机分类聚类分配，它具有期望值0。此外，我们还研究了OcCo-PointNet是否对输入变换具有鲁棒性特别地，我们考虑了三种变换，包括旋转、平移和抖动。在使用PointNet进行特征/嵌入提取之前，我们将这些转换应用于输入点云。我们将OcCo与Jigsaw和两个手工制作的点云全局描述符进行比较：表7中的视点特征直方图（VFH）[40]和M2DP [17]。我们观察到预训练方法，例如，Jigsaw和OcCo可以比手工制作的描述器学习更多的区别性特征表示，而从OcCo预训练的编码器学习的表示这些结果表明，OcCo是有效的无监督特征学习。语义概念的检测。我们采用网络剖分[4，5]来研究OcCo预训练模型是否可以在没有微调的情况下以无监督的方式学习语义概念具体来说，对于每个对象，我们首先创建一个9791DΣΣ| ·|210210420图5：Jigsaw和OcCo初始化PointNet特征编码器的“Feat1”（上）、“Feat2”（中）和“Feat3”（下）模块中检测到的对象部分的数量括号中的数字是该对象类别下的部件数。2011年第41单元，部分：12，mIoU = 0.606地面实况注释。给定一组点云P，我们基于这些二进制掩码计算联合的平均交集（mIoU）分数：Miou（k，n）=EP DP|（五）|(5)|M k(P) ∪C n(P)|其中是集合基数。 mIoU（k，n）可以被解释为信道k检测概念n的程度。在图5中，我们绘制了检测到的概念的数量（即，1018第三单元，功能3，部件：44，mIoU = 0。619Miou （k，n）>0。（五）。我们得出结论，OcCo优于功能2中的第63个单元，部件：17，mIoU = 0。584图6：检测到的概念的可视化。由蓝色和绿色标记的部分是基于特征激活（Mk）和地面实况标签（Cn）的二进制掩码基于来自网络中的第k个通道的特征图，激活掩码M_k。如果该特征图中的第i个点的激活在前20%中，否则第i个条目被分配为0。如果点属于第n个语义概念（例如，椅子腿）在在检测到的概念的总数方面Jigsaw。我们在图6中可视化了来自OcCo-PointNet的一些掩码。我们观察到，OcCo预训练可以捕获丰富的概念信息。这些结果表明，使用OcCo进行预训练可以无监督地学习语义概念。6. 讨论在这项工作中，我们已经证明，遮挡完成（OcCo）可以学习表示的点云是准确的少拍学习，在对象分类，并在部分和语义分割任务，相比，以前的工作。我们进行了多项分析来解释为什么会发生这种情况，包括损失景观的可视化，学习特征的可视化，变换不变性的测试，以及量化初始化可以学习语义概念的程度在未来，它将是有趣的，设计一个完成模型，明确知道的闭塞过程。该模型可以更快地收敛并且需要更少的参数，因为这可以在学习期间充当更强的归纳偏差。7. 确认我们要感谢胡庆勇、黄胜宇、Matthias Niessner和Kilian Q。Weinberger和Trevor Dar- rell进行了宝贵的讨论和反馈。Jigsaw OcCoJigsaw OcCoJigsaw OcCo9792引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas J.Guibas 三维点云的学习表示与国际机器学习会议（ICML），2018年。一二四十四[2] Antonio Alliegro，Davide Boscaini和Tatiana Tommasi。联合监督和自我监督学习的三维现实世界的挑战。arXiv预印本arXiv：2004.07392，2020。1[3] Iro Armeni，Ozan Sener，Amir R Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的三维语义解析。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年。四、五[4] David Bau，Bolei Zhou，Aditya Khosla，Aude Oliva，and Antonio Torralba.网络解剖：量化深层视觉表征的可解释性。在 IEEE 计算机视觉和模式识别会议（CVPR），2017年。二、七[5] David Bau ， Jun-Yan Zhu ， Hendrik Strobelt ， AgataLapedriza，Bolei Zhou，and Antonio Torralba.理解单个单元在深度神经网络中的作用美国国家科学院院刊，2020年。二、七[6] Alina Beygelzimer，Sham Kakade和John Langford。覆盖最近邻的树木。第23届国际机器学习会议（ICML），2006年。2[7] Pratik Chaudhari，Anna Choromanska，Stefano Soatto，Yann LeCun，Carlo Baldassi，Christian Borgs，JenniferT.Chayes，LeventSagun，andRiccardoZecchina.Entropy-sgd：偏置梯度下降到宽谷。国际学习表征会议（ICLR），2017年。6[8] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。2020年中国机器学习国际会议（ICML）。2[9] Angela Dai，Christian Diller，and Matthias Nießner. Sg-nn：用于rgb-d扫描的自监督场景完成的稀疏生成神经网络。 IEEE/CVF 计算机视觉和模式识别会议（CVPR），2020年。一、二[10] Angela Dai ， Charles Ruzhongtai Qi ， and MatthiasNießner.使用3d编码器预测器cnns和形状合成的形状完成。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。三、十二[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。一、二[12] MatheusGadelha 、 AruniRoyChowdhury 、 GopalSharma、Evangelos Kalogerakis、Liangliang Cao、ErikLearned-Miller、Rui Wang和Subhransu Maji。使用近似凸分解在点云上进行标签有效2020年欧洲计算机视觉会议（ECCV）。2[13] Timo Hackel，N.萨维诺夫湖Ladicky，Jan D. Wegner，K. Schindler和M.波勒菲斯SEMANTIC3D.NET ：一个新大规模点云分类基准。 ISPRSAnnals of thePhotogrammetry，Remote Sensing and Spatial InformationSciences，第IV-1-W1卷，第911[14] Zhizhong Han ， Mingyang Shang ， Yu-Shen Liu ， andMatthias Zwicker.查看帧间预测gan：通过学习全局形状存储器来支持局部视图预测的3D形状的无监督表示学习。在AAAI人工智能会议上，2019年。一二十四[15] Kaveh Hassani和Mike Haley点云上的无监督多任务特征学习。在IEEE计算机视觉国际会议（CVPR），2019年。一、二[16] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉

下载后可阅读完整内容，剩余1页未读，立即下载