自监督跨模态对比学习用于3D点云理解

43 浏览量更新于2023-10-25 收藏 13.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Intra-modal CorrespondenceCross-modal CorrespondenceIntra-modal Instance DiscriminationCross-modal Instance DiscriminationCross-modal Correspondence199020CrossPoint：自监督跨模态对比学习用于3D点云理解0Mohamed Afham † Isuru Dissanayake † Dinithi Dissanayake † Amaya Dharmasiri †0Kanchana Thilakarathna ‡ Ranga Rodrigo †0† 斯里兰卡莫拉图瓦大学电子与电信工程系 ‡ 悉尼大学0afhamaflal9@gmail.com0摘要0由于点云的不规则结构，对于诸如3D对象分类、分割和检测等不同任务的大规模点云数据集的手动注释通常是费力的。自监督学习是一种解决这个问题的有希望的方法，它可以在没有任何人工标注的情况下进行操作。我们观察到在现实世界中，人类能够将从2D图像中学到的视觉概念映射到对3D世界的理解中。受到这一观察的启发，我们提出了CrossPoint，一种简单的跨模态对比学习方法，用于学习可迁移的3D点云表示。它通过在不变空间中最大化点云和相应渲染的2D图像之间的一致性，实现了对象的3D-2D对应关系，同时鼓励点云模态的不变性。我们的联合训练目标结合了模态内部和模态间的特征对应关系，从而以自监督的方式在3D点云和2D图像模态之间获得了丰富的学习信号。实验结果表明，我们的方法在包括3D对象分类和分割在内的各种下游任务上优于先前的无监督学习方法。此外，消融研究验证了我们的方法在更好地理解点云方面的潜力。代码和预训练模型可在https://github.com/MohamedAfham/CrossPoint上获得。01. 引言03D视觉在自动驾驶、混合现实和机器人等应用中至关重要，因此引起了广泛关注。鉴于此，3D视觉研究问题，如对象分类[38, 39, 55]、检测[32]和分割[39, 49,55]等，已经有了大量的工作。0特征不变空间 3D点云 2D图像0图1.所提方法的示意图。给定一个物体的3D点云及其从随机摄像机视角渲染的2D图像，CrossPoint通过自监督对比学习强制实现3D-2D对应关系，同时保持模型对仿射和空间变换的不变性。这有助于生成可推广的点云表示，然后可以用于3D物体分类和分割。请注意，右侧显示的2D图像是直接从可用的3D点云渲染而来的[63]。0近年来，随着点云成为最流行的3D数据表示方法，深度学习的成功关键在于大规模注释数据。尽管3D感知技术（如激光雷达）的进步使得可以广泛收集3D点云样本，但由于点云的不规则结构，手动注释如此大规模的3D点云数据集是费力的。自监督学习是解决这个问题的主要方法之一，在2D领域已被证明是有效的[5, 7, 13,34]。一些工作已经探索了点云上的自监督表示学习，主要基于生成模型[1, 57]、重建[46, 53]和其他预处理方法。299030文本任务[36]。除此之外，随着对图像[7, 13, 18,33]和视频[20, 40,54]理解的对比学习的成功，最近的研究也开始探索了点云理解的自监督对比学习[21, 44, 59,68]。然而，现有的基于对比学习的点云理解方法仅依赖于对3D点云的增强不变性。跨模态学习，即学习不同的模态，已经在自监督学习中取得了重要的成果。视觉+语言[9, 41,45]和视频+音频[3, 34,35]是一些值得注意的多模态学习组合。多模态设置已经在各种2D视觉任务中被采用，例如目标检测[24]、少样本图像分类[2, 60]和视觉问答[22,56]。受到多模态学习的进展的启发，我们引入了CrossPoint，一种简单而有效的用于3D点云理解的跨模态对比学习方法。0我们的工作目标是捕捉三维对象和二维图像之间的对应关系，以构建可转移的点云表示。如图1所示，我们将增强版本的点云和相应的渲染二维图像嵌入到特征空间中的相邻位置。在现实世界中，人类擅长将从二维图像中学到的视觉概念映射到对三维世界的理解。例如，如果一个人通过图像观察过某个对象，他/她将能够轻松地识别该对象。认知科学家认为，三维-二维对应是儿童视觉学习过程的一部分[8,43]。同样，在机器人技术和自动驾驶等现实世界应用中，模型意识到这种三维-二维对应将极大地促进对三维世界的有效理解。我们的方法特别遵循了一个联合目标，即将同一点云的增强版本嵌入到特征空间中的相邻位置，同时保持它们与原始三维点云的渲染二维图像之间的三维-二维对应关系。0联合内模态和跨模态学习目标使模型具备以下理想属性：(a)关联点云和图像模态中出现的组合模式，例如对象的细粒度部分级属性；(b)通过施加不变性来获取点云的空间和语义属性的知识增强；(c)将渲染的二维图像特征编码为增强的点云特征的质心，从而促进对变换不敏感的三维-二维对应关系。此外，CrossPoint不需要类似SimCLR[7]的负采样内存库。尽管具有内存库可以提高对比学习的效果，但丰富的增强和难例正样本的制定已被证明可以提升对比学习的效果[23,72]。我们假设在内模态集中使用的变换可以提供足够的特征增强和跨模态对应。0我们验证了我们的方法在多个下游任务中的泛化能力。具体而言，我们在合成[58]和真实世界[52]的物体数据集上进行形状分类。尽管在合成物体数据集[6]上进行了预训练，但CrossPoint在分布不同的数据上的性能证明了联合学习目标的重要性。此外，消融研究证明了内模态和跨模态目标的组成部分对比学习的贡献。我们还采用了多个广泛使用的点云网络作为我们的特征提取器，从而证明了我们方法的通用性。我们方法的主要贡献可以总结如下：0•我们展示了使用自监督对比学习在特征空间中进行简单的三维-二维对象对应可以有效地理解三维点云。0•我们提出了一种新颖的端到端自监督学习目标，包括内模态和跨模态损失函数。它鼓励将二维图像特征嵌入到相应的三维点云原型附近，避免对特定增强的偏见。0•我们在多个下游任务上广泛评估了我们提出的方法，包括物体分类、少样本学习和部分分割，使用了各种合成和真实世界数据集，CrossPoint优于先前的无监督学习方法。0•此外，我们在CIFAR-FS数据集上进行少样本图像分类，以证明从CrossPoint微调预训练的图像主干网络优于标准基线。02. 相关工作0点云的表示学习。与其他模态（例如图像）相比，学习点云表示是一项具有挑战性的任务。这是因为点云的不规则结构以及在处理每个点时需要进行排列不变性。PointNet[38]提出了一系列直接使用3D点云而无需任何预处理的方法和架构。从那时起，点云基础任务取得了许多进展，如3D物体分类[27, 29, 39, 49, 55, 62, 70]，3D物体检测[27, 32,37, 69]和3D点云合成[1, 57]。399040然而，这种表示学习方法的性能取决于往往难以获取的注释点云数据。Sharma等人[47]引入了cTree，其中可以在标签效率场景（即少样本学习）中学习点云表示。相比之下，我们的方法侧重于学习可转移的点云表示，而不依赖任何注释，然后可以用于各种下游任务，如分类和分割。0点云的自监督学习。已经探索了几种方法来对点云进行自监督表示学习。最初的一系列工作利用生成对抗网络[1, 15,57]和自编码器[11, 16, 26, 65,71]进行生成建模，旨在使用不同的架构设计重构给定的输入点云。最近的一系列工作[17, 36, 42, 46, 48, 53,64]引入了各种预训练的自监督任务，目标是学习丰富的语义点属性，最终导致高级别的区分性知识。例如，Wang等人[53]训练一个编码器-解码器模型来完成被遮挡的点云，而Poursaeed等人[36]将点云的旋转角度估计定义为预训练任务。然而，在这项工作中，我们利用对比学习[14]来学习特征空间中的不变映射。受自监督对比学习在图像理解方面的成功启发，许多工作[10, 21, 28, 44, 59, 67,68]已经分析了这种设置在点云理解方面的应用。PointContrast[59]在给定点云的两个变换视图上执行点级别的不变映射。STRL [21]是BYOL[13]在3D点云上的直接扩展，通过在线网络和目标网络的交互无监督地学习表示。与现有的利用对比学习的工作相反，我们引入了一个辅助的跨模态对比目标，它捕捉到3D-2D的对应关系，从而产生更好的表示能力。0跨模态学习。从不同的模态中学习往往可以提供丰富的学习信号，从而可以轻松地解决给定上下文的语义信息。最近的研究[3, 9, 34, 41, 45,50]表明，在跨模态设置中进行预训练可以产生可转移的表示，然后可以用于各种下游任务。CLIP[41]旨在通过最大化图像和文本模态之间的余弦相似度来学习多模态嵌入空间。类似地，Morgado等人[34]结合音频和视频模态进行跨模态协议，从而在动作识别和声音识别任务中取得了显著的增益。张等人[68]引入了一种使用点云和体素的联合学习方法。此外，[61]通过过滤膨胀将预训练的2D图像模型转移到点云模型。我们的工作与同时进行的工作密切相关0与现有方法相比，CrossPoint的设计方式是鼓励2D图像特征嵌入到相应的3D点云原型附近，同时在点云模态中强加变换不变性。03. 提出的方法0在这项工作中，我们通过引入内模态和跨模态对比学习目标的融合，改进了无监督的三维点云表示学习。本节首先介绍了所提出方法的网络架构细节（第3.1节）。然后，我们描述了在内模态（第3.2节）和跨模态（第3.3节）设置下制定的对比学习损失函数。最后，我们提出了整体的训练目标（第3.4节）。所提出方法的概述如图2所示。03.1. Preliminaries0假设我们有一个数据集 D = { ( P i , I i ) } |D| i =1，其中 P i∈ R N × 3，I i ∈ R H × W × 3，I i 是点云 P i的渲染的2D图像。注意，I i 是通过从随机相机视点捕获 P i而获得的[6]。我们的目标是以自我监督的方式训练一个点云特征提取器 f θ P ( .)，使其能够有效地应用于下游任务。为此，我们使用图像特征提取器 f θ I ( .)，点云和图像分别使用多层感知器（MLP）投影头 g ϕ P (. ) 和 g ϕ I ( . )。03.2. Intra-Modal Instance Discrimination0受到图像模态对比预训练的成功启发[7, 18,33]，我们制定了内模态实例判别（IMID）来通过自我监督对比学习来强制执行对一组点云几何变换 T的不变性。给定输入的3D点云 P i，我们构造其增强版本 Pt 1 i 和 P t 2 i。我们通过随机组合 T中的变换以顺序方式组成 t 1 和 t2。我们使用旋转、缩放和平移等变换。除此之外，我们还利用空间变换，如抖动、归一化和弹性扭曲。无论增强方式如何，相应的变换矩阵参数都是随机初始化的。点云特征提取器 f θ P 将 P t 1 i 和 P t 2 i都映射到特征嵌入空间，并将得到的特征向量投影到一个不变空间 R d，其中应用了对比损失，使用投影头 g ϕP。我们将 P t 1 i 和 P t 2 i 的投影向量分别表示为 z t 1 i和 z t 2 i，其中 z t i = g ϕ P � f θ P � P t i ��。目标是最大化 zt 1 i 与 z t 2 i的相似性，同时最小化与所有其他投影向量的相似性。𝑷!𝒛"#!!"𝒉"l(i, t1, t2) = − logexp(s(zt1i , zt2i )/τ)Nk=1k̸=iexp(s(zt1i , zt1k )/τ) +Nk=1exp(s(zt1i , zt2k )/τ)Limid =12NN�i=1[l(i, t1, t2) + l(i, t2, t1)](2)499050� !0� !0点云分支0� � � � ! �0� !0� ! �0� ! �0# # � � �0� � �0内模态对应 � ��0均值0跨模态0对应关系0� ��0图像分支0� = � �� + � ��0共享权重0点云特征提取器0图像特征提取器0点云投影头0图像投影头0从随机视点进行的2D渲染0图2.所提出方法（CrossPoint）的整体架构。它包括两个分支，即点云分支和图像分支。点云分支通过对点云增强引入内模态对应关系，图像分支通过在渲染的2D图像特征和点云原型特征之间引入对比损失来建立跨模态对应关系。CrossPoint同时训练两个分支的学习目标。我们舍弃图像分支，只使用点云特征提取器作为下游任务的主干。0点云的小批量。我们在这个阶段利用了SimCLR [ 7]中提出的NT-Xent损失进行实例判别。请注意，我们的方法不使用任何记忆库，这是基于自监督对比学习的最新进展[ 5, 13 , 21 ]。我们计算正样本对 z t 1 i 和 z t 2 i的损失函数 l ( i, t 1 , t 2 ) 如下:0(1) 其中 N 是小批量大小， τ 是温度系数， s ( . )表示余弦相似性函数。我们的小批量内模态实例判别损失函数 L imid 可以描述为:03.3. 跨模态实例判别0除了点云模态内的特征对齐，我们引入了一个辅助对比目标0跨点云和图像模态进行学习，以学习有区分性的特征，从而提供更好的三维点云表示学习能力。正如第2节中讨论的那样，一些工作旨在在跨模态设置中学习可转移的点云表示。然而，据我们所知，尚未很好地探索在点云模态内执行3D-2D对应关系的联合学习目标。我们通过第4.2节中的实验结果进行了实证验证，证明我们的联合目标优于现有的无监督表示方法，从而促进了三维点云的有效表示学习。0为此，我们首先使用视觉骨干 f θ I 将渲染的二维图像 I i嵌入到特征空间中。我们选择常用的ResNet [ 19 ]架构作为 f θ I。然后，我们将特征向量投影到不变空间 R d0使用图像投影头 g ϕ I 。投影的图像特征定义为 h i ，其中 h i = g ϕ I ( f θ I ( I i )) 。与以前的跨模态方法[ 34 , 68]不同，我们不会明确地在两种模态（点云和图像）上执行IMID。相反，我们在点云上实施IMID，并利用图像模态来更好地理解点云。我们提出了一个学习目标，具体如下:zi = 12 zt1i + zt2i(3)c(i, z, h) = − logexp(s(zi, hi)/τ)N�k=1k̸=iexp(s(zi, zk)/τ) +N�k=1exp(s(zi, hk)/τ)(4)where s, N, τ refers to the same parameters as in Eq.Lcmid =12NN�i=1[c(i, z, h) + c(i, h, z)](5)MethodModelNet40PointNet + Jigsaw [46]87.3PointNet + STRL [21]88.3PointNet + Rotation [36]88.6PointNet + OcCo [53]88.7PointNet + CrossPoint (Ours)89.1[55] as the point cloud feature extractors. We use ResNet-50 [19] as the image feature extractor. We employ a 2-layerMLP as the projection heads which yield a 256-dimensionalfeature vector projected in the invariant space Rd. We useAdam [25] optimizer with weight decay 1×10−4 and initiallearning rate 1 × 10−3. Cosine annealing [31] is employedas the learning rate scheduler and the model is trained end-to-end for 100 epochs. After pre-training we discard theimage feature extractor fθI (.) and projection heads gϕP (.)and gϕI (.). All downstream tasks are performed on the pre-trained point cloud feature extractor fθP (.).599060计算投影向量 z t 1 i 和 z t 2 i 的均值，得到 P i的投影原型向量 z i 。0在不变空间中，我们的目标是最大化 z i 与 h i之间的相似性，因为它们都对应于相同的对象。我们的跨模态对齐强制模型从更难的正样本和负样本中学习，从而增强了表示能力，而不仅仅是从内模态对齐中学习。我们计算正样本对 z i 和 h i 的损失函数 l ( i, z , h ) 如下:01 . 小批量的跨模态损失函数 L cmid 可以描述为:03.4. 总体目标0最后，我们在训练过程中得到的损失函数是L imid和Lcmid的组合，其中L imid施加了对点云变换的不变性，而Lcmid注入了3D-2D对应关系。0L = L imid + L cmid (6)04. 实验04.1. 预训练0数据集。我们使用ShapeNet[6]作为预训练CrossPoint的数据集。它最初包含来自55个类别的50,000多个CAD模型。我们从[63]获取渲染的RGB图像，其中包含来自13个物体类别的43,783个图像。对于给定的点云，我们随机选择一个二维图像，该图像是从任意视点捕获的。我们对每个点云使用2048个点，同时将相应的渲染RGB图像调整为224×224。除了在第3.2节中描述的点云增强之外，我们还对渲染图像进行随机裁剪、颜色抖动和随机水平翻转作为数据增强。0表1.ModelNet40线性分类结果与先前自监督方法的比较。使用预训练模型在ModelNet40的训练集上拟合线性分类器，并报告测试集中的整体准确率。我们的方法CrossPoint在PointNet和DGCNN骨干网络上都超过了现有方法。03D-GAN[57] 83.3 Latent-GAN[1] 85.7SO-Net[26] 87.3 FoldingNet[65] 88.4MRTNet[12] 86.4 3D-PointCapsNet[71]88.9 DepthContrast[68] 85.4ClusterNet[67] 86.8 VIP-GAN[15] 90.20DGCNN + 多任务[17] 89.1 DGCNN +自对比[10] 89.6 DGCNN + 拼图[46] 90.6DGCNN + STRL[21] 90.9 DGCNN +旋转[36] 90.8 DGCNN + OcCo[53] 89.2DGCNN + 交叉点（我们的方法）91.204.2. 下游任务0我们在点云表示学习中评估CrossPoint在三个广泛使用的下游任务上的可迁移性，即：(i)3D物体分类（合成和真实世界），(ii)少样本物体分类（合成和真实世界）和(iii)3D物体部分分割。0(i)3D物体分类。我们在ModelNet40[58]和ScanObjectNN[52]上进行分类实验，以展示我们的方法在合成和真实世界的3D形状表示学习中的泛化能力。ModelNet40是一个合成数据集，其中CNN-shot699070点云是通过采样3DCAD模型获得的。它包含来自40个类别的12,331个对象（9,843个用于训练，2,468个用于测试）。ScanObjectNN[52]是一个更加真实和具有挑战性的3D点云分类数据集，其中包含从真实世界室内扫描中提取的遮挡对象。它包含来自15个类别的2,880个对象（2304个用于训练，576个用于测试）。我们遵循标准协议[21,53]测试我们的模型在物体分类中的准确性。我们冻结预训练的点云特征提取器，并在分类数据集的训练集上拟合一个简单的线性SVM分类器。我们随机从每个对象中采样1024个点来进行训练和测试分类结果。我们的CrossPoint在不同的骨干网络中也提供了一致的性能。我们在PointNet[38]和DGCNN[55]上进行实验，其中PointNet是基于MLP的特征提取器，而DGCNN是基于图卷积网络构建的。表1报告了在ModelNet40上的线性分类结果。很明显，CrossPoint在特征提取器的两个方面都超过了先前最先进的无监督方法，从而为点云的自监督学习建立了一个新的基准。特别是，我们的模型在深度对比[68]方面的表现优于其他使用交叉模态设置进行点云表示学习的方法，优势达到了5.8%。虽然我们的方法在使用自监督对比学习的先前工作[10, 17,21]方面超过了很多，但由于不同的预训练机制和特征提取器的差异，一些其他方法[28, 42, 59]无法进行公平比较。0表2.将ScanObjectNN的线性分类结果与先前的自监督方法进行比较。CrossPoint在PointNet和DGCNN骨干中始终优于之前的工作。这说明我们的方法在实际环境中的有效性。0方法骨干0Jigsaw [46] 55.2 59.5 OcCo [53] 69.578.3 STRL [21] 74.2 77.9 CrossPoint(我们的方法) 75.6 81.70表2展示了在ScanObjectNN上的线性评估结果。与先前最先进的无监督方法相比，PointNet骨干的准确率提高了1.3％，DGCNN骨干的准确率提高了3.4％，这表明我们提出的联合学习方法也适用于分布之外的数据。0(ii)少样本对象分类。少样本学习（FSL）旨在训练一个能够在有限数据下进行泛化的模型。0表3.ModelNet40上的少样本对象分类结果。我们报告了10次运行的平均值和标准误差。每个骨干的最佳结果以红色和蓝色标出。提出的CrossPoint在所有报告的设置中都提高了少样本准确性。表格是从[53]扩展而来的版本。0方法 5-way 10-way03D-GAN [57] 55.8 ± 3.4 65.8 ± 3.1 40.3 ± 2.1 48.4 ± 1.8FoldingNet [65] 33.4 ± 4.1 35.8 ± 5.8 18.6 ± 1.8 15.4 ± 2.2Latent-GAN [1] 41.6 ± 5.3 46.2 ± 6.2 32.9 ± 2.9 25.5 ± 3.23D-PointCapsNet [71] 42.3 ± 5.5 53.0 ± 5.9 38.0 ± 4.5 27.2 ± 4.7PointNet++ [39] 38.5 ± 4.4 42.4 ± 4.5 23.1 ± 2.2 18.8 ± 1.7PointCNN [27] 65.4 ± 2.8 68.6 ± 2.2 46.6 ± 1.5 50.0 ± 2.3 RSCNN0PointNet + Rand 52.0 ± 3.8 57.8 ± 4.9 46.6 ± 4.3 35.2 ± 4.8PointNet + Jigsaw [46] 66.5 ± 2.5 69.2 ± 2.4 56.9 ± 2.5 66.5 ± 1.4PointNet + cTree [47] 63.2 ± 3.4 68.9 ± 3.0 49.2 ± 1.9 50.1 ± 1.6PointNet + OcCo [53] 89.7 ± 1.9 92.4 ± 1.6 83.9 ± 1.8 89.7 ± 1.5PointNet + CrossPoint 90.9 ± 4.8 93.5 ± 4.4 84.6 ± 4.7 90.2 ± 2.2DGCNN + Rand 31.6 ± 2.8 40.8 ± 4.6 19.9 ± 2.1 16.9 ± 1.5DGCNN + Jigsaw [46] 34.3 ± 1.3 42.2 ± 3.5 26.0 ± 2.4 29.9 ± 2.6DGCNN + cTree [47] 60.0 ± 2.8 65.7 ± 2.6 48.5 ± 1.8 53.0 ± 1.3DGCNN + OcCo [53] 90.6 ± 2.8 92.5 ± 1.9 82.9 ± 1.3 86.5 ± 2.2DGCNN + CrossPoint 92.5 ± 3.0 94.9 ± 2.1 83.6 ± 5.3 87.9 ± 4.20数据。我们在传统的少样本任务（N-wayK-shot学习）上进行实验，其中模型在N个类别上进行评估，每个类别包含N个样本。与标准的3D对象分类类似，我们使用ModelNet40和ScanObjectNN数据集进行FSL实验。虽然这两个数据集都没有标准的FSL划分，但为了与之前的方法[47，53]进行公平比较，我们随机抽取了10个少样本任务并报告平均值和标准差。表3显示了ModelNet40上的FSL结果，其中CrossPoint在PointNet和DGCNN骨干中的所有FSL设置中都优于之前的工作。值得注意的是，与PointNet骨干相比，我们的方法在某些FSL设置中与DGCNN骨干的表现较差。之前的方法[47，53]也观察到了类似的模式。我们将其归因于复杂的骨干可能会降低少样本学习的性能，这在图像的FSL文献中一直得到了一致的观察[51]。我们在表4中报告了ScanObjectNN数据集上的FSL结果。CrossPoint在大多数设置中都取得了显著的准确率提升，无论是在PointNet还是DGCNN特征提取器中，证明了在有限数据下进行泛化的能力，即使在分布之外的环境中也是如此。0(iii)3D对象部分分割。我们在广泛使用的ShapeNetPart数据集[66]中进行对象部分分割。该数据集包含来自16个类别的16881个3D对象，总共标注了50个部分。我们最初使用我们在ShapeNet数据集中的方法对DGCNN[55]中提出的骨干进行部分分割的预训练，并在ShapeNetPart数据集的训练集中进行端到端的微调。我们799080表4.在ScanObjectNN上的少样本对象分类结果。我们报告10次运行的平均值和标准误差。每个骨干网络的最佳结果以红色和蓝色标出。提出的CrossPoint在所有报告的设置中提高了少样本准确性。表格是从[53]扩展而来的版本。0方法 5-way 10-way010-shot 20-shot 10-shot 20-shot0PointNet + Rand 57.6 ± 2.5 61.4 ± 2.4 41.3 ± 1.3 43.8 ± 1.9PointNet + Jigsaw [46] 58.6 ± 1.9 67.6 ± 2.1 53.6 ± 1.7 48.1 ± 1.9PointNet + cTree [47] 59.6 ± 2.3 61.4 ± 1.4 53.0 ± 1.9 50.9 ± 2.1PointNet + OcCo [53] 70.4 ± 3.3 72.2 ± 3.0 54.8 ± 1.3 61.8 ± 1.2PointNet + CrossPoint 68.2 ± 1.8 73.3 ± 2.9 58.7 ± 1.8 64.6 ± 1.2DGCNN + Rand 62.0 ± 5.6 67.8 ± 5.1 37.8 ± 4.3 41.8 ± 2.4DGCNN + Jigsaw [46] 65.2 ± 3.8 72.2 ± 2.7 45.6 ± 3.1 48.2 ± 2.8DGCNN + cTree [47] 68.4 ± 3.4 71.6 ± 2.9 42.4 ± 2.7 43.0 ± 3.0DGCNN + OcCo [53] 72.4 ± 1.4 77.2 ± 1.4 57.0 ± 1.3 61.6 ± 1.2DGCNN + CrossPoint 74.8 ± 1.5 79.0 ± 1.2 62.9 ± 1.7 73.9 ± 2.20我们报告平均IoU（交并比）指标，通过对每个对象的每个部分计算IoU，然后对得到的值进行平均，再对每个对象类别进行平均。使用通过CrossPoint预训练的骨干网络进行部分分割优于随机初始化的DGCNN骨干网络0.4%。这表明CrossPoint为特征提取器提供了更好的权重初始化。相对于先前的自监督学习框架，准确性提高表明CrossPoint通过以联合方式建立内模态和跨模态对应关系，倾向于捕捉关键的部分级属性，这在部分分割中至关重要。0表5.ShapeNetPart数据集上的部分分割结果。我们报告所有对象类别的平均IoU。Supervised表示使用随机初始化特征骨干训练的模型，而Self-Supervised表示使用预训练特征提取器初始化的模型。0类别方法平均IoU0Supervised PointNet [38] 83.7 PointNet++[39] 85.1 DGCNN [55] 85.10自监督学习0Self-Contrast [10] 82.3Jigsaw [46] 85.3 OcCo [53]85.0 PointContrast [59]85.1 Liu et al. [28] 85.3CrossPoint（我们的方法）85.504.3. 消融和分析0联合学习目标的影响。如第3节所述，我们的方法旨在使用联合学习目标训练模型。我们假设以联合方式处理内模态和跨模态对应关系可以...0相对于单独的学习目标，联合学习目标有助于更好的表示学习。内模态对应关系通过对变换进行不变性的方式，鼓励模型捕捉细粒度的部分语义，而跨模态对应关系为对比学习提供了难以处理的正样本特征样本，使学习更具挑战性，从而产生更好的结果。我们通过在所有可能的设置中训练模型，并在ModelNet40和ScanObjectNN数据集上评估线性SVM分类器来实证测试这个假设。图3以图形方式说明了在所有学习设置中，提出的联合学习范式的性能优于单独的目标。特别是，在DGCNN特征提取器下，内模态和跨模态学习目标的组合在ModelNet40和ScanObjectNN上分别获得了1.2%和0.7%的准确率提升。0图3.与单一内模态和跨模态目标相比，联合学习目标的影响。在预训练嵌入模型Net40（左）和ScanObjectNN（右）数据集上使用线性SVM进行分类结果。0我们特别观察到，使用跨模态学习目标进行线性评估在分类准确性指标上略优于使用内模态学习目标。我们认为跨模态学习目标通过将图像特征嵌入到与增强的点云特征接近的位置，利用点云原型特征，促进了部分语义的理解。图4可视化了从ModelNet10数据集的测试集中获得的特征的t-SNE图。可以看到，即使没有明确使用标记数据进行训练，CMID和IMID设置都能对类别进行良好的区分。然而，某些类别（例如桌子、椅子）的类别边界不够精确和紧凑。联合学习目标能够在这些类别中创建更好的边界。对应的2D图像数量。我们通过改变生成的2D图像数量（n）来研究图像分支的贡献。我们选择生成的2D图像数量为...899090图4.在以自我监督方式训练DGCNN骨干后，对ModelNet10数据集的测试集上的特征进行t-SNE可视化。与使用单独目标学习的模型相比，所提出的联合学习方法在类别（例如，桌子，桌子）的区分上提供了更好的效果。0从不同的随机方向捕获的2D图像。在存在多个渲染的2D图像的情况下，我们计算所有渲染图像的投影特征的平均值，以执行跨模态实例区分（CMID）。表6报告了ModelNet40数据集上的线性SVM分类结果。我们的方法，即使只有一个渲染的2D图像，也能捕捉到跨模态的对应关系，从而获得更好的线性分类结果。很明显，当使用超过2个渲染图像时，从2D图像模态中收集的信息可能已经变得多余，因此准确性下降。0表6.在ModelNet40上使用不同数量的渲染的2D图像（n）进行线性分类结果。具有单个对应图像的CrossPoint的性能优于或等于多个渲染图像。我们选择n=1进行所有实验。0渲染的2D图像数量（n）1 2 3 4 50线性准确性 91.2 91.2 90.9 91.0 90.50在CIFAR-FS上进行few-shot图像分类。尽管我们在点云下游任务中丢弃了图像特征提取器，但我们进行了简单的few-shot图像分类，以调查其对图像的理解能力。我们使用CIFAR-FS[4]进行实验，这是一个广泛使用的few-shot图像分类数据集，包含100个类别，分别有64、16和20个训练、验证和测试集。表7报告了在5路1-shot和5路5-shot设置中与标准基线RFS[51]的结果进行比较。值得注意的是，CrossPoint在没有任何监督微调的情况下，在few-shot图像分类设置中无法很好地泛化。我们认为这是因为点云中的渲染2D图像与CIFAR-FS中的真实世界图像之间存在明显的差异。因此，CrossPoint无法推广到这种分布之外的数据，这是我们工作的局限性。然而，使用CrossPoint中经过无监督训练的图像特征提取器初始化骨干，并使用RFS中提出的方法进行微调，可以显著提高基线结果。0两种few-shot设置中的起源。0表7.CIFAR-FS上的few-shot图像分类结果。使用RFS对CrossPoint进行微调可以提高性能。0方法骨干 5路1-shot 5路5-shot0CrossPoint ResNet-50 24.12 ± 0.48 28.18 ± 0.54 RFS[51] ResNet-50 60.20 ± 0.87 76.79 ± 0.71 CrossPoint +RFS ResNet-50 64.45 ± 0.86 80.14 ± 0.6505. 结论0在本文中，我们提出了CrossPoint，一种用于3D点云表示学习的简单自我监督学习框架。尽管我们的方法是在合成的3D对象数据集上训练的，但在合成和真实世界数据集中的下游任务（如3D对象分类和3D对象部分分割）中的实验结果证明了我们方法在学习可转移表示方面的有效性。我们的消融实验证明了我们的主张，即施加内模态和跨模态对应关系的联合学习可以产生更通用和可转移的点云特征。额外的few-shot图像分类实验为跨模态理解提供了有力的见解，可以在未来的研究中探索。0致谢0作者要感谢阿联酋MBZUAI的Salman Khan和Google Re-search的SadeepJayasumana对本文的宝贵意见和建议。本研究的计算资源得到了斯里兰卡高等教育加速扩张和发展（AHEAD）项目的支持，该项目由世界银行资助。我们还要感谢FacebookReality Labs通过Facebook Research Awards forExplorations of Trust inAR，VR和智能设备部分资助了这项工作。999100参考文献0[1] Panos Achlioptas，Olga Diamanti，IoannisMitliagkas和LeonidasGuibas。学习3D点云的表示和生成模型。《第35届国际机器学习会议论文集》，卷80，页码40-49，2018年。1，2，3，5，60[2] Mohamed Afham，Salman Khan，Muhammad HarisKhan，Muzammal Naseer和Fahad ShahbazKhan。丰富的语义改进少样本学习。第32届英国机器视觉会议，2021年。20[3] Relja Arandjelovic和AndrewZisserman。看、听和学习。《IEEE国际计算机视觉会议论文集(ICCV)》，2017年。2，30[4]

下载后可阅读完整内容，剩余1页未读，立即下载