Point-BERT：3D点云变换器的掩蔽点建模的预训练方法

107 浏览量更新于2023-10-25 收藏 2.1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

19313Point-BERT：预训练3D点云变换器的掩蔽点建模于旭敏*，1，唐露露1，2，饶永明1，1，黄铁军2，3，周杰1，陆继文1，21清华大学2，BAAI3北京大学摘要我们提出了Point-BERT，这是一种学习变形金刚的新范例，可以将BERT [8]的概念推广到3D恩布斯角分词器离散令牌1967年5月26日，269、516、49解码器重建的点云点云受BERT的启发，我们设计了一个掩蔽点Transformer1967年，第5页，第49页建模（MPM）任务来预训练点云变换器。具体来说，我们首先将点云划分为几个局部点片，并使用一个带有离散点的点云Tokenizer点云掩模点嵌入。编码器预测令牌具体变分自动编码器（dVAE）被设计成生成包含有意义的局部信息的离散点标记。然后，我们随机屏蔽出一些补丁的输入点云和饲料到骨干变压器。预训练的目标是在Tokenizer获得的点标记的监督下恢复被掩蔽位置处的原始点标记。大量的实验表明，提出的BERT风格的预训练策略显着提高了标准点云变压器的性能。配备我们的预训练策略，我们表明，一个纯粹的Transformer 架构达到 93.8%的准确率 ModelNet 40 和83.1%的准确率最难设置的ScanObjectNN，超过- ING精心设计的点云模型少得多的手工设计。我们还证明了Point-BERT学习的表示可以很好地转移到新的任务和领域，在这些领域中，我们的模型在很大程度上推进了最先进的少炮点云分类任务。代码和预训练模型可在https：//github.com/lulutang0608/Point-BERT网站。1. 介绍与传统的手工特征提取方法相比，卷积神经网络（CNN）[20]依赖于更少的先验知识。变换器[49]进一步推动了这一趋势，使其朝着没有归纳偏差的方向迈出了一步，并减少了人为假设，例如CNN中的翻译等价性或局部性。最近，标准变换器的结构优越性和通用性在语言[3，8，18，25，34]和*同等贡献。 †通讯作者。图1. 说明我们的主要想法。Point-BERT设计用于标准点云Transformer的预训练。通过经由点云重建训练dVAE，我们可以将点云转换成离散点令牌的序列。然后，我们能够通过预测掩码令牌来预训练具有掩码点建模（MPM）任务的变压器图像任务[2，6，9，45，55，66]，并且通过启用更多参数，更多数据[9]和更长的训练时间表来证明减小归纳偏差的能力虽然 Transformers 在自然语言处理（NLP）和图像处理方面产生了惊人的结果，但它在3D社区中并没有得到现有的基于Transformer的点云模型[11，63]从局部特征聚合[63]和邻居嵌入[11]中带来了某些为此，我们的目标是以最小的归纳偏差直接在点云上应用标准变压器，作为3D表示学习的整洁统一模型的垫脚石。显然，直接采用Transform- ers并不能在点云任务上实现令人满意的性能（参见图5）。这种令人沮丧的结果部分归因于有限的注释3D数据，因为没有归纳偏差的纯变压器需要大量的训练数据。例如，ViT [9]使用ImageNet [20]（14M图像）和JFT [41]（303M图像）来训练视觉变换器。相比之下，精确的注释点云相对不足。尽管随着现代扫描设备的普及，3D数据采集变得越来越容易，但标记点云仍然耗时，容易出错，甚至在一些极端的现实世界场景中是不可行的这一困难激发了大量研究从未标记的3D数据中学习。自我监督预-19314输入屏蔽输入输出输入屏蔽输入输出输入屏蔽输入输出输入屏蔽输入输出块屏蔽随机掩蔽来自ScanObjectNN的真实扫描图2. 使用我们在ShapeNet上训练的Point-BERT模型进行掩蔽点云重建。我们展示了前两组分别采用块掩蔽和随机掩蔽的ShapeNet测试集的合成对象的重建结果。我们的模型也很好地推广到来自ScanObjectNN的看不见的真实扫描（最后两组）。因此，训练成为一种可行的技术，可以释放Transformer的可扩展性和泛化能力，用于3D点云表示学习。在所有基于Transformer的预训练模型中，BERT [8]在发布时达到了最先进的性能，在NLP社区中树立了里程碑。受BERT [8]的启发，我们寻求利用BERT风格的预训练来进行3D点云理解。然而，由于缺乏预先存在的词汇表，直接在点云上使用BERT相比之下，语言词汇表已经被很好地定义（例如，[8]中的WordPiece）和现成的模型预训练。就点云变形器而言，点云没有预定义的词汇表。一个天真的想法是将每个点视为一个“单词”，这样的逐点回归任务随着令牌数量的增加以二次方的方式激增计算成本。此外，句子中的单词包含基本的上下文语义信息，而点云中的单个点几乎不需要语义意义。然而，从整体点云分割出的局部面片包含丰富的几何信息，可以作为一个组件单元。如果我们建立一个词汇表，其中不同的标记表示输入单元的不同几何模式，会怎么样？此时，我们可以将点云表示为这样的标记的序列。现在，我们可以顺利地采用BERT及其几乎开箱即用的高效我们假设，弥合这一差距是将成功的变形金刚和BERT扩展到3D视觉领域的关键。在上述分析的驱动下，我们提出了Point-BERT，一种新的学习点云变压器的方案。两构思了基本组件：1）点令牌化：通过基于dVAE [37]的点云重建设计了点云标记器，其中点云可以根据学习的词汇转换为离散点标记。我们期望点标记应该暗示局部几何模式，并且所学习的词汇应该覆盖不同的几何模式，使得这样的标记的序列可以表示任何点云（甚至以前从未见过）。2)掩蔽点建模：执行“掩蔽点建模”（MPM）任务以预训练Transformer，其掩蔽输入点云的一部分并学习在掩蔽区域重建缺失的点标记。我们希望我们的模型能够推理点云不同块之间的几何关系，捕捉有意义的几何特征点云理解。这两个设计都在我们的实验中实现和证明。我们在图2中对合成（ShapeNet [5]）和真实世界（ScanOb-jectNN [47]）数据集上的重建结果进行了可视化。我们观察到，点BERT正确地预测掩蔽的令牌和推断多样的，整体的重建，通过我们的dVAE解码器。结果表明，该模型已经学习了三维点云的内在和通用知识，即几何模式或语义。更重要的是，我们的模型是在ShapeNet上训练的，ScanObjectNN上的掩蔽点预测反映了它在具有不可见对象和域间隙的场景中的优越性能我们的Point-BERT具有纯Transformer架构和BERT风格的预训练技术，在ModelNet 40上实现了93.8%的准确率，在ScanObjectNN的复杂设置上实现了83.1%的准确率，超过了精心设计的19315∈i=1i=1GG--具有更少的人工先验的有符号点云模型。我们还表明，由Point-BERT学习的表示转移到新的任务和领域，我们的模型在很大程度上推进了国家的最先进的少数镜头点云分类任务。我们希望跨图像和点云的整洁统一的Transformer架构可以促进这两个领域，因为它可以实现2D和3D视觉信号的联合2. 相关工作自我监督学习（SSL）。 SSL是一种无监督学习，其中监督信号可以从数据本身生成[15]。SSL的核心思想是定义一个借口任务，例如图像中的拼图[29]，彩色化[21]和光流[27]最近，一些研究建议使用SSL技术来了解点云[10，14，22，30，36，38，39，42，50，54，57]。示例3D借口任务包括取向估计[31]、变形重建[1]、几何结构线索[43]和空间线索[28，40]。受图像中拼图游戏的启发[29]，[39]提出从随机重新排列的部分重建点云。DepthContrast [62]提出了一种对比学习框架，用于从深度扫描中学习表示。最近，OcCo[50]描述了一种编码器-解码器机制来重建被遮挡的点云。与这些研究不同的是，我们试图探索一个点云SSL模型后，有趣的变压器[49]。变压器. Transformer [49]已经成为NLP [3，8，18，25，34]中的主导框架，因为它具有显著的优点，包括大规模并行计算，长距离特性和最小的归纳偏差。它引起了各种视觉任务[12，19]的兴趣，例如对象分类[6，9]，检测[4，66]和分割[51，64]。然而，它在点云上的应用仍然有限。一些初步的探索已经实施[11，59，63]。例如，[63]应用矢量化自注意力机制来构建用于3D点云学习的点Transformer层。[11]使用更典型的Transformer架构和邻居嵌入来学习点云。然而，基于Transformer的点云模型的先前努力或多或少涉及一些归纳偏差，使得它们与标准Transformer不一致。在这项工作中，我们试图继续标准变压器的学习，并将其扩展到具有最小归纳偏差的点云学习。BERT风格的预训练BERT的主要架构[8]构建在多层Transformer编码器上，该编码器首先被设计为在自监督方案中从未标记文本中预训练双向表示帮助BERT脱颖而出并实现卓越的主要因素是屏蔽语言建模（MLM）首先随机屏蔽然后恢复输入令牌序列，其前提是要提高性能。传销战略也激发了很多培训前的任务[2，7，18，25，46]。以BEiT [2]为例，它首先将输入图像标记为离散的视觉标记。之后，它随机屏蔽一些图像补丁，并将损坏的图像馈送到Transformer主干中。训练模型以恢复掩蔽补丁的视觉标记。最近，MAE [13]提出了一种用于图像表示学习的掩码自动编码器策略。它首先屏蔽输入图像的随机补丁，然后鼓励模型重建那些丢失的像素。我们的工作受到BEiT [2]的极大启发，BEiT将图像编码为离散的视觉标记，以便Transformer主干可以直接应用于这些视觉标记。然而，由于点云的非结构化性质，获取点云的令牌更加困难，这随后阻碍了在点云上直接使用BERT。3. 波因特-BERT这项工作的总体目标是将BERT风格的预训练策略扩展到点云变压器。为了实现这一目标，我们首先学习一个Tokenizer来获得每个输入点云的离散点令牌。模仿BERT [ 8 ]中的我们的方法的总体思想如图3所示。3.1. 点令牌化点嵌入。一种简单的方法将每个点视为一个标记。然而，这样的逐点重建任务往往难以承受的计算成本，由于在变形金刚中的自我注意的二次复杂性。受Vision Transformers [9]中的补丁嵌入策略的启发，我们提出了一种简单而有效的实现方法，将每个点云分组为几个局部补丁（子云）。具体来说，给定一个输入点云pRN×3，我们首先从整体点云中采样g个中心点p 通过最远点采样（ FPS ）。然后使用 k- 最近邻（kNN）算法为每个中心点选择n个最近邻点，将g个局部块（子云）pi-是的然后，我们使这些局部斑块无偏减去其中心坐标，解开局部斑块的结构模式和空间坐标。这些无偏的子云可以被视为NLP中的我们进一步采用迷你PointNet [32]将这些子云投影到点嵌入中。遵循变形金刚在NLP和2D视觉任务中的实践，我们将点云表示为一个点嵌入序列{fi}，它可以被重新-19316i=1Gi=1i=1i=1P|QQ|.Σ联系我们12得双曲余切值.G我i=1我i=1通过一个mini-PointNet [32]，它只由MLP层组成S1G我 ϕG我G联系我们GG--G输入点云地方中心对比学习输入令牌预测令牌...加密货币CLSToken位置嵌入Transformer编码器1967年第5号、第26号、第269号、第516号、1967年第5号、第26号、第269号、第516号、...解码器正常化...迷你PointNet[cls]…令牌屏蔽分词器冻结分词器…点嵌入点补丁...点嵌入图3. Point-BERT的管道。我们首先将输入点云划分为几个点片（子云）。迷你PointNet[32]然后使用它来获得点嵌入序列。在预训练之前，通过基于dVAE的点云重建（如图右部所示）来学习Tokenizer，其中点云可以转换为离散点令牌序列;在预训练过程中，我们屏蔽了点嵌入的某些部分，并将其替换为掩码令牌。然后将掩蔽的点嵌入馈送到变压器中在Tokenizer获得的点令牌的监督下，训练模型以恢复原始点令牌。我们还增加了一个辅助的对比学习任务，以帮助变形金刚捕捉高层次的语义知识。作为标准变压器的输入。点令牌化器。点标记器将点嵌入{fi}作为输入，并将其转换为离散的点标记.具体地，令牌化器Q（z|f）的离散的，我们不能应用重新参数化梯度来训练dVAE。在 [35] 之后，我们在 dVAE 训练期间使用 Gumbel-softmax松弛[17]和统一先验。有关dVAE架构及其实现的详细信息，请参见补充资料。将点嵌入{fi}g映射到离散点标记z=[z，z，....，z]∈ V 1i=1V是一个有学问的词汇3.2. Transformer主干总长度为N.在该步骤中，可以将子云pii=1分解为点tok enszi涉及有效的局部几何图案。在我们的实验中DGCNN [52]被用作我们的Tokenizer网络。点云重建。解码器Pφ（p|z）的我们在实验中采用标准的Transformer [49]，由多头自注意层和FFN块组成。对于每个输入点云，我们首先将其划分为具有中心点{c}的g个局部面片。那些本地然后将面片投影为点嵌入{fi}dVAE接收点令牌{z}g作为输入并学习i=1为了重建相应的子云P1g -是的由于局部几何结构过于复杂，不能用有限的N种情况来表示。我们采用DGCNN[52]建立与邻点的关系，以及全局最大池操作。我们进一步获得的位置嵌入{posi}的每个补丁通过应用MLP其中心点{ci}。形式上，我们定义输入嵌入为{xi}，这是点Gkens的方法，可以增强DIS的表示能力，嵌入{f}gi=1{为不同的本地结构创建具体的点令牌。随后一道ii=1和位置嵌入posi}i= 1。然后，我们将输入嵌入{xi}g发送到FoldingNet [57]用于重建子云。总体重建目标可以写为Ez<$（zp）[log φ（p z）]，重建过程可以看作是最大化log-li k <$Pθ（p）的证据下限（ELB|[35]：Transformer。在[8]之后，我们附加一个类标记E[s]到输入序列。因此，Trans-former的输入序列可以表示为H0=E[s]，x1，x2，xg.有L层Transformer块，输出最后一层的HL=hL，hL，· · ·，hL 代表Pθ（pi）的对数|pi）≥（Ez<$Q（z|p）[logPφ（pi|zi）]（pi，p<$i）∈D（pi，p<$i）∈D全局特征，以及输入子云。− DK L[Q（z|pi），Pφ（z|pi）]），（1）其中p表示原始点云，p表示重构点云。由于潜在的点令牌是1点标记有两种形式，离散整数和V中相应的词嵌入，这两种形式是等价的。MPM磁头1967年5月、26日、193173.3. 屏蔽点建模受BERT [8]和BEiT [2]的启发，我们将掩蔽建模策略扩展到点云学习，并为Point-BERT设计了掩蔽点建模（MPM）任务掩蔽序列生成。与跑步不同-19318M∈{···}--12{∈M}{∈M}Σ12在BERT [8]和MAE [13]中使用的dom掩码中，我们采用了像[2]一样的块掩码策略。具体地，我们首先选择中心点ci及其子云pi，然后找到其m个相邻子云，形成连续的局部区域。我们屏蔽掉该区域中的所有局部块以生成屏蔽点云。在实践中，我们直接将[2]这样的分块掩蔽策略应用于Transformer的输入。形式上，我们将掩码位置标记为1，，grg，其中r是掩模比接下来，我们替换所有被掩蔽的点em-方法MoCo [14]作为一种工具，以帮助变形金刚更好地学习高级语义。通过我们的点补丁混合技术，对比度损失的优化鼓励模型通过使虚拟样本的特征尽可能接近原始样本的相应特征来关注点云设q是来自两个其他样本的混合样本的特征，其特征是k+和k+（ki是由动量特征表现出来的，coder [14]）。假设混合比为r，则损失可以写成：具有相同的可学习的预定义掩码嵌入E[M]的beddings，同时保持其位置嵌入不GG=Lq= −rlog exp（qk+/τ）−（1−r）logexp（qk+/τ））、（3）xi：i /i=1E[M]+位置i：ii=1被馈送到Transformer编码器。Pretext任务定义。我们的MPM任务的目标是使模型能够根据剩余部分推断缺失部分的几何结构预训练的dVAE（见第3.1节）将每个局部补丁编码为离散点令牌，表示几何图案。因此，我们可以直接应用这些信息令牌作为我们的代理监督信号来预训练Transformer。点面片混合。受CutMix [60，61]技术的启发，我们还设计了一个整洁的混合令牌预测任务作为辅助借口任务，以增加我们的Point-BERT中预训练的难度，称为“点补丁混合”。由于每个子云的绝对位置的信息已经被归一化排除在外，因此我们可以通过简单地混合两组子云来创建新的虚拟样本，而无需在不同补丁之间使用任何繁琐的对齐技术，例如最佳传输[61]。在预训练期间，我们还强制虚拟样本预测由原始子云生成的相应令牌在我们的实现中，我们生成了与真实样本相同数量的虚拟样本，以使预训练任务更具挑战性，这有助于改进具有有限数据的变压器的训练，如[45]所示。优化目标 MPM任务的目标是重新覆盖对应于掩蔽位置的点标记。预训练目标可以被形式化为在给定掩码输入嵌入的情况下最大化正确的点标记zi的对数似然：其中τ是温度，K是存储器的大小银行耦合MPM目标和对比损失使我们的Point-BERT能够同时捕获局部几何结构和高级语义模式，这在点云表示学习中至关重要。4. 实验在本节中，我们首先介绍我们的预培训计划的设置.然后，我们评估所提出的模型与各种下游任务，包括对象分类，部分分割，少拍学习和迁移学习。我们还对Point-BERT进行了消融研究4.1. 培训前设置数据设置。ShapeNet [5]被用作我们的预训练数据集，它涵盖了来自55个常见对象类别的50，000多个独特的3D模型。我们从每个3D模型中采样1024个点，并将它们分成64个点片（子云）。每个子云包含32个点。采用包含两层MLP的轻量级PointNet [32]将每个子云投影到64个点嵌入中，这些点嵌入用作dVAE和Transformer的输入。dVAE设置。我们使用四层DGCNN [52]来学习补丁间的关系，对输入点云的内部结构进行建模。在dVAE训练期间，我们将词汇大小N设置为8192。我们的解码器也是DGCNN架构，后面是FoldingNet [57]。值得注意的是，dVAE的性能容易受到超参数的影响，这使得基于图像的dVAE [35]的配置不能直接用于我们的系统。MaxEMX∈DilogP.zi|XM.（二）场景在重建过程中采用常用的101型倒角距离损失由于这种损失的值在数值上很小，MPM任务鼓励模型预测点云的掩蔽几何结构。仅使用MPM任务训练Trans-former导致对点云的高级语义的理解不令人满意，这也由2D领域的最近工作指出[65]。所以我们采用了广泛使用的对比学习法在Eq中的KLD损失1必须小于im中年龄任务我们在前10，000步中将KLD损失的权重设置为0，并在随后的100，000步中逐渐增加到0.1学习率设置为0.0005，余弦学习时间表，预热60，000步.我们将Gumble-softmax函数中的温度从1变了最后，损坏的输入嵌入XMKi=0时exp（qki/τ）Ki=0时exp（qki/τ）19319∼×表1. Point-BERT与ModelNet 40上最先进模型的比较。我们报告分类精度（%）和输入中的点数。[ST]和[T]分别表示标准变压器模型和具有一些特殊设计和更多电感偏差的基于变压器的模型方法#点Acc.PointNet [32]1k89.2[33]第三十三话1k90.5SO-Net [22]1k92.5[23]第二十三话1k92.2DGCNN [52]1k92.9[24]第二十四话1k92.8RSCNN [36]1k92.9KPConv [44]6.8k92.9[11]第111k93.2[63]第63话–93.7[ST] NPCT [11]1k91.0[ST] Transformer1k91.4[ST] Transformer + OcCo [50]1k92.1[ST] Point-BERT1k93.2[ST] Transformer4k91.2[ST] Transformer + OcCo [50]4k92.2[ST] Point-BERT4k93.4[ST] Point-BERT8k93.80.0625在100，000步之后[35]。我们训练dVAE总共150，000步，批量大小为64。MPM设置。在我们的实验中，我们将Transformer的深度设置为12，特征维度设置为384，头数设置为6。具有0.1速率的随机深度[16]应用于我们的Transformer编码器中。在MPM预训练期间，我们固定了dVAE学习的Tokenizer的权重。25%~ 45%的输入点嵌入被随机屏蔽。然后训练模型以推断在这些掩蔽位置处的预期点标记。在MoCo方面，我们将存储体大小设置为16，384，温度设置为0.07，权重动量设置为0.999。我们采用AdamW [26]优化器，使用初始学习率为0.0005，权重衰减为0.05。该模型训练了300个epoch，批量大小为128。4.2. 下游任务在本小节中，我们报告了下游任务的实验结果。除了广泛使用的基准测试，包括分类和分割，我们还研究了模型对象分类。我们在ModelNet40 [53]上进行分类实验。在分类任务中，将dropout为0.5的两层MLP用作我们的分类头。我们使用AdamW，在余弦时间表下，权重衰减为0.05，学习率为0.0005，以优化模型。批量大小设置为32。结果示于表1中。我们表示我们的表2. ModelNet40上的少量分类结果。我们报告了10次独立实验的平均准确度（%）以及标准偏差。5路10路10发20发10发20发DGCNN-rand [50] 31.6±2.8 40.8±4.6 19.9 ±2.1 16.9±1.5[50 ]第五十话 90.6±2.8 92.5±1.9 82.9 ±1.3 86.5±2.2DGCNN-rand为91.8± 3.7 93.4±3.2 86.3 ±6.2 90.9±5.1DGCNN-OcCo≤91.9± 3.3 93.9±3.1 86.4 ±5.4 91.3±4.6变压器额定值87.8± 5.2 93.3±4.3 84.6 ±5.5 89.4±6.3变压器-OcCo 94.0± 3.6 95.9±2.3 89.4 ±5.1 92.4±4.6点-BERT94.6±3.1 96.3 ±2.7 91.0 ±5.4 92.7 ± 5.1基线模型为文中给出了几种基于Transformer的模型，其中[ST]表示标准的Transformer结构，[T]表示具有特殊设计或电感偏置的Transformer模型.虽然我们在这项工作中主要关注标准变压器的预训练，但我们的MPM预训练策略也适用于其他基于变压器的点云模型[11，63]。此外，我们将最近的预训练策略OcCo [50]作为我们预训练方法的强基线进行比较。为了公平比较，我们遵循[50]中所示的细节，并使用基于Transfomer的解码器 PointTr [59] 来执行其借口任务。结合我们的Transformer编码器和PointTr我们称之为“Transformer+OcCo”模型我们看到，使用1024/4096个输入，使用OcCo的预训练Transformer比基线提高了0.7%/1.0%。相比之下，我们的Point-BERT比从头开始训练带来了1.8%/2.2%的收益。我们还观察到，在没有预训练的情况下，添加更多的点不会显著改善当我们增加输入密度（4096）时，我们的Point-BERT实现了比基线（ 91.2%）和OcCo（92.2%）更好的性能（93.4%）。如果有更多的输入点（8192），我们的方法在ModelNet40上的准确率可以进一步提高到93.8%。少拍学习。我们遵循以前的工作[40]，在少量学习设置下评估我们的模型。一个典型的设置是该模型在KN个样本（支持集）上进行训练，并在剩余的20K个样本（查询集）上进行评估。我们将Point-BERT与OcCo[50]进行了比较，OcCo在此任务上实现了最先进的性能。在我们的实验中，我们测试了性能不- 分别为“5路10拍”、“5路20拍”、“10路10拍”和“10路20拍”。我们在每个设置下进行10次独立实验，并将平均性能报告为19320我i=1我i=1我 i=1我i=1我i=1g gg联系我们联系我们表3. ShapeNetPart数据集上的部件分割结果。我们报告所有部件类别mIoUC（%）的平均IoU和所有实例mIoUI（%）的平均IoU，以及每个类别的IoU（%）。方法mIoUCmIoUIAero袋帽车椅子耳机吉他刀灯笔记本电机马克杯手枪火箭滑板表PointNet [32]80.3983.783.478.782.574.989.673.091.585.980.895.365.29381.257.972.880.6[33]第三十三话81.8585.182.47987.777.390.871.89185.983.795.371.694.181.358.776.482.6DGCNN [52]82.3385.28483.486.777.890.674.791.287.582.895.766.394.981.163.574.582.6Transformer83.4285.182.985.487.778.890.580.891.187.785.395.673.994.983.561.274.980.6Transformer-OcCo83.4285.183.385.288.379.990.774.191.987.684.795.475.594.484.163.175.780.8波因特-BERT84.1185.684.384.888.079.891.081.791.687.985.295.675.694.784.363.476.381.5表4. ScanObjectNN数据集上的分类结果。我们报告了三种不同设置的准确度（%）方法OBJ-BG仅对象PB-T50-RSPointNet [32]73.379.268.0SpiderCNN [56]77.179.573.7[33]第三十三话82.384.377.9[23]第二十三话86.185.578.5DGCNN [52]82.886.278.1BGA-DGCNN [47]––79.7BGA-PN++[47]––80.2TransformerTransformer-OcCo79.8684.8580.5585.5477.2478.79波因特-BERT87.4388.1283.07以及10次运行的标准差。我们还在相同条件下重新产生 DGCNN-rand 和 DGCNN-OcCo ，以进行公平的比较。如表2所示，Point-BERT在少量学习中取得了最佳效果。在四种设置下，其相对于基线获得了6.8%、3.0%、6.4%、3.3%的绝对改善，相对于基于OcCo的方法获得了0.6%、0.4%、1.6%、0.3%的绝对强有力的结果表明，Point-BERT学习更多的通用知识，可以快速转移到有限数据的新任务中。部件分割。对象部分分割是一项挑战性任务，旨在为每个点预测更细粒度的类标签。我们在ShapeNetPart[58]上评估了Point- BERT的有效性，其中包含来自16个类别的16，881个模型。在PointNet [32]之后，我们从每个模型中采样2048个点，并在分割任务中将组数g从64增加到128。我们设计了一个分割头，将组特征分层传播到具体来说，选择来自Transformer的第4层、第8层和最后一层的特征，表示为 H4=h4 ，H8=h8，H12=h12。然后我们通过FPS将原始点云下采样为512和256个点，表述为P4=p4512和P8=p8256。我们遵循PointNet++[33]在H4和P4、H8和P8之间执行特征传播。在这里，我们可以获得上采样的特征图H104和H108，其表示P4和P8中的点的特征。然后，我们可以将特征从H12推广到H144，最后推广到每个点。表 5. 消融研究。我们研究了不同设计的效果，并在ModelNet40上进行微调后报告了分类准确率（%）所有模型都使用1024个点进行训练。前置任务MPM点补丁混合MocoAcc.模型A型号B型号C✓✓✓91.4192.58↑92.91↑模型D✓✓✓93.24↑增强掩码类型掩蔽比取代Acc.模型B阻挡掩模[0.25，0.45]没有92.58模型BModel BModel B阻挡掩模随机掩码块掩码[0.25，0.45][0.25，0.45][0.550.85]是的不不91.81↓92.34↓92.52↓模型D阻挡掩模[0.25，0.45]没有93.16模型D型号D型号D阻挡掩模随机掩码块掩码[0.25，0.45][0.25，0.45][0.550.85]是的不不92.58↓92.91↓92.59↓表3中报告了两种类型的mIoU。很明显，我们的Point-BERT优于PointNet、PointNet++和DGCNN。此外，Point-BERT比vanilla Transformers提高了0.69%和0.5%的mIoU，而OcCo未能提高零件分割任务的基线性能。转移到真实世界数据集。我们通过在ShapeNet上预训练模型并在ScanOb- jectNN [ 47 ]上对其进行微调来评估学习表示的泛化能力，ScanOb- jectNN包含来自15个类别的2902个点云。这是一个更具挑战性的数据集，从现实世界的扫描包含背景和闭塞采样。我们遵循先前的工作，对三种主要变体进行实验：OBJ-BG、OBJ-Only和PB-T50-RS。实验结果见表4。正如我们所看到的，Point-BERT在三个变体上分别将普通变形金刚提高了7.57%、7.57%和5.83%。比较ModelNet 40（表1）和ScanObjectNN（表2）的分类结果，我们观察到DGCNN在Model-Net 40上的表现优于PointNet++（+2.4%）。而在现实世界的数据集ScanObjectNN上的优越性降低。对于Point-BERT，它在两个数据集上都达到了SOTA性能，这有力地证实了我们方法的有效性。19321∼图4. 特征分布的可视化。我们展示了Point-BERT学习的特征向量的t-SNE可视化（a）预训练后，（b）在ModelNet 40上微调后，（c）在ScanObjectNN上微调后。4.3. 消融研究借口任务。我们将模型A表示为我们的基线，这是从头开始的 Transformer 训练。模型 B 提出了预训练Transformer与MPM借口任务。模型C使用来自“点补丁混合”技术的更多样本进行训练模型D（所提出的方法）在MPM、点补丁混合和MoCo的设置下训练。从表5的上半部分可以看出，具有MPM的模型B将性能提高了约1.17%。模型C采用点补丁混合策略，得到了0.33%的改进。在MoCo [14]的帮助下，Model D进一步带来了0.33%的改进。掩蔽策略。我们在图2中可视化了点令牌预测任务。我们的Transformer编码器可以合理地推断出缺失补丁的点标记在实践中，我们通过dVAE的解码器，基于由Transformer编码器预测的点令牌来重建局部补丁探索了两种掩蔽策略：块式掩码（block-mask）和随机掩码（rand-mask）。掩蔽策略决定了语前任务的难度，影响重构的质量和再现效果.我们进一步研究了不同掩蔽策略的效果，并在表5中提供了结果。我们看到，具有块掩码的模型D在25%-45%的比例下工作得更好。与可以被分割成规则的不重叠的块的图像不同，从原始点云分割的子云通常涉及重叠。因此，rand-mask使得任务比块掩码更容易，并且进一步降低了重建性能。我们还考虑另一种类型的增强：随机地用来自其他样本的嵌入替换一些输入嵌入。4.4. 可视化我们通过图4中的t-SNE [48]可视化了两个数据集的学习特征。在图（a）和（b）中，可视化的特征来自我们的 Point-BERT （ a ）微调之前和（ b ）在ModelNet40上微调之后。可以看出，即使在微调之前，我们的方法也可以很好地分离来自不同类别的特征。我们还在（c）中将ScanObjectNN的PB-T50-RS上的特征图图5. 学习曲线。我们在合成和真实世界对象分类数据集上的训练损失和验证准确性方面比较了从头开始（蓝色）和使用Point- BERT（红色）进行预训练的Trans-formers训练的性能。我们可以看到，每个类别都形成了单独的集群，表明学习表征到现实世界场景的可转移性。它进一步验证了点BERT帮助Transformer学习3D对象的通用知识。我们还在图5中可视化了我们的基线变压器和拟议的Point-BERT的学习曲线。可以看出，使用我们的Point-BERT进行预训练显著提高了基线Transformer在合成和真实世界数据集上的准确性和速度。5. 结论与讨论我们提出了一个新的范例，三维点云变换器通过BERT风格的预训练，学习低层次的结构信息和高层次的语义特征。通过对几个3D点云任务的深入实验，我们展示了标准变形金刚在3D场景中的潜力，并采用适当的预训练策略，并期待在3D领域对标准变形金刚进行进一步研究。我们目前没有预见到任何负面的道德/社会影响。尽管所提出的方法可以有效地提高标准Transformer在点云上的性能，但整个提高培训过程的效率将是一个有趣的未来方向。确认这项工作得到了中国国家重点研究发展计划2017YFA0700802的部分支持，国家自然科学基金62152603，U1813218的部分支持，北京人工智能研究院（BAAI）的部分支持，以及清华大学郭强研究所的部分支持。浓度19322引用[1] Idan Achituve，Haggai Maron，and Gal Chechik.点云上用于域适应的自监督学习在WACV，2021年。3[2] 包航波，李东，魏福如。Beit：Bert图像转换器的预训练。arXiv预印本arXiv：2106.08254，2021。一二三四五八[3] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan tan ，Pranav Shyam ，Girish Sastry ，AmandaAskell，et al.语言模型是很少机会的学习者。arXiv预印本arXiv：2005.14165，2020。第1、3条[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。3[5] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储

下载后可阅读完整内容，剩余1页未读，立即下载