没有合适的资源?快使用搜索试试~ 我知道了~
𝐴 𝑐𝑜𝑜𝑙𝑎𝑖𝑟𝑝𝑙𝑎𝑛𝑒𝐴 𝑡𝑎𝑏𝑙𝑒𝑙𝑎𝑚𝑝chaplala𝐴 𝑏𝑟𝑜𝑤𝑛𝑐ℎ𝑎𝑖𝑟85520PointCLIP:通过CLIP理解点云0张仁瑞�1,3,郭子宇�2,张伟1,李坤昌1,苗旭鹏20崔斌2,乔宇1,高鹏†1,李洪升3,401上海人工智能实验室2北京大学计算机科学学院和HCST重点实验室3香港中文大学-商汤联合实验室4感知与交互智能中心(CPII){zhangrenrui,gaopeng}@pjlab.org.cn hsli@ee.cuhk.edu.hk0摘要0最近,通过对比视觉-语言预训练(CLIP)进行零样本和少样本学习在2D视觉识别方面表现出了启发性的性能,它学习在开放词汇环境中将图像与其对应的文本进行匹配。然而,目前尚未探索CLIP在经过大规模2D图像-文本对预训练后是否可以推广到3D识别。在本文中,我们通过提出PointCLIP来确定这样的设置是可行的,它在CLIP编码的点云和3D类别文本之间进行对齐。具体而言,我们通过将点云投影到多视角深度图上并以端到端的方式聚合视角级别的零样本预测,实现了从2D到3D的高效知识传递。我们进一步设计了一个视角间适配器,以更好地提取全局特征并自适应地融合在2D中预训练的3D少样本知识。通过在少样本设置下仅微调适配器,PointCLIP的性能可以大幅提高。此外,我们观察到PointCLIP和经典的3D监督网络之间的知识互补性质。通过在推理过程中进行简单的集成,PointCLIP对超越最先进的3D网络的性能提升起到了积极的作用。因此,PointCLIP是在低数据条件下有效理解3D点云的有希望的选择,且资源成本较低。我们在ModelNet10、ModelNet40和ScanObjectNN上进行了全面的实验证明了PointCLIP的有效性。代码可在https://github.com/ZrrSkywalker/PointCLIP上获得。01. 引言0近年来,深度学习在2D和3D领域的计算机视觉任务中占据主导地位,例如图像0� 表示相等的贡献,† 表示通讯作者03D训练集02D图像-文本对03D测试集0PointCLIP PointNet++0����� ����� ���� ����0图1.PointCLIP和PointNet++之间的训练-测试方案比较。与经典的3D网络不同,我们提出的PointCLIP通过2D图像-文本对进行预训练,并在没有3D训练的情况下直接在3D数据集上进行零样本分类,实现了高效的跨模态知识传递。0分类[12, 17, 22, 28, 37, 41],目标检测[1, 4, 13, 29, 47,67],语义分割[3, 25, 35, 36, 64,68],点云识别和部分分割[19, 42, 44, 45,56]。随着3D感知技术的快速发展,处理3D点云数据的需求不断增长,推动了许多具有更好的局部特征聚合器[30, 32,50],几何建模[20, 40, 60]和基于投影的处理[21, 34,49]的先进深度模型的发展。与基于网格的2D图像数据不同,3D点云受到空间稀疏性和不规则分布的影响,这阻碍了从2D领域直接转移方法。更重要的是,大量新捕获的点云包含“未见过”类别的对象,这对已部署的模型来说是不可接受的。在这种情况下,即使是最佳分类器也可能无法识别它们,并且每次出现“未见过”对象时重新训练模型是不可承受的。通过对比视觉-语言预训练,2D视觉中的类似问题已经得到了显著缓解。85530(CLIP)[46]提出了利用自然语言监督学习可转移的视觉特征。对于“未见过”的类别的零样本分类,CLIP利用预训练的视觉和语言之间的相关性进行开放词汇的识别,并取得了良好的性能。为了提高少样本设置下的准确性,CoOp[69]采用可学习的标记来编码文本输入,并避免了手工设计提示的调整。从另一个角度来看,CLIP-Adapter[16]附加了一个轻量级的残差风格适配器,其中包含两个线性层,以更好地适应图像特征,而Tip-Adapter[66]则进一步提高了其性能,同时大大减少了训练时间。因此,在2D图像上识别新的未标记对象的问题已经得到了很好的探索,并且所提出的方法在零样本CLIP上取得了显著的改进。然而,对于更具挑战性的点云,一个自然的问题是:这样的基于CLIP的模型是否可以转移到3D领域,并实现对“未见过”的3D对象的零样本分类?0为了解决这个问题,我们提出了PointCLIP,将CLIP的2D预训练知识转移到3D点云理解中。首要问题是弥合无序点云和CLIP可以处理的基于网格的图像之间的模态差距。考虑到一些应用的实时需求,例如自动驾驶[4,13,29,43]和室内导航[71],我们提出采用在线透视投影[19]而不需要任何后处理[49],即将原始点投影到预定义的图像平面上生成散射深度图。这个投影过程的成本在时间和计算方面都很小,但保留了来自多个视角的点云的原始属性。在此基础上,我们应用CLIP的预训练视觉编码器提取点云的多视图特征,然后通过文本生成的分类器获得每个视图的零样本预测。其中,我们将3D类别名称放入手工设计的模板中,并通过CLIP的预训练文本编码器生成零样本分类器。由于不同的视图对理解的贡献不同,我们通过视图之间的加权聚合获得点云的最终预测。0尽管PointCLIP在没有任何3D训练的情况下实现了跨模态的零样本分类,但其性能仍然落后于在完整数据集上进行充分训练的经典点云网络。为了消除这一差距,我们引入了一个可学习的视角适配器,其中包含瓶颈线性层,以在少样本设置中更好地从多个视角提取特征。具体而言,我们将所有视角的特征连接起来,并通过跨视角交互和融合总结点云的紧凑全局特征。基于全局表示,生成每个视角的适应特征,并通过残差连接将其添加到原始的CLIP编码特征中。通过这种方式,每个视角都能意识到全局信息,并结合来自视角的新知识。0通过2D预训练的CLIP的2D知识,结合16-shotModelNet40[58]对PointCLIP进行少样本微调,直接在推理过程中集成它们的预测分类logits,从而将性能提高了2.32%,从89.71%提高到92.03%。对于CurveNet[60],这是最先进的3D识别网络,知识集成将性能从93.84%提高到94.08%。相比之下,仅仅在ModelNet40上完全训练的两个模型之间的集成不能提高性能。因此,PointCLIP可以被视为一个插入式的多知识集成模块,通过2D对比知识进行微弱的少样本训练来促进3D网络。我们的论文的贡献如下:0•我们提出了PointCLIP来扩展CLIP,以处理3D点云数据,通过将2D预训练知识转移到3D中实现跨模态的零样本识别。0•在PointCLIP上引入了一种视图间适配器,通过多个视图之间的特征交互大大提高了性能,通过少量微调实现了性能的提升。0•PointCLIP可以作为多知识集成模块,以提高现有完全训练的3D网络的性能。0•在广泛采用的ModelNet10、ModelNet40和具有挑战性的ScanObjectNN上进行了全面的实验,结果表明PointCLIP在有效的3D理解方面具有潜力。02. 相关工作03D零样本学习。零样本学习的目标是实现对“未见”对象的识别,这些对象不作为训练样本。尽管零样本学习在2D分类[27,46,59]上引起了很大的关注,但只有少数几个工作探索了如何在3D领域进行。作为点云的首次尝试,[7]logits = fvW Tt ; p = SoftMax(logits),(1)85540将PointCLIP用作多知识集成模块,以提高现有完全训练的3D网络的性能。0迁移学习。迁移学习[9,63]旨在利用数据丰富的领域的知识来帮助数据稀缺的领域的学习。对于一般的视觉任务,ImageNet[9]的预训练可以极大地改善各种下游任务的性能,如目标检测[1,18,47]和语义分割[35]。在自然语言处理中,通过Mask Language Model[10]在网络爬取的语料库上预训练的表示在机器翻译[39]和自然语言推理[8]方面取得了领先的性能。最近引入的CLIP[46]在没有任何微调的情况下展示了对“未见”数据集的优越图像理解能力。CoOp [69],CLIP-Adapter[16],Tip-Adapter[66]等等[54,57,70]进一步表明,通过注入领域特定的监督,可以大大提高CLIP的性能。尽管成功的案例令人鼓舞,除了Image2Point[61]之外,大多数现有方法在同一模态内进行知识转移,即图像到图像[9],视频到视频[2]或语言到语言[10]。与它们不同,我们的PointCLIP能够有效地将从2D图像中学到的表示转移到不同的3D点云中,这激发了跨不同模态的迁移学习的未来研究。0点云的深度神经网络。现有的点云深度神经网络可以分为基于点和基于投影的方法。基于点的模型在没有任何预处理的情况下对原始点进行处理。PointNet [44]和PointNet ++[45]首先使用多层感知器(MLP)对每个点进行编码,并利用最大池化操作来确保排列不变性。最近的基于点的方法提出了更先进的架构设计以及用于更好地解析点云的几何提取器[30,50,60]。除了原始点之外,基于投影的方法通过将点云转换为体积[38]或多视图[49]数据形式来理解点云。在其中,多视图方法将3D数据集分为“已见”和“未见”样本两部分。通过从点云特征空间到类别语义空间的投影函数,[7]通过前者训练PointNet[44],并在后者上进行测试。基于这个先前的工作,[5]进一步减轻了由低质量3D特征引起的hubness问题[65],[6]引入了三元组损失以获得更好的迁移设置性能,允许利用未标记的“未见”数据进行训练。与以上所有只训练网络的设置不同,PointCLIP仅从2D数据进行预训练,并在“未见”3D样本上实现直接的零样本识别,而无需任何3D训练。因此,考虑到从2D到3D的领域差距,我们的设置更具挑战性,对于实际问题更加紧迫。0视角方法将点云投影到多个视角的图像上,并使用在ImageNet上预训练的2D卷积神经网络(CNN)[22](如MVCNN[49]和其他[14,15,21,26,62])进行处理。通常,这种视角投影方法在离线生成的从3D网格[55]投影的图像上操作,或者需要进行后期渲染[48]以获得阴影和纹理,这些都是昂贵且不适用于实时应用的。相反,我们遵循SimpleView[19]的方法,将原始点云直接投影到图像平面上,而不进行处理,并通过垂直距离设置其像素值。这种深度图投影的时间和计算成本较低,满足了高效的端到端零样本识别的需求。03. 方法0在第3.1节中,我们首先回顾了用于2D零样本分类的对比视觉-语言预训练(CLIP)。然后在第3.2节中,我们介绍了我们的PointCLIP,将2D预训练知识转移到3D点云中。在第3.3节中,我们提供了一个视角间适配器,以提高少样本性能。在第3.4节中,我们提出将PointCLIP与完全训练的经典3D网络集成,以实现多知识互补。03.1. CLIP的回顾0CLIP是预训练的,用于将图像与其对应的自然语言描述进行匹配。CLIP中有两个独立的编码器,分别用于视觉和文本特征编码。在训练过程中,给定一批图像和文本,CLIP提取它们的特征,并通过对比损失在嵌入空间中对齐它们。为了确保全面的学习,从互联网上收集了4亿个训练图像-文本对,这使得CLIP能够将图像与任何语义概念在开放词汇表中进行零样本分类的对齐。具体而言,对于一个“未见过”的K类数据集,CLIP通过将所有类别名称放入预定义的模板(称为提示)来构建文本输入。然后,通过类别文本的C维特征权重,我们将零样本分类器表示为Wt∈RK×C。Wt中的每个K行向量都编码了预训练的类别知识。同时,测试图像的特征由CLIP的视觉编码器编码为fv∈R1×C,并计算分类logits∈R1×K,如下所示:0其中SoftMax(∙)和p分别表示softmax函数和K个类别的预测概率。整个过程不需要任何新的训练图像,并通过预训练的编码器实现了有希望的零样本分类性能。𝑊!"𝑓#𝑊!"𝑓)𝑓)(𝑓#𝑓)𝑓*𝑓+𝑓)𝑊!"𝑓*𝑊!"𝑓+𝑊!"𝛼+𝛼#𝛼*𝛼)logits = fiW T , for i = 1, . . . , M,1 αilogitsi,(2)85550投影0深度图 �� � [�����]0平面投影0文本编码器0视觉编码器0C0K0K02D深度图03D点云0视角间0适配器0C0M0点云0椅0平0灯0零样本0少样本0M个视角0加权0组合0多视角特征0分类器0多视角预测0图2.PointCLIP的流程。为了弥合模态差距,PointCLIP将点云投影到多视角深度图上,并通过在2D中进行CLIP预训练的3D识别来进行。开关提供了直接零样本分类和使用视角间适配器的少样本分类的选择,分别用实线和虚线表示。03.2. CLIP进行点云理解02D中的各种大规模数据集[28,31]提供了丰富的样本,用于预训练模型[11,22]提取高质量和稳健的2D特征。相比之下,广泛采用的3D数据集相对较小,并且包含有限的物体类别,例如ModelNet40 [58]有9843个样本和40个类别,而ImageNet[28]有100万个样本和1000个类别。因此,很难获得性能良好的预训练3D网络进行迁移学习。为了缓解这个问题并探索CLIP的跨模态能力,我们提出了PointCLIP,基于预训练的CLIP在点云上进行零样本学习。0弥合模态差距。点云数据是一组散布在3D空间中的无序点,其稀疏性和分布与基于网格的2D图像有很大的差异。为了将点云转换为CLIP可访问的表示,我们从多个视角生成点投影图像,以消除3D和2D之间的模态差距。具体而言,如果一个点的坐标表示为(x,y,z),以底视图为例,其在图像平面上的投影位置是(�x/z�,�y/z�),遵循[19]。这样,投影的点云是一个被缩短的图形,即在距离上很小但在反之上很大,更类似于真实照片中的图像。除了[19]将一个卷积层应用于将单通道深度图预处理为三通道特征图之外,我们不采用任何预转换,并将像素值z重复三个通道。此外,我们不进行离线处理[49,55],直接从原始点获取投影深度图,没有颜色信息,这导致了0边际时间和计算成本。借助这种轻量级的跨模态凝聚力,CLIP的预训练知识可以用于点云理解。0零样本分类。基于从M个视角投影的图像,我们使用CLIP提取它们的视觉特征{fi},其中i =1,...,M由视觉编码器进行零样本分类,我们将K个类别名称放置在预定义模板的类令牌位置:“[CLASS]的点云深度图。”并将它们的文本特征编码为零样本分类器Wt∈RK×C。在此基础上,计算每个视图的分类logitsi,并通过它们的加权求和获得点云的最终logits。0logits = � M0其中αi是一个超参数,用于衡量视图i的重要性。每个视图的fi编码了点云的不同视角,并能够进行独立的零样本分类。它们的聚合进一步补充了来自不同视角的信息,实现了整体理解。PointCLIP的整个过程对于“未见过”的3D数据集是非参数化的,它通过CLIP的预训练2D知识将每个点云与其类别配对,而无需进行任何3D训练。03.3. PointCLIP的Inter-view适配器0尽管PointCLIP在点云上实现了高效的零样本分类,但其性能无法与那些完全训练的3D神经网络[44,45]相媲美。然后我们[]Encoder𝑊!"𝑓#𝑊!"𝐾𝑓$%&'(%2D Depth Maps𝑓#(𝑓)(𝑓*(𝑓+(3D Point CloudInter-viewAdapter𝑓#𝑓)𝑓*𝑓+𝑓)𝑊!"𝑓*𝑊!"𝑓+𝑊!"𝛼+Few-shotLinear𝛼#𝛼*𝛼)Combination𝑀𝑢𝑙𝑡𝑖-𝑣𝑖𝑒𝑤 𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑜𝑛𝑠𝑓#𝑓)𝑓*𝑓+𝑓#𝑓)𝑓*𝑓+[]Encoder𝑊!"𝑓#𝑊!"𝐾𝑓$%&'(%2D Depth Maps𝑓#(𝑓)(𝑓*(𝑓+(3D Point CloudInter-viewAdapter𝑓#𝑓)𝑓*𝑓+𝑓)𝑊!"𝑓*𝑊!"𝑓+𝑊!"𝛼+Few-shotLinear𝛼#𝛼*𝛼)Combination𝑀𝑢𝑙𝑡𝑖-𝑣𝑖𝑒𝑤 𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑜𝑛𝑠𝑓#𝑓)𝑓*𝑓+𝑓#𝑓)𝑓*𝑓+85560码0�0�0�0�0IP0图3.视图间适配器的详细结构。给定点云的多视图特征,适配器提取其全局表示并生成视图适应特征。通过残差连接,新学习的3D知识融入到预训练的CLIP中。0投影0视觉编码器0视图间适配器0C0C0M0椅0平面0灯0零样本0M个视图0多视图特征0C0M0PointCLIP0经典的03D网络0点云点云++0DGCNN曲面连接0视图间适配器03D学习知识02D预训练知识0多知识集成0全局特征适配特征0图4.PointCLIP可以为经典3D网络提供补充的2D知识,并作为即插即用的增强模块。0考虑到更常见的情况,即新收集的数据中包含每个“未见”类别的少量对象,并且需要在这种少样本设置下对它们进行识别。由于参数庞大且训练样本不足,对整个CLIP进行微调是不切实际的,很容易导致过拟合。因此,参考自然语言处理(NLP)中的[24]和CLIP-Adapter[16],在PointCLIP之上添加一个三层多层感知机(MLP),称为视图间适配器,以进一步提高其在少样本设置下的性能。在训练过程中,我们冻结CLIP的视觉和文本编码器,只通过交叉熵损失微调可学习的适配器。具体而言,给定点云的M个视图的CLIP编码特征,我们沿通道维度将它们连接起来,得到Concate(f1�M) ∈R1×MC,然后通过视图间适配器的两个线性层获得紧凑的全局表示。0fglobal = ReLU(Concate(f1�M)WT1)WT2,(3)0其中,fglobal ∈R1×C,W1,W2表示适配器中的两层权重。通过这种视图间聚合,多个视角的特征被融合成一个总和向量。基于此,通过将全局特征生成视图适应特征,并通过残差连接添加到其原始的CLIP编码特征中,得到视图适应特征。0fai = fi + ReLU(fglobalWT3i),(4)0其中,W3i ∈RC×C表示第i个视图的W3的第i部分,而WT3=[WT31;WT32;...WT3M] ∈RC×MC。视图间适配器具有两个优点:一方面,fai将全局引导的适应特征与fi混合,以对点云进行整体理解;另一方面,新学习的3D少样本知识被融入到2D预训练的CLIP中,进一步通过3D特定的监督促进了跨模态性能。0在视图间适配器之后,每个视图使用适应特征fai和文本分类器Wt进行分类。与零样本分类相同,来自M个视图的M个逻辑回归被总结起来构建最终的预测。令人惊讶的是,仅通过少样本样本微调这个加性适配器就能显著提高性能,例如,在每个类别有16个样本的Mod- elNet40[58]上,从20.18%提高到87.20%,不到全部数据的1/10。这种启发式的提升证明了在3D少样本数据上进行特征适应的有效性和重要性,极大地促进了从2D到3D的知识转移。因此,带有视图间适配器的PointCLIP为点云理解提供了一种有希望的替代解决方案。特别是对于一些应用,无法通过大规模完全注释的数据对整个模型进行训练,只需使用少样本数据微调PointCLIP的三层适配器即可获得具有竞争力的性能。03.4. 多知识集成0经典的点云网络,从早期的PointNet[44]到最近的CurveNet[60],都是通过密集集训练在3D数据集上从头开始训练的,但PointCLIP主要继承了2D视觉-语言学习的预训练先验,并包含了不同方面的知识。因此,我们研究了这两种形式的知识是否可以集成在一起进行更好的联合推理。在实践中,我们选择了两个模型:PointNet++[45]和我们的PointCLIP在16样本微调下,通过简单相加的方式将它们的预测logits集成为最终输出。令人惊讶的是,在PointCLIP的87.20%的帮助下,PointNet++的准确率从89.71%提升到92.03%,提高了2.32%。换句话说,两个低分模型的集成可以产生一个更强大的模型,充分展示了两种知识的互补交互。相比之下,两个经典全训练模型之间的集成不会带来性能提升。85570PointCLIP的零样本性能0数据集 准确率 Proj. Settings 视图权重0ModelNet10 [58] 30.23% 1.7, 100 2,5,7,10,5,6 ModelNet40[58] 20.18% 1.6, 121 3,9,5,4,5,4 ScanObjectNN [52] 15.38%1.8, 196 3,10,7,4,1,00表1.PointCLIP在ModelNet10、ModelNet40和ScanObjectNN上的零样本性能,使用最佳设置。Proj.Settings包括投影距离和深度图的边长。0投影视图数量0数量 1 4 6 8 10 120零样本 14.95 18.68 20.18 16.98 14.91 13.65 16样本 75.5382.17 84.24 85.48 87.20 86.350每个视图的重要性0视图 前 右 后 左 顶部 底部0零样本 18.64 19.57 18.92 19.12 17.46 17.63 16样本 84.9185.69 85.03 85.76 84.44 84.350表2. ModelNet40上零样本和16样本PointCLIP的投影视图数量和重要性的消融研究(%)。0性能提升,表明互补性的重要性。我们进一步将PointCLIP与其他最先进的3D网络集成,并观察到类似的性能提升。因此,PointCLIP可以作为一个即插即用的增强模块,实现更强大的点云识别。04. 实验04.1. 零样本分类0设置。我们在三个知名数据集上评估PointCLIP的零样本分类性能:ModelNet10 [58],ModelNet40[58]和ScanObjectNN[52]。对于每个数据集,我们不需要训练数据,并采用完整的测试集进行评估。对于预训练的CLIP模型,默认情况下我们采用ResNet-50 [22]作为视觉编码器,transformer[53]作为文本编码器。然后,我们从6个正交视图投影点云:前、右、后、左、顶部和底部,每个视图都有一个相对权重值,范围从1到10,显示在Table1的第四列中。由于点的坐标被归一化到-1到1之间,我们将6个图像平面设置在距离坐标中心(0,0)固定距离处。这个距离在Table 1的Proj.Settings中显示为第一个值,其中较大的距离导致图像上点的分布更密集。投影的正方形深度图的边长因不同的数据集而异,以Proj.Settings的第二个值表示,较大的边长导致投影对象的尺寸较小。然后我们对所有图像进行上采样。0提示 零样本 16样本0“一张[CLASS]的照片。” 17.02% 85.98%“一张[CLASS]的点云照片。” 16.41% 86.02%“一个[CLASS]的点云。” 18.68% 86.06%“一个大[CLASS]的点云。” 19.21% 87.20%“一张[CLASS]的点云深度图。” 20.18% 85.82%“[可学习的标记] + [CLASS]” - 73.63%0表3.PointCLIP在ModelNet40上使用不同提示设计的性能。[CLASS]表示类别标记,[Learnable Tokens]表示具有固定长度的可学习提示。0不同的视觉编码器0模型 RN50 RN101 ViT/32 ViT/16 RN. × 4 RN. × 160零样本 20.18 17.02 16.94 21.31 17.02 23.78 16样本 85.09 87.2083.83 85.37 85.58 85.900表4.PointCLIP在ModelNet40上使用不同视觉编码器的性能(%)。RN50和ViT-B/32分别表示ResNet-50和具有32×32补丁嵌入的视觉Transformer。RN. × 16表示从[46]中进行16倍计算的ResNet-50。0将图像大小调整为(224,224),以与CLIP的设置对齐。对于来自文本编码器的零样本分类器,我们将文本模板设置为“[CLASS]的点云深度图”,以适应点云的视觉特征。0性能。在表1中,我们展示了零样本PointCLIP在三个数据集上的性能及其最佳设置。在没有任何3D训练的情况下,PointCLIP能够在ModelNet10上达到令人期待的30.23%的性能,这证明了我们从2D到3D的有效知识转移。对于类别数量是ModelNet40的4倍和包含嘈杂真实场景的ScanObjectNN,由于缺乏3D特定的下游调整,PointCLIP的性能稍差:分别为20.18%和15.38%。至于投影距离和图像分辨率的Proj.设置,它们的变化符合不同数据集的特性。与室内ModelNet10相比,PointCLIP在ModelNet40上需要更多细节来识别复杂的室外对象,如飞机和植物,因此在更分散的点和更大的物体尺寸(即更大的透视投影距离和分辨率)下表现更好。相反,对于ScanObjectNN,需要更密集的点和更大的分辨率来过滤噪声并保留复杂的真实场景信息。关于视角权重,合成对象的ModelNet10和ModelNet40需要所有6个视角对最终分类的贡献,但对于包含地板和天花板噪声点的ScanObjectNN,顶部和底部视角几乎无法提供任何信息。0消融实验。在表2中,我们对零样本PointCLIP进行了消融研究,涉及投影视角数量。6506070809063040506070806202530354045505585580每个类别的标记训练样本数量0得分(%)0ModelNet100PointCLIPCurveNetSimpleViewPointNet++PointNet0每个类别的标记训练样本数量0得分(%)0ModelNet400PointCLIPCurveNetSimpleViewPointNet++PointNet0每个类别的标记训练样本数量0得分(%)0ScanObjectNN0PointCLIPCurveNetSimpleViewPointNet++PointNet0图5.PointCLIP与其他经典3D网络在ModelNet10、ModelNet40和ScanObjectNN上的少样本性能比较。在1、2、4、8和16样本设置下,我们的PointCLIP始终表现出优势。0对于ModelNet40数据集,我们尝试了1、4、6、8、10和12个视角,以逐渐捕捉点云的多视角信息,但超过6个视角会带来冗余并导致性能下降。为了探索不同视角对性能的影响,我们将所有相对权重统一设置为3,并分别将每个视角的权重增加到9。如表中所示,从右侧投影获得了最高的性能,这表明了它的主导作用,而顶部和底部视角对分类的贡献相对较少。在表4中,我们实现了不同的视觉骨干网络,包括ResNet [22]和视觉Transformer [11],其中RN50 × 16[46]的性能最佳,达到23.78%。0提示设计。我们在表3中提出了零-shotPointCLIP的五种提示设计。我们观察到天真的“一张[CLASS]的照片。”在ModelNet40上的准确率为17.02%,而仅仅在其中插入“点云”一词会降低性能。然后,我们去掉了“一张照片”,直接使用“点云”作为主题,这提高了1.66%的准确率。由于投影的点云通常覆盖了大部分图像区域,添加一个形容词“大”可以进一步提高性能。此外,我们添加了“深度图”来更相关地描述投影图像,这有助于最佳表现的20.18%,展示了提示选择的重要性。04.2. 少样本分类0设置。我们在ModelNet10 [ 58 ]、ModelNet40 [ 58]和ScanObjectNN [ 52]上使用带有视图间适配器的PointCLIP进行1、2、4、8、16个样本的实验。对于N-shot设置,我们从训练集的每个类别中随机采样N个点云。考虑到效率和性能,我们采用ResNet-101 [ 22]作为CLIP的预训练视觉编码器,以进行更强的特征提取,并增加投影视图的数量到10个,添加上/下/前/后/左角的视图,因为左视图是最具信息量的。0在表2中,我们证明了左视图对于少样本识别是最具信息量的。此外,我们将提示修改为“一个大的[CLASS]的点云”,在少样本实验中表现更好。对于视图间适配器,我们构建了一个由三个线性层组成的残差式多层感知机(MLP),如第3.3节所述。0性能。在图5中,我们展示了PointCLIP的少样本性能,并将其与4个代表性的3D网络进行比较:PointNet [ 44],PointNet++ [ 45 ],SimpleView [ 19]和最先进的CurveNet [ 60]。可以看出,带有视图间适配器的PointCLIP在少样本分类中超过了所有其他方法。当每个类别只有很少的样本时,PointCLIP具有明显的优势,在ModelNet40的1个样本上超过PointNet 25.49%和CurveNet12.29%。当给出更多的训练样本时,PointCLIP仍然领先于性能,但由于冻结的编码器和仅有的三层适配器的有限拟合能力,差距变小了。0消融实验。在表2中,我们展示了16-shotPointCLIP在不同投影视图下的表现,并探索每个视图对ModelNet40的贡献。与零-shot版本不同,16-shotPointCLIP的10个视图表现比6个视图更好,可能是因为新增的适配器能够更好地利用更多视图的信息并自适应地聚合它们。对于视图的重要性,我们遵循零-shot实验的配置,但得出了相反的结论:左视图是最具信息量的。在表4中,对于不同的视觉编码器,ResNet-101在参数更少的情况下实现了最高的准确率,而不是视觉变换器或ResNet-50×16。表3列出了提示设计所引起的性能影响。可学习的提示(CoOp [ 69])比手工设计的提示表现更差,“一个大的[CLASS]的点云”表现最好。PointNet [44]88.7890.76+1.980.60PointNet++ [45]89.7192.10+2.390.70RSCNN [33]92.2292.59+0.370.70DGCNN [56]92.6392.83+0.200.70SimpleView [19]93.2393.87+0.640.60CurveNet [60]93.8494.08+0.240.1585590模型 在增强前 在增强后 增益比例0表5. 16-shotPointCLIP多知识集成的增强(%),在ModelNet40上达到了87.20%。Before和AfterEn.分别表示带有和不带有PointCLIP集成的模型。04.3. 多知识集成0设置。为了验证将预训练的2D先验与3D知识融合的互补性,我们将经过微调的16-shotPointCLIP(在ModelNet40上达到了87.20%)与完全训练的PointNet [ 44 ],PointNet++ [ 45 ],DGCNN [ 56],SimpleView [ 19 ]和CurveNet [ 60]进行聚合。其他模型的所有检查点都是从[ 23 , 51]中获取的,没有任何投票。我们手动调节PointCLIP与每个模型之间的融合比例,并在表5中报告具有最佳比例的性能,该比例代表了PointCLIP相对于整体的权重。0性能。如表5所示,PointCLIP的集成改善了所有经典完全训练的3D网络的性能。结果充分证明了PointCLIP对现有3D模型的互补性。值得注意的是,性能的提升不仅仅是通过两个模型之间的集成实现的,因为16-shotPointCLIP的准确率低于其他完全训练的模型,但仍然可以使它们已经很高的性能更高。其中,PointNet++的准确率从89.71%提高到92.10%,将PointCLIP与最先进的CurveNet结合可以达到最佳的94.08%。此外,我们观察到,对于基线性能较低的模型,PointCLIP的logits需要占较大比例,但对于性能良好的模型,如CurveNet,它们的知识应该在集成中起主导作用。0消融实验。我们在ModelNet40上对两个完全训练的模型进行了集成的消融研究,没有使用PointCLIP,并以相同的比例融合它们的logits以简化操作。如表6所示,聚合PointNet++会降低RSCNN和CurveNet的性能,而最高的两个模型SimpleView和CurveNet之间的集成无法达到更好的性能。此外,PointCLIP的配对集成会损害原始性能。因此,两个具有相同训练方案的模型的简单集成通常会导致性能下降,这证明了多知识交互的重要性。0集成模型1 集成模型2 集成后0PointNet++ [45],89.71 + RSCNN [33],92.22 92.14PointNet++,89.71 + CurveNet [60],93.84 91.61SimpleView [19],93.23 + CurveNet,93.84 93.68PointCLIP,87.20 + PointCLIP,87.14 87.060表6. 具有相同训练方案的模型之间的集成研究(%)。0与CurveNet [60]的集成0拍摄次数 0 8 16 32 64 1280PointCLIP 20.18 81.96 87.20 87.83 88.95 90.02 集成后 93.8893.89 94.08 94.00 93.92 93.880表7.在ModelNet40上,PointCLIP在不同few-shot设置下的增强性能(%)。0知识交互。如表7所示,我们将通过零样本、8、16、32、64和128次拍摄进行微调的PointCLIP与CurveNet融合,以探索它们的增强能力。据报道,仅具有20.18%的零样本PointCLIP可以提升CurveNet+0.04%。然而,过多的在3D数据集上的训练会对集成的准确性产生不利影响。这可能是由于两个模型之间过多的知识相似性,无法像预期那样提供互补信息。05. 结论0我们提出了PointCLIP,它在没有任何3D训练的情况下对点云进行跨模态的零样本识别。通过多视图投影,PointCLIP将CLIP的预训练2D知识高效地转化为3D领域。此外,我们设计了一个视图间适配器,用于聚合多视图特征并将3D学习的知识融合到预训练的CLIP中,在few-shot设置下进行微调适配器并冻结所有其他模块,可以大大提高PointCLIP的性能。此外,PointCLIP可以作为一个即插即用的模块为经典的3D网络提供互补知识,从而带来有利的性能提升。除了识别,我们未来的工作将专注于将CLIP推广到更广泛的3D应用。0致谢0本工作部分得到了香港研究资助局研究基金(编号14204021、14207319)、香港中文大学战略基金、上海市科学技术委员会(编号21DZ1100100)以及感知与交互智能中心的支持。85600参考文献0[1] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, 和 Sergey Zagoruyko.基于Transformer的端到端目标检测. 在 欧洲计算机视觉会议 中,页码213–229. Springer, 2020. 1 , 30[2] Joao Carreira 和 Andrew Zisserman. Quo vadis, 动作识别?一种新模型和Kinetics数据集. 在IEEE计算机视觉与模式识别会议论文集 中, 页码6299–6308,2017. 30[3] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, 和 Alan L Yuille. Deeplab:基于深度卷积网络、空洞卷积和全连接CRF的语义图像分割.IEEE模式
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功