没有合适的资源?快使用搜索试试~ 我知道了~
最近邻遇见深度神经网络:点云分析中的空间邻居适配器
12460最近邻遇见深度神经网络进行点云分析0任瑞 张1,2,刘辉 王1,2,子宇 郭1,建波 施2,301 北京大学,2 Heisenberg Robotics,3 宾夕法尼亚大学0{ 1700012927, 1900012932 } @pku.edu.cn, jshi@seas.upenn.edu0摘要0标准的3D点云基准性能已经达到了瓶颈,导致模型过大和复杂的网络设计以获得微小的改进。我们提出了一种无需重新设计或额外参数的方法来增强现有的深度神经网络,称为空间邻居适配器(SN-Adapter)。基于任何训练好的3D网络,我们利用其学习到的编码能力提取训练数据集的特征,并将其总结为原型空间知识。对于一个测试点云,SN-Adapter从预构建的空间原型中检索k个最近邻(k-NN),并将k-NN的预测与原始3D网络的预测进行线性插值。通过提供互补特性,所提出的SN-Adapter作为一个即插即用的模块以非参数化的方式经济地提高性能。更重要的是,我们的SN-Adapter可以有效地推广到各种3D任务,包括形状分类、部分分割和3D物体检测,展示了其优越性和鲁棒性。我们希望我们的方法能够为点云分析提供新的视角,并促进未来的研究。01. 引言03D视觉在机器人和人工智能领域有广泛的应用。已经提出了许多方法来解决3D任务,包括对象识别[25, 26, 13, 2, 42,47]和场景级理解[1, 35, 4, 48, 21,10]。现有的3D方法建立在可学习的深度神经网络之上,并从它们处理不规则点云的能力中受益。从简洁的PointNet[25]开始,后续的研究通过层次结构[26,2]、基于点的卷积[20, 31,43]、注意机制[15]等对其进行了升级,最近的工作集中于插入复杂的模块或过度增加网络参数来提高基准分数。这种趋势不仅损害了训练和推理过程的效率,而且逐渐饱和了0评价了基准。作为ModelNet40[40]上形状分类的示例,CurveNet[42]精心探索了一组用于聚合局部几何的空间曲线,导致训练速度慢10倍,推理速度慢20倍,与PointNet++[26]相比。PointMLP[2]仅提高了0.5%的准确率,却增加了+11.9M个参数,比其精英版本[2]增加了19倍的模型规模。因此,我们提出了一个问题:即使没有额外的参数或重新训练,我们能以最小的代价提高现有3D网络的性能吗?我们通过从空间邻居中检索3D原型知识来开发一个非参数化的适配器模块,名为SN-Adapter。它参考了k最近邻算法(k-NN)的思想,并且可以在不进行额外重新训练的情况下直接增强现有的训练好的3D深度神经网络。如图1所示,我们的SN-Adapter分为两个步骤实现:预构建3D原型知识和推理时的插值增强。具体而言,我们理论上将训练好的网络分为两部分。第一部分是特征提取器,将输入的原始点云编码为高维表示。第二部分通常是网络的最后一个线性层,称为3D分类器,用于对编码向量进行分类。使用训练好的提取器,我们首先从训练数据集中获取所有点云的高维特征。对于不同的3D任务,我们将这些特征总结为各种形式的原型空间知识,例如样本级、部分级和对象级原型,如图1右上角所示。在推理过程中,SN-Adapter附加到特征提取器上,并利用k-NN从预构建的原型中检索3D知识。最后,我们线性插值从SN-Adapter和训练好的3D分类器同时产生的分类logits,通过这种方式,原始的3D网络可以在较小的额外成本下得到改进。通过实验分析,我们观察到增强效果是由训练好的3D分类器和我们的SN-Adapter之间的互补特性产生的:前者学习适应训练集,而后者揭示了3D原型之间的特征级相似性。通过实验证明,我们的SN-Adapter在经济上提高了性能,而无需重新设计或额外参数,并且可以有效地推广到各种3D任务,包括形状分类、部分分割和3D物体检测,展示了其优越性和鲁棒性。我们希望我们的方法能够为点云分析提供新的视角,并促进未来的研究。…12470特征0特征提取器03D分类器03D训练0数据集03D训练特征0总结0空间原型知识0样本原型0部分原型0物体原型0特征0特征提取器03D测试特征0SN-Adapter0� 最近邻0检索0插值0形状分类0部分分割03D物体检测0(a)原型的预构建:0(b)推理时间增强:0测试点云0图1.SN-Adapter的流程,分为两步:(a)和(b)。我们将已经训练好的深度神经网络分为特征提取器和3D分类器,其权重被冻结而不进行微调。在a)中,我们提取3D训练特征并构建空间原型知识。在b)中,我们引入SN-Adapter从任务特定的原型中进行k-NN检索,进行非参数增强。0通过大量实验证明,我们的SN-Adapter能够广泛提高现有方法在不同的3D任务上的性能,例如在ModelNet40[40]上的分类准确率提高了1.34%,在ShapeNet-Part[45]上的分割mIoU提高了0.17%,在ScanNetV2[7]上的检测AR提高了7.34%。我们的主要贡献总结如下:01.我们提出了SN-Adapter,一个通过k-NN辅助3D深度神经网络进行更好的点云分析的即插即用模块。02.通过从预构建的空间原型中检索知识,SN-Adapter能够在不添加任何参数或重新训练的情况下有效改进已经训练好的模型。03.我们在各种3D基准测试上进行了完整的实验,以证明我们方法的有效性和鲁棒性。02. 相关工作0用于3D点云的深度学习。基于点云的形状分类已经被PointNet [25],PointNet++[26]等广泛研究了合成数据[40]和真实世界数据[33]。部分分割[45]和场景分割[7, 29]需要进行个体化处理。0点云分类,通常的方法[21, 10, 35, 4,48]是在分类网络上扩展特征解码器以密集传播提取的特征。3D物体检测在自动驾驶[5, 23, 19]和机器人[28, 6,22]等领域有广泛的应用。我们的SN-Adapter可以推广到所有的3D任务,包括形状分类、部分分割和3D物体检测,展示了我们在点云分析方面的鲁棒性。0计算机视觉中的特征适配器。特征适配器是一个轻量级模块,用于高效地适应大规模预训练模型进行下游任务。受NLP中适配器的启发,CLIP-Adapter [12]和Tip-Adapter[46]使用CLIP引入了视觉适配器,用于少样本图像分类:冻结CLIP的预训练参数,只微调两层MLP的适配器。后续的研究成功地将适配器应用于图像字幕生成[30],多视图理解[47],目标检测[11],语义分割[27]和视频分析[37]等任务。与以前的工作相比,我们的SN-Adapter高效、非参数化,并且针对3D点云任务。我们利用k最近邻的思想来增强已经训练好的3D网络,而无需重新训练。Prob(c|f) =�pt∈Nc 1/d(f, pt)c∈Cpt∈Nc 1/d(f, pt),(3){lsegi}Ni=1 = {Θ(fi)}Ni=1;{fi}Ni=1 = Φ({pi}Ni=1),(4)12480最近邻算法。最近邻算法通过记忆训练数据并根据k个最近的训练样本(k-NN)预测标签。与神经网络相比,最近邻算法因其简单和高效而受到青睐。基于最近邻检索的模型能够为许多任务提供强大的基线,例如图像字幕生成[8,9],图像恢复[24],少样本学习[38]和表示学习[3,36]。除了计算机视觉,最近邻算法在某些语言任务中也起着重要作用,例如语言建模[14, 18]和机器翻译[17,32]。与上述领域不同的是,我们首次探索如何将现有的深度神经网络与最近邻算法相结合,用于3D点云分析,并提出了一种具有空间原型知识检索的SN-Adapter。03. 方法0在本节中,我们分别说明了我们提出的空间邻居适配器(SN-Adapter)如何改进三个3D任务:形状分类、部分分割和3D物体检测。03.1. 形状分类0任务描述。给定一个经过训练的用于分类的3D网络,我们理论上将其分为两部分:特征提取器Φ(∙)和3D分类器Θ(∙)。特征提取器将N个点的原始点云作为输入,并输出其C维全局特征f∈RC。然后,3D分类器将f映射为K个类别的分类logitslcls∈RK,表示每个类别的预测概率。我们将其公式化为:0lcls = Θ(f); f = Φ({pi}Ni=1). (1)0通常,Φ(∙)对于点的排列是不变的,通过池化操作捕捉全局特征,而Θ(∙)对应于网络的最后一个线性投影层。0样本级空间原型。对于形状分类,我们构建样本级空间原型,以检索每个测试点云的3D知识。首先,我们利用训练好的特征提取器Φ(∙)获取训练集中所有M个样本的全局特征,记为Fcls∈RM×C。由于每个训练样本只由一个全局向量表示,我们可以负担得起将所有M个特征Fcls存储为空间原型,以保留完整的先验3D知识,记为Protocls∈RM×C。为了进一步探索不同点云的空间分布,我们还通过对所有输入点的3D位置编码[34]进行平均来获得每个训练样本的全局位置向量,直接添加到特征向量中。0对Protocls进行线性插值。然后在推理过程中,我们提取测试点云的全局特征f,并线性插值3D分类器和我们的SN-Adapter预测的两个分类logits,公式如下:0lcls = Θ(f) + γ SN-Adapter(f, Proto cls), (2)0其中γ表示两个logits之间的相对权重。0SN-Adapter。与所有3D任务类似,SN-Adapter使用k-NN算法聚合k个最近的空间知识,并采用欧氏距离作为f和Protocls之间的距离度量。我们将检索到的k个最近的原型表示为N,类别集合表示为C。然后,logits中类别c∈C的预测概率计算如下:0其中Nc表示c类别的检索到的原型,d(f,pt)表示测试点云的特征f与原型pt之间的距离。03.2. 部分分割0任务描述。部分分割任务要求网络对输入点云中的每个点进行分类。Φ(∙)被开发为一个编码器-解码器架构,并输出所有N个点的提取特征{fi}Ni=1。我们将其公式化为:0其中lsegi∈RK表示第i个点的分类logits。这里,Θ(∙)对于每个点都是共享的,并将点特征映射为K个部分类别的logits。0逐部分空间原型。我们构建逐部分空间原型,以检索测试点云的每个单点的3D知识。考虑到需要为每个点进行分类逻辑回归,我们需要从M个训练样本中提取和记忆所有N个点的特征F作为典型知识。然而,存储Fseg ∈RM×N×C,更不用说k-NN检索,会导致负担过重。因此,对于每个训练样本,我们建议通过对相同部分类别的点进行平均池化来获得其部分典型特征,记为PartPooling(∙)。例如,一个椅子的点云被注释为三个部分:腿、座位和靠背。然后,我们只需要为这个训练样本存储三个典型特征,其维度为R3×C。在预构建之后,我们获得了用于部分分割的空间典型知识Proto seg。Protoseg = Part Pooling(F seg) ∈ RM×P ×C,(5){lsegi}Ni=1 = {Θ(fi)+ γSN-Adapter(fi, Protoseg)}Ni=1.(6){ldeti}Oi=1 = {Θcls(fi)}Oi=1;{pdeti}Oi=1 = {Θpos(fi)}Oi=1;{fi}Oi=1 = Φ({pi}Ni=1),(7)Protodet = F det + PE(P det) ∈ RM×O×C,(8)���72���36���68���10���1{ldeti}Oi=1 = {Θcls(fi)(9)+ γSN-Adapter(fi + PE(pdeti), Protodet)}Oi=1.12490空间高效且与Proto cls的顺序相同,表示为0其中P是数据集中对象的最大部分类别数,不超过ShapeNet-Part [45]中的六个。在推断过程中,在提取特征{ f i } N i=1后,我们将两个分类logits组合为测试点云的每个N点,表示为03.3. 3D对象检测0任务描述。以场景级点云作为输入,3D对象检测器学习在3D空间中定位和分类对象。检测器首先利用Φ(∙)提取场景级3D特征,并为每个对象提议组合特征,表示为{ f i } O i=1,其中f i ∈ RC,O表示场景中的提议对象数量。然后,采用多个并行的基于MLP的头部来预测每个对象提议的类别、3D位置和其他属性。我们将主要过程表示为0其中Θ cls(∙)和Θ pos(∙)负责预测分类logits l det i ∈ RK和3D位置p det i ∈ R3,它们对所有对象提议都是共享的。之后,应用非最大抑制(3DNMS)来丢弃3D空间中的重复预测,这对于最终的评估指标非常重要。0对象级空间原型。我们构建对象级空间原型,以检索测试点云中每个对象提议的3D知识。我们首先利用训练好的3D检测器获取所有训练样本的提取对象特征和预测的3D位置,表示为F det,P det ∈ R M × O ×3。在此基础上,我们采用基于三角函数的位置编码[34]将Pdet嵌入到F det中,并将它们添加到F det上。这为Fdet提供了足够的对象3D位置信息,并促进了SN-Adapter的k-NN检索。然后,我们计算3D对象检测的空间原型知识,如下所示:0其中PE表示位置编码函数。0图2.不同类别的PointNet、SN-Adapter和插值模型的比较。我们展示了ModelNet40 [40]上40个类别的整体准确率(OA)。0PointNet SN-Adapter 插值数量0表1.个体模型产生不同预测的样本数量统计。�和�分别表示正确和错误的预测。0在推断过程中,对于每个对象提议,我们通过位置编码获取其预测的f i、l det i、p deti,并以相同方式聚合它们。SN-Adapter从最近邻中检索空间知识,并增强由Θ cls预测的分类logits,表示为0我们的SN-Adapter在3D NMS操作之前插入,可以纠正Θcls所做的一些“错误”分类,并有效避免“真实”边界框的移除。04. 分析04.1. 定量分析0在这里,我们以PointNet [25]在ModelNet40[40]上进行形状分类为例。首先,我们在图2中展示了单独的PointNet的3D分类器和SN-Adapter与插值模型的性能比较:插值模型在大多数类别上实现了更高的准确性。尽管SN-Adapter在某些类别上表现比学习的3D分类器差得多,但通过插值可以逆向增强以实现更好的3D分类器。具体而言,我们展示了插值预测的统计数据,其中3D分类器和SN-adapter的个体预测不一致。如表1所示,当-1.14-3.75430.28570.38101.3344BenchTableTV-stand-0.4232-0.6529-0.74270.42860.5238-6.40590.04763.05433.7883-5.9940-6.1044-2.9062-0.06640.04760.66670.2857-5.69252.86052.40500.1429PianoDesk-0.4591+Night-standTable+Table0.8125TV-stand12500PointNet SN-Adapter0插值0PointNet SN-Adapter 插值 PointNet SN-Adapter 插值0γ=8.65 γ=8.650(b) (a) (c)0图3.PointNet、SN-Adapter和插值模型的分类logits。我们报告softmax函数之前logits的数值结果,并用不同颜色表示不同的类别。我们用一个框标记具有最高值的类别,并用一个勾号标记真实类别。0原始的PointNet是错误的,但是SN-Adapter是正确的,我们的SN-Adapter可以纠正近90%(68/(68+10))的预测。更令人惊讶的是,我们观察到,即使PointNet和SN-Adapter都是错误的,插值模型仍然能够得到正确的结果,这表明了学习的3D分类器和空间原型之间的隐含互补知识。为了进一步说明SN-Adapter的互补性,我们展示了在SN-Adapter纠正PointNet错误预测的情况下,预测的分类logits。如图3(a)所示,PointNet对“night-stand”和“table”的预测值接近,表明PointNet很难区分它们。相反,SN-Adapter可以在这两个类别之间产生更具区分性的值,并通过具有较大权重γ的集成来解决PointNet的模糊性。对于图3(b),当PointNet自信地预测错误的类别时,我们的SN-Adapter可以通过正确类别的置信度将最终预测调整回正确的轨道。图3(c)显示了当它们的预测都是错误的时候,SN-Adapter的插值仍然能够对正确答案做出贡献。04.2. 定性分析0为什么k-NN检索对于点云分析有效?首先,由于数据采集的困难,3D领域缺乏大规模高质量的训练数据集,现有方法只能从有限的样本中学习。在这种情况下,代表性的3D原型变得更加重要,因为原型的构建不过度依赖数据分布,并且能够很好地代表一个类别的典型特征。相比之下,深度神经网络的3D分类器在训练数据的长尾分布下遇到了很大的困难。也就是说,当某些类别的3D样本在训练过程中不足时,可学习的分类器不会形成对这些不寻常类别的预测偏好,并且无法在测试中识别它们。基于空间原型的k-NN检索能够通过相似性克服这个问题。0通过基于相似性的检索,SN-Adapter能够克服类别不平衡问题,这几乎不依赖于训练数据的数量。04.3. 理论分析0我们从学习嵌入空间的角度出发,说明了SN-Adapter如何提升学习深度神经网络的能力。SN-Adapter的k-NN算法能够将预先构建的空间原型关联在紧密的邻近位置。这些相邻的原型通常具有相同的真实标签并且共享相似的语义知识。从空间上看,整个3D空间可以被划分为许多离散的球形区域。我们将嵌入空间中的一个球形区域定义为Nϵ(x)={x′||x′−x||2≤ϵ},其中x表示球心,ϵ表示半径。SN-Adapter的目标是基于测试点云的提取特征来检索聚类,并从中获取代表性的知识。0为了获得更好的检索性能,每个球形中心都倾向于具有足够纯净的球形区域。换句话说,代表性原型的信息应该足够有说服力,可以表达为�x′∈Nϵ(x),gt(x′)=gt(x),其中gt(∙)表示真实标签。然后我们定义C(Nϵ)和P(Nϵ)作为所有球形区域的覆盖率和纯度。最优的C(Nϵ)希望ϵ足够大以覆盖整个空间,而纯度要求ϵ足够小以包含尽可能少的偏离原型。因此,我们需要考虑覆盖率和纯度之间的权衡。形式上,我们希望获得满足ϵ�=max{ϵ:P(Nϵ)≥α}的特定ϵ,其中α作为P(Nϵ)的阈值,也是帮助增加C(Nϵ)的最大函数。在我们的实验中,我们没有明确设置值α,而是隐式地利用适当数量的k个最近邻来获得更好的检索典型知识的权衡。12510方法 OA (%) mAcc (%) k0PointNet [25] 89.34 85.79 -0+ SN-Adapter 90.68 86.47 210PointNet++ [26] 92.42 89.22 -0+ SN-Adapter 93.48 90.00 770DGCNN [39] 92.18 89.10 -0+ SN-Adapter 92.99 89.70 240PCT [15] 93.27 89.99 -0+ SN-Adapter 93.56 90.17 1100CurveNet [42] 93.84 91.14 -0+ SN-Adapter 94.25 91.50 20表2. 在ModelNet40 [40]数据集上的形状分类。0方法 OA (%) mAcc (%) k0PointNet [25] 68.2 63.4 -0+ SN-Adapter 70.1 64.2 1280SpiderCNN [44] 73.7 69.8 -0+ SN-Adapter 74.4 70.5 680PointNet++ [26] 77.9 75.4 -0+ SN-Adapter 79.2 76.2 160DGCNN [39] 78.1 73.6 -0+ SN-Adapter 78.9 74.0 1400PointMLP [2] 85.7 84.0 -0+ SN-Adapter 86.3 84.6 50表3. 在ScanObjectNN [33]数据集上的形状分类。05. 实验05.1. 形状分类0设置 我们在两个广泛采用的形状分类数据集ModelNet40[40]和ScanObjectNN[33]上评估我们的SN-Adapter。我们选择几种代表性的方法,并在它们之上附加SN-Adapter:PointNet[25],PointNet++ [26],SpiderCNN [44],DGCNN[39],PCT [15],CurveNet [42]和PointMLP[2]。我们将最后一层线性层设置为Θ( ∙),并将所有前面的层设置为Φ( ∙)。采用整体准确率(OA)和类平均准确率(mAcc)作为评估指标。请注意,由于我们的SN-Adapter不需要训练时间,我们利用简单的循环在几分钟内搜索最佳的k。0性能在表2和表3中,我们分别展示了SN-Adapter在这两个数据集上的增强结果。在合成数据集ModelNet40[40]上,PointNet++的mAcc提升了+1.06%,超过了更复杂的DGCNN的+1.30%。在真实世界数据集ScanObjectNN[33]上,SN-Adapter显示出对训练网络更强的互补特性,将PointNet的OA提升了1.9%,将PointNet++提升了0方法 mIoU I (%) k0DGCNN [39] 85.17 -0+ SN-Adapter 85.26 220PointNet++ [26] 85.40 -0+ SN-Adapter 85.47 10PointMLP [2] 85.69 -0+ SN-Adapter 85.86 1 CurveNet[42] 86.58 -0+ SN-Adapter 86.69 640表4. 在ShapeNetPart [45]上的部分分割。0方法 AP 25 (%) AR 25 (%)0VoteNet [10] 57.84 80.920+ SN-Adapter 58.46 83.7403DETR-m [21] 64.60 77.220+ SN-Adapter 65.16 84.560表5. 在ScanNetV2 [7]上的3D物体检测。0+1.3%OA。对于最先进的PointMLP,我们的SN-Adapter将其OA提高了+0.6%,mAcc提高了+0.6%。05.2. 部分分割0设置 对于部分分割,我们在ShapeNetPart[45]数据集上测试我们的SN-Adapter,并选择了四个基准模型:DGCNN [39],PointNet++ [26],PointMLP[2]和CurveNet[42]。我们遵循其他设置与形状分类实验相同,并报告数据集中所有实例的平均IoU,表示为mIoU I。0性能 由于部分分割基准已经饱和,即使对于mIoUI的轻微改进也值得一提。在表4中,我们观察到PointMLP相对于Curvenet的+0.11%和DGCNN的+0.09%,mIoUI的最大改进为+0.17%。这表明更强的特征编码器Φ( ∙)有助于更好地检索SN-Adapter的部分原型。05.3. 3D物体检测0设置对于ScanNetV2 [7]上的3D物体检测,我们选择VoteNet[10]和3DETR-m[21]作为基准模型来测试我们的SN-Adapter。我们将基于MLP的分类头部设置为Θ( ∙ ),将场景级特征提取器设置为Φ( ∙)。SN-Adapter插入在Θ( ∙ )之后和3DNMS之前。我们报告在0.25 IoU阈值下的平均精度(AP25)和平均精度(AR25)。为了时间效率,两个检测器的超参数k简单地设置为32。12520图4. 插值比例γ的消融研究。0度量PointNet DGCNN CurveNet0曼哈顿 90.36 92.63 94.00 切比雪夫 88.2992.26 93.56 海明 88.37 92.22 93.72 坎贝拉90.07 91.82 93.92 布雷柯蒂斯 90.24 92.4694.04 欧几里得 90.68 92.99 94.250表6. SN-Adapter在ModelNet40[40]数据集上的不同距离度量的整体准确率(OA)(%)。0性能表5展示了SN-Adapter增强的检测性能。对于AR25,我们在VoteNet上显著提高了+2.82%,在3DETR-m上提高了+7.34%。这表明空间原型知识可以有效避免在3D空间中移除虚假重复的边界框。更具体地说,一些空间上相邻的边界框,它们具有错误相似的分数并且应该被3DNMS移除,可以被纠正并保留为输出。05.4.消融研究0主要超参数我们在这里进行了关于两个超参数的消融研究:γ和k。我们采用带有SN-Adapter的PointNet[25]并在ModelNet40[41]上进行形状分类实验。如图4所示,当γ从0变化到50时,SN-Adapter的增强在8左右达到峰值,但在10之后变得有害。这表明SN-Adapter在过大的比例下会对基准模型产生不利影响,并且需要适当的插值比例来最佳地引入空间原型知识。图5中的结果显示,当k足够大(超过80)时,我们的SN-Adapter对k不太敏感,已经涵盖了对最终分类最有贡献的原型。0检索的距离度量。SN-Adapter的不同距离度量影响最近空间的检索0图5. 最近邻居数量k的消融研究。0PE池化PointNet PointNet++ PCT0- - 90.11 93.19 93.52 Fourier Avg. 89.99 93.11 93.52Fourier Max. 89.95 93.23 93.48 Sin/cos Avg. 90.0393.48 93.56 Sin/cos Max. 90.68 93.15 93.480表7.SN-Adapter的不同位置编码(PE)和池化操作在ModelNet40[40]数据集上的整体准确率(OA)(%)。'Fourier'和'Sin/cos'分别表示傅里叶和三角编码函数[21]。第一行表示没有任何位置编码的SN-Adapter。0原型,进一步导致对基准模型的不同性能提升。我们评估了在ModelNet40[41]上进行形状分类的SN-Adapter,并采用了三个基准模型:PointNet [25],DGCNN [39]和CurveNet[42]。如表6所述,对于这三个基准模型,欧几里得距离表现更好,可以更好地揭示3D空间中的点分布。0位置编码。对于形状分类,我们为样本级别的Protocls配备全局位置向量,以保留点的空间分布。在表7中,我们探索了获得这些向量的最佳方法,涉及编码函数和池化操作。我们评估了三个基准模型:PointNet[25],PointNet++ [26]和PCT [15],用于在ModelNet40[41]上进行形状分类。如报告所述,'Sin/cos'编码函数具有更多优势,可以为'SN- Adapter withoutPE'带来有利的性能提升。03D物体检测我们在经过训练的物体检测器中在3DNMS之前插入我们的SN-Adapter,并使用位置编码总结物体级原型。我们在这里探索插入位置和位置编码的有效性。在表8中,我们选择3DETR-m [21]作为我们在ScanNetV2[7]数据集上的基线。12530v0(a) CurveNet0(b) 使用SN-Adapter0图6. 在ShapeNetpart [45]数据集上,使用CurveNet[42]作为基线模型的部分分割,展示了没有(a)和有(b)我们的SN-Adapter的可视化结果。我们通过红色圆圈突出显示差异(放大以获得更好的视图)。0方法 AP 25 (%) AR 25 (%)03DETR-m 64.60 77.22 3DETR-m + SN-Adapter65.16 84.56 3D NMS之后 64.62 78.19没有位置编码 65.02 83.480表8. SN-Adapter在ScanNetV2[7]上进行3D物体检测的消融研究。对于最后两行,我们分别在3DNMS之后插入SN-Adapter,并丢弃位置编码。0我们在ScanNetV2[7]数据集上的基线。如图所示,如果在3DNMS之后,SN-Adapter无法带来显著的提升,因为经过NMS筛选的剩余3D框已经是检测器最有信心的框。此外,混合位置编码可以提高SN-Adapter的性能,以引入更多的位置知识到原型中。0SN-Adapter的额外成本。除了提高分数外,我们还探索了我们的SN-Adapter是否会对基线模型造成过多的时间和内存成本。我们使用单个RTX 3090GPU进行测试,批量大小为64,并选择两个基线模型:ModelNet40 [40]上的形状分类的DGCNN[39]和ShapeNetPart [45]上的部分分割的CurveNet[42]。如表9所示,我们的非参数SN-Adapter可以在不重新训练的情况下实现卓越的性能成本折衷,以增强已经训练过的网络。05.5. 可视化0在图6中,我们展示了在ShapeNetPart [45]数据集上使用CurveNet[42]进行部分分割的结果,包括使用和不使用我们的SN-Adapter。如图所示,我们的SN-Adapter0方法 分数(%) 延迟 内存0DGCNN 92.18 0.022秒 9.74 GiB0+ SN-Adapter 92.99 0.046秒 10.06 GiB0CurveNet 86.58 0.607秒 10.93 GiB0+ SN-Adapter 86.69 0.834秒 11.50 GiB0表9. SN-Adapter对时间和内存的额外成本。我们在单个RTX 3090GPU上进行测试,批量大小为64,并报告DGCNN/CurveNet的OA/mIoU I。0主要改善位于不同物体部分连接区域的点的分割。这些点通常包含深度神经网络学习的3D分类器的两个物体部分的语义知识,并且会使其混淆。相反,我们的SN-Adapter可以通过从原型中检索来获得更好的部分判别能力,从而缓解这个问题。06. 结论0我们提出了空间邻居适配器(SN-Adapter),这是一个可插拔的增强模块,可用于现有的3D网络,无需额外的参数和重新训练。SN-Adapter利用k个最近邻来检索空间知识,并通过提供互补特征有效地增强3D网络。限制。尽管我们的SN-Adapter可以推广到各种任务,例如形状分类、部分分割和3D物体检测,但对于部分分割,性能提升相对较低。我们的未来工作将专注于设计更先进的部分级原型,以获得更好的分割结果。[2] Anonymous. Rethinking network design and local geometryin point cloud: A simple residual MLP framework. In Sub-mitted to The Tenth International Conference on LearningRepresentations, 2022. under review.[3] Mathilde Caron, Hugo Touvron, Ishan Misra, Herv´e J´egou,Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerg-ing properties in self-supervised vision transformers.InProceedings of the IEEE/CVF International Conference onComputer Vision, pages 9650–9660, 2021.[4] Jingdao Chen, Zsolt Kira, and Yong K Cho. Deep learningapproach to point cloud scene understanding for automatedscan to 3d reconstruction.Journal of Computing in CivilEngineering, 33(4):04019027, 2019.[5] Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, and Tian Xia.Multi-view 3d object detection network for autonomousdriving. In Proceedings of the IEEE conference on ComputerVision and Pattern Recognition, pages 1907–1915, 2017.[6] Nikolaus Correll, Kostas E Bekris, Dmitry Berenson, OliverBrock, Albert Causo, Kris Hauser, Kei Okada, Alberto Ro-driguez, Joseph M Romano, and Peter R Wurman. Analysisand observations from the first amazon picking challenge.IEEE Transactions on Automation Science and Engineering,15(1):172–188, 2016.[7] Angela Dai, Angel X Chang, Manolis Savva, Maciej Hal-ber, Thomas Funkhouser, and Matthias Nießner. Scannet:Richly-annotated 3d reconstructions of indoor scenes.InProceedings of the IEEE conference on computer vision andpattern recognition, pages 5828–5839, 2017.[8] Jacob Devlin, Hao Cheng, Hao Fang, Saurabh Gupta,Li Deng, Xiaodong He, Geoffrey Zweig, and MargaretMitchell. Language models for image captioning: The quirksand what works. arXiv preprint arXiv:1505.01809, 2015.[9] Jacob Devlin, Saurabh Gupta, Ross Girshick, MargaretMitchell, and C Lawrence Zitnick.Exploring nearestneighbor approaches for image captioning. arXiv preprintarXiv:1505.04467, 2015.[10] Zhipeng Ding, Xu Han, and Marc Niethammer. Votenet: Adeep learning label fusion method for multi-atlas segmenta-tion. In International Conference on Medical Image Com-puting and Computer-Assisted Intervention, pages 202–210.Springer, 2019.[11] Yu Du, Fa
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- JavaScript DOM事件处理实战示例
- 全新JDK 1.8.122版本安装包下载指南
- Python实现《点燃你温暖我》爱心代码指南
- 创新后轮驱动技术的电动三轮车介绍
- GPT系列:AI算法模型发展的终极方向?
- 3dsmax批量渲染技巧与VR5插件兼容性
- 3DsMAX破碎效果插件:打造逼真碎片动画
- 掌握最简GPT模型:Andrej Karpathy带你走进AI新时代
- 深入解析XGBOOST在回归预测中的应用
- 深度解析机器学习:原理、算法与应用
- 360智脑企业内测开启,探索人工智能新场景应用
- 3dsmax墙砖地砖插件应用与特性解析
- 微软GPT-4助力大模型指令微调与性能提升
- OpenSARUrban-1200:平衡类别数据集助力算法评估
- SQLAlchemy 1.4.39 版本特性分析与应用
- 高颜值简约个人简历模版分享
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功