没有合适的资源?快使用搜索试试~ 我知道了~
快速点式Transformer:处理大规模3D场景的轻量级自关注网络
16949快速点式TransformerChonghyun Park Yoonwoo Jeong Minsu Cho Jaesik Park POSTECHGSAI CSEhttp://cvlab.postech.ac.kr/research/FPT(a)3D物体检测(b)3D语义分割图1. Fast Point Transformer可以使用局部自注意机制处理大规模场景。与Point Transformer [49]不同,我们的方法可以一次性推断场景,而无需搜索逐点邻居。我们的网络的平均推理时间为每个场景0.14秒,在S3DIS数据集上进行3D语义分割时比PointTransformer快129倍[2]。摘要最近神经网络的成功使得能够更好地解释3D点云,但是处理大规模3D场景仍然是一个具有挑战性的问题。大多数当前的方法将大规模场景划分为小区域,并将局部预测组合在一起。然而,该方案不可避免地涉及用于预处理和后处理的附加阶段,并且还可能由于局部视角中的预测而使最终输出降级。本文介绍了Fast Point Transformer,它由一个新的轻量级自关注层组成。我们的方法编码连续的3D坐标,和体素散列为基础的架构提高计算效率。该方法是演示与三维语义分割和三维检测。我们的方法的准确性与最好的基于体素的方法相比具有竞争力,我们的网络的推理时间比最先进的Point Trans- former快129倍,并且在S3 DIS数据集上的3D语义分割中具有合理的准确性1. 介绍3D场景理解由于其对各种领域(诸如机器人、智能机器人、生物医学等)的代理和AR/VR。最近的方法[6,10,22,26,27,34,37]利用了深度学习框架,但整体处理大规模3D场景仍然是一个具有挑战性的问题,因为它涉及大量的计算和内存预算。作为替代方案,一些方法裁剪3D场景并缝合预测[18,26,27,34,35,41],或其他方法。效率的近似点坐标[6,10,23,50]。然而,由于局部或近似预测,这样的技术通常导致推理时间的显著增加和/或使最终输出降级因此,实现快速推理时间和高精度两者是3D场景理解任务中的主要挑战之一。开创性的3D理解方法,Point-Net [26]和PointNet++[27]用多层感知器(MLP)处理点云,这保留了点云的排列不变性。这种基于点的方法最近引入了令人印象深刻的结果[22,37],并且Point Transformer [49]基于局部自注意机制显示出优异的准确性。然而,它涉及使用k最近邻搜索的点云的手动分组。此外,使用基于点的方法的场景级推断通常需要将大规模场景划分虽然基于体素的方法[1,6,10,13,19,23,24,36,50]是大规模3D场景理解的替代方案,但由于16950O对于网络设计的有效性,由于量化伪像,它们可能丢失精细的几何图案混合方法[21,33,34]通过利用点级和体素级特征两者来然而,这类方法需要额外的存储器空间来高速缓存这两个特征。我们提出了快速点Transformer,它有效地编码大规模点云的连续位置信息我们的方法利用点云的局部自我注意[29,38]与体素散列架构。为了实现更高的准确性,我们提出了质心感知体素化和devoxelization技术,保持连续坐标的嵌入。所提出的方法减少了量化的文物,并允许密集的预测的一致性,而不管刚性变换。我们还引入了一个标准的局部自注意方程的重新表述,以进一步降低空间复杂度。所提出的局部自注意模块可以代替卷积层用于3D场景理解。在此基础上,我们引入了一个基于局部自注意的U型网络,它自然地建立了一个特征层次结构,而无需手动分组的点云。因此,Fast Point Transformer收集了丰富的几何表示,即使对于大规模场景也能快速推理。我们使用两个大规模场景的数据集进行实验:S3DIS[2]和ScanNet [7]。我们的方法显示出竞争的准确性,在语义分割任务的各种体素散列配置。我们还应用FastPoint Transformer网络作为VoteNet的骨干[25],以显示3D对象检测任务的适用性我们使用ScanNet [7]数据集进行3D检测,并且我们的模型显示出比使用基于点或体素的网络主干的其他基线更好的准确度(mAP)。此 外 , 我 们 还 引 入 了 一 种 新 的 一 致 性 评 分 度 量CScore,并证明了我们的模型在刚性变换下输出了更多的一致性预测。概括而言,我们的贡献如下:1. 我们提出了一种新的局部自注意网络,称为快速点Transformer,可以快速处理大规模的三维场景。2. 我们引入了一个轻量级的本地自我注意模块,有效地学习连续的位置信息的3D点云,同时降低空间复杂性。3. 我们表明,我们的模型产生了显着更连贯的预测比以前的基于体素的approaches使用建议的评价指标。4. 我们展示了我们的基于体素散列的架构的快速推理;我们的网络执行的推理比Point Transformer快129倍,在S3 DIS数据集上的3D语义分割中获得了合理的精度折衷[2]。2. 相关工作在本节中,我们将回顾用于3D场景理解的基于点的、基于体素的和混合的方法,然后重新访问基于注意力的模型。基于点的方法。PointNet [26]介绍了一种基于多层感知器(MLP)的方法来理解3D场景。 PointNet++ [27]通过添加分层采样策略改进了PointNet [26]。最近的研究尝试在点云上应用卷积,因为Point- Net++[27]中使用的几何局部采样和分组机制可以通过卷积表示然而,在点云上应用卷积是具有挑战性的,因为3D点是稀疏和无序的。KPConv [37]使用连续空间中定义的核点来他们构造一个k-d树,在推理阶段对一定半径内的查询点进行逐点Mao等人[22]采用离散卷积核而不是连续核来提高效率,并对点云中的每个点执行最近,Guo etal.[11]和Zhao et al.[49]利用局部自注意操作来学习比固定的基于核的方法更丰富的特征表示[22,37]。事实上,大多数基于点的方法[11,22,26,27,37,49]采用昂贵的操作,例如k最近邻搜索或k-d树构造,导致计算量过大,在处理大规模3D场景时,基于体素的方法。 稀疏卷积[6,10]使用离散稀疏张量构建完全卷积神经网络,用于快速处理体素数据。稀疏卷积对使用具有恒定时间复杂度的散列表有效找到的所有有效相邻体素执行卷积,即,(一). Mao等人。[23]提出了一种基于体素的Transformer架构,该架构采用局部注意力和扩张注意力来扩大模型的感受野。尽管基于体素的工作在大规模点云上是有效的,但由于体素化过程中产生的量化伪影,它们通常无法捕获点云的精细图案换句话说,通过基于体素的方法提取的特征相对于体素大小是不一致的[46]。混合方法。处理点云的另一种方法是提取点级和体素级特征两者。最近的工作[21,33,44,45]附加基于点的层,例如,mini-PointNet,在基于体素的方法之上,以减轻体素化过程中产生的量化伪影。它们利用了基于体素的方法的快速邻域搜索和基于点的方法的高捕获精细几何的能力然而,混合方法遭受更大的计算和存储器预算,因为这些ap-proaches存储点和体素级别的功能。基于注意力的网络 讨论关于-近年来,张力操作在研究中占16951∈›→V{}ΣMiini-第i个体素,以及μ:n=1i=1i=1i=1n=1P {}P {}V{}V{}图2. 整体架构。我们说明了拟议的快速点Transformer的整体架构。红色点是输入点及其特征,紫色点是输出点及其特征。彩色正方形是通过体素化产生的非空体素蓝色和绿色点是具有其特征的非空体素的质心。在自然语言处理[8,28,39]。此外,再-[3,9,12,43]曾试图利用注意力模型的优势。以往的研究普遍证实,由于其昂贵的操作,全局自我注意是不可行的,被采用在3D视觉任务。因此,最近的工作[11,23,49]广泛利用局部自注意力[3,29,38]来处理3D点云。 Guo et[11]和Zhao et al.[49]使用k近邻搜索处理点云的不规则性,从而获得显著的性能增益。3. 快速点式Transformer3.2. 质心感知的体素去体素化质心感知体素化。让我们考虑输入点云in=(pn,in)。我们体素化的输入点快速和可扩展的查询。输出体素表示为=(vi,fi,ci).我们引入了一种新的质心到点的位置编码enRDenc,以减轻体素化过程中的几何信息损失。对于编码层δenc:R3RDenc,质心到点位置编码en定义如下:en=δenc(pn−ci=µ(n)),(1)其中质心c=1p,(i)是an∈M(i)3.1. 概述t h内点指数集|Me(i)|N›→ N是FastPoint Transformer通过三个步骤处理点云:(步骤1)质心感知体素化,(步骤2)轻量级自我注意,以及(步骤3)质心感知去体素化。图2显示了总体架构。(步骤1)设in=(pn,in)N为输入点云,其中pn为第n个点坐标,in为pn的任何原始输入特征,例如,点的颜色。为了提高计算效率,我们的方法将Pin体素化为V={(vi,fi,ci)}I,一组元组。每个元组包含从点索引n到其对应的体素指数i.我们定义体素特征fi∈RDin+Denc其中输入点特征in∈RDin和编码en:fi=<$n∈M(i)(in<$en),(2)其中n表示向量连接并且n是置换变量运算符,例如,average(·).我们指出,一些基于体素的方法[31,32,45]引入重心插值来将fi嵌入规则网格第i个体素坐标vi、体素特征fi和体素质心坐标Ci.我们引入了一个质心感知体素化过程,利用可学习的位置嵌入en之间的第n个点和它的体素质心,以尽量减少从量化过程中的(Step2)轻量级自我注意(LSA)块=(vi,fi,ci)I,并使用局部自注意将特征fi更新为输出特征fi′。在该过程中,查询相邻体素可以利用对于单个查询具有O(1)复杂度的体素散列来完成(步骤3)来自关注块的输出体素′=(vi,fi′,ci)I被去体素化为输出点云Pout={(pn,on)}N,其中on是输出点v1表示体素化。所提出的质心感知体素化与那些方法的不同之处在于,它在连续的质心坐标ci处将质心到点的位置编码成fi。所提出的质心感知体素化也不同于其他类别的基于体素的方法[6,10,23],其应用平均或最大池体素特征而不使用点的体素内坐标。质心感知去oxelization。由于质心到点位置编码en具有关于pn和ci之间的相对位置的有用信息,我们可以提出质心感知去像素化过程。给定输出体素V={(vi,fi′,ci)}与输出体素特征fi′ ∈RDout,所提出的质心感知去像素化功能.我们建议使用可学习的位置嵌入以将逐体素特征适当地分配给连续3D点,以获得精确的点级特征。质心感知去oxelization轻量级自我关注块质心感知体素化16952流程如下:on= MLP(fi′=μ(n)n),(3)16953n=1i=1VOON−−−O-哦−O−−O−-∈OO−我我我 JJ我Σ其中on∈RDout是输出点云Pout={(pn,on)}的第n个输出点特征,MLP(·):RDout+Denc<$→RDout表示多层感知器。3.3. 轻量级自我关注质心上的局部自我注意。 一旦输入点云Pin ={(pn,in)}N被变换成vox的集合el V={(vi,fi,ci)}I,我们可以应用局部自我注意力机制[29,47,51]。在这个过程中,我们可以通过体素散列快速查询相邻的体素,这需要(N)的复杂度。注意,基于点的方法[41,49]需要使用具有(NlogN)的复杂度的k个最近邻搜索来构建邻居,这对于处理大规模点云来说变得繁重给定由(i)表示的ci的局部邻居索引,ci上的局部自注意可以用公式表示如下:图3. 相对位置的分解。注意,我们使用连续位置编码δ ab s(c ivi)将输入体素特征fi变换为质心感知体素特征gi。f′=0a(f,δ(c,c))<$(f),(4)给定,Eq.(4)和(5),我们看到,局部自我注意力使用连续位置编码δab s(civi)和输入体素特征fi。因此,当地的自我关注管道其中f′是输出特征,a(fi,δ(ci,cj))是下式的函数:具有质心感知属性,可以减少量化iD伪影。 基于这些见解,我们建议使用使用位置编码的注意力权重δ(ci,cj)∈R聚集特征g=f+δ(c−v),并将其命名为而x2是值投影层。质心感知iiabs我我虽然体素散列使得单个查询的时间复杂度为O(1)的快速邻居搜索成为可能,但设计体素特征我们用δrel(vi−vj)计算注意力权重,连续位置编码δ(ci,cj)仍然是一个具有挑战性的问题。具体来说,受Point Transformer [49]中的MLP(pi−pj)的启发,im-fi′=a(gi,δre l(vi−vj))<$(gj).(六)j∈N(i)将δ(ci,cj)补成MLP(cicj)要求(IKD)空间复杂度,其中K是相邻体素的基数。这是因为由于c的连续性,对于可能的(i,j)对,可能存在(cicj)的(IK)不同相对位置,如图3所示。降低空间复杂度。我们引入了一种坐标分解的方法,以降低空间复杂度。给定查询体素(v,f,c)和关键体素(v,f,c),我们在图3中说明了空间复杂度的降低,并在补充材料的表A4和表A5中评估了分解的有效性轻量级自我关注层。现在,我们提出了新的局部自注意层,命名为LSA层,通过定义注意力函数a(·)在等式(6)作为i我 我jJJf′=0(gi)·δrel(vi−vj)(七)∥ϕ(gi) ∥∥δrel(vi−vj)∥ci− cj=(ci− vi)−(cj− vj)+(vi−vj)。(五)等式(5),我们可以将消耗内存的δ(ci,cj)分解为 两种 位置 编码 : ( 1 ) 连 续 位 置 编 码 δabs ( civi)由于c的连续性,其空间复杂度为(ID),以及(2)离散位置编码δre l(vivj)其空间复杂性为(KD)。δrel(vivj)是存储效率高的,因为(v iv j)只能有K个不同的离散化相对位置R 3对于所有可能的(i,j)对。另外,这是由于K显著小于v〇 x el的数目I的事实。δabs(cjvj)在Eq. (5)不增加任何额外的空间复杂度,因为我们已经有了δabs(civi)foreveryvo x el. 结果,δ(ci,cj)的空间复杂度从(IKD)下降到(ID+KD),如图3所示。j∈N(i)质心ci-cj的相对位置可以分解为:Jj∈N(i)腐烂。广播:体素的数量:最大值。邻居数:编码维度16954·|N||N|··V−−值得注意的是,LSA层使用了δ re(gi)和δrel(vi)之间的余弦相似性vj ) 。而不 是使用softmax(<$(gi)<$δrel(vivj)),余弦相似性可以有效地处理输入体素的稀疏性问题。例如,如果我们使用softmax()和(一)为1。在这种情况下,softmax()将注意力权重归一化为1。0,可以使LSA层成为一个简单的线性 层 。 此 外 , 当 LSA 层 查 询 本 地 邻 居 索 引 时 ,(一)从1到相邻体素的数量变化。因此,对于处理不同数量的体素,余弦相似性比softmax()更自然,如表6所示。LSA层的动力学(等式1)(7))使用质心感知特征δ re(gi)和rel-at iv evo x el特征δre l(vi-vj)生成权重。该设计使LSA16955--在ΣΣ·P PTPTSΣ···层在刚性变换下学习比基于稀疏卷积的方法[6]更相干的表示,如表1所示,并且在各种任务上优于稀疏卷积(例如,3D语义分割、3D对象检测),如表2、表3和表8所示。我们还实验表明,从方程。(4)Eq. (6)工作合理(如表5和表6所示),并引入额外的效率(如表2所示)。3.4. 网络架构在此基础上,我们开发了快速点转换器(Fast PointTransformer),用于点云数据的密集预测使用坐标散列(Sec. 3.2)和分解的位置编码(第3.2节)。3.3),快速点Transformer比以前的基于体素的方法更不容易产生量化误差[6,10,23],同时在空间和时间方面也比基于点的方法[41,49]快得多。此外,所提出的局部自关注层可以容易地集成到基于体素的下采样和上采样层,而不引入通常在基于点的方法中使用的启发式采样和分组机制[27,41,49]。注意,我们可以通过用LSA层代替卷积层来构建局部自注意网络.因此,可以修改任何稀疏CNN架构以促进局部自注意,例如,[14][15][16][17][18]我们使用U-Net [30]架构实现我们的语义分割模型补充材料中描述了更多4. 实验在本节中,我们将在两个流行的大规模3D场景数据集上评估我们的模型:S3DIS [2]和ScanNet [7]。我们选择了这两个数据集,因为它们具有丰富的多样性和密集的注释标签。我们首先验证我们的方法的鲁棒性,体素散列配置中描述的第二节四点三。然后,我们比较所提出的方法与最先进的状态和讨论的结果在第二。4.4和Sec.四点五分。逐点RGB颜色作为3D语义分割任务和3D目标检测的输入点特征。4.2. 基线我们选择了PointNet [26],PointWeb [48],SP- Graph[17],PointConv [40],PointASNL [42],KP-Conv [37] 、 PAConv [41] 、 Point Transformer [49] 、SparseCon- vNet [10] 和 MinkowskiNet [6] 作 为 基 线 方法。MinkowskiNet 32和MinkowskiNet 42 [6]作为代表性的基于体素的方法进行比较,分别包括32我们使用官方源代码复制Minkowski-iNet 42 [6],并将其表示为MinkowskiNet 42† , 具 有 不 同 的 体 素 大 小 。 选 择PointNet [26]、SPGraph [17]、PointWeb [48]、KPConv[37]、PAConv [41]和Point Transformer [49KPConv [37]与其他算法的主要区别在于KPConv [37]使用k-d树来提高其推理时间,而其他算法则没有。我们遵循方法的官方指南并重现结果。一种更新的方法,点转换器[49]也被选中,因为它在几个数据集上具有优势。与我们的方法和选定的基线不同,其他方法[5,15,16]使用额外的输入,例如,2D图像或网格。因此,我们将这些方法从比较中排除。4.3. 一致性检验我们引入了一个新的评价指标来衡量各种刚性变换,如平移和旋转下的预测的一致性。让我们考虑一组点云S={Pin}和3D语义分割模型f:Pin›→C,它预测了一个语义类,P中的每一点都在={(pn,in)}中。给定S和一组刚性变换T={Tm},我们引入一致性得分(CScore(f;S,T))如下:|P| |T|具体来说,我们提供了随机数平均从三个不同的实验与相同的训练配置-1|S|1If(p|不||T|,in),f(Tmpn,in)Σ除了比较表的随机种子数外:表1、表2、表3、表4和表8。P∈Sn m(八)4.1. 数据集S3DIS是一个大规模的室内数据集,由6个大规模区域组成,包含271个房间场景。我们在区域5上进行测试,并在训练期间使用其他分割。在[6]之后,我们不使用任何预处理方法,例如,裁剪成小块,广泛用于基于点的方法[17,18,26,34,35,41]。扫描网 我们使用ScanNet [ 7 ]的第二个正式版本,其中包含1.5k个房间场景,其中一些房间使用不同的传感器重复捕获。根据先前工作的实验设置[4,25],我们的模型使用其中I()是指示函数,它检查原始点和转换点的类预测是否相同。CScore是平均精度,,和。同样,我们使用f的逐点CScore,来显示哪些点容易受到攻击。我们应用41种不同的刚性变换,包括26个平移和15个围绕重力轴的旋转。对于体素大小L,26个平移被设置为[0,L/3,2L/3]3,除了零translation[0,0,0].沿重力轴旋转15个角度设置为[0。125π,0。25π,,1. 875π]。我们评估CScore的MinkowskiNet42和快速点Transformer的扫描网络验证分裂。评价结果(表1)和n16956××表1. 一致性评分(CScore)和mIoU的比较。我们比较了FastPoint Transformer和MinkowskiNet42(复制模型)在不同转换集上的一致性得分变换集是1)仅旋转(R),2)仅平移(t),以及3)两者(R和t)。在ScanNet验证数据集[7]上,体素的大小设置为10cm、5cm和2cm,用于3D语义分割Fast Point Transformer减少了体素化伪影导致的预测不一致性。CScore(%)前者在补充材料中的体素尺寸为5cm。表2从理论上分析了时间复杂度,并报告了处理S3DIS Area 5场景时每种方法的平均墙时间延迟。我们使用官方代码测量MinkowskiNet 42†、PointNet [26]、SPGraph [17]、PointWeb [48]、KPConv [37]、PAConv [41]和PointTrans- former [49我们使用相同的机器与英特尔(R)酷睿(TM)i7- 5930 K CPU和单个方法体素大小:10厘米体素大小:5厘米体素大小:2厘米R t R和tmIoU(%)1NVIDIA Geforce RTX 3090 GPU测量延迟的方法.有关时间复杂度分析的详细信息包含在补充材料中。由于预处理阶段和拼接多个局部预测[17,26,41,48]或多个推断[37,49],基于点的方法比我们的方法需要更多的时间来推断单个场景。注意KPConv [37]构造k-d树,但我们不将此过程纳入推理时间。我们的Fast Point Transformer处理大规模场景的速度比基于点的方法至少快83倍[17,26,37,41,48,49],如表2.具体来说,PointNet [26]平均需要18.16秒来处理场景,因为它将场景裁剪为1m1m1m块,预测块,并缝合场景级预测的预测(在表2中表示为此外,Fast PointTransformer的性能比MinkowskiNet42†高出1.4个绝对百分比输入MinkowskiNet42我们平均IoU(%)为0分,速度相当给定图4. 一致性评分的热图可视化(CScore)。我们使用热热图可视化MinkowskiNet [6]和提议的Fast Point Transformer的一致性得分具有高CScore(使用相同类别一致预测)的点被着色为黑色,具有低CScore(预测类别与任意刚性变换不一致)的点被着色为白色。表1显示了定量评价。定性结果(图4)表明,快速点变换器输出的特征表示比MinkowskiNet42 [6]更连贯。此外,相干预测表明,快速点Transformer成功地减轻了量化伪影。4.4. 三维语义分割我们将我们的方法与S3DIS [2]和ScanNet [7]上的3D语义分割的最新技术进行了比较。我们使用类IoU得分的平均值作为两个数据集的主要评估指标。S3DIS。 我们比较了计算复杂性,平均精度,和平均IoU的快速点Transformer与S3DIS区域5测试分割的最新技 术 。 自 从 Choy et al.[6] 使 用 轻 量 级 网 络( MinkowskiNet32 ) 报 告 的 结 果 , 我 们 利 用MinkowskiNet42的官方代码并重现由MinkowskiNet42 †表 示 的 结 果 , 体 素 大 小 为 4 cm 。 我 们 还 提 供MinkowskiNet42†和Fast Point Trans的性能Zhao et al.[49],点Transformer显示最佳精度。然而,Point Transformer [49]的推理速度比我们的方法慢129倍。这是因为它对点进行网格子采样,并利用昂贵的k最近邻搜索多次推断采样点以覆盖整个场景(在表2中由“多镜头”表示扫描网由于ScanNet在线测试基准的严格提交政策,我们在ScanNet验证分割上评估模型,其中一种方法最多可以测试一次。我们提出的方法在体素尺寸为2cm、5cm和10cm时的平均IoU(%)分别比MinkowskiNet 42<$提高了0.2、3.3和5.4个绝对百分点表1和表3中的实验结果表明,所提出的方法可以将大规模点云表示为对量化误差更鲁棒的特征。mIoU与模型大小。我们比较了快速点Transformer和MinkowskiNet的精度与不同数量的参数。我们通过减少MinkowskiNet [6]所做的构建块数量并保持通道数量来构建小型网络模型有关网络结构的详细说明见补充材料。表4示出了评价结果。有趣的是,我们观察到Fast Point Transformer对网络参数的减少更具弹性,FastPointTr. (我们的)94.7 ±0.394.6 ±0.194.6±0.165.9±0.6MinkowskiNet42 <$92.2 ±0.192.0 ±0.192.0±0.160.5±0.2FastPointTr. (我们的)95.9 ±0.496.4 ±0.196.2±0.270.0±0.1MinkowskiNet42 <$94.2 ±0.195.1 ±0.194.8±0.166.7±0.2FastPointTr. (我们的)96.9±0.397.4±0.497.2±0.172.1±0.3MinkowskiNet42<$95.9±0.696.9±0.396.6±0.171.9±0.216957表2. S3DIS [2] Area 5测试中的3D语义分割。 我们使用官方源代码标记复制的模型。我们分析了邻居搜索算法的理论时间复杂度,并评估了每个网络的每个场景的墙时间延迟。我们将N表示为数据集点的数量,M表示为查询点(或体素质心)的数量,K表示为要搜索的邻居的数量。在大规模点云中,M和N都比K邻搜索方法大规模延迟延迟mAcc(%) mIoU(%)制备推断推理(秒)(归一化)PointNet [26]✗ ✗剪缝18.16129.7149.041.1SPGraph [17]✗ ✗剪缝18.28130.5766.558.0[第48话]O(1)O(MNK)剪缝11.6283.0066.660.3MinkowskiNet32 [6](5厘米)O(N)O(M)单发0.080.5771.765.4KPConv变形 [37]时间复杂度O(logN)多激发105.15751.0772.867.1PAConv[41]O(1)O(MNlogK)剪缝28.13200.9373.066.6[49]第四十九话O(1)O(MNlogK)多激发18.07129.0776.570.4体素大小:4厘米Minkowski Net42†+ 旋转平均O(N)O(M)O(N)O(M)单镜头多镜头0.080.660.574.7174.4±0.875.0±0.767.1±0.168.4±0.1FastPointTransformer(我们的)O(N)O(M)单次0.141.00 76.5±0.668.5±0.2时间复杂度O(N)O(M)1.138.0777.3±0.770.1±0.3表3. ScanNet上的3D语义分割[7]验证。我们使用带有†的官方代码制作复制模型。表4. mIoU与模型大小。在网络参数数量减少的情况下,FastPoint Transformer的性能几乎没有下降,而MinkowskiNet [6]则逐渐下降。我们用绿色表示积极的变化,用红色表示消极的变化。基础模型。我们使用ScanNet [7]验证集进行实验。#参数。(M)mIoU(%)方法体素大小:10厘米Rel. (%)Fast Point Transformer模型优于MinkowskiNet的对应模型。我们可以观察到,体素大小为10cm的最轻量级Fast Point Transformer优于体素大小为5cm的最轻量级MinkowskiNet [6]。MinkowskiNet [6]需要大量参数来克服体素化伪影,而Fast Point Transformer即使网络参数减少了71.5%,也显示出一致的准确性。这些结果意味着,由于其动态内核权重,所提出的轻量级自注意(LSA)层可以比过参数化稀疏卷积层更有效地学习3D几何形状。消融研究。我们对(1)提出的位置编码,(2)注意类型,(3)局部窗口大小进行消融研究。我们在ScanNet [7]验证数据集上使用固定的随机种子,采用10cm表5示出了关于所提出的位置编码的消融结果,e. ,δenc和δab s. 具有完整位置编码的模型获得了最好的mIoU分数。当恢复δabs时MinkowskiNet42<$37.9±0.0 60.5±0.2±0.0MinkowskiNet(小型)21.7↓42.759.9±0.6 ↓0.6MinkowskiNet(较小)11.6↓69.458.2±0.9 ↓2.3FastPointTrans. (我们的)37.9±0.065.9±0.6±0.0FastPointTrans. (小)20.2↓46.766.0±0.3 ↑0.1FastPointTrans. (较小)10.8↓71.565.7±0.1 ↓0.2体素大小:5厘米MinkowskiNet42<$37.9±0.0 66.7±0.3±0.0MinkowskiNet(小型)21.7↓42.766.0±0.1 ↓0.7MinkowskiNet(较小)11.6↓69.464.2±0.4 ↓2.5FastPointTrans. (我们的)37.9±0.070.0±0.1±0.0FastPointTrans. (小)20.2↓46.770.3±0.2 ↑0.3FastPointTrans. (较小)10.8↓71.569.7±0.2 ↓0.3从我们的模型中,我们已经观察到大的性能下降,因为该模型不采用连续的位置信息。从我们的网络中删除质心感知体素化或去体素化的位置编码也会降低性能。实验结果表明,本文提出的体素化和去体素化方法有效地保持了输入点云的连续几何信息。此外,所提出的位置编码也提高了MinkowskiNet42的性能,尽管参数的总数比Fast PointT transformer大得多。然而,额外使用δabs并不能提高MinkowskiNet42 [6]的性能,方法mIoU(%)PointNet [26]53.5[40]第四十话61.0[42]第四十二话63.5KPConv变形 [37]69.2体素大小:2厘米SparseConvNet [10]69.3MinkowskiNet42 [6]72.2Minkowski Net42†FastPointTransformer(我们71.9±0.2)72.1±0.316958N··−表5. 对建议的位置编码进行消融研究。请注意Mink42†和FastPointTrans。分别表示MinkowskiNet42我们使用体素大小为10cm的ScanNet验证数据集[7]。表8. ScanNet上的3D物体检测[7]验证。我们在ScanNet [7]数据集上报告了具有不同主干的VoteNet [25]的两个mAP分数 。 除 了 MinkowskiNet 和 Fast Point Transformer 的 数 字 之外,其他数字均来自Chaton et al.[4]的文件。#参数。(M)δencδVox德沃克斯ABSmIoU(%)主干mAP@0.25mAP@0.50PointNet++[27] 54.2 30.137.9 60.438.0磅63.2磅38.0米65.1米51.6中国人65.027.3 59.127.3 61.337.8磅62.1磅27.3岁62.7岁37.8岁63.437.9印度卢比65.3表6. 注意类型的消融研究。注意,(gi)和(gj)分别表示查询及其相邻键。 我们使用体素大小为10 cm的ScanNet验证数据集[7]。a(·)在Eq.(6)mIoU(%)softmax((gi),δrel(vi−vj))61.0cosine((gi),(gj)+δrel(vi−vj))62.1cosine(n(gi),δrel(vi−vj))65.3表7. 消融研究局部窗口大小。注意,k是用于在等式(1)中找到邻居(i)的局部窗口大小。(七)、我们使用体素大小为10cm的ScanNet验证数据集[7]。k延迟(秒)mIoU(%)30.10665.350.12762.470.16861.9这意味着自注意机制是一种比稀疏卷积更合适的使用δabs的方式。表6示出了在实验中使用的注意力类型的影响提出了LSA层。cosine()比softmax()更有效地处理不同数量的邻居,如表6所示。然而,如在局部自我注意文献[3,29]中所报告的,查询 k( gi ) 和 key(gj)之间的相似性的附加使用不会增强LSA层。在表7中,我们显示了所提出的LSA层中局部窗口大小的影响由于我们目前使用learnable来k ensforδre l(vivj),由于3D数据的稀疏性,增加局部风流量大小降低了性能。引入感应偏置,例如连接位置编码[29]或共享映射层[49]可以是可能的解决方案之一。4.5. 3D对象检测我们在ScanNet 3D对象检测数据集上进行了实验,其中细粒度点云表示对于检测和定位3D对象至关重要。陷阱 为了公平比较Fast Point Transformer美国有线电视新闻网[20] 51.6 29.5KPConv [37] 48.9 29.2[6]第一次世界大战MinkowskiNet<$55.3±0.233.0±0.5FastPointTransformer(我们的)59.1±0.135.6±0.4与以前的方法[6,27],我们使用火炬Points3D,一个开源库实现的查顿等人。[4]用于3D点云的可再现深度学习。Torch-Points 3D从输入点云中对固定数量的点进行 子 采 样 , 这 广 泛 用 于 PointNet++[27] 来 处 理 类 似ScanNet的场景级点我们注意到,该库还为基于体素的方法(如MinkowskiNet [6])子采样点,这不是一个合适的实验配置。因此,我们使用MinkowskiNet主干(在表8中由MinkowskiNet†表示)重现VoteNet,没有输入点子采样,并且我们使用原始的实验配置。此外,我们用Fast Point Transformer主干训练了一个新的VoteNet [25],而不需要对检测网络进行任何更改(例如,投票模块)。结果 如表8所示,以Fast Point Transformer作为主干的VoteNet [25]模型的性能优于其他基线,具有较大的裕度。结果表明,Fast Point Transformer使用的连续位置编码可以有效地对点云表示进行编码,并有助于3D检测任务。5. 结论我们介绍了Fast Point Transformer,并在3D语义分割和3D检测任务中展示了其速度和准确性在大规模3D数据集上的实验结果[2,7]表明,我们的方法与最好的基于体素的方法[6]有竞争力,并且我们的网络的推理时间比最先进的Point Transformer快129倍,在3D语义分割中具有合理的准确性权衡[2]。然而,在小的体素尺寸下,快速点Transformer还有改进的空间在未来,我们将探索Fast Point Transformer的架构,而不是最初为卷积层设计的U形架构[30]我们的代码和数据将公开。谢谢。这项工作得到了高通公司和IITP基金的支持(2021-0-02068:AI创新中心和2019-0- 01906:AI等级学校计划)由韩 国 政 府 ( MSIT ) 和 NRF
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功