没有合适的资源?快使用搜索试试~ 我知道了~
基于深度学习的金字塔点云Transformer网络用于大规模地点识别任务
6098用于大规模地点识别的乐辉、杨航、程明梅、谢金 *和杨健 * 中国南京理工大学PCA实验室{le.hui,hangyang,chengmm,csjxie,csjyang}@ njust.edu.cn摘要最近,基于深度学习的点云描述符在地点识别任务中取得了令人印象深刻的结果。然而,由于点云的稀疏性,如何提取点云的判别性局部特征以有效地形成全局描述符仍然是一个具有挑战性的问题。在本文中 , 我 们 提 出 了 一 个 金 字 塔 点 云 Transformer 网 络(PPT-Net)学习的歧视性的全局描述符,从点云有效的检索。具体来说,我们首先开发了一个金字塔点Transformer模块,自适应地学习点云的不同k-NN相邻点的空间关系分组自关注不仅增强了点云的长期依赖性,而且降低了计算成本。为了获得有区别的全局描述符,我们构造了一个金字塔VLAD模块来聚合多尺度点云的特征映射到全局描述符。通过在多尺度特征图上应用VLAD池化,我们利用多个全局描述符上的上下文门控机制来自适应地将多尺度全局上下文信息加权到最终的全局描述符中。在牛津数据集和三个内部数据集上的实验结果表明,我们的方法达到了最先进的基 于 点 云 的 位 置 识 别 任 务 。 代 码 可 在https://github.com/fpthink/PPT-Net 上 获得。1. 介绍地点识别是计算机视觉和机器人领域的一项重要任务,已经广泛应用于自动驾驶等多个领域[19,20*通讯作者乐辉、杨航、程明梅、谢金和杨健分别就职于南京理工大学计算机科学与工程学院PCA实验室、高维信息智能感知与系统教育部重点实验室和江苏省社会保障图像与视频理解重点实验室。26]、增强现实[34]、机器人导航[16,33,27]和同时定位和地图绘制(SLAM)[2,14,29]。地点识别主要分为基于图像和基于点云两对于基于图像的地点识别,给定本地场景的查询图像,目标是检索数据库中的最佳匹配,使得查询图像相对于场景的参考地图的确切位置可以被确定。然而,基于图像的地点识别对环境变化,如季节和光照变化敏感。因此,基于点云的位置识别方法被提出来通过使用3D点云来缓解这些限制。在过去的几年中,随着各种点云处理方法的发展[36,38,50,46,4],已经为基于点云的地点识别做 出 了 许 多 努 力 。 Mikaela 等 人 。 [47] 提 出 了PointNetVLAD,它首先使用PointNet [36]提取点特征,然后采用NetVLAD [1]生成全局描述符进行检索。基于PointNetVLAD,Zhang等人。 [57]提出了点上下文注意力网络(PCAN)来预测点特征的重要性,以生成有区别的全局描述符。然而,这些方法的点特征都是通过PointNet获取的,无法捕捉点云的局部几何结构。Liu等人 [30]提出了一种大规模位置描述网络(LPD-Net),该网络在坐标和特征空间中都采用基于图的聚合模块,通过组合点云的手工特征来提取点云的局部特征。最近,Xia等人。 [52]提出了一种自我注意和方向编码网络(SOE-Net),它使用自我注意单元来捕获点云的空间关系,以增强局部特征。然而,逐点自注意操作不能充分利用每个点的相邻结构来很好地捕获点云的不同区域之间的长期依赖性。特别地,由于区域的多尺度结构信息未被并入所生成的局部描述符中6099在本文中,我们提出了一个金字塔点云变换器网络(PPT-Net),学习全球描述符从点云与上下文规模 增 加 。 具 体 来 说 , 我 们 首 先 开 发 金 字 塔 点Transformer模块以生成点云的区分性局部特征。在金字塔点Transformer模块中,我们将EdgeConv [50]应用于每个点的多尺度k-最近邻(k-NN)图,以提取不同尺度的局部嵌入。基于每个尺度的局部嵌入,我们提出了分组自注意自适应学习不同区域之间的空间关系。在分组自注意中,我们通过组卷积将局部嵌入沿通道维度划分为相互独立的组,并计算每个组不同区域之间的相似度。因此,具有相似相邻结构的点将被分配到高权重,使得可以增强点的局部特征的辨别。此外,分组的自注意可以通过分组操作来降低计算成本。在生成区分性的局部特征的点云,然后,我们开发了金字塔VLAD模块聚合局部特征到区分性的全局描述符。在金字塔VLAD模块中,我们在多尺度特征图上应用VLAD池化[1]以生成多尺度全局描述符。在多尺度全局描述子的基础上,对多个全局描述子应用上下文选通机制,自适应地将多尺度全局上下文信息加权到最终的全局描述子中。对于地点识别,牛津数据集和三个内部数据集上的实验结果表明,我们的方法达到了新的最先进的。本文的贡献如下:• 我们开发了一个金字塔点Transformer模块,通过使用分组的自我注意力来提取有区别的局部描述符,自适应地学习不同尺度下点云的不同区域之间的空间关系。• 我们开发了一个金字塔VLAD模块,将点云的多尺度特征图聚合到区分性的全局描述符中。• 所提出的PPT-Net可以在基于点云的地点识别任务的各种基准数据集上实现最先进的水平。2. 相关工作3D局部描述符。如何提取强有力的局部描述子是许多三维视觉任务中的关键问题,如三维物体匹配和重建。 自旋图像[22]是将局部相邻点转换为2D自旋图像以表征3D对象的3D形状的区域描述符。几何直方图[15]介绍了3D形状上下文和谐波形状上下文改进在嘈杂和杂乱场景中的3D对象的识别点特征直方图(PFH)[42]和快速点特征直方图(FPFH)[41]使用多维直方图来编码每个点的k邻域几何特性。方向直方图签名(SHOT)[43]是用于表面匹配的3D局部描述符,其编码几何信息的直方图以获得局部描述符。最近,局部3D形状描述器已经在多视图表示(多视图图像)和3D体积表示(体素)上做出了若干努力,其中2D/3D卷积神经网络(CNN)被直接应用于 学 习 特 征 嵌 入 。基 于 体 积 表 示 , 提 出 了Volumetric CNN [37]、3D ShapeNet[51]和OctNet [39]用于3D对象分类。3DMatch [56]学习用于3D对应的局部体积块描述符。除了体积表示之外,多视图卷积神经网络(MVCNN)[44]还将点云投影到多视图图像中,然后应用2D CNN进行对象识别。 最近,Qi等人提出了PointNet [36],这是一种开创性的网络,可以将3D点作为输入。基于PointNet,Deng等人。[9]提出了点对特征网络(PPFNet)来学习3D局部特征描述符以找到对应关系在点云中。基于基于折叠的自动编码器,Deng等人。 [8]提出了PPF-FoldNet[8],其将PointNet编码器与FoldingNet解码器集成在一起,以在没有监督的情况下学习旋转不变的3D局部特征。基于PPF-FoldNet,Deng等人。 [10]提出了一种相对姿态估计网络(RelativeNet),用于将对应特定的方向分配给关键点,以生成姿态相关的描述符。 Yew等人[55]提出了使用对齐和注意机制从GPS标记的3D点云学习3D特征描述符的基于平滑密度值(SDV)体素化表示,3DSSmoothNet [17]学习用于3D点云匹配的紧凑局部特征描述符。3D全局描述符。在位置识别任务中,通常使用3D全局描述符来表征整个场景。手工全局描述符通常使用LiDAR数据的统计信息来描述场景。Rohling等人[40]使用从3D LiDAR点提取的静态直方图来识别3D场景。警察等等人[6]提出了DELIGHT,一种作为一组直方图的LiDAR强度描述符,将LiDAR数据的强度信息编码到直方图中以获得全局描述符。Cao等人 [3]将3D激光点转换为方位角图像,并聚合从图像中提取的定向快速和旋转简短(ORB)特征以获得全局描述符。最近,已经做出了6100四一���× 34 ×1���×2���1664���×3金字塔点Transformer256 ×4���图EMB.Transformer图EMB.Transformer图EMB.Transformer图EMB.Transformer123ups.4点云���联系我们���×4116 ×2���EMB. →嵌入ups.→上采样+→concat→贴片MLP+ups.MLP +ups.MLP+64ups.×3���MLP+FCS′′3′ ′0VLAD合并���’1′′2FC.VLAD合并VLAD合并VLAD合并. →点积s→S形→描述符concat金字塔VLAD全局描述符上下文门控图1:金字塔点云Transformer网络(PPT-Net)的管道。给定点云,首先利用金字塔点Transformer在不同分辨率下捕捉点云的空间关系,以增强点云局部特征然后,我们构建了一个金字塔VLAD模块聚合VLAD池生成的多尺度描述符到一个判别性的全局描述符,通过上下文门控检索。学习全局描述符,用于基于点云的地点识别。受PointNet [36]和NetVLAD [1]的启发,Mikaelaet al. [47]建议PointNetVLAD学习点云的全局描述符以进行检索。随后,点上下文注意力网络(PCAN)[57]通过学 习 注 意 力 图 来 生 成 全 局 描 述 符 来 改 进 Point-NetVLAD。由于这两种方法都是使用PointNet来提取点特征,所以不能很好地捕捉点云因此,Liu et al.[30]提出了大规模地点描述网络(LPD-Net),通过在坐标和特征空间中使用基于图的聚合模块来捕获点云的局部几何结构。像PointNetVLAD一样,LPD-Net使用NetVLAD层来获取点云的全局描述符,以进行位置识别。MinkLoc3D [23]在稀疏体素化点云上使用稀疏3D卷积神经网络(3D CNN)来提取点云的局部特征。对于位置识别,它使用一个简单的广义均值池[24]层将局部特征聚合到全局描述符中。最近,Xia等人。 [52]提出了一种自我注意和方向编码网络(SOE-Net),通过自我注意单元捕获点云的空间关系它还使用NetVLAD层提取全局描述符以进行检索。Transformer器Transformer家族[48,11,7,54]已广泛用于神经机器翻译。作为先驱,Transformer [48]使用自我注意机制[25]来捕获语言序列的长期依赖关系,而不使用递归或卷积运算。随后,Devlin等人[11] 提 出 了 基 于 变 换 器 的 双 向 编 码 器 表 示(BERT),它同时考虑了序列的左右上下文在Transformer的所有层中。最近,Transformer [28,49,53]被扩展到2D视觉。视觉Transformer(ViT)[12]首先将图像划分为块,然后将这些块的线性嵌入 序 列 馈 送 到 变 换 器 以 进 行 图 像 分 类 。 点Transformer网络[18,58]在点云语义分割方面取得了良好的效果。尽管如此,由于自我注意的高计算复杂性,很难使用这些网络来处理大规模的点云。3. 方法3.1. 金字塔点Transformer整体架构。 对于地点识别,金字塔中点Transformer模块旨在捕获点云的每个尺度上的不同区域的空间关系,以提取有区别的局部描述符。我们的金字塔点Transformer模块的概述如图所示1.一、与PointNet++ [38]一样,我们的金字塔点Transformer模块具有四个转换器级,从而生成四个尺度的点云的特征图。请注意,四个Transformer级具有相同的结构,但参数不共享。给定N个点的点云,我们首先构造采样点的k-最近邻(k-NN)图然后,我们将每个相邻点馈送到图嵌入层以提取每个采样点的局部嵌入。之后,将学习的点嵌入馈送到Transformer E1中以生成大小为N × C1的新特征图F1。在此之后,利用上一个Transformer级El-1到下一个变换器级El的特征图,我们可以得到一系列特征图61011关键2sum3值注意力地图--4L×个∈×个{∈|}∈转∈··△△∈∈∈F1,F2,F3,F4的点云在四个分辨率。注意,第1级中 的 采 样 点 的 数 量 是 N 。 在 执 行 金 字 塔 点Transformer之后,可以捕获点云的不同区域之间的多尺度空间关系,使得可以增强所提取的局部特征的辨别力图嵌入为了刻画点的局部几何结构,我们构造了局部k-近邻图来提取局部嵌入。具体地,我们首先使用点云上的最远点采样(FPS)来采样作为每个局部邻域的中心的点。然后,对于每个采样点,我们搜索1×1个conv查询+1对于坐标空间中的k个最近点,构造其局部邻域。与PointNet++ [38]中使用的查询球相比,构建的局部邻域可以通过k-NN操作捕获点云不同区域的不同密度。然后,我们使用图卷积来提取点的局部嵌入。在点云中。假设我们从第l阶段的输入点中采样m个点作为种子点,我们可以获得m个邻域,表示为由N={Ni∈Rk×(3+C)|i=1,. . . ,m},其中k是图2:分组自我注意的概述。在特征图Fl上应用两个逐组11卷积以生成两个特征图,即、查询映射Qm×C和键映射Km×C。同时,我们在特征图 Fl上应用另一个11卷积以生成值图VRm×C。假设组数为G时,将查询映射Q沿信道方向分成G组,记为 QgRm×C/Gg=1,. . .、G.同样,我们将m×C/G相邻点的数目,并且C指示该点的C维特征具体来说,我们使用EdgeConv [50]密钥映射K到G个群,记为{Kg∈ R|g = l,. . .,G}。 对于第g组,注意力地图Wg∈Rm×m由下式表示:以表征局部的局部几何结构每个点的邻域给定坐标pi∈R3Wg=Qg·Kg(三)以及第i个种子点的特征XiRC,局部特征被公式化为:hΘ(△pji ,△xji )=hΘ ([△pji;△xji])(1)其中j表示Ni中第j个相邻点的索引,并且△pji=pj−pi和△xji=xj−xi捕获其中g∈ [1,2,. . .,G]和W_g表示相似性在第g个查询映射Qg和第g个键映射Kg之间。最后,我们对G个注意力图求和以获得最终的注意力图W,其在下面给出ΣGW=Wg (4)坐标系中局部邻域的差和特征空间。由方程式(1),[i]指示级联运算,并且RC是嵌入函数。最后,我们在局部k-NN图上使用最大池化操作来聚合点的局部嵌入,其被定义为:fi=maxhΘ(pji,xji)(2) j∈Ni由于max-pooling操作是一个对称函数,因此输出f为RC对输入点云。 结果,我们可以得到一个新的特征图G=1其中WRm×m表示G组中不同区域之间的相似性之和。以这种方式,具有相似相邻结构的点可以被分配给大的权重。因此,可以获得更有区别的点的局部特征。通过将值图V与注意力图W相乘,随后是softmax并加上输入嵌入Fl,得到的特征图Fl+1被写为:WFl∈Rm×C.Fl+1=softmax(√C)V+Fl(5)自我注意力集中。我们形成了一个群体-其中C是查询映射的维度,并且1是C注意自适应地学习点云的不同区域之间的空间关系与[52]中使用的原始自注意不同,所提出的分组自注意是轻量级但高效的版本,其利用分组操作来增强点云的局部特征的辨别。具体地,分组的自我注意力的架构在图1中示出。2.给定图嵌入后第l阶段的特征图FlRm×C,我们首先的缩放因子所获得的新特征图F1+ 1Rm×C 用作第( 1+ 1)级的输入。此外,与标准Transformer编码器相比,我们放弃了位置嵌入,因为点云的坐标已经包含了位置信息。为了简化网络,我们还放弃了前馈网络。与原始自注意相比,所提出的分组自注意具有较低的计算复杂度。在方程式 (3)(4)矩阵的复杂性总和组1×1转换组1×1转换转置softmax√6102·◦∈∈NI·⊕联系我们L·}×·◦时间复杂度为O(m2·C/G)O(m2·G)。 总的复杂性计算注意图的时间复杂度为O(m2·(C/G+G))。数据集基线优化训练测试训练测试但是,原自注意的复杂度为O(m2C)。 分组自注意(GSA)和原始自注意(SA)的计算复杂度的比率γ被定义为:m2(C/G+G)γ(GSA,SA)== 1/G+G/C(6)m2C一般情况下,C > G,因此分组的自注意比原始的自注意具有更低的计算复杂度 注意,如果G=1,则不需要执行矩阵求和,因此γ ( GSA ,SA)=(m2·C/1)/(m2·C)=1。3.2. 金字塔VLAD牛津21.7k 3.0k 21.7k 3.0k内部-4.5k 6.7k 1.7k表1:基线数据集的分割和细化数据集。对低维向量采用上下文选通机制上下文门控机制将全局描述符U′ ′转换成新的全局描述符U,其公式化为:′ ′U=σ(W U+b)U(8)其中WRD×D和bRD是可训练参数,σ是S形激活,并且是元素方面的′ ′为了获得有区别的全局描述符,我们开发了一个金字塔VLAD模块,将多尺度特征映射聚合到全局描述符中以进行高效检索。我们的金字塔VLAD模块的架构如图所示。1.一、乘法最后,我们使用全局描述符U高效检索4. 实验4.1. 实验设置为具体来说,我们的金字塔VLAD模块是建立在在具有不同空间分辨率的点云上生成的多尺度特征图在金字塔点Transformer中,由于网络深度的不同,生成的不同分辨率的特征图具有不同的表示能力。因此,我们采用自顶向下的结构,将高层特征扩散到低层特征中,以增强低层特征 ′ ′的点云。具体地说,我们预先定义了F4=F4和输入点云的坐标F0∈RN×3给定所获得的四个特征图F1、F2、F3和F4,自上而下的体系结构可以用公式表示为:基准数据集和评估。[47]中提出的基准数据集用于评估我们的方法。它建立在四个开源数据集之上,其中包括牛津RobotCar数据集的一部分[31]和三个 大 学 部 门 的 内 部 数 据 集 ( 美 国 ) 。 住 宅 区(R.A.), 商业区(B.D.)。 所有这些都是由安装在汽车上的LiDAR传感器收集的,汽车在不同的时间重复通过这些区域。LiDAR扫描首先被组织成子地图,这些子地图移除了非信息地平面,并被下采样到4096个点。此外,所有子映射′′用通用横轴墨卡托(UTM)标记F1= MLP(F1I(F1+ 1))(7)其中l0, 1, 2, 3和Fl′R4l×C是生成的新特征图。表示按信道的关联,并且()指示内插。这里,我们采用[38]中使用的基于距离的插值用 于 地 面 实 况 生 成 的 坐 标 。 在 训 练 过 程 中 ,PointNetVLAD将距离小于10m的点云对视为正对,将距离大于50m的点云对视为负对。在测试过程中,从数据库中检索的点云“”基于特征图F0、F1、F2和F3,我们应用VLAD池化[1]来生成全局去′ ′编剧对于每个特征图Fl,VLAD池化学习Kl 个视觉词,表示为|i=1,. . .,Kl,并且创建(DK(1)维向量V1=[V1,. . . ,VKl]。因此,我们可以获得四个全局可以被认为是真正的匹配时,之间的距离检索点云和查询点云的距离小于25m。在[47]之后,我们采用了两个数据集:基线和细化以评估我们的方法。基线数据集和细化数据集的详细信息见Tab。1.一、为了评估地点识别的性能,我们L l描述符的点云在四个分辨率。之后,我们使用上下文门控机制聚合多尺度描述符为区分性全局描述符。具体而言,我们首先将多尺度描述符串联成一个全局描述符。然而,在这方面,得到的gΣ全局描述子是高维向量,使用[47]中采用的评估度量Recall@N,其中指示正确匹配的查询的百分比。我们报告了平均recall@1%(AR@1%)和平均re-call @ 1(AR@1)指标。实作详细数据。我们的PPT网络的架构如图所示.1. 我们使用相同数量的即,a(D×3i=0时Kl)-维向量,这使得如PointNetVLAD中的LiDAR点[47]。在实验中查询比较耗时。为此,我们使用一个完全连接层以将高维向量压缩成由U表示的低维向量。然后我们我们采用四级金字塔点Transformer。的在每一阶段所构造的邻域的数目分别为1024、256、64和16。 当喂食6103PN_VLADPCANLPD-NetMinkLoc 3DPPT-Net(我们的)PN_VLADPCANLPD-NetMinkLoc 3DPPT-Net(我们的)N时的平均召回率(%)N时的平均召回率(%)×个×个× ××联系我们方法美国牛津大学R.A.B.D.表2:在基线数据库t上训练的不同地点识别方法的评估结果。 注意,ª与h.f. “表示使用手工制作的功能,而ª与d. a. ”表示使用数据扩充。100100100100九十九十九十九十八零八零八零八零七零七七零七六零六零0 5 10 15 20 25N -顶级候选数据库的数量(a) 牛津0 5 10 15 20 25N -顶级候选数据库的数量(b) 美国0 5 10 15 20 25N -顶级候选数据库的数量(c) R.A.0 5 10 15 20 25N -顶级候选数据库的数量(d) B.D.图3:在基线数据集上训练的不同地点识别方法的平均召回率。将一个大小为4096 3的点云放入网络中,四个阶段得到的特征图的神经元大小分别为1024 64、256128、64 256和16512,分别。在每个Transformer阶段,我们设置组数G到8在分组的自我注意。在点云上执行金字塔点Transformer后,我们使用金字塔VLAD模块将局部特征聚合到区分性全局描述符中。我们将获得的多尺度点特征送入金字塔VLAD模块,神经元大小分别为64 256,256 256,1024 256和2048 256。 在金字塔VLAD模块中,VLAD池化的视觉字从上到下分别为K0=64、K1=16、K2=4和K3这些视觉词的通道被固定为D=256。为了训练所提出的PPT-Net,我们采用了PointNetVLAD [47]中使用的惰性四元组损失。此外,我们使用PyTorch [35]来实现我们的方法。4.2. 地点识别结果定量结果。我们将所提出的PPT- Net与一系列先进方法进行比较,包括Point-NetVLAD [47],PCAN[57],LPD-Net [30],DAGC [45],[23]第23话请注意,LPD-Net使用了点云的额外手工制作的功能,而MinkLoc 3D在训练期间使用了数据增强策略。 为了进行公平的比较,通过运行官方代码,我们还报告了在不使用手工制作的功能或数据增强的情况下他们的方法的结果。 另外我们为简单起见,将PointNetVLAD表示为PN VLAD。如Tab.所示。2,我们报告了在基线数据集上训练的不同地点识别方法的平均recall@1%(AR@1%)和平均recall@1(AR@1)从表中可以看出,我们的PPT-Net在所有数据集上实现了最先进的技术,而无需使用手工制作的功能或数据增强。虽然有些方法使用手工制作的功能(ªLDP-Net with h.f.或数据扩充(ªMinkLoc3D,带d.a.为了提高性能,我们的PPT-Net在不使用这些技巧的情况下仍然可以获得良好的性能。为了进行公平的比较,我们的PPT-Net可以进一步提高牛津数据集在AR@1%指标上的性能,从95.9%提高到98.1%。与其他方法相比,我们的方法学习点云的空间关系,利用对局部相邻点的分组自注意,以增强对局部特征的区分。此外,我们采用金字塔VLAD聚合到一个有区别的全球描述符的多尺度特征图。更重要的在图3中,我们还提供了四个数据集上前25个匹配的每种方法的召回率曲线。可以清楚地看出,我们的方法优于其他方法。除了基线数据集之外,我们还在精化数据集上评估了我们的方法。如Tab.所示。3、给出了不同位置识别方法PN_VLADPCANLPD-NetMinkLoc 3DPPT-Net(我们的)PN_VLADPCANLPD-NetMinkLoc 3DPPT-Net(我们的)N时的平均召回率(%)N时的平均召回率(%)AR@1%AR@1AR@1%AR@1AR@1%AR@1AR@1%AR@1PN VLAD[47]80.962.672.763.260.856.165.357.2PCAN[57]83.969.479.162.471.156.966.958.1LPD-Net[30]91.080.985.772.678.966.774.968.3LPD-Net [30]与h.f.94.986.396.087.090.483.089.182.3[23]第二十三话95.988.293.683.286.074.782.274.0MinkLoc3D [23] with d.a.97.993.795.086.091.181.188.482.6PPT-Net(我们的)98.193.597.590.193.384.190.084.66104PN_VLADPCANLPD-NetMinkLoc3DPPT-Net(我们的)1004k903k802k701k6010098969410098969492905004096 2048 1024 512 010 2030920 5 10 15 2025880 5 10 15 20 25输入点(a) 不同点数Z轴旋转(度)(b) 不同旋转N-顶级候选数据库的数量(c) 不同尺寸N-顶级候选数据库的数量(d) 不同分辨率图4:(a)和(b):具有不同点数和不同旋转角度的鲁棒性分析。(c):金字塔点Transformer中局部k-NN图的不同k的烧蚀研究结果。(d):金字塔VLAD中不同分辨率点云的消融研究结果。方法牛津美国R.A.B.D.PN VLAD[47]80.194.593.186.5PCAN[57]86.494.192.387.0DAGC[45]87.794.293.388.5LPD-Net[30]94.695.495.692.5查询PPT-Net(我们的)MinkLoc3D[23]第二十三话96.998.897.794.2PPT-Net(我们的)98.499.799.595.3表3:在细化数据集上训练的不同地点识别方法的评估结果(AR@1%)。四个数据集。可以看出,性能 我们的方法优于其他先进的方法很大的差距。基线和细化数据集上的性能进一步证明了所提出的PPT-Net用于基于点云的地点识别的有效性。目视检查结果。我们还使用不同的地点识别方法对牛津数据集上的查询点云和前1个检索点云进行可视化,如图所示。5.可以看出,与其他先进方法相比,我们的PPT-Net能够成功检索出正确匹配相应的查询点云。稳健性分析。为了更全面的评估,我们在基线数据集上进行实验,以评估所提出的PPT-Net的鲁棒性。具体而言,我们研究了稀疏场景中不同方法的性能。在实验中,我们首先将4096个点分别随机抽样为2048、1024和512个点。然后,我们分别在不同数量的点上训练网络 如图4(a),我们报告了牛津数据集上AR@1%和AR@1的测试结果。可以发现,随着点数的减少,我们的PPT-Net的性能仍然可以保持较高的性能。然而,MinkLoc3D [23]的性能大大下降。一方面,由于MinkLoc 3D是基于体积表示的,与我们基于点的PPT-Net相比,它不能捕获点云LPD-Net PCANPN_VLAD图5:不同方法的检索结果示例。好.另一方面,MinkLoc3D忽略了整个点云的空间关系,因此无法获得有区别的局部特征。由于金字塔点Transformer模块,我们的PPT-Net可以捕获点云的多尺度空间关系,以生成点云的有区别的局部特征。因此,我们的方法可以在非常稀疏的点云的情况下获得更好的结果。我们还研究了我们的PPT-Net对旋转的鲁棒性具体来说,我们首先在没有旋转增强的基线数据集上训练网络。然后,在测试过程中,我们将输入点云分别旋转10◦、20◦和30◦。图4(b)中,我们显示了大学数据集(美国)上错误检索的场景的总数。在不同的旋转角度下。如果在前1个检索中存在错误匹配从图中可以看出,当旋转度增加时,我们的PPT-Net错误检索的场景数量少于其他方法。计算成本。如Tab.所示。4、研究了不同地点识别方法的计算量和内存需求。由于金字塔结构和分组操作,我们的PPT-Net与基于点的方法相比具有较低的可训练参数,包括PointNetVLAD,PCAN和LPD-Net。MinkLoc3DPN_VLADPCANLPD-NetMinkLoc 3DPPT-Net(我们的)k=10k=20k=30k=40分辨率=1分辨率=2分辨率=3分辨率=4平均召回率@1%失误次数N时的平均召回率(%)N时的平均召回率(%)6105方法参数FLOPs运行时间表4:不同方法的计算和存储器需求的评估。型号AR@1% AR@1[第38话]94.486.2PPT-Net w/o Graph Embedding96.090.5PPT-Net w/o Transformer97.392.1PPT网络98.193.5表5:PPT-Net中不同组件的消融研究。是一种基于体素的方法,采用MinkowskiEngine自动微分库[5]用于稀疏张量,因此其可训练参数较低。此外,MinkLoc3D使用简单的广义均值池[32]来生成全局描述符。与VLAD池化[1]相比,它具有较少的可学习参数。对于推理时间,我们的PPT-Net在每帧运 行 时 间 方 面 与 MinkLoc 3D 相 当 ( 21 ms vs.22ms)。由于MinkLoc3D在网络中使用稀疏的3DCNN,因此参数和FLOP比其他人低。4.3. 消融研究金字塔点Transformer。我们在基线数据集上进行了实验,以验证其有效性我们的金字塔Transformer如 Tab. 所 示 。 5 , 我 们 报 告 了 牛 津 数 据 集 上 的AR@1% 和AR@1。我 们将金 字塔点Transformer与PointNet++ [38]的类似结构进行了比较。可以看出,我们的PPT- Net以较大的幅度优于PointNet++。此外,我们还研究了局部k-NN图嵌入和Transformer对性能的影响。从表中可以发现,同时考虑局部k-NN图嵌入和Transformer可以达到最佳性能。局部k-NN图中的不同k。我们研究了局部k-NN图中不同k对位置识别性能图4(c),我们显示了牛津数据集上不同k的召回曲线从图中可以看出,当k设置为20时,我们的方法实现了最佳性能。由于我们使用金字塔点Transformer模块来增强点云的局部特征的区分度,因此局部k-NN图的大小k对检索性能没有明显的影响。表6:分组的自我注意中不同数目的组G分组自我注意中的不同G。在这里我们研究了分组数G对分组自我注意的影响。如Tab.所示。6,我们 在 牛 津 数 据 集 上 报 告 了 我 们 的 PPT 网 络 的AR@1%,AR@1。可以发现,G=8实现了最佳性能。注意,当G被设置为1时,分组的自注意力是原始的从表中可以发现,分组的自注意可以在降低计算成本的同时保持自注意的性能金字塔VLAD中的不同分辨率。我们进行实验,以证明我们的金字塔- mid VLAD模块的有效性。由于我们的PPT-Net使用四种不同分辨率的点特征图,因此我们研究了不同分辨率对性能的影响。图4(d),我们示出了在牛津数据集上具有不同分辨率的点云的召回曲线。 可以发现当使用所有四种分辨率时,我们的方法可以实现最佳性能。与点云的单尺度描述子相比,多尺度描述子可以捕获不同程度的点云密度变化。因此,我们可以获得更多的歧视性的全局描述符,有效的检索。5. 结论在本文中,我们提出了一种新的金字塔点云Transformer网络(PPT-Net)的点云为基础的地点识别。为了提取点云的局部特征,提出了基于分组自关注的金字塔点Transformer模块 在多尺度区域的点云来表征空间关系。为了将点云的局部特征聚合成有区别的全局描述符,我们开发了金字塔VLAD模块,其使用上下文门控机制将由VLAD池化生成的多尺度描述符聚合成有区别的全局描述符。牛津数据集和三个内部数据集上的实验可以证明所提出的方法的有效性的点云为基础的地方识别任务。致谢本工作得到了国家自然科学基金(批准号:U1713208、61876084)。组AR@1%AR@1FLOPsG=197.592.63.8GG=297.992.93.6GG=498.093.13.4GG=898.193.53.2GG=1697.492.03.0G每帧PN VLAD[47]19.78M4.2G25msPCAN[57]20.42M7.7G72MsLPD-Net[30]19.81M7.8G35msMinkLoc3D[30]1.10M1.8G21msPPT-Net(我们的)13.12M3.2G22ms6106引用[1] Relja Arandjelovic、Petr Gronat、Akihiko Torii、TomasPajdla和Josef Sivic。NetVLAD:用于弱监督位置识别的Cnn架构。在CVPR,2016年。[2] 蒂姆·贝利和休·杜兰特-怀特同时定位和地图绘制(SLAM):第二部分. IEEE机器人自动化杂志,13(3):108± 117,2006。[3] Fengkui Cao , Yan Zhuang , Hong Zhang , and WeiWang.城市环境中基于激光的SLAM中的鲁棒位置识别和环路闭合。IEEE Sensors Journal,18(10):4242±4252,2018。[4] 程明美,乐辉,谢金,杨健。SSPC-Net:半监督语义3D点云分割网络。在AAAI,2021年。[5] Christopher Choy,JunYoung Gwak,Silvio Savarese.4D时空卷积:Minkowski卷积神经网络。在CVPR,2019年。[6] KonradPCop , PauloVKBo rges , andRenaudDube.DELIGHT:使用LiDAR强度进行全局定位的有效描述符。在ICRA,2018年。[7] Zihang Dai , Zhilin Yang , Yiming Yang , JaimeCarbonell , Quoc V Le , and Ruslan Salakhutdinov.Transformer-XL:超越固定长度上下文的注意语言模型。arXiv预印本arXiv:1901.02860,2019。[8] Haowen Deng , Tolga Birdal , and Slobodan Ilic. PPF-FoldNet:旋转不变3D局部描述符的无监督学习。在ECCV,2018。[9] Haowen Deng , Tolga Birdal , and Slobodan Ilic.PPFNet:全局上下文感知局部特征,用于鲁棒的3D点匹配。在CVPR,2018年。[10] Haowen Deng,Tolga Birdal,and Slobodan Ilic.用于直接成对配准的3D局部特征。在CVPR,2019年。[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。[12] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变压器arXiv预印本arXiv:2010.11929,2020。[13] Juan Du,Rui Wang,and Daniel Cremers. DH3D:用于鲁棒的大规模6DoF重新定位的深度分层3D描述符。在ECCV,2020年。[14] 休·杜兰特-怀特和蒂姆·贝利。同时定位和映射:
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功