LPD-Net：基于点云的大规模地点识别与环境分析方法

158 浏览量更新于2023-10-13 收藏 2.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2831LPD-Net：用于大规模地点识别和环境分析的刘哲1，周顺波1，锁传哲1，尹鹏3，陈文1，王和生2，李浩昂1，刘云辉11香港中文大学2上海交通大学3卡内基梅隆大学摘要基于点云的地点识别仍然是一个开放的问题，由于难以从原始的3D点云中提取局部特征在本文中，我们开发了一种新的深度神经网络，称为LPD-Net（大规模地点描述网络），它可以从原始3D点云中提取有区别的和可概括的全局描述符。提出了自适应局部特征提取模块和基于图的邻域聚合模块，以端到端的方式提取大规模点云的局部结构，揭示局部特征的空间分布我们将所提出的全局描述子应用于基于点云的检索任务中，以实现大规模地点识别。比较结果表明，我们的LPD-Net是远远优于PointNetVLAD，达到了最先进的。我们还将我们的LPD-Net与基于视觉的解决方案进行了比较，以显示我们的方法对不同天气和光照条件的鲁棒性。1. 介绍大规模地点识别在机器人应用中具有重要意义，例如帮助自动驾驶车辆获得闭环候选，实现精确定位和构建无漂移的全局一致地图。S.基于视觉的位置识别已经被研究了很长时间，并提出了许多成功的解决方案。由于从局部场景的查询图像中提取视觉特征描述符的可行性，基于视觉的方法对于参考地图的地点识别取得了良好的检索性能。* 通讯作者： H. 王 . 前三位作者贡献相当。联系方式：zheliu@cuhk.edu.hkwanghesheng@sjtu.edu.cn，yhli-u@mae.cuhk.edu.hk。图1.大规模环境中的位置识别。我们使用从原始3D点云数据生成的全局特征描述符来完成位置识别任务。下面显示了两个不同天气和光照条件的示例。[19，9]。然而，基于视觉的解决方案对季节、光照和视点变化不鲁棒，并且还遭受在恶劣天气条件下的地点识别任务中的性能降级。考虑到基于视觉的方法的上述限制，基于3D点云的方法提供了一种替代选项，其对季节和照明变化更加鲁棒[22]。通过直接使用每个点的3D位置作为网络输入，PointNet [11]提供了一个简单有效的点云特征学习框架，但由于忽略了点的局部结构信息，无法捕获点云的细粒度模式。受PointNet的启发，已经提出了不同的网络[13，23，17，5]和2832实现了先进的点云分类和分割结果，并考虑了良好的学习局部特征。然而，很难直接实现这些网络来提取大场景中点云的有区别的和可推广的全局描述符。另一方面，PointNetVLAD [22]被提出来解决大规模场景中的点云描述问题，但它忽略了相似局部特征的空间分布，这对于提取大规模动态环境中的静态结构信息非常重要。为了解决上述问题，我们提出了LPD-Net来从大规模点云数据中提取具有区分性和可推广性的全局特征。如图所示1、基于生成的全局描述符，解决了大规模地点识别的点云检索问题。我们的贡献包括：1）我们以自适应的方式引入局部特征作为网络输入，而不是仅仅考虑每个孤立点的位置，这有助于充分学习输入点云的局部结构。2）在特征空间和笛卡尔空间提出了一种基于图的聚合这有助于学习大规模环境的判别性和可推广的全局描述符。3）将全局描述符用于基于点云的检索任务，实现大规模的地点检索。我们的LPD-Net 在基于点云的检索任务中优于PointNetVLAD，达到了最先进的水平。更重要的t天气和光照条件。2. 相关工作手工制作的局部特征，如直方图特征[14]，基于内部距离的描述符[8]和热核签名[21]，广泛用于基于点云的识别任务，但它们通常是为特定应用设计的，泛化能力较差为了解决这些问题，提出了基于深度学习的点云特征描述方法。卷积神经网络（CNN）在常规2D图像数据上取得了惊人的特征学习效果然而，由于三维点云数据的无序性，目前基于CNN的方法很难一些研究尝试通过由常规3D体积表示描述原始点云来解决该问题，诸如3D ShapeNets [26]、VoxNet [10]、体积CNN [12]、VoxelNet [28]和3D-GAN [25]。其他一些方法，如DeepPano [18]和Multiview CNN [20]，将3D点云投影到2D图像中，并使用2D CNN来学习特征。怎么-呃，这些方法通常引入量化误差和高计算成本，因此难以捕获高-分辨率高，更新速度快。PointNet [11]首次直接从原始3D点云数据中实现了特征学习作为增强版本，PointNet++ [13]引入了分层特征学习，以随着尺度的增加学习局部特征，但在学习过程中，它仍然只独立操作每个点。由于忽略了局部点云之间的关系，使得对输入点云局部结构的揭示能力受到限制。为了解决这个问题，DG-CNN [23]和KC-Net [17]分别通过动态图网络和核相关性挖掘邻域关系。此外，[5]通过同时在特征空间中执行kNN算法和在初始词空间中执行k-means算法来捕获局部特征。然而，它们以忽略特征分布信息为代价获得细粒度特征。更重要的传统的基于点云的大规模地点识别算法[6]通常依赖于全局的、离线的、高分辨率的地图，并且可以实现厘米级的本地化，但是代价是耗时的离线地图配准和数据存储要求。SegMatch [4]提出了一种基于局部段描述的地点匹配方法，但他们需要通过积累原始点云流来构建密集的局部地图，以解决局部稀疏性问题。PointNetVLAD [22]实现了最先进的位置识别结果。然而，如前所述，它没有考虑局部结构信息，忽略了局部特征的空间分布然而，这些因素在我们的消融研究中得到了证明，这将大大提高位置识别的结果。3. 网络设计我们的LPD-Net的目标是直接从原始3D点云中提取有区别的和可推广的全局描述符，并在此基础上，解决点云检索问题。使用提取的全局描述符，计算和存储的复杂性将大大降低，从而使实时位置识别任务。我们相信，所获得的位置识别结果将极大地促进机器人和自动驾驶应用中的环路闭合检测、定位3.1. 网络架构正如我们上面提到的，大多数现有的工作都是在小尺度对象点云数据上完成的（例如，ModelNet [26]和ShapeNet [27]），但对于大规模环境来说情况并非如此，因为这样的点云主要由场景中的不同对象组成，并且在对象之间具有未知的关系。相比之下，我们针对大规模环境进行了定制，并提出了一个具有三个主要模块的网络，1）特征网络2833λ23λiλλλλλλλ1我图2. LPD-Net架构。该网络以原始点云数据为输入，采用自适应局部特征提取方法获得点云分布和增强的局部特征，并通过图神经网络在特征空间和笛卡尔空间进行聚合然后，NetVLAD [1]利用所得到的特征向量来生成全局描述符。(FN)2）基于图的邻域聚合，以及3）NetVLAD [1]。LPD-Net的完整网络架构如图所示. 2. NetVLAD的目的是聚集本地特征描述符，并生成输入数据的全局描述符向量。与[22]类似，网络的损失函数使用基于度量学习的惰性四元组损失，从而在训练过程中减少正样本距离，扩大负样本距离，以获得唯一的场景描述向量。此外，它已被证明是置换不变的，因此适用于三维点云。3.2. 功能网络现有网络[11，13，22]仅使用点位置3.2.2自适应局部特征提取我们通过考虑每个点i周围的局部3D结构来引入局部分布特征。计算k个最近邻点，并将相应的局部三维不失一般性，我们假设i≥λ i≥λ i≥0表示对称正定协方差矩阵的特征值。根据[24]，以下测量可以用于从局部结构的角度描述局部结构的不可预测性香农信息熵理论Ei=−LilnLi−PilnPi−SilnSi，（1）作为网络输入，局部结构和点分布其中，Li=i−i12，Pi=1i−i23我1所以i=我3代表-1没有被考虑。这限制了特征学习能力[7]。局部特征通常表示每个点的局部邻域中的广义信息，并且它已成功地应用于不同的场景解释应用[24，4]。受此启发，我们的FN引入局部特征来捕获每个点周围的局部结构。分别对每个点的局部邻域这些特征描述了每个点周围的1D、2D和3D局部结构[24]。由于点云中的点分布通常是均匀的，因此我们通过在不同的k值上最小化Ei来自适应地选择每个点i的邻域，并且最佳邻域大小被确定为3.2.1特征网络结构我选择= argmin E i（k）。（二）K原始点云数据同时输入到输入变换网络[11]和自适应局部特征提取器（将在第3.2.2节中介绍），前者旨在确保旋转平移不变性[11]后者旨在充分考虑输入点坐标的统计局部分布特征。需要注意的是，在大规模场景中获取的点云往往存在局部点分布不均匀的情况为了解决这一问题，本文提出了一种自适应邻域结构，根据不同的情况选择合适的邻域大小来融合每个点的邻域信息。然后，我们映射上述两种特征（适合于描述大规模场景的局部特征可以分为四类：基于特征值的3D特征（F3D）、由3D点在水平面上的投影产生的特征（F2D）、基于法向量的特征（FV）和基于Z轴统计的特征（FZ）。已有的研究已经验证了F3D、FV和FZ在解决大规模3D场景分析问题方面是有效的[24]，F2D和FZ在解决自动驾驶任务中的大规模定位问题方面是有效的[3，4]。考虑到特征的冗余性和可区分性，我们选择了以下十个局部特征来描述每个点i周围的局部分布和结构信息：λi连接操作）到高维空间，• F3D特征：曲率变化Ci=2003年3月，我.j=1 λj最后使FN的输出对空间不变性三季三ij=1j通过特征变换网络进行变换。全方差Oi=Σ3j=1我，线性Li=JλKλ2834λ2名D，1名λJ(a)FN-原始结构（O）（b）FN-串联结构（S）（c）FN-并联结构（P）图3.用于特征转换和关系提取的不同网络结构λi−λi，特征值熵A=− <$3（λ ilnλ i），1 2ii=11Ki和局部点密度Di=43opt3我j=1j• F2D特征：2 D散射Si，2D=λi我2名D、2名和2D线性L我为2D，2，其中λi和i，2D我2名D，1名2名D，1名我2名D、2名表示对应二维协方差矩阵。• F-V功能：法向量Vi的垂直分量。• FZ特征：最大高度差ΔZi ，max和高度方差σZi ，var。3.2.3特征变换与关系提取在自适应局部特征提取模块的输出中，由于我们将邻域结构合并到邻域中心点的特征向量中，因此每一个数据都可以看作是对周围邻域然后在图1所示的特征变换模块中设计了三种结构。2.进一步揭示地方特色之间的关系：• FN-原始结构（图图3（a））：两个输出是通过对fF执行kNN操作的特征向量fF和邻域关系向量fR。• FN系列结构（图3（b））：两个输出是已经由变换网络[11]变换的特征向量f F T，以及通过对f FT执行kNN操作的邻域关系向量f RT。• FN-并联结构（图3（c））：两个输出是特征向量fF和邻域关系向量fRT，其中fRT与FN系列结构中的fRT相同。第4.2节中的消融研究表明，FN-平行结构是我们病例中的最佳结构。图4.图表表述。注意，每个点的感受野对应于原始点云中的局部邻域，因为FN已经将局部结构引入到每个点的特征中。然后我们利用GNN进行特征聚合。图5.基于特征空间图的邻域聚合。3.3. 基于图的邻域聚合与物体点云不同，大规模环境的点云大多包含多个局部三维结构（如平面、角点、形状等）。周围的物体。位于点云的不同部分中的相似的局部3D结构通常具有相似的局部特征。它们的空间分布关系在位置描述和识别任务中也是非常重要的。我们将图神经网络（GNN）[2]中的关系表示引入到我们的LPD-Net中，它使用结构化表示来获取组成及其关系。具体来说，我们将场景的合成表示为图模型中的节点（图11）。4），并表示其内在的关系，并通过GNN生成唯一的场景描述符。λQ+λλλJJ.2835JIJ(a)Prarllel-Concatenation结构（PC）（b）Serial-Maxpooling结构（PM）（c）Series-FC结构（SF）图6.用于功能聚合的不同网络结构3.3.1图神经网络结构特征网络的输出（特征向量和邻域关系向量）被用作图网络的输入，并且在特征空间和笛卡尔空间两者中执行特征聚合如图5、在特征空间中，我们通过多次kNN迭代为每个点i构建动态图Gi，d更具体地，在每次迭代中，前一次迭代的输出特征向量被用作网络输入，并且通过找到具有最近特征空间距离的k个邻居来对每个点进行kNN聚合。这类似于CNN，以实现多尺度特征学习。每个点特征P1被视为图中的节点每条边m表示特征空间中p i与其k个最近邻p m之间的特征空间关系，并且m被定义为m=p i-p m，m= 1，2，.，K.所述mlp• 并行最大池化结构（PM，图6（b））：通过最大池化层直接整合两个模型的输出特征向量，取最大值以生成统一特征向量。• 系列-FC结构（SF，图图6（c））：一个模块的输出特征向量被用作另一个模块的输入特征。4.1节中的实验结果表明，具有图1中所示的顺序6（c）是我们情况中最好的一个3.4. 讨论基于所提出的LPD-Net，我们可以通过研究所有全局描述符的统计特性来分析环境，例如计算ij ij j网络被用于更新相邻关系，并且最大池化操作被用于将k个边缘信息聚集到特征向量中以更新点特征Pi。注意，由于特征空间中的基于图的特征学习，具有大笛卡尔空间距离的两个点的特征也可以被聚合以捕获相似的语义信息。此外，笛卡尔空间中的邻域信息也应该被关注。kNN-图网络也在笛卡尔空间中实现。节点和边在特征空间中被定义为相同的，唯一的区别是我们考虑了Eu-clidean距离来建立kNN关系。3.3.2功能聚合结构在LPD-Net中，特征空间和笛卡尔空间中的GNN模块分别聚合邻域特征和空间分布信息。我们设计了三种不同的结构来进一步聚合这两个模块：• Prarllel-级联结构（PC，Fig.图6（a））：将两个模块的输出特征向量合并，并通过MLP合并双维信息以聚合特征。两个位置之间的距离为L2，使用全局描述符，或者通过计算每个地方到所有其他地方的距离来评估每个地方的唯一性更多细节可以在我们的补充材料中找到。4. 实验LPD-Net的配置如表1所示。1.在NetVLAD [1，22]中，惰性四元组损失参数设置为α= 0。5，β= 0。2，P阳性= 2，P阴性= 18。我们在[22]提出的修改后的OxfordRobotcar数据集上训练和评估网络，该数据集包括来自原始Robotcar数据集的44个数据集，其中有21，711个训练子图和3030个测试子图。我们还将训练好的模型直接移植到内部数据集[22]进行评估，并验证其泛化能力。请注意，在所有数据集中，点数据已被随机下采样到4096个点，并归一化为[-1，1]。数据集的更多细节所有实验均在TensorFlow上使用1080Ti GPU进行。4.1. 地点识别结果所选Robotcar数据集包含在各种季节和天气条件以及不同时间收集的点云。我们在这些不同的集合中查询相同的场景2836表1.LDP-Net配置。NN-VLADFN-VLADFN-NG-VLADFN-DG-VLADFN-PM-VLADFN-PC-VLADFN-SF-VLADpoint-3MLP-10point-3ALF-10point-3ALF-10point-3ALF-10point-3ALF-10point-3ALF-10point-3ALF-10T-Net-3T-Net-3T-Net-3T-Net-3T-Net-3T-Net-3T-Net-3康卡特-13康卡特-13康卡特-13康卡特-13康卡特-13康卡特-13康卡特-13MLP-64MLP-64MLP-64MLP-64MLP-64MLP-64MLP-64MLP-64MLP-64MLP-64MLP-64MLP-64MLP-64MLP-64特征变换-64和关系提取-特征空间KNN（Kf）笛卡尔空间KNN（Kc）KNN-Kc*64MLP-64KNN-Kf*64EF-k*128MLP-64KNN-Kf*64EF-k*128MLP-64KNN-Kc*64MLP-64KNN-Kf*64EF-k*128MLP-64KNN-Kc*64MLP-64KNN-Kf*64EF-k*128MLP-64maxpooling-64maxpooling-64maxpooling-64康卡特-64maxpooling-64KNN-Kc*64MLP-64maxpooling-64FC-64公司简介公司简介L2归一化NetVLAD-DL2归一化惰性四重丢失ALF：自适应局部特征。图7.不同网络下的平均召回率表2.不同网络下top 1%（@1%）和top 1（@1）的平均召回率（%）的比较结果。平均召回率@1%平均召回率@1PN标准品四十六岁。5231岁87PN MAX七十三。87五十四16PN-VLAD基线水平81. 0162. 76PN-VLAD精炼八十7163岁33NN-VLAD（我方）79岁。2161岁96FN-VLAD（我们的）89岁。7775. 79FN-NG-VLAD（我们的）九十38七十七。74FN-DG-VLAD（我们的）91. 44八十14FN-PM-VLAD（我们的）91. 2078岁77FN-PC-VLAD（我们的）92. 2781. 41FN-SF-VLAD（我们的）94 9286岁。28*这个结果是通过使用他们的开源程序获得的。表3.不同网络下所需内存和计算量的比较结果。参数FLOPs一种新型的绞合机PN-VLAD基线1.978M411M13.09msFN-PM-VLAD（我们的）1.981M749M29.23msFN-PC-VLAD（我们的）1.981M753M27.03msFN-SF-VLAD（我们的）1.981M749M23.58msFLOPs：必需的浮点运算。用于地点识别任务。具体地说，我们使用LPD-Net来生成全局描述符，并查询具有最接近L2距离（在描述符空间中）的场景。2837测试场景，以确定它是否是同一个地方。与[22]类似，召回指数，包括平均召回@N和平均召回@1%，用于评估地点识别准确度。我们将我们的LPD-Net与具有maxpool层（PN MAX）的原始PointNet架构和在ModelNet（PN STD）中训练用于对象分类的PointNet进行比较，以查看在小规模对象数据集上训练的模型是否可以扩展到大规模案例。我们还将我们的LPD-Net与最先进的PN-VLAD基线和PN-VLAD优化进行了比较 [22] 。我们在牛津训练数据集上评估 PNSTD、PN MAX、PN-VLAD基线和PN-VLAD精化。PN STD、PN MAX、PN-VLAD基线和细化的网络配置设置为与[11，22]相同。比较结果如图所示。7和Tab。2，其中FN-PM-VLAD、FN-PC-VLAD和FN-SF-VLAD用三种不同的特征聚合结构PM、PC和SF表示我们的网络FN-VLAD是我们的网络，没有基于图的邻域聚合模块。DG和NG分别表示动态图和邻居图。此外，我们还设计了 NeuralNeighborVLAD 网络（ NN-VLAD），它使用kNN聚类（k=20）和mlp模块来代替第3.2.2节中提出的自适应局部特征提取模块。网络的输出也是一个10维的邻域特征，这些特征是通过网络学习获得的由于自适应局部特征提取和图神经网络模块，我们的LPD-Net在大规模环境下的地点识别方面具有优越的优势。此外，在三种聚合结构中，FN-SF-VLAD是最好的一种，远远超过Point-NetVLAD的81。01%到94。92%，最高1%（除非另有说明，否则LPD-Net代表本文中的FN-SF-VLAD）。在SF中，图神经网络在特征空间中学习相同语义信息的邻域结构特征，然后在笛卡尔空间中进一步聚合它们。所以我们相信顺丰可以2838opt了解邻域特征的空间分布特征此外，PC比PM更好，因为它保留了更多的信息.我们的网络和PN-VLAD基线所需的计算和内存如表1所示。3.对于我们最好的结果（FN-SF-VLAD），我们在检索结果（前1%）中增加了13.81%，平均每帧增加了10.49ms。表4.室内数据集评价结果（平均召回率为1%）。美国R.A.B.D.PN-VLAD基线72.6360.2765.30PN-VLAD细化90.1093.0786.49FN-SF-VLAD（我们的）96.0090.4689.14图8.不同邻域尺寸k的局部”[22]“我们也是这样的。门数据集[22]，如表4所示。请注意，我们只在OxfordRobotcar数据集上训练我们的网络，并直接在三个室内数据集上测试它，然而，PointNetVLAD-精炼结果是通过在Oxford数据集和室内数据集上训练网络获得的。4.2. 消融研究不同的局部特征：我们用不同的局部特征测试我们的LPD-Net，其中xyz-表示每个点的坐标，F2D和F3D在第3.2.2节中定义，FN表示具有所提出的十个局部特征的特征网络。总的来说，除了所提出的十个局部特征之外，我们还添加了四个F3D选项卡. 5表明F2D特征比F3D特征具有更大的贡献，并且额外的特征不有助于提高网络精度，因为一些特征是线性相关的。表5.不同局部特征的消融研究平均召回率@1%平均召回率@1xyz-SF-VLAD84. 7469岁。75FN（非F2D）-SF-VLAD九十76七十六。94FN（非F3D）-SF-VLAD91. 2379岁。11FN-SF-VLAD94 9286岁。28FN（全）-SF-VLAD92. 0381. 45特征提取表7.NetVLAD中不同特征维度D和视觉词数量K的消融研究平均召回率@1%平均召回率@1D256K 32九十三91八十五02D256K 6494 9286岁。28D256K 12892. 4782岁08D512K 3292. 9283岁01D512K 6494 66八十五80D512K 128九十三5884. 25图9.鲁棒性测试中位置识别错误的数量只有利用变换后的特征空间中的特征关系，保留原始特征向量，才能达到最佳的效果。请注意，在PointNet和PointNetVLAD中，它们使用S关系。局部特征提取中的不同邻居大小k：图12.8表明，在常数k的情况下，精度随着k的大小而降低。再训练（retrain）具有固定k的网络），精度仍然低于所提出的自适应方法的值（ki）。表6.不同特征相邻关系的消融研究平均召回率@1%平均召回率@1xyz系列-VLAD83岁2266岁。01xyz-并行-VLAD84. 7469岁。75FN-原始-VLAD（O）91. 53八十29FN系列-VLAD（S）92. 6081. 09FN-平行-VLAD（P）94 9286岁。28不同的特征邻居关系：我们用图中所示的不同特征邻居关系3. 选项卡. 6显示P优于O和S，这意味着NetVLAD中的不同K和D：NetVLAD具有两个独特的超参数：特征维度D和视觉词的数量K [1，22]。选项卡.图7表明，K和D的值应匹配，以达到良好的精度。本文中我们使用K= 64和D= 256所有上述消融研究均在robotcar数据集上进行。详细的结果示于图1中。10. 鲁棒性测试：我们旋转输入点云并添加10%的随机白噪声来验证LPD-Net的鲁棒性。结果示于图9、更多细节可以在我们的补充材料中可以找到。2839(a)（b）（c）（d）图10.消融研究结果：（a）不同的地方特色。（b）不同特征的相邻关系。（c）.局部特征提取中的不同邻居大小k。（d）.不同的特征维数D和NetVLAD中的视觉词数目K表8.与基于视觉的方法的比较（不同GPS位置边界的平均召回率@1：3 m/5 m/10 m/15 m）。黎明黄昏阴夏阴冬夜雨孙晚上我们的LPD-Net65.1/ 79.7/ 86.5/88.464.7/ 79.9/ 87.3/89.863.5/ 79.7/ 85.3/86.879.2/ 81.020.1/ 32.8/ 40.6/ 44.674.1/ 82.3/ 87.8/89.463.2/ 77.3/ 83.1/84.5HF-Net [15]71.2/ 81.0/ 84.754.1/ 85.8/ 92.655.5/ 78.8/ 83.2/31.3/ 75.4/ 86.9/89.52.7/ 6.6/ 10.5/ 11.454.6/ 68.3/ 75.7/81.72.1/ 3.9/ 7.1/ 7.3NZ [1]50.9/ 80.1/ 85.5/88.454.1/ 88.6/ 96.2/97.768.9/ 92.2/ 95.2/29.7/ 81.0/ 94.9/96.75.7/ 14.3/ 19.5/ 22.370.0/ 82.4/ 87.6/89.39.4/ 17.1/ 23.7/ 26.9[15]第十五话67.7/ 82.2/ 88.645.0/ 63.4/ 86.5/48.8/ 68.7/ 84.9/92.727.2/ 60.0/ 86.7/93.89.3/ 18.6/ 25.0/ 28.448.0/ 64.3/ 84.8/92.411.2/ 19.2/ 29.0/33.64.3. 与基于图像的方法的比较为了进一步研究我们的LPD-Net的优势，与最先进的基于图像的解决方案的初步比较结果显示在Tab.其中NV是纯NetVLAD方法，HF-Net和NV+SP在[15]中提出。这种比较是在Robotcar Seasons数据集[16]上进行的，我们通过使用Robotcar数据集的原始数据生成相应的点云。我们可以观察到，在大多数情况下，我们的基于点云的方法显示出与基于图像的方法相当的强大性能一个特殊的情况是夜雨场景，因为这里使用的点云数据是使用单线LiDAR和视觉测距法（VO）重建的，VO的不准确导致点云失真，从而导致结果降低。然而，我们仍然可以观察到，我们的方法显着优于其他方法在夜雨的情况下。图11示出了不同情况下的三个示例。在这些示例中，由于恶劣的天气和光照条件，基于图像的解决方案获得未成功检索的图像。然而，我们的LPD-Net获得了正确的结果。请注意，在此阶段所呈现的工作仅集中于基于点云的地点识别，然而，上述基于图像的解决方案是针对姿态估计任务而提出的，因此上述比较并不严谨。在未来，我们将改进我们的LPD-Net，以解决姿态估计问题。5. 结论在本文中，我们提出了LPD-Net，解决了大规模的点云检索问题，使可靠的地方识别可以成功地执行。图11.我们的LPD-Net和基于图像的解决方案NV+SP的检索结果示例 [15]。中间一列显示了查询图像和点云，左列显示了通过LPD-Net检索的点云及其对应的图像，右列显示了通过NV+SP检索的图像及其对应的点云。基准数据集上的实验结果验证了我们的LPD-Net是远远优于PointNetVLAD，达到了国家的最先进的。此外，与基于图像的解决方案的比较结果验证了我们的LPD-Net在不同天气和光照条件下的稳健性。谢谢。这项工作得到了中国自然科学基金U1613218基金、香港创新科技署ITS/448/16 FP基金、国家重点研发计划2018 YF-B1309300基金和香港中文大学T Stone机器人研究所VC基金4930745基金的支持。作者感谢上海交通大学胡汉江、哈尔滨工业大学刘应天和香港中文大学魏焕树2840引用[1] ReljaArandjelovic' ， PetrGronat ， AkihikoTorii ，TomasPajd-la，and Josef Sivic.Netvlad：弱监督位置识别的CNN架构。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，pages 5297[2] Peter W.杰西卡？巴塔利亚Hamrick和Victor Bapst。关系归纳偏差、深度学习和图形网络。在 arXiv ：1806.01261v2，2018.[3] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXi-a.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第6526[4] RenaudDube´，DanielDug as，ElenaStumm，JuanNieto，Roland Siegwart，and Cesar Cadena.Segmatch：3D点云中基于段的位置识别。在IEEE机器人和自动化国际会议论文集，第5266-5272页[5] Francis Engelmann ， Theodora Kontogianni ， JonasSchult，and Bastian Leibe.知道你的邻居在做什么：点云的三维空间分割。IEEE欧洲计算机视觉研讨会论文集，2018年。[6] Joscha Fossel，Karl Tuyls，Benjamin Schnieders，DanielClaes，and Daniel Hennes.快速八叉树曲面法线映射和配准.在IEEE/RSJ智能机器人和系统国际会议论文集，第6764-6769页[7] 李佳欣，Ben M. Chen，and Gim Hee Lee. So-net：用于点云分析的自组织网络。在IEEE计算机视觉和模式识别会议论文集，第9397-9406页，2018年[8] Haibin Ling和David W.雅各布斯使用内部距离的形状分类 IEEE Transactions on Pattern Analysis and MachineIntelligence，29（2）：286[9] 放大图片作者： John J. Leonard ， David Cox ， PeterCorke，and Michael J.米尔福德视觉位置识别：一个调查。IEEE Transactions on Robotics，32（1）：1[10] Daniel Maturana和Sebastian Scherer。Voxnet：用于实时对象识别的3D卷积神经网络。2015年IEEE/RSJ智能机器人和系统国际会议，第922-928页[11] Charles R.Qi ， Hao Su ， Kaichun Mo ， and LeonidasJ.Guibas Pointnet：对点集进行深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别会议论文集，第652-660页[12] Charles R. Qi ， Hao Su ， Matthias Niessner ， AngelaDai，Mengyuan Yan，and Leonidas J. Guibas用于三维数据对象分类的体积和多视图cnn。在IEEE计算机视觉和模式识别会议的论文集，第5648-5656页[13] Charles R.Qi，Li Yi，Hao Su， and Leonidas J.GuibasPoint- net++：度量空间中点集上的深度层次特征学习。在神经信息处理系统会议论文集，第5105-5114页[14] Radu Bogdan Rusu，Nico Blodow和Michael Beetz。快速点特征直方图三维配准。在IEEE机器人和自动化国际会议的Proceedings，第3212-3217页[15] Paul-Edouard Sarlin，Cesar Cadena，Roland Siegwart，and Marcin Dymczyk.从粗到细：鲁棒的大规模分层定位。在arXiv：1812.03506v2，2019.[16] Torsten Sattler 、 Will Maddern 、 Carl Toft 、 AkihikoTorii 、 Lars Hammarstrand 、 Erik Stenborg 、 DanielSafari 、 Masatoshi Okutomi 、 Marc Pollefeys 、 JosefSivic、Fredrik Kahl和Tomas Pajdla。变化条件下的6dof户外视觉定位基准在IEEE计算机视觉和模式识别会议论文集，第8601-8610页[17] 沈亦儒、陈锋、杨耀青、田栋。基于核相关和图池的点云局部结构挖掘。In Proceedings of the IEEEConference 计算机视觉和模式识别，第4548- 4557页，2018年。[18] 施宝光、宋白、周志超、向白。Deeppano：用于三维形状识别的深度全景表示。 IEEE Signal ProcessingLetters，22（12）：2339[19] 斯特凡诺·索阿托视觉中的可操作信息。在IEEE计算机视觉国际会议的Proceedings，第2138-2145页[20] Hao Su，Subhransu Maji，Evangelos Kalogerakis，andErik Learned-Miller.用于三维形状识别的多视图卷积神经网络。在IEEE国际计算机视觉会议集，第945-953页，2015年[21] Jian Sun，Maks Ovsjanikov，and Leonidas Guibas.基于热扩散的简明可证信息多尺度签名在Computer GraphicsForum，第1383-1392页，2009中。[22] Mikaela Angelina Uy和Gim Hee Lee。Pointnetvlad：基于深度点云的检索，用于大规模地点识别。在IEEE计算机视觉和模式识别会议论文集，第4470-4479页[23] Wang Yue，Yongbin Sun，Ziwei Liu，Sanjay E.作者声明：Michael M. Bronstein和Justin M. 所罗门用于点云学习的动态图cnn。在arX-iv：1801.07829v1，2018中。[24] 马丁·魏曼、鲍里斯·朱茨和克莱门特·马利特。 Seman-tic3D场景解释：一个框架相结合的最佳邻域大小选择与相关功能。 ISPRS Annals of the Photogrammetry ，Remote Sensing and Spatial Information Sciences ， 2（3）：181[25] Jiajun Wu ， Chengkai Zhang ， Tianfan Xue ， BillFreeman，and Josh Tenenbaum.通过3d生成对抗建模学习物体形状神经信息处理系统的进展，第82- 90页，2016年[26] 吴志荣，宋舒然， Aditya Khosla ， Fisher Yu ， Lin-guang Zhang ， Xiaoou Tang ， and Jianxiong Xiao. 3dshapenets：体积形状的深度表示。在IEEE计算机视觉和模式识别会议论文集，第1912-1920页2841[27] 放大图片作者：Li Yi. Kim ，Duygu Ceylan ，I-ChaoShen ， Mengyuan Yan ， Hao Su ， Cewu Lu ， QixingHuang，Alla Shef- fer，and Leonidas J.Guibas 三维形状集合中区域标注的可扩展活动框架ACM Transactions onGraphics，35（6）：210，2016。[28] 尹周和昂塞尔·图泽尔。Voxelnet：基于点云的3D对象检测的端到端学习。在IEEE计算机视觉和模式识别会议论文集，第4490-4499页

下载后可阅读完整内容，剩余1页未读，立即下载