L3-Net：基于学习的自动驾驶LiDAR定位

7 浏览量更新于2023-10-18 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1L3-Net：基于学习的自动驾驶LiDAR定位卢伟新周尧郭伟万申花侯世玉宋<$百度自动驾驶事业部（ADU）{luweixin，zhouyao，wanguowei，houshenhua，songshiyu}@ baidu.com摘要我们提出了L3-Net -一种新型的基于学习的LiDAR定位系统，可实现厘米级的定位精度，与现有的手工制作管道的最先进系统相当而不是依赖于这些手工制作的模块，我们创新地实现了使用各种深度神经网络结构来建立基于学习的方法。L3-Net学习本地描述符，这些描述符针对不同的真实驾驶场景进行了专门优化。在解决方案空间中构建的成本体积上的3D卷积显著提高了本地化准确性。RNN被证明是有效的车辆的动力学建模我们使用新收集的数据集全面验证了我们的方法的有效性。在同一条道路和地区进行多次重复数据收集的试验，使我们的数据集成为测试本地化系统的理想选择。SunnyvaleBigLoop序列，在收集的映射和测试数据之间有一年1. 介绍近年来，自动驾驶在学术界和工业界都引起了极大的兴趣。一个精确和可靠的定位模块，估计自主车辆的位置和方向是非常关键的。在理想情况下，定位精度必须具体到厘米级，普遍达到亚度姿态精度。在过去的十年中，已经提出了几种方法，以实现这一目标的帮助下，三维光探测和测距（激光雷达）扫描仪[19，20，18，36，37，17，9，32]。典型的本地化管道通常包括几个具有某些变化的步骤，如图1所示。它们是特征表示方法（例如，点[2]、平面、极点、高斯条2.同等贡献†信件应发给的作者传统方法该方法最优构成PointNetCNNsRNNs图1：传统和建议的基于学习的方法的架构。在我们的方法中，L3-Net将在线LiDAR扫描，预构建的地图和预测的姿势作为输入，通过PointNet学习特征，在解决方案空间上构建成本卷，应用CNN和RNN来估计最佳姿势。在2D网格上[20，37，32]），匹配算法，离群值拒绝步骤（可选），匹配成本函数，空间搜索或优化方法（例如，穷举或粗到细搜索、蒙特卡罗采样或迭代梯度下降最小化）和时间优化或过滤框架。虽然其中一些在不同场景下的准确性和鲁棒性方面表现出了出色的性能，但通常需要大量的工程工作来调整管道中的每个模块并设计硬编码的特征和匹配方法。此外，这些手工制作的系统通常对运行的场景有很强的偏好。制造一个通用的定位系统，是适应所有具有挑战性的情况下，需要巨大的工程努力，这是不可行的。基于学习的方法为以数据驱动的方式解决上述问题开辟了一个全新的窗口好的方面是，很以这种方式，可以最小化人类标记工作，使其更有吸引力并且更具成本效益。因此，定位或其他3D63896390相关的几何问题自然非常适合使用数据驱动技术来解决。相反，基于学习的方法在冗余任务中表现出优异的性能这些例子表明，深度神经网络对于理解语义非常有效但对于与3D几何形状相关的任务（例如，定位问题），情况并非如此。在本文中，我们提出了一种深度神经网络架构，可以使用LiDAR扫描准确估计车辆传统手工制作的管道中的模块我们首先提取一组关键点，这些关键点由3D点的相邻点的特征值定义的线性和散射来评估[34]。受[7]的启发，使用单个迷你PointNet [27它们对点的某些统计属性进行编码，并通过我们的网络架构进行训练，以优化匹配鲁棒性，特别是在不同的场景中。我们的网络的关键设计是显着提高定位精度，产生可比的结果，手工制作的管道，在一个完全不同的成本量超过x×y×yaw维度由最近基于立体声的学习启发的3D卷积正则化[16]。最后我们计算所有维度的匹配概率，得到最优估计。通常通过诸如粒子滤波器的滤波方法建模的时间运动动力学被深度递归神经网络（RNN）隐式地封装。总结一下，我们的主要贡献是：• 据我们所知，这是第一个基于学习的LiDAR定位框架，直接处理点云并准确估计车辆• 3D卷积的新用途，用于学习如何在x×y×偏航维度上调整成本体积，从而提高定位精度。• 在各种城市道路上进行严格的测试，并发布了一个数据集，其中包括超过380公里的真实交通驾驶和在不同环境在相同的道路上，这非常适合本地化任务。2. 相关工作基于LiDAR的自动驾驶车辆定位已经研究了相当长的一段时间，因为与其他传感器相比，它具有精确性和可靠性。在本文中，我们总结了相关的工作。请注意，可能适用于我们的应用程序的通用点云配准方法超出了本文的范围。2.1. 基于几何的方法传统的LiDAR定位方法是基于几何的。它们严重依赖于几何约束来估计车辆的运动。最直接的方法是应用点云配准算法来解决运动问题。迭代最近点（ICP）[2]、G-ICP [30]和正态分布变换（NDT）[3]是可以考虑的常见配准算法。K. Yoneda和S. Mita [40]通过使用ICP将他们的在线点云与预先记录的点云地图对齐来可以考虑的另一个例子是S。Kato等人[13]提供了一个名为Autoware的开源平台。它提供了一套丰富的自动驾驶模块，包括支持ICP和NDT等配准方法的然而，已知这些配准方法对初始猜测非常敏感。它们在没有丰富3D特征的场景中失败，例如高速公路或其他开放空间。更普遍的策略是利用LiDAR强度并将解空间限制为仅三个自由度（x，y和偏航）=（x，y，θ），因为可以从惯性测量单元（IMU）和地平面的数字高程模型（DEM）估计其他元素（z，滚动和俯仰）=（z，φ，θ）J. Levinson和S. Thrun [19，20]提出了一种基于LiDAR强度的定位方法。与仅基于点云的几何信息的系统相比，LiDAR强度提供环境的更多纹理信息，例如道路车道标记，作为有价值的最近的几项工作[36，37，17，32]结合强度和海拔线索，以实现更强大和准确的结果。G. 湾及S. Song [32]通过自适应融合强度和高度线索实现5- 7cm RMS水平和垂直精度。该系统已被证明是更鲁棒的环境变化，如道路建设。R. Wolcott和R.Eustice [36，37]使用高斯混合图来捕获强度和高度。该系统在恶劣天气下表现良好，如下雪。一些作品[5，23]使用低端2D LiDAR定位车辆。但随着3D LiDAR扫描仪的零售价格不断下降，目前2DLiDAR相对于3D的成本优势将不复存在。其他作品[24，29，35]更多地关注使用Ibeo 3D LiDAR的高级驾驶辅助系统（ADAS），但这些目前超出了本文的范围。2.2. 基于学习的方法深度学习是一种受人类大脑结构和功能启发的机器学习技术。它在语义任务中表现出优异的性能，例如，检测，分类或分割。然而，它们通常不被认为是解决几何问题的有效方法，因为人类不擅长准确的计算。6391也可以在没有工具的情况下进行测量。据我们所知，现有的解决这些问题的方法很少。但与精心设计的手工管道相比，PoseNet[15]及其变体[14，25，31]试图解决视觉重新定位问题，其中准确的解决方案不是目标。PoseNet的改进[6，4姿态轨迹平滑，定位误差减小，但它们仍然不能满足自动驾驶应用的需求DeLS-3D [33]应用PoseNet的网络架构来解决视觉定位问题，但平移误差约为0.9-1.3m。一些现有的方法[41，7，10]也可以应用于解决点云的重新定位问题。但是，为了获得准确的匹配结果，方法，如ICP，仍然是必要的配准细化。[39]应用半手工深度神经网络LocNet来全局重新定位车辆，并再次使用ICP配准来获得准确的定位结果。最近，我。Barsan等人[1]提出了一种基于学习的定位方法，使用类似于[19，20，32]的LiDAR强度图像。与直接处理点云相比，它可以说丢失了可能由神经网络学习和编码的重要信息。在本文中，我们提出了一种新的基于学习的激光雷达定位系统，直接处理点云。它具有与最先进的手工本地化管道的性能相3. 问题陈述我们为基于LiDAR的本地化设计了一个深度学习框架，该框架使用在线LiDAR点云和预构建的3D点云地图。在线 LiDAR 点云可以是来自安装在车辆上的LiDAR设备的单个或多个连续帧，从考虑运动补偿的多个LiDAR扫描中累积。经修饰的序列表示为一组3D点{P，|i=1，…n}，其中每个点Pi是（x，y，z，r）的向量，包括其坐标和re。在本地车辆或LiDAR坐标系中的弯曲强度。预构建的3D点云地图是具有由测量或测绘车辆收集的全局坐标的LiDAR点的集合。为了更好的存储效率，使用体素网格过滤器对3D点云图进行下采样此外，我们使用PointNet++ [28]执行语义分割，以去除车辆，自行车，行人等动态对象，在点云地图中。除了在线点云和预先构建的地图之外，我们的定位框架的输入还包括通常由惯性测量生成的预测姿态IMU（惯性测量单元）或车辆动力学（运动模型）。它测量连续Li-DAR帧之间的增量运动。因此，任务是通过最小化在线点云和3D地图之间的匹配成本来寻求最终姿态和预测姿态之间的最佳偏移。为了更好的效率和鲁棒性，我们遵循最先进的定位系统，并且仅估计2D水平偏移和航向偏移（θx，θy，θy）。4. L3-Net本节详细描述了为基于学习的LiDAR定位问题设计的拟议网络的架构，即所谓的L3-Net，如图2所示。4.1. 关键点特征第一步是从一组局部补丁中提取局部特征描述符，我们称之为关键点。关键点的选取从不同的角度考虑了局部和全局的几何特征在关键点选择之后，使用PointNet的迷你版本提取特征描述符[27]。关键点选择给定在线LiDAR点云，我们提取固定数量的关键点，考虑一些因素，包括密度，几何特征和距离。首先遍历所有的点，并在其邻域内找到具有足够点密度的候选点其次，我们使用众所周知的3D结构张量[34]评估每个候选关键点具有强线性和散射结构的特征第三，根据候选关键点的线性和离散性，对候选关键点进行组合几何特征从最重要到最少，我们尝试选择最少数量的关键点，并确认新选择的关键点与现有关键点保持足够的距离第5.1节详细讨论了实施的参数和阈值。描述符提取一旦选择了所有合格的关键点，我们就为它们提取有意义的特征描述符。传统上，使用简单的几何或统计特征来描述使用由深度网络学习的特征的点云之间的相似性在提出的方法中，我们通过应用PointNet [27]提取特征描述符，这是解决网络架构中消耗无序点问题的先驱工作对于每个关键点，我们收集64个相邻点。对于每个相邻点，关键点的相对坐标及其反射强度（x，y，z，r）用于描述符6392三维CNN边际化��−�� −��RNNsGT偏移减少平均LSTMLSTMLSTM（，，）��LSTMLSTMLSTM共享��×��×��小型PointNet小型PointNet减少总和RNNsRNNs小型PointNet估计偏移加权总和��×��×��×��×��×��概率向量��×��（，，）��×��小型PointNet共享图2：拟议的基于学习的LiDAR定位网络L3-Net的架构。在第一个训练阶段，只涉及黑色箭头，包括关键点选择，mini-PointNet特征提取和基于3D CNN的正则化。青色箭头指示第二训练阶段，其中添加了基于RNN的时间平滑度。萃取因此，mini-PointNet网络的输入是64 ×4张量，输出是表示关键点块的局部特征的32维向量。更具体地说，迷你版PointNet如图所示。2包括：3的多层感知器（MLP）堆叠全连接层和最大池化层以聚合并获得特征描述符。我们使用参数共享的mini-PointNet结构，用于在线点云和离线地图的4.2. 成本体积和3D CNN下一步是构建一个网络，以准确地传递定位偏移（λx，λy，λ m）。这是通过在解决方案空间（x，y，x）中构建成本体积来完成的，并使用3D卷积神经网络（3D CNN）对其进行正则化首先，我们将解空间划分为x，y和n维的离散空间，并表示为nx，ny，n 表示每个维度的大小。在下文中，我们表示{f1，...，f N}作为在线LiDAR点云的关键点描述符。因此，成本量为N×nx×ny×n。每个像元表示相应关键点与3D地图点与给定的偏移量。给定预测的姿态，在线点云的所有局部关键点都将转换为它们的全局坐标。然后，我们在x，y和偏航维度上划分预测姿态的邻域，表示为{（x i，y j，k）}。|1≤i≤n x，1 ≤j≤ny，1≤k≤ n nn n}。中的相应坐标可以使用由2 ×2旋转矩阵和2D平移向量表示的变换来计算3D映射：然后，再次，在3D地图中的计算出的相应的坐标的相邻点用于通过mini-PointNet结构提取成本体积中的每个单元与来自在线点云的原始关键点相关，该此外，还应用双线性插值滤波器从具有其在x和y维度上的四个相邻点的地图中细化相应的特征描述符。作为桥接关键点特征和正则化网络的核心步骤，变换和双线性插值是可微的，从而在训练阶段期间通过反向传播实现mini-PointNet结构中的特征学习。利用在线点云和地图的描述符对，我们可以形成在偏移量解空间中的一个N×nx×ny×n的体积，通过计算它们之间的度量距离，即正则化网络的输入。度量距离是一个32维向量，其中每个元素通过与描述符对中对应的一个元素的L2距离给定上述输入，我们希望学习一个正则化函数，它能够考虑本卷的上下文并细化匹配成本。偏移空间中的匹配成本是为每个关键点独立计算的，因此它们永远不会完美，即使它们使用深度特征表示。受最近基于学习的立体方法的启发[16，38，21，11]，我们将3D卷积应用于体积正则化。在第6.3节中，我们展示了3D的有效性。.Σ ∫x′y′=cosk−sinksinkcosk，的。ΣX·y.+ ∆xi阿吉吉Σ.（一）CNN以及它们如何帮助显着提高定位我们的3D CNN由三层组成;前两个3D卷积层使用ReLU单元和批量归一化，其中批量包括来自共享权重��×��×��×��(, , )( , , )( , , )��×��×��×��×��63932单帧最后一个卷积层直接发送其输出，省略了归一化和激活操作。3D CNN在每个nx×ny×n 个子体积上执行，并且它们共享相同的参数，这显著提高了收敛速度，有效地避免过度拟合。4.3. 概率偏移量在第4.2节中，我们独立地计算每个关键点的所有偏移配置{x i，y j，k}的匹配成本。在本节中，我们引入一个概率偏移量来表示偏移空间中所有关键点的一致性，它是一个n xx n yx n的概率偏移量。它代表-对在线点之间的整体匹配成本表示不满云和给定偏移的3D地图。边缘化假设所有关键点彼此独立，则偏移的匹配概率可通过以下公式计算ΔT=（Δxi，Δyj，Δk）QNing：P（T），其中P（T）表示匹配传播直方图滤波器内的历史分布，以估计当前匹配分布，这确保了输出的时间平滑性。基于这种精神，我们引入了递归神经网络（RNN）来实现类似的时间平滑。更具体地说，我们在网络中使用LSTM [8]，如图2所示。来自概率偏移量的每个维度（x，y，x）的概率向量被视为每个参数独立RNN单元的输入。通过RNN对历史信息的学习，定位结果的轨迹更平滑、更准确，如第二章表3所示。六、4.5. 损失与使用特征空间距离作为损失的先前工作[41，7]不同，我们直接将损失定义为f集合T=（f_x，f_y，f_y）的估计值与f集合T =（f_x，f_y，f_y）的估计值之间的平方L2距离。地面真实值T=（x，y，）。估计偏移量可通过以下公式计算：i=1第i个关键点在偏移ΔT处的概率。由于乘积很容易引起溢出，因此将上述等式转换为对数似然：∆ˆT=( Σnxi=1Pi（xi）·xi，Σnyj=1Pj（yj）·yj，Σnψk=1Pk（k）·k）C（C）-YNi=1Pi（πT））=ΣNi=1（log（Pi（πT）），（2）损失函数定义如下：（三）ˆ∗2ˆ∗2ˆ∗2其中C（BMT）表示抵销时的总匹配成本在线点云和3D地图之间的无缝连接在我们的实现中，我们将上述成本log（Pi（T））作为输入，然后通过应用reduce average操作将其边缘化为关键点维度上的nxxnyx nn个成本体积，这对应于总匹配成本C（BMT）。概率边缘化成本量中每个单元格的值是相应偏移量的总匹配成本。我们沿着x，y和yaw维度应用softmax操作，将匹配成本C（T）转换为归一化值，解释为概率P（T）。在第6.3节中，我们可视化了在给定偏航角的情况下，匹配成本和概率偏移量在x-y维中的分布。最后，我们将概率偏移量P（t）边缘化为跨x，y的概率向量，以及通过应用一个re-dudu-c-sum操作来对多个参数进行重新定义损失=α·（x−x+y−y）+−，（四）其中α是平衡因子。5. 实现细节5.1. 超参数在关键点选择过程中，我们在LiDAR点云的一帧内选择 128 个关键点。将成本体积的解空间设置为11×11×11，在x、y和x方向上的步长为0。25m，0. 25米，0。5分钟，分别因此，预测姿态的最大可承受偏移约为（0.25×11−1=1。25米，1. 25米，2. 5、这对我们的应用来说是足够的。在我们的实现中，mini-PointNet结构是64×32×32MLP ，3D CNN 是 Conv 3d （ 16 ， 1 ，1 ）-Conv 3d（4，3，1）-Conv 3d（1，3，1），RNN是一个具有11个隐藏状态的两层LSTM。Pi（xi）=Pk（k）=y，x，yP（T）.x，ΔP（ΔT）和5.2. 培训4.4.时间平滑度以上部分介绍了在线点云与地图之间的空间匹配。因此，连续帧的概率偏移量是彼此独立的。然而，定位任务是一个顺序的过程，因此应该联合考虑在传统方法中[19，20，32]，6394我们在培训阶段采取两步战略。在第一步中，我们只训练mini-PointNet结构和3D CNN。为了实现这一点，我们首先删除网络架构中的RNN，并直接从概率偏移量推断的概率向量计算损失。批量大小和学习率被设置为1和0。01，分别。为了使前向特征更加鲁棒，我们在前向特征中加入了均匀分布6395随机噪声[0<$1. 0]m，随机误差为[0 ≤ 2. 0]在偏航维度中的值与输入预测姿态的值之比。在第二步中，我们训练RNN与mini-PointNet结构和3D CNN中固定的RNN。批量大小和学习率被设置为1和0。001，分别。我们在RNN训练期间对长度为10的序列进行采样。假设LiDAR帧的频率为10 Hz，则RNN的实际接收场约为1。0秒。在这两个步骤中，我们将数据集随机划分为训练集和验证集，从而使训练与验证的比例为4比1。当没有性能增益时，我们决定停止这两个步骤的100个6. 实验6.1. Apollo SouthBay数据集用于自动驾驶应用的基于LiDAR的定位系统中的常见传感器是360μ m3D Li-DAR。为了构建地图和测试系统，我们还需要在同一条道路上进行多次数据收集试验。据我们所知，没有公共数据集满足这一要求-如表1所示。因此，我们需要使用自己的车辆通过在旧金山湾区南部的不同区域行驶来收集数据，覆盖不同的场景，包括但不限于住宅区、城市中心区和高速公路，并构建新的数据集Apollo-SouthBay Dataset。我们为标准林肯MKZ轿车配备了Velodyne HDL-64 E激光雷达和用于数据收集的集成导航系统我们收集了几天、几周甚至一年的多次试验数据，以满足测绘、培训和测试车辆的需求这些历史数据目前正用于自动驾驶应用的地图构建和本地化系统的测试我们目前使用的是高端集成导航系统NovAtel ProPak 6，一种三频GNSS RTK接收机，以及IMU-ISA-100C，一种接近导航级的IMU。GNSS RTK/INS集成解决方案使用后处理软件，如NovAtel Inertial Explorer，被用作地面实况。总的来说，我们的数据集覆盖了380的驾驶距离。5公里，包含一组506，679个具有高质量地面实况的LiDAR帧阿波罗-南湾数据集即将发布。6.2. 性能训练和测试设置我们的数据集涉及六种不同的路线，如表 2 所示。在这些路线的前五个，BaylandsToSeafood，···，SanJoseDowntown ，映射/培训之间的收集时间间隔测试数据大约是一周。第六个是SunnyvaleBigLoop，它是最长的，覆盖了不同的场景，包括住宅区、城市道路和数据集长度地面实况360毫米激光雷达多项试验[26]第二十六话5.1kmCC×KITTI[12]39.2kmCC×[22]第二十二话1000.0kmC×C我们380.5kmCCC表1：我们的数据集与其他可用的相关数据集的比较。如上所述，只有我们的数据集完全满足自动驾驶应用程序本地化系统的地图构建和测试要求。高速公路被有意地从训练数据集中排除。请注意，SunnyvaleBigLoop在映射和测试数据收集之间有长达一年的时间间隔，这对本地化来说非常具有挑战性。映射过程需要多次重复的数据收集，以确保良好的数据密度取决于车辆这路线测绘培训测试Dist. (km)弗拉姆Dist. (km)弗拉姆Dist. (km)弗拉姆贝兰蒂海鲜24.9136,3044.155,5515.736,445哥伦比亚公园44.8369,55213.919,7058.5513,685237号公路29.5119,6254.822,0574.341,717MathildaAVE40.9950,6388.8310,5969.079,483圣何塞市中心23.2359,7745.6914,8496.1716,591SunnyvaleBigLoop108.1128,937--37.741,170表2：路线及其用于绘图、培训和测试目的的用途。映射、训练和测试数据之间的时间间隔约为一年（Sunny-valeBigLoop）和一周（其他）。定量分析我们提出的基于学习的本地化系统L3-Net已经在现实世界的驾驶场景中进行了广泛的测试定位性能与几种最先进的基于LiDAR的定位方法进行比较，例如Levinson等人。[20]和Wan et al.[32 ]第32段。Levinson等人的预建地图分辨率，万等人和我们的都是12岁。5厘米输入的预测姿态是从NovAtel中内置的紧密耦合的GNSS/IMU集成解决方案生成的，其中RTK被禁用，这与[20]中LiDAR本地化模块的使用相同，尽管目前，多传感器融合系统不是本文的重点。在[32]中使用了2-Systems模式，因为我们的重点是基于LiDAR的定位任务。在表3中，我们对每种可用的方法进行了定量分析它进一步证明了我们基于学习的L3-Net的本地化性能与现实世界驾驶场景中最先进的手工方法[32此外，请注意我们在 [20] 上的巨大性能改进。我们的系统在SunnyvaleBigLoop中的低定位误差表明，我们的网络-6396路线方法水平。RMS水平。Max久了RMSLat.RMS<0.1m便士<0.2m便士<0.3m便士哇。RMS哇。Max<0.1◦便士<0.3升便士<0.6公斤便士Levinson等人[20个]0.1481.5010.1150.07454.62%82.41%91.10%-----贝兰蒂海鲜Wan et al.[32个]我们的了（无RNN）0.0360.0540.2030.3280.0260.0410.0190.02698.88%94.49%百分之九十九点九八百分之九十九点七七百分之一百九十九点九五分0.0540.0290.3720.294百分之八十六点八二98.56%99.86%百分之一百百分之一百百分之一百我们的了（与RNN）0.0500.2090.0390.02496.48%99.89%百分之一百0.0200.17999.35% 百分之一百百分之一百Levinson等人[20个]0.0630.2020.0450.03487.30%百分之九十九点九九百分之一百-----哥伦比亚公园Wan et al.[32个]我们的了（无RNN）0.0460.0470.1600.1610.0340.0340.0240.02596.46%95.82%百分之一百百分之一百百分之一百百分之一百0.0810.0490.3840.32267.27%92.57%百分之九十九点七四百分之九十九点九九百分之一百百分之一百我们的了（与RNN）0.0430.1590.0320.023百分之九十八点零二百分之一百百分之一百0.0280.190百分之九十九点五百分之一百百分之一百Levinson等人[20个]0.1610.6220.1380.06137.05%69.90%86.09%-----237号公路Wan et al.[32个]我们的了（无RNN）0.0490.0530.1960.2570.0380.0460.0220.01993.27%92.05%百分之一百百分之九十九点七七百分之一百百分之一百0.0690.0480.3020.21178.12%94.51%99.94%百分之一百百分之一百百分之一百我们的了（与RNN）0.0450.1900.0340.02399.01% 百分之一百百分之一百0.0380.112百分之九十九点三百分之一百百分之一百Levinson等人[20个]0.1060.7790.0860.04465.20%百分之九十点四三94.83%-----MathildaAVEWan et al.[32个]我们的了（无RNN）0.0400.0540.1790.3790.0300.0400.0200.02898.72%96.82%百分之一百99.91%百分之一百百分之九十九点九九0.0600.0330.4530.67482.91%97.56%百分之九十九点七四百分之九十九点八三百分之一百百分之九十九点九七我们的了（与RNN）0.0510.1540.0400.025百分之九十八点八七百分之一百百分之一百0.0190.176百分之九十九点三一百分之一百百分之一百Levinson等人[20个]0.1030.5860.0750.05558.20%88.39%百分之九十七点七五-----圣何塞市中心Wan et al.[32个]我们的了（无RNN）0.0580.0570.2900.2880.0390.0370.0340.03787.72%89.81%99.55%98.93%百分之一百百分之一百0.0520.0330.2460.27487.82%百分之九十九点零二百分之一百百分之一百百分之一百百分之一百我们的了（与RNN）0.0550.2940.0360.03491.32% 百分之九十九点二百分之一百0.0340.221百分之九十八点八六百分之一百百分之一百Levinson等人[20个]0.1321.4230.0970.070百分之四十三点九五87.51%94.99%-----SunnyvaleBigLoopWan et al.[32个]我们的了（无RNN）0.0690.0600.3680.4510.0500.0390.0380.03780.86%88.24%百分之九十九点零八百分之九十八点九九99.96%百分之九十九点八五0.0810.0460.6790.40569.51%91.32%百分之九十八点六百分之九十九点九八百分之一百百分之一百我们的了（与RNN）0.0550.3470.0370.03292.42% 99.14% 99.94%0.0330.26296.44% 百分之一百百分之一百表3：与其他基于LiDAR的定位系统的比较。请注意，我们几乎匹配甚至具有精心制作的手工管道的最先进的系统[32]。我们对其他系统的广泛改进[20]是值得注意的。工作可以在新的道路场景中体面地推广在大多数路由中，RNN的时间平滑性给我们带来了更好的结果-方法水平。RMS水平。<10 cm标准件哇。RMS哇。STD<0.1◦便士这说明了它的有效性。PointNet0.1300.278 74.33%0.120.4081.57%PPFNet0.0850.122 79.68%0.070.1782.61%[32]第20话我的世界我们0.069 0.057 84.22% 0.06 0.05 83.29%6397表4：性能分析：以说明映射的处理时间和存储大小。运行时分析我们使用GTX 1080 Ti GPU、Core i7-9700 K CPU和16 GB内存评估了我们平台的运行时性能，如表4所示。关键点选取、差分变换和前向传递步骤分别需要31.0ms、22.7ms和67.6ms每帧的端到端总处理时间为121.3ms，从而产生实时系统。6.3. 消融和可视化我们使用第6.2节中介绍的相同训练和测试数据来更好地评估所提出的网络。特征描述符比较我们在描述符提取步骤中用我们的mini-PointNet结构代替PointNet [27]和PPFNet [7]，如表5所示。我们注意到，我们的mini-PointNet结构优于PointNet[27]和PPFNet [7]显著。在PPFNet中，全局特征被连接到局部特征以引入局部特征的空间关系直觉，我们的输入前-表 5 ：与各种网络结构的比较。我们提出的迷你PointNet更注重本地功能的好处是显而易见的。所述姿势已经足够准确，使得网络能够专注于局部匹配，因此在我们的任务中不需要此外，在我们的设计中，mini-PointNet的描述符大小和结构比PointNet小得多，使它们进一步专注于局部特征学习，从而在本地化任务而不是语义任务（如分类和分割）中获得更好的性能。方法水平。RMS水平。STD<10cm Pct.哇。RMS哇。STD<0.3升便士3D CNN×0.1340.07233.67%0.0890.07365.09%3D CNN↓0.1370.10837.35%0.0850.07384.03%3D CNN↑0.0600.05789.48%0.0470.041百分之九十点九四我们0.0650.05686.49%0.0560.04883.74%表6：与各种3D CNN设置的比较。请注意，减少或删除CNN层会产生更差的结果。3D CNN的重要性显而易见。6398∆��∆��-是的��°-�� . ��°��。��°��。��°∆��图3：第4节中不同阶段网络产出的可视化。成本体积在（x，y）维上可视化，具有固定的偏航值和选定的关键点。在我们累积所有关键点的匹配成本后，匹配响应明显显着，如中间的概率偏移量所示最终估计的偏移量◦ ◦（0。538米，0. 993米，1. 001）和他们的地面真理（0. 524米，0. 994米，1. 044）在右边显示。为了验证3D CNN的重要性，我们进行了以下实验：删除3D CNN，将层数从3减少到1，并将层数从3增加到4，表示为3D CNN ×，3D CNN ↓3D CNN ↑。我们的结果如表6所示，其中使用3D CNN×和3D CNN ↓，定位精度严重下降。这表明3D CNN可以学习真正的特征距离，并有效地正则化输出，与直接应用描述符对之间的L2更大容量的3D CNN导致更好的定位精度，然而，在训练中也需要更多的数据。在我们的方法中，我们使用3层作为默认设置。可视化为了更好地理解网络的机制，我们将成本量、概率抵消量和第4节中讨论的概率向量可视化。在图3中，左侧是在x，y维度中可视化的成本体积，在用3D CNN正则化之后，给定来自128个关键点中的20个的11个不同偏航在左侧，显示边缘化的成本量，该成本量是从所有关键点的成本量和对图的中心列进行softmax操作后的概率偏移量获得的。右侧显示了从概率偏移量、估计偏移量和地面实况偏移量中边缘化的概率向量可以看出，由于解空间上的几何唯一性不足，来自单个关键点的匹配成本估计是不可靠的。然而，概率偏移量中的匹配响应绝对在从所有关键点累积所有匹配成本之后清除。7. 结论我们提出了一种新的基于学习的LiDAR定位框架，专为自动驾驶应用而设计。传统本地化管道中精心手工制作的模块被基于学习的深度神经网络所取代。我们的系统实现了与现有最先进系统相当的定位精度，并已准备好用于工业用途。概率偏移量体现了在解空间mak上的匹配置信度。使其准备好部署在基于多传感器融合的定位框架中。一个360毫米的 3D激光雷达传感器，一个高端的集成导航系统和数据，包括在旧金山湾南部的同一道路区域驾驶的多次试验，使我们的数据集成为理想的基准定位系统。确认这项工作得到了百度自动驾驶事业部（ BaiduADU）和阿波罗项目（http://apollo.auto/）的支持。我们谨此感谢同事在整个项目期间的热心帮助和支持。Natasha Dsouza帮助进行文本编辑和校对。Yong Xiao和Runxin He帮助收集数据。刘玉处理测绘和测试数据。6399引用[1] I. A. Barsan，S.Wang，中国山核桃A.Pokrovsky和R.乌塔松学习使用激光雷达强度图进行定位。在机器人学习会议上，第605-616页，2018年。3[2] P. J. Besl 和 N.D. 麦凯一种三维形状配准方法 IEEETransactionsonPatternAnalysisandMachineIntelligence，14（2）：239-256，1992年2月。一、二[3] P. Biber和W.斯特拉瑟正态分布变换：激光扫描匹配新方法。在 Proceedings 2003 IEEE/RSJ InternationalConference on Intelligent Robots and Systems（IROS），第3卷，第2743-2748页，2003中。2[4] S. Brahmbhatt，J. Gu，K. Kim、J. Hays和J.考茨用于相机定位的地图的几何感知学习。在IEEE计算机视觉和模式识别会议中，第2616-2625页3[5] Z. J. 冲湾Qin，T.Bandyopadhyay、M.H. Ang、E.Fraz-zoli和D.罗斯合成2D激光雷达用于3D城市环境中的精确车辆定位。在 IEEE 机器人与自动化国际会议（ICRA），第1554-1559页，2013年5月。2[6] R.克拉克，S。Wang，中国山核桃A. Markham，N.Trigoni和H.文VidLoc：用于6-DoF视频剪辑重新定位的深度时空模型在 IEEE计算机视觉和模式识别会议（CVPR），第3卷，2017年。3[7] H.邓氏T. Birdal和S.伊利克PPFNet：全局上下文感知局部特征，用于鲁棒的3D点匹配。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。二三五七[8] J. 多纳休湖A. 亨德里克斯M.Rohrbach，S.VenugopalanS. 瓜达拉马湾Saenko和T.达雷尔。用于视觉识别和描述的长期 IEEE Transactions on Pattern Analysis andMachine Intelligence，39（4）：677-691，Apr. 2017. 5[9] R. Dub，M.G. Gollub，H.萨默岛吉利琴斯基河Sieg-wart，C. Cadena和J.涅托3-D点云中基于增量段的定位。IEEE Robotics and Automation Letters，3（3）：1832-1839，2018年7月。1[10] G. Elbaz，T. Avraham和A.费舍尔使用深度神经网络自动编码器进行定位的3D点云注册。在IEEE计算机视觉和模式识别会议（CVPR）中，第2472-2481页，2017年7月。3[11] J. Flynn ，

下载后可阅读完整内容，剩余1页未读，立即下载