LO-Net：深度实时激光雷达里程计

169 浏览量更新于2023-10-19 收藏 13.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Qing Li1, Shaoyang Chen1, Cheng Wang1, Xin Li2, Chenglu Wen1, Ming Cheng1, Jonathan Li1{hello.qingli,tinyyoh}@gmail.com, xinli@cct.lsu.ed, {cwang,clwen,chm99,junli}@xmu.edu.cn84730LO-Net：深度实时激光雷达里程计01 厦门大学，中国福建 2路易斯安那州立大学，美国路易斯安那州0摘要0我们提出了一种新颖的深度卷积网络流水线LO-Net，用于实时激光雷达里程计估计。与大多数现有的激光雷达里程计（LO）估计通过单独设计的特征选择、特征匹配和姿态估计流程不同，LO-Net可以以端到端的方式进行训练。通过新的加权几何约束损失，LO-Net可以有效地学习LO估计的特征表示，并可以隐式地利用数据中的时序依赖性和动态性。我们还设计了一个扫描到地图的模块，利用在LO-Net中学习到的几何和语义信息，提高估计精度。在基准数据集上的实验证明，LO-Net优于现有的基于学习的方法，并且与最先进的基于几何的方法LOAM具有类似的精度。01. 引言0估计移动平台的3D位置和方向是3D计算机视觉中的一个基本问题，它为机器人和自动驾驶提供重要的导航信息。移动平台通常通过实时感知环境并使用激光雷达、惯性测量单元（IMU）或相机等板载传感器来估计它们的运动。激光雷达可以获取不同环境的稳健特征，因为它不受光照条件的影响，并且比相机获得更准确的距离信息。因此，开发一个准确而稳健的实时激光雷达里程计估计系统是可取的。在姿态估计中使用的经典基于激光雷达的配准方法包括迭代最近点（ICP）[3]、ICP变种[24]和基于特征的方法[26]。但由于激光雷达点云的非均匀性和稀疏性，这些方法通常无法匹配这样的数据。ICP方法通过最小化这些扫描之间对应点的距离来找到连续扫描之间的变换，但一个帧中的点可能会因为扫描分辨率的稀疏性而丢失其空间对应物。基于特征的方法对扫描质量不太敏感，因此更强大。然而，它们通常计算开销更大。此外，大多数基于特征的方法对场景中的动态物体也很敏感。这两个问题阻碍了许多基于特征的方法产生有效的里程计估计。0掩码0掩码0里程计0S t0S t- 10卷积块0F-deconv0Fire模块0输入输出0里程计回归0正常0正常0法线估计0图1.顶部：LO-Net的数据流。底部：特征提取层（红色虚线）和掩码预测层（黑色虚线）的网络架构。我们的网络以两个连续的激光雷达扫描作为输入，并推断相对的6自由度姿态。输出数据将由映射模块进一步处理。0由于激光雷达点云的非均匀性和稀疏性，这些方法通常无法匹配这样的数据。ICP方法通过最小化这些扫描之间对应点的距离来找到连续扫描之间的变换，但一个帧中的点可能会因为扫描分辨率的稀疏性而丢失其空间对应物。基于特征的方法对扫描质量不太敏感，因此更强大。然而，它们通常计算开销更大。此外，大多数基于特征的方法对场景中的动态物体也很敏感。这两个问题阻碍了许多基于特征的方法产生有效的里程计估计。0最近，基于深度学习的方法在许多计算机视觉问题中表现出色。许多卷积神经网络（CNN）的架构和训练模型已成为这些任务中的最先进技术。然而，在某些3D几何数据处理问题（如6自由度姿态估计）中，对有效CNN的探索尚未取得成功。尽管最近已经探索了一些基于CNN的6自由度姿态估计（从RGB图像）策略[34, 43, 36,39]，但这些方法经常遇到以下问题：84740本文提出了一种新的深度神经网络架构用于激光雷达里程计估计。我们受到了最近基于CNN的相机定位和姿态回归工作[43, 2, 16,37]在网络结构设计方面的启发，以及传统的激光雷达里程计方法[41, 21,7]在激光雷达建图方面的启发。流程如图1所示。我们的方法通过结合成对扫描来更好地积累运动特定特征，通过应用法线一致性来更好地解释扫描之间的空间关系，并使用同时学习的不确定性掩码来更好地定位有效的静态区域。本文的主要贡献如下：1）我们提出了一种新颖的扫描对扫描激光雷达里程计估计网络，该网络同时学习估计法线和动态区域的掩码。2）我们将时空几何一致性约束引入网络，提供了连续扫描之间的高阶交互，并有助于更好地规范里程计学习。3）我们将一个高效的建图模块与估计流程相结合。通过利用从LO-Net学习到的法线和掩码信息，我们可以实现实时但更准确的里程计估计。我们将我们的方法与常用基准数据集KITTI [10, 11]和Ford Campus Vision and Lidar DataSet[22]上的现有代表性方法进行了比较。我们的方法取得了最先进的结果。据我们所知，这是第一个与3D激光雷达里程计估计中基于几何特征的最先进技术相媲美的神经网络回归模型。02. 相关工作0A. ICP变体0大多数现有的基于激光雷达的姿态估计算法都是基于ICP方法的变体构建的[3,24]。ICP通过迭代匹配相邻的扫描并估计姿态变换，通过最小化对应元素之间的距离，直到满足特定的终止条件。尽管ICP具有广泛的适用性，但它在计算上是昂贵的，并且对初始姿态非常敏感。为了改善ICP的收敛速度和对局部最小值的鲁棒性，开发了各种ICP变体，例如点对平面或平面对平面的ICP。Segal等人通过将点对点ICP和点对平面ICP相结合，引入了一种称为广义ICP（GICP）的平面对平面策略。局部表面的协方差矩阵用于匹配对应的点云。他们的结果显示比原始ICP更准确。Normal Iterative ClosestPoint（NICP）[29]考虑了每个局部表面点的法线和曲率。实验证明，NICP比GICP具有更好的鲁棒性和性能。0Grant等人提出了一种基于Hough投票方案的新型激光点云平面查找方法。采用了一种基于平面的配准方法来计算最终的变换。对于来自激光传感器的非均匀采样点云，Serafin等人提出了一种快速提取稳健特征点的方法。他们通过平坦区域去除方法去除地面点，然后提取线和平面的关键点，并使用它们来估计变换。他们与NARF关键点检测器[31]进行了比较，并强调该特征提取算法适用于同时定位和地图构建（SLAM）问题[13,5]。类似地，Douillard等人通过体素化去除地面点，将剩余点聚类成段，然后通过修改后的ICP算法匹配这些段。为了克服激光点云的稀疏性，Collar LineSegments（CLS）将点云分组到极坐标区间中，并在每个区间内生成线段。然后，可以使用ICP来注册相应的线段并估计两个扫描之间的变换。尽管CLS产生的结果比GICP更好，但由于线段计算非常缓慢，因此CLS不是实时的。在过去的几年中，激光雷达里程计和建图（LOAM）[41,42]被认为是最先进的激光雷达运动估计方法。它从激光数据中提取线和平面特征，并将这些特征保存到地图中以进行边线和平面表面匹配。LOAM不考虑场景中的动态物体，并通过并行运行两个模块实现低漂移和实时的里程计估计。扫描对扫描注册的估计运动用于校正点云的畸变并保证实时性能。最后，通过地图优化里程计输出。0B. 基于深度学习的方法0深度学习在视觉里程计（VO）[34, 43, 40,36]、基于图像的姿态估计或定位[17, 16,4]以及点云分类和分割[25,19]等问题上取得了有希望的结果。然而，使用深度学习方法解决3D激光雷达里程计问题仍然具有挑战性。Velas等人[33]使用CNN对激光雷达扫描序列进行里程计估计。为了训练CNN，原始激光雷达数据被转换为具有三个通道的密集矩阵。然而，该模型将里程计估计问题形式化为分类问题，而不是数值回归，并且仅估计平移参数。因此，它不适用于准确的6自由度参数估计。[33]的方法和我们的方法在概念上相似，但是我们的网络通过遮罩预测更好地处理不确定的动态区域，并更有效地使用时空一致性来规范学习以获得稳定的估计结果。y2 + z2)/∆β(1)(2)N(Xi) =�Xik ,Xij ∈P(wik(Xik − Xi) × wij(Xij − Xi))ˆXαβt= PTtP −1Xαβt−1(4)847503. 方法0里程计估计算法使用移动机器人获取的连续点云作为输入。我们的LO-Net通过执行序列学习而不是处理单个扫描来解释和利用更多信息。LO-Net学习到的特征封装了LO问题的几何信息。如图1所示，我们的LO-Net架构包括一个法线估计子网络、一个遮罩预测子网络和一个Siamese姿态回归主网络。LO-Net以两个连续扫描 ( S t − 1 ; S t )作为输入，并联合估计扫描之间的6自由度相对姿态、逐点法线向量和每个扫描的移动物体的遮罩。尽管是联合训练的，但这三个模块可以独立使用进行推断。LO-Net的里程计输出然后通过激光雷达映射进行精化，将激光雷达点云注册到全局构建的地图上。最终输出是相对于初始参考位置的扫描 S t 的变换，即每个 S t 在世界坐标系中的姿态。03.1. 激光雷达数据编码0如图2所示，具有环结构的3D激光雷达点云通常由笛卡尔坐标表示。附加信息包括强度值。为了将原始的稀疏和不规则的点云转换为可以输入网络的结构化表示，我们通过柱面投影[6]将激光雷达数据编码为点云矩阵。给定激光雷达坐标系( X, Y, Z ) 中的3D点 p = ( x, y, z ) ，投影函数为0α = arctan( y/x ) / ∆α β = arcsin( z/ �0其中 α 和 β 是设置点在矩阵中位置的索引。∆ α 和 ∆ β分别是水平和垂直方向上连续光束发射器之间的平均角分辨率。点云矩阵的 ( α, β ) 元素填充有强度值和距离值 r = �0x 2 + y 2 + z 2 的激光雷达点 p。当多个点投影到同一位置时，我们保留离激光雷达更近的点。在对激光雷达数据应用此投影之后，我们得到一个大小为 H × W × C 的矩阵，其中 C是矩阵通道的数量。矩阵的距离通道示例如图9所示。03.2. 几何一致性约束0法线估计。如图2所示，给定一个3D点 X i 及其在网格上的k 个邻居 X i j ，j = 1, 2, ..., k ，可以通过以下方式估计法线N ( X i ) ：0arg min N ( X i ) ∥ [ w i 1 ( X i 1 − X i ) , ∙ ∙ ∙ , w ik ( X i k − X i)] T N ( X i ) ∥ 20图2. 数据编码和法线估计示意图0其中(X i k − X i )是一个3D向量，w ik是X i k相对于Xi的权重，[∙] T是一个k×3的向量，∥N ( X i ) ∥ 2 =1。我们设置w ik = exp( − 0.2 | r ( X i k ) − r ( X i ) |)，以便更多地关注与Xi具有相似范围值r的点，而对其他点的权重较小。解决方程（2）的一种常用策略是进行主成分分析（PCA），并将法向量估计转化为从Xi的邻居创建的协方差矩阵的特征向量/特征值的计算。在我们的工作中，这种法向量估计需要嵌入到网络中。协方差矩阵及其特征向量的计算使得训练和估计变得低效。因此，我们通过计算Xi的四个邻居的加权叉乘来简化法向量估计。然后，我们使用移动平均滤波器[20]平滑法向量。这可以表示为0(3) 其中P是Xi的邻居点集，按逆时针排序，如图2所示。最终的法向量被归一化为1。由于扫描序列的时空几何一致性，点云矩阵中的点应该与另一个点云矩阵中的相应点对应。设X αβ t −1和X αβ t是连续数据矩阵S t − 1和St的空间对应点元素。我们可以通过以下方式从X αβ t −1推导出ˆ X αβ t：0其中Tt是连续扫描之间的相对刚性姿态变换。P表示投影过程，P− 1是其逆操作。因此，ˆ X αβ t和X αβt是一对匹配元素，我们可以测量相应元素之间的相似性来验证姿态变换的正确性。由于激光雷达的坐标和强度值中不可避免地存在噪声，因此Ln =�αβ∥N( ˆXαβt) − N(Xαβt)∥1 · e|∇r( ˆXαβt)|(5)(6)84760我们比较法向量N(x)，因为它反映了道路环境的光滑表面布局和清晰的边缘结构（见图8）。因此，姿态变换的约束可以被表述为最小化0其中� r ( ˆ X αβ t )是局部范围平滑测量，�是具有α和β的微分算子。项e |∙|0使损失函数更加关注场景中变化剧烈的区域。03.3. 激光雷达里程计回归0为了推断扫描S t − 1和St之间的6自由度相对姿态，我们构建了一个双流网络。网络的输入是编码的点云矩阵和点对点的法向量。如图1所示，LO-Net将来自两个独立特征提取网络的特征连接起来，然后将这些连接后的特征传递给接下来的四个卷积单元。最后三个全连接层输出输入扫描之间的6自由度姿态。最后两个全连接层的维度分别为3和4，用于回归平移x和旋转四元数q。最终，我们得到一个7维向量，可以转换为4×4的变换矩阵。为了减少模型参数和计算成本，我们用fireConv[15]替换了大部分里程计回归网络的卷积层，该层已经用于从激光雷达点云中进行目标检测[35]。我们按照[15]构建了特征提取层。由于中间特征的宽度远大于其高度，我们只通过使用最大池化对宽度进行下采样。详细的网络架构请参见补充材料。0同时学习位置和方向。在我们的方法中，我们选择四元数来表示旋转，因为它是旋转的连续和平滑表示。四元数 q 和 −q映射到相同的旋转，因此我们需要将它们限制在一个单位半球上。我们使用 L x ( S t − 1 ; S t ) 和 L q ( S t − 1 ; S t )来演示如何分别学习相对平移和旋转分量。0L x ( S t − 1 ; S t ) = ∥ x t − ˆ x t ∥ l0L q ( S t − 1 ; S t ) = �� q t − ˆ q t0∥ ˆ q t∥0�� l0其中 x t 和 q t 是地面真值的相对平移和旋转分量，ˆ x t 和 ˆ q t表示它们的预测对应物。l 是欧几里德空间中的距离范数，在本文中我们使用 ℓ 2-范数。由于平移和旋转分量之间的尺度和单位差异，以及先前的工作[17,34]在旋转损失中给出了一个权重正则化器 λ 来共同学习6自由度姿态。然而，超参数 λ需要在使用来自不同场景的新数据时进行调整。为了避免这个问题，我们在损失项中使用两个可学习参数 s x 和 s q 来平衡平移和旋转分量之间的尺度差异[16]。0旋转姿态分量，先前的工作[17,34]给旋转损失添加了一个权重正则化器 λ来共同学习6自由度姿态。然而，超参数 λ需要在使用来自不同场景的新数据时进行调整。为了避免这个问题，我们在损失项中使用两个可学习参数 s x 和 s q来平衡平移和旋转分量之间的尺度差异[16]。0L o = L x ( S t − 1 ; S t ) exp( − s x ) + s x+ L q ( S t − 1 ; S t ) exp( − s q ) + s q (7)0我们在训练期间使用 s x = 0 . 0 和 s q = − 2 . 5的初始值来处理所有场景。03.4. 掩码预测0给定静态刚性场景中的两个连续扫描 S t − 1 和 S t，我们可以通过变换和圆柱投影获得编码数据矩阵对的点匹配关系，如第3.2节所示。激光雷达点云被视为场景的3D模型，并且通常包含道路环境中的汽车和行人等动态物体。这些因素可能会抑制里程计回归的学习流程。基于编码器-解码器架构（见图1），我们部署一个掩码预测网络[43,38]来学习动态物体的补偿，并提高学习特征的有效性和网络的鲁棒性。编码层与里程计回归网络的特征提取层共享参数，我们同时训练这两个网络。解卷积层是�reDe-conv的变体，并采用跳跃连接。详细的网络架构在补充材料中描述。预测的掩码 M ( X αβ t ) ∈ [0 , 1]指示可以建模几何一致性的区域，隐含地确保了在姿态回归网络中学习的特征的可靠性。因此，根据公式（5）中的形式化，几何一致性误差受到权重0L n = 0αβ M ( X αβ t ) ∥N ( ˆ X αβ t ) − N ( X αβ t ) ∥ 1 ∙ e |� r ( ˆ X αβ t ) | 。0（8）注意，没有地面真值标签或监督来训练掩码预测。网络可以通过将所有预测掩码的值设置为 0来最小化损失。为了避免这种情况，我们添加了交叉熵损失作为正则化项 L r = − �0αβ log P ( M ( X αβ t ) = 1) . (9)0总之，我们用于最小化里程计回归的最终目标函数是0L = L o + λ n L n + λ r L r (10)c =3�k=1(K ∗ Nk)2(11)ˆMopt = arg minˆM�i(( ˆM · pi − mi) · ni)2 .(12)*ΦΘMt =niter�k=1ˆMkMinit .(13)84770其中 λ n 和 λ r是几何一致性损失和掩码正则化的权重因子。03.5. 建图：扫描到地图的优化0连续的扫描匹配可能会引入累积误差，并且当连续帧之间的可用公共特征点有限时，可能会遇到问题。因此，我们维护一个从先前的扫描重建的全局地图，然后使用该地图与当前扫描之间的配准来优化里程计。与传统的扫描到地图方法不同[41,42]，我们使用法线信息（由LO-Net估计）从平滑区域选择点，并使用掩码（也是LO-Net的输出）排除移动物体的点。在测试时间 t ，令 [ T t , S t ] 为LO-Net的数据。T t是LO-Net计算的里程计，用作建图的初始姿态。S t是一个多通道数据矩阵，包含每个点的强度、距离、法线和掩码值。可以通过其距离值计算每个点的坐标。建图将扫描和里程计作为输入，然后将点云匹配到全局地图上。图3显示了我们建图模块的示意图。图的详细信息如下：� ：基于 St 的法线通道，我们定义一个术语 c来评估局部区域的平滑度。0其中，N k 是 S t 的法向量通道。符号 � 表示卷积操作。K是一个 3×5 的卷积核。对于K，中心元素的值为-14，其他元素的值为1。我们计算 S t中每个点的 c值，并按照增序对其进行排序。列表中除了标记点的前 nc个点被选为平面点，因为它们位于平滑区域内。Π：计算激光雷达相对于其第一个位置的初始估计姿态：M init = M t− 1 M − 1 t − 2 M t − 1，其中 M t 是时间 t的激光雷达变换。Ψ：通过使用 T t 的线性插值来消除 S t中激光雷达点云的运动畸变。然后，使用 M init将校正后的扫描 S t转换到地图所在的全局坐标系中，并准备进行匹配。假设 pi = ( p i x , p i y , p i z , 1) T 是扫描 S t 中的一个点，m i= ( m i x , m i y , m i z , 1) T是由先前扫描构建的地图中对应的点，n i = ( n i x , n i y ,n i z , 0) T 是 m i处的单位法向量。映射的目标是找到最优的3D刚体变换0里程计扫描函数模块0Ν 地图0全局姿态06自由度姿态流扫描流图流0Σ 地图0全局姿态 Π0图3.映射模块连续计算激光雷达在世界坐标系中的低漂移运动，并使用激光雷达数据构建经过的环境的3D地图。函数符号的具体含义在文本中解释。0Θ：通过解决方程（12）迭代地将扫描注册到地图，直到达到最大迭代次数 niter。然后，通过累积迭代过程中的变换 ˆ M k 和初始姿态 M init 来计算最终的变换 M t0Φ：通过对当前扫描 S t进行车辆运动的线性插值生成新的点云。Σ、N：将新的点云添加到地图中。然后，删除最旧的点云扫描，只保留地图中的 n m个转换后的扫描。这种基于映射的细化是与扫描序列一起迭代进行的。它可以进一步提高里程计估计的准确性，如第4.2节所示。04. 实验0实现细节。我们使用的点云数据是由Velodyne HDL-643D激光雷达传感器（64束激光，10Hz，每秒采集约130万个点）捕获的。因此，在对数据矩阵进行编码时，我们设置H = 64 和 W =1800，考虑到点云的稀疏性。输入数据矩阵的宽度通过裁剪矩阵的两端调整为1792。在训练过程中，将输入序列的长度设置为3。我们通过选择扫描 [ S t − 2 , S t − 1 ]，[ S t − 1, S t ]，[ S t − 2 , S t ]来形成时间对。LO-Net预测对应于这些对之间的相对变换。整个框架使用流行的Tensorflow库[1]实现。在训练过程中，使用KITTI3D物体检测数据集预训练了掩模预测网络，并同时训练了所有层。初始学习率为0.001，每10个epoch指数衰减至0.00001。方程（10）的损失权重设置为 λ n = 0.15 和 λ r =0.05，批量大小为8。我们0100200400500600084780图4.LO-Net+Mapping在Ford数据集1上的轨迹（红色）和构建的地图。我们重建的轨迹（不强制闭环）漂移小，准确形成闭环（黄色圆圈）。0选择Adam [18]求解器，并使用默认参数进行优化。网络在NVIDIA1080 TiGPU上进行训练。对于地图生成，我们设置每个扫描中的点数 n c= 0.01 HW，地图中的扫描数 n m = 100，迭代次数 n iter = 15。04.1. 数据集0KITTI。KITTI里程计数据集[10,11]包括22个独立序列，其中包含立体灰度和彩色相机图像、由Velodyne激光雷达传感器捕获的点云以及校准文件。序列00-10（23201个扫描）提供了从IMU/GPS读数获取的地面真值姿态。对于序列11-21（20351个扫描），没有可用的地面真值，并且提供用于基准测试的。该数据集在各种道路环境中进行驾驶，包括动态物体和植被，如高速公路、乡村道路和城市区域。驾驶速度高达90km/h。0FORD。Ford校园视觉和激光雷达数据集[22]包括时间同步的2D全景图像、3D激光雷达点云和IMU/GPS数据。与KITTI一样，激光雷达数据集是使用水平扫描的3D激光雷达安装在车辆顶部进行捕获的。该数据集包含在不同城市环境中收集的两个闭环序列，并且移动车辆比KITTI数据集更多。04.2. 里程计结果0基准。我们将我们的方法与几种经典的激光雷达里程计估计方法进行比较：ICP-point2point(ICP-po2po)，ICP-point2plane (ICP-po2pl)，GICP[28]，CLS [32]，LOAM [42]和Velas et al.[33]。前两种ICP方法使用点云库[27]实现。据我们所知，[33]是唯一一个具有可比较结果的基于深度学习的激光雷达里程计方法，但它没有公开可用的代码。我们获取了0x (m)0y (m) 0 1000z(m)0LO-NetLO-Net+Mapping0起始点0图5. KITTI Seq.10上我们方法的三维轨迹图。地图模块有效地减少了LO-Net产生的垂直漂移。0其他评估方法使用公开可用的代码进行评估，其中一些结果甚至比原始发表的论文中的结果更好。对于LOAM算法，在KITTI里程计评估基准[11]中，它在基于激光雷达的方法中取得了最好的结果。为了使LOAM的基于地图的优化能够对每个输入扫描运行并确定算法的全部潜力，我们对原始发布的代码进行了一些修改和参数调整。并非所有方法都实现了闭环检测，因为我们的目标是测试准确里程计估计的极限。我们首先在KITTI数据集上进行训练和测试实验。然后，基于仅在KITTI数据集上训练的模型，我们直接在Ford数据集上测试模型，无需进一步训练或微调。我们使用KITTI里程计评估指标[11]来定量分析里程计估计的准确性。表1显示了方法在KITTI和Ford数据集上的评估结果。可以看出，LO-Net+Mapping的结果略优于LOAM，并明显优于其他方法。尽管两个数据集之间存在差异，例如不同的激光雷达校准参数和获取地面真值的不同系统，但我们的方法仍然在评估方法中取得了最佳的平均性能。图5显示了我们方法在不同阶段的三维轨迹图。图4和6显示了不同方法产生的一些轨迹。图7显示了KITTI Seq.00-10上的平均评估误差。我们的补充材料中还展示了KITTI和Ford数据集的更多估计轨迹。0消融研究。为了研究第3节提出的不同损失组件的重要性，我们在KITTI数据集上通过使用不同损失组合来训练和测试LO-Net进行了消融研究。如表2所示，当网络使用完整损失进行训练时，它达到了最佳的平均性能。04.3. 法线结果0由于KITTI和Ford数据集没有提供正常评估的基准，我们将正常估计与PCA和Holzer[14]的方法进行了比较。PCA通过从周围邻近点中拟合最小二乘平面来估计点的表面法线。在我们的实验中，我们选择了半径Seq.ICP-po2poICP-po2plGICP [28]CLS [32]LOAM [42]1Velas et al. [33]2LO-NetLO-Net+Mappingtrelrreltrelrreltrelrreltrelrreltrelrreltrelrreltrelrreltrelrrel00†6.882.993.801.731.290.642.110.951.10 (0.78)0.533.02NA1.470.720.780.4201†11.212.5813.532.584.390.914.221.052.79 (1.43)0.554.44NA1.360.471.420.4002†8.213.399.002.742.530.772.290.861.54 (0.92)0.553.42NA1.520.711.010.4503†11.075.052.721.631.681.081.631.091.13 (0.86)0.654.94NA1.030.660.730.5904†6.644.022.962.583.761.071.590.711.45 (0.71)0.501.77NA0.510.650.560.5405†3.971.932.291.081.020.541.980.920.75 (0.57)0.382.35NA1.040.690.620.3506†1.951.591.771.000.920.460.920.460.72 (0.65)0.391.88NA0.710.500.550.3307*5.173.351.551.420.640.451.040.730.69 (0.63)0.501.77NA1.700.890.560.4508*10.044.934.422.141.580.752.141.051.18 (1.12)0.442.89NA2.120.771.080.4309*6.932.893.951.711.970.771.950.921.20 (0.77)0.484.94NA1.370.580.770.3810*8.914.746.132.601.310.623.461.281.51 (0.79)0.573.27NA1.800.930.920.41mean†7.133.085.151.912.230.782.110.861.35 (0.85)0.513.12NA1.090.630.810.44mean*7.763.984.011.971.380.652.151.001.15 (0.83)0.503.22NA1.750.790.830.42Ford-18.202.643.351.653.071.1710.543.901.680.54NANA2.270.621.100.50Ford-216.232.845.681.965.111.4714.784.601.780.49NANA2.180.591.290.44Seq.LoLo, L′nLo, Ln, Lrtrelrreltrelrreltrelrrelmean†1.461.011.180.701.090.63mean∗2.031.501.800.821.750.79ei = arccos(ni · ˆni),ˆni ∈ N(14)84790表1. KITTI和Ford数据集上的里程计结果。我们的网络在KITTI序列上进行训练，然后在这两个数据集上进行测试。01: 括号外的KITTI数据集结果是通过运行代码获得的，括号内的结果来自[42]。2:KITTI数据集的结果来自[33]，Ford数据集的结果不可用。†: 用于训练LO-Net的KITTI数据集序列。�:未用于训练LO-Net的KITTI数据集序列。t rel: 100m-800m长度上的平均平移RMSE(%)。r rel:100m-800m长度上的平均旋转RMSE(°/100m)。0图6. KITTI Seq.08的轨迹图与地面真值。我们的LO-Net+Mapping产生了最准确的轨迹。0图7. KITTI Seq.00-10上的评估结果。我们展示了相对于路径长度区间的平均平移和旋转误差。我们的LO-Net+Mapping在所有评估方法中表现最好。0从PCA和Holzer[14]的方法计算的法线估计与我们的方法计算的法线估计进行了比较。PCA通过从周围邻近点中拟合最小二乘平面来估计点的表面法线。在我们的实验中，我们选择了半径0表2.不同损失组合的比较。在KITTI训练和测试序列上计算出的平均平移和旋转RMSE值如表1所示。L ′n表示几何一致性损失没有被掩码加权。0以 r = 0 . 5 m 和 r = 1 . 0 m作为确定点的最近邻点集的比例因子。如图8所示，我们估计的法线可以提取平滑的场景布局和清晰的边缘结构。为了定量比较，从 PCA 计算得到的以 r = 0 . 5 m为间隔的法线被插值并用作地面真值。然后，采用逐点余弦距离计算预测法线与地面真值之间的误差。0其中角度 e i 是点 p i 的法线误差，n i 和 ˆ n i 是点 p i的地面真值和预测法线向量，分别。 ˆ n i ∈ N 表示点 p i是具有地面真值法线的有效点。在KITTI数据集上进行的法线评估结果如表3所示，我们的方法在大多数指标下优于其他方法。这些指标包括 e i的均值和中位数值，以及角度落在给定阈值[9,37]内的良好法线的百分比。我们采用“GT中位数”作为基准，它表示我们为所有具有地面真值中位数值的点设置了一个法线方向。评估结果表明PCA(r=0.5)-YZY-X84800Holzer等人我们0图8.KITTI数据集上法线结果的可视化比较。不同颜色表示不同的法线方向。我们的结果显示出平滑的表面布局和清晰的边缘结构。为了更好的可视化，图像进行了裁剪和重新调整。0表3. 我们的方法和基准方法在KITTI数据集上的法线性能。0方法（越低越好）（越高越好）均值中位数 < 11 . 25 ◦ < 22 . 5 ◦ < 30 ◦0GT中位数 23.38 5.78 0.632 0.654 0.663 PCA(r=1.0) 14.38 11.55 0.4700.895 0.946 Holzer等人[14] 13.18 5.19 0.696 0.820 0.863 我们的方法10.35 3.29 0.769 0.865 0.8970我们估计的法线可以作为道路场景的可靠属性，用于几何一致性约束。04.4. 遮罩可视化0我们网络预测的遮罩示例在图9中进行了可视化。高亮区域表明LO-Net已经学会识别动态物体，并倾向于将植被遮罩为不可解释的，并且表明网络在里程计回归中将对这些区域的关注度降低。动态物体和扫描序列之间的关系对于里程计估计问题很重要。它们很难以显式模型来建模，但可以通过我们的网络隐式学习到。04.5. 运行时间0激光雷达扫描点云随时间逐个捕获，及时处理这些数据对于机器人应用至关重要。需要注意的是，与基于图像的计算机视觉应用不同，常用的激光雷达传感器（如KITTI和Ford数据集中使用的VelodyneHDL-64）以10Hz的速率旋转，即每次扫描0.1秒。因此，这里的实时性意味着每个扫描数据的处理时间小于0.1秒。我们选择NVIDIA 1080 Ti GPU和Intel Core i7 3.4GHz4核CPU作为测试平台。在测试时，LO-Net的数据批处理大小设置为1。表4显示了KITTI数据集Seq.00上的平均运行时间。我们的框架的平均处理时间总共约为80.1毫秒每次扫描。合理地说，我们大部分的运行时间都花在了映射过程上。与大多数传统激光雷达里程计相比，我们的方法在大多数指标下表现更好。0图9.数据矩阵的范围通道上的遮罩示例及其对应的RGB图像。黄色像素表示里程计估计中周围环境中的不确定点，例如移动汽车、骑自行车的人等。为了更好的可视化，图像进行了裁剪和重新调整。0表4. KITTI Seq. 00上的平均运行时间0数据准备推理映射总计0CPU上的8.5毫秒，GPU上的10.2毫秒，CPU上的61.4毫秒，GPU上的80.1毫秒0与在第4.2节中评估的方法相比，我们基于地图的优化方法非常快速，因为我们使用了新的输入数据表示。我们的方法通过在具有GPU的平台上进行简单的流水线处理实现了实时性能。对于性能较低的平台，我们还可以通过LO-Net和映射的并行处理来加速处理。目前，我们的框架的某些部分在CPU上运行，我们可以将它们实现在GPU上以进一步提高速度。05. 结论0我们提出了一种新颖的学习框架LO-Net来进行激光雷达里程计估计。一个高效的映射模块被耦合到估计框架中以进一步提高性能。对公共基准的实验表明了我们的框架相对于现有方法的有效性。仍然有一些需要解决的挑战：1）点云被编码成数据矩阵以输入网络。直接处理3D点云对于3D视觉任务可能更实用。2）我们当前的网络是使用地面真实数据进行训练的。这限制了网络的应用场景。在我们的未来工作中，我们将更详细地研究网络学习到的几何特征表示。我们还计划将循环单元纳入该网络中，以构建与时间相关的特征。这可能会导致一个无需昂贵的地面真实数据集合的端到端框架。0致谢0本工作得到了中国国家自然科学基金（编号U1605254、61728206）和美国国家科学基金（编号EAR-1760582）的支持。[1] Mart´ın Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen,Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghe-mawat, Geoffrey Irving, Michael Isard, et al. Tensorﬂow:a system for large-scale machine learning.In OSDI, vol-ume 16, pages 265–283, 2016.[2] Noha Radwan Abhinav Valada and Wolfram Burgard. Deepauxiliary learning for visual localization and odometry. InProceedings Of The IEEE International Conference OnRobotics And Automation (ICRA), May 2018.[3] PJ Besl and ND McKay. A method for rgistration of 3-dshapes. IEEE Transaction on Pattern Analisys and MachineIntelligence, 14:239–256, 1992.[4] Samarth Brahmbhatt, Jinwei Gu, Kihwan Kim, James Hays,and Jan Kautz. Mapnet: Geometry-aware learning of mapsfor camera localization. arXiv

下载后可阅读完整内容，剩余1页未读，立即下载