PointNetLK：基于PointNet的鲁棒高效点云配准

128 浏览量更新于2023-10-18 收藏 1.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7163PointNetLK：基于PointNet的鲁棒高效点云配准Yasuhiro Aoki1，2 * Hunter Goforth1 * Rangaprasad Arun Srivatsan1 Simon Lucey1，31 CarnegieMellon University2 Fujitsu Laboratories Ltd.3Argo AIaoki-yasuhiro@fujitsu.com{hgoforth，arangapr，slucey}@ cs.cmu.edu摘要PointNet彻底改变了我们对表示点云的看法。对于分类和分割任务，该方法及其后续扩展是最先进的。迄今为止，PointNet在点云配准中的成功应用仍然是难以捉摸的。在这篇文章中，我们认为PointNet本身可以被认为是一个可学习的因此，经典的视觉算法的图像对齐可以应用于该问题-即卢卡斯Kanade（LK）算法。我们的核心创新源于：（i）如何修改LK算法以适应PointNet成像功能，以及（ii）将PointNet和LK算法展开为单个可训练的递归深度神经网络。我们描述的架构，并比较其性能对国家的最先进的共同注册sce-narios。该建筑提供了一些显着的特性，包括：跨形状类别的泛化和计算效率-为深度学习应用于点云配准开辟了新的探索路径。代码和视频可在https：//github.com/hmgoforth/PointNetLK网站。1. 介绍点云本质上是非结构化的，具有样本和顺序排列模糊性。这种结构的缺乏使得它们在现代深度学习架构中的使用存在问题从这个角度来看，PointNet [26]是革命性的，因为它为点云提供了一种可学习的结构化表示。人们可以把这个过程看作是一种这一创新产生了许多新的扩展和变体[28，34，42]，这些扩展和变体现在是点云上对象分类和分割的最新技术。然而，PointNet用于点云注册任务的实用性仍然有些难以捉摸。在这* 平等的贡献。图1：（上）Stanford bunny [39]和（下）S3DIS [ 1 ]原始室内扫描与PointNetLK的点云配准。参见第二节。第 4.2 节和第 4.4 更多详情随着迭代的进行，PointNetLK能够成功地将源点注册到模板模型，即使它没有在这些形状上训练。我们包括兔子表面渲染的可视化。在本文中，我们想进一步探索将PointNet表示解释为成像函数的概念-其直接好处是将图像对齐方法应用于点云配准问题。特别地，我们想要利用经典的LucasKanade（LK）算法[18]。这种联系是由最近的一项创新[41]激发的，该创新通过将LK算法重新解释为递归神经网络，证明了最先进的2D光度物体跟踪性能然而，LK算法不能天真地应用于PointNet表示。这是由于LK算法-7164Rithm对梯度估计的依赖性，梯度估计在实践中通过卷积来估计。在2D照片度量图像或3D体积图像内，表示的每个元素（即，像素或体素）在其相邻者之间具有已知的局部依赖性，所述相邻者可分别表示为2D和3D网格，可从所述2D和3D网格定义卷积。还很好地理解，这种依赖性不必采取ND网格的形式，也可以探索“图形”卷积的概念PointNet表示没有这种局部依赖性，使得通过卷积估计空间梯度是不适定的。贡献：我们提出了一个修改的LK al-出租，它绕过了需要卷积的PointNet表示。然后，我们演示了如何将这种修改后的 LK 形式展开为递归神经网络并集成到PointNet框架中-这个统一的网络在本文中与迭代最近点（ICP）的许多变体不同，我们的方法不需要昂贵的点对应计算[31]，这在精度、初始化鲁棒性和计算效率方面具有显著优势。PointNetLK对看不见的物体和形状变化具有显著的概括性，如图所示。1.一、这种泛化性能可以归因于网络架构内的对齐过程的显式编码。因此，网络只需要学习PointNet表示，而不是对齐任务。最后，我们的方法是完全不同的，与文献中的大多数注册方法不同，因此可以轻松地与更大的DNN系统集成。一个额外的计算优势是，我们的方法可以直接在GPU上运行，作为更大的神经网络管道的一部分，不像大多数比较需要像ICP或其变体这样的方法在CPU上运行。2. 相关工作PointNet：PointNet [26]是第一个提出使用DNN的作品，原始点云作为输入，用于分类和分割。该架构实现了这项任务的最先进的性能，尽管它的简单性，并提供了有趣的理论见解处理原始点云。PointNet++是作为PointNet的改进提出的，通过分层聚集局部点集中的特征[28]。另一种变体考虑聚集附近点的特征[34]。Wang等人[42]在连接相邻点对的边缘上使用局部邻域图和类似卷积的操作。ICP 和变体： Besl 和 McKay [4] 介绍了迭代最近点（ICP），这是一种常用的配准方法，通过迭代估计点对应并执行最小二乘优化。已经开发了ICP的几种变体（参见[31]重新查看），其包含传感器不确定性[33，35]，对离群值[5]具有鲁棒性，使用不同的优化器[8]等。然而，比较方案及其变体有几个基本缺点，即：（1）最近点对应的显式估计，这导致复杂度与点的数量成平方地缩放，（2）对初始化敏感，以及（3）由于可微性的问题，将它们集成到深度学习框架是重要的。全局最佳配准：由于ICP及其大多数变体对对齐中的初始扰动敏感，因此它们仅产生局部最优估计。Yang等[46]开发了Go-ICP，这是一种基于分支和边界的优化方法，用于获得全局最优姿态。最近，凸松弛已经用于使用黎曼优化[30]、半定规划[13，20]和混合整数规划[14]的全局姿态估计。上述方法的主要缺点是计算时间长，使得它们不适合实时应用。兴趣点法：在文献中存在估计兴趣点以帮助配准的工作。例如，尺度不变曲率描述符[9]、定向描述符[10]、扩展高斯图像[19]、快速点特征直方图[32]、基于颜色强度的描述符[11]、全局点签名[6]、热核[25]等。虽然兴趣点有可能提高配准方法的计算速度，它们不能推广到所有应用[12]。手工制作的表示： Vongkulbhisal 等人的判别优化（DO）工作。[40]使用手工制作的特征向量并学习一组地图，以估计良好的初始对齐。随后使用ICP对对准进行细化。这种方法的缺点是，特征和映射是特定于每个对象的，并且不能泛化。最近，他们开发了逆合成判别优化（ICDO），它概括了看不见的对象形状。不幸的是，ICDO具有点的数量为二次方的复杂性，使得其难以在几个真实世界场景中使用ICDO的另一个问题是特征和比对图都是学习的，这可能导致该方法的通用性折衷替代表示：体素化是一种将空间离散化并将点云转换为结构的方法，7165我我我∂ξ网格。已经开发了在体素上使用DNN的几种方法[22，43]。这些方法的主要缺点包括计算时间和内存需求。另一种流行的表示是深度图像或距离图像，其将点云表示为2D视图的集合，这很容易通过商业结构光传感器获得。通常情况下，对每个视图执行卷积操作，并聚合所产生的特征[36]。一些作品还将体素数据与多视图数据相结合[27，3]。存在直接从光度图像估计3D姿态的若干工作。例如，[37，16，21，44，24]，直接从裁剪的对象图像回归对象取向的欧拉角。另一方面，在机器人操作等应用中，姿态通常被解耦为旋转和平移分量，并且每个分量都是独立推断的[37，38，15，45，29，17]。3. PointNetLK在第3.1节中，我们介绍PointNetLK的符号和数学。在第3.2节中，我们提供了用于点云对齐的PointNet特征向量的优化推导。在第3.3节中，我们描述了模型的训练方面，包括损失函数和可能的对称算子。符号：我们用大写粗体（如M）表示矩阵，用大写斜体（如C）表示常量，用小写斜体（如s）表示标量变量。3.1. 概述令φ表示PointNet函数，φ：R3×N→RK，使得对于输入点云P∈R3×N，φ（P）产生K维向量描述符。函数φ应用a该量类似于在用于2D图像的经典LK算法中被优化的量值得注意的是，我们没有在PointNet架构中包含T网络，因为它的目的是转换输入点云以提高分类精度[26]。然而，我们使用LK层来估计对齐，而T网是不必要的。另一个我们可以从LK al-出租m借用的关键思想是逆组成（IC）公式[2]。IC公式化是必要的，因为传统的LK算法对于优化的每次迭代具有高的计算成本。该成本来自于在优化的每个步骤中对变形源图像上的图像雅可比矩阵IC公式的见解是颠倒模板和源的角色：在每次迭代中，我们将求解更新到模板而不是源的增量翘曲，然后将该增量翘曲的逆应用于源。通过这样做，雅可比计算是针对模板而不是源执行的，并且在优化开始之前仅发生一次。这个事实将在扭曲更新的以下推导中更清楚地看到3.2. 推导重申一下目标，我们寻求找到G，使得φ（PT）=φ（G·PS）。为此，我们将导出迭代优化解决方案。考虑到IC公式，我们采用目标的逆形式φ（PS）=φ（G−1·PT）（2）下一步是线性化（2）的右侧：多层感知器（MLP）到P中的每个3D点，使得每个点的最终输出维度为K。然后∂φ（PS）=φ（PT）+∂ξφ（G−1Σ·PT）中国（3）对称池化函数，例如最大值或平均值，应用，从而产生K维全局描述符。我们如下公式化优化。设PT为模板点云，PS我们将寻求找到使源 PS与模板 PT最佳对准的刚体变换G∈SE（3）。变换G将由指数映射表示如下：这里我们定义G−1= exp（−T）。CanonicpastalLK：W将表示雅可比矩阵∂φ（G−1·PT），其中J∈RK×6矩阵。在在这一点上，计算J似乎需要PointNet函数梯度的解析表示相对于G.该分析.ΣΣG=expT=（T，（1）梯度将难以计算并且相当昂贵。在经典的LK算法中采用的方法，i i i1 2 6我其中Ti是具有扭参数的指数映射的生成元.3D点云对齐问题可以描述为找到G使得φ（PT）=φ（G·PS），其中我们使用简写（·）来表示PS通过刚性变换G的变换。这等于-images是使用链式法则将雅可比矩阵分成两个部分：在N-D个图像方向上的图像梯度，以及分析的翘曲雅可比矩阵[2]。然而，在我们的情况下，这种方法也不起作用，因为不存在允许针对我们的3D配准情况在x、y和z上取梯度的图或其他卷积结构。J=7166mlp（3，64，64，64，128，K）对称func.PP图2：点云输入源PS和模板PT通过共享MLP和对称池化函数，以计算全局特征向量φ（PS）和φ（PT）。雅可比矩阵J使用φ（PT）计算一次。找到最优的扭曲参数，用于增量地更新PS的位姿，然后重新计算全局特征向量φ（PS）在训练期间，使用损失函数，其基于估计的刚性变换和地面真值变换中的差异修改LK：受这些挑战的激励，我们转而选择使用随机梯度方法来计算J。具体地，雅可比矩阵的每一列Ji可以通过有限差分梯度来近似，该有限差分梯度计算为：最终估计Gest则是在迭代循环期间计算的所有增量估计的合成：Gest= Gn·... （7）公司简介J=φ（exp（−tiTi）·PT）−φ（PT）iti（四）迭代的停止准则是基于最小阈值的BLOG。一个图形表示我们的其中t i是扭转参数的无穷小扰动。这种计算J的方法允许将计算效率高的逆压缩 LK 算法应用于使用PointNet特征的点云配准问题。注意，对于模板点云，J仅计算一次，并且不需要重新计算，因为源点云在迭代对准期间被扭曲对于雅可比矩阵的每一列Ji，仅第i个扭曲参数具有非零值ti。理论上，ti应该是无穷小的，使得J等于解析导数。在实践中，我们凭经验发现，在所有迭代中将ti设置为某个小的固定值会产生最佳结果。我们现在可以求解（3）中的ξ为φ=J+[φ（PS）-φ（PT）]（5）其中J+是J的Moore-Penrose逆。总之，我们的迭代算法包括一个循环使用（5）计算最佳扭曲参数，然后将源点云PS更新为模型如图所示。二、3.3. 培训损失函数：用于训练的损失函数应当以最小化估计变换Gest与地面实况变换Ggt之间的差为目标。这可以表示为扭曲参数αest和αgt之间的均方误差（MSE）。相反，我们使用||F，（8）||F,(8)这在计算上更有效，因为它在训练期间不需要矩阵对数运算，并且以直接的方式从Gest，Ggt∈SE（3）的表示得出。对称池运算符：在PointNet中，MLP操作之后是一个对称池化函数，例如最大或平均池化，以促进点序每突变不变性（见图2）。2）的情况。在第4节中，我们展示了使用最大或平均池化的结果，并进行了优化。P←G· P.ΣΣEqG= expEqT（六）关于哪个操作员可能更合适的服务，不同场景特别是，我们假设平均-S S i i我年龄池比最大池有优势，共享$exp−）i*i+P<$−$（P<$）Ji=）i$（P）共享/=J0+ $（P−$（P）]$（P）P← 3+ P如果如果是103，3=exp（∑i/i*i）3678=

下载后可阅读完整内容，剩余1页未读，立即下载