深度局部点云配准算法DeepPRO

153 浏览量更新于2023-10-13 收藏 2.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5683DeepPRO：对象的深度局部点云配准李东勋Hamsici Steven Feng Prachee Sharma Thorsten Gernoth苹果{donghoonlee,ohamsici,shuo_feng,prachee_sharma,tgernoth}@apple.com摘要我们考虑在线和实时配准的问题，从一个看不见的现实世界中的刚性物体，而不知道其3D模型获得的点云是局部的，因为它是通过深度传感器从某个视点仅捕获对象的可见部分而获得的它引入了两个主要挑战：1）两个部分点云不完全重叠，以及2）当对象的可见部分不具有显著的局部结构时，关键点往往不太为了解决这些问题，我们提出了DeepPRO，一个无关键点和端到端可训练的深度神经网络。它的核心思想是受人类如何对齐两个点云的启发：我们可以想象两个点云在基于它们的形状配准后会是什么为了实现这个想法，DeepPRO输入了两个部分点云，并直接预测对齐点云的逐点位置。通过在预测过程中保持点的顺序，我们在推断刚性变换参数时享受输入和预测点云我们在真实世界的Linemod和合成ModelNet40数据集上进行了广泛的实验。此外，我们还在PRO1k数据集上收集和评估，这是一个大型版本的Linemod，旨在测试对真实世界扫描的泛化。结果表明，DeepPRO在13种强基线方法中达到了最佳精度，例如，在移动设备上运行50 fps时，Linemod数据集上的ADD为2.2mm1. 介绍在这项工作中，我们有兴趣开发一个在线和实时点云注册算法看不见的现实世界的对象。换句话说，当我们移动深度传感器或对象时，我们的目标是基于在当前帧和先前帧处捕获的点云来找到深度传感器与对象之间的由配准算法估计的参数对于诸如3D对象的跟踪和重建的许多应用是必不可少的我们列出了在现有文献中没有完全解决的这个问题的关键挑战首先，我们观察一个对象的一部分，从某个角度在一个时间点.在不知道看不见的物体的3D模型的情况下，唯一的输入是两个部分点云。由于输入部分点云彼此不完全重叠，不像以前的工作[32，39，28]，我们不能在输入点或点簇之间进行此外，最近关于对象点云配准的工作依赖于ModelNet40数据集[35]中的3DCAD模型，如表1所示。由于如图1所示的真实世界部分点云和合成3D CAD模型之间的大的域差距，[2，32，33，38]使用不同的启发式方法来模拟部分观察，例如，选择一个随机点并从整个点云中收集其相邻点。然而，这样的方法不正确地模拟复杂的自遮挡，对象材料和传感器噪声的真实数据。在我们的实验中，在合成数据集上训练的最先进的模型不能很好地推广真实世界的数据，如图4和表2所示。其次，通常难以为对象点云提取有意义对于室外规模[12，19]或室内规模[40]点云，提取关键点相对容易，因为它们具有丰富的局部结构和突出的几何形状[18，9，8]。然而，对于小对象，其部分点云可能并不总是包含关键点的多此外，不同对象材料和深度边缘周围的不规则传感器噪声我们实证地证明，在室外或室内点云上工作良好的现有基于关键点的方法在表2中的对象点云上变得不太准确。第三，配准算法对于小基线应该是高效和有效的。我们可以专注于小基线，因为现代深度感测设备通常以30fps或更快的速度捕获。因此，两个连续帧之间的姿态差异将是小的。为了实现实时性能，鼓励避免昂贵的多步迭代方法，例如经典的迭代最近点（ICP）[5]及其全局优化变体[37]。然而，这些昂贵的方法通常用于离线点云配准系统[41，1，29]或用作ad-hoc后处理[32，6]以提高准确度。5684(a) 全三维模型合成数据。(b) 现实世界的观察图1：这里我们展示了现实世界物体的点云配准的困难（a）现有的基于学习的工作依赖于对象的合成CAD模型，该模型可以渲染点云而不会自遮挡。（b）我们的工作侧重于真实世界的数据。捕获的部分点云仅覆盖对象的一部分此外，它们具有自遮挡和不规则的传感器噪声（噪声在数字变焦下更好地可见）。共享内容也会随着视点的变化而变小。表1：不同输入尺度和数据源上的现有基于学习的点云配准方法。输入比例尺合成数据真实数据室外，室内-[四、六、七、八、十三、十八、三十九]对象[2、15、27、32、33、38、39]我们的兴趣为了解决上述问题，我们首先使用真实世界的数据集，而不是增强合成数据。我们在真实世界的Linemod数据集上广泛评估了13种点云配准方法[14]。此外，我们收集和评估的大规模数据集，称为PRO1k在本文中。其次，我们提出了一种无关键点的算法，称为对象的深度部分点云注册（DeepPRO）。该算法使用点云生成网络以预测点保持原始点云的排序的方式预测一个点云中的每个点在另一个点云的坐标中的注册位置。它在两个坐标中的点之间建立了密集的对应关系，这使得我们能够有效地推断刚性变换参数。第三，我们在小基线中使用点云对训练DeepPRO，并估计其在移动终端上的运行时间，以确保它在我们的用例中实时工作。在两个真实世界和一个合成对象数据库上的实验结果表明，DeepPRO与现有方法相比具有良好的效果例如，对于看不见的对象，我们实现1。19◦旋转误差，1。46厘米的翻译误差，和0. Linemod数据集上的3D距离误差为22 cm此外，DeepPRO在移动设备上的运行速度超过50 fps，无需任何优化技术，如网络量化或修剪。2. 相关工作几何配准和姿态估计正受到越来越多的关注：1）机器人、自动驾驶和增强现实中的应用日益增长; 2）从自动驾驶车辆上的激光雷达到移动设备上的RGB-D传感器等广泛可用的传感器。因此，问题设置和目标在不同的应用中是不同的在本文中，我们专注于审查现有的工作有关注册小空间尺度部分点云。ICP [5]是几何配准中的经典方法，其迭代地提取两个点云之间的匹配点通常，当点云的可靠初始化可用时，ICP工作良好为了缓解这个问题，Go-ICP [37]建立了一个具有高阶计算成本的分支定界框架FGR [42]初始化与FPFH特征[ 26 ]的对应关系，FPFH特征[26]对遮挡和部分点云敏感。这些方法是通用的，因此不需要关于对象的特定知识近年来，如表1所示，基于点云编码器（例如Point-Net [25]、DGCNN [34]、KPConv [30]或FCGF [7]）的开发，出现了用于配准点云的数据驱动方法。他们通常使用连体式网络对两个点云进行编码，并比较输出特征以找到它们之间的旋转和平移我们简要回顾了最近的对象尺度点云配准方法。深度最近点（DCP）[32]基于Transformer [31]中的注意力模块和特征向量的概率匹配来近似ICP中的组合匹配。一个可微的SVD头被纳入网络估计的变换参数。PointNetLK5685−∈×2−11Cos（2），sin（2）n∈∈图2：现有方法和提出的算法之间的主要差异。现有的基于关键点的方法旨在找到两个输入点云X1和X2之间的对应关系。另一方面，该算法预测P21，即X2中每个点在X1它允许我们构建无关键点的密集对应。[2]使用Lucas-Kanade算法的思想[21]。其公式基于全局汇集特征向量的雅可比矩阵，并将框架展开到递归神经网络进行训练。PRNet [33]是一种基于关键点的方法，旨在使用Gumbel-Softmax [16，22]预测关键点之间的清晰映射。控制softmax概率分布形状的温度参数根据actor-critic方法[23]自动确定。[15]中提出的特征度量配准最小化了用于训练网络的两个点云的编码特征的差异。它可以用其它点云编码器代替，只要可以得到局部和全局特征。在我们将点云馈送到编码器之前，两个点云都是以零为中心的，并归一化为a [0。5，0。5]3立方。缩放因子由零中心点云的最大值确定。我们存储每个点云的平均值µ（X1）和µ（X2），以及比例因子s，以便稍后对点云进行反归一化条件点云生成网络。该模块将fg、fg和fl作为输入，并输出预1 2 23. 方法DeepPRO的核心思想如图2所示。目标是找到旋转和平移参数，R21和t21，3×N在视点1处X 2中的每个点的指定位置，即P21。全局特征被复制并与本地特征连接以形成输入，如图3所示。的网络可以被描述为一个生成器，x2使用fg和fl同时对fg进行条件化使其处于对齐部分点云X2∈R观察到221L视图 2 ，其中在视图 1 处观察到 X1R3×N ，即，R21X2+t21，而无需关于刚性物体1的任何先验知识。与主流的基于关键点的方法不同，DeepPRO预测P21，P 21描述了X2在X1的坐标中与X1注册时的外观。因此，X2和P21继承了两个不同坐标之间的密集对应关系，这有助于点云配准。我们构建了一个深度卷积神经网络，并使用GroundTruth transform标签对其进行训练，如图3所示。它由四个部分组成：共享编码器、条件点云生成网络、变换估计网络和随机旋转层的做和撤销。遵循文献[2，32，33，38]中的惯例，我们假设已知对象区域，以便我们可以从对象中随机采样N个从我们的实验中，DeepPRO对于不同数量的N工作良好，如表5所示。3.1. 网络架构共享编码器。我们使用一个点云编码器，它将输入点云 X1 映射到每个点的局部特征 flRd×N 和全局特征 fgRd×1。将相同的编码器应用于具有共享参数的X2以得到fl和fg。在这项工作中，我们利用DGCNN [34]架构，第一个，P21。注意，P21和f2都有与X2中的点的顺序相同，因为我们使用11卷积-不改变点的顺序的每点编码的选择这嵌入了X2和P21之间的密集对应关系，这对于变换估计网络估计刚性变换参数将是有用的。我们使用双曲正切激活函数后，最后一层输出以包含[1，1]3立方体内的预测位置然后，我们基于先前存储的归一化参数μ（X1）和s对所生成的点云进行去归一化，以将其带到视点1，即，我们得到P21。变换估计网络。给定两个对应关系密集的点云 X2和P21，我们估计旋转和平移参数. 对于刚性变换，广泛使用基于SVD的封闭形式解决方案[10]。然而，我们根据经验发现，将SVD放入网络会使端到端训练不稳定。因此，我们建立了变换估计网络来估计参数。由于密集的对应关系，我们可以简单地将X2和P21连接起来，并将其馈送到网络，该网络以四元数的形式预测旋转。我们参数化了旋转轴n=（nx，ny，nz）和旋转角θ2一个四元数向量相同的逻辑可以应用于另一个方向。.πσ（θ）πσ（θ） n1为了方便起见，我们解释从视图2到1的转换，而q=其中σ是表示旋转R21的S形函数5686−LL LLLXǁ− ǁ|∈yz.图3：DeepPRO的整体流程共享编码器输出每个局部点云的局部和全局特征然后，我们预测Xi在Xj坐标中的配准逐点位置Pij，使用共享点云生成网络。由于Pij和Xi具有相同的点排序，因此我们在两个坐标之间具有密集对应因此，我们可以连接Pij和Xi，并将其馈送到变换估计网络以获得（Rij，tij）。随机旋转被应用于在训练期间增加数据。对于推理，我们只执行蓝色的框红色箭头表示损失计算。在正实半球上，且nn n = n2 + n2 + n2。然后，估计的平移被计算为µ（P21）R21µ（X2）。使用预测的R21和t21，我们实际上可以将 X2 移动到视点 1 ，即，X21=R21X1+ t21。我们基于与点云编码器中使用的归一化方法随机旋转层。条件点云生成的输出是旋转和平移不变的，因为X1和X2的对齐仅取决于它们的形状。因此，在训练过程中，我们通过添加随机旋转层来利用变换不变属性，如图3所示。在点云归一化期间处理平移不变部分，即，减去平均值。在网络预测P21之后，我们撤销这种随机旋转，以便可以使用输入的原始方向来估计R21和t21为了简单起见，我们稍微滥用符号P21作为预测点云后，撤消随机旋转的其余部分的文件。在实践中，我们发现网络可以有效地训练一个有限的扰动，例如，±5◦，在随机旋转层中。3.2. 目标函数所提出的网络用以下目标函数训练以将X2变换为视图1：21=R，t（R2 1，t2 1，R*2 1，t*2 1）+3D（P2 1，X2 1，X2 1），（一）其中R，t调节旋转和平移参数空间中的误差，并且3D描述3D空间中的距离。此外，X*21是X2通过基truth旋转和平移参数R*21和t*2 1变换的。旋转和平移损失。我们最小化（E*21）−1E21我其中E=[Rt]R4×4 是外矩阵，I是单位矩阵。的类型标准，我们测试了L1，L2和LS（收缩损失[20]）。在本文中，我们使用LS规范的回归损失，因为我们的经验取得了更好的结果比其他规范。5687−LL LL3D空间中的距离损失我们考虑点云之间的距离损失的两个项如下：p21∈P 21，x 21Σ∈X 21，x*21∈X*211N（p21-x21+x21-x*21），（二）其中N是点数。第一项用于预测正确的P21. 注意我们可以直接计算p21x*21，而不需要找到点对点匹配，因为y已经具有密集的对应关系，如第第3.1节。第二项是模型点的平均距离（ADD）[14]，它测量地面实况和注册点云之间的3D距离它有助于R，t最小化变换参数的误差。最终损失。最终损耗考虑双向变换和循环损耗，如下所示：L=L21+L12+Lcyc，（3）其中 12与21类似地定义，并且 cyc引导网络具有（R21，t21）和（R12，t12）之间的反比关系。其定义如下：Lc yc=<$X1−（R2 1X12+t2 1）<$+<$X2−（R12X21+t1 2）<$。所有损失函数和网络都是端到端可训练的。4. 实验结果由于篇幅所限，我们在补充资料中描述了实现细节、基线方法讨论、训练稳定性和更多的失败案例分析。数据集。虽然室外和室内点云配准方法在真实世界的基准数据库上进行评估，例如KITTI [12]，ETH [24]和3DMatch [40]，但基于学习的对象尺度配准方法[32，33]。33，27，2，15]限于非现实的合成Mod-elNet 40 [35]数据集。为了缓解这个问题，我们在真实世界的Linemod[14]和PRO1k数据集以及合成的ModelNet40数据集上训练和测试我们的算法。Linemod数据集是用于6- DOF对象姿态估计的众所周知的基准。我们收集相机的姿态和对象点云的基础上的2D面具的11个不对称的对象。然后，我们建立一个输入对（X1，X2）并计算他们的地面真值标签（R*2 1，t*2 1）使用相机姿势。我们收集了至少有512个目标点和视角的点差在10◦和10 cm范围内。我们专注于小基线，因为视点在相邻对于实时应用，帧期望是小的。有关Linemod数据集的更多详细信息，请参阅[14]。对于PRO 1 k，我们选择了1,000个真实世界的对象，这些对象在大小、类别（电子产品、硬件工具、盒子、（四）5688图4：点云配准结果的可视化。最好用数码变焦观看。食品、厨具、雕塑、装饰品、玩具等），结构和形状。然后，我们遵循类似的协议，例如，保持与对象相似的距离和角度，作为Linemod数据集来收集数据。有了这个大数据集，我们有兴趣证明DeepPRO是否可以扩展和推广看不见的真实世界数据。ModelNet40是在基于学习的对象点云配准领域中广泛使用的合成数据集它拥有40个对象类别的12，311个CAD模型。虽然这不是我们的主要兴趣来评估不切实际的合成数据集，我们可以进行头对头的比较，现有的工作，大基线点云配准。在我们的实验中，我们遵循[33]中的协议来准备部分点云和看不见的测试数据。与现有方法的比较。我们将Deep-PRO与来自经典方法[17，5，37，42，36，11]的13个强基线与最近基于学习的方法进行了[32，4，2，33，38，6]如表22所示。我们使用作者发布的代码来训练基于学习的方法，同时我们发现一些方法[32，33]在现实世界的数据集上训练是不稳定的，如[6]中类似地观察到的对于这些，我们使用ModelNet40上的预训练模型进行评估。从表2中引起我们注意的第一件事是，与最近基于学习的方法相比，经典方法有趣地显示出更好的结果例如，ICP、FGR和GMMreg实现约2的旋转误差。5◦比大多数其他基于学习的方法更好这是因为现有的基于学习的算法要么有一个假设，不符合实际的观察或低泛化能力的对象规模的部分和噪声点云。图4和图5中的定性结果可视化了3D点云的2D投影的结果。我们使用PRO1k数据集放大实验，如表3所示。结果表明，DeepPRO可以在大规模数据集上有效地训练，并推广到不可见的对象。关于运行时间，最具可比性的Go-ICP [37]在台式计算机上运行大约需要20秒。相比之下，DeepPRO在移动终端上运行速度超过50 fps，无需任何网络量化或修剪。2最近的DeepGMR [39]方法不包括在我们的比较中，因为它本质上不处理部分重叠的点云对。5689表2：Linemod数据集上各种点云配准方法的误差ADD在⑵中定义对象猿虎钳凸轮可以猫钻孔机鸭冲床铁灯电话平均直径（cm）10.2 24.7 17.2 20.1 15.4 26.1 10.9 14.5 27.8 28.3 21.2 19.72，094 2，081 2，037 2，002 2，048 1，991 2，134 2，120 1，792 2，012 1，966 2，025DCP v1 [32] 36.89 47.49 43.02 42.50 35.88 39.48 41.68 44.05 42.44 51.71 40.46 42.33DCP v2 [32] 56.99 70.76 61.24 66.74 59.66 48.01 64.36 67.64 70.02 72.50 65.31 63.93D3Feat [4] 25.86 53.15 42.69 37.11 44.29 51.68 24.87 39.31 34.97 46.46 62.73 41.10粤ICP备16016666号-1PRNet [33] 7.37 7.02 8.51 6.58 6.12 7.08 7.59 7.03 5.24 5.74 5.64 6.72电话：+86-10 - 88888888传真：+86-10 - 88888888[11] 2.96 1.24 2.35 2.01 1.70 1.41 4.30 3.74 3.84 2.15 1.43 2.47DGR [6] 2.85 2.11 3.11 2.47 2.28 2.54 2.84 3.60 3.21 2.42 2.71 2.74RPM-Net [38] 2.97 1.56 2.14 2.24 2.29 1.81 2.75 2.50 1.81 1.65 1.97 2.15GMMreg [17] 2.42 2.07 2.21 2.28 2.10 2.50 2.43 2.61 2.51 2.43 2.38 2.36粤ICP备15011592号-1粤公网安备44011502000011号FGR [42] 2.49 2.85 2.32 2.57 2.37 2.68 2.71 2.41 2.62 3.02 2.36 2.58粤ICP备16036668号-1DeepPRO1.28 1.31 1.25 1.16 1.19 1.23 1.25 1.40 1.01 1.09 0.97 1.19电话：+86-21 - 88888888传真：+86-21- 88888888DCP v2 [32] 36.79 54.95 35.17 51.40 37.91 32.64 35.01 55.03 60.58 58.43 51.56 46.32D3Feat [4] 20.65 43.75 38.81 36.34 39.47 47.97 21.82 30.89 31.85 41.50 58.94 37.45Copyright © 2018 - 2019 www.cnzl.com All Rights Reserved.粤ICP备16048888号-1PRNet [33] 8.44 7.46 9.79 7.83 7.68 7.84 8.55 8.41 6.33 5.94 6.89 7.74电话：+86-21 - 66666666传真：+86-21 - 66666666[11] 2.89 1.32 2.36 2.14 1.99 1.51 3.35 3.19 3.73 2.63 1.69 2.44DGR [6] 2.93 2.19 3.25 2.68 2.53 2.73 2.94 3.84 3.26 2.52 2.76 2.88RPM-Net [38] 3.11 1.74 2.49 2.43 2.74 2.21 3.06 2.86 2.03 1.81 2.12 2.42GMMreg [17] 5.53 4.32 4.78 4.28 4.45 4.94 4.86 5.22 5.44 4.70 5.20 4.88粤ICP备15011561号-1粤公网安备44011502000011号FGR [42] 3.21 4.40 3.64 3.92 3.48 4.57 3.37 3.32 3.73 4.22 3.35 3.75粤ICP备15016668号-1DeepPRO1.481.611.61 1.45 1.47 1.58 1.48 1.64 1.22 1.31 1.20 1.46DCP v1 [32] 1.52 3.96 2.94 3.26 2.03 3.69 1.93 2.76 3.55 4.47 3.02 3.01DCP v2 [32] 2.22 5.39 4.06 4.75 3.08 4.39 2.83 4.04 5.14 5.83 4.43 4.20D3Feat [4] 3.70 5.58 4.72 4.67 4.49 7.49 2.85 3.83 5.17 5.83 5.45 4.89Copyright © 2018 - 2019深圳市创科科技有限公司All Rights Reserved.粤ICP备15011777号-1电话：+86-021 - 8888888传真：+86-021 - 8888888电话：+86-510 - 8888888传真：+86-510 - 88888882019 - 05 - 21 10：00：00 00：00 00：00DGR [6] 0.25 0.33 0.40 0.36 0.26 0.49 0.30 0.39 0.52 0.43 0.39 0.37RPM-Net [38] 0.20 0.27 0.28 0.30 0.22 0.35 0.25 0.26 0.34 0.31 0.28 0.28GMMreg [17] 0.32 0.52 0.36 0.37 0.31 0.47 0.30 0.39 0.42 0.68 0.36 0.41粤ICP备15035555号-1粤公网安备44010502000112号FGR [42] 0.97 2.03 1.46 1.74 1.24 2.44 1.02 1.12 1.52 1.78 1.47 1.53粤ICP备05016668号-1Copyright ©2018-2019深圳市深普科技有限公司表3：PRO1k数据集的平均误差旋转（mm）平移（cm）ADD（cm）ICP [5]3.19 2.40 1.08粤ICP备16037777号-1GMMreg [17] 2.98 3.51 0.83FGR [42] 2.64 2.10 0.82DeepPRO 1.07 0.93 0.41合成数据和大基线。表4显示了ModelNet40数据集上的大型基线实验的结果。为了公平比较，我们借用[33]并使用相同的度量进行评估。对于DeepPRO，我们使用与真实数据相同的网络架构和超参数。结果表明，DeepPRO始终优于最先进的方法。它还表明，我们的方法是有效的，从小到大的基线注册的真实消融研究。为了验证我们算法中每个组件的有效性，我们进行了消融研究，如表5所示。我们首先构建一个绕过点云生成块的朴素深度网络。它使用与DeepPRO相同的编码器，馈送连接的全局ADD（cm）旋转（◦）平移（cm）5690ǁ − ǁ(a) 将3D点云X1、X2、X3、X4投影到相应的帧上。颜色条以cm为单位显示深度。(b) 我们首先使用地面真实姿势得到Xi1=R*i1Xi+t*i1。然后，我们将重新投影的X11i=R11X11+t11可视化到对应的帧上，其中R11和t11由DeepPRO预测。颜色条指示Xi和Xi1i之间的距离，单位为cm。(c) 用FGR姿态获得的重投影点云。图5：姿态差异为（10. 00◦，29 cm），（11. 24◦，18 cm）和（12. 59◦，27 cm）。虽然DeepPRO仅使用（10厘米，10厘米）姿势差异的对进行训练，但结果显示泛化范围更广。表4：在合成ModelNet40数据集上具有高斯噪声的不可见部分点云的大基线结果模型MSE（R）↓RMSE（R）↓MAE（R）↓R2（R）↑MSE（t）↓RMSE（t）↓MAE（t）↓R2（t）↑ICP [5]1229.67035.06725.564-6.2520.08600.2940.250-0.045Go-ICP [37]150.32012.2612.8450.1120.00080.0280.0290.991FGR [42]764.67127.65313.794-3.4910.00480.0700.0390.941PointNetLK [2]397.57519.9399.076-1.3430.00320.0570.0320.960DCP v2 [32]47.3786.8834.5340.7180.00080.0280.0210.991[33]18.6914.3232.0510.8890.00030.0170.0120.995DeepPRO7.9302.6171.4520.9870.00020.0130.0070.998特征到全连接层，并被训练以最小化（E*21）-1E21I. 结果表明，朴素的深度网络可以粗略地学习配准两个点云。第二、我们使用传统的基于SVD的姿态估计，该姿态估计使用P12和X1之间的密集对应。所提出的变换估计网络比SVD对噪声对应更鲁棒。接下来，我们研究了随机旋转层、双向训练（（ 1 ） vs. （ 3 ））和 ADD 损失（2）。说明Deep- PRO中的每一个设计选择都是有效的。我们还将DGCNN编码器替换为PointNet，并使用相同的超参数重新训练网络。结果表明，DeepPRO对点云编码器的选择不敏感。此外，我们还证明了DeepPRO可以用预测的对象进行很好的训练使用掩码[3]。最后，我们用从点云中采样的较少数量的点来训练DeepPRO。随着输入点数量的减少，精度会逐渐例如，对于输入点的一半，ADD误差仅增加0。04厘米。失败案例。我们在图6中可视化了不同旋转和平移范围的训练数据和测试误差的分布。它表明，当输入对具有大的旋转和小的平移差异时，每个箱中的平均预测误差大多较高用户静止不动并旋转深度传感器。如图6（a）所示，这种类型的数据样本在Linemod数据集中受到限制，因为人在捕获数据时围绕对象转圈5691表5：关于旋转、平移和ADD错误的拟定算法的消融研究对象猿虎钳凸轮可以猫钻孔机鸭冲床铁灯电话平均简单深网2.46 2.31 1.99 2.06 2.09 2.18 2.36 1.96 1.91 2.10 1.92 2.12电话：+86-0512 - 8888888传真：+86-0512 - 8888888无随机旋转1.73 1.33 1.50 1.51 1.36 1.44 1.58 1.83 1.32 1.38 1.12 1.46无双向路径1.37 1.41 1.51 1.41 1.29 1.26 1.43 1.68 1.36 1.32 1.12 1.38不含ADD损失1.42 1.38 1.34 1.41 1.30 1.19 1.49 1.62 1.231.071.11 1.32PointNet编码器1.32 1.31 1.51 1.29 1.31 1.33 1.41 1.42 1.58 1.32 1.15 1.36预测掩码[3] 1.31 1.50 1.45 1.34 1.39 1.22 1.34 1.48 1.08 1.21 1.22 1.32减点数N=128 1.44 1.48 1.60 1.55 1.46 1.23 1.42 1.57 1.21 1.29 1.16 1.40减点数N=256 1.411.29 1.36 1.51 1.221.051.371.401.08 1.11 1.06 1.26全模型N=5121.281.311.25 1.16 1.191.231.25 1.40 1.011.090.97 1.19简单深网2.34 2.27 1.75 2.11 2.09 2.15 2.38 1.72 1.70 1.79 1.65 2.00标准差2.30 2.20 2.44 2.13 2.29 2.11 2.29 2.62 2.29 1.94 1.96 2.24无随机旋转2.04 1.74 1.89 1.86 1.77 1.89 1.88 2.11 1.59 1.68 1.44 1.81无双向路径1.61 1.79 1.88 1.75 1.65 1.69 1.73 1.95 1.62 1.62 1.46 1.70不含ADD损失1.69 1.79 1.73 1.80 1.69 1.61 1.78 1.89 1.47 1.35 1.44 1.66PointNet编码器1.55 1.62 1.92 1.64 1.64 1.71 1.69 1.67 1.83 1.56 1.45 1.66预测掩码[3] 1.56 1.87 1.83 1.65 1.71 1.62 1.62 1.75 1.33 1.50 1.54 1.63减点数N=128 1.71 1.84 1.97 1.89 1.79 1.63 1.71 1.77 1.44 1.54 1.40 1.70减点数N=256 1.701.60 1.75 1.87 1.491.371.641.591.30 1.36 1.28 1.54全模型N=5121.481.611.61 1.45 1.471.581.481.641.22 1.31 1.20 1.46简单深网1.40 1.17 1.17 1.14 1.12 1.32 1.28 1.15 1.12 1.16 1.15 1.200.17 0.27 0.27 0.25 0.19 0.33 0.20 0.24 0.34 0.30 0.24 0.25无随机旋转0.18 0.32 0.27 0.28 0.20 0.40 0.20 0.25 0.34 0.32 0.24 0.27无双向路径0.16 0.33 0.28 0.29 0.20 0.39 0.21 0.27 0.35 0.32 0.27 0.28无ADD损失0.17 0.32 0.27 0.29 0.21 0.38 0.21 0.25 0.34 0.30 0.25 0.27PointNet编码器0.15 0.26 0.26 0.24 0.18 0.34 0.18 0.230.220.30 0.22 0.23预测掩码[3] 0.18 0.38 0.28 0.30 0.22 0.39 0.24 0.24 0.33 0.34 0.29 0.29减分N=128 0.20 0.38 0.33 0.38 0.26 0.41 0.23 0.29 0.35 0.37 0.31 0.32减点N=256 0.17 0.29 0.25 0.32 0.20 0.33 0.20 0.23 0.29 0.30 0.25 0.26全模型N=5120.14 0.25 0.23 0.22 0.17 0.32 0.17 0.210.280.27 0.21 0.22(a)训练数据的数量（b）旋转误差（◦）（c）平移误差（cm）（d）ADD（cm）图6：Linemod数据集中不同旋转和平移箱的训练数据和测试误差分布的数量此外，我们根据ADD错误对测试对进行排序，并在补充材料中推理出前15个案例结果表明，当目标发生变形或点云数据中误包含其他目标点或较远背景点时，误差较大。5. 结论我们尝试使用深度网络在线和实时注册我们的经验表明，由于局部和嘈杂的深度mea-当然，在合成数据和基于关键点的方法上训练的模型不能很好地泛化真实对象。为了规避该问题，我们提出了DeepPRO，其基于没有关键点的输入形状生成密集对应。在两个真实世界（我们收集的Linemod和PRO1k）和一个合成（ModelNet40）对象数据库上的实验表明，DeepPRO比现有方法更准确对于未来的工作，我们感兴趣的是彩色点云，处理不准确的深度从透明或反射材料，和一致的多帧注册的对象点云。ADD（cm）旋转（◦）译（cm）5692引用[1] Khalil Al-Manasir和Clive S Fraser。利用图像配准摄影测量记录，21（115）：255-268，2006。1[2] Yasuhiro Aoki ， Hunter Goforth ， Rangaprasad ArunSrivatsan，and Simon Lucey.PointNetLK：使用PointNet进行稳健高效的点云配准。在IEEE计算机视觉和模式识别，2019。一、二、三、五、六、七[3] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegNet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence，39（12）：2481-2495，2017。七、八[4] 白旭阳、罗紫欣、周磊、符洪波、龙泉、戴洁兰D3Feat：3D局部特征的密集检测和描述的联合学习在IEEE计算机视觉和模式识别会议上，2020。二、五、六[5] Paul J. Besl和Neil D.麦凯一种三维形状配准方法。IEEETransactionsonPatternAnalysisandMachineIntelligence，14（2），1992. 一、二、五、六、七[6] Christopher Choy，Wei Dong，and Vladlen Koltun.深度全局配准。在IEEE计算机视觉和模式识别会议上，2020。一、二、五、六[7] Christopher Choy，Jaesik Park和Vladlen Koltun。完全卷积几何特征。在2019年IEEE计算机视觉国际2[8] Haowen Deng ， Tolga Birdal ， and Slobodan Ilic.PPFNet：全局上下文感知本地功能，用于强大的3D点匹配。在IEEE计算机视觉和模式识别会议上，2018。一、二[9] 李丁和陈锋。DeepMapping：从多个点云进行无监督地图估计。在IEEE计算机视觉和模式识别会议，2019。1[10] David W.放大图片作者：Adele Lorusso，and Robert B.费雪。估计3-D刚体变换：四种主要算法的比较机器视觉与应用，9（5-6），1997。3[11] Georgios Dimitrios Evangelidis和Radu Horaud。批量和增量期望最大化的多点集联合对准。IEEE Transactions onPattern Analysis and Machine Intelligence ， 40 （ 6 ）：1397-1410，2017。五、六[12] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准测试套件。IEEE计算机视觉和模式识别会

下载后可阅读完整内容，剩余1页未读，立即下载