没有合适的资源?快使用搜索试试~ 我知道了~
虚拟现实智能硬件2020年12月第3引文:张志远,戴玉超,孙家代。基于深度学习的点云配准:概述。虚拟现实智能硬件,2020,2(3):222-246DOI:10.1016/j.vrih.2020.05.002·回顾·基于深度学习的点云配准:概述ZhiyuannZHANG1,YuchaoDAI1*,JiadaiSUN21. 西北工业大学电子信息学院,陕西7101292. 西北工业大学计算机科学与技术学院,陕西710129*通讯作者,daiyuchao@nwpu.edu.cn投稿时间:2020年3月23日修订日期:2020年5月8日接受日期:2020年5月11日国家重点研究发展计划资助项目(2018 AAA 0102803);国家自然科学基金资助项目(61871325、61420106007、61671387)。摘要点云配准的目的是找到一个刚性变换,使一个点云与另一个点云对齐。这种配准是计算机视觉和机器人技术中的一个基本问题,并已广泛用于各种应用,包括3D重建,同时定位和映射以及自动驾驶。在过去的几十年里,许多研究人员致力于解决这个具有挑战性的问题。深度学习在高级视觉任务中的成功最近已扩展到不同的几何视觉任务。已经提出了各种类型的基于深度学习的点云配准方法来利用该问题的不同方面。然而,仍然缺乏对这些方法的全面概述。为此,在本文中,我们总结了这一领域的最新进展,并对基于深度学习的点云配准进行了全面概述。我们将流行的方法分为不同的类别,如基于对应关系和无对应关系的方法,有效的模块,即,特征提取器、匹配、离群值拒绝和运动估计模块。此外,我们详细讨论了这种方法的优点和缺点。最后,我们为目前提出的方法提供了一个系统而紧凑的框架,并讨论了未来的研究方向关键词综述;点云配准;深度学习;图神经网络1引言在几何计算机视觉中,点云配准是许多应用中的关键任务,包括机器人[1],同时定位和映射(SLAM)[2],自动驾驶[3]和医学成像[4](图1)。因此,在本文中,我们专注于刚性运动下的点云配准问题,其定义如下:给定两个点云,点云配准旨在找到一个刚性变换,以将一个点云与另一个点云对齐,可能会被噪声和噪声混淆[5]。请注意,非刚性变换下的点云配准是几何计算机视觉中一个重要且独立的研究分支,其中已经开发了各种深度和非深度方法,如CPD[6],FlowNet3D[7]和HPLFlowNet[8]。对这一主题的全面讨论超出了本研究报告的范围,留待今后研究。2096-5796/©版权所有2020北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。www.vr-ih.comZhiyuan ZHANG et al:Deep learning based point cloud registration:anoverview223图1点云配准的应用(图取自互联网)。(a)SLAM;(b)自动驾驶;(c)3D建模。点云配准是一个有着悠久历史的研究问题,文献中描述了许多先进的方法。最具开创性的方法是迭代最近点(ICP)[9],它估计刚性变换并迭代更新点云对应,以粗到细的方式优化解决方案。ICP代表了点云配准的一个重要里程碑,它已被广泛应用于各种应用中,并提出了不同的变体。然而,标准ICP需要良好的初始化,并且通常收敛到局部最小值。ICP式方法一般都有这个缺点。ICP及其变体在过去30年中开发,但在深度学习革命之前已经总结[10,11]。深度学习在高级视觉任务中的成功已经扩展到各种几何计算机视觉任务,如自我运动估计[12],立体匹配[13],光流[14]和多视图立体[15]。然而,由于2D图像和3D点云之间的显著差异,扩展到3D点云并不简单。稀疏、不规则的模式、无序的排列和不平衡的分布构成了主要的障碍。网格[16],体素[17]和多视图卷积神经网络(CNN)方法[18]是基于深度学习的点云处理的先驱方法,许多变体,如VoxelNet[19],VV- Net[20],子流形稀疏卷积网络[21]和MV 3D[22]已经实现了令人印象深刻的性能。PointNet[23]和PointNet++[24]代表了两个里程碑,它们首先以直接的方式将深度学习应用于点云,并通过对称函数解决无序排列问题。PointNet[23]为每个点生成一个描述符,或整个点云的全局特征。点云分类使用整体特征;为了更清楚地描述,本文将相应的网络称为PointNet-Cla。此外,在语义分割任务中使用了每点特征,相应的网络称为PointNet-Seg。同时,PointNet++[24]是用于在点云中提取局部信息的关键技术。关键阶段是集合抽象模块,由采样、分组和PointNet组成[23]。另一种启发式算法是图神经网络。这种网络将点云中的每个点视为图的顶点,并基于每个点的邻居生成图的有向边。然后在空间或频谱域中应用特征学习[25]。动态图CNN(DGCNN)[26]是一种基于图的方法,它构造动态图操作来更新特征空间中顶点之间的关系。 虽然PointNet[23]本质上是基于点云中每个点的嵌入独立地提取信息,但DGCNN[26]明确地将局部几何结构纳入其表示中。图2展示了典型的PointNet、PointNet++中的集合抽象和基于图的网络。然而,除了对称函数策略之外,还提出了其他方法。在PointCNN[27]中,学习了x变换,它对与点相关联的输入特征进行加权,并将原始点云的排列转换为潜在的和潜在的规范顺序。类似地,树结构用于Kd网络[28]和OctNet[29]。受连续卷积运算的启发,提出了一种置换不变卷积PointConv[30],224虚拟现实智能硬件2020年12月第3- 作为3D点的局部坐标的非线性函数的卷积核,包括权重,以及图2基于深度学习的点云处理的典型网络(a)典型的PointNet网络;(b)集合抽象结构;(c)典型的基于图的网络。密度函数此外,这些权重和密度函数是使用两个多层感知器(MLP)网络学习的。PCNN[31]是通过定义扩展和限制算子将卷积神经网络应用于点云的另一种方法。SO-Net[32]是一种置换不变网络,它通过构建自组织映射来利用点云的空间分布。越来越多的方法应用深度学习来解决点云的各种问题,包括3D形状分类[23],3D对象检测和跟踪[33]以及3D点云分割[24]。还提供了基于深度学习的点云处理的调查[34],尽管没有涉及点云配准问题。在本文中,我们专注于基于深度学习的点云配准问题,并对该主题的最新方法进行了当代概述。这项研究的主要贡献可归纳如下:(1) 我们对最近基于深度学习的点云配准的最新方法进行了全面调查,为最近的发展提供了系统的观点。我们提出这项调查,根据该方法是否是基于对应或对应自由。特别地,在基于对应关系的部分中,详细描述了四个模块,即,特征提取器、匹配、离群点拒绝和运动估计。此外,还讨论了一些有效的精化策略。(2) 据我们所知,这是第一次对基于深度学习的点云配准问题进行调查。现有的调查研究主要集中在传统方法[10,11]或基于深度学习的其他任务[34]。本调查的其余部分组织如下。在第2节中,我们用数学方法描述配准问题,并简要介绍传统技术。第3节全面讨论了最先进的方法。在第4节中讨论了广泛用于此问题的数据集和度量。在第5节中,对性能进行了比较。最后,我们讨论了基于深度学习的点云配准的蓬勃发展,对未来的研究进行了展望,并在第6节中提供了一些结论性意见。225Zhiyuan ZHANG et al:Deep learning based point cloud registration:anoverview2预备知识2.1符号和公式三维点云配准的目的是估计几个部分重叠的点云之间的刚性变换,以将数据集关联到一个共同的坐标系中。这允许将来自多个传感器和视点的数据集成到更大的模型中,例如高精度点云地图和完整的对象网格。在本文中,假设我们有两个点云,X(源)和Y(目标),有N个X和N个Y点,分别在这里,X表示与Y相同的形状或场景,但可能是嘈杂和不完整的。我们目标是找到将X变换为X'的3D刚体运动,使得X'与Y最佳重叠。刚性运动可以可以用许多形式表示,包括四元数、角轴、旋转矩阵和平移向量。用旋转矩阵R∈SO3和平移向量t∈R3表示的解是最常用的。2.2传统点云配准ICP[9]是解决刚性配准问题的最著名算法,它在寻找点云对应和解决最小二乘问题之间交替,以更新刚性对齐。然而,ICP算法经常停滞,导致次优结果或落入局部最小值。因此,已经提出了许多变体的基于ICP的方法来弥补这些缺点。在之前的研究中[11],ICP变体被总结为六个阶段,即关键点选择、匹配、对应加权、离群值拒绝、误差度量分配和运动估计。注意,除了广泛使用的点到点匹配度量之外,已经开发了其他匹配度量,诸如点到平面和平面到平面度量,其有助于从不同的角度构建对应关系。然而,在基于深度学习的点云配准中,基于点对点匹配的度量仍然是最常用的原则。因此,除非另有说明,我们将讨论限制在点对点匹配。此外,还详细介绍了过去30年来开发的传统手工配准算法[10],而我们则专注于介绍基于深度学习的解决方案。然而,为了完整起见,我们简要地提到了与上述六个方面相关的最新研究(图3)。图3传统点云配准的六个阶段。对于关键点的选择,使用兴趣点方法来计算和比较局部描述符以估计比对[35,36]。虽然这些方法在计算上是有利的,但它们的使用通常限于具有在输入点云之间持久的可识别和独特特征的点云数据[37- 39]。对于匹配阶段,已使用k-d树和Ak-d树[40,41]根据结合视觉或强度信息的语义信息[42- 44]对于对应关系的加权,已经提出了一些“软”方法,包括将较低的权重分配给具有较大点到点距离的对,基于与法线的兼容性的加权,以及基于扫描仪噪声对误差度量中的不确定性的预期影响的加权。226虚拟现实智能硬件2020年12月第3Zhou等人提出计算每个点的变换参数[45],这可以被视为高度过度参数化的权重调整。剔除异常值的方法可能会影响准确度和稳定性。基于某些建议的度量[46]拒绝最差的n%对,引入语义信息以帮助识别正确的对应关系,从而减少迭代次数[7]。一个考虑周全的误差度量(损失函数)在最小化误差和找到最佳解决方案方面起着主导作用。点到点误差[9]是最简单的度量,它有一个封闭形式的解决方案。还提出了点到平面误差度量[47,48],并引入了一种新的对称化目标函数,该目标函数实现了点到平面优化的简单性和计算效率[49]。为了使误差最小化,ICP可以被联合地视为用于搜索匹配和刚性变换的优化算法。因此,Fitzgienic等人提出使用Levenberg-Marquardt算法直接优化目标函数,这可以产生改进的解决方案[50]。ICP风格的方法很容易从非凸性陷入局部最小值。为了在多项式时间内找到一个好的最优解,Go-ICP[51]使用分支定界(BnB)策略来搜索刚性变换空间SE3。其他方法试图使用黎曼优化[52],凸松弛[53]和混合整数规划[54]来识别全局最优值。综上所述,传统的点云配准方法已经取得了长足的进步,但仍然存在瓶颈。3基于深度学习的点云配准在本节中,我们将详细讨论使用深度学习策略的点云配准方法,最近提出的方法按时间顺序显示在图4中。此外,如图5所示,本节的结构总结如下。深度点云配准方法可以分为基于对应关系的方法和无对应关系的方法。首先,我们介绍了无对应的方法,这是不寻常的传统点云配准领域。这些数据驱动的算法根据两个输入点云的全局特征之间的差异来回归刚性运动参数R∈SO3和t∈R3然而,许多最近的深点云配准方法,包括DeepVCP[3],深最近点(DCP)[5]和迭代匹配点(IMP)[55],应用传统的框架,即ICP和ICP风格的框架,图43D点云配准网络的时序概述。227Zhiyuan ZHANG et al:Deep learning based point cloud registration:anoverviewF图5基于深度学习的点云配准方法分类。其基于显式对应来估计刚性运动参数。基于学习的方法改进了传统的框架,该框架由四个部分组成:特征提取器,匹配,离群点拒绝和运动估计。除了这两类,一些额外的特殊细化机制,提出了提高性能,包括迭代方法和多视图约束。最后介绍了部分点云的配准问题。3.1无对应方法无对应方法的关键是通过搜索两个输入点云的全局特征之间的差异来回归刚体运动参数。关键阶段是全局特征摘要,它必须对姿态敏感。另一个重要的阶段是如何从这样的差异中求解运动参数,根据是否基于深度学习分为两类。在PointNetLK[56]中,输入点云X和Y的全局特征,表示为ΦX和Φ,由PointNet-Cla提取[23] 网络然后提出了求解R和t的求导理论。最后,Gest-1Ggt-I4它是损失函数,而G 是预定义,G是真实的。 在这种方法中,PointNet[23] 网络是易受影响的姿势,这成为一个巨大的优势,配准任务,并且雅可比矩阵可以通过有限差分梯度计算来近似。这种方法允许应用计算高效的逆组合Lucas-Kanade算法[56]。最近提出的一种方法,特征度量配准[57],继承了PointNetLK的框架,通过最小化特征度量来实施优化。该模型侧重于一个特征提取器,它利用了编码器-解码器机制。对于点云的两个旋转副本的原理,编码器模块应该生成不同的特征,并且解码器可以将不同的特征恢复为其对应的旋转副本。该模型使用半监督或无监督方法进行训练,这需要有限的或不需要注册标签数据。类似的工作PCRNet[58]也利用PointNet[23]来提取全局特征。框架如图6所示。然而,在特征对齐模块中,使用数据驱动技术。首先,连接两个全局要素,然后沿其应用五个完全连接的图层输出层的尺寸为图6PCRNet的核心框架228虚拟现实智能硬件2020年12月第3为姿势选择的参数化。这种深层原理比PointNetLK更有效[59]。另一种类似的方法是AlignNet[60],它专注于真实场景数据。总而言之,无对应关系的方法很简单。它们的性能强烈依赖于提取的特征描述符。特征的准确性、对运动的敏感性和离群值鲁棒性决定了方法的下限。同时,对齐模块确定了对齐的上限,对信息的整合和最终生成结果起着重要的作用。由于无对应关系方法直接从两个整体点云特征回归相对姿态,因此当点云除了姿态之外都相同时,性能是理想的。然而,当两个输入点云之间存在较大差异时,性能将在很大程度上取决于特征提取器网络。因此,这些基于回归的方法的推广将受到所应用的特征学习方法的推广性的限制。最近提出的方法是非常有效的合成数据,而未来的方向是扩展到一个真实的场景与低重叠。因此,对这种无对应性方法的主要批评是它们的泛化能力,这与其他基于回归的几何视觉问题(如立体匹配[13],光流估计[14]和场景流估计[8])一致。3.2对应方法基于对应关系的算法在深点云配准方法中占有相当大的比例。这些框架受到传统方法的启发,由四个主要模块组成:特征提取,匹配,离群点拒绝和运动估计。然而,作为一种普遍现象,许多基于对应关系的可学习注册方法不是端到端的,并且混淆了传统模块和学习模块。因此,在本节中,我们将介绍每个模块的方法。3.2.1特征提取与无对应关系的方法提取每个云的全局特征不同,基于对应关系的方法提取两个输入点云的每个点或每个块的嵌入以生成映射并估计刚性变换。然而,由于PointNet-Seg网络只是通过连接每个点的信息和全局信息来总结描述符,这是极端的,因此该网络很少用于基于对应关系的点云配准。事实上,本地信息和其他有用信息都是集中的。3DMatch[61]是一种开创性的方法,使用3D CNN来学习从体积3D补丁到512维特征表示的映射,该特征表示用作局部区域的描述符。对于每个感兴趣的点,提取其周围局部区域的3D体积表示。每个3D区域从其原始表示转换为体积体素网格,然后将表示送入3D CNN以获得最终特征。然而,体积表示有明显的缺点,包括由于数据稀疏性和计算成本而受到其分辨率的限制。因此,这种表示往往被以直接方式对原始点云进行操作的方法所取代。Zan等人提出了一种基于平滑密度值(SDV)体素化的特征提取器[62]。给定一个点tx在一个点cloudX中,它是局部球面的,它支持S∈X是选定的,S=Σxi:Σxi-xΣ2 ≤r,其中r表示用于估计局部参考帧的局部邻域的半径。该操作有利于特征旋转不变性。然后将局部点转换为局部参考229Zhiyuan ZHANG et al:Deep learning based point cloud registration:anoverview2π其估计记为xi'∈S'。作为三维矩阵的SDV体素网格XSDV∈RW×H×D,其元素XSDVjkl表示计算对应体素的SDV使用带宽为h的高斯平滑核。n2xjkl=1∑jkl1exp-1cjkl-x'i2s。t. cjkl-x'i<3小时(1)njkli= 1h2小时22分其中,njkl表示位于体素质心cjkl的距离3h内的点xi'∈S'的数量。最后,SDV表示被馈送到堆叠的卷积层和批归一化层,然后进行L2归一化,以产生局部特征描述符的单位长度。类似地,通过学习策略获得局部参考系[63]。一 种 代 表 性 的 方 法 是 DeepVCP[3] , 其 结 构 如 图 7 所 示 。 DeepVCP 应 用 PointNet++[24] 和 mini-PointNet[23,64,65]结构来学习描述符。给定一个点云,点,3D欧几里德坐标是输入,NX× 32张量F是特征描述符由PointNet++生成[24]。最重要的修改是mini-PointNet,它有助于总结本地信息。Mini-PointNet由三个全连接层和一个最大池化层组成,以获得特征描述符。输入是一个局部信息向量LX <,大小为NX×K× 36,它是指局部坐标、强度和32维FX特征描述符。利用具有K个最近邻的每个点来生成信息量更大的32维特征ΦX=MLPX和Φ。图7DeepVCP的核心框架PointNet++[24]结构用于3D网络[66]。然而,由于多集合抽象的高复杂性,仅应用一个集合抽象结构。为此,采样层从输入点云中采样一组点xi1、xi2、xi、xik,这些点被认为是聚类中心。接下来,由分组层生成k个点簇。这些簇被用作感受野来计算局部描述符。在应用最大池化以获得聚类特征(其与每点特征级联以并入上下文信息)之后,单个全连接层和最大池化被应用于更全局的上下文特征,其被称为聚类Ck的fk。换句话说,另一个额外的对称函数被添加到3DFeat-Net[66]中的特征提取器阶段。上下文信息的添加提高了描述符的有效性。受PointNet[23]结构的启发,特别是最大池化操作,Deng等人提出了PPFNet[65],其重点是用于配准中正确对应的旋转不变描述符任务给定一个参考点xr∈X,定义一个局部区域Ω∈X,并在其中收集一组点这个地方附近。然后,计算点集的法线[67],每个相邻点xi与230虚拟现实智能硬件2020年12月第3∑-参考xr,并计算点对特征(PPF)[68]。 因此,初始特征Fr=其 中,eri=d2,n r,d,n r,ni是PPF。输入到PPFNet是N个局部补丁特征,第一个模块是mini-PointNet,另一个是max-pooling。然后将全局特征与局部特征连接。PPFNet[65]类似于PointNet[23],其输入是PPF而不是3D欧几里得坐标。该操作导致旋转不变性,同时强烈依赖于法向量估计。IMP[55],DGCNN[26]的变体被选为特征提取器。将点云X中的点表示为xi,i∈ N∈ N1,NX.此外,xi的信息简单地是3D欧几里得坐标。的输入网络是一个NX× 3张量,输出是一个NX×d张量,其中每个点特征都是d维的,IMP网络[55]中的每个层都按照以下函数运行:un=K1g nu n-1un-1xx'∈N(x)(二)其中ux是第n层输出的特征,第一层的输入是点坐标,gn是多层感知器。将x的K个最近邻的集合表示为N(x)。值得注意的是,纯粹利用了相对姿态,而当前点的绝对位置坐标与相对姿态连接在一起,以提取原始DGCNN中的描述符[26]。因此,特征提取模块是平移不变的。使用DCP[5],其主要框架如图8所示,特征提取器模块由两个阶段组成,DGCNN和非对称函数,即。例如,一个Transformer模块[69]。点云特征通过DGCNN计算,并被称为FX和FY。Wang等人[5]声称这通过使特征任务化来提高匹配具体的,也就是说,特征取决于X和Y一起的特殊性而改变,而不是图8DCP的核心框架将它们独立嵌入。类似于基于注意力的模型[70- 72],设计了一个通过捕获自我注意力和条件注意力来学习上下文信息的模块。这个注意力模块学习一个函数:RN×P×RN×P→RN×P,其中假设NX=NY=N,P是嵌入维度,它提供点云的新嵌入,如下所示:ΦX=FX+FX,FYΦY=FY+FY,FX(3)将X视为残差项,根据输入的顺序为X和Y提供附加变化。这个映射FX<$ΦX以一种了解Y结构的方式修改与Y中的点相关联的特征。一个非对称函数f由一个Transformer[69]给出。另一种有效的特征提取方法是完全卷积几何学习[73]。该方法首先应用于2D数据[74],然后应用于3D语义分割[21,75- 78]。Choy等人提出了完全卷积特征的变体,将负挖掘集成到对比和三重损失中[73]。新的损失,如hardest对比和hardest三元组学习的特征提取器。完全卷积网络可以归因于三个因素。首先,全卷积网络是有效的,因为它们在具有重叠感受野的神经元之间共享中间激活。第二、231Zhiyuan ZHANG et al:Deep learning based point cloud registration:anoverview00=∑,=,我我我SSS我全卷积网络中的神经元可以具有更大的感受野,因为它们不受对单独提取和处理的补丁进行操作的约束。第三,全卷积网络产生密集的输出,非常适合需要详细场景表征的任务。特征提取器的演变是清晰和启发性的。例如,PointNet-Cla、PointNet-Seg和DGCNN分别被设计用于点云分类、分割和跟踪,通过某些调整,特别是注意力机制,被转换为配准任务。当然,可以在其他应用中使用更多最先进的特征提取器,例如PointSift[79],SO-Net[32]和KD-Network[28]。另一个方向是专门针对配准问题设计特征提取器。3.2.2匹配模块匹配阶段是点云配准中的另一个关键模块。刚性运动参数R和t可以基于正确的对应关系使用奇异值分解(SVD)来求解,这在数学上已经被证明是最佳的。然而,在传统的方法中,通常的原则是搜索Y中的最相似点yi到X中的最相似点xi作为对应对。然而,由于稀疏性和稀疏性,两个点云并不总是具有点对点的对应关系。因此,虚拟创造性地提出了点法。在DeepVCP[3]中,根据初始R0和t0生成虚拟点。 DeepVCP专注于由表示为S∈X,NS<$NX的关键点构成的子集,其中NS和NX是点集大小。该过程简述如下。首先,使用输入初始参数R和t来变换S,并且为x生成x'中的对应点。x ′的内边界空间被划分为2r+1,2r+1,2r+1π3D网格体素,其中r是搜索半径,s是体素大小,两者都是预定义的。 将3D体素的中心表示为y,j',j= 1,.,C,它们被认为是候选对应点。接下来,所有候选者都被送入特征提取器。应用三层3D CNN来学习源点和候选点的特征之间的相似性。更重要的是,它可以平滑(正则化)匹配体积和抑制匹配噪声。应用softmax操作将匹配成本转换为概率。最后,目标对应点yi为通过如下的加权和运算计算:y=1∑Cwy'j= 1∑Cwjj=1J(4)其中,wj是对应于点yj'的每个候选的权重。DCP[5]中提出了类似的操作。然而,候选者不是相邻体素中的3D体素中心。Y中的所有实点都被考虑。相似性是通过点积运算生成的,该运算作为权重。最后,匹配原则可以总结如下:NYx'iw jy jw jD Φ x iΦ y j(5)j= 1其中,NY是点云Y的大小,D,是未归一化的余弦相似度。然而,并非所有方法都依赖于虚拟点,IMP[55]提出选择最相似的点作为对应点。使用IMP,使用点积运算形成相似性矩阵。Mi,j=DΦxi,Φyj(6)其中Mi,j是x i和y j之间的未归一化余弦相似度。在M的每一行上应用softmax函数,以获得X中每个点在Y中所有点上的概率分布。232虚拟现实智能硬件2020年12月第3-∈ -1.1周Pi,j=softmaxMi,:j(7)其中Pi,j表示y j是x i的对应点的概率。对于X中的每个点xi,选择Y中具有最高概率(最大相似度)成为对应点的点yj。匹配阶段是一个关键阶段,尽管它在深度学习方法中很容易被忽略。在传统的方法中,最近原则被果断地应用在3D欧几里得或特征空间中。在最近提出的深度学习方法中,虚拟点已经取得了进展,这将注意力转移到了权重系数上。因此,一个潜在的方向是权重参数的学习。3.2.3异常画面排除事实上,不正确的匹配点,称为离群值,在任何时候都存在,即使在最先进的方法与先进的匹配策略。由于点云数据的稀疏性和不均匀性,通常不是点云X中的所有点都在点云Y中具有对应的点。同时,由于噪声的影响,多对一的现象也不少见。异常值显著恶化配准性能。在传统的方法中,RANSAC[80,81]是最广泛使用的鲁棒拟合算法,它利用最大一致性作为监督信号来过滤掉离群的匹配对。深度学习方法的解决方案依赖于监督和无监督原则。(1)监督在3DRegNet[82]中,分类原理被移植以区分离群值和内点,如图所示图9中的分类块的输入是一组3D点对应关系,i= 1,n,N。输出是加权系数,其表示对应是内点的概率。分类块受到网络架构的启发[83]。各点对应 (六)元组)由具有128个ReLU激活函数的全连接层处理。有重量共享每个单独的点对应,并且输出具有N× 128的维度,其中从每个点对应生成128维特征。然后将N× 128输出通过12个深度ResNet块[84],其中权重共享完全连接层而不是卷积层。使用另一个带有ReLU的全连接层,后面是tanh(tanh(x)=exe-xex+e-x())个单位来产生权重i∈ [ 0,1). 此外,本发明还提供了一种方法,wi是针对第i个对应。最后,应用预定义的阈值来过滤掉离群值。另一种方法,深度全局注册[85],是类似的,设计一个新的网络来学习对应关系的权重。为了避免传统方法忽略局部几何特征的缺点,图93DRegNet中的分类块和配准块233Zhiyuan ZHANG et al:Deep learning based point cloud registration:anoverviewθ结构,提出了一种高维卷积网络。将点云转换为规则的体素,并提出了一种6维卷积网络结构来编码局部信息。这种方法是杰出的,但依赖于体素表示。(2)无监督3DRegNet[82]策略受到监督。然而,在传统的注册方法中,无监督的管道是更常见的。提出了3D视觉问题的共识最大化[86]的无监督学习,它为从数据中学习共识最大化提供了监督信号。如图10中所示,在一个新的网络工作中,确定如下值:Rm×n→10,1m,并通过θ,χ是对应关系的样本集,其学习的预测得分被指示为w,i。的网络最大化内点的数量,同时拒绝离群点。为此,定义了可微分监督信号,其既不需要逐点标签,也不需要关于对应关系之间的地面真值转换。可以通过最小化V和ermondematrixM d矩阵的信号值来放松约束[87]。对于Md的单个奇异值σ1,σ2,σ2,σ s,σ,尾r奇异值必须为零。该网络可以建模如下:Vandermonde矩阵Md$χ$∈Rm×s[87],每行i都用相应的内点概率加权威岛然后,使用可微SVD运算计算加权Vandermonde矩阵的最后r个奇异值。因此,最终的经验损失lθ,χ如下:图10无监督离群拒绝模块。lθ,χ=-<$ w θ$χ$1 +λσs-kdiaw θχM dχ(8)事实上,离群值剔除阶段具有挑战性,但很重要。此外,无监督学习策略更显着,更适合于各种应用。RANSAC[80],DSAC[81,88]的可微扩展是启发式的。因此,开发更有效的无监督方法势在必行。3.2.4运动估计刚性运动估计是点云配准任务的最后阶段。运动参数具有不同的表示,诸如四元数、角轴、旋转矩阵R和平移向量t。此外,R和t是最受欢迎的,并且已经被证明是使用基于对应的SVD最佳可解的。同时,基于端到端的学习策略,已经提出了一些利用回归策略来估计运动的方法。(1)回归在3DRegNet中,网络块的输入是从点对应中提取的特征。池化操作用于从分类块的每一层提取有意义的特征。最大池与其他选项(如平均池)相比执行得最好在合并之后,虚拟现实智能硬件2020年12月第3234Nk= 1i= 1i∑+εk= 1x=1∑Nxi,完成后,应用上下文规范化和特征图拼接[83]。然后将来自上下文归一化的特征传递到卷积层。然后生成的输出为6变量:v=v1,v2,v 3,v 1,v 2,v3, 和t=t1,t2,t 3,t3。Deng等人提出使用RelativeNet[89]获得运动,这本质上是一个完全连接的网络。然而,值得一提的是,这种回归网络简单但有效,因为输入被认为仅与运动相关。这是基于旋转不变网络PPF-FoldNet和旋转相关网络PC-FoldNet[90,91]之间的差异构建的。(2)奇异值分解在刚性对准问题中,假设Y是使用未知的刚性运动从X变换而来。表示R∈SO3,t∈R3的刚性变换。为了便于表达,假设NX=NY,其被指示为N,则目标函数可以被公式化如下:R*,t*=argmin1∑N<$ Rxk+t-yk<$2(9)然后,X和Y的质心定义如下:互协方差矩阵H由下式给出:Ni= 1Ni= 1H=ΣNxiyi-T(11)首先,我们使用SVD分解H=U <$VT。然后,对准最小化损失函数以如下的封闭形式给出:R=VU T,t=-Rx+y(12)这里,采用U,V∈SO3的约定,其中,V是对角的,但可能有符号。这解释了H的取向反转选择。这个经典的正交Procrustes问题假设点集是相互匹配的,也就是说,在所有i的最终对齐中,xi应该映射到yi。(3)加权奇异值分解虽然SVD分解已被证明是最优的,但它的成功取决于所有对应关系发挥同等作用的假设。事实上,这些对应关系并不总是精确的。例如,平面上的一些点可能具有与许多点相当的特征,并且应该给予较少的权重。此外,我们应该更多地关注那些具有较少可能对应性的独特点,例如角落。因此,对于IMP[55],概率分布的熵的倒数被用作权重:w=-1J其中ε是用于数值稳定性的小常数然后,(9)变成如下:(十三)R*,t*=argminN1wk<$ Rxk+t-yk<$2(14)这个优化问题可以用封闭形式求解。让NX双头H=∑xk-x<yk-yT(15)式中,x今和y今为平均值。此外,W是对角矩阵,其中Wi,i$=wi。将SVD应用于H,H=U VTZhiyuan ZHANG et al:Deep learning based point cloud registration:anoverview235(16)该解决方案可以通过使用R*=VU T,t*=-R*x+y(17)虚拟现实智能硬件2020年12月第3234=3.3细化除了上面讨论的流水线之外,还提出了其他技术来改进性能。这些是可以附加到这些最先进的配准算法的单元模块。在本节中,我们提供了最具代表性的方法,这些方法显着提高了性能。3.3.1迭代匹配对应点和运动估计的精度取决于输入点云的相对姿态。实际上,旋转估计的误差随着初始旋转角的增大而增大。这激发了迭代改进的发展[37,54]。将迭代m输出的旋转和平移表示为Rm和tm。在迭代过程中,我们对源点云进行变换,与Rm和tm一起,以获得具有较小角度和平移间隙的新点云Xm。接下来,Xm被馈送到具有相同结构但不同权重的新特征提取模块中,以在该新姿态中提取新特征。再次,形成相似性矩阵,找到对应关系,并求解新的Rm+1和tm+1。因为Xm已经接近Y,所以通过匹配在该新姿态下提取的特征而找到的对应性将更准确。最终预测通过如下合成Rm和tm的所有中间值来RMRm= 1(十八)M-IMt =∑t m<$R n +tmn=m+1这种迭代细化策略不仅提高了估计结果的准确性,而且有利于处理噪声,即使是部分到部分配准[92]。3.3.2多视点云配准多视点云配准意味着同时考虑多个点云,并利用每两个点云之间的姿态约束来改进性能[93]。所有的点被公式化为图G,并且每个点云被表示为顶点。全局变换参数可以通过将问题分为旋转[79]和平移[28]同步来估计。此外,基于谱松弛[28,79,80,82]总结了一个可微的封闭形式解。3.3.3LUT插值MLP深度学习点云处理中最流行的神经网络单元是多层感知器(MLP)。然而,传统的MLP由矩阵向量乘积运算层和非线性运算层组成。由于这些原因,嵌入的计算主导了大部分过程。为此,Yusuke等人提出了一种新的框架,该框架使用存储在查找表(LUT)中的基函数的线性组合来计算嵌入,称为LUT插值MLP(LUTI-MLP),并且比MLP更有效[94]。3.4部分重叠条件由于部分重叠情况下点云配准的特殊性,本节对部分重叠情况下的点云配准进行了单独介绍。部分点云是指不完整的点云,这意味着观察到的对象在两个输入点云内不完全一致。在这种情况下,估计刚性运动是更具挑战性的,特别是在深度学习方法的情况下,这是因为有限的M虚拟现实智能硬件2020年12月第3236两个点云之间的重叠。由于除了姿态之外,两个全局特征之间的巨大差异,无对应关系的方法是不切实际的。传统的基于对应关系的方法不能令人满意,因为只能观察到极其有限的对应关系。为了解决这个难题,关键点对应和迭代细化策略已被利用。在PRNet[92]中,Wang等人提出通过比较学习特征的L2值得一提的是,Gumbel-Softmax[95]策略被应用于提高对应关系的质量。深度学习的部分点云配准问题仍然是一个具有挑战性的问题,在这一领域进行的研究非常少。此外,更注重优化对应矩阵的低重叠和离群值的影响,将是一个有趣的研究课题在未来。4数据集和指标4.1数据集在本节中,我们将介绍用于3D点云配准的常见数据集。在评估不同指标的性能时,数据集是必不可少的。用于配准任务的3D点云数据集可以分为两类,即合成数据和真实场景数据,它们会受到噪声的影响。真实场景数据直接使用LiDAR、RGB-D相机或间接使用多视图图像获得,包括室外和室内场景。我们主要在下表中提供数据集的基本信息。更详细的信息在参考文献中给出。表1具有子集的[96]第九十六话[第97话]真实/合成合成合成ShapeNetCoreShapeNetSemModelNet10ModelNet40子集内涵来自55个类别的270大类12000个模型10大类CAD模型40大类CAD模型红木[22,44,98]Make3D范围图像数据[99]RealSyntheticRealSynthetic对齐的40类子集室内场景的鲁棒重建大型物体扫描数据集室内激光雷达-RGBD扫描数据集制作3D图像和激光深度图图像和激光与立体图像和1D激光图像和深度视频和深度40个类别的CAD模型室内场景的两个模型10个类别的401个模型由室外场景(约1000个)、室内场景(约50个)、合成对象(约7000个)等组成。4.2度量在点云配准任务中,评价策略可以分为两类。第一个重点是特征提取和匹配。第二个是简单的,集中在一个刚性的运动估计。(1)特征提取器比赛召回。 特征匹配查全率衡量的是能够Zhiyuan ZHANG et al:Deep l
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功