没有合适的资源?快使用搜索试试~ 我知道了~
13523深度最近点:用于点云配准的学习表示麻省理工77 Massachusetts Ave,Cambridge,MA02139yuewangx@mit.edu贾斯汀·M麻省理工77 Massachusetts Ave,Cambridge,MA 02139jsolomon@mit.edu摘要点云配准是计算机视觉应用于机器人、医学成像等领域的关键问题。这个问题涉及到找到从一个点云到另一个点云的刚性变换,以便它们对齐。迭代最近点(ICP)及其变体为该任务提供了简单且易于实现的迭代方法,但这些算法可能会收敛到虚假的局部最优值。为了解决ICP管道中的局部最优和其他困难,我们提 出 了 一 种 基 于 学 习 的 方 法 , 名 为 深 度 最 近 点(DCP),灵感来自计算机视觉和自然语言处理中的最新技术。我们的模型由三个部分组成:一个点云嵌入网络,一个基于注意力的模块与一个指针生成层相结合 ,以近似 组合匹 配,和一 个可微 奇异值 分解( SVD ) 层 , 以 提 取 最 终 的 刚 性 变 换 。 我 们 在ModelNet40数据集上对我们的模型进行端到端训练,并在几个设置中显示它的性能优于ICP及其变体(例如,Go-ICP,FGR)和最近提出的基于学习的方法PointNetLK。除了提供一个国家的最先进的注册技术,我们评估我们学到的功能转移到看不见的对象的适用性我们还提供了我们学习模型的初步分析,以帮助了解特定领域和/或全局特征是否有助于刚性配准。1. 介绍几何配准是医学成像、机器人学、自动驾驶、计算化学等计算领域的一个关键问题。在其最基本的体现中,配准涉及预测刚性运动以将一个形状与另一个形状对齐,可能被噪声和干扰所模糊。许多建模和计算挑战阻碍了稳定和有效的配准方法的设计给定精确对应,奇异值分解产生图1. 左:一把移动的吉他。右:旋转的人。所有的方法都能很好地工作,只需很小的变换。然而,只有我们的方法实现了令人满意的对齐对象与尖锐的功能和大的变换。全局最优对齐;类似地,给定一些全局对齐信息,计算给定这两个观察结果,大多数算法在这两个步骤之间交替以尝试获得更好的结果。然而,由此产生的迭代优化算法容易陷入局部最优。最流行的例子,迭代最近点(ICP)[5,40],交替估计刚性运动的基础上,13524基于固定的对应性估计并将对应性更新到它们的最接近匹配。虽然ICP单调地降低了测量对准的某个目标函数,但由于问题的非凸性,ICP经常在次优局部最小值中停滞。许多方法[37,13,55]试图通过使用几何学来改善匹配或通过搜索运动空间SE(3)的更大部分来缓解这个问题。这些算法通常比ICP慢,并且仍然不总是提供可接受的输出。在这项工作中,我们从深度学习的角度重新审视ICP,使用现代机器学习,计算机视觉和自然语言处理工具解决ICP管道每个部分的关键问题我们称我们的算法为深度最近点(DCP),这是一种基于学习的方法,它采用两个点云并预测将它们对齐的刚性变换。我们的模型由三个部分组成:(1)我们将输入点云映射到置换/刚性不变嵌入,以帮助识别匹配的点对(我们比较PointNet[33] 和DGCNN [50]用于此步骤);然后,(2)基于注意力的模块结合指针网络[48,46]预测点云之间的软匹配;最后,(3)可微奇异值分解层预测刚性变换。我们在ModelNet40 [52]上以各种设置端到端地训练和测试我们的模型,表明我们的模型不仅高效,而且优于ICP及其扩展,以及最近提出的PointNetLK方法[18]。我们学习的特征推广到看不见的数据,这表明我们的模型正在学习显著的几何特征。贡献: 我们的贡献包括:• 我们确定了子网架构,旨在解决经典ICP管道中的困难。• 我们提出了一个简单的架构来预测一个刚性变换,形成对齐两个点云。• 我们评估了几种设置的效率和性能• 我们分析是否本地或全球功能更有用的注册。• 我们发布我们的代码,以促进可重复性和未来的研究。2. 相关工作点云配准方法:ICP [5]是解决刚性配准问题的最知名算法;它在寻找点云对应和求解最小二乘问题之间交替以更新对准。ICP变体[37,40,6]考虑了基本方法的问题,如噪声,偏心和稀疏;概率模型[2,15,19]也可以提高对不确定数据的弹性。ICP可以看作是一种联合搜索的优化算法用于匹配和刚性对齐。因此,[13]建议使用Levenberg-Marquardt算法直接优化目标,这可以产生更好的解决方案。欲了解更多信息,[32,37]总结了国际比较方案及其在过去20年中发展的变体。ICP型方法由于非凸性而易于出现局部最小值为了找到 一 个 好 的 最 优 值 , Go-ICP [55] 使 用 分 支 定 界(BnB)方法来搜索运动空间SE(3)。当需要全局解时,它优于局部ICP方法,但尽管使用局部ICP来加速搜索过程,但比其他ICP变体慢几个数量级其他方法尝试使用黎曼优化[36],凸松弛[27]和混合整数规划[21]来识别全局最优值。最近,描述符学习方法在点云配准方面取得了重大进展:3DMatch [59]提出学习局部体积块描述符以建立对应关系; 3DSNET [56]采用类似的方法来表示局部区域的点云; PPF- FoldNet [9]使用基于折叠的自动编码器来学习局部描述符; 3DSmoothNet [14]采用体素化平滑密度值(SDV)表示进行描述符学习。我们的算法和这些技术之间的关键区别在于,我们进行端到端的配准预测,而其他目标描述符学习。此外,这些工作依赖于使用RANSAC的关键点检测和离群值去除。并行工作[26]提出了一种用于点云配准的端到端流水线。一个显着的区别是,他们计算每个点样本的损失,而我们的直接优化配准目标。学习图形和点集:几何深度学习[7]包括最近在图[51,60,12]和点云[33,34,50,57]上学习的方法。图神经网络(GNN)在[39]中引入;类似地,[11]定义了分子数据的图上卷积(GCN)。[24]使用重正化来适应图结构,并将GCN应用于图上的半监督MoNet [28]学习基于图结构的动态聚合函数,推广了GNN。最后,图注意力网络(GAT)[47]将多头注意力纳入GCN。DGCNN [50](下面讨论)可以被视为应用于具有动态边缘的点云的图形神经网络。几何深度学习的另一个分支包括点网[33]和其他设计用于处理点云的算法。PointNet可以看作是将GCN应用于没有边的图,将R3中的点映射到高维空间。PointNet仅对从点云为了解决这个问题,PointNet++[34] 将共享PointNet应用于k-最近邻clus-13525(a) (b)Transformer模块图2.DCP的网络架构,包括DCP-v2的Transformer模块学习当地特色。作为替代方案,DGCNN [50]显式地恢复了欧几里得空间和特征空间中的图结构,并将图神经网络应用于结果。PCNN [3]使用扩展运算符来定义点云上的卷积,而PointCNN [25]在应用学习的变换后应用欧几里得卷积。最后,SPLATNet [43]在晶格上编码点云并执行双边卷积。所有这些工作的目的是应用卷积类操作的点云和提取局部几何特征。序列到序列学习和指针网络:自然语言处理中的许多任务,包括机器翻译、语言建模和问题回答,都可以用公式表示为序列到序列(seq2seq)问题。[45]首先使用深度神经网络(DNN)来解决大规模的seq2seq问题。然而,Seq2seq这个问题是困难的,因为输入和输出位置之间可能的匹配是指数级的。类似的问题可以在最优运输[41,31],组合优化[20]和图匹配[54]中找到。为了解决这个问题,在我们的注册管道中,我们使用与指针网络[48]相关的方法,该方法使用注意力作为指针来从输入序列中进行选择。在每个输出步骤中,指针网络预测位置的分布,并将其用作指针模块是完全可微的,整个网络可以端到端训练。非本地方法:去噪图像,非局部关系网络[38]在视觉推理[38]、元学习[44]、对象检测[17]和强化学习[58]中表现出了有效性。它在自然语言处理中的对应物,注意力,可以说是这一学科最富有成果的最新进展[46]用一个名为Transformer的模型取代了递归神经网络[22,16基于transformer的模型[10,35]在自然语言处理中的表现远远优于其他常见模型。在我们的工作中,我们还使用一个Transformer来学习点云的上下文信息。3. 问题陈述在本节中,我们将阐述刚性对齐问题并讨论ICP算法,重点是-在比较方案编审中。我们使用X和Y来表示两个点云,其中X ={x1,. . . ,xi,.. . ,XN} R3,并且Y={y1,. . . ,yj,. . .3. 为了便于记法,我们考虑最简单的情况,其中M=N。我们在这里描述的方法很容易扩展到M/=N的情况因为DGCNN、Transformer和Softmax将输入视为无序集。None要求X和Y具有相同的长度或双射匹配。在刚性对准问题中,我们假设Y是通过未知的刚性运动从X我们将刚性变换记为[RXY, tXY],其中RXY∈SO(3),tXY∈R3.我们希望最小化均方误差E(RXY,tXY),如果X和Y以相同的方式排序(意味着xi和yi是成对的),则可以写为1ΣNmeans [8]利用了高斯分布的简单观察,可以通过对图像中的所有像素进行非局部加权平均来去除噪声。最近,非局部神经网络E(RXY,tXY)=NRXYx i+tXY− yi<$2。(一)我[49]已被提议在视频理解中捕获远程依赖关系;[53]使用非本地模块,定义X和Y的质心为1ΣN1ΣN去噪特征图以抵御对抗性攻击。非局部神经网络的另一个实例,称为X= Ni=1xi和y=Ni=1伊岛(二)13526我1 2i Nθ然后,互协方差矩阵H由下式给出:ΣNH=(x i− x)(yi− y)。(三)i=1我们可以使用奇异值分解(SVD)对H=USV进行分解.然后,(1)中的对齐最小化E(·,·)以封闭形式给出,我们使用PointNet [33]或DGCNN [50](§4.1)将点云嵌入到高维空间中,使用基于注意力的模块(§4.2)编码上下文信息,并最终使用可微SVD层(§4.4)估计对齐4.1. 初始特征管道的第一阶段嵌入未对齐的输入RXY =VUandtXY =−RXY x+ y。(四)将点云X和Y插入到用于在两个云之间找到匹配点对的公共空间中。目标这里,我们采用U,V∈SO(3)的约定,而S是对角的,但可能是有符号的;这说明了方向-H的选择。这个经典的正交Procrustes问题假设点集是相互匹配的,也就是说,对于所有i,xi应该在最终对齐中映射到yi。然而,如果对应性是未知的,则必须修改目标函数E以考虑匹配:1ΣN是找到一种嵌入,该嵌入排除刚性运动,同时保持对刚性匹配的相关特征的敏感性。我们评估了可学习嵌入 模 块 的 两 种 可 能 选 择 , PointNet [33] 和 DGCNN[50]。由于我们使用两个输入点云的每点嵌入来生成映射m并恢复刚性变换,因此我们在输入点云中寻找每个点的特征,而不是每个云的一个特征。出于这个原因,在这两个网络架构中,我们使用在最后一个聚合函数之前生成的表示,E(R)XY,tXY)=NRXYxi+tXY−ym(xi)2.( 五)表示为FX={x L,x L,.,xL,...,x L}和FY=L L L L我这里,从X中的每个点到Y中的对应点的映射m由下式给出:m(x i,Y)= arg min <$RXYx i+ tXY−yj <$.(六){y1,y2,… 是的, yN},假设总共L层。更详细地说,PointNet采用一组点,将每个点通过非线性函数从R3到高维空间,并可选地输出全局特征向量,在执行逐通道聚合后的整个点云j函数f(例如,max或). 设xl是等式(5)和(6)形成经典的先有鸡还是先有蛋问题。如果我们知道最优刚性变换[RXY,tXY],则映射m可以从(6)恢复;相反,给定最优映射m,可以使用(4)计算变换。ICP迭代地接近(5)中的E的稳定点,包括映射m(·)作为优化问题中的变量之一它在两个步骤之间交替:基于先前的映射mk−1找到当前最优变换,并使用(6)基于当前变换找到最优映射mk,其中k表示当前迭代。当固定的达到点或失速标准。该过程易于实现且相对高效,但极易陷入局部最优;远距离初始对准产生映射m的差的估计,迅速导致以下情况算法就会卡住我们的目标是使用学习的嵌入来重新获得更好的匹配m(·),并使用此匹配来计算刚性变换,我们将在下一节中详细介绍。4. 深最近点在建立了关于刚性对齐问题的体系结构之后,我们现在可以展示我们的深度最近点体系结构,如图2所示。总之13527iθiiθij第 l 层 中 的点 i , 并 且 令hl 是 由 共享 多 层 感知 器(MLP)参数化的第l层中的非线性函数然后,前向机制由x l=h l(x l−1)给出。虽然PointNet主要根据DGCNN将每个点独立地嵌入点云中,明确地将局部几何结构并入其表示中。怨恨特别地,给定一组点X,DGCNN构造k-NN图G,对边缘端点处的值应用非线性以获得边缘中的值,并且在每一层中执行逐点聚合(max或)DGCNN的前向机制因此xl=f({hl(xl−1,xl−1)<$j∈Ni}),(7)其中Ni表示图G中顶点i的邻居。虽然PointNet特征不包含局部邻域信息,但我们根据经验发现DGCNN对于后续流程步骤中的高质量匹配至关重要(参见第6.1节)。4.2. 关注我们从PointNet到DGCNN的转变是出于这样的观察,即刚性对齐的最有用的特征是从局部和全局信息中共同学习的我们还可以改进我们的匹配功能13528XYXYXYXi通过使它们特定于任务,也就是说,根据X和Y的特殊性一起改变特征,而不是独立地嵌入X和Y。也就是说,严格排列有机形状的任务可能需要不同的-与用于对准具有锋利边缘的机械零件的那些相比,受BERT [10]、非局部神经网络[49]和关系网络[38]使用基于注意力的模型的最近成功的启发,我们设计了一个模块来通过捕获自我注意力和条件注意力来学习共上下文信息。取FX和FY为§4.1中的模块生成的嵌入;这些嵌入彼此独立地计算我们的注意力模型学习一个函数φ:RN×P×RN×P→RN×P,其中P是嵌入维度,它提供了点云的新嵌入作为也就是说,每个xi∈ X被分配一个Y的元素上的概率向量,由下式给出:m(xi,Y)=softmax(ΦYΦmax).(九)这里,ΦY∈ RN×P表示由注意模块生成的Y的嵌入,并且Φxi表示来自注意模块的矩阵Φ X的第i个r w。我们可以把m(xi,Y)看作是从每个xi到Y的元素的软指针。4.4. SVD模块我们架构中的最后一个模块从§4.3中计算的软匹配中提取刚性运动。我们使用软指针为X中的每个点生成Y中的匹配平均点:ΦX=FX+φ(FX,FY)ΦY =FY+φ(FY,FX)(八)y<$i=Y<$m(xi,Y)∈R3.(十)在这里,我们定义Y∈RN×3为包含注意,我们将φ视为剩余项,提供了一个附加项,根据其输入的顺序,对FX和FY进行有意义的改变。这里的思想是,映射FX<$→ΦX以一种了解Y的结构的方式修改与X中的点相关联的特征;映射FY<$→ΦY起着对称的作用。我们选择φ作为不对称的由一个Transformer给出的函数[46]。Transformer是一个解决序列到序列问题的它由几个堆叠的编码器-解码器层组成编码器采用一个序列/集合(FX),并通过使用自注意层和共享多层将其编码到感知器(MLP)。解码器有两个部分:第一部分采用另一个序列/集合(FY)并以与编码器相同的方式对其进行编码,第二部分使用共同注意将两个嵌入的序列/集合关联起来。因此,输出嵌入(ΦX和ΦY)具有非实性信息。从两个序列/集合(FX和FY)中分离匹配我们在刚性排列中遇到的问题类似于序列到序列的问题,激发了它的发展,除了他们使用位置嵌入来描述单词在句子中的位置。4.3.指针生成点在Y。然后,使用(4)基于所有i上的配对xi→yi,提取R XY和t XY。为了通过网络反向传播梯度,我们需要区分SVD。[29]描述了计算此导数的标准方法;PyTorch [30]和TensorFlow [1]中包含了此计算的版本注意,我们只需要解决3×3特征值问题,小到可以使用简单算法甚至(原则上)封闭式公式4.5. 损失结合起来,上面的模块从一对点云X和Y映射到一个刚性运动[RXY,tXY],使它们彼此对齐初始特征模块(§4.1)和注意力模块(§4.2)都是由一组神经网络权重参数化的,这些权重必须在学习过程中学习。训练阶段。我们采用了一种相当简单的训练策略,测量[RXY,tXY]与合成生成的点云对的地面真实值的偏差。我们使用以下损失函数来测量我们的模型ICP最常见的失效模式发生在匹配估计mk远不是最优时。当这种情况发生时,损失=Rg−I2+tXY−tg2+λ<$θ<$2。(十一)随后使用(6)估计的刚性运动没有显著改善对准,导致伪局部最优。作为替代方案,我们学习的嵌入被专门训练,以使用下面解释的简单过程来暴露匹配的点对我们称这一步为指针生成,再次受到§4.2中介绍的注意力文献中的术语的启发。为了避免选择不可微的硬分配,我们使用概率方法,该方法生成从一个点云到另一个点云的(单随机)这里,g表示地面实况。前两项定义SE(3)上的简单距离。第三项表示DCP参数θ的Tikhonov正则化,其用于降低网络的复杂性。5. 实验我们将我们的模型与ICP,Go-ICP [55],快速全局配准(FGR)[61]和最近提出的Point-NetLK深度学习方法[18]进行比较。我们表示我们的模型R13529模型MSE(R)RMSE(R)MAE(R)MSE(t)RMSE(t)MAE(t)ICP894.89733929.91483523.5448170.0846430.2909350.248755Go-ICP [55]140.47732511.8523132.5884630.0006590.0256650.007092FGR [61]87.6614919.3627721.9992900.0001940.0139390.002839[18]第十八话227.87033115.0953744.2253040.0004870.0220650.005404DCP-v1(我们的)6.4805722.5456971.5055480.0000030.0017630.001451DCP-v2(我们的)1.3073291.1433850.7705730.0000030.0017860.001195图3. 左上:输入。右上:随机初始化的ICP结果。左下角:DCP提供的初始转换。右下角:使用DCP初始化的ICP结果。使用DCP提供的良好初始变换,ICP收敛到全局最优。没有注意力(§4.2)作为DCP-v1,有注意力的完整模型作为DCP-v2。Go-ICP是从作者发布的代码移植而来的对于ICP和FGR,我们使用实现-英特尔Open3D [62]。对于PointNetLK,我们采用了作者部分发布请注意,FGR [61]使用了额外的几何特征。在所有的实验中,所提出的方法并没有假设一个良好的初始姿态,测试点云的生成方式与训练点云相同。ICP及其变体用单位变换矩阵初始化。DCP的架构如图2所示。我们为DCP- v1和DCP-v2使用5个EdgeConv(表示为DGCNN [50])层。每层中的过 滤 器 的 数 量 是 [64 , 64 , 128 , 256 , 512] 。 在Transformer层中,多头注意中的头数为4,嵌入维数为1024。我们使用LayerNorm [4]而不使用Dropout [42]。Adam [23]用于优化网络参数,初始学习率为0.001。我们在第75、150和200个时期将学习率除以10,总共训练250个纪元。DCP-v1不使用Transformer模块,而是使用标识映射ΦX=FX和ΦY=FY。我们在ModelNet40 [52]数据集上进行了实验,由来自40个类别的12,311个网格化CAD模型组成其中,我们使用9,843个模型进行训练,使用2,468个模型进行测试。我们遵循PointNet [33]的实验设置与以前的工作一样,点被居中并重新缩放以适合单位球体,并且除了(x,y,z)坐标之外,没有其他特征出现在输入中。我们测量均方误差(MSE),均方根平方误差(RMSE)和地面真值与预测值之间的平均绝对误差(MAE)。理想情况下,如果刚性对准为零,则所有这些误差度量都应该为零。表1.ModelNet40:在看不见的点云上进行测试模型MSE(R)RMSE(R)MAE(R)MSE(t)RMSE(t)MAE(t)ICP892.60113529.87643123.6261100.0860050.2932660.251916Go-ICP [55]192.25863613.8657362.9141690.0004910.0221540.006219FGR [61]97.0027479.8489971.4454600.0001820.0135030.002231[18]第十八话306.32397517.5021135.2805450.0007840.0280070.007203DCP-v1(我们的)19.2013854.3819382.6804080.0000250.0049500.003597DCP-v2(我们的)9.9237013.1501912.0072100.0000250.0050390.003703表2.ModelNet40:测试看不见的类别完美了我们的结果中的所有角度测量都以度为单位5.1. ModelNet40:全数据集训练测试在我们的第一个实验中,我们将ModelNet 40数据集中的所有点云随机分为训练集和测试集,不知道类别标签;在训练和测试期间使用不同的点云。期间训练时,我们采样点云X。沿着每个轴,我们随机绘制一个刚性变换;沿着每个轴在[0,45<$]中均匀采样,平移在[−0]中。5,0。5]。X和X通过刚性运动的变换被用作网络的输入,其被评估使用(11)对已知的基础事实进行比较。表1评估了我们的方法及其在本实验中的同类方法的性能(vanilla ICP几乎失败)。在所有性能指标下,DCP-v1已经优于其他方法,DCP-v2表现出更强的性能。5.2. ModelNet40:分类拆分为了测试不同模型的通用性,我们将ModelNet40按类别平均分为训练集和测试集。我们在前20个类别上训练DCP和PointNetLK,然后在保留的类别上测试它们。ICP、Go-ICP和FGR也在保留类别上进行测试如表2所示,在看不见的类别上,FGR比其他方法表现得更强。DCP-v1的性能比DCP-v2差得多,支持我们使用注意力模块。虽然学习的表示是任务相关的,但DCP-v2比FGR(包括基于学习的方法PointNetLK)以外的其他方法表现出更小的误差。5.3. ModelNet40:抗噪声我们还尝试向输入点云的每个点添加噪声。我们对噪声进行独立采样,13530模型MSE(R)RMSE(R)M A E (R)MSE(t)RMSE(t)M A E (t)PN+ DCP-v1,DGCNN+DCP-v1PN+ DCP-v2DGCNN+DCP-v2ICP882.56420929.70798323.5572170.0845370.2907520.249092MSE(R)17.0084276.48057249.8630221.307329Go-ICP [55]131.18249511.4534932.5348730.0005310.0230510.004192RMSE(R)4.1241272.5456977.0613751.143385FGR [61][18]第十八话607.694885256.15554824.65146816.00486010.0559184.5956170.0118760.0004650.1089770.0215580.0273930.005652MAE(R)MSE(t)2.8001840.0006971.5055480.0000034.4850520.0002580.7705730.000003DCP-v1(我们的)6.9265892.6318411.5158790.0000030.0018010.001697RMSE(t)0.0264090.0017630.0160510.001786DCP-v2(我们的)1.1693841.0813800.7374790.0000020.0015000.001053MAE(t)0.013270.0014510.0105460.001195表3.ModelNet40:对带有高斯噪声的对象进行测试表5.消融研究:PointNet还是DGCNN?ICP Go-ICP FGR PointNetLK点数DCP-v1 DCP-v25120.00397215.0123750.0332970.0432280.0031970.00793210240.00468315.4059950.0881990.0556300.0033000.00829520480.04463415.7660010.1380760.1461210.0403970.07369740960.04458515.9845960.1571240.1620070.0399840.74263表4.推断时间(秒)N(0,0. 01),将噪声限幅到[−0. 05,0。05],并将其添加到X在测试期间。 在这个实验中,我们使用了来自§5.1使用来自所有ModelNet40的无噪声数据进行训练表3示出了该实验的结果ICP通常收敛到一个遥远的固定点,和FGR是敏感的噪声。然而,Go-ICP、PointNetLK和DCP仍然对噪声具有鲁棒性。5.4. DCP之后是ICP由于我们的实验涉及的点云的初始姿态是远远没有对齐,ICP失败几乎每一个实验,我们提出了到目前为止。在很大程度上,这种失败是由于缺乏良好的初始猜测。作为替代方案,我们可以使用ICP作为局部算法,通过使用DCP模型的刚性变换输出 图3示出了该两步过程的示例;虽然ICP在全局对准任务中失败,但是通过DCP提供的更好的初始化,它收敛到全局最优。从某种意义上说,这个实验表明了ICP如何成为“抛光”DCP生成的对齐的有效方法5.5. 效率我们分析了不同方法在具有Intel I7-7700 CPU、Nvidia GTX 1070 GPU和32 G内存的台式机上的推理时间。计算时间以秒为单位,通过对100个结果进行平均计算。如表4所示,在我们的比较点中,DCP-v1是最快的方法,DCP-v2仅比vanilla ICP慢。6. 消融研究在本节中,我们进行了几个消融实验,解剖DCP并将每个部分替换为替代品,以了解我们构造的价值所有实验均在与§5.1中的实验相同的设置中进行。DCP-v1+MLPDCP-v1+SVDDCP-v2+MLPDCP-v2+SVDMSE(R)21.115917 6.480572 9.923701 1.307329MAE(t)0.022501 0.001451 0.003703 0.001195表6.消融研究:MLP还是SVD?6.1. PointNet还是DGCNN?我们首先尝试回答DGCNN收集的本地化特征是否如[50]中所讨论的,PointNet [33]学习整个形状的全局描述符,而DGCNN [50]通过构建k-NN图来学习局部几何特征。我们更换DGCNN与PointNet(表示为PN),并使用DCP-v1和DCP-v2在ModelNet 40 [52]上进行§5.1中表5.模型在DGCNN中的表现始终优于PointNet。6.2. MLP还是SVD?虽然MLP原则上是一个通用近似器,但我们的SVD层专门用于计算刚性运动。在这个实验中,我们检查MLP还是定制设计的层更适合配准.我们在ModelNet 40上将MLP和SVD与DCP-v1和DCP-v2进行了比较。表6显示了DCP-v1和DCP-v2在SVD层中的性能优于MLP。这支持了我们使用SVD计算刚性变换的动机。6.3. 嵌入维数[33]注意到嵌入维数是影响点云深度学习模型准确性的重要参数,达到临界阈值后,差异不显著为了验证我们对维度的选择我们使用DCP-v1和v2测试模型,使用DGCNN将点云嵌入R512或R1024。表7中的结果表明,将嵌入尺寸从512增加到1024确实略微有助于DCP-v2,但对于DCP-v1,存在小的简并。我们的结果与[33]中的假设是一致的。RMSE(R)4.5952062.5456973.1501911.143385MAE(R)3.2912981.5055482.0072100.770573MSE(t)0.0008610.0000030.0000250.000003RMSE(t)0.0293430.0017630.0050390.00178613531度量DCP-v1(512)DCP-v1(1024)DCP-v2(512)DCP-v2(1024)MSE(R)6.4805727.2912161.3073291.217545RMSE(R)2.5456972.7002251.1433851.103424MAE(R)1.5055481.6164650.7705730.750242MSE(t)0.0000030.0000010.0000030.000003RMSE(t)0.0017630.0011500.0017860.001696MAE(t)0.0014510.0006770.0011950.001170表7.消融研究:嵌入维数7. 结论从某种意义上说,我们的深度最近点技术中的关键观察结果是,学习的特征极大地促进了刚性对齐算法;通过结合DGCNN [50]和注意力模块,我们的模型可靠地提取了找到对齐两个输入点云的刚性运动所需的对应关系我们的端到端可训练模型足够可靠,可以在单次通过中提取高质量的对齐,这可以通过经典ICP的迭代或“抛光”来改进DCP可立即应用于刚性对线问题,作为ICP的直接替代品,具有更好的适应性。除了它的直接使用,我们的实验提出了几种途径,为未来的调查。一个简单的扩展是看看我们学习的嵌入是否可以转移到其他任务,如分类和分割。我们还可以训练DCP迭代地(或递归地)应用于优化对齐,而不是试图在单次对齐中进行对齐;强化学习的洞察力可以帮助优化这方面的方法,使用均方误差作为奖励来学习控制何时停止迭代的策略。我们还对场景测试感兴趣,这些场景通常高达300,000点。然而,当前的深度网络只能处理对象级的点云(每个点云通常有500到5,000个点);这是最近的点云学习方法的常见局限。场景上的测试,无论任务如何,都需要设计一个高效的场景级点云编码网络,这是点云学习的一个有前途但具有挑战性的方向。最后,我们希望我们的方法可以纳入更大的管道,以实现高精度的同步定位和映射(SLAM)或结构从运动(SFM)。8. 确认作者感谢陆军研究办公室授予W 911 NF-12-R-0011的慷慨支持,国家科学基金会授予IIS-1838071,来自亚马逊研究奖,来自MIT-IBM Watson AI实验室,来自丰田-CSAIL联合研究中心,来自空军科学研究办公室奖FA 9550 -19- 1-0319,来自Adobe Systems的礼物,以及Skoltech-MIT下一代项目。任何意见、调查结果、结论或建议,这些材料是作者的材料,不一定反映这些组织的观点王悦要感谢大卫·帕尔默的有益讨论。引用[1] Mart´ın Abadi,Ashish Agarwal,Paul Barham,EugeneBrevdo , Zhifeng Chen ,Craig Citro, Greg S.Corrado,Andy Davis , Jef- frey Dean , Matthieu Devin , SanjayGhemawat,Ian Goodfel- low,Andrew Harp,GeoffreyIrving,Michael Isard,Yangqing Jia,Rafal Jozefowicz,Lukasz Kaiser,Manjunath Kudlur,Josh L ev enbe r g,DanjunMa ne' , RajatMon g a , SherryMoore , DerekMurray,Chris Olah,Mike Schuster,Jonathe Shlens,Benoit Steiner , Ilya Sutskever , Kunal Talwar , PaulTucker , VincentVanhouc k e , VijayVasud ev an ,FernandaVi e'gas , Oriol Vinyals , Pete Warden , MartinWattenberg , Martin Wicke , Yuan Yu , and XiaoqiangZheng. TensorFlow:异构系统上的大规模机器学习,2015年。软件可从tensorflow.org获得。5[2] GabrielAgamennoni , SimoneFontana , RolandSiegwart,and Domenico Sorrenti.点云配准与概率数据关联。在2016年智能机器人与系统国际会议(IROS)上。2[3] Matan Atzmon,Haggai Maron,and Yaron Lipman.基于扩展 算子 的点卷 积神经 网络 。ACM Transactions onGraphics,37(4):71:1-71:12,2018年7月。3[4] Lei Jimmy Ba、Ryan Kiros和Geoffrey E.辛顿层归一化。CoRR,abs/1607.06450,2016。6[5] Paul J. Besl和Neil D.麦凯一种三维形状配准方法。IEEETransactionsonPatternAnalysisandMachineIntelligence,14(2):239-256,Feb. 1992. 一、二[6] Sofien Bouaziz,Andrea Tagliasacchi,and Mark Pauly.稀疏迭代最近点。在第十一届欧洲图形学/ACMSIGGRAPH几何处理研讨会论文集,SGP瑞士,2013年。欧洲制图协会。2[7] Michael M Bronstein,Joan Bruna,Yann LeCun,ArthurSzlam,and Pierre Vandergheynst.几何深度学习:超越欧几 里 德 数 据 IEEE Signal Processing Magazine , 34(4):18-42,2017。2[8] 安东尼·布阿德斯、巴托梅乌·科尔和让-米歇尔·莫雷尔。一种非局部图像去噪算法。在IEEE Conference onComputer Vision and Pattern Recognition ( CVPR ) ,CVPRIEEE计算机协会。3[9] Haowen Deng , Tolga Birdal , and Slobodan Ilic.PPF-FoldNet: 旋 转 不 变 3D 局 部 描 述 符 的 无 监 督 学 习 。ArXiv,abs/1808.10322,2018。2[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向变换器的预训练。CoRR,绝对值/1810.04805,2018年。三、五[11] DavidKDuvenaud 、 DougalMaclaurin 、 JorgeIparraguirre、Rafael Bombarell 、Timothy Hirzel、 AlanAspuru-Guzik和Ryan P Adams。用于学习分子指纹的图上卷积网络。In C.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功