3DSmoothNet:基于平滑密度的3D点云匹配

94 浏览量更新于2023-10-18 收藏 17.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

scribe point neighborhoods with histograms of point dis-tributions or local surface normals (e.g., [16, 8, 28, 38]).Since the comeback of deep learning, research on 3D localdescriptors has followed the general trend in the vision com-munity and shifted towards learning-based approaches andmore speciﬁcally deep neural networks [49, 17, 5, 45, 4].Although the ﬁeld has seen signiﬁcant progress in the lastthree years, most learned 3D feature descriptors are eithernot rotation invariant [49, 5, 45], need very high output di-mensions to be successful [49, 4] or can hardly general-ize to new domains [49, 17]. In this paper, we propose3DSmoothNet, a deep learning approach for 3D point cloudmatching, which has low output dimension (16 or 32) forvery fast correspondence search, high descriptiveness (out-performs all state-of-the-art approaches by more than 20percent points), is rotation invariant, and does generalizeacross sensor modalities and from indoor scenes of build-ings to natural outdoor scenes.55450完美匹配：使用平滑密度的3D点云匹配0Zan Gojcic Caifa Zhou Jan D. Wegner Andreas Wieser0苏黎世联邦理工学院0{ firstname.lastname@geod.baug.ethz.ch }0摘要0我们提出了3DSmoothNet，一种使用孪生深度学习架构和全卷积层的完整工作流程，使用体素化的平滑密度值（SDV）表示。后者是针对每个兴趣点计算的，并与局部参考框架（LRF）对齐以实现旋转不变性。我们紧凑、学习的、旋转不变的3D点云描述符在3DMatch基准数据集[49]上实现了94.9%的平均召回率，比现有技术高出20个百分点以上，仅使用32个输出维度。这个非常低的输出维度允许在标准PC上每个特征点进行近实时的对应搜索，每个特征点仅需0.1毫秒。由于SDV、LRF和使用全卷积层学习高度描述性特征，我们的方法不受传感器和场景的限制。我们证明，仅在建筑物的RGB-D室内场景上训练的3DSmoothNet在室外植被的激光扫描中实现了79.0%的平均召回率，是我们最接近的基于学习的竞争对手[49, 17, 5,4]性能的两倍以上。代码、数据和预训练模型可在https://github.com/zgojcic/3DSmoothNet上在线获取。01. 引言03D点云匹配是将场景的多个重叠扫描（例如使用RGB-D传感器或激光扫描仪获取的扫描）合并为一个表示以进行进一步处理，如3D重建或语义分割的必要步骤。通常，场景的各个部分是从不同的视角捕获的，重叠度相对较低。因此，进一步处理的先决条件是将这些单独的点云片段对齐到一个共同的坐标系中，以获得完整场景的一个大点云。尽管一些工作旨在基于几何约束注册3D点云（例如[27, 48,35]），但大多数方法匹配相应的3D特征描述符，这些描述符专门针对3D点云进行定制，并且通常使用点分布直方图或局部表面法线来描述点邻域（例如[16, 8, 28,38]）。自从深度学习的回归，3D局部描述符的研究也遵循了视觉社区的一般趋势，转向了基于学习的方法，更具体地说是深度神经网络[49, 17, 5, 45,4]。尽管该领域在过去三年中取得了显著进展，但大多数学习的3D特征描述符要么不具有旋转不变性[49, 5, 45]，要么需要非常高的输出维度才能成功[49,4]，或者几乎无法推广到新的领域[49,17]。在本文中，我们提出了一种名为3DSmoothNet的深度学习方法，用于3D点云匹配，它具有低输出维度（16或32），以实现非常快速的对应搜索，具有高描述性（比所有现有方法高出20个百分点以上），具有旋转不变性，并且可以在传感器模态之间以及从建筑物的室内场景到自然室外场景中进行推广。0图1：3DSmoothNet的泛化能力：我们的描述符仅在室内场景上训练（顶部），可以无缝地推广到室外场景（底部）。0我们提出了一种新的紧凑学习的局部特征描述符，用于3D点云匹配，计算效率高于所有现有方法，并且表现显著优越。我们论文的一个重要技术创新是平滑密度值（SDV）体素化作为一种新的输入数据表示，适用于标准深度学习库的全卷积层。SDV的优势有两个方面。一方面，它减少了稀疏性。55460输入体素网格的平滑化，这样可以在反向传播过程中获得更好的梯度流动，同时减少边界效应，并消除由于局部参考帧（LRF）估计误差而产生的小的错配。另一方面，我们假设它明确地模拟了深度网络通常在第一层学习的平滑化过程，从而节省了用于学习高度描述性特征的网络容量。其次，我们提出了一种具有完全卷积层的连体网络架构，用于学习非常紧凑的、旋转不变的3D局部特征描述符。该方法生成低维度、高度描述性的特征，可以在不同的传感器模态和室内外场景中进行泛化。此外，我们证明了我们的低维特征描述符（仅有16或32个输出维度）极大地加快了对应搜索速度，从而实现了实时应用。02. 相关工作0本节回顾了3D局部特征描述符的进展，从早期的手工制作特征描述符到应用深度学习的最新方法。0手工制作的3D局部描述符。手工制作的3D局部特征描述符的先驱性工作通常受到其2D对应物的启发。根据建立旋转不变性的方式，存在两种基本策略。许多方法，包括SHOT[38]，RoPS [11]，USC [37]和TOLDI[42]，尝试首先估计唯一的局部参考帧（LRF），通常基于感兴趣点附近点的样本协方差矩阵的特征值分解。然后，使用该LRF将感兴趣点的局部邻域转换为其规范化表示，分析其几何特征，例如法向量的方向或局部点密度。另一方面，一些方法[29, 28,2]采用基于固有不变特征（例如点对特征）的无LRF表示。尽管取得了显著进展，但手工制作的3D局部描述符仍未达到手工制作的2D描述符的性能。实际上，它们仍然无法处理点云分辨率变化、噪声数据、遮挡和杂波[10]。0学习的3D局部描述符。深度学习方法在图像处理中的成功也启发了各种学习3D数据几何表示的方法。由于原始点云的稀疏和非结构化特性，关于输入数据表示的几个并行轨道已经出现。一种想法是将3D点云投影到2D图像上，然后通过借鉴为图像解释而开发的成熟的2DCNN库提取局部特征描述符。例如，[6]将3D点云投影到2D深度图中，并使用2D自动编码器提取特征。0编码器。[13]使用2DCNN将多尺度的特征点的渲染视图合并为单个局部特征描述符。另一种可能性是密集的3D体素网格，可以是二进制占用网格[21, 40, 25]或其他编码[49,44]的形式。例如，3DMatch[49]是学习3D局部描述符的先驱性工作之一，它使用截断距离函数的体积网格以结构化的方式表示原始点云。另一种选择是估计LRF（或局部参考轴），以提取规范化的高维手工特征，并仅使用神经网络进行降维。尽管这些方法[17,9]能够学习超越初始表示的非线性嵌入，但它们的性能仍受到初始手工特征描述的限制。0PointNet [24]和PointNet++[26]是直接处理原始非结构化点云的开创性工作。它们表明，使用对称函数可以实现网络的置换不变性，这对于学习无序集合非常重要。然而，尽管在分割和分类任务上取得成功，它们无法以令人满意的方式捕捉局部几何信息，主要是因为它们无法在网络设计中使用卷积层。尽管如此，PointNet为PPFNet[5]提供了基础，PPFNet通过将原始点坐标与点对特征相结合，并在学习过程中引入全局上下文来改进特征表示。然而，PPFNet并不完全具备旋转不变性。PPF-FoldNet通过仅使用点对特征作为输入来解决PPFNet的旋转不变性问题。它基于PointNet [24]和FoldingNet[43]的架构，并以自监督的方式进行训练。[45]的最新工作也基于PointNet，但与仅学习特征描述符的常见方法不同。它遵循[46]的思路，试图在单个网络中以弱监督的方式融合关键点检测器和描述符的学习，使用GPS/INS标记的3D点云。[45]无法实现描述符的旋转不变性，并且由于使用PointNet作为骨干网络，仅限于较小的点云尺寸。0可以说，直接从原始点云中训练网络符合端到端学习范式。但是，这样做会严重阻碍卷积层的使用，而卷积层对于完全捕捉局部几何是至关重要的。因此，我们采用了一种混合策略，首先将点邻域转换为局部参考框架（LRF），其次将非结构化的3D点云编码为适用于卷积层的SDV网格，最后使用孪生CNN学习描述性特征。这种策略不仅建立了旋转不变性，而且还允许在小输出维度下获得非常好的性能，从而大大加速了对应搜索。55470图2：输入参数化：(a)我们提取感兴趣点 p 的球形支持 S ，用于估计唯一的LRF。(b)将每个数据立方体转换为其规范表示，并使用高斯平滑核进行体素化。(e)归一化的3DSDV体素网格用作我们孪生3DSmoothNet架构的输入。注意(d)和(e)显示的是3D立方体的2D切片。03. 方法0简而言之，我们的工作流程如下（图2和3）：(i)给定两个原始点云，(ii)计算随机选择的感兴趣点周围球形邻域的LRF，(iii)将邻域转换为其规范表示，(iv)使用高斯平滑进行体素化，(v)使用3DSmoothNet推断每个点的局部特征描述符，并将其作为输入用于基于RANSAC的鲁棒点云配准流程。更正式地说，考虑两个重叠的点云集合 P 和 Q，以矩阵形式表示为 P ∈ R n × 30而 Q ∈ R m × 3 。令 ( P ) i =: p i表示位于重叠区域中的点云 P的个体点的坐标向量。一个双射函数将点 p i映射到其对应的（但最初未知的）第二个点云中的点 ( Q ) j=: q j。在假设静态场景和刚性点云（忽略噪声和不同的点云分辨率）的情况下，这个双射函数可以用相似变换的变换参数来描述0q j = Rp i + t ，(1)0其中 R ∈ SO (3) 表示旋转矩阵，t ∈ R 30平移向量。对于存在对应关系的点子集 P c 和 Q c，映射函数可以写成 Q c = KP c R T + 1 � t T ，(2)0其中 K ∈ P | Q ′ | 表示一个置换矩阵，其元素 k ij = 1 如果p i 对应于 q j ，否则为 0 ，1 是一个全为 1的向量。在我们的设置中，置换矩阵 K 和变换参数 R 和 t都是初始未知的。同时求解所有这些参数是困难的，因为问题是非凸的，而且 K 中的元素是二进制的 [ 20]。然而，如果我们找到了确定 K的方法，那么变换参数的估计就很简单了。这归结为学习一个将点 p i映射到一个更高维特征空间的函数，我们可以在其中确定其0对应的点 q j 。一旦我们建立了对应关系，我们就可以求解R 和 t 。在 p i的邻域中计算丰富的特征表示可以确保对噪声的鲁棒性，并促进高描述性。我们的主要目标是一个完全旋转不变的局部特征描述符，它在各种场景布局和点云匹配设置中具有良好的泛化能力。我们选择了一种数据驱动的方法来完成这个任务，并从原始点云中学习一个紧凑的局部特征描述符。03.1. 输入参数化0一个通用的局部特征描述符的核心要求是其对欧几里德空间的等距变换具有不变性。由于在实践中实现旋转不变性是非常困难的，最近的一些工作 [ 49 , 5 , 45 ]选择忽略它，因此不能推广到刚性变换的场景 [ 4]。一种使特征描述符具有旋转不变性的策略是将点周围的局部3D块的规范方向作为深度神经网络的一个积分部分进行回归 [ 24 , 45 ]，这受到了2D图像处理领域最新工作的启发 [15 , 47 ]。然而，[ 5 , 7 ]发现这种策略在3D点云上经常失败。因此，我们选择了一种不同的方法，通过改进 [ 42 ]的方法来明确估计LRF。我们的方法概述如图2所示，并在下面进行描述。0局部参考框架给定点云P中的点p，我们选择其局部球形支持S�P，使得S = {pi : ||pi−p||2 ≤rLRF}，其中rLRF表示用于估计LRF的局部邻域的半径。与[42]不同，[42]仅使用距离103rLRF的点，我们使用所有点pi∈S来近似样本协方差矩阵˜ΣS。此外，我们用兴趣点p替换质心以减少计算复杂度。我们通过˜ΣS的特征分解来计算LRF：0˜ΣS = 10|S|0pi∈S(pi−p)(pi−p)T (3)jklh exp −||cjklp′i||22s.t. ||cjkl − p′i||2 < 3h(7)55480图3：3DSmoothNet网络架构：我们在两个片段的重叠区域提取兴趣点。以兴趣点为中心并与估计的LRF对齐的立方体补丁（边界框以兴趣点的颜色编码），转换为SDV体素网格并输入网络。3DSmoothNet由卷积（绿色矩形，分别表示过滤器数量和过滤器大小）、批归一化（橙色）、ReLU激活函数（蓝色）和l2归一化（品红色）层组成。两个分支共享所有参数。批硬损失的锚点fθ(Xa)、正样本fθ(Xp)和负样本fθ(Xn)的参数根据兴趣点进行颜色编码。负样本是从小批量的所有正样本中即时采样得到的（用四个体素网格表示）。0我们选择z轴ˆzp与˜ΣS的最小特征值对应的特征向量ˆnp共线。我们通过以下方式解决法线向量ˆzp的符号不确定性：0ˆzp =0� �0�0−ˆnp，否则（4）0x轴ˆxp计算为加权向量和：0ˆxp = 10||0pi∈Sαiβivi||20pi∈Sαiβivi (5)0其中vi = ppi −�ppi,ˆzp�ˆzp是向量ppi在与ˆzp正交的平面上的投影，αi和βi是与向量ppi到向量ˆzp的范数和标量投影相关的权重，计算如下：0αi = (rLRF − ||p−pi||2)20βi = �ppi,ˆzp�2 (6)0直观上，权重αi偏好于靠近兴趣点的点，从而使ˆxp的估计对杂乱和遮挡更加鲁棒。βi给予具有较大标量投影的点更大的权重，这些点在平面区域中可能提供重要的证据[42]。最后，y轴ˆyp完成了左手坐标系的LRF，计算如下：ˆyp = ˆxp× ˆzp。0平滑密度值（SDV）体素化一旦在局部邻域S中的兴趣点pi被转换为0转换为它们的规范表示p'i∈S'0(图2(c))，我们使用它们来描述兴趣点的转换局部邻域。我们将点表示为以兴趣点p'为中心、与LRF对齐的SDV体素网格。我们将SDV体素网格写为一个三维矩阵XSDV∈RW×H×D，其元素(XSDV)jkl=:xjkl表示使用带宽h的高斯平滑核计算的相应体素的SDV值：0xjkl = 10njkl 01 √02h20其中n jkl表示点p'i∈S'在离体素质心cjkl（见图2（d））的距离3h内的点的数量。此外，XSDV的所有值都被归一化，使得它们的总和为1，以实现对不同点云密度的不变性。为了简化表示，我们在所有后续方程中省略了XSDV中的上标SDV。所提出的SDV体素网格表示法相对于传统的二进制占用网格[21,40]、截断距离函数[49]或手工特征表示[17,9,5,4]具有几个优点。首先，通过在体素上平滑密度值，我们减轻了二进制占用网格和截断距离函数的边界效应和噪声的影响。其次，与二进制占用网格相比，我们将3DMatch数据集测试部分的表示稀疏性降低了30%以上的点（从约90%降低到约57%），这样可以更好地进行梯度流动。第三，SDV表示帮助我们的方法实现更好的泛化，因为我们在训练期间不过拟合精确的数据线索。最后，与手工特征表示相比，SDV体素网格表示提供了具有几何信息结构的输入，这使我们能够利用卷积层来捕捉点云的局部几何特征（图5）。TrainingWe train 3DSmoothNet (Fig. 3) on point cloudfragments from the 3DMatch data set [49].This is anRGB-D data set consisting of 62 real-world indoor scenes,ranging from ofﬁces and hotel rooms to tabletops andrestrooms.Point clouds obtained from a pool of datasets [41, 32, 19, 39, 3] are split into 54 scenes for train-ing and 8 scenes for testing. Each scene is split into sev-eral partially overlapping fragments with their ground truthtransformation parameters T.Consider two fragments Fi and Fj, which have morethan 30% overlap. To generate training examples, we start̸(8)55490图4：RANSAC后在3DMatch数据集上的结果：3DSmoothNet为具有低重叠度（32%（顶部），48%（底部））和主要平面区域（顶部行）或具有植被和重复几何（圣诞树，底部行中的窗户）的配对生成可靠的对应关系。0训练我们在3DMatch数据集[49]的点云片段上训练3DSmoothNet（图3）。这是一个由62个真实室内场景组成的RGB-D数据集，包括办公室、酒店房间、桌面和洗手间等。从一组数据集[41,32,19,39,3]中获取的点云被分为54个用于训练和8个用于测试的场景。每个场景被分为几个部分重叠的片段，具有它们的地面真实变换参数T。考虑两个具有超过30%重叠的片段Fi和Fj。为了生成训练样本，我们开始0网络架构我们的网络架构（图3）受到L2Net[36]的启发，它是一种最先进的学习局部图像描述符。3DSmoothNet由堆叠的卷积层组成，其中某些卷积层应用2的步幅（而不是最大池化）来对输入进行下采样[33]。除了最后一层卷积层外，所有卷积层都后跟批归一化[14]并使用ReLU激活函数[22]。在我们的实现中，我们遵循[36]，将批归一化层的仿射参数固定为1和0，并且在网络训练期间不对其进行训练。为了避免过拟合网络，我们在最后一个卷积层之前添加了0.3的丢失率的dropout正则化[34]。最后一个卷积层的输出被送入一个批归一化层，然后是l2归一化，以产生单位长度的局部特征描述符。0通过从片段Fi的重叠区域中随机采样300个锚点pa，应用真实的变换参数Tj()，得到正样本pp。0然后将其表示为最近邻p p =: nn(pa)∈Tj(Fj)，其中nn()表示基于l2距离的欧几里德空间中的最近邻搜索。我们避免预采样负例，而是使用批内最难方法[12]来动态采样负样本。在训练过程中，我们的目标是最小化软间隔批次硬（BH）损失函数。0L BH ( θ, X ) = 1|X|0i =1 ln � 1 + exp � || f θ ( X a i ) − f θ ( X p i ) || 20− min j =1 ... |X| j � = i || f θ ( X a i) − f θ ( X p j ) || 2 � �0BH损失定义为一个小批量X，其中X a i和X pi分别表示锚点和正样本的SDV体素网格。负样本是在小批量中检索到的最难的非对应正样本（参见公式8）。批内最难采样确保负样本既不太容易（即非信息性），也不是异常困难，从而防止模型学习正常数据关联[12]。04. 结果0实现细节我们的3DSmoothNet方法使用C++（输入参数化）和Tensorflow[1]中的Python（CNN部分）实现。在训练过程中，我们提取大小为W = H = D =03W提取球形支持S并估计LRF。我们获得我们体素网格的外接球，并使用转换到规范框架的点提取SDV体素网格。我们将每个SDV体素网格分割成16个3个体素，边缘w = Wslected on the validation data set. We train the network withmini-batches of size 256 and optimize the parameters withthe ADAM optimizer [18], using an initial learning rate of0.001 that is exponentially decayed every 5000 iterations.Weights are initialized orthogonally [31] with 0.6 gain, andbiases are set to 0.01. We train the network for 20 epochs.We evaluate the performance of 3DSmoothNet for cor-respondence search on the 3DMatch data set [49] and com-pare against the state-of-the-art. In addition, we evaluateits generalization capability to a different sensor modality(laser scans) and different scenes (e.g., forests) on the Chal-lenging data sets for point cloud registration algorithmsdata set [23] denoted as ETH data set.8085909510055500图5：3DSmoothNet描述符具有几何信息：在3D空间中使用PCA嵌入（前三个分量以RGB颜色编码）。平面区域位于蓝绿色，边缘和角落位于橙粉色，球面位于黄色光谱。016并使用高斯平滑核，其经验确定的最佳宽度h = 1.75w0与现有技术的比较我们采用常用的手工制作的3D局部特征描述符FPFH[28]（33维）和SHOT [38]（352维）作为基线，并在PCL[30]中运行两种方法的实现。我们与学习的3D特征描述符的当前最新技术进行比较：3DMatch [49]（512维），CGF[17]（32维），PPFNet [5]（64维）和PPF-FoldNet[4]（512维）。对于3DMatch和CGF，我们使用作者提供的实现与给定的预训练权重相结合。由于PPFNet和PPF-FoldNet的源代码不公开，我们报告原始论文中的结果。对于所有基于法向量的描述符，我们确保片段之间的法向量方向一致。为了进行公平评估，我们对所有描述符使用完全相同的兴趣点（由数据集的作者提供）。对于基于球形邻域的描述符，我们使用半径使得球体的体积与我们的体素相同。这些实验使用的所有确切参数设置、进一步的实现细节等都可以在补充材料中找到。0厨房0家10家20酒店10酒店20酒店30学习0MIT实验室0召回率[%]016维[0.927]32维[0.947]64维[0.956]128维[0.957]0图6：召回率与3DSmoothNet输出维度的关系。括号中的值表示所有场景的平均召回率。04.1. 在3DMatch数据集上的评估0设置3DMatch数据集的测试部分由8个室内场景组成，分为几个部分重叠的片段。对于每个片段，作者提供了5000个随机采样的特征点的索引。我们将这些特征点用于所有描述符。PPFNet和PPF-FoldNet的结果基于直径为0.6m的球形邻域。此外，由于内存瓶颈，PPFNet每个片段限制为2048个兴趣点。我们采用[5]的评估指标（见补充材料）。它基于对强健的配准流程（例如RANSAC）需要的迭代次数的理论分析，以找到两个片段之间的正确的转换参数集。与[5]中所做的一样，我们将阈值τ1 =0.1m设置为欧几里得空间中相应点之间的l2距离，并将阈值τ2 = 0.05设置为对5％的对应关系进行阈值处理。03DSmoothNet的输出维度一个通用目标是在最低的输出维度（即3DSmoothNet最后一个卷积层中的滤波器数量）上实现最高的匹配性能，以减少运行时间和节省内存。因此，我们首先进行试验，找到3DSmoothNet描述符的匹配性能和效率之间的良好折衷方案。我们发现，随着输出维度的增加，3DSmoothNet的性能很快开始饱和（图6）。当使用超过64个维度时，只有微小的改进（如果有的话）。因此，我们决定仅对3DSmoothNet的16个和32个输出维度进行所有后续实验。0与最先进技术的比较在3DMatch数据集上的实验评估结果总结如表1（左）所示，并且图4显示了两个困难案例。Ours0回想一下，对于对应关系搜索，最近邻搜索的暴力实现的时间复杂度为O（DN^2），其中D表示维度，N表示数据点的数量。使用基于树的方法可以将时间复杂度降低到O（DN logN），但如果D变大（“维度灾难”），仍然会变得低效。0.040.080.120.160.2020406080100τ255510召回率[%]0Ours（16）Ours（32）CGFSHOT3DMatchFPFH0图7：召回率与内点比例阈值的关系。3DMatch数据集上3DSmoothNet的召回率即使在增加内点阈值比例时也保持较高。0（16）和Ours（32）的平均召回率分别达到92.8％和94.7％，接近解决3DMatch数据集。3DSmoothNet在所有场景上的性能优于所有最先进的3D局部特征描述符，并且具有显着的优势。值得注意的是，Ours（16）相对于所有场景的平均召回率提高了近20个百分点，而仅使用16个输出维度，而PPF-FoldNet的维度为512，SHOT的维度为352。此外，Ours（16）和Ours（32）显示出更小的召回标准差（STD），这表明3DSmoothNet对场景变化的鲁棒性，并且具有良好的泛化能力。由[5]选择的内点比例阈值τ2 =0.05导致≈55k次迭代，以找到至少3个对应关系（具有99.9％的概率），采用常见的RANSAC方法。将内点比例增加到τ2 =0.2将显着减少RANSAC迭代次数至≈850，从而大大加快处理速度。因此，我们评估逐渐增加内点比例对3DSmoothNet性能的影响，与所有其他测试方法进行比较（图7）。当τ2 =0.2时，所有其他方法的平均召回率都降至30％以下，而Ours（16）（蓝色）和Ours（32）（橙色）的召回率仍然保持在62％和72％，这表明任何基于描述符的点云配准流程都可以通过仅用我们的3DSmoothNet替换现有描述符来提高效率。0旋转不变性我们采用与[4]类似的方法来验证3DSmoothNet的旋转不变性，通过将3DMatch数据集的所有片段（我们称之为3DRotatedMatch）绕三个轴旋转，并评估所选描述符在这些旋转版本上的性能。各个旋转角度在[0,2π]之间任意采样，并使用与前一节中相同的评估点索引。我们的（16维）和我们的（32维）的结果与非旋转变体相比基本保持不变（表1（右）），这证实了3DSmoothNet的旋转不变性（由于估计LRF）。所有其他旋转不变描述符的性能[28, 38, 17,4]也基本相同，而3DSmoothNet再次超过所有最先进的方法超过20个百分点。03DMatch数据集0原始旋转0平均 STD 平均 STD0FPFH [28] 54.3 11.8 54.8 12.1 SHOT [38] 73.37.7 73.3 7.6 3DMatch [49] 2 57.3 7.8 3.6 1.7CGF [17] 58.2 14.2 58.5 14.0 PPFNet [5] 62.311.5 0.3 0.5 PPF-FoldNet [4] 71.8 9.9 73.1 11.1我们的（16维） 92.8 3.4 93.0 3.2我们的（32维） 94.7 2.7 94.9 2.50表1：3DMatch和3DRotatedMatch数据集上的结果。我们报告所有场景的平均召回率（百分比），以及每种方法的标准差（STD）。最佳性能以粗体显示。请参阅补充材料中每个场景的详细结果。0其他描述符[28, 38, 17,4]的性能基本相同，而3DSmoothNet再次超过所有最先进的方法超过20个百分点。0消融研究为了更好地理解3DSmoothNet性能非常好的原因，我们在3DMatch和3DRotatedMatch数据集上进行了消融研究，分析了各个模块的贡献。除了原始的3DSmoothNet之外，我们还考虑了没有SDV（使用简单的二进制占用栅格），没有LRF以及没有LRF和SDV的版本。所有网络都使用相同的参数和相同的训练轮数进行训练。这个消融研究的结果总结在表2中。结果表明，在3DMatch上，没有LRF的版本表现最好，因为大多数片段已经以相同的方式定向，并且原始数据集版本是为了非旋转不变的描述符而设计的。在这个数据集上，完整流程的性能较差很可能是由于一些错误估计的LRF，这降低了在已定向数据集上的性能（但允许泛化到更现实的旋转情况）。毫不奇怪，没有LRF的3DSmoothNet在3DRotatedMatch上失败，因为网络无法从数据中学习旋转不变性。使用SDV体素网格而不是传统的二进制占用栅格可以获得高达9个百分点以上的性能提升。04.2. 跨模态和场景的泛化能力0我们评估3DSmoothNet在使用激光扫描仪获取的室外场景中的泛化能力（图1）。为此，02 使用作者提供的预计算特征描述符。更多结果请参阅补充材料。555203DMatch数据集0原始旋转0τ 2 = 0.05 τ 2 = 0.2 τ 2 = 0.05 τ 2 = 0.20全部 94.7 72.7 94.9 72.8 无SDV 92.5 63.5 92.5 63.6 无LRF96.3 81.6 11.6 2.7 无SDV和LRF 95.6 78.6 9.7 2.10表2：3DSmoothNet在3DMatch和3DRotatedMatch数据集上的消融研究。我们报告所有重叠片段对的平均召回率。最佳性能以粗体显示。0Gazebo Wood0总计冬季总计秋季平均0FPFH [28] 38.6 14.2 14.8 20.8 22.1 SHOT [38] 73.945.7 60.9 64.0 61.1 3DMatch [49] 22.8 8.3 13.922.4 16.9 CGF [17] 37.5 13.8 10.4 19.2 20.2 Ours(16 dim) 76.1 47.7 31.3 37.6 48.2 Ours (32 dim)91.3 84.1 67.8 72.8 79.00表3：ETH数据集上的结果。我们报告每个场景和整个数据集的平均召回率（以百分比表示）。0我们使用在3DMatch（室内场景的RGB-D图像）上训练的模型Ours (16)和Ours(32)，并在四个室外激光扫描数据集Gazebo-Summer、Gazebo-Winter、Wood-Summer和Wood-Autumn上进行测试，这些数据集是ETH数据集[23]的一部分。所有采集都包含几个部分重叠的稀疏和密集植被（例如树木和灌木）的扫描。通过扫描仪位置的外部测量，可以获得准确的真实变换矩阵。我们通过使用大小为0.02m的体素网格滤波器对激光扫描进行下采样。我们在每个点云中随机采样5000个点，并按照第4.1节中的相同评估过程进行评估，再次只考虑重叠度超过30%的点云。有关特征点采样和点云重叠计算的更多详细信息，请参见补充材料。由于点云的分辨率较低，我们现在使用更大的SDV体素网格W =1m（因此基于球形邻域的描述符的半径也增加了）。由于内存限制，3DMatch使用边长为1.5m的体素网格。ETH数据集上的结果报告在表3中。3DSmoothNet在平均值上表现最好（最右列），Ours(32)的79.0%平均召回率明显优于Ours(16)的48.2%，这是由于其更大的输出维度。Ours(32)比第二名（无监督）SHOT高出超过15个百分点，而所有最先进的方法都明显低于30%。实际上，Ours(32)应用于室外场景时表现最好。0输入准备推理最近邻搜索总计0[ms] [ms] [ms] [ms]03DMatch 0.5 3.7 0.8 5.0 3DSmoothNet 4.2 0.3 0.1 4.60表4：3DMatch数据集上测试片段的每个特征点的平均运行时间。0在3DMatch数据集上，激光扫描仍然优于所有在该数据集上训练和测试的竞争对手（参见表3与表1）。04.3. 计算时间0我们将我们的方法在3DMatch测试片段上每个兴趣点的平均运行时间与[49]在表4中进行比较（在同一台PC上运行，配备Intel Xeon E5-1650、32 GB内存和NVIDIA GeForceGTX1080）。请注意，[49]的输入准备（Inputprep.）和推理都在GPU上进行，而我们的方法在当前状态下只在CPU上进行输入准备。对于两种方法，我们都在CPU上运行最近邻对应搜索。自然地，3DSmoothNet在CPU上的输入准备时间较长（4.2毫秒对比0.5毫秒），但总体计算时间略短（4.6毫秒对比5.0毫秒）。性能的主要驱动因素是推理（0.3毫秒对比3.7毫秒）和最近邻对应搜索（0.1毫秒对比0.8毫秒）。这表明，值得将计算资源投入到定制的数据准备中，因为它显著加快了所有后续任务的速度。Ours(16dim)和Ours(32dim)之间的较大差距是16维描述符容量较低、描述性较低的结果，在更难的ETH数据集中更为明显，但也可以在补充材料中的其他实验中看到。补充材料还包含了显示所提出的描述符对点云密度变化的不变性的其他实验。05. 结论0我们提出了3DSmoothNet，这是一种具有完全卷积层的深度学习方法，用于3D点云匹配，其性能超过所有最先进的方法超过20个百分点。由于输出维度较低（16或32），它允许非常高效的对应搜索，并且在室内RGB-D场景上训练的模型能够很好地推广到室外植被的地面激光扫描。我们的方法具有旋转不变性，并在3DMatch基准数据集上实现了94.9％的平均召回率，接近解决该问题。据我们所知，这是第一个允许在模态之间转移训练模型的学习的通用点云匹配方法。它使我们的领域更接近一个理想的愿景，即一个单一的训练模型可以用于匹配任何类型的点云，而不考虑场景内容或传感器。55530参考文献0[1] Mart´ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S. Corrado，AndyDavis，Jeffrey

下载后可阅读完整内容，剩余1页未读，立即下载