全局感知的低重叠度RGB-D扫描注册方法

176 浏览量更新于2023-10-25 收藏 15.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{sunche,jiayunde,guoyi,wuyuwei}@bit.edu.cn63570全局感知的重叠度较低的RGB-D扫描注册0北京理工大学计算机学院智能信息技术北京市实验室，中国北京市，100081，中国。0摘要0我们提出了一种新颖的方法来注册重叠度较低的RGB-D扫描。我们的方法学习场景的全局信息来构建全景图，并将RGB-D扫描与全景图对齐进行注册。与使用局部特征点来注册重叠度较低的RGB-D扫描并且不匹配过多的现有方法不同，我们使用全局信息来指导注册，从而通过保持对齐的全局一致性来减轻不匹配问题。为此，我们构建了一个场景推理网络来构建代表全局信息的全景图。我们引入了一种强化学习策略来迭代地将RGB-D扫描与全景图对齐并优化全景图的表示，从而减少全局信息的噪声并保持几何和光度对齐的全局一致性。在包括SUNCG、Matterport和ScanNet在内的基准数据集上的实验结果显示了我们方法的优越性。01. 引言0注册RGB-D扫描是3D重建和3D建模的基础，并且已经得到越来越多的研究[5, 9, 19, 26]。大多数现有方法[27,29]通常需要大于等于70%的重叠度才能获得良好的注册结果。然而，在实践中，当相机突然快速移动或多个相机部署在较少或无共视区域时，不可避免地会出现重叠度较低的RGB-D扫描。重新扫描可以弥补重叠度较低的扫描的不足[1,15]，但这在某种程度上是昂贵且低效的。因此，许多研究人员开始研究直接注册重叠度较低的扫描。现有方法[30,31]使用场景完成策略和传统的三步法（即特征提取、特征匹配和姿态估计）来注册重叠度较低的扫描。然而，这些方法并不适用。0* 通讯作者0在完成场景图像中常见的模糊和无纹理区域的注册中，由于他们用于匹配的局部特征点只包含点周围的局部邻域信息，因此往往与较少具有区分性的信息相似[14,25]，尤其是在模糊和无纹理区域。因此，局部特征点容易出现错误匹配，进而导致姿态估计和注册的错误。在本文中，我们提出使用场景的全局信息（例如场景布局和物体周围环境）来指导注册。我们以拼图的方式全局对齐重叠度较低的扫描，并保持几何和光度对齐的全局一致性，从而减轻了由于局部特征点区分性较差而引起的问题。0使用全局信息来注册重叠度较低的扫描并不容易。由于全局信息仅基于重叠度较低的RGB-D扫描及其完成情况获得，会产生许多来自未对齐扫描和不可靠完成的噪声。特别是，我们必须面对鸡生蛋的问题：全局信息依赖于扫描的良好对齐，而对齐扫描依赖于良好的全局信息。许多方法[2,29]采用简单的迭代策略来解决这个问题，仅基于当前全局信息对齐扫描并优化全局信息。然而，简单的迭代策略忽略了未来优化的全局信息对扫描对齐的影响。这种贪婪策略可能导致对齐的次优解，从而获得具有很多噪声的全局信息。噪声降低了全局信息的准确性，仍然是重叠度较低的扫描注册中的一个重要挑战。0为了解决这个挑战，我们提出了一种全局感知的RGB-D扫描注册方法，通过强化学习过程中同时减少噪声和改善对齐来实现。我们使用强化学习来根据当前和未来的全局信息将RGB-D扫描与场景对齐，并根据对齐结果进行信息的细化。我们的方法充分利用全局信息，并通过试错学习以非贪婪的方式提高其准确性。为此，我们构建了一个场景推理网络来生成全景图。全景图是全局信息的加权初始化表示，用于表示具有较少噪声的可靠区域。我们根据较少重叠扫描与全景图之间的对齐，使用光度和几何的全局约束。我们引入了一种强化学习策略，以实现全局约束，进一步改进全景图的表示并迭代地对齐扫描。我们通过在SUNCG [23]、Matterport[4]和ScanNet[6]数据集上建立对应关系和估计RGB-D扫描之间的相对姿态来评估我们的方法。实验结果表明，我们的方法优于现有的最先进方法。63580较少重叠扫描的注册。低重叠扫描的注册方法[3, 12, 13,22]可以广泛分为两类：基于几何和基于学习。基于几何的方法假设场景结构已知，并使用传统的多视角几何方法进行扫描的注册。Hess等人[11]预先扫描室内场景以获取其3D模型，并建立3D-2D对应关系来注册较少重叠的扫描。Miyata等人[18]使用全景摄像机对场景进行再次扫描，获得全景图，并应用8点算法将较少重叠的扫描与全景图进行匹配。这些方法通过重新扫描获得高保真度的场景，但成本较高且效率低下。与之不同的是，我们的注册方法侧重于通过从数据中学习来获取场景结构，而不是重新扫描。基于学习的方法使用深度网络从数据中学习场景结构，并以自底向上的方式完成场景的注册。最近的研究[30,31]构建了生成网络来推断扫描的不可见区域，然后匹配局部特征点以建立对应关系和估计相对姿态进行注册。与使用局部特征点进行匹配的这些方法不同，我们的方法充分利用全局信息来指导注册。我们的方法保持了几何和光度对齐的全局一致性，并减轻了在学习完成的场景图像中常见的模糊和无纹理区域的匹配问题。全局注册。现有的全局注册方法通常使用全局信息构建全局约束来指导注册。例如，迭代最近点（ICP）[2]、快速全局注册（FGR）[32]和深度全局注册（DCP）[5]最小化3D几何的全局对齐目标以估计相对姿态。直接视觉里程计[14, 33, 33]和半直接视觉里程计[8,10]使用全局或半全局光度差异的约束来跟踪连续帧。这些全局注册方法需要大的重叠（≥70%）才能获得可靠的信息，在较少重叠的扫描中效果不佳。在本文中，我们提出了一种全局感知的注册方法，使用全局信息来指导较少重叠（≤10%）扫描的注册。我们还引入了一种强化学习策略，同时减少全局信息的噪声并改善全局对齐。02. 相关工作0较少重叠扫描的注册。低重叠扫描的注册方法[3, 12, 13,22]可以广泛分为两类：基于几何和基于学习。基于几何的方法假设场景结构已知，并使用传统的多视角几何方法进行扫描的注册。Hess等人[11]预先扫描室内场景以获取其3D模型，并建立3D-2D对应关系来注册较少重叠的扫描。Miyata等人[18]使用全景摄像机对场景进行再次扫描，获得全景图，并应用8点算法将较少重叠的扫描与全景图进行匹配。这些方法通过重新扫描获得高保真度的场景，但成本较高且效率低下。与之不同的是，我们的注册方法侧重于通过从数据中学习来获取场景结构，而不是重新扫描。基于学习的方法使用深度网络从数据中学习场景结构，并以自底向上的方式完成场景的注册。最近的研究[30,31]构建了生成网络来推断扫描的不可见区域，然后匹配局部特征点1以建立对应关系和估计相对姿态进行注册。与使用局部特征点进行匹配的这些方法不同，我们的方法充分利用全局信息来指导注册。我们的方法保持了几何和光度对齐的全局一致性，并减轻了在学习完成的场景图像中常见的模糊和无纹理区域的匹配问题。全局注册。现有的全局注册方法通常使用全局信息构建全局约束来指导注册。例如，迭代最近点（ICP）[2]、快速全局注册（FGR）[32]和深度全局注册（DCP）[5]最小化3D几何的全局对齐目标以估计相对姿态。直接视觉里程计[14, 33, 33]和半直接视觉里程计[8,10]使用全局或半全局光度差异的约束来跟踪连续帧。这些全局注册方法需要大的重叠（≥70%）才能获得可靠的信息，在较少重叠的扫描中效果不佳。在本文中，我们提出了一种全局感知的注册方法，使用全局信息来指导较少重叠（≤10%）扫描的注册。我们还引入了一种强化学习策略，同时减少全局信息的噪声并改善全局对齐。01在[31]中提出的“全局模块”仍然匹配局部特征点（即SIFT特征点和平面补丁的中心点）。该“全局模块”旨在使用多组匹配结果进行细化，这与我们的方法确保全局一致性不同。0在[31]中提出的“全局模块”仍然匹配局部特征点（即SIFT特征点和平面补丁的中心点）。该“全局模块”旨在使用多组匹配结果进行细化，这与我们的方法确保全局一致性不同。03. 预备知识0大重叠RGB-D扫描的全局配准已经得到了广泛研究。给定两个RGB-D扫描I1和I2 ∈RW×H×4，将I1和I2配准是为了求解它们的刚性变换矩阵T ∈SE(3)。我们假设场景中存在一个世界坐标为M = [X, Y,Z]�的点。它在I1和I2中的相机坐标分别为M1 = [X1, Y1, Z1]�和M2 = [X2, Y2,Z2]�。它在I1和I2中的像素图像坐标为m1 = [u1, v1]�。0m2 = [u2, v2]�，它们的齐次坐标表示为[M1; 1]，[M2;1]，[m1; 1]和[m2;1]。我们假设I1和I2具有相同的相机内参矩阵A。常见的全局配准方法通过最小化配准误差来求解T。0min T0m1 ∈ C1 ∥I1(m1) -0s.t.，[M1; 1] = T[M2; 1]，(1)0其中C1是I1和I2的共视区域中的坐标集。这些方法在大重叠RGB-D扫描的配准中表现良好。例如，传统方法[7,8]使用梯度或高斯牛顿算法求解T，并且深度方法[14,16]在深度网络中直接回归T，并附加在等式(1)中的额外损失函数。然而，这些方法在配准较小重叠的RGB-D扫描时效果不好，因为缺乏足够的对应关系来求解T。04. 方法0我们提出了一种全局感知配准方法，利用全局信息来引导较小重叠的RGB-D扫描的配准。如图1所示，我们的方法通过学习全局信息，基于RGB-D扫描和它们的初始化变换矩阵构建一个初始化全景图I(0)p。I(0)p提供全局信息用于全局配准。由于全景图的构建和全局配准形成了一个鸡生蛋的问题，我们使用强化学习策略来迭代地进行全局配准和全景图优化。在第n次迭代中，我们使用全局配准结果求解将RGB-D扫描转换为I(n)1和I(n)2的变换矩阵，并根据求解的变换矩阵优化全景图为I(n)p。GlobalAlignmentScene RefinementGlobalAlignment······Scene Inference��Refined PanoramaTransformation Matrices�� Transformation Matrices��Initialized PanoramaTransformation Matrices��Final Panorama��RGB-D Scans��Initialized AlignmentScene RefinementminT1,21∥I1(m1) − I(0)p (mp)∥22(2)63590全局配准0全局配准∙∙∙0∙∙∙场景推断0优化后的全景图0变换矩阵0...0变换矩阵0初始化全景图0变换矩阵0最终全景图0RGB-D扫描0初始化配准0场景优化0图1.我们的全局感知配准概述。RGB-D扫描I1和I2最初对齐，以获得它们的初始化变换矩阵，用于将RGB-D扫描转换为I(0)1和I(0)2。进行场景推断以构建提供全局信息用于配准的初始化全景图I(0)p。全局配准用于优化将RGB-D扫描转换为I(1)1和I(1)2的变换矩阵。场景被优化以构建优化后的全景图I(1)p。我们迭代地进行全局配准和场景优化N次。0建设和全局配准形成了一个鸡生蛋的问题，我们使用强化学习策略来迭代地进行全局配准和全景图优化。在第n次迭代中，我们使用全局配准结果求解将RGB-D扫描转换为I(n)1和I(n)2的变换矩阵，并根据求解的变换矩阵优化全景图为I(n)p。04.1. 问题阐述0我们使用场景推断网络（在第4.2节中描述）构建一个初始化全景图I(0)p ∈RWp×Hp×4，并在强化学习过程中求解变换矩阵以及优化全景图（在第4.3节中描述）。我们假设世界坐标为M = [X,Y,Z]�的点在I(0)p中具有相机坐标Mp，其像素图像坐标为mp。我们使用T1表示I(0)p和I1之间的变换矩阵，使用T2表示I(0)p和I2之间的变换矩阵。我们通过将I1和I2的配准转化为同时将I1和I(0)p以及I2和I(0)p配准来进行全局感知配准。因此，T通过T = T-11T2求解，并且等式(1)转化为一个等价形式。0+ 0Σ m 2 ∈C 2 ∥ I 2 ( m 2 ) - I(0) p ( m p ) ∥ 2 2，0s.t.，[M p ; 1] = T 1 [M 1 ; 1]，[M p ; 1] = T 2 [M 2 ; 1]，0其中 C 1 和 C 2 是各自的坐标集0共视区域。04.2. 场景推理0如上所述，我们设计了一个场景推理网络，用于构建初始化全景图 I (0) p 并在第 n 次迭代中将其精化为 I (n)p。输入包括两个 RGB-D扫描和它们的转换矩阵，这些转换矩阵是通过使用杨等人提出的方法进行初始化，并在我们的强化学习中进行精化。如图 2 所示，我们使用两个扫描完成子网络 g θ 来外推RGB-D 扫描，然后使用全景推理子网络 h φ来构建全景图。共享参数的扫描完成子网络 g θ具有编码器-解码器结构，包含一些卷积层。g θ用于获取外推的 RGB-D扫描，其以减少的立方体贴图形式表示，不包括地板和天花板 [24]。在全景推理子网络 h φ中，我们首先在孪生编码器中对外推的 RGB-D扫描进行编码，然后根据初始化/精化的转换矩阵在特征级别上进行特征变换[20]。将两个变换后的特征进行拼接，构建解码器中的全景图 I (0) p / I (n)p。全景图也以减少的立方体贴图形式表示。有关网络结构的更多细节，请参阅补充材料（补充材料第 S1节）。全景图的构建依赖于转换矩阵 T1 和T2，这正是我们需要解决的注册问题。因此，我们初始化转换矩阵，并借助强化学习策略对其进行精化，以改善全景图的构建。oIExtrapolated Scans Initialized/Refined PanoramaRGB-D Scans��(�)/��(�)FTFCFTFTFeature TransformingFCFeature ConcatenatingScan Completion Sub-networkPanorama Inference Sub-networkInitialized/Refined Transformation Matrices(3)63600初始化/精化的全景图0RGB-D扫描0Σ Σ0FT0FC0FT0FT特征变换0FC特征拼接0扫描完成子网络全景推理子网络0初始化/精化的转换矩阵0图 2. 场景推理网络的示意图。场景推理网络接受 RGB-D 扫描 I 1 和 I 2 作为输入，在扫描完成子网络中生成外推的 RGB-D 扫描。外推的RGB-D 扫描用于在全景推理子网络中构建初始化/精化的全景图 I (0) p / I (n)p，其中我们根据初始化/精化的转换矩阵在特征级别上进行特征变换。0局部对齐和全局对齐。04.3. 强化学习策略0强化学习的目标是最大化未来折扣奖励的期望总和 R = E [Σn γ n r n ]，其中 γ n ∈ [0, 1) 是折扣因子，r n 是第 n步的即时奖励，取决于状态 s n 和动作 a n 。在第 n次迭代中，我们解决转换矩阵 T1 和 T2，将 RGB-D扫描转换为 I (n) 1 和 I (n) 2。状态表示第 n次迭代时转换后的 RGB-D 扫描 I (n) 1 和 I (n) 2（参见第4.3.1 节），动作被定义为用于估计转换矩阵 T1 和 T2的自身转换矩阵 T (n) 1 和 T (n) 2（参见第 4.3.2节），奖励基于 I (n) 1、I (n) 2 和 I (n) p之间的对齐误差计算（参见第 4.3.3 节）。转换矩阵 T1 和T2 可以通过计算顺序动作 T 1 = Π n−1 i=1 T (n−i) 1 和 T2 = Π n−1 i=1 T (n−i) 2 在 n次迭代后得到，证明见补充材料（补充材料第 S2 节）。04.3.1 状态0状态sn表示RGB-D扫描与环境的交互，这对于RGB-D扫描决定如何进行自我变换以进行对齐是至关重要的。在第n次迭代中，状态sn中的RGB-D扫描I(n)1和I(n)2通过当前行动an（即自我变换矩阵T(n)1、T(n)2）转换为新的RGB-D扫描I(n+1)1和I(n+1)2。扫描变换表示将点m(n)1和m(n)2移动到新坐标m(n+1)1和m(n+1)2，其中m(n+1)1 =AM(n+1)1，[M(n+1)1; 1] = T(n)1[M(n)1; 1]，而M(n)1 =A^(-1)m1。A表示相机内参矩阵。0trix and mn+12是以类似的方式计算的。04.3.2 行动0行动an被视为第n次迭代的刚性变换矩阵T(n)1和T(n)2。行动的目标是基于对齐误差最大化预期的未来奖励。我们将6D自我变换矩阵T(n)1和T(n)2解耦为旋转矩阵R(n)1、R(n)2∈SO(3)和平移向量t(n)1、t(n)2∈R^3。在预测过程中，旋转和平移的解耦不会相互影响。我们使用一个带有预训练嵌入网络eψ的策略网络fπ作为骨干来预测行动。策略网络的输入包括转换后的RGB-D扫描I(n)1、I(n)2和先前细化的全景图I(n-1)p。我们首先将RGB-D值转换为彩色点云，然后使用由Siamese DGCNN[28]构建的嵌入网络eψ生成点嵌入。嵌入被馈送到级联的两个分支网络中，以预测解耦的旋转p(R(n)1|sn)和p(R(n)2|sn)，以及平移p(t(n)1|sn)和p(t(n)2|sn)的分布。旋转R(n)1和R(n)2以及平移t(n)1和t(n)2是从由参数化的分布中采样得到的。0R(n)1 � p(R(n)1|sn) = N(µ(R(n)1), Σ(R(n)1)),0R(n)2 � p(R(n)2|sn) = N(µ(R(n)2), Σ(R(n)2)),0t(n)1 � p(t(n)1|sn) = N(µ(t(n)1), Σ(t(n)1)),0t(n)2 � p(t(n)2|sn) = N(µ(t(n)2), Σ(t(n)2)),0其中，N表示均值为µ，方差为Σ的多元高斯分布。均值µ和方差Σ是策略的输出。1+�m2∈C2(4)5.1. Scene Inference NetworkLg =∥F1 − (F1)∗∥2F + ∥F2 − (F2)∗ 2F +1× AvgFp − (Fp)∗ 2+,(5)representations of the extrapolated RGB-D scans. Fp is thefeature representation of I(0)p . We use the ﬁrst two F-normterms in Eq. (5) to minimize differences between extrap-olated scans and their ground-truth labels. We design thelast term in Eq. (5) to simultaneously infer the panoramaand measure its uncertainty by estimating parameters of aGaussian distribution, where the mean and variance denotethe panorama and its uncertainty, respectively.Pre-training. The backbone (i.e., the embedding networkeψ) is pre-trained before the reinforcement learning process.We follow the work of [27] to use the embedding networkeψ to generate point embeddings of I1, I2 and I(0)p . The net-work is used to establish a mapping between I1 and I(0)pandanother mapping between I2 and I(0)pbased on the similar-ity of the embeddings. The mappings are used to estimatetransformation matrices T1 and T2 in a differentiable SVD.A regression loss function is introduced to pre-train eψ:where R1 and R2 denote the predicted rotation matrices,t1 and t2 denote the predicted translation vectors, and 1 ∈R3×3 is an identity matrix. inv(·) is the inverse function ofthe matrix.Fine-tuning.The policy network fπ with the pre-trainedbackbone is ﬁne-tuned during the reinforcement learningprocess. The goals of the policy network include maximiz-ing the expected discounted reward Rn = E[�j=nj=1 γjrj]and regressing the transformation matrices in a supervisedmanner. To this end, we use the proximal policy optimiza-tion (PPO) algorithm [21] to acquire the maximum reward,and use an extra supervised transformation loss function Lsat each iteration. The supervised transformation loss func-tion Ls is+ ∥inv(R2)(R2) − 1∥F + ∥t2− (t2) ∥2,(7)�(R(n))∗(t(n)1)∗ �= (T1)∗invT (n−i)1,�(R(n))∗(t(n)2)∗ �= (T2)∗invT (n−i)2.(8)For the PPO optimization algorithm, please refer to the sup-plementary materials (Supplementary Sec. S2).63610网络。有关网络结构的更多详细信息，请参见补充材料（补充材料第S2节）。04.3.3 奖励0在每次迭代中，为策略更新构建奖励信号rn，该信号被视为几何和光度对齐的全局约束。我们根据等式(2)设计了加权奖励rn：0rn = 01 + dn,0dn = �0∥F(n)1(m1) - F(n)p(m1)∥2201 + U(m1)0∥F(n)2(m2) - F(n)p(m2)∥2201 + U(m2),0其中，F(n)1、F(n)2和F(n)p表示I(n)1、I(n)2和I(n)p的几何和光度特征表示，通过在等式(2)中替换RGB-D值来获得稳健的结果。根据[30]的工作，特征表示包括颜色、深度、法线、语义类别和学习描述符。U∈RWp×Hp表示由场景推理网络生成的不确定性地图，增加了在计算奖励时高保真度区域中点的重要性。0对于PPO优化算法，请参考补充材料（补充材料第S2节）。0i=1T(n-i)20� = (T2)�inv0i=1T(n-i)10� = (T1)�inv0� (R(n)1)�(t(n)1)�0+ ∥inv(R(n)2)(R(n)2)� - 1∥2F + ∥t(n)2 - (t(n)2)�∥22,(7)0F, (5)0Lg = ∥F1 - (F1)�∥2F +∥F2 - (F2)�∥2F + ... 10636206. 实验06.1. 数据集0我们在三个基准数据集上评估了我们的方法：SUNCG[23]，Matterport [4]和ScanNet[6]。这三个数据集包含45k个合成的3D场景，925个真实的3D场景和1513个真实的3D场景。我们使用与[30]的工作相同的训练/测试分割。对于训练，选择了SUNCG数据集中的9892个训练场景和其他两个数据集中的所有训练场景，每个场景采样了25、50和25个RGB-D扫描。对于测试，从训练过程中从未见过的场景中采样了1000对RGB-D扫描。06.2. 评估指标0评估策略包括相对角度误差 acos ∥ ( R ) � R � ∥ F √02和相对平移误差∥t-(t)�∥2，其中预测的旋转矩阵R和平移向量t是从变换矩阵T = T-1 1T2中导出的，(∙)�表示地面真值标签。我们还通过计算共视区域中的点对应{m1，m2 | [M1;1] = T[M2;1]}来评估真正的正例率和召回率。我们根据特征表示误差∥F1(m1)-F2(m2)∥22的升序对所有对应关系进行排序，以获得前K个对应关系。如果它们在3D空间中的实际欧氏距离∥[M1;1]-(T)�[M2;1]∥2小于1m，则将其视为正例，大于1m则视为负例。在评估过程中，测试的RGB-D扫描被分为两个具有大重叠和小重叠的类别。大重叠类别包含重叠比率o(I1，I2) = |I1∩I2| /min(|I1|，|I2|)>10%的扫描对I1和I2，而小重叠类别包含其余的扫描对。06.3. 结果0我们将我们的方法与几种最先进的方法进行比较：Super4PCS（Mellado et al. [17]），RobustGR（Zhou et al.[32]），ScanComplete（Yang et al.[30]）和HybridRepresentation（Yang et al.[31]），其中Yang et al.[30]的工作是我们的方法在小重叠RGB-D扫描之间估计变换矩阵的基准。变换矩阵的比较结果如表1所示。可以看出，我们的方法在注册小重叠（≤10%）的RGB-D扫描方面的性能优越。与方法[31]相比，我们的方法将平均旋转/平移误差降低了6.13°/0.13m，3.24°/0.48m和11.18°/0.23m，显示出我们方法的优越性。当重叠区域超过10%时，我们的方法也0SUNCG Matterport ScanNet0旋转平移旋转平移旋转平移0Mellado et al. [17]（≥10%）75.18° 1.30m 46.83° 1.40m 55.01° 1.04m Zhouet al. [32]（≥10%）41.98° 0.83m 53.85° 0.78m 49.08° 0.71m Yang et al.[30]（≥10%）12.32° 0.33m 10.20° 0.27m 27.27° 0.53m Yang et al.[31]（≥10%）19.40° 0.24m 8.15° 0.29m 17.12° 0.67m我们的方法（≥10%）10.67° 0.24m 8.29° 0.24m 15.16° 0.54m0Yang et al. [30]（≤10%）78.80° 0.52m 87.30° 2.19m 78.95° 1.60m Yang etal. [31]（≤10%）35.34° 0.50m 52.00° 1.15m 44.91° 1.00m我们的方法（≤10%）29.21° 0.37m 48.76° 0.67m 33.73° 0.77m0Yang et al. [30]（全部）44.50° 0.65m 50.02° 1.24m 40.97° 1.09m Yang etal. [31]（全部）31.12° 0.39m 36.07° 0.75m 24.29° 0.75m我们的方法（全部）22.56° 0.29m 34.23° 0.56m 20.67° 0.61m0表1. 我们的方法和基准方法的相对角度误差和相对平移误差评估。0真正阳性率（%）召回率（%）0top-30 top-50 top-100 top-30 top-50 top-1000Yang等人[30] 39.1 39.7 39.0 17.6 29.8 58.5Yang等人[31] 41.0 41.1 40.4 18.6 30.3 60.8 我们的方法63.4 63.3 64.0 27.8 44.5 70.80表2. 在Matterport数据集上的真正阳性率和召回率的比较。0与这些最新技术相比，我们的方法取得了有竞争力的结果。平均而言，我们的方法在真实和合成数据集中都能取得最佳结果。我们将几个RGB-D扫描转换为点云，并在图3中显示了注册重叠较少（≤10%）的RGB-D扫描的结果。我们固定绿色点云，并通过变换矩阵将红色点云进行变换。当RGB-D扫描略有重叠时，我们的方法比这些最先进的方法[30,31]表现更好。更多的可视化结果，请参考补充材料（附录S3）。点对应的比较。我们比较了点对应的定量结果，其中RGB-D扫描的重叠区域小于10%。为了与[30,31]进行公平比较，我们使用外推的RGB-D扫描，而不是原始输入的RGB-D扫描，通过遍历所有像素来收集对应关系。这些像素通过地面真实深度转换为3D点以计算欧氏距离。在Matterport数据集上的真正阳性率和召回率如表2所示。我们的方法在嘈杂的RGB-D扫描注册中生成准确的对应关系，与Yang等人[31]的方法相比，真正阳性率和召回率分别提高了22.2% - 23.6%和10.0% -14.2%。这验证了使用全局信息注册重叠较少的扫描的有效性。保持全局一致性将提高点对应的真正阳性率和召回率。OursGT PointsGT Color��We also visualize point correspondences on severalscenes in Fig. 4. Considering that the compared methods[30, 31] extrapolate less-overlap RGB-D scans for match-ing feature points, we obtain the point correspondences bytransforming the extrapolated RGB-D scans with ground-truth depth in 3D spaces, and visualize the correspondenceson 2D images. Fig. 4, from left to right, shows the inputRGB-D scans, extrapolated RGB-D scans, correspondenceresults of Yang et al. [30], Yang et al. [31] and ours. Greenlines indicate correct correspondences and red lines denoteincorrect ones. It can be seen that our method tends to estab-lish globally consistent correspondences based on relativelyhigh ﬁdelity regions, thus achieving better registration re-sults.MatterportScanNet63630图3.Mellado等人[17]、Yang等人[30]、Yang等人[31]和我们在ScanNet数据集上的定性结果。绿色点云固定，红色点云通过预测的变换矩阵进行变换。06.4. 消融研究0全景表示的分析。如图5所示，全景的全局表示为注册提供了足够的场景信息。为了验证其有效性，我们进行了一个实验，使用外推的RGB-D扫描I1和I2代替全景来表示全局特征，其中我们使用相同的全景推理网络来获得外推的扫描和全景以进行公平比较。在实验中，RGB-D扫描I1固定（即�T（n）1 = 1），RGB-D扫描I2通过变换矩阵T2 =�N−1i=1TN−i2对齐到固定的RGB-D扫描。表3中的“w/o全景”的实验结果证明了全景表示的有效性。Matterport和ScanNet数据集上的平均误差从37.11°/0.60m降低。0旋转平移旋转平移0无全景图 37.11° 0.60m 24.33° 0.65m 无权重 40.95°0.72m 27.42° 0.75m 无奖励 44.25° 0.78m 28.10°0.76m0我们的方法 34.23° 0.56m 20.67° 0.61m0表3.我们方法在Matterport和ScanNet数据集上的不同组件的相对姿态误差。0和 24.33°/0.65m到34.23°/0.56m和20.67°/0.61m。0奖励分析。为了验证加权奖励的贡献，我们设计了两个关于奖励的实验来估计变换矩阵。如表3所示，“无权重”表示共视区域中的所有像素贡献相等，其中不确定性矩阵U是一个零矩阵。在Matterport数据集上，平均相对姿态误差从34.23°/0.56m增加到40.95°/0.72m；在ScanNet数据集上，平均相对姿态误差从20.67°/0.61m增加到27.42°/0.75m。这验证了加权奖励在指导对齐方面的重要性。“无奖励”表示策略网络仅通过Eq.（7）中的监督回归损失函数进行优化，移除了奖励损失函数，形成了通过深度网络的直接监督回归方法。从表3可以看出，奖励显著提高了性能，分别将平均相对误差降低了10.02°/0.22m和7.43°/0.15m。Input ScansExtrapolated Scans ��Ours�� 63640输入扫描扩展扫描 �� 我们的方法 �� 0图4. 在Matterport和ScanNet数据集上展示了我们的方法和基准方法的可视化结果。绿线表示正确的对应关系，红线表示错误的对应关系。0图5.示例全景图中全局信息的可视化。我们展示了两个输入扫描的点云、两个输入扫描的彩色点和地面真值（GT）全景图。06.5. 限制0我们通过展示一些失败案例来讨论我们方法的局限性，如图6所示。(1)在室内场景中，遮挡很可能导致注册错误，如图6(a)和图6(b)所示。(2)当两个RGB-D扫描的视角发生显著变化时，我们的方法可能无法进行注册，如图6(c)所示。(3)对称扫描场景可能会误导注册，图6(d)展示了一个典型的例子。这些场景很难映射到单个全景图进行注册，可能需要在未来的研究中引入3D全局表示或多个全景图来解决。07. 结论0我们提出了一种全局感知的注册方法，可以充分利用全局信息来指导0图6.我们方法的几个失败案例。绿线表示正确的对应关系，红线表示错误的对应关系。0RGB-D扫描的少重叠注册。我们的方法可以保持几何和光度对齐的全局一致性，消除局部特征点引起的不匹配问题。我们构建了一个全景推理网络来构建代表全局信息的全景图。我们还引入了一种强化学习策略，可以同时减少全局信息的噪声并改善试错学习中的对齐。实验证明，我们的方法可以更好地注册具有全局一致点对应的少重叠RGB-D扫描。0致谢。本工作得到了中国国家自然科

下载后可阅读完整内容，剩余1页未读，立即下载