PlaneMatch:用于鲁棒RGB-D重建的共面匹配方法

103 浏览量更新于2023-10-13 收藏 4.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

PlaneMatch：用于鲁棒RGB-D重建的Yifei Shi1， 2，Kai Xu1，2，Matthias Nießner3，Szymon Rusinkiewicz1，and Thomas Funkhouser1， 41普林斯顿大学2国防科技大学3慕尼黑工业大学4Google抽象。我们介绍了一种新的RGB-D补丁描述符设计用于检测共面表面SLAM重建。我们的方法的核心是一个深度卷积神经网络，它接收图像中平面补丁的RGB、深度和法线信息，并输出一个描述符，该描述符可用于从其他图像中找到共面补丁我们在1000万个共面和非共面贴片的三元组上训练网络，并在从商品RGB-D扫描创建的新的共面性基准上进行评估。实验表明，我们学到的descriptor- tor优于替代品扩展为这个新的任务，由一个显着的保证金。此外，我们证明了一个强大的RGBD重建配方的共面匹配的好处。我们发现，与我们的方法检测到的共面性约束是足够的，以获得重建结果相比，国家的最先进的框架在大多数场景中，但优于其他方法建立的基准与传统的关键点匹配相关键词：RGB-D配准、共面性、环闭合1介绍随着最近廉价的RGB-D传感器的激增，现在人们用手持相机扫描大型室内环境的3D模型变得实用，从而实现在文化遗产、房地产、虚拟现实和许多其他领域中的应用大多数最先进的RGB-D重建算法执行帧到模型对准[1]或匹配关键点以用于全局姿态估计[2]。尽管这些算法最近取得了进展，但当局部表面特征不具有鉴别力和/或当扫描循环几乎没有重叠时，手持式RGB-D扫描的配准仍然具有挑战性。另一种方法是检测平面特征，并将它们与共面性、平行度和垂直度约束跨帧关联[3最近的工作已经显示了令人信服的证据，平面补丁可以检测和跟踪通讯作者：kevin.kai. gmail.com2Yifei Shi等图1：基于重叠（左两对）和非重叠（右两对）片对的跨不同视图（数字指示帧ID）的片的共面性匹配的右边的两对是长距离的，没有重叠。底部显示了我们的方法（左）和基于关键点匹配的方法[2]（右）之间的放大比较。尤其是在平坦表面普遍存在的室内环境在诸如关键点之类的传统特征缺失的情况下（例如，墙），似乎有巨大的潜力，以支持现有的3D重建管道。即使共面匹配是一个有前途的方向，目前的方法缺乏强大的每平面的特征描述符，用于建立假定的匹配之间的不同的观察。因此，共面性先验仅在帧到帧跟踪[3]的上下文中或在用于细化全局优化[4]的后处理步骤中使用。我们认为这类似于ICP和关键点匹配之间的关系：正如ICP仅在姿态的良好初始猜测下收敛，由于缺乏有区别的共面性特征，用于利用共面性的当前方法不能从头开始初始化重建过程。本文的目的是使全球，从头共面匹配，通过引入一个判别特征描述符的RGB-D图像的平面补丁我们的描述符是从数据中学习，以产生其L2差异是预测来自不同帧的两个RGB-D补丁是否共面的特征。它可用于检测RGB-D扫描中的共面贴片对，而无需初始对准，其可用于找到环闭合或提供全局对准的共面性约束（参见图1）。该方法的关键新颖方面在于其集中于共面性而不是重叠的检测。因此，我们的平面贴片特征可以用于发现相同大表面的远距离非重叠部分（例如，“环闭合”）之间的长程对准约束通过识别地毯PlaneMatch3当地全球锚积极负环球大厦本地塔环球大厦本地塔环球大厦本地塔（a）（b）（c）（d）（e）（f）图2：我们的方法的概述。我们训练嵌入网络（c-d）以基于从具有地面实况相机姿势（a）的训练序列采样的共面贴片（b）来预测跨不同视图的一对平面贴片的共面性。给定测试序列，我们的鲁棒优化基于预测的共面补丁（e）执行重构（f）。地板、天花板上的瓷砖、墙壁上的镶板等）。在图1中，右侧所示的两个面片对有助于产生具有全局平坦壁的重建。为了学习我们的平面补丁描述符，我们设计了一个深度网络，该深度网络针对从RGB-D图像提取的平面补丁对获取颜色、深度、法线和多尺度上下文，并预测它们是否共面。该网络以自我监督的方式进行训练，其中训练示例自动从ScanNet [10]的共面和非共面补丁中提取。为了评估我们的描述符，我们引入了一个新的共面匹配数据集，在一系列彻底的实验中，我们可以看到我们的新描述符明显优于现有的基线替代品。此外，我们证明，通过使用我们的新的描述符，我们能够计算强共面约束，提高当前的全球RGB-D配准算法的性能。特别是，我们表明，通过结合共面性和基于点的对应关系重建算法能够处理困难的情况下，如场景的功能或有限的循环关闭数量少。我们在标准TUM RGB-D重建基准上优于其他最先进的算法[11]。总体而言，本文的研究贡献是：– 一个新的任务：预测图像块的共面性的RGB- D图像配准的目的– 一种用于训练深度网络以产生用于预测两个图像块是否共面的特征的自监督过程。– 鲁棒优化算法[12]的扩展，用于解决具有共面性约束的相机– 共面性预测的新训练和测试基准。– 重建结果表明，共面性可用于对齐扫描，其中基于关键点的方法无法找到环闭合。三重损失4Yifei Shi等2相关工作RGB-D重建：已经描述了用于从RGB-D视频重构3D场景的许多SLAM系统。示例包括 KinectFusion [13 ， 1] 、 VoxelHashing [14] 、ScalableFusion [15]、基于点的融合[16]、八叉树CPU [17]、弹性融合[18]、立体DSO [19]、彩色配准[20]和捆绑融合[2]。这些系统通常对于具有许多环路闭合的扫描和/或当鲁棒IMU测量可用时执行良好。然而，当在完全不同的视点之间可以建立很少的约束时，它们经常在长扫描中表现出漂移。在这项工作中，我们检测和执行平面补丁之间的共面约束，以解决这个问题作为一个替代功能通道的全球匹配。特征描述符：传统上，SLAM系统已经利用关键点检测器和描述符来建立用于相机姿态估计的对应约束。示例关键点描述符包括SIFT[21]、SURF [22]、ORB [23]等。最近，研究人员从数据中学习了关键点描述符- 例如，MatchNet [24]，Lift [25]，SE3-Nets [26]，3DMatch [27]，Schmidt etal.[28]第10段。这些方法依赖于关键点位置的可重复提取，这对于广泛不同的视图是困难的。相比之下，我们探索更强大的方法提取平面补丁，而不关心精确定位补丁中心平面特征：许多先前的论文已经利用平面表面进行RGB-D重建。最常见的方法是检测RGB-D扫描中的平面，建立匹配特征之间的对应关系，并求解对齐相应特征的相机姿势[29-36]。最近的方法构建包括平面贴片的模型，可能具有几何约束[4，37]，并将扫描中发现的平面特征与模型中的平面贴片匹配[4-8]。对对应性的搜索通常由设计成检测重叠表面区域的手动调整的描述符辅助。相比之下，我们的方法发现共面贴片之间的对应关系（可能不重叠）;我们用深度网络学习这个任务的描述符。全局优化：对于大规模表面重建，通常使用离线或异步执行的全局配准过程。常见的公式是计算具有表示帧之间的成对变换的边缘的姿态图，然后优化目标函数，惩罚与这些成对对准的偏差[38-40]。最近的方法[12，41]使用指标变量来识别循环闭合或匹配点，在全局优化过程中使用最小二乘公式。我们通过设置个人共面性约束的指标变量来扩展这个公式。3方法我们的方法由两部分组成：1）被训练以生成描述符的深度神经网络，该描述符可以用于发现RG B- D 的共面对;PlaneMatch5图3：本地和全球塔的网络架构使用相同颜色着色的图层共享权重。没有初始配准的补片，以及2）利用检测到的共面补片对的特殊优势的全局SLAM重建算法。3.1共面网络两个平面贴片的共面性根据定义是几何可测量的。然而，对于从不同但未知的视图观察到的两个面片，它们是否共面仅基于几何形状是不可确定的。此外，不清楚的是，共面性可以仅从成像对象的局部外观推断。我们认为，跨不同的观点共面性的预测是一个结构，甚至语义，视觉推理任务，既不是几何形状，也不是本地外观是可靠的。人类通过感知和理解物体和场景的结构和语义来推断共面性，上下文信息在这个推理任务中起着关键例如，人类能够从几乎任何视图通过推理小平面的结构和/或通过将它们与周围对象相关联来区分对象的不同小平面。两者都涉及与被考虑的补丁周围的上下文的推断，可能在多个尺度。这促使我们学习从外观和几何形状预测跨视图共面性，使用多尺度上下文信息。我们通过学习一个嵌入网络来完成这项任务，该网络映射来自特征空间附近不同视图的共面补丁。网络设计：我们的共面性网络（图2和图3）使用平面贴片的三元组进行训练，每个三元组涉及锚点，共面贴片（正）和非共面贴片（负），类似于[42]。三元组的每个补丁都被馈送到基于ResNet-50 [43]的卷积网络中进行特征提取，并且基于三个特征的相对接近度来估计三元组损失。为了从外观和几何结构中学习共面性，我们的网络将多个通道作为输入：RGB图像、深度图像和法线贴图。我们在两个尺度，本地和全球的补丁的上下文信息进行编码。这通过将输入图像（在所有通道中）裁剪为1的矩形来实现。并且确定了所述板的结合部的尺寸。a11中的本地塔全球塔FC256DResNet-50conv_1.11ResNet-50conv_1.11ResNet-50conv_1.11ResNet-50conv_1.11ResNet-50conv_12.5OResNet-50conv_12...5OResNet-50conv_1.11ResNet-50conv_1.11ResNet-50conv_1.11ResNet-50conv_1.11concat.concat.6Yifei Shi等×F−裁剪的图像在图像边界处被箝位、被填充到正方形，并且然后被调整大小为224224。填充对RGB图像使用50%灰度，对深度和法线贴图使用0值;请参见图3。为了让网络知道每个输入图像中的感兴趣区域（而不是上下文），我们为两个尺度中的每一个添加了一个额外的二进制掩码通道。局部掩模是二进制的，其中感兴趣的块为白色，图像的其余部分为黑色。相比之下，全局掩模是连续的，其中感兴趣的块为白色，然后在块边界外部平滑衰减为黑色。直观地，局部掩模帮助网络将感兴趣的块与附近的邻域（例如，邻近区域）区分开。在同一个物体上的另一面另一方面，全局掩码通过关注更大的上下文来指导网络学习全局结构，其中重要性基于到补丁区域的距离平滑地降低。同时，它也削弱了特定斑块形状的影响，这是不重要的，当考虑全球结构。总之，每个比例都由RGB、深度、法线和遮罩通道组成这些输入首先被独立地编码。它们的特征图在第11个卷积层之后被合并，然后通过剩余的39层。局部和全局尺度共享相应通道的权重，它们的输出最终与全连接层组合（图3）。网络培训：我们网络的训练数据是从3D室内场景的RGB-D扫描数据集生成的，数据集提供了高质量的相机姿势。对于每个RGB-D帧，我们使用深度通道上的凝聚聚类将其分割成平面贴片。对于每个平面补丁，我们还估计其正常的深度信息的基础上提取的补丁被投影到图像空间，以生成输入到我们网络的所有必要通道。非常小的块，其局部掩模图像包含小于300个具有有效深度的像素，被丢弃。三重峰病灶丢失：当准备三元组来训练我们的网络时，我们遇到了一个众所周知的问题，即正负补丁对的数量严重不平衡。给定一个训练序列，有更多的负对，其中大多数都太微不足道，无法帮助网络有效学习使用随机抽样的三元组将通过简单的否定来压倒训练损失。我们选择通过动态地和有区别地缩放困难和容易的三元组的损失来解决不平衡问题，这受到最近针对对象检测的焦点损失的工作的启发[44]。具体地，我们提出三重焦损失：L焦点（xa，xp，xn）= max∫α−∆d，λ0，α、（1）其中xa、xp和xn分别是针对锚点、正和负补丁提取的特征图; Δ df = df（xn，xa）df（xp，xa），其中df是两个贴片特征之间的L2距离。最小化该损失使锚在描述符空间中更接近正补丁而不是负补丁，但是对于较大的距离具有较小的权重。图4（左图）显示了α= 1时损失函数的可视化。当λ= 1时，该损失成为通常的边际损失，这给出了不可忽略的损失PlaneMatch71.41.2三重态损失（= 1）焦三重态损失（= 3）焦三重态损失（= 5）0.900.851.00.8.y=max 0， .α−xαΣΣλ0.800.750.60.4（α= 1）0.700.20.650.00.20.0 0.2 0.4 0.6 0.8 1.01.2d=d（n，a）d（p，a）0.601000 2000 3000 4000 5000#迭代图4：可视化和比较（在#iter上的预测准确度）。不同的三重态损失函数。图5：来自不同视图的平面贴片的基于共面性的特征的t-SNE可视化。地面实况共面性（通过相互RMS点到平面距离测量）通过颜色和斑块的物理尺寸通过点尺寸编码。到边缘α附近的简单例子。然而，当λ>1时，我们获得了焦点损失，其降低了易于学习的三元组的权重，同时保持了困难三元组的高损失此外，它平滑地调整容易的三元组被向下加权的速率我们发现λ= 3可以达到最佳的训练效率（图4，右）。图5显示了基于共面性的斑块特征的t-SNE可视化3.2基于共面性的鲁棒配准为了研究这种平面补丁描述符和共面检测方法用于3D重建的效用，我们已经开发了一种全局配准算法，该算法使用除了关键点匹配之外还来自共面补丁匹配的成对约束来估计RGB-D视频的相机姿态。我们的配方的灵感来自工作的崔等人。[12]，其中关键特征是用于从大量假设中自动选择正确匹配的鲁棒惩罚项，从而避免了ICP中的迭代重新匹配。注意，此公式化不需要相机姿势的初始对准，这对于利用相机姿势的其它SLAM系统将是需要的。共面性约束给定RGB-D视频序列F，我们的目标是针对每个帧计算i∈ F全局参考系中的相机姿态，Ti=（Ri，ti），其带来= 1= 3= 5损失精度8Yifei Shi等QQ−使之成直线。这通过联合对齐被预测为具有某个共面面片集合Πij的每对帧（i，j）∈P来实现。对于每一对π=（p，q）∈Πij，假设w.l.o.g.该片p来自帧i，而q来自帧j。同时，让我们假设在帧i和j之间检测和匹配匹配关键点对Θij的集合。类似地，我们假设对于每个点对θ=（u， v）∈θij，关键点u来自帧i并且v来自j。目标功能：我们的基于共面的配准的目标包含四个术语，负责共面对准、共面贴片对选择、关键点对准和关键点对选择：E（T，s）= E数据-cop（T，s）+Ereg-cop（s）+E数据-kp（T，s）+Ereg-kp（s）。（二）给定由网络预测的一对共面面片，共面性数据项通过最小化从一个面片上的样本点到由另一个面片定义的平面的点到平面距离来强制共面性：ΣEdata-cop（T，s）=Σwπs πδ2（ Ti，Ti，π），（3）（i，j）∈Pπ∈Πij其中δ是贴片对π=（p，q）的共面距离它被计算为两组样本点上的点到平面距离的均方根：δ2= 1 Σd2（T v，φG）+1Σ d2（Tv，φG），|vp ∈V p|vp∈Vpipq|vq ∈Vq|vq ∈VqjQp其中，Vp是面片p上的样本点的集合，并且d是点到平面的距离：d（T i v p，φG）=（R i v p+ t i− p q）·n q。φG=（p q，n q）是由面片q定义的平面，其使用对应的变换T j在全局参考系中估计，并且在每次迭代中更新。sπ是用于贴片对π的选择的控制变量（在[0， 1]中），其中1代表被选择，0代表被丢弃。 wn是测量配对的对准度的权重。除了预测的补丁对本身之外，该算法是优化和网络之间的另一个连接。它是基于两个补丁的特征距离来计算的，由df（p，q）表示由网络提取：w=e−d2（p，q）/（σ2d2），其中d是最大f调频（p，q）调频特征距离和σ = 0。6.共面性正则化项被定义为：ΣEreg-cop（s）=Σµ wπΨ（s π），（4）（i，j）∈Pπ∈Πij其中罚函数被定义为Ψ（s）=（√s1）2。直观地，将该项与数据项一起最小化鼓励选择导致数据项的小值的对，同时立即修剪其数据项值太大并且被认为难以最小化的那些wπ定义与之前相同，µ是一个加权变量，用于控制对选择的强调。PlaneMatch9×关键点数据项定义为：ΣE数据-kp（T，s）=Σsθ||T i u − T j v||、（五）（i，j）∈Pθ∈θij与共面性类似，控制变量sθ用于确定点对θ的选择，服从关键点正则化项：ΣEreg-kp（s）=ΣµΨ（sθ），（6）（i，j）∈Pθ∈θij其中μ与等式（4）共享相同的加权变量。最佳化：迭代地进行等式（2）的优化，其中每次迭代交织变换T和选择变量s的优化。理想地，优化可以将序列中的每对帧然而，这是非常昂贵的，因为对于每个帧对，系统随着补丁对和关键点对的数量而缩放。为了缓解这个问题，我们将序列分成重叠片段的列表，优化每个片段内的帧姿势，然后执行片段的最终全局配准，如[12]中所示。对于每个片段，优化采用该片段内的所有帧对，并将它们配准到刚性点云中。在此之后，我们采用已经通过片段内优化选择的匹配对，并且基于这些对来解决片段间配准。片段间配准更多地受益于长程共面性预测。以这种方式找到的推定匹配，然后进一步修剪与快速和近似RANSAC算法应用于每对片段。给定一对片段，我们随机选择一组三个匹配的特征对，这可以是平面补丁或关键点对。我们通过计算由变换对齐的推定匹配对的数量来计算针对所选择的t_t_t的变换形式，以及针对变换的“up_p或t”的时间。对于贴片对，通过两个贴片上的样本点之间的均方根最近距离来对于关键点对，我们简单地使用欧几里得距离。两者都使用相同的1cm阈值。如果发现变换被匹配对充分支持（超过25%的一致性），则我们将所有支持对包括到全局优化中。否则，我们简单地丢弃所有假定的匹配。一旦以这种方式建立了一组成对约束，则使用Ceres [45]通过迭代过程交替优化框架变换和成对选择变量，以在每次迭代时最小化目标函数。当每个未知量的相对值变化小于1 10−6时，迭代优化收敛。在收敛时，开始时初始化为Im的加权变量μ减小一半，并且继续上述迭代优化。重复整个过程直到μ小于0。01m，这通常需要少于50次迭代。补充材料提供了优化行为的研究，在-包括收敛性和对不正确对的鲁棒性。10Yifei Shi等4结果和评价4.1训练集、参数和计时我们的训练数据是从ScanNet [10]数据集生成的，该数据集包含1513个室内场景的扫描序列，由BundleFusion [2]重建我们采用ScanNet提供的训练/测试分割，训练集（1045个场景）用于生成我们的训练三元组。每个训练场景贡献10K三元组。从所有训练场景生成总共约10M个三元组。为了评估我们的网络，我们使用来自测试集的100个场景构建共面性基准对于分层优化，片段大小为21，相邻片段之间有5帧重叠网络训练需要大约20个小时才能收敛。对于每帧具有62个片段和30个补丁的1K帧的序列，共面性预测的运行时间为10分钟（0. 每个补丁对1秒）和20分钟用于优化（片段内5分钟和片段间15分钟）。4.2共面性基准我们创建了一个基准COP用于评估基于RGB-D的平面贴片的共面性匹配。基准数据集包含12K个具有地面实况共面性的补丁对，其根据补丁的物理大小/面积（COP-S）和补丁对之间的质心距离（COP-D）来组织COP-S包含6K块对，这些块对均匀地分成三个子集，平均块大小递减，其中块对以随机距离采样。COP-D包括三个子集（每个包含2K对），其具有增加的平均对距离但均匀分布的斑块大小。对于所有子集，正对和负对的数量相等。基准的详细情况见补充材料。4.3网络评价我们的网络是第一个，据我们所知，这是共面预测训练因此，我们对基线和消融研究进行了比较。参见补充材料中的共面匹配的视觉结果。与基线方法比较：我们首先比较两个手工制作的描述符，即补丁区域内的颜色直方图和补丁质心处的SIFT特征。对于关键点匹配的任务，通常实践的在[46]中）是训练神经网络，该神经网络将以关键点为中心的图像块作为输入。我们将这个网络扩展到共面性预测的任务，作为一个非平凡的基线。为了进行公平的比较，我们使用ResNet-50训练了一个三重网络，每个补丁只有一个塔，采用三个通道（RGB，深度和正常）作为输入。对于每个通道，图像围绕补丁质心进行裁剪，使用与之前相同的填充和调整大小因此，不需要掩模，因为目标总是在图像中心。PlaneMatch11COP-S1 COP-S2回忆回忆回忆图6：与基线进行比较，包括分别用共面性和精确点匹配训练的中心点匹配网络、基于SIFT的点匹配和基于颜色分布的补丁匹配。COP-S1 COP-S2COP-D1COP-D2回忆回忆回忆图7：共面性网络的消融研究。我们训练了两个具有不同三元组的网络，分别用于1）精确中心点匹配和2）共面补丁匹配在COP-S上进行比较，精确度-召回率的结果绘制在图6中。手工制作的描述符在所有测试中都失败了，这表明了我们的基准数据集的难度与两种基于中心点的网络（点匹配和共面匹配）相比，我们的方法表现得更好，特别是在较大的补丁上。消融研究：为了研究对各种输入通道的需求，我们将我们的完整方法与禁用RGB，深度，法线或掩码输入的方法进行了比较，超过了COP基准。为了评估多尺度上下文的效果，我们的方法相比，没有本地或全球渠道。图7中的PR图显示我们的完整方法对于所有测试都是最好的。精度精度精度12Yifei Shi等从实验中可以观察到一些有趣的现象首先，不同渠道的总体重要性顺序为：蒙版>法线> RGB>深度。这清楚地表明，跨不同视图的共面性预测既不能仅依赖于外观，也不能仅依赖于几何形状。需要认识到掩蔽概念在网络中的重要作用。我们提供了进一步的比较，以证明我们在补充材料中的特定掩蔽方案。第二，全局尺度对于更大的块和更远的对更有效，对于这些块和对，需要更大的尺度来编码更多的上下文。由于其输入通道的较高分辨率，局部尺度的情况相反。这验证了局部和全局通道在不同尺度上捕获上下文信息的互补作用4.4重建评价定量结果：我们使用[11]的TUM RGB-D数据集对重建进行定量评估，其中地面实况相机轨迹可用。重建误差由绝对轨迹误差（ATE）测量，即，沿轨迹的摄像机位置的均方根误差（RMSE）我们将我们的方法与六种最先进的重建方法进行了比较，包括RGB-D SLAM [47]，VoxelHashing [14]，ElasticFusion [18]，Redwood [12]，BundleFusion [2]和Fine-to-Coarse [4]。请注意，与其他方法不同，Redwood不使用颜色信息。精细到粗略是与我们的方法最密切相关的，因为它使用平面表面进行结构约束配准。然而，这种方法依赖于一个良好的初始化相机轨迹引导，而我们的方法没有。我们的方法使用SIFT特征进行关键点检测和匹配。我们还实现了我们的方法的增强版本，其中关键点匹配通过BundleFusion（named'Bundle Fus ion + Our s '）进行预过滤。作为消融研究，我们实现了我们的方法的五个基线变体。1）“COPLAN ARITY”是我们与全COPLAN ARITY COSTRANT一起使用的。在具有k个y点匹配约束的情况下，我们的优化有时可能是欠确定的，并且当不是所有自由度（DoF）都可以通过共面性固定时，需要重新制定以实现鲁棒配准。有关配方的详细信息可参见补充资料。2）“Key p oi n t”是我们与唯一的S I F T key- p oi n t m at c h i n g c on s t r an t s的合并。3）'无D. 在RANSAC测试和我们的方法中，我们在帧到帧RANSAC中的投票期间不使用我们学习的补丁描述符。在这种情况下，任何两个补丁对都可以投票，如果通过所述计算和所述排序形式来对所述区域进行精确对齐。4）'无D. 在Optt m e中，对于cop l an i的最佳结合不是由我们的网络预测的匹配置信度（等式（3）和（4）中的wπ）确定的。5) ”“没有D。在B中，它是3）和4）中的一个。表1报告ATE RMSE比较。我们的方法对于前三个TUM序列（第四个是平坦壁）实现了最先进的结果。这是通过利用我们的长程共面匹配鲁棒的大规模循环闭合，同时利用基于关键点的匹配，以牵制可能的自由自由自由度，这是不确定的共面。当被PlaneMatch13方法fr1/desk fr2/xyz办公室 fr3/nst没有D在RANSAC9.64.812.62.3没有D在选项中4.82.72.51.9没有D无论是18.98.316.42.4仅关键点5.64.45.22.6仅共面性2.52.13.7–我们1.41.11.71.5(a) 与替代品的比较。(b) 与基线的比较。表1：TUM序列上ATE RMSE（cm）与替代方法和基线方法的比较颜色表示最佳和次佳结果。结合BundleFusion关键点，我们的方法在所有序列上实现了最佳结果。因此，我们的方法通过提供处理有限的帧到帧重叠的手段来补充当前最消融研究证明了我们学习的贴片描述符在我们的优化中的重要性我们的方法比不包括它的所有变体执行得更好。它还表明，共面性约束单独优于关键点，只有所有的序列，除了平壁（fr 3/nst）。同时使用共面和关键点匹配提供了总体上最佳的方法。定性结果：图8显示了来自ScanNet [10]的序列和我们自己扫描的新序列的重建的视觉比较。我们比较我们的方法与国家的最先进的关键点为基础的方法（束融合）和平面结构为基础的方法（精到粗）的重建结果。低帧重叠使得基于关键点的环闭合检测在BundleFusion中失败。连续帧的丢失跟踪为精细到粗略提供了较差的初始对准，导致其失败。相比之下，我们的方法可以成功地检测到非重叠的循环关闭通过共面补丁对，并实现良好的质量重建这些例子，而无需初始regis，过滤。补充材料中显示了更多的视觉结果。长程共面性的影响。为了评估长程共面匹配对重建质量的影响，我们在图9中显示了使用我们的网络预测的所有、一半和没有长程共面对计算的重建结果。我们还显示了一个直方图的共面对幸存的优化。从视觉重建的结果，长距离共面对的好处是显而易见的。特别地，较大的场景（底部）比较小的场景（顶部）从长程共面性中受益更多在图8中，我们还给出了优化后非重叠共面对的数量，表明长程共面性在所有示例中都有帮助。5结论我们提出了一个新的平面补丁描述符，旨在寻找共面补丁没有先验的全球对齐。在其核心，该方法使用了一个深刻的方法fr1/desk fr2/xyz办公室 fr3/nstRGB-D SLAM2.30.83.21.7体素哈希2.32.22.38.7弹性融合2.01.11.71.6红木2.79.13.0192.9从细到粗5.03.03.93.0BundleFusion1.61.12.21.2我们1.41.11.61.5BundleFuison+Ours1.30.81.50.914Yifei Shi等我们的（40660）BFF2c我们的（9607）BFF2c我们的（13791）BFF2c我们的（4975）BFF2c我们的（2712）BF F2C我们的（9889）BF F2C图8：通过我们的方法BundleFusion（BF）[2]和精细到粗糙（F2C）[4]对六个序列的重建的视觉比较。红色椭圆表示未对准的部件对于我们的结果，我们给出了优化选择的长程共面对的数量图9：分别检测到100%（左列）、50%（中间）和0%（右）的长程共面对的重建结果。给出了长距离共面面片对（按面片距离（1 5m）计数）网络将具有RGB、深度和法线的平面贴片输入映射到描述器空间，其中接近度可以用于预测共面性。我们期望深补丁共面性预测为SLAM应用的现有特征提供有用的补充，特别是在具有大平面表面和小帧间重叠的扫描中。鸣谢我们非常感谢Min Liu、Zhan Shi、Lintao Zheng和Maciej Halber在数据预处理方面提供的帮助我们也感谢张毅中这项工作得到了NSF（ VEC 1539014/ 1539099 ， IIS 1421435 ， CHS 1617236 ）， NSFC（61532003，61572507，61622212）、Google、Intel、Pixar、Amazon和Facebook。施逸飞获得了国家留学基金管理委员会的资助。PlaneMatch15引用1. Izadi，S.，Kim，D.，Hilliges，O.，Molyneaux，D.，纽科姆河Kohli，P.，Shotton，J.，Hodges，S.，Freeman，D.，Davison，A.，Fitzgibbon，A.：KinectFusion：使用移动深度相机的实时3D重建和交互。In：Proc. UIST.（2011）55 92. Dai，A.，我是M Zollhofer，M.， Izadi，S.， C. ：B和IeFusion：使用运行中表面重新整合来进行实时全局一致3d重建。ACM Trans. on Graph. 36（3）（2017）243. 张玉，徐伟，唐，Y.，Zhou，K.：用于实时室内场景重建的在线结构分析。ACM Transactions on Graphics（TOG）34（5）（2015）1594. Halber，M.，Funkhouser，T.：rgb-d扫描的从细到粗的全局配准。arXiv预印本arXiv：1607.08539（2016）5. Lee，J.K.，是的J.W. Park，M.G.，Yoon，K.J.：室内重建的联合布局估计和全局多视图配准arXiv预印本arXiv：1704.07632（2017）6. Ma，L.， Kerl，C.， Stu¨ckler，J.， Cremers，D. ：Cpa-slam：用于直接rgb-dsam的Consistentplane-model对准。In：Robotics and Automation（ICRA），2016 IEEEInternationalConferenceon，IEEE（2016）1285-12917. 特雷弗AJ罗杰斯，J.G.，Christensen，H.I.：带有3d和2d传感器的平面表面猛击。在：Robotics and Automation（ICRA），2012IEEE InternationalConference.IEEE（2012）3041- 3048中8. Zhang，E.，Cohen，M.F.，Curless，B.：清空、重新装修和重新照亮室内空间。ACM Transactions on Graphics（TOG）35（6）（2016）1749. 黄，J.，Dai，A.，吉巴斯湖Nießner，M.：3dlite：面向内容创建的商品3D扫描ACM Transactions on Graphics 2017（TOG）（2017）10. Dai，A.，Chang，A.X.，Savva，M.，Halber，M.，Funkhouser，T.，Nießner，M.：Scannet：室内场景的丰富注释3D重建。在：CVPR中。（2017年）11. Sturm，J.，Engelhard，N.Endres，F.，Burgard，W.Cremers，D.：评估rgb-d sam系统的基准In：Proc. IROS.（10月2012年）12. Choi，S.，Zhou，Q.Y.，Koltun，V.：室内场景的鲁棒重建。IEEE计算机视觉和模式识别会议论文集（2015年）555613. Newcombe，R.A.，Izadi，S.，Hilliges，O.，Molyneaux，D.，Kim，D.，Davison，A.J.，Kohli，P.，Shotton，J.，Hodges，S.，Fitzgibbon，A.：KinectFusion：实时高密度存储和跟踪。 In：Pr oc. ISMAR. （2011）12714. 我是M Zollhofer，M.， Izadi，S.， Stamminger，M. ：使用体素散列按比例进行三维重建。03 The Dog（2013）15. 陈杰，Bautembach，D.，Izadi，S.：可扩展的实时体积表面重建。ACMTOG 32（4）（2013）11316. Keller，M.，Lefloch，D.，Lambers，M.，Izadi，S.，Weyrich，T.Kolb，A.：基于点融合的动态场景实时在：Proc.3DV，IEEE（2013）117. Steinbruecker，F.，Sturm，J.，Cremers，D.：在cpu上实时绘制三维立体图。 2014 IEEE International Conference on Robotics and Automation（ICRA），香港，中国18. Whelan，T.Leutenegger，S.，Salas-Moreno，R.F.，Glocker，B.Davison，A.J.：ElasticFusion：没有姿态图的密集SLAM。In：Proc. RSS，Rome，Italy（July 2015）16Yifei Shi等19. 王，R.， S ch？orer，M.， Cremers，D. ：立体摄像机：使用立体摄像机的Large-scale d idictparevisulodometry。arXiv预印本arXiv：1708.07878（2017）20. 帕克，J.，Zhou，Q.Y.，Koltun，V.：重新审视彩色点云配准。IEEE计算机视觉和模式识别会议论文集。（2017）14 321. Lowe，D.G.：基于局部尺度不变特征的目标识别In：Computer Vision，1999.第七届IEEE.第2卷，02TheDog（1999）22. 贝H Tuytelaars，T.，Van Gool，L.：Surf：加速健壮的功能。计算机视觉23. Rublee，E.，Rabaud，V.，Konolige，K.，Bradski，G.：Orb：一个有效的替代筛选或冲浪。 In ： Computer Vision （ ICCV ）， 2011 IEEEinternational conferenceon，IEEE（2011）256424. Han，X. Leung，T.，Jia，Y.，Sukthankar河Berg，A.C.：Matchnet：Unifyingfeature and metric learning for patch-based matching. In：Proceedings of the IEEEConferenceonComuterVis isinandPater nRecognitin. （2015）327925. Yi，K.M.，Trulls，E.，莱佩蒂Fua，P.：Lift：学习的不变特征变换。In：Europea n Conferenceo nComputerrVision，Springger（2016）46726. Byravan，A. Fox，D.：Se 3-nets：使用深度神经网络学习刚体运动。In：Robotics and Automation（ICRA），2017 IEEE International Conferenceon，Ireland（2017）17327. Zeng，A.，Song，S.，Niessner，M.，Fisher，M.，肖，J.，Funkhouser，T.：3DMatch：从rgb-d重建中学习局部几何描述符在：ProceedingsoftheIEEE ConFeRénceo nComputerVisisi n andPater n Reg g nition 中。（2017）180228. Schmidt，T.纽科姆河Fox，D.：密集对应的自监督视觉描述符学习。IEEE Robotics and Automation Letters 2（2）（2017）42029

下载后可阅读完整内容，剩余1页未读，立即下载