RGB-D扫描的细到粗全局配准方法

18 浏览量更新于2023-10-15 收藏 3.38MB PDF 举报

普林斯顿大学

基准测试

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1755RGB-D扫描的从细到粗全局配准普林斯顿大学mhalber@cs.princeton.edu普林斯顿大学funk@cs.princeton.edu摘要室内环境的RGB-D扫描对于包括房地产、室内设计和虚拟现实的许多应用是重要的。然而，将长视频序列上的来自手持相机的RGB-D图像配准到全局一致的当前的方法通常会丢失跟踪或漂移，因此无法在大环境中重建显著结构（例如，不同房间的平行墙为了解决这个问题，我们提出了一个为了测试全局配准算法，我们提供了一个基准测试，其中包含来自SUN3D数据集的25个场景中的10，401个手动点击点对应。在这个基准测试的实验中，我们发现我们的细到粗算法比以前的方法更好地注册长RGB-D序列1. 介绍廉价的RGB-D视频摄像机的普及允许容易地扫描静态室内环境，从而实现在许多领域中的应用，包括文化遗产、房地产和虚拟现实。受此启发，我们的目标是创建一种方法，该方法将手持相机捕获的RGB-D帧序列作为输入，并生成全局一致的3D模型作为输出。我们希望al-出租m能够在各种室内环境（办公室、家庭、博物馆等）中稳健地注册帧，在实际的计算限制内离线执行，并处理由廉价的普通照相机获取的数据，从而它可以由非专家使用。尽管有许多先前的工作，但仍然难以配准用手持相机获取的RGB-D数据尽管相机姿势通常可以在短时间内跟踪图1：我们提出了一种从细到粗的优化策略，用于在室内环境中全局配准RGB-D扫描给定初始配准（左），我们的算法迭代地检测和执行平面结构和特征对应关系，并以增加的尺度进行。这样，它发现了对于全局一致配准重要的长范围约束-例如，请注意，在右侧的结果中，即使在不同的房间中，相对的墙壁也是相同的。距离[28]，局部跟踪通常在无纹理区域中失败和/或在长范围上漂移[9，30]（图1的左侧）。这些错误可以通过基于检测到的循环闭包的异步或全局优化来修复[8，19，46]。然而，在具有多个房间和/或重复结构的大型现实世界扫描中，在没有先前约束的情况下，找到环闭合是困难的。根据我们的经验，在这些情况下，即使是最先进的全局配准方法也会产生扭曲的表面和不太可能的结构[8]。为了解决这个问题，已经提出了基于拟合结构模型[24，25，27]和/或对齐最近点对应[5，14]的全局细化方法。然而，这些方法仅在作为输入提供的比对接近正确时才成功。否则，它们可能会检测并放大未对准输入中发现的错误约束。我们引入了一种新的在每次迭代中，最近点和地理位置1756度量约束（并行性、并行性等）仅在相邻RGB-D帧的“窗口”内被检测和实施。窗口开始小，使得相对初始对准可能是正确的。随着算法的进行，窗口的大小逐渐增加，使得能够检测较长范围的对应关系和大规模的几何结构，从而利用由反复迭代提供的改进的轨迹。该过程继续，直到单个窗口包括整个扫描，并且可以稳健地进行全局细化。这种“从细到粗”方法的优点在于，在每次迭代中仅在先前迭代已经对准扫描的尺度下检测最近点对应和平面结构。在一次迭代中强制执行这些约束可以改进下一次的配准例如，在图2中，请注意墙之间的几何约束如何在每次迭代中变得更容易检测（从左到右），并且这些约束的强制执行逐渐纠正了重建。在后期迭代中，对准几乎是完美的，使得检测非常大规模的结构和长距离约束（例如，不同房间的平行墙壁），这对于正确的全局配准至关重要。为了评估该算法并在未来的工作之间进行比较，我们基于SUN3D数据集创建了一个新的配准基准[47]。它包含RGB-D扫描中的10，401个手动点击点对应，包含25个场景中的149，011帧，其中许多场景跨越多个房间。在这个新的基准测试的实验中，我们发现，我们的细到粗算法产生更准确的全球注册和处理更困难的输入比以前的方法。总体而言，本文的研究贡献是三方面的。首先，我们提出了一种新的从细到粗的迭代细化策略，用于大规模RGB-D扫描的全局配准。其次，我们引入了一个新的基准数据集，用于在真实的RGB-D扫描上定量评估全局配准算法。最后，我们提供了消融研究的结果，揭示了我们的全局配准算法的不同组件的权衡。2. 相关工作在计算机图形学和计算机视觉以及增强现实、机器人技术和其他领域中，对RGB-D图像的配准的研究已经有很长的历史[37]。以下段落描述了与我们最密切相关的工作。实时重建。大部分的前期工作都是为了--基于机器人和增强现实中SLAM应用的实时注册[37]。早期的系统使用ICP来估计相邻视频帧的成对对齐[4]和特征匹配技术来检测和对齐循环闭合[2]。最近的方法将帧与场景模型对齐，表示为点云[19，21，34，46]或隐式函数[6，9，20，28，42，44，45]。使用这些方法，小的局部对准误差可以累积形成大尺度的总不一致性[22，30]。离线全局注册。为了校正在线相机姿态估计中的未对准，通常使用离线或异步执行的全局配准过程。常见的公式是计算具有表示帧之间的成对变换的边缘的姿态图，然后优化惩罚这些成对对准的偏差的目标函数[16，19，50，51]。这些方法中的一个主要挑战是确定哪些对应该被视为循环闭包。以前的方法已经使用词袋模型[2]，随机蕨类编码[46]，卷积神经网络[7]和其他方法搜索类似的图像。Choi等人。[8]最近提出了一种方法，该方法使用指示变量来识别使用最小二乘公式进行全局优化期间的真实循环闭包。在我们的实验中，他们的算法在小环境的扫描上是成功的，但对于具有多个房间、大型结构和/或许多重复元素的环境则不是。分层图优化。一些方法分层地融合姿态图的子图以提高优化鲁棒性和效率[8，13，15，33，40]。一些激发这些方法的想法与我们的有关。但是，它们会在优化开始之前检测所有潜在的循环闭包。相比之下，我们在迭代细化的内循环中检测新的约束（平面关系和特征对应），这使得随着配准的改善，能够逐渐发现大规模结构和长距离迭代精化。其他方法使用迭代最近点[4]来计算全局配准[5，14，32]。这种方法的优点是，密集的对应关系（包括循环闭合），发现只有局部搜索最近的点的基础上事先对齐，而不是与全局搜索，考虑所有对帧。然而，ICP通常需要良好的初始对准，因此很少用于全局RGB-D配准，除非在最后一步[8]中作为精细尺度细化。我们的1757图2：精粗配准示意图从左侧显示的初始对齐T0开始，我们的算法在最初的几次迭代中检测并执行局部区域（颜色编码）中的随着算法的进展，轨迹被细化，允许检测更大的几何结构。到第6次迭代时，我们已经正确地对齐了箭头标记的墙，而没有使用显式的循环闭包。3. 方法在本文中，我们描述了一个全局注册算法，利用检测和执行的迭代细化过程的内循环中的接近满足的约束该算法从初始的不完美配准开始，然后遵循在离散E步骤（检测一组可行的约束）和连续M步骤（求解最佳满足约束的相机姿态）之间交替的一般E-M策略虽然该方法是通用的，但我们在这项工作中考虑两种主要类型的约束：特征对应和平面结构关系。在算法的每次迭代期间，基于最接近的兼容特征（如ICP中）之间的对应关系以及基于检测到的平面结构之间的几何关系（平行性、正交性等）来创建约束。这些约束被集成到一个全局优化中，该全局优化在进行下一次迭代之前细化相机姿态。关键的新思想是，约束的检测发生在滑动窗口内的每次迭代中，滑动窗口随着算法的进行而逐渐增长。在早期迭代中，少量相邻RGB-D帧在每个窗口内。由于初始对准的相对摄像机姿态对于相邻帧应该几乎是正确的，因此即使全局重建严重不准确，也可以在这些小窗口内稳健地检测结构约束和最近点对应（图2a）。随着迭代的进行，窗口大小增加，从而能够检测和执行更大规模和更长范围的平面结构和对应约束（图2c）。由于先前的迭代已经基于在较小窗口内发现的约束优化了相机轨迹，因此我们可以预期当前轨迹估计在每个窗口内几乎是正确的，并且使用它来发现平面结构和特征对应。最后，在最后一次迭代中，最终窗口包含所有输入数据，算法对大型结构进行全局优化，并进行相应的优化。在一个大的联合优化中跨越整个轨迹的概率（图2d）。这种方法与以前的工作有两个重要的区别。首先，它避免了对成对循环闭包的全局搜索其次，它发现并实施大规模几何约束（如平面结构关系），即使它们在初始对准中可能不明显（例如，在图2的例子中，最左边和最右边的壁之间的平行关系在迭代0中很难推断，但是在迭代6中很容易检测到因此，与以前的方法相比，我们的方法在大规模扫描中实现了更好的配准结果（第5节）。4. 算法我们系统的输入是我用消费级RGB-D相机采集的一组n张RGB-D图像输出是一组相机姿态T，其中T[k]表示I[k]的相机的位置和取向。处理如算法1所示进行。在预处理阶段，我们首先从I中的所有图像中提取特征F和基础平面区域B，估计一组局部成对对齐变换L，并连接这些局部变换以形成全局变换T0的初始猜测。然后，在每次迭代i中，我们通过首先基于共面基础平面区域Pi的检测到的簇和它们之间的几何约束（Hi和Gi）检测特征对应约束Ci和结构模型约束Si来细化变换Ti。然后，我们通过最小化检测到的约束的误差函数编码惩罚来优化下一次迭代T i +1的全局变换。最后，我们将下一次迭代的窗口大小加倍，li+1= 2li。以下小节描述了这些步骤的核心思想完整的实施细节见补充材料。1758输入：图像I，窗口长度l0，niter;输出：相机变换T;int i= int i（I）;B= baseProxies（I）;i= nums（I）;T0= ConcatenateTransformations（L）;fori←0ton iterdo{Pi，Hi}= DetectCoplanarProxies（Bi，li）;Ci= CorresponConstraints（Fi，li）;Si={Pi，Gi，Hi};Ti+1=求解argminTE（Ti，Si，Ci）;li+1= 2li;端算法1：从细到粗的细化4.1. 预处理提取特征。预处理的第一步是从输入的RGB-D图像I中提取密集的特征集F。在这一步中，我们的目标是构建一个一组间隔良好且可重复的特征，当搜索对应时，这些特征可以在以后稳健地匹配。我们已经试验了许多特征类型，包括彩色和深度图像中的SIFT和Harris角。然而，我们最终发现平面贴片[3，10，11，12，25，29，31，35，39，41，43]和沿着深度图像中的折痕和轮廓的线性边缘[52]是最鲁棒的。对于每第5帧，每个像素检测特征，然后使用泊松飞镖算法进行二次采样，特征之间的最小间距等于0。05米。一旦创建了F，我们就从图像定义一个特征在迭代i处的I[k]为Fi[k][j]={Ti[k]（pj ），Ti[k]（n→j），Ti[k]（d→j）}，其中pj、n→j和d→j分别表示特征的位置、法线（对于平面贴片）和双法线在摄影机空间中的直线（对于线性边）。创建基础平面代理。下一步是从输入图像I中提取基本平面区域（我们将其称为代理）B。我们的目标是创建基础代理，可以形成几何约束的基础为此，我们使用了一种基于聚合层次聚类的方法，其中几乎共面特征的聚类基于其位置和法线的兼容性被重复合并（有关详细信息，请参见补充材料）。一旦B被创建，我们在迭代i处从图像I[k]作为Bi[k][j]={Ti[k]（pj ），Ti[k]（n→j）}，其中pj是内点特征的质心，并且→nj是拟合的法线。对齐相邻图像。预处理的最后一步是估计一组局部对准变换，对于输入图像I，我们这一步的目标是创建局部对准变换，该局部对准变换可以在稍后的优化中使用，以保持估计的摄像机轨迹的局部形状。为了实现这一目标，我们使用成对图像对齐-基于Xiao et al.[47]：我们检测图像{I[k-1]，I[k]}中的SIFT特征，修剪掉没有有效（缺失或高）深度值的特征，然后对反投影SIFT关键点使用RANSAC来搜索刚性变换L[k]，尽可能多地使用这些关键点。我们通过简单地连接估计的局部变换L（ T0[0]=I4×4;T0[k]=L[k−1]T0[k−1];k∈[1 ， n] ）来形成初始相机到世界的变换T0这个过程给了我们一组初始的转换在局部是准确的，但在全局上是不一致的。4.2. 从细到粗的细化在对图像I进行预处理之后，该算法迭代地检测增大尺寸的窗口内的约束，并基于这些约束求解所有相机变换T。每个迭代i的输入是窗口大小li（10=3m）和来自前一迭代的变换集合Ti输出是一组新的相机变换Ti+1。创建共面性约束。我们通过将变换后的基本代理Bi聚类为代表性聚类代理来Pi[j]={pj，n→j}。聚类是使用相同的凝聚层次聚类算法实现的用于基本代理提取。然而，在该步骤中，不是对每个单独图像内的特征进行聚类，而是对来自不同图像的基本代理进行聚类，所述不同图像的沿着估计轨迹的距离小于当前窗口大小I1。然后，我们将两种类型的约束插入到Hi中，一组特征到代理约束将框架特征Fi连接到Bi，以及一组代理到代理约束将Bi的成员连接到它们在Pi中的代表性集群代理。图3中以一个单房间为例描述了Hi所隐含的约束层次结构.请注意，该结构是针对后期迭代显示的，因此绿色中的平面结构跨越整个墙壁。与基于与平面对齐的精确方法[25，35，49]相比，我们可以检测这些大的平面结构，因为先前的迭代已经对齐了壁的重叠子集。创建几何图形关系约束接下来，我们构建一组约束Gi，其表示来自集合Pi的相邻集群代理之间的地理度量关系。我们的目标是检测平面结构（平行，反平行，1759θθ2θCPCP图3：一个SUN3D场景的结构模型的分解视图。几何属性，如平行性（橙色虚线）和正交性（红色虚线）是在父代理（绿色）之间创建的。集群代理Pi通过基础代理Bi经由共面性约束（分别为蓝色和浅蓝色）连接到扫描特征（点云）。正交或正交），其可以帮助引导朝向正确配准的优化。我们为每对集群代理{Pi[a]，Pi[b]}）创建类型化和加权的平面关系，使得沿着内层图像之间的轨迹的距离小于2li。结构关系的类型gab及其权重wab基于法线之间的角度θ=acos（→na·→nb）。对于平行关系，权重定义为 wab= exp（−θ2/2σ2），对于正交关系，权重定义为wab=exp（−（θ−π）2/2σ2），对于反平行关系，权重定义为wab= exp（−（θ−π）2/2σ2）。这些权重被选择为当约束接近时引导配准。遇到了，但没有什么影响力时，他们没有。对于我们的实验，我们选择σ= 7。5o.创建特征对应约束。我们接下来建立一组对应约束Ci是-最后，出于性能原因，我们对创建的对应集进行子采样，使它们的总数等于|Ci|= 50n。4.3. 优化每次迭代i的最后一步是优化相机变换Ti和代理变换Pi，以最小化对检测到的约束进行编码的误差函数。我们的误差函数是一个加权和的条款pennalizing变形的结构关系（EH，EG），相应的功能（ EC ）之间的距离，错位的局部变换（EL），和大的变化，在转换（EI）。E（Ti，Si，Ci）=wHEH（Hi）+wgEG（Gi）+wCEC（Ti，Ci）+wLEL（Ti）+wIEI（Ti，Pi）在整个迭代过程中，权重wH、wG、wC、wL、wI从一个初始值开始线性变化1500，1500，1000，1}到最后一个{1000，1000，1000，1000，1}。结构错误。EH和EG被设计为强制执行由结构模型Si隐含的约束。EH在深度图像中强制代理和它们的内层特征之间的共面性。注意，Hi包含特征到代理和代理到代理约束。如果我们使用Qa={qa，n→a}来表示特征或代理的变换平面，我们可以将每个误差项包括所有这些制约因素，如：|ΣHi|EH（Hi）=E→（Qa，Qb）+E→（Qb，Qa）j=1其中E→（Q， Q）=εsmaxx（（q-q）·n→）2mea-cpabs=1ab b在同一幻灯片内的图像中检测到的补间特征的窗口。遵循ICP的一般策略，我们在最接近的兼容特征之间构建对应关系，其中兼容性由最大距离和最大法向角度偏差阈值以及特征类型检查（平面特征仅与平面特征匹配等）确定。因为我们希望图像在同一场胜利中-确保两个平面结构偏离共面性。对于特征到代理关系，qa和qb是内围特征的位置。对于代理到代理约束，每个qs从0的边界元采样。5米半径的圆盘，或者与pa处于相同的位置（在我们的实验中smax>=5）。几何关系EG（Gi）的误差为-代理Pi[j]和Pi[k]之间的关系是：当他们的姿势被优化时，为了更好地对齐，我们设置最大距离和角度阈值，Σ|G|wjk(→nj−→nk)2平行用于动态拒绝每对异常值的oldsEG（Gi）=wjk（→nj+→nk）2 antiparallel基于它们沿轨迹的成对距离。如果两张照片同时出现-j=1μmJK（→nj·→nk）2或thogonal考虑对应性检测（成对距离为0。5li）阈值相当大：0. 5米和30米。相反，我们期望附近的图像已经对准好，因此阈值随着时间的推移而下降特征对应错误。 EC旨在鼓励在变换特征Fi[s][a]、Fi[r][b]之间的检测到的对应性的对齐：|Ci|.n（（p′−p′）×d→′）2edges成对距离递减的平方根，下至0的情况。相邻框架为2m和20mEC（Ti，Ci）=ba a（（p′−p′）·n→′）2 planesj=1ba aW1760其中，p′、n′、d′和p′表示特征属性trans-n。a a ab使用相应的变换Ti[s]、Ti[r]来形成。局部对齐错误。EL旨在鼓励相邻帧之间的成对变换，以匹配预处理期间计算的变换EL（Ti）=n−1kmaxj=0k =0Et（T0[j+2k]−1（T0[j]），Ti[j+2k]−1（Ti[j]））其中kmax= 16，Et测量变换T[j]与另一个T[k]的未对准。我们通过对在半径为1米的范围内均匀采样的点ps（s∈[1，8]）之间的距离平方求和来计算Et当y由T[j]相对于T[k]变换时的球面：S型XEt（T[j]，T[k]）=（T[j]（ps）-T[k]（ps））2.s=1惯性误差。EI被添加以提供优化的稳定性并且防止方程系统被欠约束。这里，我们将代理Pi[j]的变换表示为TPi[j]。图4：基准测试中25个场景中有6个场景的地面实况对应关系。可视化显示与T0（我们的方法的初始化）对齐后手动单击的相应点之间的线条。颜色表示帧距离-蓝色表示循环闭合对，而红色表示局部对。103-104图像，通常覆盖多个房间。在这之前，只有八个场景被释放，完整注释和姿势校正。由于缺乏地面真实姿态，这些还没有被用于配准算法的定量评估。我们的贡献之一是为25个最大的场景提供地面实况点对应在SUN3D。总之，我们已经手动点击了10，401个点对应，具有像素级精度。这些地面真实的对应关系主要EI（Ti，Pi）=Σ|我|j=1（Ti[j]）2+Σ|Pi|j=1（TPi[j]）2在成对的重叠帧中形成循环闭合，但它们也出现在均匀分布在整个序列中的成对相邻帧中，如图所示4. 每次扫描的平均对应数为ΔA表示以下各项之间的平方差之和：从一次迭代到下一次迭代的A的欧拉角旋转和平移。当前一个变换是恒等式时，Γ A与Σ A相同。5. 实验结果我们进行了一系列的实验，旨在测试所提出的方法的性能与以前的方法和消融研究的比较。新建基准数据集。RGB-D扫描的室内场景与地面真理对齐是稀缺的。大多数仅包含房间的一部分[1，9，18，23，26，36，38]，测试示例少于10个[9，26，47]，或者基于合成数据[18，17]。因此，研究社区比较了小的、干净的数据集上的配准结果，这些数据集不代表大多数应用所需的为了解决这个问题，我们引入了一个基于SUN3D数据集的新配准基准[47]。SUN 3D包含了大量的RGB-D视频，这些视频是在各种空间（公寓，酒店房间，教室等）中使用连接到手持笔记本电脑的华硕Xtion PRO LIVE传感器捕获的。每次扫描包含416，最低239，最高714。我们用这些地面实况来评估-评估和比较RGB-D配准算法，计算其均方根误差（RMSE）。为了在该测试中量化RMSE的下限，我们在没有其他约束的情况下对齐了所有场景的地面真实值对应关系，并在表1的左列中报告了误差。请注意，这些下限是非零的，即使点击的对应是像素精确的。此错误是由于未校准的SUN3D深度图中的极端噪声造成的。与以前的工作比较。我们将我们的方法与两种先前的离线注册方法进行比较： Xiao 等人 ' sSun3DSfm[48] and Choi et al.' 室内场景的鲁棒重建[8]（图5）。第一种方法由Xiao et al.使用类似的方法进行跟踪，但也通过视觉位置识别与BoW方法预测环路闭合，并执行全局束调整以优化摄像机姿态。第二种方法由Choi et al. 将50帧的连续组融合成片段，将所有片段对与RANSAC的变体对齐，选择片段对作为潜在的循环闭合，然后求解1761图5：示例SUN3D场景的全局配准结果的定性比较。最右边的列显示了我们的结果。最左边的列显示了用于初始化我们的算法的解决方案（T0）. 中间的两列显示了先前工作产生的结果[8，47]。在插图中，我们展示了特定区域的特写在前两行中，我们的方法能够恢复捕获的多房间环境的正确排列，而以前的工作产生了不可能的结构，如交叉的房间。第三行显示了一个非曼哈顿墙的序列，我们能够正确地记录我们的方法还能够正确地对齐第四行中的具有挑战性的走廊序列视觉位置识别失败。由于大量的几何自相似性，Choi et al.无法恢复正确的几何形状。地面实况我们的t0Xiao等Choi等人平均0.0310.0730.5190.4250.999标准偏差0.0060.0230.3940.4931.464中值0.0310.0650.4100.2140.247最小0.0190.0400.1180.0780.047最大0.0450.1391.5602.0015.901表1：SUN3D基准测试中25个场景的RMSE统计数据（以米为单位）与不同配准方法的比较。非线性方程的最小二乘系统，其模拟求解相机姿态和环路闭合权重。我们相信第二种方法是在具有可用代码的方法中离线全局配准的最先进方法，即使它仅使用深度信息。比较提供了几种实时重建方法，表现出比这些离线的全局方法更差的性能在supple- mental材料。表1和图6显示了在我们的新SUN 3D基准上评估的比较的定量结果。表1比较了每种算法的RMSE的总体统计数据，而图6显示了RMSE的分布从这两个结果中可以看出，我们的重建算法比其他任何一个算法都更好地对齐了地面实况对应关系图6：定量比较。每行中的每个竖条表示使用左侧列出的算法为25个SUN3D场景之一实现的RMSE垂直的灰色条显示每种方法的平均RMSE，灰色阴影区域表示一个标准差。两种方法：我们的中位误差为0.065m，而Xiao等人的中位误差为0.214m。Choi等人的平均值为0.247m。在逐例比较中，我们的方法在25个场景中的21个场景中具有最低的误差。研究精细到粗略迭代。要investi-门的行为，我们从细到粗的算法，我们计算直方图的L2距离与帧索引之间的差异，由地面实况的对应关系链接的帧对。图7显示了在1762图7：研究从细到粗的迭代。每个仓收集RGB-D视频中彼此相距特定数量的帧的蓝色条显示使用初始成对变换（T0）的对应误差，而橙色条显示应用我们的方法后的误差（对数尺度）。请注意，对于长距离循环闭包和邻近帧，误差均会减小。图8：消融研究。SUN3D基准测试中的错误分布，用于我们算法的替代方案。禁用粗略到精细迭代或结构建模会降低性能。我们算法的开始（蓝色）和结束（橙色）。值得注意的是，我们的算法不仅减少了形成长范围循环闭合（图的右侧）的地面实况对应之间的距离，而且还减少了短范围内的距离。这一结果表明，提取的结构模型不仅有助于固定全局对齐，而且有助于固定局部对齐。消融研究。为了研究我们提出的a）从细到粗的迭代策略和b）结构模型的价值，我们对我们的方法与启用或禁用这些方法的所有组合进行了比较图8和图9中的结果表明，两者都对结果进行了关键改进特别值得注意的是，结构模型和从细到粗的迭代策略都优于基本的细化。然而，只有当两者都使用时，我们才能获得更好的这个结果突出了在更大尺度上搜索约束之前对齐局部结构的价值。失败案例。我们的方法并不总是成功的。例如，当房间几乎（但不完全）是矩形时，它可能会失败（图10）。这种类型的失败是罕见的-时机我们的测试是在3.0GHz图9：消融研究的定性示例。只有我们的完整方法，使用精细到粗糙的策略和结构模型，才能正确地将区域与红色椅子对齐（见放大）图10：故障案例。在这个梯形房间中，我们的结构模型错误地强制房间长边的墙平行，导致短边相交（轮廓）。CPU和128Gb的RAM。注册最短的875帧序列花了179秒，而最长的13，401帧序列花了8，147秒。6. 结论本文描述了一种在典型室内环境中用手持相机捕获的RGB-D扫描的全局配准方法。其核心思想是一个从细到粗的方案，该方案在迭代算法中逐渐增加尺度的窗口内检测和执行约束（几何关系和特征对应）在实验中证明了所提出的方法的好处与RGB-D注册的新基准，其中包含10,401手动指定的25个SUN 3D场景的对应关系。该基准测试和所有代码都可以在www.example.com上公开获得http://scanregistration.cs.princeton.edu。致谢这项工作得到了Intel、NVIDIA、Adobe、Pixar和NSF的支持（IIS-1251217和VEC 1539014/1539099）。它使用SUN3D [ 47 ]提供的数据和Xiao等人提供的代码。[47]和Choi等人[8]。1763引用[1] A. Anand，H.S. Koppula，T.Joachims，和A.萨克塞纳 3d点云的上下文引导语义标注和搜索。IJRR，2012年。[2] A. Angeli，D.菲利亚特S. Doncieux和J. - A.迈耶使用视觉字袋的快速和增量的循环闭合检测方法Robotics，IEEE Transactions on，24（5）：1027[3] A. Bartoli和P.斯特姆分段平面场景的多个未校准视图的约束结构和国际计算机视觉杂志，52（1）：45[4] Besl和N. D.麦凯一种三维形状的配准方法。 IEEETrans. PAMI，14（2）：239-256，1992.[5] B. Brown和S.鲁辛凯维奇3D扫描的全局非刚性ACMTransactionsonGraphics（Proc.SIGGRAPH），26（3），Aug. 2007年[6] J.Chen，D. Bautembach和S.伊扎迪可扩展的实时体积表面重建。ACM事务处理图表，32（4）：113：1[7] Z. Chen，O. Lam，A.雅各布森和M。米尔福德基于卷积神经网络的地点识别。arXiv预印本arXiv：1411.1509，2014。[8] S. Choi，Q.-Y. Zhou和V.科尔顿。室内场景的鲁棒在IEEE计算机视觉和模式识别会议（CVPR），2015年。[9] A. 戴，M. Nießne r，M. Zollh oüfer，S. Izadi，以及C.希奥博尔特Bundlefusion：使用动态表面重新整合的实时全局一致三维重建。arXiv预印本arXiv：1604.01093，2016。[10] M.杜湖，澳-地Guan，J. - M. Frahm和H.福克斯探讨以手持式rgb-d摄影机进行室内3d重建之高阶平面基元。在亚洲计算机视觉会议上，第94[11] M. Dzitsiuk，J.斯特姆河迈尔湖Ma和D.克雷默斯。使用平面先验去噪、稳定和完成3D重建。CoRR，abs/1609.08267，2016。[12] H. E. Elghor，D. Roussel，F. Ababsa和E. H.布亚赫夫rgb-dslam系统中用于鲁棒定位和映射的平面检测。在3D视觉（3DV），2015年国际会议上，第452[13] C. Estrada，J. Neira，and J. Tardos等级大满贯：大环境的实时精确映射。Transactions on Robotics，21（4）：588596，2005.[14] J. X. Fisher Yu和T.放克豪瑟城市尺度激光雷达数据的语义在2015年第28届IEEE计算机视觉和模式识别会议上[15] 联合Freese，P. Larsson，and T.达克特同时定位与绘图的多层松弛演算法。IEEE Transactions onRobotics，21（2）：112，2005.[16] G.格里塞蒂河克默勒角Stachniss和W.布尔加德。一个基于图形的 slam 教程。 IEEE IntelligentTransportation Systems Magazine，2（4）：31[17] A. 汉达河谷帕特劳齐安河谷 Badrinarayanan ，S.Stent和R.西波拉场景网：用合成数据理解真实世界的室内场景在IEEE CVPR，2016年。[18] A. Handa ， T. Whelan 、 J.McDonald 和 A. 戴维森RGB-D视觉里程计、3D重建和SLAM的基准。在IEEE Intl. Conf. on Robotics and Automation ，ICRA，Hong Kong，China，May 2014.[19] P. Henry，M. Krainin、E. Herbst，X. Ren和D.狐狸.Rgb-d映射：使用深度相机进行室内环境的密集3d建模。实验机器人国际研讨会（ISER），2010年。[20] O. Kahler，V.A. 普里萨卡留角Y. Ren，X.Sun，P.H. S. Torr和D. W.默里移动设备上深度图像的极高帧率非线性集成 . IEEE Transactions onVisualization and Computer Graphics（ProceedingsInternational Symposium on Mixed and AugmentedReality 2015，22（11），2015）。[21] M. 凯勒D. 莱夫洛克M. 兰伯斯S. 伊扎迪T. Weyrich和A.科尔布基于点融合的动态场景实时三维重建。2013年3D Vision - 3DV国际会议[22] M. 克林根史密斯岛 Dryanovski，S. 斯里尼瓦萨，以及J.肖。凿：实时大规模三维重建板载移动终端。机器人科学与系统2015年7[23] K. 莱湖，澳-地Bo和D.狐狸. 用于三维场景标注的无监督特征在 IEEE International Conference onRobotics and Automation ，第 30503057 页， 2014年。[24] Y. Li，X.Wu，Y.Chrysanthou、A.Sharf，D.Cohen-Or和N.J. 米特拉Globfit：通过发现全局关系来一致地拟合 ACM Transactions on Graphics ， 30（4）：52：1[25] L.马角，澳-地Kerl，J. Stueckler，and D.克莱姆斯Cpa- slam：直接rgb-d slam的一致平面模型对齐InInt. Conf. on Robotics and Automation，2016.[26] O. Mattausch ， D. 帕诺佐角穆拉岛 Sorkine-Hornung，和R.帕哈罗拉从大规模杂乱的室内扫描中进行目标检测和计算机图形论坛，33（2）：1121，2014。[27] A. Monszpart，N.梅拉多湾J. Brostow和N. J. Mitra重建：用有规律的平面排列重建人造场景。ACM事务处理图表，34（4）：103：1[28]R. A. Newcombe，A. J. Davison，S. Izadi，P.Kohli，O. Hilli g. 肖顿D. Molyneaux，S. 霍奇斯D.金，和。A.菲茨吉本运动融合：实时密集表面映射和跟踪。在混合和增强现实（ISMAR）中，2011年第10届IEEE国际研讨会，第127-136页。IEEE，2011年。[29] V. Nguyen，A. Harati，和R.西格沃特一种用于室内移动机器人的使用正交平面的轻量级slam算法智能机器人与系统， 2007 年。 IROS 2007 。IEEE/RSJ国际会议，第658-663页。IEEE，20071764年。1765[30] M. Nießne r，M. Zollh oüfer，S. Izadi和M. 施咒者。利用体素散列法进行大规模实时三维重建。ACM Transactions on Graphics （ TOG ）， 2013年。[31] K.帕塔克A. Birk，N. Vaskevicius和J.啪-啪。基于未知对应噪声平面的三维映射快速配准.IEEETrans. Robotics，26（3）：424441，June.[32] K.普利大数据集的多视图配准。在Proceedings ofthe 2Nd International Conference on 3-D DigitalImaging and Modeling，3DIM'99，pages 160-168，Washington，DC，USA，1999中。IEEE计算机学会.[33] A. Ratter和C.萨姆特局部地图为基础的图slam与分层循环闭合和优化。2015年。[34] S.鲁辛凯维奇岛Hall-Holt和M.勒沃实时三维模型采集。 ACM Transactions on Graphics （ Proc.SIGGRAPH），21（3）：438-446，2002年7月。[35] R.萨拉斯-莫雷诺湾Glocken，P. Kelly，and A.大卫-儿子。密集平面猛击。在混合和增强现实（ISMAR），2014年IEEE国际研讨会上，第157-164页[36] N. Silberman，D. Hoiem、P.Kohli和R.费格斯。室内分割和支持推理的RGBD图像。在proc 欧洲会议中在Comp. Vision，2012年。[37] P· 斯托特科 rgb-d 图像实时配准的研究现状。InCESCG，2016.[38] J. Sturm，N. Engelhard，F. Endres，W. Burgard，以及D.克莱姆斯评估rgb-d sam系统的基准。在proc 智能机器人系统国际会议（IROS）2012年。[39] Y.田口，Y. D. Jian，S. Ramalingam和C.峰手持式3d 传感器的点 - 面碰撞在机器人和自动化（ICRA），2013年IEEE国际会议上，第5182-5189页[40] Y. Tang和J. Feng.分层多视图刚性配准。Comput.Graph. Forum，34（5）：77-87，Aug. 2015年。[41] A. Trevor，J.Rogers III和H.克里斯滕森具有3D和2D传感器的平面表面InICRA，2012.[42] H. Wang，J.Wang和L.王. 基于rgb-d码流的室内场景在线在IEEE CVPR，2016年。[43] J. Weingarten和R.西格沃特使用平面段的3D SLAM在IROS，第30623067页，2006中。[44] T. 惠兰 M. 凯丝 M. 法伦 H. 约翰松Leonard 和 J. 麦当劳 Kintinuous ：空间扩展的KinectFusion。在RSS研讨会上的RGB- D：先进的推理与深度相机，悉尼，澳大利亚，2012年7月。[45] T. 惠兰 M. 凯丝 H. 约翰松 M.

下载后可阅读完整内容，剩余1页未读，立即下载