基于深度相机的消费级3D建模技术综述，包括相机跟踪和高质量纹理重建

125 浏览量更新于2024-01-24 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

引文：徐汉通，徐嘉民，徐伟伟。使用深度相机的3D建模综述。虚拟现实智能硬件，2019，1（5）：483-499DOI：10.1016/j.vrih.2019.09.003虚拟现实智能硬件2019年第5·回顾·基于深度相机的3D建模技术综述许汉通，许嘉敏，许伟*浙江大学计算机辅助图形学国家重点实验室，浙江杭州310058*通讯作者，xww@cad.zju.edu.cn投稿时间：2019年7月28日修订日期：2019年9月10日接受日期：2019年9月15日国家自然科学基金项目（61732016）。三维建模是计算机图形学和计算机视觉领域的一个重要课题。近年来，消费级深度相机的推出导致了3D建模的深刻进步。本文从基本数据结构入手，综述了基于深度相机的三维建模的最新进展，包括相机跟踪、三维物体和场景重建以及高质量纹理重建等方面的研究工作。我们还讨论了未来的工作和可能的解决方案的基础上的深度相机的三维建模。关键词三维建模;深度相机;相机跟踪;符号距离函数; Surfel1介绍三维建模是计算机图形学和计算机视觉的重要研究领域。它的目标是捕捉高质量的物体和场景的3D形状和外观，以模拟数字空间中的3D交互和感知。3D建模方法可以主要分为三种类型：(1) 基于专业软件（如3DS Max和Maya）的建模：它要求用户精通该软件。因此，学习曲线通常很长;此外，3D内容的创建通常很耗时。(2) 基于二维（2D）彩色（RGB）图像的建模，例如多视图立体[1]，运动结构[2，3]：由于图像传感器具有低成本和易于部署的特性，因此从多视图2D图像进行3D建模可以显着自动化和简化建模过程;但是，它严重依赖图像质量，并且很容易受到照明和相机分辨率的影响。(3) 基于专业的主动3D传感器建模，包括3D扫描仪和深度相机：传感器主动将结构光或激光条纹投射到物体表面，然后重建物体和场景的空间形状，即。例如，根据从所述结构光解码的所述空间信息从所述3D表面采样大量3D点。3D传感器的优势在于它们对环境中的干扰具有鲁棒性，并且能够以高精度自动扫描3D模型。然而，专业3D扫描仪价格昂贵，这限制了其对普通用户的适用性。近年来，深度相机的发展，即。例如，被称为RGB-D相机的与深度感测设备相关联的RGB相机已经导致3D建模的快速发展深度www.vr-ih.com虚拟现实智能硬件2019年第5相机不仅成本低、结构紧凑，而且能够以足够的分辨率和帧速率捕获像素级的颜色和深度信息。由于这些特性，与其他昂贵的扫描设备相比，深度相机在面向消费者的应用中具有巨大的优势。由伦敦帝国理工学院和微软研究院于2011年提出的KinectFusion算法使用深度相机执行3D建模[5，6]。它能够使用深度相机获得的彩色和深度图像实时生成具有高分辨率细节的3D模型，这引起了3D重建领域研究人员的关注。计算机图形学和计算机视觉领域的研究人员不断创新基于深度相机的三维建模算法和系统，取得了令人满意的研究成果。本次调查将回顾和比较基于深度相机的最新3D建模方法。我们首先在第2节中介绍了两种主要用于使用深度相机进行3D建模的基本数据结构。在第3节中，我们重点介绍了基于深度相机的几何重建的进展。然后，在第四节中，高质量纹理的重建进行了审查。最后，我们在第五节中总结并讨论了未来的工作。1.1深度相机由深度相机获得的每帧数据包含从真实场景中的每个点到深度相机所在的垂直平面的距离。该距离被称为深度值;此外，采样像素处的这些深度值构成深度帧的深度图像。通常，彩色图像和深度图像是配准的;因此，像素之间存在一对一的对应关系（图1）。目前，大多数深度相机都是基于结构光开发的，如微软的Kinect V1和Occipital的StructureSensor，或者是基于飞行时间（ToF）技术开发的，如微软的Kinect 2.0。结构光深度图1RGB图像和深度值（M：3D点。XM：M在图像平面上的投影）。摄像机首先将红外结构光投射到物体表面，然后接收物体表面反射的光图案。由于接收到的图案由物体的3D形状调制，因此可以通过图案在图像上的位置和调制程度来计算3D表面的空间信息。结构光相机适用于光照不足的场景;而且在一定范围内可以达到高精度，产生高分辨率的深度图像。结构光的缺点是容易受到室外强烈自然光的影响，导致投射的编码光被淹没而无法使用。同时，它容易受到平面镜反射的影响。ToF相机使用光脉冲（通常是不可见光）连续发射到待观察的物体上，然后接收从物体反射回来的光脉冲。通过检测光脉冲的飞行（往返）时间来计算从被测物体到相机的距离。总体而言，ToF深度相机的测量误差不会随着测量距离的增加而增加，抗干扰能力强，适用于相对较长的测量距离（如自动驾驶）。缺点是得到的深度图像分辨率不高，而且测量误差大于484Hantong XU et al：Survey of 3D modeling using depth camera其他深度相机在近距离测量时。1.2基于深度相机的三维建模流水线由于由深度相机获得的深度数据不可避免地具有噪声，因此首先对深度图进行预处理，即，减少了噪声和被去除的异常值。接下来，估计相机姿态以将捕获的深度图像配准到一致的坐标系中。经典的方法是确定深度图之间的对应点（即，例如，数据关联），然后通过配准深度图像来估计相机的运动。最后，基于估计的相机姿态将当前深度图像合并到全局模型中。通过重复这些步骤，可以获得场景的几何形状。然而，为了完全重建场景的外观，仅仅捕获几何形状显然是不够的。我们还应该为模型提供颜色和纹理。根据表示三维建模结果的数据结构，可以将三维建模大致分为基于体表示的建模和基于曲面的建模。3D重建的步骤将基于不同的数据结构而变化。本文通过回顾和比较各种建模方法所采用的不同策略，阐明了每种方法如何解决3D重建中的经典问题。23D曲面2.1体积表示体积表示的概念最早由Curless和Levoy于1996年提出[7]。他们引入了使用在体素处采样的带符号距离函数（SDF）表示3D表面的概念，其中SDF值定义为3D点到表面的距离。因此，根据该定义，对象或场景的表面是SDF为零的等距离表面。自由空间，即，对象外部的空间由正SDF值表示，因为当点沿曲面法线向自由空间移动时，距离会增加。相反，占用的空间（对象内部的空间）由负SDF值指示。这些SDF值存储在围绕对象的立方体中，并且立方体被栅格化为体素。重建算法必须定义立方体的体素大小和空间范围。其他数据，如颜色，通常存储为体素属性。由于只有接近实际表面的体素才是重要的，研究人员通常使用截断SDF（TSDF）来表示模型。图2示出了基于体积表示的重建的一般流水线。由于TSDF值隐式地表示对象的表面，因此在估计相机的姿势之前，必须使用光线投射来提取对象的表面。融合步骤是在每个体素中心处的简单加权平均操作，这对于消除深度相机的噪声非常有效。图2基于体积表示的重建管道[6]。485虚拟现实智能硬件2019年第5均匀体素网格在内存消耗方面效率非常低，并且受到预定义体积和分辨率的限制。在实时场景重建的背景下，大多数方法严重依赖于现代GPU的处理能力。体素网格的空间范围和分辨率通常受到GPU内存的限制。为了支持更大的空间范围，研究人员提出了各种方法来提高基于体积表示的算法的存储效率。为了防止由在预定义立方体之外获取的深度图像引起的数据丢失，Whelan等人[8]提出了一种动态移位体素网格的方法，使得体素网格跟随深度相机的运动。当体素网格移动时，该方法提取当前体素网格之外的部分并单独存储它们，将它们的相机姿态添加到全局姿态。虽然这可以实现更大的扫描体积，但它需要大量的外部存储器使用;而且，扫描的表面不能被任意重新访问。Henry等人[9]也提出了类似的想法。体素层次结构（如八叉树）是另一种有效存储3D曲面几何形状的方法。八叉树可以根据场景的复杂程度自适应地细分场景空间，有效地利用计算机的内存[10]。虽然它的定义很简单，但由于节点的稀疏性，它很难利用GPU的并行性。Sun等人[11]建立了一种只有叶子节点的八叉树来存储体素数据，并基于八叉树加速跟踪。Zhou等人。[12]使用GPU构建一个完整的八叉树结构，以交互速率对具有300，000个顶点的场景执行泊松重建。Zeng等人[13]为KinectFusion实现了9到10级八叉树，并将重建结果扩展到中型办公室。Chen等人[14]提出了一个类似的三级层次结构，具有同样好的分辨率。Steinbrücker等人[15]以多分辨率数据结构表示场景，以便在CPU上实时累积;此外，他们以大约1 Hz的频率输出实时网格模型。Nießner等人[16]提出了一种voxel hashing结构。在该方法中，对应于体素的空间位置的索引被存储在线性化的空间散列表中，并由空间散列函数寻址。由于只有包含空间信息的体素存储在内存中，这种策略显着降低了内存消耗，理论上允许一定大小和分辨率的体素块表示无限大的空间。与体素层次结构相比，哈希结构在数据插入和访问方面具有很大的优势，其时间复杂度为O（1）。然而，散列函数不可避免地将多个不同的空间体素块映射到散列表中的相同位置Kahler等人[17]提出使用不同的哈希方法来减少哈希冲突的数量。基于散列的3D重建具有内存需求小和计算效率高的优点，使其甚至适用于移动设备，例如Google Tango应用程序[18]。2.2面元Surfel是另一种重要的表面表示，最初用作模型渲染的原语[19]。如图3 所示，surfel 通常包含以下属性：空间坐标p∈R3，法向量n∈R3，颜色信息c∈R3，权重（或置信度）w，半径r，时间戳t。面元的权值用于相邻三维点的加权平均以及稳定点和不稳定点的判断。它通常由以下公式初始化：w=e-γ2/2σ2，其中eγ是从e当前深度测量到相机的中心;此外，σ是通常被认为是0.6[20]。曲面的半径由486图3 surfel示意图。2Hantong XU et al：Survey of 3D modeling using depth camera场景表面与相机光学中心的距离。距离越远，冲浪的半径就越大。与体积表示相比，基于曲面的3D重建对于来自深度相机的输入来说更紧凑和直观，从而消除了在不同表示之间来回切换的需要。与体积表示类似，八叉树可以用于改进基于曲面的数据结构[21，22]。优点和缺点：体积表示在深度去噪和表面渲染中更方便，因为根据每个帧计算的TSDF可以有效地融合在每个体素处，如下一节所讨论的。相反，曲面表示可以被视为点云表示的扩展。当配准中需要顶点对应时，可以使用面元直接计算这样的信息，而在这种情况下，体积表示必须转换为3D网格。3基于深度相机的3.1深度图预处理由深度相机获得的深度图像不可避免地包含噪声，甚至由于复杂的照明条件，几何变化，和空间变化的材料的对象的离群值。Mallick等人[23]将这些噪音分为以下三类。第一是缺乏深度。当对象离深度相机太近或太远时，相机会将深度值设置为零，因为它无法测量深度。应注意，即使在相机的测量范围内，也可由于表面不连续性、高光、阴影或其它原因而产生零深度。二是深度误差。当深度相机记录深度值时，其精度取决于其深度本身。三是深度不一致。即使场景的深度是恒定的，获得的深度值也会随着时间而变化。在大多数情况下，双边滤波[24]用于减少深度图像的噪声。在降噪之后，KinectFusion[5]应用程序意味着下采样以获得三层深度图金字塔，从而在后续步骤中从粗略到精细地估计相机的姿态。对于降噪后的深度图像，根据深度相机的内部参数，可以通过逆投影计算出每个像素点在相机坐标系中的3D坐标，形成顶点图。每个顶点的法线可以由该顶点与其相邻顶点形成的向量的叉积来获得。对于曲面表示，还需要计算每个点的半径，以表示给定点周围的局部表面积，同时最小化相邻点之间的可见孔，如图3所参考文献[25]使用以下公式计算顶点半径rr=*d/f，其中d表示顶点的深度值，f表示深度相机3.2相机跟踪通常，捕获的深度图像的六自由度相机姿态由刚性变换矩阵Tg表示。该变换矩阵将相机坐标系映射到世界坐标系。给定点pl在局部相机坐标系中的位置，可以通过以下等式将其转换为其在世界坐标系中的3D坐标，由pl表示：pg= Tg*pl。摄像机跟踪，i。例如，估计相机姿态是融合相机的深度图像的先决条件487虚拟现实智能硬件2019年第5当前帧到全局模型中，融合模型由体积表示或曲面表示，取决于每个3D重建系统的选择（图4）。迭代最近点算法（ICP）可能是摄像机相对位姿估计中最重要的算法。在早期，ICP算法被应用于3D形状配准[26，27]。通过确定两个相邻帧之间的匹配点并最小化这些对之间的欧几里得距离的平方和来计算刚性变换。迭代该步骤，直到满足某个收敛标准。这种帧到帧策略两帧的配准误差随着扫描的进行而累积。图4相机跟踪和优化轨迹[28]。为了缓解这个问题，基于深度相机的重建方法采用帧到模型相机跟踪方法[6，8，16]。虽然帧到模型跟踪显著减少了每帧的跟踪漂移，但它并没有完全解决误差累积的问题，因为跟踪误差仍然会随着时间的推移而累积。累积的漂移最终导致重建表面在轨道的环闭合处的不对准。因此，研究人员引入了全局位姿优化的思想。Henry等人[29]提出了关键帧的概念，每当累积的相机姿势大于阈值时，就会产生关键帧。仅当关键帧发生时才执行循环闭合检测;此外，随机样本一致性算法[30]用于对当前和先前的关键帧执行特征点匹配。在检测到环路闭合之后，有两种全局优化策略可供选择。一种是姿态图优化，其中姿态图用于表示帧之间的约束;进一步地，帧之间的边缘对应于几何约束。第二种是稀疏光束平差，其在所有帧上使用稀疏光束平差匹配来全局最小化特征点的重新投影误差[31- 33]。Zhou等人[34]提出了使用兴趣点来保留局部细节，并结合全局姿势优化来均匀分布场景中的配准误差。Zhou等人[35]还提出了使用帧到模型集成将视频序列分割成多个片段，然后从每个片段重建局部精确的场景片段，在重叠片段之间建立密集的对应关系，并优化全局能量函数以对齐片段。优化的图像可以微妙地扭曲图像片段以校正由输入图像中的低频失真引起的不一致。Whelan等人。[36]使用深度和颜色信息对每个输入帧进行全局姿态估计。用于配准的深度和彩色图像的预测是通过使用全局模型的表面溅射算法[19]获得的。他们将循环闭合问题分为全局循环闭合和部分循环闭合。全局环路闭合检测使用随机fern编码方法[37]。对于环路闭合优化，他们使用了基于嵌入变形图的空间变形方法[38]。变形贴图由一组节点和边组成，这些节点和边分布在要变形的模型中。每个面元受一组节点的影响;此外，影响权重与面元到节点的距离成反比。不管配准策略如何，识别两个帧之间的对应点是一个重要的步骤。488Hantong XU et al：Survey of 3D modeling using depth camera相机跟踪的关键步骤。将对应点对的集合带入待优化的目标函数中，从而计算摄像机位姿的最优解。确定对应点的过程根据所使用的点对可以分为稀疏和密集方法。稀疏方法只获得对应的特征点，而密集方法搜索所有点的对应关系。对于特征提取和匹配，尺度不变特征变换（SIFT）算法[39]是一种流行的选择。加速鲁棒特征（SURF）算法[40]改进了SIFT算法和检测特征点的速度。ORB特征描述符是SIFT和SURF的替代方案，它更快，相应地不太稳定。Endres等人。[41]在提取特征点时利用了这三个特征描述符，并比较了它们的效果。Whelan等人。[8]探索了基于特征点的视觉快速里程计，而不是KinectFusion中的ICP方法，并采用SURF特征描述符进行环路闭合检测。Zhou等人[42]提出了一种基于物体轮廓的摄像机跟踪方法，并引入轮廓特征对应点，以保证跟踪更加稳定。最近的BundleFusion方法[43]首先使用SIFT特征进行粗配准，然后使用密集方法进行精配准。对于稠密方法，识别对应点的传统方法是耗时的。投影数据关联算法[44]显著加快了这一过程。该策略根据摄像机姿态和摄像机内部参数，将输入点的三维坐标投影到目标深度图上的某个像素上，然后通过在该像素邻域内的搜索获得最佳对应点。测量对应点的误差有很多方法，如点到点度量[26]和点到面度量[27]。与点到点度量相比，点到平面度量导致相机跟踪中的更快收敛;因此，它被广泛使用。除了使用几何距离作为约束之外，许多方法还使用光学差异（即，例如，色差）作为约束，如[43- 45]。Lefloch等人[46]将曲率信息视为用于实时重建的独立表面属性。他们在确定密集对应点时考虑了输入深度图和全局模型的曲率。3.3深度图像体积表示：与计算所有体素的完整SDF相比，通常计算TSDF，因为其计算成本更实惠。在相机跟踪之后，首先将体素中心投影到输入深度图，以计算与当前输入深度图相对应的TSDF值。然后，通过加权平均将新的TSDF值融合到全局模型的TSDF中，这对于去除深度噪声是有效的。Surfel：在估计当前输入帧的相机姿态之后，每个顶点及其法线和半径被集成到全局模型中。使用surfels的深度图融合有三个步骤：数据关联，加权平均和去除无效点[20]。首先，通过将当前3D模型的顶点投影到当前相机的图像平面来确定对应点。由于某些模型点可能会投影到同一像素上，因此使用上采样方法来提高精度。如果识别出对应点，则使用加权平均将最可靠点与新点估计合并。如果未确定，则将新的点估计值作为不稳定点添加到全局模型。随着时间的推移，全局模型将根据可见性和时间约束进行清理以消除离群值。489虚拟现实智能硬件2019年第53.4动态场景的三维重建由于物体的变形，动态场景的重建比静态场景更具挑战性。我们不仅要处理物体的整体运动，还要处理它们的非刚性变形。动态重建的关键问题是开发一种快速、鲁棒的非刚性配准算法来处理场景中的非刚性运动。体积表示：Newcombe等人提出的DynamicFusion[47]是第一种使用从深度相机获得的输入实时重建非刚性变形场景的方法。它重建了一个隐式的体积表示，类似于KinectFusion方法，并基于稀疏变形图参数化的扭曲场同时优化场景的刚性和非刚性运动[38]。DynamicFusion的主要问题是它不能处理在捕获过程中发生的拓扑变化。Dou等人提出了Fusion4D方法[48]。该方法采用8个深度摄像机获取多视点输入，将体融合的概念与平滑变形场的估计相结合，提出了一种适用于复杂场景的多摄像机深度信息融合方法。此外，它提出了一种基于机器学习的对应点检测方法，可以鲁棒地处理帧到帧的快速运动。最近，Yu等人提出了一种新的实时重建系统，称为DoubleFusion[49]。该系统结合了基于参考文献[50]的体积表示和骨架模型SMPL的动态重建，其可以从单个深度相机同时重建详细的几何形状、非刚体运动和内部形状。该方法的主要贡献之一是两层表示，它由完全参数化的内部形状和逐渐融合的外表面层组成。身体表面上的预定义节点映射将身体附近的非刚体变形参数化;此外，自由形式的动态变化映射将远离身体的外表面层参数化以进行更一般的重建。在此基础上，提出了一种基于两层表示的关节运动跟踪方法，使关节运动跟踪具有鲁棒性和快速性。Guo等人[51]提出了一种基于阴影的方案，以利用外观信息进行运动估计，并将计算出的视差信息融合到体积中。由于引入了运动信息，动态物体的运动重构精度得到了显著提高。Surfel：Keller et al.[20]使用前景分割方法处理动态场景。该算法从全局模型中去除具有运动表面的物体，使得动态部分不影响摄像机跟踪。如图5所示，一个坐在椅子上的人最初被重建，然后他开始移动。系统通过忽略部分（A）的动态场景（参见图5）在ICP步骤中分割移动的人;因此，它确保了相机跟踪动态运动的鲁棒性。Rünz等人[52]提出使用运动或语义线索将场景分割成背景和不同的刚性前景对象，同时跟踪和重建它们随时间的3D几何形状，这是最早的用于密集跟踪和融合多个对象的实时方法之一。他们提出了两种分割策略：运动分割（对3D中运动一致的点进行分组）和对象实例分割（针对给定的语义标签在RGB图像中检测和分割单个对象）。一旦检测和分割，对象被添加到活动模型列表，然后跟踪，并通过合并属于对象的数据来更新其3D形状模型。Gao等人[53]提出利用变形场将当前时刻的深度输入与参考几何（模板）对准。参考几何体使用前一帧的变形场进行初始化，然后通过ICP算法进行优化，类似于DynamicFusion。一旦变形场被更新，则执行数据融合以将当前深度观测累积到全局几何模型中。490Hantong XU et al：Survey of 3D modeling using depth camera图5现场一个移动的人的图像[20]。根据更新的全局模型，逆计算全局变形场以用于下一帧的配准。3.5场景理解场景理解是指通过考虑场景内容的几何和语义上下文以及它们之间的内在联系来分析场景的过程，包括对象检测与识别、对象之间的关系、语义分割等。近年来的研究表明，对场景的理解，如平面检测和语义分割，可以为场景的三维建模提供重要的帮助。观察到室内场景中有许多平面，如墙壁，地板和桌面，Zhang等人。[55]提出了一种区域增长的方法，使用平面性和正交性约束来检测和标记新平面，以减少相机跟踪漂移和平坦区域弯曲。Dzitsiuk等人[56]基于鲁棒最小二乘法将平面拟合到体积的符号距离函数值，并合并检测到的局部平面以确定全局连续平面。通过使用检测到的平面来校正SDF值，可以显著降低平坦表面上的噪声。此外，他们使用先验平面直接获得室内环境的对象级和语义分割（如墙壁）Shi等人[57]提出了一种用于预测RGB-D图像配准的图像块的共面性的方法。他们使用了一种自我监督的方法来训练深度网络，以预测两个图像块是否共面，并在解决相机姿势问题时纳入共面约束。实验表明，当基于特征点的方法不能实现环路闭合时，这种利用共面性的方法仍然有效。Salas-Moreno等人提出的SLAM++[58]是最早的面向对象映射方法之一。他们使用点对点特征来检测物体并在物体级别重建3D地图。虽然此方案使得SLAM系统能够扩展到对象级循环闭合处理，但是491虚拟现实智能硬件2019年第5需要预先对对象进行详细的3D模型预处理以学习3D特征描述符。Tateno等人[59]在TSDF体积中增量分割重建区域，并使用定向、唯一和可重复的聚类视点特征直方图[60]特征描述符直接匹配数据库中的其他对象。Xu等人。[61]提出了一种递归3D注意力模型，用于机器人的主动3D对象识别。该模型可以执行实例级形状分类和连续的下一个最佳视图回归。他们将检索到的3D模型插入到场景中，并逐步构建3D场景模型。在文献[63]中，将三维室内场景扫描任务分解为多个机器人同时探索未知区域的并发子任务，通过最优运输优化计算子任务的目标区域。近年来，随着二维语义图像分割算法的发展，许多方法将其与三维建模方法相结合，以提高重建质量。McCormac等人。[64]采用Noh等人提出的卷积神经网络（CNN）模型[65]来执行2D语义分割。使用贝叶斯框架的2D-3D标签转移融合的2D语义分割标签到3D模型。然后，使用卷积随机场对模型进行后处理。Rünz等人[54]采用基于掩码区域的CNN模型[66]来检测对象实例，如图6所示。他们应用ElasticFusion[36]使用surfels来表示每个对象和静态背景，以进行实时跟踪和动态实例的密集重建。不同于上述两种方法的语义标记的场景在对象级别，胡等。[67]提出了一种基于对象的每个部分的标记来重建单个对象的方法。为了最大限度地减少用户的标记工作，他们使用了主动自学习方法来生成神经网络所需的数据。Schönberger等人。[68]通过联合编码高级3D几何信息和语义信息来获得3D描述符。实验已经表明，这样的描述符即使在极端视角、照明和几何变化下也能够实现可靠的定位。图6MaskFusion中的识别、跟踪和映射结果[54]。4纹理重建除了在许多应用中非常感兴趣的对象和场景的3D几何形状之外，表面颜色和一般外观信息可以显著增强增强增强现实/虚拟现实应用中的3D几何形状的真实感，这对于在虚拟环境中模拟真实世界是重要的。在下面的章节中，离线和在线纹理重建方法进行审查和讨论。492Hantong XU et al：Survey of 3D modeling using depth camera4.1离线纹理重建这些技术的目标是在捕获过程完成后，用多视图RGB图像重建3D模型的高质量、全局一致的纹理。它们依赖于优化算法来消除捕获图像直接混合中的重影和过度平滑效果。经常探索的优化目标包括颜色一致性[69，70]，图像和几何特征的对齐[71，72]以及投影图像之间的互信息最大化[73，74]。虽然这些方法可以有效地处理相机校准不准确，但它们无法处理RGB图像中不准确的几何形状和光学失真，这是消费级深度相机捕获的数据中的常见问题。Zhou和Koltun[75]通过优化RGB相机姿势和每个相关图像的非刚性扭曲来解决上述问题，以最大限度地提高照片的一致性。相比之下，Bi et al.[76]提出了一种基于块的优化方法，该方法合成了一组特征对齐的彩色图像，即使在存在较大几何误差的情况下也能产生高质量的纹理映射Huang等人[66]在Zhou等人提出的方法的基础上提出了一些改进。[75]用于3D室内场景重建（参见图7）。在计算出场景的原始抽象后，他们首先通过补偿不同的曝光和白平衡来校正颜色值;然后，通过基于稀疏特征和密集照片一致性的优化来对齐RGB图像。最后，提出了一种时间相干锐化算法，为重建的三维模型提供清晰的纹理。图7原始抽象和场景完成[62]。4.2在线纹理重建在线纹理重建用于与3D形状的对象的扫描并行地生成高质量的纹理。它的优点是用户可以在在线扫描过程中观察实时纹理模型;然而，它可能表现出较差的纹理质量，因为它不能利用看不见的图像。Whelan等人[77]拒绝将对象边缘的颜色值融合到模型中，因为这将导致伪影或不连续性。在随后的工作中[78]，他们估计了场景中光源的位置和方向，以进一步拒绝仅包含高光的样本的融合。虽然这显著提高了纹理的视觉质量，但仍可能出现伪影。由于高动态范围（HDR）图像比低动态范围图像提供更多的图像细节，因此它们也用于基于RGB-D相机的3D重建[79- 81]。首先，使用预校准的响应曲线来线性化观察到的强度值。然后，基于曝光时间的HDR像素颜色被计算并实时融合到3D模型的纹理中。Xu等人最近的贡献提出了一种动态图谱纹理方案，用于实时扭曲和更新融合几何上的动态纹理，这显著提高了3D人体建模的视觉质量[82]。493虚拟现实智能硬件2019年第55结论和今后的工作在过去的几年中，使用深度相机的3D建模发展迅速。它目前的发展包括整个重建管道，并汇集了从深度相机硬件到高级应用（如增强现实和电话会议）的各种创新水平。本文综述了基于深度相机的三维建模的研究工作，包括相机跟踪、三维物体和场景重建以及高质量纹理重建。尽管取得了成功，但基于深度相机的3D建模仍然面临许多挑战。首先，深度相机实际上是短距离3D传感器。但在大规模的场景重建中，应用这些方法仍需耗费大量的时间。因此，有必要研究如何将激光扫描仪等远程传感器的数据与深度数据相结合，以加快三维场景重建的速度。在这种情况下，需要开发一种多源大规模三维数据配准算法，包括对应性检测和随后的距离最小化。我们假设，区域分解技术，它支持在每次迭代中使用一个子集的优化变量的目标函数的替代最小化，可以应用于处理这样的大规模的注册问题。研究主动视觉方法来驱动具有深度相机的机器人在场景中进行完整扫描也很有趣[83]。第二，场景中的运动物体对深度相机跟踪不友好。为了提高基于摄像机跟踪的静态场景的准确性，需要探索如何在捕获深度内准确地将运动物体从静态场景中分离出来。一种可能的解决方案是将对象检测和运动流集成在一起，其中符合相机运动的对象的运动相对于相机应该是静态的。第三，要支持深度相机集成到手机中的应用，需要为手机硬件开发实时节能的深度数据处理和相机跟踪算法。可以探索收敛加速算法，例如Anderson加速，以加速摄像机跟踪[84]。引用1[10]杨文，李文.多视点立体重建算法的比较与评价。在：2006年IEEE计算机协会计算机视觉和模式识别会议-第1卷（CVPR'706），纽约，纽约，美国，519DOI：10.1109/cvpr.2006.192戴维森使用单个摄像头实时同步定位和地图绘制。第九届IEEE计算机视觉国际会议论文集。Nice，France，IEEE，2003DOI：10.1109/iccv.2003.12386543放大图片作者：Klein G，Murray D.小型AR机器人的并行跟踪和映射。2007年第六届IEEE和ACM混合和增强现实国际研讨会。Nara，Japan，IEEE，2007DOI：10.1109/ismar.2007.45388524放大图片Rusinkiewicz S，Hall-Holt O，Levoy M.实时3D模型采集。ACM图形学报，2002，21（3）：438-446DOI：10.1145/566654.5666005Izadi S，Kim D，Hilliges O，Molyneaux D，Newcombe R，Kohli P，Shotton J，Hodges S，Freeman D，DavisonA，Fitzgienia A. KinectFusion：使用移动深度相机进行实时3D重建和交互。In：Proceedings of 24th annual ACMsymposium on User interface software and technology，2011，559-568 DOI：10.1145/2047196.20472706Newcombe R A，Davison A J，Izadi S，Kohli P，Hilliges O，Shotton J，Molyneaux D，Hodges S，Kim D，Fitzgienia A. KinectFusion：实时密集表面映射和跟踪。2011年第10届IEEE国际混合动力汽车研讨会494Hantong XU et al：Survey of 3D modeling using depth camera和增强现实Basel，New York，USA，IEEE，2011，1277Curless B，Levoy M.从深度图像建立复杂模型的体积方法。在：第23届计算机图形学和交互技术年会-SIGGRAPH'96。美国纽约，ACM出版社，1996年，第303DOI：10.1145/237170.2372698Whelan T，Kaess M，Fallon M，Johannsson H，Leonard J，McDonald J. Kintinuous：Spatially extendedKinectFusion. RSS研讨会上RGB-D：先进的推理与深度相机，2012年9Roth H，Vona M.移动音量KinectFusion。在：英国机器视觉会议的筹备。英国机器视觉协会，2012，1DOI：10.5244/c.26.11210吴文辉，李文辉.自适应采样距离场。在：第27届计算机图形学和交互技术年会-SIGGRAPH '00。美国纽约，ACM出版社，2000年，第249-254页DOI：10.1145/344779.34489911孙晓，周凯，施继元，郭斌宁.动态折射物体的交互式重新照明。ACM Transactions 图形学，2008，27（3）：1DOI：10.1145/1360612.136063412周坤，龚敏敏，黄新，郭斌宁.用于曲面重建的数据并行八叉树。IEEE Transactions on Visualization and ComputerGraphics，2011，17（5）：669DOI：10.1109/tvcg.2010.7513曾明，赵福坤，郑建霞，刘晓刚.基于八叉树的实时3D重建融合。图形模型，2013，75（3）：126-136DOI：10.1016/j.gmod.2012.09.00214作者：Chen J W，Bautembach D，Izadi S.可扩展的实时体积表面重建。ACM图形学报，2013，32（4）：1DOI：10.1145/2461912.246194015放大图片Steinbrucker F，Sturm J，Cremers D.在CPU上实时绘制体积3D图。2014 IEEE International Conference onRobotics and Automation（ICRA）中国香港，IEEE，2014，2021-2028 DOI：10.1109/icra.2014.690716Nießner M，Zollhöfer M，Izadi S，Stamminger M.使用体素散列的实时3D重建。ACM图形学报，2013，32（6）：1DOI：10.1145/2508363.250837417杨文，李文.移动设备上深度图像的极高帧速率体积集成。IEEE Transactions on Visualization and ComputerGraphics，2015，21（11）：1241-1250 DOI：10.1109/tvcg.2015.245989118张文，张文，张文，张文，张文.在移动终端上进行大规模实时三维场景重建。自主机器人，2017，41（6）：1423DOI：10.1007/s10514-017-9624-219张文辉，李晓梅，李晓梅. Surfels：作为渲染图元的曲面元素。在：第27届计算机图形学和交互技术年会-SIGGRAPH '00。ACM Press，2000，335-342 DOI：10.1145/344779.34493620Keller M，Lefloch D，Lambers M，Izadi S，Weyrich T，Kolb A.基于点融合的动态场景实时三维重建。2013年国际3D视觉会议。Seattle，WA，USA，IEEE，2013，1-8 DOI：10.1109/3dv.2013.921Stuckler J，Behnke S.使用RGB-D相机集成深度和颜色线索以实现密集多分辨率场景映射。2012年IEEE多传感器融合与集成智能系统国际会议（MFI）。汉堡，德国，IEEE，2012DOI：10.1109/mfi.2012.6343050495虚拟现实智能硬件2019年第522Stückler J，Behnke S.多分辨率冲浪地图，用于高效密集的3D建模和跟踪。视觉传达与图像表现学报，2014，25（1）：137DOI：10.1016/j.jvcir.2013.02.00823杨伟杰，李伟杰. Kinect深度图像中的噪声特征：综述。IEEE Sensors Journal，2014，14（6）：1731DOI：10.1109/jsen.2014.230998724Tomasi C，Manduchi R.灰度和彩色图像的双边滤波。在：IEEE计算机视觉国际会议论文集，1998年，839DOI：10.1109/iccv.1998.71081525Salas-Moreno R F，Glocken B，Kelly P H J，Davison A J. Dense planar SLAM. 2014 IEEE International Symposiumon Mixed and Augmented Reality（ISMAR）混合与增强现实国际研讨会慕尼黑，德国，IEEE，2014DOI：10.1109/ismar.2014.694842226作者：J. J.一种三维形状配准方法。模式分析与机器智能学报，1992，14（2）：239DOI：10.1109/34.12179127陈毅，梅迪奥尼G.通过多幅深度图像的配准进行目标建模。1991年IEEE机器人与自动化国际会议论文集。Sacramento，CA，IEEE Comput. Soc. Press，272

下载后可阅读完整内容，剩余1页未读，立即下载