单个物体的稀疏RGB-D图像重建：基于体素的高效3D重建管道

129 浏览量更新于2024-01-24 收藏 1.8MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学7（2023）66稀疏RGB-D图像创建真实的东西：用于单个对象的灵活的基于体素的3D重建管道罗飞a，朱永琼b，付艳萍c，周华健a，陈泽正a，肖春霞a，a武汉大学计算机科学学院，湖北武汉430072b武汉商业大学艺术学院，湖北武汉430000c安徽大学计算机科学与技术学院，安徽合肥，230601ar t i cl e i nf o文章历史记录：接收日期：2022年收到修订版2022年12月7日接受2022年2022年12月19日在线提供保留字：稀疏RGB-D三维重建TSDF深度图a b st ra ct重建具有复杂背景的单个物体的3D模型具有广泛的应用，例如3D打印、AR/VR等。有必要考虑捕获数据与成本低，重建结果质量高。在这项工作中，我们提出了一个基于体素的建模管道与稀疏的RGB-D图像，有效地和高效地重建一个单一的真实对象，而无需几何后处理操作的背景去除。首先，参照VisualHull的思想，裁剪目标对象的无用和不一致的体素它有助于聚焦于目标对象并校正体素投影信息。其次，提出了一种改进的TSDF计算和体素填充操作，以减轻深度图像中的深度丢失问题。它们可以提高对象表面上体素的TSDF值完整性。在MarchingCube生成网格后，纹理映射将通过视图选择、颜色优化和相机参数微调进行优化在Kinect捕获数据集、TUM公共数据集和虚拟环境数据集上的实验验证了该流水线的有效性和灵活性版权所有©2022作者。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍随着AR/VR技术和3D打印技术的发展三维重建过程涉及硬件设备及其相应的建模方法。虽然传统的 MVS （ Multi-ViewStereo）流水线如Seitz et al.（2006），Zhang et al.（2009）可以生成3D模型，但它不是专门针对单个物体的3D重建而设计的，其鲁棒性和精度仍有待提高。随着消费级RGB-D相机的普及，用户可以根据深度信息生成3D模型。Cui等人（2010）提出了一种通过将深度图像与ToF（飞行时间）相机对准来进行3D对象重建的方法。来自（Izadi etal. ，2011）被设计用于在不同照明条件下的复杂室内场景然而，对于大多数消费者来说，稳定地捕获数百个RGB-D数据并最近，深度学习已经被应用于3D重建。Tatarchenko等人（2017）提出了一种基于八叉树的网络，以基于体素重建3D模型。然而，这种方法通常需要大量的GPU RAM*通讯作者。电子邮件地址：cxxiao@whu.edu.cn（C. Xiao）。https://doi.org/10.1016/j.visinf.2022.12.002计算时间。目前，它们还不能广泛应用于现实世界。考虑到技术的可行性和成本效益，我们提出了一种基于体素的方法来重建一个单一的对象与稀疏的RGB-D图像的视点的三维模型。它能给客户带来极大的方便。稀疏视点的三维重建是一个挑战。Matusik等人提出的VisualHull。（2000）是一种可以处理较少视点的众所周知的方法。然而，将视点减少到10个RGB-D图像水平已经超过了其重建能力。VisualHull严格按照轮廓裁剪体素，因此表面上的一些细节，如凹凸部分，物体的表面可能会过度平滑。KinectFusion是另一种广泛使用的基于RGB-D图像的方法。两个相邻视点之间的角度太大，其ICP（迭代最近点）方法无法进行配准。虽然单独使用VisualHull或KinectFusion无法获得令人满意的结果，我们发现这两种方法在某些方面可以互补各自的不足。我们采用他们的优点，并增加必要的定量质量控制，在我们提出的管道，以提高性能。简而言之，我们做出以下贡献：我们提出了一个基于体素的管道重建一个单一的对象与稀疏的RGB-D图像的3D模型。它可以2468- 502 X/©2022作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinf·F. Luo，Y.Zhu，Y.Fu等视觉信息学7（2023）6667可灵活应用于不同条件和当前多种流行的RGB-D摄像设备。拟议的管道系统地涵盖了重要的是，在3D重建。提出了一种体素裁剪操作来去除冗余体素。此外，提出了一种体素填充操作来填充表面上的空洞。除了使三维几何模型更加完整和精确外，本文还对纹理映射进行了专门的优化。在各种设备和数据集上的实验验证了我们所提出的方法的鲁棒性能。它提供了一个解决方案，以平衡捕获和重建。2. 相关作品2.1. RGB重建除了形状和纹理信息外，物体的彩色图像还可以帮助指示物体在场景中的位置。基于这样的观察，Matusik et al. （2000）提出了一种计算物体3D表面的视壳理论。通过将整个空间划分为小的体素，每个体素存储关于体素是否在对象内部的信息。在已知摄像机参数和物体轮廓的情况下，轮廓中的一个像素可以通过光线投影到世界空间。如果一个体素没有与任何其他射线重叠，则它不在对象内部，必须丢弃。在实际应用中，估计的摄像机参数总是包含噪声。如果使用这种不准确的相机参数来投影像素，则射线可能与真实情况有轻微偏移。因此，物体表面上的一些细节将被擦除。对于要配准的一系列RGB图像，存在两种类型的方法：（1）顺序或成对配准，以及（2）同时配准。为了将每个帧配准到其前一帧，来自（ Chen 和 Medioni ， 1992; Turk 和 Levoy ， 1994;Masuda et al. ，1996; Pekelny and Gotsman，2008）。它们独立地对齐每个帧，一个全局模型，并从所有先前的帧中累积。如果没有环闭合约束，可能会出现漂移问题. Benjemaa和Schmitt（1998年）和Krishnan et al. （2005）提出分别使用单位四分法和流形优化法来配准多个三维点。然而，在多个视图之间搜索点对应也是一个挑战。Goesele等人（2007）提出了一种计算每两幅图像之间特征点位置的方法。像双目视觉一样，如果一个点在两幅图像上的投影位置已知，就可以计算出该点的世界坐标。在配准和对齐这些特征点之后，估计它们在世界坐标中的位置。虽然这些方法可以生成一个对象的点云，但点的确切比例是未知的，并且不可避免地存在噪声点。因此，点云不能在没有特殊处理的情况下使用。2.2. 基于RGB-D的重建目前，使用RGB-D图像生成3D模型是实践中常见的方法，包括Yang等人提出的工作。（2017），Fu et al. （2020 b），Liao etal. （2021年）。像Kinect这样的深度相机易于使用和便携。与其他专业设备相比，消费级深度相机具有更低的成本优势。虽然精度不高，但仍能满足一般用户的要求。通过引入先验知识，Fu等人提高了重建速度和性能。（2020a年版）。Izadi等人提出的KinectFusion。（2011）使用一系列连续的深度图像来构建网格表面。通过GPU加速体素的处理，实现实时重建。深度相机具有局限性：首先，当扫描一个对象时，用户必须稳定地握住深度相机并且平滑地移动。第二，重建的对象大小受到GPU的存储器大小的限制。如果物体太大，该方法无法处理。第三，三维模型的精度与每个体素的大小有关。当体素尺寸较大时，生成的网格粗糙而简单。相反，太小的体素尺寸将需要更多的RAM来计算整个体积。（Whelan et al. ，2013）通过使用基于词袋的循环检测器（Galvez-Lopez和Tardos，2011）和SURF描述符（Bay etal. ，2006年）。所提出的环路闭合方法极大地依赖于SURF（加速鲁棒特征）特征的全局独特性。当有许多重复的纹理或没有足够的特征时，它可能会失败。Choi等人（2015）提出了一种通过组合彩色图像来改进融合的方法。颜色引导深度融合并生成彩色点云完整的实现是在Open3D中组织的（ Zhou et al. ， 2018 年）。 Dai 等人提出的BundleFusion。（2017）采用局部到全局的策略来优化相机姿态参数。而不是采取时间跟踪，ING，BundleFusion不断定位到全局优化的同时，BundleFusion提出了一个可并行化的优化框架，该框架采用基于稀疏特征的对应关系，以及密集的几何和光度匹配。Maier等人（2017）发现照明条件影响几何结构和纹理的可视化。他们提出了一种名为Intrinsic3D的工具，将照明条件纳入重建管道。通过估计大体积的照明条件，每个体素基于其相邻体素的加权和获得其照明。最后生成颜色一致的密集点云。2.3. 基于深度学习的重建深度学习在许多研究主题中发挥着更重要的作用。Qi等人（2017年）提出PointNet。通过学习所有点的形状，网络可以简化，分类，甚至将点云恢复为原始形状。然而，这样的方法只能处理低分辨率的简单对象。体素是一种简单而健壮的表示3D信息的方法，但它需要大量的 RAM 来存储每个位置的状态。Tatarchenko等人（2017）提出了一种基于八叉树的网络，用于重建具有体素表示的3D模型。随着网络层的深入，模型在体素表示中的结果将具有更多的细节。点和网格也用于表示3D模型。但是点没有顺序，可以以任何方式重新排序，这与网络设计相冲突，不能直接用作输入。基于MVS（MultipleViewStereo）的方法的核心在于特征的提取和配准。Yao等人（2018）设计了MVSNet来重建大型场景的3D模型。通过任意拍摄一系列RGB图像，网络可以学习图像之间的关系，并输出每张图像的相机姿态。整个过程花费大量的时间和RAM。最近，Yariv et al. （2020）解开几何和应用程序，以从高分辨率RGB图像重建纹理模型。当一个MLP隐式表示几何体时，另一个MLP用于从输入视图中获取外观颜色。Weder等人（2020）提出了一种名为RoutedFusion的新管道来改进深度融合。该方法通过将深度路由网络应用于原始深度图像，得到了更鲁棒的融合结果。Yu等人（2021 b）提出了一种具有多视图RGB- D图像的系统来重建动态人体。在用时间连续的方法合并来自每个视图的深度值之后，重建模型的渲染图像被放入隐式表面网络中以生成完整的模型。Huang等人··F. Luo，Y.Zhu，Y.Fu等视觉信息学7（2023）6668图1.一、所提出的方法的流水线。它有7个步骤，从数据准备到最终的纹理映射。（2021）提出了一种新的场景表示模型来进行RGB-D流的融合，该模型能够获得比传统的TSDF（截断有符号距离函数）表示更准确的重建结果。最近，Mildenhall等人提出的基于神经辐射场的方法。（2020）可以合成新颖的视图以进行立体渲染。Yuet al.（2021 a）试图加速渲染以达到实时水平。邓等人提出的工作。（2022）使得神经辐射场在极其稀疏的视点下渲染然而，大多数这样的作品只是隐含地表达几何信息。它与我们的显式几何重建和纹理映射有很大的不同。3. 方法如上所述，虽然基于深度学习的方法已经取得了很大的进展，但它们目前还不能广泛应用于3D打印，AR/VR等实际应用中，特别是当没有大量数据来训练模型时。我们的建议背后的想法来自以下分析。 VisualHull（Matusiket al. ，2000）和KinectFusion（Izadiet al. ，2011）对体素进行工作，以便它们可以合作。VisualHull可以将目标对象从场景背景中裁剪出来，这是VisualHull的优点和缺点然而，由于轮廓不准确，表面上的精致细节可能会丢失另一方面，来自KinectFusion的点云具有更多细节，例如衣服和织物的褶皱。如果能结合它们的优点，克服各自的缺点，最终的效果会更好.因此，我们将它们集成到基于体素的管道中来重建对象。重建管线的概述如图所示。1 .一、3.1. 数据准备扫描物体是三维重建的第一步。它决定了后续的建模步骤。一般来说，扫描方式可分为手持扫描和箱式扫描.前者具有便携性的优点，但通常需要一些技能来操作。因此，它更容易出错。后者具有固定的设置，可以同时为一个对象拍摄多张照片。它可以产生高质量的结果。然而，这往往是昂贵的。在这项工作中，我们提出了一个管道，不仅适用于稀疏的固定摄像头扫描的展位，但也相当于展位扫描稀疏的RGB-D手持设备拍摄的图像。当从不同的稀疏视点在展台扫描捕获图像时，目标对象被放置在半球形表面的中心。稳定的拍摄支架放置在均匀的一圈一圈的度。每个支架配备2个RGB-D摄像头。一个安装在上半部，另一个安装在下半部，如图所示。10个。所有摄像头都朝向所有看台的中心。内参数应事先标定。由于空间和设备的限制，设置这样的扫描亭不是一件容易的工作。因此，我们也考虑了所提出的方法的工作在另一种情况下的展位扫描的可能性。它是通过像Kinect这样的手持设备实现的扫描时，它平滑而持久地向物体移动。它的轨迹穿过假设的视点，这些视点的位置与上述扫描亭中的位置大致相同。利用Besl和McKay（1992）提出的ICP方法，可以计算框架的外参数3.2. 投影必须首先设置卷的适当大小。有必要考虑两个因素。一个是目标物体的实际尺寸，另一个是RGB-D相机照片尺寸。如果体积大小设置得太大，处理体积中的所有体素将花费大量时间。同时，拍摄大型物体的照片并不容易。之后，体积将被进一步划分为小的规则体素。体素大小也需要仔细确定。每个视点处的深度图像被投影到世界坐标中的体积。投影信息将被存储在体素数据结构中用于进一步计算。基本信息包括视点id、相同像素位置中的RGB信息内部和外部参数应该是已知的，为我们的管道。3.3. 体素裁剪投影到体素的视点的数量可以从0到总视点计数变化由于投影中的误差是不可避免的，因此需要通过判断其投影信息来过滤掉那些无用或不准确的体素。将考虑两种剪切情况：1. 剪切目标对象2. 剪切不一致的体素在VisualHull方法中，当从所有视点将体素投影到对象内部时，体素将被保留。我们参考Visu- alHull来识别目标对象外部的体素。如果体素在所有视点中都不在轮廓中，则它将位于RGB图像的背景部分该体素将被判断为不属于该对象，并应被丢弃。图2中的点2说明了这种情况。因为一个观点可能F. Luo，Y.Zhu，Y.Fu等视觉信息学7（2023）6669NNNNi=1在上一个。在我们的上下文中，我们有稀疏的观点。它们在角度和位置上都有很大的不同，所以标准的KinectFusion不适合我们的任务。提出了KinectFusion的修改版本来计算每个体素的TSDF值。对于体素x，其最终TSDF值使用以下公式计算：STSDF（x）=max（−1， min（1，SSDF（x）（4）SSDF （ x ） =1∑（ depthi （ pici （ x ）） -camzi （ x ））（ 5）不捕获整个对象，一个体素可以被投影到其RGB图像的外部（如图3中的点3所示）。2）的情况。如果这样从其他视点在对象内部识别体素，这种体素仍然可以被保留。对于上述裁剪后的其余体素，一个体素具有至少一个投影。多个预测之间可能存在不一致。由Waechter et al. （2014），检查所有投影之间的颜色一致性我们根据颜色空间距离将RGB颜色空间应首先转换为LAB空间。如果最大的组占据了所有投影视点的一半，则其他组中的投影信息将被丢弃。如果它不能得到最大的组，则与体素无关。该操作只是根据颜色线索过滤掉体素中不一致的信息。体素本身不会被过滤掉，这将在下一个操作中完成提出了一种评分函数来判断体素是否可以最后保留：其中pici（x）表示将体素x投影到视点i并得到其对应的像素位置。深度i（pixel）获取视点i处像素位置处的深度值。camzi（x）测量视点i中体素x和相机中心之间的距离。KinectFusion方法和我们的方法之间的一个区别是，我们不需要权重来平衡来自一系列连续帧的深度值的影响。由于我们之前已经知道了所有的视图，我们可以在一个步骤中处理它们3.5. 体素填充深度相机可能无法检测对象表面的某些部分的深度值，例如吸收红外光的黑色材料。我们提出了一种体素填充方法来处理表面上的体素，但没有从任何视点的深度值。有一个简单的方法来判断它。如果在体素裁剪步骤中保留一个体素的所有相邻体素，则这Sclip（x）≥τclip，reserve，S形夹（x）<τ剪辑，丢弃，N（一）体素在对象内部，我们跳过体素填充步骤。如果在体素裁剪步骤中丢弃体素的至少一个邻居，则体素可以在对象的表面上Sclip（x）=1∑maski（pici（x））×e−Dist（colori（pici（x）），µ（x））（2）体素填充将对可能位于对象表面没有深度值，TSDF值填充不知何故其中x是体积中的体素，其在世界坐标中的位置必须已知。N是上一次操作中最大组中的视图数pici（x）将体素x投影到视图-如在先前的体素剪切步骤中那样。基于最大的组，我们还提出了一个评分函数来检查是否需要为具有空白TSDF值的体素提供新的TSDF值：点i并得到其对应的像素位置。掩模i（像素）是用于在视点处获得轮廓上的像素状态的函数I. 如果像素在对象区域内，则值为1，而0.5否则，请执行以下操作。颜色i（像素）是一个函数，用于获取像素颜色，Sfill（x）≥τfill，fill，Sfill（x）<τ填充，跳过，N（六）、观点岛µ（x）是投影体素时的平均颜色x到最大组中的所有有效视点Sfill（x）=1∑Dist（colori（pici（x）），µ（x））（7）i=1距离函数定义为：2）C=（|c1（a）− c2（a）|+的|c1（b）− c2（b）|）/255（3）其中，c1和c2是LAB模式中的两种颜色，并且ci（a）和ci（b）表示LAB模式中的A分量和B分量在丢弃低于τclip的体素之后，保留的体素是在投影到大多数视点时的轮廓区域中。3.4. TSDF计算在获得具有体素及其有效投影的体积后，计算每个体素的截断有符号距离函数（TSDF）以识别对象表面。KinectFusion设计了一个处理深度图像的动态过程。该算法利用ICP对齐算法对相邻帧进行比较，得到每帧对应的摄像机外部参数.以第一帧的摄像机中心为原点位置，如果分数大于τfill，我们认为它在物体上曲面，我们将其空白TSDF值填充为零。虽然满足填充要求的体素可能只占一小部分，但仍有必要对它们进行填充，以减少重建表面上的孔洞。3.6. 网格生成由于我们已经改进了TSDF体积，因此应用Lorensen和Cline（1987MarchingCube比较立方体中八个顶点之间的值，并判断等值面是否与立方体相交。搜索过程是高效的。在得到一个连续的三角形网格后，采用Kazhdan等人提出的Poisson曲面重构方法。（2006）来细化网格。{图二、将体素投影到图像平面。{i=1F. Luo，Y.Zhu，Y.Fu等视觉信息学7（2023）6670=·× × ××等人，2015）和Intrinsic3D（Maier et al. ，2017年）相比之下·3.7. 纹理映射基于Fu et al. （2018）和Bi et al. （2017），我们提出了一个修改后的方法来从稀疏视图生成纹理图像。当将每个三角形网格投影到每个视图时，我们选择一个视图作为三角形的纹理源，如Fu等人所述。（2018），因为来自一个视图的纹理图像将优于来自多个视图的平均结果。为了为每个网格选择最佳视图，我们定义了一个函数来选择它：Fview（m）max（（法线（m）·Vi）2）（8）（距离i（m））2其中m是3D模型中的三角形网格。法线（m）表示三角形网格m的法线向量。Vi是视点i的方向向量。距离i（m）计算三角形网格m的几何中心与视点i的相机中心之间的距离。根据Eq。（8），我们找到Fview（m）的最大值的视图，并将其设置为网格m的最佳视图。当相机在稀疏视点拍摄照片时，曝光会有所不同，因此我们添加了颜色一致性调整，以使我们的方法更鲁棒。由Huang et al.（2017）中，我们采用三条样条曲线来根据我们选择的最佳视图调整不同视图中的颜色图3.第三章。使用Kinect V2手持扫描的RGB-D图像。4. 实验和结果为了验证我们的管道的有效性和灵活性以及其中使用的重要方法，我们使用了几组来自手持扫描和虚拟环境的12个RGB-D数据国际新闻社收集的证据除了VisualHull（Matusik et al. 页：1Ecolor （ B ） =∑（ B （ i ） ·colori （ p ） -colorj （ p ）） 2（9）FGiPJ其中B是所有视图的三条样条曲线的集合。B（i）获取网格i的最佳视图中的曲线B颜色将曲线应用于颜色并获得新颜色。F是3D模型的网格集，i表示其中的三角形网格Gi表示三角形网格i的相邻集合。Pj是三角形网格j的顶点集，p是三角形中的顶点颜色i（顶点）在将顶点投影到网格i的最佳视图的图像平面时获得颜色在获得每个视图的最佳颜色传递曲线后，将旧RGB图像调整为更颜色一致。由于几何误差和相机漂移，相邻网格中的选定纹理可能具有小的视觉接缝。当要消除这些非对准部分时，定义能量函数来优化外部参数，如Fu等人。（2018）迭代：和KinectFusion（Izadi et al. ，2011），我们也选择Open3D（Choi方法。在我们的实现中，我们将τclip设置为0.6，τfill设置为0.6.由于不同的对象可能在大小或位置上有所不同，我们根据实际情况调整体积大小及其在世界坐标系中的位置。通常，我们将卷大小设置为500 500 500和0。003米0. 003米0. 003 m。我们在配备英特尔 ® 酷睿™ i7-9700@3.00GHzx8 和 Nvidia GeForce GTX1050 Ti的计算机上实现了所有方法。我们的方法是在 Ubuntu 16.04 上进行的，支持 Eigen3 和OpenCV4.2库。输入的彩色图像由DeepLab V3+分割，以获得其目标掩码。然后，它们通过我们提议的管道进行处理。具体来说，我们使用拉普拉斯平滑和泊松曲面重建来平滑我们重建的网格。每个视图的精细深度图可以通过射线从平滑模型计算国际新闻社求交算法它可以取代RGB-DEalign（T）=∑（colori（Ti·p）-colorj（Tj·p））2（10）输入以提高纹理映射性能。既然我们F GiPj由于不能直接将纹理映射到不可见的面，我们使用广度优先搜索来将纹理坐标分布在相邻的面其中，T表示最佳情况下的外部参数集合，所有网格视图Ti p表示将一个点从世界坐标投影到相机坐标。与Fu的区别等人（2018）的一个优点是，我们不需要考虑几何约束，因为在选择最佳视图时已经这样做了。在最小化能量函数后，我们可以对每个网格应用一个小的变换矩阵，得到一个更光滑的纹理图像。3.8.视点数确定视点稀疏度由RGB-D相机的FOV（视场）决定。由于设备通常具有不同的垂直和水平FOV，我们建议覆盖不同的高度和角度。另一个因素是RGB和深度图像的分辨率，这也影响重建保真度。RGB-D图像的某些重叠对于匹配和拼接操作是必要的。以流行的RGB-D相机Kinect V1和V2为实验设备，我们建议重建的视点数为12。这样看不见的脸就可以被纹理化。结果由blender呈现。4.1. Kinect数据集实验中，我们使用了广泛使用的Kinect V1和V2作为捕获设备，对真实物体进行扫描。这些设备被预先校准，然后将彩色图像与深度图像对准。我们使用等效的手持扫描来刺激展位设置如下：首先围绕目标对象缓慢移动一个相机然后我们使用KinectFusion来估计每帧的相机姿态。最后，我们选择了12帧附近的12个假设的摄像机位置在展台扫描设置作为重建的输入在本节中，我们分别使用Kinect V2和Kinect V1进行了两次重建实验。由于两种方法都没有真实的目标，我们只与其他一些有代表性的方法作了定性的比较。图3是我们所选帧的样本，Kinect V2设备当Kinect V2捕捉彩色图像时，F. Luo，Y.Zhu，Y.Fu等视觉信息学7（2023）6671×××图四、K i n e c t V 2 扫描的坐着的人的比较。（a）用四种比较方法和我们的方法重建的三维模型，（b）我们的纹理映射结果。图五、使用Kinect V1扫描的玩具。（a）用四种比较方法和我们的方法重建的三维模型，（b）我们的纹理映射结果。图六、比较一盆绿色植物在TUM。（a）用四种比较方法和我们的方法重建的三维模型，（b）我们的纹理映射结果。1920 1080分辨率和512 424分辨率的深度图像，我们将它们转换为768 432的相同分辨率。在此分辨率下，深度图像与彩色图像对齐，失真较小。图4（a）采用从两个视图观察到的结果来说明我们的方法和其他比较方法的重建性能。所有方法均使用12幅RGB-D图像进行重建。人体并没有完全被F. Luo，Y.Zhu，Y.Fu等视觉信息学7（2023）6672图7.第一次会议。TU M 中的泰迪熊比较。（a）用四种比较方法和我们的方法重建的三维模型，（b）我们的纹理映射结果。见图8。虚拟环境数据集中的站立人的比较。(a)（b）我们的纹理映射结果。F. Luo，Y.Zhu，Y.Fu等视觉信息学7（2023）6673×××见图9。所有五种方法的地面实况和重建之间的距离分布直方图。 x轴是距离，y轴是数字.见图10。 12个虚拟摄像机位置和方向，用于捕获站立男子的RGB-D数据见图11。地面真实深度图像（左）和模拟深度图像（右）。我们的12个视图，所以VisualHull方法在手臂下和腿周围生成冗余深度缺失是扫描过程中经常出现的现象，如人体头部的深度缺失基于融合的方法包括KinectFusion，Open3D和Intrinsic3D无法处理这种情况，因此它们在这些区域周围具有杂乱的点在KinectFusion的结果中，它合并深度值而没有任何丢弃，并且12帧不足以让KinectFusion更新体素中的值，这导致其噪声表面重建。在被合并的体素中没有足够的深度值，因此Open3D会丢弃这些体素并重建结果中有洞图图4（a）中，重建模型中的白色部分是孔。出于同样的原因，在Intrinsic3D的结果中会出现孔。虽然我们的方法使用KinectFusion的估计相机姿势，但我们的方法在这些具有挑战性的领域中具有良好的剪切和填充处理效果。它可以过滤掉无效的部分，并填补漏洞。受益于相对平稳和通过我们的几何重建建立的完整网格，我们在3.7节中提出的纹理映射方法可以很好地与重建操作配合，输出如图所示的光照和颜色一致的纹理映射结果。 4（b）.为了在不同的扫描设备上评估我们的方法Kinect V1输出640480彩色图像和640 480深度图像。重建结果如图所示。五、虽然该玩具具有相对简单的几何结构，但该案例可以反映出五种方法玩具的头部和右手揭示了重建方法的差异。对于Visual-Hull来说，大量冗余的体素仍然存在，模型往往被切割成多个平面，所以看起来有点奇怪。KinectFusion中的原始TSDF方法在右手和面部的某些部分由于缺乏深度值而失败。融合方法Open3D和Intrinsic3D仍然保留颈部和头顶周围的孔。我们的方法重建了真实物体的大部分部分。经过细化和纹理映射，我们的结果显示了更好的外观。4.2. TUM数据集在本节中，我们在Sturm等人的公共RGB-D数据集TUM上评估我们的方法。（2012年）。TUM数据集提供了用于SLAM和重建任务的RGB-D图像集，具有精确测量的相机姿态。所有图像都是640 - 480，深度图像与彩色图像对齐，并进行了失真校正。我们在每个对象数据集中选择12幅RGB-D图像进行重建。植物的三维重建是一项艰巨的任务。复杂的叶片形状、不规则的变形和遮挡等因素都会同时，融合方法在跟踪小目标时，往往会遇到丢失冗余信息的问题。图 6、实验结果表明，与其他方法相比，该方法能够得到一个完整、干净的物体。请注意，在花盆的土壤中有两根顶部为白色的它们不是洞后面的VisualHull方法仅获取具有冗余部分的模型。KinectFusion方法得到一个杂乱的模型，在叶子区域周围有噪声请注意，桌面是由KinectFusion重建的，因为它没有剪切操作。Open3D和Intrinsic3D的基于融合的方法缺乏深度值和视图，并且产生具有许多孔的模型。泰迪熊就像上一节里的哆啦A梦。但是，泰迪熊有更完整的四肢和细节。因此，这个案例可以评估方法的性能，如何很好地重建球体，圆柱体和圆锥体组合的多种形状，以及衣服上的皱纹等微小细节。图7（a），很明显，在VisualHull方法的结果中，体素保持在泰迪熊的前面。由于没有脚的中心视图，VisualHull无法处理这些区域并产生驼峰结构。深度图像中的噪声影响了KinectFusion方法的重建效果，尤其是在脚部F. Luo，Y.Zhu，Y.Fu等视觉信息学7（2023）6674表1从地面实况到重建的距离统计。方法是说中值STDMaxVisualHull0.01030.00520.01190.0826KinectFusion0.00470.00410.00330.0443Open3D0.00450.00390.00310.0439Intrinsic3D0.00560.00470.00410.0538我们0.00450.00390.00280.0361表2在三个指标上将渲染结果与GT进行定量比较方法PSNR↑SSIM↑RMSE↓Intrinsic3D0.9674 32.7425 0.1706Open3D0.9641 29.5614 0.2882我们的泰迪的具体来说，KinectFusion的重建模型在其脚部周围获得了凌乱和嘈杂的由于缺乏对玩具身体表面的深度值，Open3D和Intrinsic3D的重建结果存在较大的空洞。我们的方法能够得到一个完整的模型。在图7（b）中的纹理映射之后，已经重建了衣服中的褶皱4.3. 虚拟环境数据集为了进行定量比较，我们进一步在虚拟数据上对我们的方法进行了评估，在虚拟数据上我们可以用地面实况来测量重建模型到地面实况的距离。使用来自free3D.com网站上的RenderPeople的一个虚拟站立的人作为目标对象。当生成RGB-D数据时，设置12个虚拟相机位置和方向，如图所示。10个。在设置12个摄像机之后，每个摄像机就像Choi et al. （2015）在Handa等人的ICL-NUIM数据集中的地面真实深度图像上应用噪声生成模型。（2014）为了使模拟深度图像接近真实深度相机的输出，我们也进行了相同的处理，并且所有重建都是用这些相同的模拟深度图像完成的。模拟的深度图像有一个更粗糙的边界，如图所示。十一岁重建结果如图8所示。由于没有对于该男子的更多视图，VisualHull结果仍然存在许多无效体素，并且具有明显的阶梯形状。受模拟深度图像中的噪声和深度图像不足的影响，KinectFusion结果具有粗糙的表面。由于深度失真，Intrinsic3D结果在边界区域中保留孔洞和裂缝。在我们的结果中，模型具有完整和光滑的形状。为了全面地表现视觉效果，我们创建了一个动画来比较我们的3D模型和纹理映射与地面实况。我们计算从地面实况模型到每个重建模型的点对点最小距离。在每个重建网格上均匀采样约10万个点。地面实况模型由大约5万个点组成地面实况模型中的每个点都将试图找到重建模型中最近的点。中的距离考虑3D空间。我们可以用这种方法来计算召回率。图9中的直方图显示了每种方法的所有点当更多点的距离接近于零时，重建的模型可以恢复地面真实。表1列出了所有方法的距离分位数。结合距离分布和分位数，很明显，我们的方法得到更小的距离统计比其他人。请注意，上述测量仅评估召回率，见图12。坐人的纹理贴图比较。从左到右分别是Intrinsic3D、Open3D和Ours。图十三. 虚拟人的纹理贴图比较.从左到右分别是Intrinsic3D、Open3D和Ours。不包括错误（假阳性情况）的数量。例如，尽管Open3D得到了与我们相似的统计数据，但这只表明Open3D可以掌握地面实况的主要形状。事实上，我们发现比较的方法的结果比我们的因此，与其他方法相比，我们的方法不仅重建尽可能多的部分的对象，而且最好地避免错误。我们在图1和图2中给出了真实人和虚拟人的纹理映射结果。12和13我们还定量地比较了纹理映射性能之间的Intrinsic3D，Open3D和我们的PSNR（峰值信噪比），SSIM（结构相似性）和均方根误差（均方根误差）的基础上的三个指标在12个视点处将由三种方法生成的纹理图像与原始输入RGB图像定量结果如表2所示，可视化结果如图2所示。13岁我们提出的方法仍然优于其他两种方法。关于耗时的性能，我们记录如何每种方法都能完成重建。所有方法的体素大小都设置为0.003。VisualHull 花费大约 400 秒，包括做 MarchingCube 。KinectFusion花费大约40秒，包括做MarchingCube。Open3D大约需要40秒。Intrinsic3D花费大约一天的时间来完成其默认迭代。我们的方法花费约450秒的几何重建和纹理映射上约180秒5. 结论在本文中，我们提出了一个基于体素的管道重建3D模型的单一对象与稀疏RGB-DF. Luo，Y.Zhu，Y.Fu等视觉信息学7（2023）6675图像 . 我们的方法包括几个关键步骤，包括体素裁剪，KinectFusion的修改版本，体素填充和优化的纹理映射。它们的优点直接提高了我们的实验结果在鲁棒性噪声，表面完整性，以及更多的光线和颜色的一致性方面。稀疏视图推荐对于展台扫描设置关键相机位置和等效手持扫描选择关键帧以减少不必要的计算是有意义的。我们的方法可以很容易地推广到其他视图数条件，或其他类型的RGB-D相机。在未来，这将是有趣的扩展我们的方法来重建一个动态运动的三维模型。CRediT作者贡献声明罗飞：概念化，方法论，写作-原创草稿。朱永琼：资料整理，撰写评论编辑. 傅延平：实验准备。周华健：软件，可视化. 陈泽正：调查。肖春霞：监制，写作竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢本课题得到了湖北省科技创新重点项目的部分支持（编号2018AAA062），国家自然科学基金（No.61972298），中国教育部人文社会科学项目（No.17YJC760124）和湖北省教育厅科研项目（No.B2021278）。伦理批准本研究不包含任何作者对人类或动物受试者进行的任何研究。研究中使用的所有数据都来自过去发布的公共数据库。引用贝，H.，Tuytelaars，T.，古尔，L.V.，2006. Surf：加速健壮的功能。参加：欧洲计算机视觉会议。施普林格，pp.404-417本杰马河施密特，F.，1998.使用单位四元数的多个3D点集配准的解决方案。参加：欧洲计算机视觉会议。施普林格，pp. 34比50Besl，P.J.，麦凯，北达科他州，1992.三维形状配准方法。传感器融合IV：控制范式和数据结构。第1611卷。Spie，pp. 586 -606Bi，S.，Kalantari，N.K.，Ramamoorthi河，2017.基于图像的

下载后可阅读完整内容，剩余1页未读，立即下载