基于学习的非刚性3D自拍重建方法

154 浏览量更新于2023-10-20 收藏 2.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1344在几秒钟李哲1，余涛1，潘传宇1，郑泽荣1，刘业斌1，21清华大学自动化系2清华大学脑与认知科学研究所摘要在本文中，我们提出了一种有效的方法，鲁棒的3D自拍使用一个单一的RGBD相机。从提出的PIFusion和轻量级光束法平差算法中，我们的方法可以在几秒钟内生成详细的3D自拍照，并显示出处理穿着非常宽松的衣服的主体的能力。为了实现高效和鲁棒的重建，我们提出了PIFu- sion，它将基于学习的3D恢复与体积非刚性融合相结合，以生成对象的精确稀疏部分扫描。此外，提出了一种非刚性体积变形方法，以不断完善学习的形状先验。最后，提出了一种轻量级的束调整算法，以保证所有的局部扫描不仅可以相互“循环”，而且与所选的实时关键观测值保持一致。实验结果表明，与现有方法相比，该1. 介绍人体三维建模是计算机视觉和图形学领域的一个研究热点，其目的是重建人体表面的密集三维几何和纹理，在人体测量、数字内容创作、虚拟试衣等领域具有重要意义。传统的人体三维建模方法通常依赖于专家进行数据采集，因此难以使用。与传统的3D扫描方法相比，3D自拍方法允许用户在没有任何帮助的情况下拍摄自己的肖像，具有广泛使用的巨大潜力。目前的3D自拍方法可以分为3类：基于学习的方法、基于融合的方法和基于调整的方法。基于学习的方法主要集中在从单个RGB图像恢复3D人体（[13，25]）。因此，由于遮挡和深度模糊，结果仍然远远不准确。基于融合的方法以增量方式重建场景几何形状，因此误差累积是不可避免的，特别是对于非刚性场景[20]，这对于环闭合重建（例如，3D自拍）。为了抑制增量融合中的累积误差，图1：我们的系统在RGBD传感器前自旋转后重建了一个详细的和有纹理的肖像。3D自画像方法的其它分支也利用束调整算法[17，29，7，8，30，31]。首先将整个序列分割成若干块，然后对每个块应用融合方法以融合平滑的部分扫描。最后，非刚性光束法平差用于通过基于显式环闭合对应和捆绑对应的非刚性调整来尽管RGBD束调整方法已经实现了3D自拍的最先进性能，但是它们仍然受到复杂的硬件设置（例如，依赖于多个传感器或电动转盘[29，1，2]或低效率[17，5，8，7，30，31]）。我们的观察之一是，非刚性融合和光束法平差的良好组合应保证效率和精度。然而，非刚性融合方法（例如，[20]等等）。通常在跟踪期间遭受严重的漂移和误差累积，这限制了它们生成精确的大部分扫描的能力。这种限制导致了这样的事实，即先前的光束法平差方法必须在相当大数量的小部分扫描上进行，这显著增加了捆绑步骤中的优化变量。例如，在[8]中，需要将40-50个小的部分扫描捆绑在一起，这大约需要5个小时。为了通过非刚性融合产生大而准确的部分扫描，需要完整的形状先验为此，我们提出了PIFusion，它利用基于学习的3D身体恢复（PIFu [25]）作为非刚性融合[20]的内层。具体来说，在每帧中，通过基于学习的方法生成的内层充当强形状之前，以提高跟踪精度和鲁棒性，并且融合1345反过来，网格通过提出的非刚性体积变形提高了内层的精度（第二节）。5.3）。我们还通过结合像素对齐的深度特征来改进原始PIFU [25]，以实现更准确和更强大的内层生成（图11）。（3）第三章。另一个重要的观察结果是，为了生成准确的肖像，PIFusion产生的所有部分扫描不仅应该构建一个循环模型（[8，17]），而且还应该始终与真实世界的观察保持一致，特别是深度点云和轮廓。我们没有使用[8，30]中的密集束方法，而是提供了一种轻量级的束平差方法，该方法涉及实时项，关键帧选择和联合优化。具体地，在每次迭代期间，所有部分扫描不仅被优化以在参考帧中彼此“循环”，而且还被扭曲以适合实时帧中的关键帧是根据所提出的实时深度/轮廓能量自适应地选择的。该方法在不损失效率的情况下进一步提高了束精度。总之，通过仔细设计重建管道，我们的方法集成了学习，融合和光束法平差方法的所有优点，同时避免了缺点，最终使用单个RGBD传感器实现了高效这些捐款可归纳如下：• 一个新的3D自拍管道，利用融合，学习和光束调整方法，并使用单个RGBD传感器。• 一种新的非刚性融合方法，PIFusion，它结合了基于学习的形状先验和非刚性体积变形方法，以生成大而准确的部分扫描• 一种轻量级的光束法平差方法，该方法涉及关键帧选择和新的活能量项，优化参考帧中的循环变形，以及活关键帧的翘曲场，最终在不损失效率的情况下提高捆绑精度2. 相关工作2.1. 基于学习的3D人体恢复近年来，基于学习的三维人体重建越来越受到人们的关注。通过“看到”大量地面真实3D人体模型，当前的深度神经网络可以从各种容易获得的输入推断出合理的3D身体，例如，单个RGB图像[13，23，15，24，9，6，38，19，25，36]。考试-Ple ， Kanazawaet al. [13] ， Omranet al. [23] 和 Kolo-touroset al. [15]提出直接从单个RGB图像回归统计体模板的参数。Zhu等人。 [38]和Alldieck等人。 [6]通过根据着色和轮廓变形身体模板向前迈进了一步，以捕捉更多的表面细节。为了应对变化的布料拓扑结构的挑战，最近的研究探索了许多用于深度神经网络的3D表面表示，包括体素网格[36]，多视图[19]尽管这些方法能够实现令人惊讶的方便的3D人体捕捉，但由于遮挡和固有的深度模糊性，它们无法生成详细和准确的结果。2.2. 基于融合方法的在基于融合的方法中，给定有噪声的RGBD序列，场景几何形状首先被注册到每个帧，然后基于观察进行更新。因此，深度图中的噪声可以被显著地滤除，并且场景可以以增量方式完成。在这个方向上的领先者是KinectFusion[21]，它是为使用RGBD传感器的刚性场景扫描而设计的。因此，当扫描像人类这样的活体目标时，需要主体保持绝对静止以获得准确的肖像，这与人类最终是移动的事实不一致。为了解决这个问题，Zeng等人 [34]提出了一种准刚性融合的方法，但它仍然依赖于旋转传感器进行数据捕获，这是难以使用的。 DynamicFusion[20] 扩展了 Kinect-Fusion，并为实时动态场景重建贡献了第一个非刚性体积后续工作[12，26，27，10，16，32，35]通过结合不同类型的运动先验或外观信息来不断提高DynamicFusion的性能。例如，基于双层表面表示，DoubleFusion[33]使用非刚性融合实现了动态人体重建（使用隐式循环闭合）的最新性能。然而，受参数化内层表示的约束，DoubleFusion在重建非常宽的衣服（如长裙和外套）时性能有限。此外，用于系统初始化的A姿势要求使得用于更一般姿势的人像扫描过程复杂化。2.3. 使用束平差的3D自拍为了抑制增量融合中的累积误差基于KinectFusion[21]，Tong等人 [29]使用3个Kinect和一个转盘进行数据捕获和非刚性束调整，以进行人像重建。Cui等人 [7]通过非刚性束实现了自旋转肖像重建。然而，由于大的部分扫描数量，效率低。Wang等人 [30]在没有体积融合的情况下对所有点集进行光束法平差，这会导致过度平滑的结果。[17]中的方法与我们的工作非常相关，因为它也融合了大部分扫描用于肖像重建。但是，它需要主体在部分扫描过程中保持静止，因此不能处理自旋转重建。除上述RGBD方法外，利用旋转人体的RGB（无深度）视频重建令人愉快的人像也是一个实用的方向。Alldieck等人[5，4，3]使用基于轮廓的联合优化，Zhu等人 [37]使用多视图立体技术。然而，在这个方向上的当前方法仍然依赖于偏移参数模型来表示布料，这固有地限制了1346图2：系统管道。在第一帧中，我们利用RGBD-PIFu生成大致正确的内部模型作为先验。然后我们执行PIFusion以生成大而准确的部分扫描，同时表演者在RGBD传感器前转身。最后，我们进行轻量级的光束平差，合并所有的部分扫描，并生成一个准确和详细的3D肖像。他们的表现更一般的穿着人类重建。此外，来自RGB视频的稀疏特征点不足以进行详细的密集表面重建。3. 概述如图2，给定具有对象的自然自旋转运动的RGBD序列，我们的系统顺序地执行3个步骤：1. RGBD-PIFu：在这一步中，我们使用神经网络从第一个RGBD帧中推断出主体的大致准确模型。2. PIFusion：对于每一帧，我们首先执行基于双层的非刚性跟踪，并将推断模型作为内层，然后将观察结果融合到参考框架使用传统的非刚性融合方法。最后，非刚性体变形被用来进一步优化的内部模型，以提高跟踪和融合精度。然后通过将整个序列分成几个块并分别融合每个块来生成部分扫描。3. 轻量光束法平差：在每个在迭代中，我们首先使用关键帧选择来选择有效的关键帧以构建实时深度和轮廓项。然后，进行联合优化，不仅装配，使参考帧中的所有部分扫描有效，而且还优化扭曲场以交替地活关键帧图3：RGBD-PIFu和PIFu的比较[25]。(a)参考彩色图像;（b）RGBD-PIFu结果;（c）PIFU结果。在我们的RGBD-PIFu方法中，该函数被表示为复合函数f，其由全卷积RGBD图像编码器g和由多层感知器表示的隐式函数hf（X;I）=h（G（x;I），Xz），X∈R3，（1）其中I是输入RGBD图像，x=π（X）是3D点X的2D投影，G（x;I）是编码特征图g（I）上的x的特征向量，并且Xz是X的深度值。与[25]不同，我们的图像编码器还对深度信息进行编码，迫使内部模型与深度输入一致，从而解决了深度模糊问题并提高了重建精度。训练损失定义为均方误差：1ΣnL= ni=1|二、（二）|2,(2)4. RGBD-PIFu在这项工作中，我们扩展了像素对齐隐式函数（PIFu）[25]，并提出了RGBD-PIFu用于RGBD图像的3D自拍干扰。PIFu是3D曲面的空间对齐表示它是隐式定义表面的水平集函数f，例如， f（X）= 0，X ∈R3.其中，Xi是采样点，f（Xi）是地面真值，n是采样点的数量在模型推断阶段，为了避免像[25]中那样对隐式函数进行密集采样，我们利用深度输入来忽略空白区域，只对不可见区域中的隐式函数进行均匀采样等值面134722由Marching Cube算法提取[18]。通过结合深度特征，我们的网络比原始的RGB-PIFu更健壮和准确，从而产生了更好的效果。平滑项在节点图的所有边上定义平滑项，以保证局部刚性变形。该术语定义为ter网格作为内部模型，用于鲁棒融合性能，如图所示。3.第三章。E平滑=Σ Σij∈N（i）Tixj−Tjxj<$2，（6）5. PIFusion5.1. 初始化在第一帧中，我们通过直接深度图投影初始化TSDF（截断有符号距离函数）体积，然后将内部模型拟合到初始化的TSDF体积。然后使用测地线距离在内部模型上均匀采样变形节点图（[28]），测地线距离用于参数化融合表面和内部模型的非刚性变形。5.2. 双层非刚性跟踪给定内部模型和融合网格（即，双层表面），我们需要使它们变形以跟踪第t与DynamicFusion [20]不同，内层用于辅助非刚性跟踪。因此，有两种类型的核心-回应：一个是融合网格（外层）和深度观测之间的关系，另一个是内部模型（内层）和深度观测之间的关系。能量函数然后被公式化为：E跟踪=λ外E外+λ内E内+λ平滑E平滑，（3）其中E外和E内是两种对应的能量，E平滑是一光滑项来正则化局部尽可能刚性的变形，并且λouter、λinner、λsmooth是项权重。外项和内项这两个项测量双层和深度图之间的未对准，并且它们具有类似的公式：其中Ti和Tj是与第i个和第j个节点相关联的变换，xi和xj分别是第i个和第j个节点在参考系中的位置.我们求解Eq。3通过迭代最近点（ICP）算法并使用高斯-牛顿算法求解能量优化问题跟踪后，我们使用典型的融合方法[20]来融合当前的深度观测并更新TSDF体积。5.3. 非刚性体积变形由RGBD-PIFu推断的初始内部模型对于双层表面跟踪来说是不够准确的为了处理这个问题，受[33]的启发，我们进行了一种非刚性体积变形算法，通过将其拟合到融合网格来继续TSDF的0级集）。此外，方程中的内项λinner的权重也是有限的。3，也被设计为沿着ICP迭代减小，以实现更准确的外表面拟合性能。我们利用初始化的节点图来参数化内部模型的非刚性变形。给定融合网格的最新TSDF体积，非刚性体积变形的能量函数定义为：Evol=E tsdf+λ smoothE smooth，（7）其中Etsdf测量内部模型与阈值0处的等值面之间的未对准误差，并且Esmooth与等式（1）相同。6. TSDF术语定义为Σ。。2Σ2E外部/内部=（v，u）∈C外/内. nv（v−u）. 、（四）Etsdf=v∈T|TSDF(vˆ)| 、（8）其中C外和C内是两种类型的对应集，并且（v，u）是对应对;v是外层（融合网格）或内层（内部模型）上的顶点，u是深度图上距离v最近的点。请注意，v是参考帧中的坐标，其中v和v是使用双四元数混合通过其KNN节点扭曲的活动帧中v的位置和法线其中，T是在参考系中没有非刚性变形的初始内部模型，v是T的顶点x，v是由v的KNN节点包围的位置，TSDF（·）是在参考系中取点的ence帧并返回内插的TSDF值。通过最小化变形内部模型的所有顶点的TSDF值的平方和，内部模型将T（v）=SE3 Σk∈N（v）w（k，v）dqk，（5）与参考框架中的融合网格完美对齐。对于下一帧，校正后的内部模型被扭曲到实时帧，以在跟踪步骤中搜索对应关系该步骤提供了更准确的对应关系，并显著提高了配准精度。其中dqk是第k个节点的对偶四元数，SE3（·）将对偶四元数映射到SE（3）空间，N（v）是v的KNN个节点，w（k，v）=exp（− k v−xk2/（2r2））是混合权重，xk是第k个节点的位置，r是活动半径。直接扭曲初始内部模型。5.4. 部分扫描融合为了保证下面的光束法平差只在少量的部分扫描上进行，1348BL2图4：带联合优化的光束法平差图示。束变形被优化以在参考帧中的整个序列的几个大块内的部分扫描。具体地说，给定一个表演者在传感器前转身的序列，我们计算出表演者的方位，然后将整个序列分成5个块，它们覆盖了表演者的正面、背面和两个侧面。由于累积的误差，构成循环的第一个和最后一个部分扫描可能不会很好地对齐。所提出的轻量级光束法平差将解决这个问题，并最终生成准确的3D人像。6. 轻量束调整关于非刚性光束法平差，我们认为，一个良好的循环模型后，典型的光束法平差是一个准确的模型。我们的见解是，在BA之后，所有的部分扫描不仅应该在参考系中构建循环模型，而且还应该很好地拟合之后的所有实况观测。在PIFusion。因此，每个部分扫描具有其自己的束变形，并且所有部分扫描共同共享实时扭曲场。我们通过交替优化束变形和实时扭曲场来解决联合优化问题。在每次迭代中，束变形和实时扭曲场都将更新，以最小化总能量。6.2. 关键帧选择为了保持我们的算法的效率，我们提出了一个关键帧选择策略，以构建高效和有效的活深度拟合条款。具体地说，我们将整个序列均匀地分成K段，在每次迭代联合优化之前，对每一帧计算两种度量：几何错位误差和轮廓误差。第一个度量是变形的部分扫描与对应的输入深度点云之间的通过首先使用所有扭曲的部分扫描在相机视图中渲染掩模图，然后计算渲染掩模和输入轮廓之间的差异来计算轮廓误差。然后我们选择几何错位每个片段中的分割误差和轮廓误差分别作为深度关键帧Kdep和轮廓关键帧Ksil6.3. 制剂与其他光束法平差算法（[8，30]）不同的是，我们不仅“循环”这些部分扫描，而且还将实时帧观测引入优化过程以提高精度。总能量函数定义为：E（Wj，Wi）=λloopE loop+λ depthE depth使用实时扭曲场进行非刚性扭曲为此，我们（九）提出一种有效的算法，以联合优化bundle变形（用于循环闭合重建）和实时扭曲场（用于实时深度拟合），如图所示4.第一章新的能量项，包括现场深度和轮廓能量，被纳入以加强变形的部分扫描和现场深度输入之间的一致性。然而，在光束法平差中优化与所有活动帧相对应的活动扭曲场在实践中，我们发现仅对几个关键帧执行实时深度拟合就足以生成准确的结果。因此，我们提出了一个关键帧选择策略，选择有效的关键帧，通过排序的活深度和剪影能量。6.1.联合优化在PIFusion之后，我们可以采集N个部分扫描。如图2所示。4，我们首先为每个部分扫描构造一个节点图，用于描述束变形，然后使用循环闭合对应来优化，+λsilhouetteEsilhouette+λsmoothEsmooth，其中Wj是对应于第j个部分扫描的束变形，Wi是从参考帧到第i个关键帧的实时扭曲场，E循环、E深度、E轮廓和E平滑分别是循环闭合、实时深度、实时轮廓和平滑正则化项的能量在每次迭代中，我们交替优化束变形和实时扭曲场，以最小化等式（1）。9.注意，在PIFusion之后，尽管部分扫描已经与实时深度输入很好地对准，但是实时扭曲场仍然不够准确以保证所有融合的部分扫描直接在参考系中构造循环。因此，参考帧中的束变形将与活动帧中的活动深度拟合冲突，而不同时优化活动扭曲场。循环项循环项测量这些部分扫描之间的未对齐量，定义为：形成部分扫描，以E=.. Wi（n）.Σ。Wi（v）−Wj（v）。、参考框架。此外，所有部分扫描一起变形以通过优化相应的回路.BPi，j=1（vp，vq）∈Ci，jbpbq。I jing实时扭曲场，这类似于非刚性跟踪（十）Σ13492L我DT其中N是部分扫描的数目，Ci，j是通过搜索最近点获得的第i次和第j次部分扫描之间的对应集，（vp，vq）是对应对，vp和vq分别是第i次和第j次部分扫描上的顶点，np是vp在第i次部分扫描上的法线部分扫描，Wi（vp）和Wi（np）表示位置。以检索颜色值。在处理完所有帧后，我们根据法线方向混合检索到的颜色值，并获得最终的顶点颜色。具体来说，对于顶点vi，我们将其颜色Cvi计算为从所有Liv e帧。混合权重ωi，j定义为：B b由于管束变形而产生的纵向和纵向翘曲。该术语强制所有部分扫描在.0，vi在第j帧中不可见参考系实时深度项该项测量ωi，j=|nvi·zˆ||nvi|，vi在第j帧中可见、（十三）具有K深度中的所有深度图的所有部分扫描：其中nvi是vi的法线z是方向，ΣKΣNΣE深度=摄像头在看。为了避免过度平滑，对于每个顶点，仅混合加权颜色值的前15%i=1j =1（v，u）∈Dj，i（十一）7. 结果.. Wi（Wj（n））.Σ。Wi（Wj（v））−u. 、.LbL湾在本节中，我们首先报告系统性能和我们的实现。然后，我们比较我们的方法其中K = |K深度|是关键帧的数量，第j个部分扫描与第i个关键帧中的深度图之间的对应关系集，（v，u）是对应关系对，v是第j个部分扫描上的顶点，u是深度图上的点，并且Wi（·）将参考帧中的点或法线在第i个关键帧中正常。该术语被设计为强制部分扫描与K深度中的深度点云对齐。实时剪影术语此术语测量错位-所有扭曲部分的渲染遮罩之间的部分扫描和输入遮罩的身体形状在现场帧。与LiveCap[11]类似，我们使用距离变换对输入掩码进行预处理。对于第i个关键帧，我们渲染由实时扭曲场变形的所有部分扫描的掩模图像，然后过滤边界顶点集Bi。我们将活动轮廓术语定义为最先进的作品。最后，我们评估我们的系统的核心部分。在图5中，我们展示了我们的系统获取的几个3D肖像。7.1. 业绩和执行情况我们的3D自拍系统非常高效。整个流水线在一个NVIDIA Geforce RTX 2080Ti GPU 上实现。通过RGBD-PIFu生成内部模型的初始化和初始化PIFusion几乎需要10秒。PIFusion实时运行（每帧30 ms）。对于每帧，跟踪、体积变形和融合分别花费20 ms、3 ms和6 ms。与[25]类似，我们采用堆叠的沙漏网络[22]作为图像编码器，隐函数由每层具有257、1024、512、256、128和1个神经元的MLP表示。我们渲染Twindom数据集ΣKΣNE=Σ。 d.我.ij.（https://web.twindom.com/）来获取深度和彩色图像，并利用3500个图像来训练该网络。剪影Ji= 1vj∈Bi. IDT（π（Wl（Wb（vj）.、训练时，批量大小为4，学习率为（十二）其中K=| K银|是关键帧的数量，vj是第j次部分扫描上的边界顶点（注意，边界意味着顶点投影在边界附近渲染掩码图像的方向而不是该部分扫描的边界），dj∈{−1，+1}是指示距离场中正确方向的指示值[11]，i是输入掩码的距离变换图像，π（·）是投影函数。这一项将使部分扫描的形状与输入轮廓相匹配。平滑项的定义类似于Eq。6.我们求解Eq。9使用高斯-牛顿法。在每次迭代中，我们构造一个大型稀疏线性方程组，然后利用GPU上的高效预处理共轭梯度（PCG）求解器来获得更新。6.4. 非刚性多纹理在轻量级束调整之后，我们使用泊松回归将所有部分扫描融合到水密网格中[14]。对于每个活动帧，我们投影每个可见顶点1×10−3，epoch的数量为28。训练过程在一个RTX2080Ti GPU上需要一天。在PIFusion的跟踪中，ICP迭代的次数为每帧5次，并且我们设置λouter=1。0，λinner=1。0，且λsmooth=5。0，而λinner将随着迭代继续而线性减小。对于每个顶点，我们使用它的4个最近邻进行非刚性变形，并且相邻邻的数目每个节点的bors为8。在光束法平差中，部分扫描和关键帧的数量都是5，我们设置λloop= 1。0，λ深度=0。5，λsilhouette=0。001且λsmooth=2。0，迭代次数为25。这个过程只需要15秒，纹理只需要1秒。7.2. 比较与融合方法的比较我们使用Kinect V2捕获的序列将我们的融合方法 PIFusion 与 DynamicFusion [20] 和DoubleFusion[33]进行了传感器.图6表明，与其他方法相比，我们的方法提高了跟踪和隐式循环闭合性能，特别是对于穿着宽松的21350图5：我们的系统获取的3D肖像示例。图6：申报PIFusion、DynamicFusion[20]和DoubleFusion [33]方法。(a)参考深度输入;（b）、（ c ）和（ d ）分别是 PIFusion 、 DynamicFusion 和DoubleFusion的结果。衣服请注意，对于本实验，我们使用PIFusion融合整个序列，而不生成部分扫描。与光束法平差方法的比较我们将我们的方法与最先进的非刚性光束法平差方法Wang等人 [30]进行比较。如图七、我们的方法实现了比[30]更详细和准确的3D自画像。此外，如[30]的相关工作部分所述，尽管结果是合理的，[17]要求受试者在扫描期间保持静止数次，从而使扫描过程复杂化。图7：我们的方法（顶行）与Wang等人提出的方法的比较。[30]（底行）。7.3. 评价能量项的烧蚀研究– PIFusion中的内项和外项如果没有内项，PIFusion将退化为DynamicFusion [20]，它会遭受严重的漂移和跟踪误差（图1）。（六）。此外，缺乏外部项使最终的侦察-结构精度完全取决于形状先验的精度，而形状先验通常不够精确。– 束调整中的实时轮廓项图8表明，实时轮廓项可以使部分扫描变形为与输入轮廓一致，从而进一步提高优化的部分扫描的准确性。非刚性体积变形我们定性地评估非刚性体积变形，如1351图8：实时轮廓项的评估（a）具有（左）和不具有（右）实况轮廓项的优化部分扫描，（b）具有（左）和不具有（右）实况轮廓项的第一关键帧中的掩模误差图，（c）具有（左）和不具有（右）实况轮廓项的第三关键帧中的掩模误差图（非黑色像素表示误差）。图9：非刚性体积变形步骤的评价没有（a）和有（b）体积变形的融合网;（c）RGBD-PIFU生成的原始内部模型;（d）体积变形后的内部模型。见图9。结果表明，在没有体积变形的情况下，融合几何形状将高度依赖于RGBD-PIFU生成的原始内部模型。在非刚性体变形的情况下，每帧引入外部观测值来更新内部模型这一步将减轻由内部模型带来的误差，提高重建结果的准确性。我们比较了轻量级光束法平差后的重建结果与图中使用PIFusion完全融合的网格。10.这个比较恶魔-这表明PIFusion仍然存在环闭合问题，特别是在具有挑战性的运动（非常铰接的运动）和不准确的初始内部模型的情况下。利用光束法平差可以有效地获得比融合法更联合优化我们通过等式的总能量来评估联合优化。9、每一次迭代图11表明，束变形和实时翘曲场的联合优化可以实现比该方法无需联合优化。身体测量我们对身体测量结果的准确性进行了定量评估。为了评估测量误差，我们首先利用激光扫描仪获得紧身衣子的地面真实形状，然后再次使用我们的系统扫描受试者。选项卡. 1给出了几个人体部位的测量结果，说明该方法获得了更准确的测量结果。图10：闭环评价。(a)PIFusion融合补片;（b）光束法平差后的重建网格。图11：每次光束法平差迭代中的总能量。方法胸部腰右膝DoubleFusion[33]98.792.543.1PIFusion97.687.240.7光束法平差94.684.539.6地面实况91.279.737.7表1：病例“lz”的身体测量结果评价：某些身体部位的周长（cm）。结果优于最先进的基于融合的体反射方法DoubleFusion[33]。此外，所提出的轻量级光束法平差方法是有效的，在进一步提高最终重建的精度。8. 讨论结论本文提出了一种新的方法，从单个RGBD相机的鲁棒性和高效的3D自拍重建我们提出了PIFusion，一种新的体积非刚性融合方法，形状先验，用于生成大而准确的部分扫描。更重要的是，所提出的轻量级束调整方法不仅保证了在参考系中生成循环模型，而且还确保了与实时关键观测的对准，这进一步提高了最终肖像的准确性而不损失效率。最后，通过该方法，用户可以在几秒钟内方便地获得细节和准确的3D自拍照。局限性我们的方法仍然依赖于由RGBD-PIFu提供的形状先验具体而言，如果先前推断的形状丢失了一些身体部分，最终重建也可能丢失这些部分。此外，如果在某些情况下（例如，对象交互）不包括在RGBD-PIFu的训练数据集中，它们也可能没有得到很好的处理。然而，根据实时观测来生长变形节点图可以解决这些问题。鸣谢本论文得到国家自然科学基金资助号61827805、61531014、61861166002。1352引用[1] https://texel.graphics/网站。[2] https://www.shapify.me/网站。[3] T. Alldieck，M.马格诺尔湾L.巴特纳加尔角Theobalt和G.庞莫尔学习从单个RGB相机重建穿着衣服的人。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[4] T. Alldieck，M.马格诺尔Xu，C. Theobalt和G.庞斯-莫尔从单目视频的详细的人类化身。在3D视觉国际会议（3DV），2018年9月。[5] T. Alldieck，M.马格诺尔Xu，C. Theobalt和G.庞斯-莫尔基于视频的三维人体模型重建。在IEEE计算机视觉和模式识别会议上，2018年6月。[6] T. Alldieck ， G. 庞斯莫尔角 Theobalt 和 M. 玛格诺Tex2shape：从一个单一的图像详细的完整的人体几何形状。IEEEInternational Conference on Computer Vision（ICCV）IEEE，2019。[7] Y. Cui ， W. 张氏 T.No ？ ll 和 D.斯特里克河Kinectavatar：使用单个Kinect进行全自动身体捕捉。在J. - I. Park和J. Kim，编辑，计算机视觉- ACCV 2012研讨会，第133-147页，柏林，海德堡，2013年。Springer柏林海德堡。[8] M.作者：J. Fuchs，A. Fitzgibbon和S.伊扎迪用单个RGBD传感器3D扫描可变形物体。在IEEE计算机视觉和模式识别会议中，第493-501页，波士顿，2015年。美国电气与电子工程师协会。[9] V. Gabeur，J. Franco，X.马丁角，澳-地Schmid和G.罗杰塑造人类：从单幅图像进行非参数三维人体形状估计。CoRR，abs/1908.00439，2019。[10] K. Guo，F. Xu，T. Yu，X.刘，智-地Dai和Y.刘某使用单一rgbd相机进行实时几何、反照率和运动重建。ACMTransactions on Graphics，36（3）：32：1[11] M. Haberman，W. Xu，M. Zollh oüfer，G. Pons-Moll，以及C.希奥博尔特Livecap：从单目视频中实时捕捉人类表现。ACM图形交易，38（2）：14：1-14：17，3月。2019年。[12] M. 因曼，M. Zoll hoferr，M. 尼斯讷河角Theobalt和M. Stamminger体积变形：实时体积非刚性重建。在欧洲计算机视觉会议（ECCV），第9912卷，第362-379页，阿姆斯特丹，2016年。弹簧。[13] A. Kanazawa，M.J. Black，D.W. Jacobs和J.马利克端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议（CVPR），第7122-7131页，盐湖城，2018年。美国电气与电子工程师协会。[14] M. Kazhdan，M. Bolitho和H.霍普泊松曲面重建第四届欧洲图形学几何处理集，SGP’06，第61-70页，瑞士，瑞士，欧洲制图协会。[15] N.科洛图罗斯湾Pavlakos和K.丹尼尔迪斯卷积网格回归用于单图像人体形状重建。在CVPR，2019年。[16] C. Li，Z. Zhang和X.小郭。关节融合：使用单个深度相机实时重建运动、几何和分割。在欧洲计算机视觉会议，第324-40页弹簧。[17] H. Li，E. A.lagga，A. 古迪姆湖 Luo，J. T. 巴伦，还有G.古谢夫3D自画像ACM Transactions on Graph-ics，32（6）：187：1[18] W. E. Lorensen和H. E.克莱恩移动立方体：一种高分辨率三维表面构造算法。在 ACM SIG-GRAPH ，第163ACM。[19] R. Natsume，S.Saito，Z.黄，W.Chen C.，马缨丹属Ma，H.Li和S.森岛Siclope：基于剪影的穿衣人。在IEEE计算机视觉和模式识别会议上，2019年6月。[20] R. A. Newcombe，D. Fox和S. M.塞茨动态融合：非刚性场景的实时重建与跟踪。在IEEE计算机视觉和模式识别会议中，第343-352页美国电气与电子工程师协会。[21] R. A. 纽科姆，S。伊扎迪河希利格斯，D。莫利诺D. Kim ， A. J. 戴维森， P. Kohli ， J. Shotton ， S.Hodges，和A.菲茨吉本运动融合：实时密集表面映射和跟踪。在IEEE混合和增强现实国际研讨会（ISMAR），第127-136页，华盛顿特区，美国，2011年。IEEE计算机协会。[22] A. Newell，K.Yang，e.B. Deng，JiaMatas，N.Sebe和M.威林用于人体姿态估计的堆叠沙漏网络。在欧洲计算机视觉会议（ECCV），第483-499页，Cham，2016年。弹簧。[23] M. 奥姆兰， C. 拉斯纳 G. 庞斯-莫尔 P. Gehler，以及B.席勒神经身体拟合：统一深度学习和基于模型的人体姿势和形状估计。在3D视觉国际会议（3DV）中，第484-494页，维罗纳，2018年9月。美国电气与电子工程师协会。[24] G.帕夫拉科斯河谷Choutas，N. Ghorbani，T.博尔卡特A.A. A. Osman，D. Tzionas和M. J.布莱克。富有表现力的身体捕获：从单个图像获得3D手、脸和身体。在IEEE计算机视觉和模式识别会议（CVPR）中，第1-8页，长滩，2019年。美国电气与电子工程师协会。[25] S. 斋藤、Z. 黄先生，R. 夏目S. 森岛A. Kanazawa和H.李Pifu：Pixel-aligned implicit functionforhigh-resolutionclothedhumandigitalization.IEEEInternationalConferenceonComputerVision（ICCV），2019年。[26] M.斯拉夫切瓦湾Baust，D. Cremers和S.伊利克杀戮-融合：无关联的非刚性3D重建。在IEEE计算机视觉和模式识别会议，第5474-5483页美国电气与电子工程师协会。[27] M.斯拉夫切瓦湾Baust和S.伊利克Sobolevfusion：经历自由非刚性运动的场景的3D重建。在IEEE计算机视觉和模式识别会议，第2646-2655页，盐湖城，2018年6月。美国电气与电子工程师协会。[28] R. W. Sumner，J.Schmid和M.Pauly. 形状操作的嵌入变形ACM Transactions on Graphics，26（3），2007年7月。[29] J. Tong，J. Zhou，L. Liu，Z. Pan和H.燕.使用kinect扫描三维人体。 IEEE Transactions on Visualization andComputer Graphics，18（4）：643[30] K. Wang，G. Zhang和S.夏用一个rgb-d摄像机实现无模板非刚性重建和运动跟踪IEEE Transactions on ImageProcessing，26（12）：5966[31] S. Wang ，X. 左角，加 -地杜河，巴西 - 地Wang ，J.Zheng，and R.杨基于单rgb-d传感器的动态非刚体物体重建传感器（巴塞尔，瑞士），18，03 2018.[32] T. Yu，K.Guo，F.Xu，Y.东，加-地Su，J.Zhao，J.李角Dai和Y.刘某Bodyfusion：使用单个深度相机实时捕获人体在IEEE国际计算机视觉会议（ICCV），第910-919页美国电气与电子工程师协会。1353[33] T. Yu，Z. Zheng，K. Guo，J. Zhao，Q. Dai，H. Li，G.Pons- Moll和Y.刘某Doublefusion：从单个深度传感器实时捕获具有内部身体形状的在IEEE计算机视觉和模式识别会议，第7287-7296页美国电气与电子工程师协会。[34] M. Zeng，J. Zheng，X. Cheng和X.刘某具有隐式环闭合的无模板准刚性形状建模。在IEEE计算机视觉和模式识别会议中，2013年6月。[35] Z. Zheng，T.Yu，H.Li，K.郭角，澳-地戴湖，澳-地Fang和Y.刘某杂交融合：使用单个深度传感器和稀疏imus 的实时性能捕获。在欧洲计算机视觉会议（ECCV），第389-406页，慕尼黑，2018年9月。弹簧。[36] Z. Zheng ， T. Yu ， Y. 韦角，澳 - 地 Dai 和 Y. 刘某Deephuman：从单幅图像重建三维人体。在IEEE国际计算机视觉会议（ICCV）上，2019年10月。[37] H. Zhu，Y. Liu，J. Fan，Q. Dai和X.曹基于视频的户外人体重建。 IEEE Transac

下载后可阅读完整内容，剩余1页未读，立即下载