高效逼真的三维人体重建技术研究进展

84 浏览量更新于2024-01-24 收藏 730KB PDF 举报

三维人体重建

神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学5（2021）11高效逼真的三维人体重建技术研究进展陈路a，1，彭思达b，周晓伟b，刘伟a中国青岛山东大学泰山学院b浙江大学CAD CG国家重点实验室，中国杭州ar t i cl e i nf o文章历史记录：2021年8月30日收到收到修订版，2021年10月25日接受，2021年2021年11月16日网上发售保留字：3D人体重建神经表示微分渲染a b st ra ct从感官数据重建人体的3D数字模型是计算机视觉和图形学中的一个长期问题此外，专门手工制作的管道容易产生重建伪影，导致视觉质量有限。为了解决这些挑战，该领域的最新趋势是使用深度神经网络，通过从现有数据中学习人类先验知识来提高重建效率和鲁棒性。基于神经网络的隐式函数也已被证明是一个有利的3D表示相比，传统的形式，如网格和体素。此外，神经渲染已经成为一种强大的工具，可以通过端到端优化输出图像的视觉质量来实现高度真实感的建模和重新渲染。在这篇文章中，我们将简要回顾这些进展在这个快速发展的领域，讨论不同的方法的优点和局限性，最后，分享一些想法对未来的研究方向。版权所有©2021作者。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍三维人体重建的目的是从图像、视频或深度数据中恢复人体的三维几何形状和外观。主要的挑战是使用便携式和负担得起的设备来实现对人的准确、高效和近年来，由于其在自由视点视频、远程呈现、体育广播、电影制作和游戏等方面的广泛应用，该领域受到了越来越多的关注。传统的重建管道（图。 1 a）主要建立在大型捕获系统（Guoet al. ，2019），以确保重建模型的质量。利用密集的相机阵列，通过采用两阶段流水线来实现高质量的人体重建，其中研究人员首先执行多视图立体重建，然后融合多视图深度图。然而，处理如此大量的数据*通讯作者。电子邮件地址：xwzhou@zju.edu.cn（X. Zhou）。[1]陆辰访问浙江大学期间所做的工作https://doi.org/10.1016/j.visinf.2021.10.003从如此拥挤的摄像机源收集的数据，使得不可能实时跟踪动态的人类表现。另一系列工作利用深度传感器通过直接采用深度图进行深度融合来实现实时重建。为了解决由稀疏视图引起的几何伪影的问题，开创性的工作DynamicFusion（Newcombe et al. ，2015）集成了在时间序列中分散的深度信息，并使用它来实时创建逐步完成和去噪的重建。 DoubleFusion（Yu et al. ，2018）进一步将人类先验结合到该融合方案中以处理大的运动场景。尽管取得了突破，但这些方法仍然受到使用场景的限制，因为传感器仅适用于小型室内场景。总体而言，传统重建管道中使用的复杂捕获系统和昂贵的设备极大地阻碍了人体重建的更广泛应用。这些问题促使开发低预算的学习型方法。基于学习的人体重建的目标是在从现有数据中学习到的人体先验知识的帮助下，仅从一个或稀疏视图的2D图像重建3D人体。多年来，在监督学习方式下已经完成了相当多的工作，其中神经网络2468- 502 X/©2021作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinfL. Chen，S. 彭和X。周视觉信息学5（2021）1112Fig. 1. 三种重建方法的比较。a）传统的重建流水线需要密集的相机阵列或深度相机，并且包括：而b）具有神经网络的基于回归的方法直接从输入图像回归人体几何形状或外观而c）具有可微分绘制的基于优化的方法通过最小化重新绘制的图像和对应的输入图像之间的绘制误差来重建3D人体模型。被训练来推断3D地面实况数据集上的人类模型（图1b）。这些方法尝试适合于网络预测的各种表示，例如网格、体素和隐式函数。一个重要的工作系列是基于SPL的方法。SMPL（Loper etal. ，2015）是一种统计可变形人体模型，其可以通过调整一组参数来拟合不同人的形状和姿势这些基于SMPL的工作通常引入SMPL作为几何先验，并利用其低维的性质，从图像中获取和动画粗糙的身体网格。为了获得更精细的几何结构，一些方法开始探索其他表示，如体素（Varol et al. ，2018; Zheng et al. ，2019）。不幸的是，体素是过度消耗内存。要存储具有由体素表示的精细细节的高质量几何体，将需要非常大的空间。因此，另一种表示，隐式函数，已经吸引了越来越多的兴趣，其在建模细节和存储效率的优势。通过整合隐式函数（Saito et al. ，2019年，2020年），网络可以表示非常高分辨率的人体几何。但要实现人类重建的更广泛应用，还存在一些至关重要的问题，例如，训练神经网络的泛化能力有限，以及大型注释或3D地面实况数据集的常规要求。最近，一些作品试图直接从图像中恢复3D场景表示，而无需3D地面实况的监督，如图所示。 1杯他们采用可微分渲染器来学习3D表示，包括体素网格，点云，纹理网格和隐式函数。一个里程碑是Mildenhall等人提出的神经辐射场（NeRF）。（2020），其在给定相对密集的输入视图的静态场景的新颖视图合成中实现了显著的质量。为了实现从稀疏视图的动态人体重建，神经体（Peng et al. ，2021）结合SMPL模型与NeRF来表示动态的人。最近，Peng et al. （2021 a）将线性混合方案与NeRF组合以从稀疏多视图视频重建可动画化的人类模型。总之，三维人体重建领域已经朝着两个大的方向发展，这就是效率和照片写实主义。多年来，研究人员一直在通过简化捕获系统和减少处理时间来追求更高的效率，最终目标是实现用单目RGB摄像机进行实时重建。照相现实主义的进步可以反映在越来越详细的重建几何和外观。我们总结了一些代表性作品的设计选择表1。已经有许多关于与人类相关的不同3D任务的调查，例如姿势估计（Desmarais et al. ，2021; Chen et al. ，2020）和面部识别（Soltanpour et al. ，2017; Masi et al. ，2018年），但很少能找到全身重建。Han等人（2019）提供了对基于图像的3D对象重建技术的全面综述，其中人类重建仅被视为特例，而未进行彻底研究。Berretti等人（2018）提出了第一个关于3D人类的全面调查，给出了一个完整的基于表示的分类法以及各种分析和识别任务的总结。但由于这一领域的快速发展，微分绘制的最新进展没有被覆盖。本文对人体重建的发展进行了综述，并按类别总结了最新进展。我们首先简要回顾了第二节中为传统流水线设计的重建算法.第3节调查目前的学习为基础的方法和分类这些作品的基本表征。第4节快速回顾了基于优化的方法和微分渲染技术。最后，我们在第5节讨论了未来研究的潜在方向。2. 传统改造管道传统的重建流水线在很大程度上依赖于硬件来捕获目标场景的完整结构和外观，并为算法提供足够的证据来进行推断。到目前为止，研究人员已经建立了各种捕获系统，这些捕获系统通常由大量相机组成，这些相机被仔细地布置在相对于彼此固定的位置上以捕获颜色和深度信息。这些系统收集的图像是从密集的视点拍摄的，通常包含很多冗余，它们作为输入被送入重建管道。该流水线充分利用了输入图像的冗余性，并对密集采样的在本节中，我们将基于传统管道的方法分为离线和实时重建方法，并分别介绍它们。L. Chen，S. 彭和X。周视觉信息学5（2021）1113表1代表性方法的设计选择。“TSDF "代表截断的有符号距离函数。“时间信息”表示时间信息是否用于重建。逼近法主损失函数表示Num.的输入视图时间信息Collet等人（2015年）没有一网格密集✓Newcombeet al. （2015年）没有一TSDF体积一✓Douet al. （2016年）没有一TSDF体积密集✓Yu等人（2018年）没有一TSDF体积一✓Guo等人（2019年）没有一网格密集✓Bogo等人（2016年）2D关键点丢失SMPL一✗Joo等人（2018年）3D关键点丢失SMPL一✓Pavlakos等人（2019年）2D关键点丢失SMPL一✗Habermann等人（2019年）2D和3D关键点丢失、蒙版丢失网格一✓Su等人（2020年）2D和3D关键点丢失TSDF体积一✓Lombardi等人（2019年）渲染损失辐射场密集✗Mildenhall等人（2020年）渲染损失辐射场密集✗OptimizationYu et al. （2021年b）渲染损失辐射场密集✗Park等人（2021年）渲染损失辐射场密集✗Liu等人（2021年）渲染损失辐射场密集✓Wang等人（2021年）渲染损失辐射场稀疏✗Zhang等人（2021年a）渲染损失辐射场稀疏✓Yu等人（2021年）渲染损失辐射场一个或几✗Peng等人（2021年a）渲染损失辐射场一个或几✓Peng等人（2021年）渲染损失辐射场一个或几✓Su等人（2021年b）渲染损失辐射场一个或几✓Pavlakos等人（2018年）2D关键点丢失，蒙版丢失SMPL一✗Kanazawa等人（2018年）2D和3D关键点丢失，对抗性丢失SMPL一✗Kocabas等人（2020年）2D和3D关键点丢失，对抗性丢失SMPL一✓Alldieck等人（2019年）对抗性损失网格一✗RegressionVarol等. （2018年）2D和3D关键点丢失、蒙版丢失体素一✗Natalieet al. （2019年）对抗性损失体素一✗NeuralZheng et al. （2019年）3D占用损失，掩模损失体素一✗Saitoet al. （2019年）3D占用和颜色损失占领区一个或几✗Saito等（2020年）3D占用和颜色损失占领区一个或几✗Zheng等人（2021年b）3D占用和颜色损失占领区一✗Huang等人（2020年）3D占用和颜色损失占领区一✓Li等人（2020年）3D占用和颜色损失占领区一✓2.1. 离线重构多视图立体（Multi-View Stereo，MVS）是一种广为人知的3D重建技术，其使用跨一组图像的特征对应性作为估计3D结构的主要线索，所述图像是相同3D对象在多个视图中的投影。Schönberger等人（2016）通过增强Zheng等人提出的框架，实现了具有鲁棒性和有效性能的密集重建。 2014年，在多个方面。对于非结构化图像集合，运动恢复结构（SfM）是最广泛使用的技术之一，构建成功的SfM系统的主要挑战是鲁棒性，准确性，完整性和可扩展性。为了增强SfM系统在上述方面的能力，Schonberger和Frahm（2016）提出了一种新的增量SfM算法，该算法引入了一系列用于几何验证、下一个最佳视图选择、三角测量、光束法平差和漂移效应缓解的策略。虽然在恢复3D场景的几何形状和外观方面已经取得了重大进展，但尝试恢复可用于实现重新照明的光度特性的工作非常有限。为了填补这一空白，Debevecet al. （2000）构建光台以在预设光照条件下从多个视点捕获面部图像，然后将图像像素转换为反射函数，由此可以生成任意光照下的新图像。光阶段要求主体在捕获过程期间保持静止约一分钟，这在实践中是主要缺点为了进一步捕捉和重新照亮整个人体在动态的情况下，郭等人。（2019）构建一个拥有331个可编程定制LED灯的超大系统和90个高分辨率摄像头安装在一个巨大的球形穹顶上。通过MVS和深度融合，系统能够在任何照明条件下以高度精确的几何形状重新渲染动态人体，将人体再现和重新渲染推向新的照片现实主义水平。然而，该系统的弱点也相当明显，除了构建它的复杂性之外，重建10秒视频需要大约8小时的事实也揭示了其计算效率低下。2.2. 实时重构尽管离线重建不断取得进展，但密集相机视图的长处理时间使得这种方法对于需要立即反馈的应用程序来说是不可接受的。因此，人们做了大量的研究，以逐步简化输入图像集，降低计算成本，以实现实时重建。仅使用单个商品深度传感器，Newcombeet al. （2015）通过建立从深度图到规范人体模型的密集对应并随着时间的推移融合流式输入测量，成功地逐步完成了表面模型。然而，鲁棒性似乎是一个主要的问题，因为重建可能会失败时，处理快速的人体运动。为了克服这个问题，Yu et al. （2018）引入SMPL模型来正则化密集对应的优化过程，这显著防止了优化陷入局部极小值。基于多模型MVS，自适应网格，时间网格跟踪，和流编码，Col-let等人。（2015）提出了一种解决方案，用于创建实时自由视点视频与捕获系统，包括绿色L. Chen，S. 彭和X。周视觉信息学5（2021）1114共106台高速RGB和IR摄像机。Dou等人（2016年）将捕获设备减少到24台相机，同时仍然产生与Collet等人相当的结果。（2015年）。 Su等人（2020）将捕获硬件进一步简化为单个RGBD相机，并引入数据驱动的模型完成和鲁棒跟踪方案，以实现动态人类活动的高质量重建。尽管取得了巨大的成功，但深度传感器仅适用于受限的室内场景的局限性极大地限制了人体重建的广泛应用。最近，研究人员转向深度学习来提高重建的鲁棒性，并降低对传感器和捕获过程的要求。3. 基于学习的重构为了将人体重建从繁重的硬件设置中解放出来，并将费用降低到公众可以承受的价格，最近的工作倾向于使用深度学习从稀疏的相机视图中恢复3D人体表示。越来越多的研究表明，神经网络可以从3D地面真实数据中学习人类先验知识，从而能够从2D图像中恢复3D人体模型。一种流行的人类表示是皮肤多人线性模型（SMPL），这是一种参数模型，可以很容易地用于从具有强大泛化能力的图像中拟合不同形状和姿势的人体，由Loper等人提出（2015）。然而，SMPL是一种粗糙和裸露的人体模型，不适合对头发和衣服等高频细节进行建模。因此，许多当前的作品试图采用更详细的人类表示，如网格，体素和隐式函数。本节将这些作品按其表现形式进行分类，并讨论其优点和局限性。3.1. SMPL一般来说，SMPL（Loper et al. ，2015）是由一组形状、姿态和平移参数确定的函数，其输出具有6890个顶点的网格。为了对人体形状进行建模，SMPL从大量扫描中学习低维形状空间姿态参数由具有23个关节的模板人体骨架定义，其包括部件之间的轴角表示的一组相对旋转平移参数是SMPL网格和相机之间的相对位置的测量值从图像中估计SMPL参数的工作通常可以分为两类：基于优化的方法和基于回归的方法。3.1.1. 使用SMPL从图像估计SMPL参数的早期工作大多是基于优化的。一项基本工作是保持SMPL（Bogo et al. ，2016年）。通过利用卷积神经网络（CNN）来定位2D身体关节并将SMPL模型拟合到这些预测的关节，作者提出了第一个解决方案，可以从一张图像中估计3D空间中人类的姿势和形状。然而，SMPL更关注身体姿势，而忽略了面部表情和手势等细节动作。为了实现覆盖面部和手指移动的全身捕捉，Total Capture（Joo et al. ，2018年）提出了两个变形模型，一个集成的基于部分的模型，和一个参数化简化的版本，并使用它们来同时恢复全身运动的实时。值得一提的是，Total Capture可以恢复大部分细微的动作，仅使用四个摄像机视图作为输入时的精度。 Dong等人（2019）通过基于低秩约束进行多视图人群身份匹配来实现多人SMPL估计。为了从视频流执行运动捕获，Zhang等人。（2020）使用来自前一帧的SMPL估计作为当前帧的初始化，这大大降低了计算复杂度。而Dong等人（2020）完全打破了常规的工作室设置，从一组不同步的互联网视频中实现了人类运动的忠实恢复，这些视频记录了一个人在不同情况下的特定动作虽然基于优化的方法可以在多视图设置中生成可靠的预测，但是它们在单目设置下遭受很大的深度模糊。此外，由于它们本质上试图解决复杂的非凸优化问题，因此输出解决方案很容易受到初始化的影响，并且倾向于收敛到单目图像上奇怪的人类姿势。3.1.2. 使用SMPL受基于优化方法的问题的影响，很大一部分作品使用神经网络直接从图像中回归SMPL参数。Pavlakos等人（2018）提出了将SMPL模型纳入端到端网络架构的先驱作品之一，该架构在从单个图像估计人体姿势和形状方面实现了卓越的性能。为了解决缺乏用于训练的3D地面实况的问题，他们选择最大限度地减少手动注释和从估计的SMPL模型计算的2D关键点之间的重投影误差。一个并行的工作是金泽等人提出的人体网格恢复（HMR）。（2018），其中开发了端到端的对抗性学习框架该框架通过一个训练器来监督学习过程，以确保恢复网格的有效性。为了从单个图像回归多个人的SMPL参数，Jiang等人。（2020）介绍了另一个端到端框架，该框架对SMPL模型的遮挡和相互渗透进行推理，以在一个场景中生成多个人的全局一致重建Kolotouros et al.（2019）选择使用Graph-CNN网络回归SMPL的顶点位置，而不是其低维嵌入，并报告了形状重建质量方面令人惊讶的良好性能。由于在估计静态从图像中估计出人体姿态，一些工作进一步从视频中估计出动态运动序列。Kanazawa等人（2019）提出了一个框架，该框架在时间窗口内对图像特征进行编码，并训练网络学习3D人体动态的时间表示。通过这样做，它们使网络能够推断给定图像中人类的过去和未来姿态，而不仅仅是恢复当前的3D网格，以及从输入视频中平滑过渡灵感来自HMR，VIBE（Kocabaset al. ，2020）采用了类似的对抗性学习框架。通过将回归网络替换为时间生成网络，并将3D监督数据集更改为运动捕捉数据集，VIBE可以从野外视频中预测准确和自然的人体运动。3.2. 网格虽然恢复SMPL模型相对容易，但其低维度也使其不适合表示面部表情和带有皱纹的各种服装形状等细微细节。为了更准确地模拟穿着衣服的人，研究人员已经尝试将变形应用于SMPL或其他模板网格（Xu等人，2005）。，2018年）。Alldieck等人（2018）提供了一种方案，首先优化单目视频上的细分SMPL模型以获取顶点位移，然后逐渐增加特定于主题的细节以恢复高保真度L. Chen，S. 彭和X。周视觉信息学5（2021）1115几何体，最终与纹理缝合以创建逼真的化身。Habermann et al.（2019）和Habermann et al. （2020）也采用这种两步策略，其中模板拟合或回归之后是非刚性表面变形，以从单目视频中捕获3D人类表现。 Zhu等人（2020）创建包含数千个姿势的数据集每一个都有非常精细的几何形状和纹理。使用这个数据集，作者训练了一个网络，为NBA球员在法庭上重建高质量的个性化网格。而Alldieck等人（2019）从不同的图像到图像的角度看待这个问题。他们首先将输入图像转换为SMPL模型的不完整UV映射，然后使用经过训练的Tex2Shape网络将此纹理转换为法线和位移映射，从而为原始裸体模型添加详细的头发和衣服3.3. 体素体素是堆积在3D空间中的微小立方体。与图像的像素类似，它们作为3D模型的基本单元。体素网格是计算机图形学中最常用的显式表示方法之一，与多边形网格相比，体素网格在变换、绘制、模拟和压缩等方面都比较简单。由于体素是在3D空间中的规则网格上定义的，因此它们可以很容易地集成到流行的机器学习工作流程中。自然，有许多尝试使用体素来重建人体。Varol等人（2018）提出BodyNet，以从输入图像中恢复体素网格上定义的体积人体。通过引入多视图重投影损失和引入中间子任务网络进行监督，保证了BodyNet的性能。遵循从粗到精的方式，Gilbert等人（2018）提出了一种而Zheng et al. （2019）决定通过将图像特征转移到体素空间中来将体素化SMPL模型细化为穿着衣服的人体模型。然而，体素网格表示通常占用太多的内存，这限制了它的实际应用，特别是在建模高度详细的几何。3.4. 隐函数与像网格和体素这样的显式表示不同，其中每个基本元素的参数都是显式给出的，隐式函数将曲面定义为函数的水平集。这种连续表示具有许多优点，例如（1）易于优化并集成到学习框架中，（2）与空间分辨率分离(3)易于处理拓扑变化，以及（4）内存效率，一旦与深度学习相结合，为3D人体重建提供了一个很好的机会和优雅的解决方案代表性的工作，像素对齐隐式函数（PIFu）的Saito等人提出的。（2019），将图像像素与拍摄对象的全局3D形状或纹理对齐。隐式表面函数根据由网络编码的像素对准特征和从每个对应像素发射的相机射线的z深度来联合估计。使用PIFu，可以将来自单个或稀疏相机视图的穿着衣服的人有效地数字化为详细的几何形状和外观。 PIFuHD（Saito et al. ，2020年）增强了PIFU，通过解析具有多级网络架构的高分辨率图像来恢复更精细的几何形状。 Geo-PIFu（He et al. ，2020）通过引入潜在体素特征，在局部特征模糊性和全局形状鲁棒性方面改进了PIFu。基于类似的考虑，Chibane等人（2020）设计一个深度3D功能，从各种有缺陷的3D输入中重建完整和详细的人体模型。为了将PIFu与立体视觉结合以更好地使用几何约束，StereoPIFu（Hong et al. ，2021）将体素对准的特征和相对z偏移添加到流水线中，以分别解决深度模糊和丰富几何细节虽然隐式函数以低内存占用实现了复杂表面的高度详细的repricing c- tion，但是它们在计算速度上的效率将它们限制在离线场景中。为了解决这个问题，MonoPort（Li et al. ，2020）引入了渐进式表面定位算法以减少用于重建的查询点的数量以及有效的直接渲染技术。 NeuralHumanFVV（Suo et al. ，2021）将PIFu扩展为多视图隐函数（MVIFu），该函数仅在新视图下生成显式几何而不是恢复人体的完整几何，并提出了一种新的用于真实感纹理绘制的神经混合方案。这两种方法都可以在不牺牲分辨率的情况下实现实时的人类行为捕捉。虽然上述和许多更多的作品（黄等人。，2018; Yang et al. ，2021）已经表明，深隐函数非常适合于表示复杂和静态的表面，如穿着衣服的人，重建结果是不可动画或可操纵的。相反，参数模型（例如，SMPL）是粗糙的但可控的。为了获得具有可编辑姿态和形状的详细人体模型Huang et al. ，2020）使用回归的参数模型来计算语义变形场，其为隐式表面配备用于动画的蒙皮权重。与将单目图像作为输入的IP-Net不同，IP-Net（Bhatnagar etal. ，2020）在稀疏点云上操作并预测两个隐式表面，即，一个内在的身体表面和一个外在的衣服表面，以及与SMPL模型的语义对应。通过将SMPL模型拟合到内在表面并将内在表面变形为外在表面，IP-Net可以恢复支持姿势控制的穿着人体的详细表面。PaMIR（郑等人，2021b）利用SMPL模型从图像重建人体几何形状，并实现有竞争力的重建性能。4. 可微绘制尽管使用监督学习方法进行3D重建取得了巨大成功，但据报道，神经网络的泛化能力相当差，这反映了训练的网络不能真正理解3D场景与其2D投影之间的关系。然而，这种关系长期以来一直被计算机图形学界研究，在那里它被称为渲染。渲染是计算建模的3D场景的2D图像的过程。传统上，渲染遵循复杂的图形管道，需要大量变量，包括表面几何形状，材料属性，光线条件和相机参数，并且是不可微的，这使得它很难与当前的深度学习框架集成。针对这一缺陷，提出了可微分绘制方法，以区分绘制过程.通过这样做，从图像的3D重建可以被公式化为逆绘制问题，并通过基于梯度的优化技术来解决在本节中，我们将快速回顾可微分渲染技术，并总结人体重建的相关工作。L. Chen，S. 彭和X。周视觉信息学5（2021）11164.1. 可微分绘制技术最近，已经开发了许多可微分渲染技术来从图像恢复3D表示，诸如网格渲染器（Kato et al. ，2018; Liu et al. ，2019），可微球跟踪（刘等。，2020; Lior等人，2020）和体积渲染（Mildenhallet al. ，2020; Niemeyer et al. ，2020; Wang等人，2021a; Yariv etal. ，2021年）。给定具有相机姿态的多视图图像，这些方法通过最小化重新渲染的图像和对应的输入图像之间的差异来优化目标3D表示（图13）。 1 c）。4.2. 体绘制体绘制是自然可微的，并且在许多逆绘制任务中取得了令人印象深刻的性能（Bi等人，2020a，b; Peng et al. ，2021年）。作为先驱，Zhou等人（2018）引入了alpha合成来从多平面图像中渲染目标图像，这可以被视为体渲染的变体。神经纤维（Lombardi et al. ，2019）将整个场景表示为离散的RGB-alpha体积，并通过与从体积渲染生成的多视图图像进行比较来优化该体积。因此，它可以合成具有高的视图间一致性的新视图。然而，渲染图像的分辨率受到重建的3D体积的分辨率的限制，这可能消耗大量的GPU存储器来产生照片级真实感的结果。为了克服这种存储器效率低下的问题，NeRF（Milden-halletal. ，2020）采用连续密度和颜色场作为场景表示。具体来说，它提出了一种MLP网络，将任意3D点和视角映射到体积密度和颜色，以避免构建大体积。NeRF非常适合体绘制，并在新视图合成方面实现了最先进的性能。虽然有很多后续工作（博斯等人。，2020; Zhang et al. ，2021b; Srini-vasanet al. ，2021）受此表示的启发，NeRF仍然有几个限制，特别是当应用于动态人体重建时：（1）NeRF在训练和推理方面的计算效率低下。(2)NeRF无法模拟运动动态场景。对于动态人类，它需要为每个视频帧训练一个网络，这是不切实际的。(3)NeRF需要密集的相机视图作为输入，以恢复相当好的3D表示。然而，对于动态的人类，密集的相机视图只能用密集的相机阵列来捕获，这又回到了我们试图避免的昂贵的捕获系统。为了进一步提高NeRF的效率，pixelNeRF（Yu et al. ，2021）将空间点与CNN提取的多视图特征相这样的修改使得NeRF具有稀疏的输入视图和更强的泛化能力。IBRNet（Wang et al. ，2021）也通过在端到端框架中将NeRF与基于图像的渲染相MetaNeRF（Tancik et al. ，2021）将Meta学习引入到流水线中，并且在优化期间显示出收敛速度的显著提高FastNeRF（Garbinet al. ，2021）和PlenOctrees（Yu et al. ，2021 b）通过预计算和缓存加速NeRF的渲染过程，支持实时应用。4.3. 动态人类最近，一些作品（公园等。，2021; Pumarola et al. ，2021;Park等人，2021b）尝试扩展NeRF以处理具有稀疏相机视图的动态场景。大多数人都把注意力集中在重建一般场景，而不仅仅是人体-是的。Li等人（2021）提出了NSFF，一种关联两个相邻视频帧的场景流场，具有整合时间信息和合成新颖视图的能力，即使使用单目相机。然而，由于缺乏一般场景的运动先验知识，NSFF难以估计两个遥远的视频帧之间的场景流场，因此不能恢复完整的场景几何。在人体重建领域，Peng et al.（2021）提出的Neural Body通过将SMPL模型与NeRF相结合，利用人体先验知识，可以整合所有视频帧的信息，重建高质量的人体模型。具体地说，神经体通过SMPL顶点上的一组潜在代码来对于一个特定的视频帧，它估计SMPL参数，并将潜在代码的位置转换为估计的人体姿势。然后，这些潜在代码使用SparseConvNet（Graham和van der Maaten，2017）转换为目标帧的神经辐射场。因此，神经体可以从相同的一组潜在代码中恢复每帧的3DNeural Body在新视图合成任务上实现了令人印象深刻的性能，只需几个相机视图作为输入。然而，受SparseConvNet的泛化能力的限制，它在看不见的人体姿势下合成模糊4.4. 动画模型可动画化的人体模型对于诸如游戏、视觉效果和数字人的各种应用是必不可少的给定一系列点云或网格作为输入，几个动画表示的人（Genova等人。，2020; Deng等人，2020; Bozic et al. ，2021; Chen et al. 2021 年）已经开发。一个典型的工作，SCANimate提出的斋藤等人。（2021），首先训练蒙皮权重网络以将人类点云变换为规范姿势，然后利用变换后的点云学习姿势感知隐式形状。然而，人类点云在大多数情况下不可用。为了进一步降低捕获系统的要求，一些最近的工作（Liu et al. ，2021;Su et al. ，2021 a）试图从稀疏多视图视频重建可动画化的人体模型。类似于Park et al。（2021）和Pumarola et al. （2021），Peng et al. （2021a）引入Animatable NeRF，其表示具有规范NeRF和一组变形场的视频形变场用于建立观测空间与正则空间之间的对应关系。为了启用动画，Animatable NeRF通过将人体骨骼与一个混合权重字段的基础上的三角形驱动的变形框架。5. 未来前景到今天为止，人体重建已经达到了一个阶段，我们可以从稀疏的多视图图像或视频中恢复高质量的动画人体模型。但仍有进一步改进的空间：(1) 目前，基于可区分渲染的方法分别为每个人训练网络，其中训练过程通常需要数小时（Peng et al. ，2021，a; Liu et al. ，2021），这阻止了这样的方法重建一个大的群体。相比之下，一些其他方法（Saito et al. ，2019，2020; Honget al. ，2021年）只需要训练网络一次，而重建结果的质量不太令人满意。这启发我们将可微分绘制与可推广的方法相结合，以实现高质量和高效率的重建新的主题。L. Chen，S. 彭和X。周视觉信息学5（2021）1117(2) 真实世界的场景通常包含多个人和人-物交互（Zheng etal. ，2021a; Zhang et al. ，2021a; Sun et al. ，2021年）。为了实现这些场景的重建，需要开发针对多人和人-物交互的高效表示和鲁棒重建算法(3) 尽管可以获得详细的3D人体模型，但是利用这些模型生成真实感图像还有很长的路要走。经典的图形流水线需要昂贵的捕获硬件和较长的时间来渲染高质量的图像，但渲染图像与真实图像之间的差异仍然是显而易见的，特别是对于动画。在另一系列工作中，神经渲染（Karras et al. ，2020年，2019年）在图像生成方面取得了令人印象深刻的成果。研究已知人体和场景几何形状的可控神经绘制是一个有趣而重要的方向。(4) 许多应用程序需要场景内容编辑，例如添加或删除对象（Yu et al. ，2021a），改变人类的衣服（Xiang et al. ，2021）和重新照明（Boss et al. ，2020年）。这促使我们找到更好的方法来恢复更准确的人体几何形状和材料，并将观察到的人体分解成身体和可编辑的衣服。伦理批准本研究不包含任何作者对人类或动物受试者进行的任何研究CRediT作者贡献声明陆晨：调查，写作--初稿，形象化。彭思达：写作-原创草稿。Xiaowei Zhou：监督，写作-评论编辑。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作确认作者感谢国家自然科学基金委员会的支持（No. 62172364）。引用Alldieck，T.，Magnor，M.，徐伟，Theobalt角，Pons-Moll，G.，2018年从单目视频详细的人类化身。2018年国际3D视觉会议（3DV）IEEE，第98比109Alldieck，T.，Pons-Moll，G.，Theobalt角，Magnor，M.，2019. Tex2shape：从单个图像中获得详细的完整人体几何形状。在：IEEE/CVF计算机视觉国际会议论文集，pp。2293-2303Berretti，S.，Daoudi，M.，Turaga，P.，巴苏，A.， 2018. 3D人类的表示、分析和识别：一项调查。ACM多媒体计算Commun.申请14（1 s）.Bhatnagar，B.L.，Sminchisescu，C.，Theobalt角，Pons-Moll，G.，2020.结合隐函数学习和参数模型的三维人体重建。在：计算机视觉 E C C V 2 0 2 0 ：第 1 6届欧洲会议，格拉斯哥，英国， 2 0 2 0 年 8 月 2 3 日至 2 8 日，会议记录，第二部分 1 6 。施普林格，pp.311-329Bi，S.，徐志，斯里尼瓦桑，P.，Mildenhall，B.，Sunkavalli，K.，Hašan，M.，保持-杰弗里，Y.，Kriegman，D.，Ramamoorthi河，2020年a。用于外观采集的神经反射场。arXiv预印本arXiv：2008.03824。Bi，S.，徐志，Sunkavalli，K.，Hašan，M.，Hold-Geoffroy，Y.，Kriegman，D.，Ra-mamoorthi，R.，2020年b。深度反射体积：从多视图光度图像进行可靠重建。在：计算机视觉 E C C V2 0 2 0 ：第 1 6 届欧洲会议，格拉斯哥，英国， 2 0 2 0 年 8 月 2 3 日至 2 8 日，会议记录，第三部分 1 6 。施普林格，pp. 294-311Bogo，F.，Kanazawa，A.，Lassner，C.，Gehler，P.，罗梅罗，J.，布莱克，M.J.，2016. SMPL：从单个图像自动估计3D人体姿势和形状。参加：欧洲计算机视觉会议。施普林格，pp. 561-578. 老大M布劳恩河，巴西-地Jampani，V.，巴伦，J.T.，刘，C.，Lensch，H.，2020. 书呆子：从图像集合中进行神经反射分解。arXiv预印本arXiv：2012.03918。Bozic，A.，Palafox，P.，Zollhofer，M.，Thies，J.， Dai，A.， Niegner，M.，2021. 用于全局一致非刚性重建的神经变形图。在：IEEE/CVF计算机视觉和模式识别会议论文集，pp。1450-1459年。陈玉，田，Y.，他，M.，2020. Monocular Human Pose Estimation：A Survey ofDeep Learning Based Methods单目人体姿势估计：基于深度学习的方法综述。Comput. 目视图像理解192，102897。陈旭，郑宇，布莱克，M.J.，Hilliges，O.，Geiger，A.，2021. Snarf：可区分的向前蒙皮，用于为非刚性神经隐式形状设置动画。 arXiv 预印本 arXiv ：2104.03953。Chibane，J.，Alldieck，T.，Pons-Moll，G.，2020.特征空间隐函数三维形状重建与补全。在：IEEE/CVF计算机视觉和模式识别会议论文集，pp。6970-6981。Collet，A.，Chuang，M.

下载后可阅读完整内容，剩余1页未读，立即下载