可动画化的人体模型中的结构化局部辐射场方法

174 浏览量更新于2023-10-25 收藏 2.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15893用于人体模型的结构化局部辐射场郑泽荣1，黄汉2，俞涛1，张宏文1，郭艳东2，刘业斌11清华大学自动化系2OPPO研究院摘要从RGB视频中创建一个可动画化的穿着衣服的人体化身是非常具有挑战性的，特别是由于运动建模的困难，对于为了解决这个问题，我们介绍了一种新的表示最近的神经场景渲染技术的基础上。我们表示的核心是一组结构化的局部辐射场，这些辐射场锚定到在统计人体模板上采样的预定义节点。这些局部辐射场不仅利用了形状和外观建模中隐式表示的灵活性，而且还将布料变形分解为骨架运动、节点残余平移和每个单独辐射场中的动态细节变化。为了从RGB数据中学习我们的表示并促进姿势泛化，我们建议在条件生成潜在空间中学习节点平移和细节总的来说，我们的方法能够自动构建各种类型衣服的可动画化的人类化身，而不需要扫描特定于主题的模板，并且可以生成具有新颖姿势的动态细节的逼真图像。实验表明，我们的方法优于国家的最先进的方法在定性和定量。1. 介绍可动画化的人类化身建模在诸如内容创建和娱乐的许多应用中具有重要意义，并且随着计算机图形在电影和游戏中的兴起，虚拟角色已经在我们的生活传统的高质量的人体化身重建方法往往是昂贵和繁琐的，由于在建模的衣服的复杂动力学的困难。此外，他们通常假设特定于受试者的模板[22]的可用性及其与输入帧的准确配准[6，78]，这在实践中很难获得随着近十年来计算机视觉技术的飞速发展，研究人员开始探索在不进行预扫描的情况下自动重建人体虚拟形象的可能性。先锋研究扭曲了一个统计数据-行车录像动画结果图1. 通过我们的方法产生的示例结果。我们的方法可以学习动画人类化身与各种布拓扑结构和现实的动态细节。顶行：驾驶视频，从中提取动画姿势。底部两行：从前视图和后视图渲染的动画结果。校准人体模板（例如，SMPL [40]）来模拟穿着衣服的人体几何形状和外观[2后来采用神经纹理映射和图像到图像网络来实现照片级真实感渲染[36，37，58，65]。最近，使用神经网络隐式编码形状和外观的神经辐射表示也被应用于追求更高保真度的结果[35，49，54]。这些方法通常以规范姿态定义辐射场，并且在SMPL表面的指导下使用线性混合蒙皮（LBS）将其扭曲为实时姿态。尽管上述方法在表示方面存在差异，但我们发现有一个共同点：它们都严重依赖于SMPL模型的骨架或表面来进行布料运动建模。这在基于SMPL拓扑的方法中是显而易见的，无论是使用传统的纹理映射[2即使是最先进的方法，15894隐式场[35，49，54]，研究人员仍然假设皮肤运动可以传播到近似的衣服变形，不幸的是，这只适用于紧身衣服。当将这些方法应用于宽松的衣服时，仅基于身体关节的关节运动不能表达关于褶皱和非刚性变形的完整信息。一些方法学会了从身体姿势配置直接回归布料变形[35];然而，身体姿势和布料细节之间的复杂性差距导致一对多映射问题，导致网络学习平均模糊外观的欠拟合问题。由于这种致命的限制，到目前为止，还没有任何方法能够证明穿着裙子或连衣裙的可动画化的人类角色。为了克服这一局限性，填补空白，我们提出了一个新的表示穿着人类字符。我们的表示是建立在神经辐射场[46]或NeRF的基础上的，因为它在学习静态场景的外观方面表现出色。为了扩展NeRF用于动态角色建模，我们将全局NeRF分解为一组结构化的局部辐射场，这些辐射场附加到SMPL模型上的预定义节点每个局部辐射场负责表示其对应节点周围的局部空间中的形状和外观。局部辐射场可以由人体骨架驱动，同时具有自己的残余运动来表示服装的非刚性变形。此外，每个辐射场以动态细节嵌入为条件，该动态细节嵌入对不能通过节点平移建模的高频动态细节进行通过这种方式，我们的表示以由粗到细的方式分解布料变形：粗层次是骨架运动，中间层次是局部辐射场的残余运动，最细层次是每个辐射场内部的时变细节。然而，采用这种表示进行化身建模并不直接，因为节点相关变量（即，节点残差平移和动态细节嵌入）在实际中是难以获得的。尽管我们可以通过图像证据的朴素优化来获得训练帧的这些变量，但仍然不清楚如何计算不可见的姿势。或者，人们可以训练一个网络，直接从身体姿势回归这些变量，但由于信息不足，这将导致上述拟合不足的问题[6]。为了实现数据拟合和泛化之间的平衡，我们从[6]中得到启发，并在条件生成潜在空间中学习节点相关变量。具体来说，我们为每个局部辐射场引入了一个微小的条件变分自动编码器（cVAE）[68]。以姿态参数为条件，cVAE解码器将潜在瓶颈转换为节点相关变量。对于cVAE编码器的输入，我们发现时间戳[16，57，77]是一个有效的选项，因为由于MLP中的低频偏置，它简单、可区分，并且自然地保证了节点相关变量的时间平滑性[71]。直观地说，时间戳是作为辅助输入提供的，以帮助我们的网络区分不同帧处的相似姿势，而VAE属性可以将潜在空间推到uninformative，从而鼓励网络在推断节点相关变量时主要依赖姿势条件有了所有这些构建模块，我们的网络可以以端到端的方式进行训练，最终产生一个逼真的动态人类化身。总的来说，我们提出的方法提供了新的能力，自动创建一个动画人物一般，动态服装。这是通过仅使用RGB视频来实现的，而无需任何预扫描工作。与严重依赖于裸露人体模板拓扑结构的方法相比，我们的方法在外观学习和运动建模方面都是强大而据我们所知，我们的方法是第一个demonstrates自动人类头像创建的衣服。实验证明，我们的方法优于国家的最先进的方法定性和定量。2. 相关工作基于图像的三维人体重建。传统上，三维人体角色重建是先前的研究集中于使用多视图图像[38，69，73，75，76]或RGB（D）图像序列[3，4，7，12，13，21，23，79，80，82使用数十甚至数百台摄像机也可以获得极高质量的重建结果[10]。为了降低系统设置的难度，已经通过使用神经网络来学习剪影提示[19，48]和立体提示[26]，研究了从稀疏相机视图重建人体模型。最近，提出了各种方法来从单视图RGB图像重建3D人体模型[5，14，25，27，61，62，74、89、90]。例如，PIFu [61]和PIFuHD [62]提出使用像素对齐的图像特征回归深度隐式函数，并且能够重建高分辨率结果。[27]和[25]建议以规范姿势重建3D人体模型，以支持动画。这些方法虽然得到了合理的结果，但都依赖于大规模的三维人体扫描数据集来训练模型，存在重建误差和泛化能力弱的问题相比之下，我们的方法绕过了重建步骤，直接从RGB视频中学习可动画化的化身。神经场景表示和渲染。用神经网络来隐式地表示物体或场景，由于其紧凑性而变得越来越流行15895i=1∈我∈我--…→（��在SMPL上采样的节点移动的规范节点向前蒙皮结构化本地NeRF渲染结果节点剩余移动{Δ��}��身体姿势动态外观嵌入体绘制图2.这是一幅我们穿着衣服的人类形象的插图。在我们提出的方法中，我们表示的动态外观的一个穿着的人的字符使用结构化的局部辐射场附加到SMPL模型上的预定义节点。服装变形，然后建模在一个由粗到精的方式与三组变量，包括身体姿势作为粗的水平，节点的残差平移作为中间水平和动态细节嵌入的局部辐射场作为最精细的水平。强大的代表力。先驱研究提出学习隐式函数，其中形状嵌入到网络输出的等值面中[8，9，11，18，45，51，87]。隐式表示的另一项工作旨在学习场景表示，以便从构成的2D图像合成新视图。它们使用高维特征的体素网格[66]、连续可学习函数[67]或神经辐射场（NeRF）[46]表示静态场景。特别是NeRF，显示出强大的建模视图相关效应的能力，因此吸引了很多关注[17，34，39，44，59，81，85]。它后来通过变形学习扩展到动态场景[15，16，32，33，52，57，64，72，77]。使用神经网络学习人体运动通常更具挑战性，并且之前从统计身体模板中合并的几项工作[30，49，55]请注意，这些作品中的大多数只能播放网络训练的动态序列，而我们的工作旨在动画，这是一个更困难的任务，因为该方法必须推广到新的姿势。动画人类化身。在过去的十年中，已经做出了许多努力来实现用于人类化身的表现力和可为了便于几何学习，为面部[31]、手部[47，60]和最少穿着的身体[28，40，50，53]开发了几个统计参数模板。为了获得穿着休闲服装的动画角色，传统的管道大多预先重建特定于主题的网格模板，然后使用物理模拟生成其运动[20，70]，采用神经场景表示和渲染技术以获得更高保真的结果[35，54，55]。然而，最先进的方法仅展示了紧身服装的结果，而我们的方法在服装拓扑和变形方面更一般3. 表示我们的目标是直接从RGB视频中学习可动画化的虚拟角色，并支持宽松的衣服，如裙子和连衣裙，而无需预先扫描模板。为此，我们提出了一种新的表示，具有很强的能力，建模的形状，外观和动态变形的穿着人类。其核心是一组结构化的局部辐射场，每个辐射场在根据身体姿势以及布料变形移动时对局部空间内的动态外观进行更具体地说，我们首先通过最远点采样在SMPL模型上预定义N个节点。它们在标准SMPL曲面上的坐标用n<$iN表示。由于节点是从SMPL模型中采样的，因此它们中的每一个都具有相关联的蒙皮权重向量ωiRJ，其中J是身体关节的数量。给定时间戳t处的姿态向量θ（t），我们可以使用线性混合蒙皮（LBS）将节点i变换到姿态空间T（t）=<$ωi，jMj（θ（t）），（1）n（t）=T（t）n<$i，（2）信息空间建模[28]或深度学习[6，22，78]。我我对预扫描工作的依赖可以通过变形一般的身体模板来消除，并且提出了几项工作来直接从几何数据[41这些方法中的纹理映射和光栅化步骤后来被神经纹理映射和图像解码器取代，以实现照片级真实感渲染[36，37，58，65]。最近，其中Mj（θ（t））SE（3）是第j个身体关节，ωi，j是ωi的第j个条目。在等式中（2）、节点严格跟随体表运动。为了处理衣服的非刚性变形，我们允许节点独立移动。在数学上，我们将一个时变的残差平移n（t）分配给正则空间中的节点i，并修改15896F我我FΣ∈联系我们F FGH我我我我等式（2）进入：n（t）=T（t）。n<$i+n（t）。（三）最后，我们构建了一个局部的辐射场的影响，每个节点，与一个函数i表示的一个微小的MLP。该MLP将节点i的局部空间中的坐标作为输入，并输出高维特征向量。为了对节点平移不能表示的细粒度动态细节进行建模，我们对局部ra进行了条件化，在动态细节嵌入e（t）上的距离字段。从形式上讲，给定任意点p∈R3我在帧的空间中，t我们（a）（b）（c）（d）图3. 可视化节点相关变量的影响。首先计算其在节点i的局部空间中的坐标为：（a）地面实况参考。（b）不带节点的渲染结果pi=.T（t）−1p−.n<$i+n（t） .（四）残差翻译和动态细节嵌入。(c)没有动态细节嵌入的结果。(d)结果与全套变量。参见第5.3详情之后，我们将其馈送到局部辐射网络i中，并混合所有局部MLP产生的特征向量：wiFi（pi;e（t））将已定空间中的点变换为全局标准空间，并且是以前方法的基础[35，54，63]。即便如此，我们认为这次行动f=i，wi（五）是模糊的，尤其是对于接触身体部位周围的点。相比之下，我们的方法计算半径-其中wi是定义为wi=max{exp（− np−n（t）<$2/2σ2）−n，0}，（6）在局部空间中的任何点的位置，从而解决了模糊性问题。I24. 方法而λ是控制节点影响半径的超参数该混合特征f被馈送到两个附加的MLPG（·）和H（·）中，以计算p的颜色密度：颜色（ p ） =G （ f ， v ），密度（ p ） =H（f），（7）其中vR3是观察方向[46]。总的来说，穿着衣服的角色的动态外观以由粗到细的方式参数化，具有三组变量：身体姿势{θ（t）}、节点残差平移在详细阐述了所提出的表示之后，我们将在本节中转向网络学习。具体地，我们需要确定上述变量以及训练图像序列It的辐射网络的权重，t= 1，2，.，T.图像可以从多视图系统或单目系统捕获。为了合成新姿势的图像，我们还需要以计算与这些姿态相对应的节点残差平移和动态细节嵌入我们-（t）（t）和动态细节嵌入。利用由这些变量和网络（即，、1、2、…N，和），我们可以发射射线并如[46]中那样通过体绘制来绘制图像。我们的代表性的说明在图中给出。二、讨论与最先进的方法相比，我们的表示具有两个优点：• 我们的方法在运动和拓扑方面都具有表达能力尽管我们表示中的节点是从SMPL模型中采样的，但我们的方法并不受其限制。相反，我们的方法允许更多的运动和几何建模自由度，可以为不同的布料拓扑创建化身，这与以前的作品[35，54，58，65]有很大的不同。• 我们的方法没有明确定义一个全球canoni- cal字段，从而避免了在训练过程中需要使用向后蒙皮允许访问训练图像的身体姿势（即，，θ（t），t= 1，2，.，T），其可以使用无标记的MoCap工具如[1，86]来估计。节点残差变换和细节嵌入在以下上下文中被称为4.1. 网络架构为了获得训练帧的节点相关变量并确保动画期间的泛化，我们设计了一个简单的条件变分自动编码器（cVAE）[68]作为每个节点的辅助网络。每个辅助网络由一个编码器和一个解码器组成，两者都是用微小的MLP实现的。遵循SCANimate [63]的实践，该cVAE的条件变量是姿势向量乘以蒙皮权重和注意力图：θ（t）=（W·ωi）<$θ（t），15897（8）15898◦我我L=（14）EBDILLL2×RL=（13）第十三章·| 联系我们L如果给定了看不见的姿态，则cVAE的编码器一半将被省略，并且z（t）将被设置为零。rec¨我我我我我r¨2其中W是将蒙皮权重转换为姿势注意力权重的权重图，如[63]所示，并表示元素乘积。在训练过程中，编码器将时间戳t作为输入，θ（t）作为条件，并产生高斯分布的参数，从中采样潜在代码z（t）：μ（t），σ（t）<$E（t，θ（t）），z（t）<$N（μ（t），σ（t）），（9）我我以身体姿势为条件，然后将潜在代码解码为节点残差转换和动态细节嵌入：（1）（2）（3）（4）（5）（6）（7）（8）（9）（9）（10）（10）（4）和Eqn.（5）分别。在该网络中，时刻用于区分不同时刻的相似姿态，从而避免了一对多映射问题。由于cVAE中的KL发散损失，存在使解码器主要依赖于用于预测的姿态条件的偏好，并且时间输入仅提供良好再现所需的信息。在我们的实现中，我们在将时间戳和坐标馈送到MLP之前使用傅立叶编码来增强它们[46]。图4说明了训练期间我们网络中的数据流。一旦训练完成，我们就可以为训练帧或新姿势渲染模型。为了渲染训练序列，我们使用完整的网络，设z（t）=μ（t），（9）消除随机性。当图4. 网络中的数据流示意图。时间戳和身体姿态特征首先通过cVAE，其产生局部辐射场的节点残差平移和动态细节嵌入。对于给定空间中的一点，我们计算它在每个局部域中的局部坐标，然后查询它的特征。最后，将所有特征混合并解码为颜色和密度值。嵌入正则化ebd惩罚大量的动态细节嵌入：22我在[51]中也使用了类似的损失;在这里，我们利用它来鼓励嵌入仅编码不能由节点位置表示的信息KL-发散损失KL是标准的VAE KL-发散惩罚[29]：i iΣ我LKL=我4.2. 训练损失我们的网络可以以端到端的方式进行训练。训练损失由四个部分组成，包括重建损失、节点平移正则化、嵌入正则化和KL发散损失：L= λrecLrec + λtranssLtranss + λebdLebd +λKLLKL。下面我们将详细讨论它们。为了便于标记，我们在这一小节中删除了所有变量的上标（t）Reconstruction Lossrec测量渲染颜色和真实像素颜色之间的均方误差：L=L-（r|θ，{n}，{e}）−C，（12）r∈R实现细节我们架构中的局部辐射网络和cVAE采用并行微小MLP以组1D卷积的形式实现。为了加速训练和推理，我们利用这样一个事实，即对于构成空间中的任何点，只有一小部分节点对其颜色和密度值有影响我们使用 Adam 优化器来训练我们的模型。在一个NVIDIA 3090 GPU上训练整个模型大约需要25小时，迭代次数为50万次，同时渲染分辨率为512 512在一个NVIDIA 3080TI GPU上通常需要5秒。请参阅补充材料。的双曲余切值。5. 实验数据集和指标。用于评估和比较，基线方法，我们主要使用以下数据集：（1）哪里是每个批次中的光线集，Cr是地面真实像素颜色，C（θ，ni，ei）是体渲染函数，其表示形式在第节中定义。3 .第三章。节点平移正则化transms简单地约束每个节点的位置变化，以便稳定训练：22[22]中的两个服装序列，使用100台摄像机，但为了计算效率，我们手动选择了其中的20个视图;（2）用10台摄像机捕获[24]中的一个毛衣序列;（3）两个序列从ZJU-MoCap [55]捕获的23台相机;和（4）我们自己收集的三个多视图序列与24台相机1。对于定量评估，我们使用两个标准1数据收集和披露已获得志愿者的同意我时间戳��∑��∘��Δ��身体构成·，节点转换点Loca lCoor dinate=��（−− −Δ）��色密度×（，）��输入输出中间结果神经网络（十一）KL（N（µi，σi）<$N（0，I））.（十五）15899图5.我们方法的示例结果。我们在各种数据集上训练我们的网络，并展示了新颖的姿势合成结果。指标：峰值信噪比（ PSNR ）和结构相似性指数（SSIM）。有关数据收集和预处理的更多详细信息，请参见Supp.Mat。.5.1. 结果我们为每个个体对象训练我们的模型，并在图中展示了一些示例动画结果1和图五、结果涵盖了各种身体姿势和不同的衣服风格。如这些图所示，我们的方法不仅优雅地处理不同的布料类型，而且还生成逼真的动态皱纹。请看我们的补充视频以获得更多的可视化。虽然我们主要使用多视图视频进行评估，但我们的方法也能够从单视图输入中学习化身。图6展示了我们的方法在PeopleSnapshot数据集[4]上的结果，该数据集捕获了表演者用单目摄像机以A姿势旋转360度。如图所示，我们的方法也可以很好地处理这种非常简单的输入，进一步证明了它的泛化能力。5.2. 比较我们主要将我们的方法与Animatable NeRF [54]和Neural Body [55]进行比较。我们省略了其他相关的方法，因为它们已经在[54]中进行了比较。我们首先在[22]的数据集和我们自己的数据上与Animatable NeRF [54]进行比较。我们将每个视频分为训练帧和测试帧，使用来自所有视图的训练帧训练网络，并使用测试帧测试动画质量。定性结果如图所示。7 .第一次会议。与文献[54]相比，该方法可以产生更多的外观细节，并生成非刚性模型。15900训练姿势+小说观新颖姿势+小说观表1.在新姿势合成方面与Animatable NeRF [54PSNR（↑）SSIM（↑）[54]第54话我的世界Hoody22.4324.940.8930.928夹克0.9090.927服装119.52 23.43服装220.4922.19图6. 我们在PeopleSnapshot数据集上的结果。给定记录人以A姿势旋转的单眼视频（顶部），我们的方法能够创建支持新颖姿势生成和自由视图合成的人类化身（底部）。地面实况动画NeRF Ours图7. 与Animatable Nerf[54]在新姿势合成方面的比较。裙子的下摆。数字结果以Tab表示。1也证明了我们的方法可以实现比[54]更高质量的结果为了与Neural Body[55]进行公平的比较，我们使用他们的数据集并遵循他们论文中的相同协议在这个比较中，我们只使用来自四个视图的300个图像帧来训练我们的网络，如[55]中所做的那样。我们评估训练帧的新视图合成的质量，表2.在ZJU-MoCap数据集上与Neural Body [55]和An-imatableNeRF [54PSNR（↑）SSIM（↑）[55][54]第五十五话：我的世界小行星38725.7924.3828.320.9280.9030.953看不见21.6021.2923.610.8700.8600.905小行星39229.4427.4330.790.9460.9190.958看不见25.7624.5926.740.9090.8890.927图8. 在新颖的视图合成和姿势生成方面与神经体[55]进行放大以获得更好的视图。看不见的身体姿势。Tab中的结果。2表明我们的模型在两个指标上都比[55]实现了更高的准确性。事实上，我们的方法不仅在学习外观细节（如徽标）方面表现更好，而且在推广到未看到的姿势方面也表现更好，如图8所示。我们还在Tab中报告了AnimatableNeRF [54]二是完整性。15901(a)（b）（c）（d）（e）（f）图9. 评估我们的cVAE设计。我们用确定性回归网络代替cVAE，并比较训练帧的重建结果。（a、d）地面实况。（b，e）确定性基线的结果。（c，f）我们的结果。5.3. 消融研究在本小节中，我们对我们的方法设计的主要组成部分我们提出的定量结果，以及一些额外的实验在补充。.节点相关变量。为了了解节点相关变量在该方法中的作用，我们将训练好的模型用于一个服装序列，并对其进行实验。1）没有节点残余平移或动态细节嵌入，2）具有节点残余平移但没有动态细节嵌入，以及3）具有节点平移和细节嵌入两者。结果如图3所示。如图所示，当节点残差平移和动态细节嵌入都被禁用时，模型仅恢复了人工运动，而无法渲染运动角色的正确形状。在仅启用节点残差平移的情况下，可以恢复衣服下摆的非刚性变形，但是面部区域上的阴影与图像证据不只有同时启用节点残差平移和动态细节嵌入，才能忠实地重建所有外观细节。cVAE。我们评估我们的选择cVAE为基础的架构，用一个确定性的网络，直接回归的身体姿势的节点相关变量这个基线网络是在与我们提出的模型相同的设置下训练的。为了比较数据拟合的性能，我们渲染了训练帧的图像，结果如图9所示。毫不奇怪，在没有具体考虑潜在的一对多映射问题的情况下，天真地学习从姿势参数到节点相关变量的映射将产生平均外观，并且即使对于训练图像也无法恢复动态服装褶皱。相比之下，我们的方法可以比基线方法更好地适应训练数据，从而实现逼真的动画和渲染。时间戳输入。还有其他选择，可以用作cVAE输入，用于解决一对多映射问题。例如，我们可以使用可学习的每帧潜在嵌入。我们选择时间戳的动机是，MLP中的低频偏差可以（a）（b）（c）（d）图10. 对时间瞬时输入的评估。我们用可学习的每帧潜码替换时间戳输入，并计算节点的轨迹。(a)培训视频。(b)我们把轨迹可视化的节点。(c)使用可学习的潜在代码的节点轨迹。(d)节点轨迹采用所提出的方法。确保节点相关变量的时间平滑性，特别是对于节点残差平移。通过这种方式，我们避免了对时间平滑性的额外损失的需要。为了验证这一动机，我们进行了一项消融研究，用可学习的潜在嵌入替换时间戳输入。然后我们比较节点轨迹，如图10所示。如结果所示，在不限制时间平滑度的情况下，基线方法学习噪声节点运动，而我们的方法的轨迹更加平滑，物理上合理。6. 讨论结论我们介绍了一种新的方法，使用结构化的局部辐射场生成可控的穿着人体化身。它对外观和运动都具有表现力，因为我们利用了神经场景表示的优势，同时明确考虑了衣服的运动层次。与现有的方法相比，我们的方法可以处理更一般的布料风格，并生成逼真的动态细节。限制. 我们的方法的性能取决于训练数据中的姿势方差，当动画姿势与训练姿势完全不同时，我们的方法可能无法生成合理的结果;请参见Supp. Mat。以获取示例。此外，服装的动态变形和褶皱变化涉及复杂的物理过程，这可能超出了我们的模型的表示能力。最后，我们的方法假设训练图像的身体姿势估计准确;这就是为什么我们主要在多视图数据集上进行实验。对于单眼视频，由模糊性引起的错误姿态估计可能最终导致渲染伪影。潜在的社会影响。我们的方法可以自动创建任何人的数字双胞胎。它可以与现有的Deep Fake算法相结合，通过角色动画和重演生成假视频，这需要在部署该技术之前仔细解决。谢谢。本论文得到国家重点研发 & 计划项目（2021ZD0113503）和国家自然科学基金资助项目（No.62125107和No.62125107）的资助。62171255。关注节点15902引用[1] https://github.com/zju3dv/EasyMocap网站。4[2] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个RGB摄像机重建穿着衣服的人。在CVPR，2019年。第1、3条[3] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.从单目视频的详细的人类化身。在3DV，2018年。一、二、三[4] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.基于视频的三维人体模型重建。在CVPR，2018年。一、二、三、六[5] ThiemoAlldieck ， GerardPons-Moll ， ChristianTheobalt，and Marcus Magnor. Tex2shape：从单个图像中获得详细的完整人体几何形状。在ICCV，2019年。二、三[6] TimurBag autdinov，ChengleiWu，ThomasSim on，Fabia'nPrada，Takaaki Shiratori，Shih-En Wei，Weipeng Xu，Yaser Sheikh，and Jason Saragih.驾驶信号感知全身化身。ACM TOG，40（4），2021年7月。一、二、三[7] Federica Bogo，Michael J Black，Matthew Loper和JavierRomero。从单目rgb-d序列对运动中的人进行详细的全身重建。在ICCV，2015年。2[8] 阿尔贾兹 ·博齐奇，巴勃罗·R. Palafox， MichaelZollhoüfer，JustusThies，Angela Dai，and Matthias Nießner.用于全局一致非刚性重建的神经变形图。在CVPR，2021年。3[9] 陈志勤和张浩。学习生成式形状建模的隐式字段。在CVPR，2019年。3[10] Alvaro Collet 、 Ming Chuang 、 Pat Sweeney 、 DonGillett 、 Dennis Evseev 、 David Calabrese 、 HuguesHoppe、Adam Kirk和Steve Sullivan。高质量的可流式传输的自由视点视频。ACM TOG，34（4）：69，2015. 2[11] Boyang Deng ， JP Lewis ， Timothy Jeruzalski ， GerardPons- Moll，Geoffrey Hinton，Mohammad Norouzi，andAndrea Tagliasacchi. NASA：神经关节形状近似。在ECCV，2020年。3[12] 作者：Philip L. Davidson，Sean Ryan Fanello，SamehKhamis，Adarsh Kowdle，Christoph Rhemann，VladimirTankovich，and Shahram Izadi. Motion2fusion：实时容积性能捕获。ACM TOG，36（6）：246：1-246：16，2017。2[13] Mingsong Dou，Sameh Khamis，Yury Degtyarev，PhilipDavidson，Sean Ryan Fanello，Adarsh Kowdle，SergioOrts Escherano ， Christoph Rhemann ， David Kim ，Jonathan Taylor，et al. Fusion4d：Real-time performancecapture of concrete- ing scenes.ACM TOG，35（4）：1-13，2016. 2[14] ValentinGabeur， Jean-Se' bastienFranco ， Xa vierMartin ，Cordelia Schmid，and Gregory Rogez.塑造人类：从单个图像进行非参数3D人体形状估计。在ICCV，2019年。2[15] GuyGafni、JustusThies、MichaelZollhoüfer 和MatthiasNießner。用于单目4d面部化身重建的动态神经辐射场。在CVPR，2021年。3[16] Chen Gao ， Ayush Saraf ， Johannes Kopf ， and Jia-BinHuang.从动态单目视频合成动态视图。ICCV，2021。二、三15903[17] StephanJ.Garbin ， MarekKowalski ， MatthewJohnson，Jamie Shotton和Julien P. C。瓦伦丁Fastnerf：200fps的高保真神经渲染。ICCV，2021。3[18] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas A.放克豪瑟三维形状的局部深度隐式函数。在CVPR，2020年。3[19] 安德鲁·吉尔伯特、马可·沃利诺、约翰·科洛莫斯和阿德里安·希尔顿。从最小摄像机视点捕获体积性能。在ECCV，2018。2[20] 关湖Reiss，D. Hirshberg，A. Weiss和M. J.布莱克。Dressing Any PErson ACM TOG（Proc. SIG-GRAPH），31（4）：35：1-35：10，2012年7月。3[21] Kaiwen Guo ， Feng Xu ， Tao Yu ， Xiaoyang Liu ，Qionghai Dai，and Yebin Liu.使用单个rgbd相机进行实时几何、运动和运动重建。ACM TOG，36（3）：32：1-32：13，2017。2[22] Marc Habermann，Lingjie Liu，Weipeng Xu，MichaelZoll- hoefer，Gerard Pons-Moll，and Christian Theobalt.实时深度动态人物。ACM TOG，40（4），2021年8月。一二三五六[23] Marc Habermann，Weipeng Xu，Michael Zollhoefer，Gerard Pons-Moll，and Christian Theobalt.Livecap：从单目视频中实时捕获人类表演ACM TOG，38（2）：1-17，2019。2[24] Marc Habermann ，Weipeng Xu， Michael Zollhofer ，Gerard Pons-Moll，and Christian Theobalt. Deepcap：使用弱监督的单一人员绩效捕获。在CVPR，2020年。5[25] Tong He ， Yuanlu Xu ， Shunsuke Saito ， StefanoSoatto，and Tony Tung. Arch++：重新审视了动画准备好的穿着人类的重建。ICCV，2021。2[26] Zeng Huang，Tianye Li，Weikai Chen，Yajie Zhao，Jun Xing ， Chloe LeGendre ， Linjie Luo ， ChongyangMa，and Hao Li.从非常稀疏的多视图性能捕获的深度体积视频。在ECCV，2018。2[27] Zheng Huang ， Yuanlu Xu ， Christoph Lassner ， HaoLi，and Tony Tung. Arch：可动画化的衣服人的重建.在CVPR，2020年。2[28] Hanbyul Joo Tomas Simon和Yaser Sheikh Total capture-ture：用于跟踪面部、手部和身体的3D变形模型。在CVPR，2018年。3[29] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。见ICLR，2014年。5[30] Youngjoong Kwon，Dahun Kim，Duygu Ceylan，andHenry Fuchs.神经人类表演者：学习人类表演渲染的可推广的辐射场。在神经信息处理系统的进展，2021年。3[31] 李天野、蒂莫·博尔卡特、迈克尔。J.布莱克、郝莉、哈维尔·罗梅罗。从4D扫描中学习面部形状和表情的模型。ACM TOG（SIGGRAPH Asia），36（6）：194：1-194：17，2017. 3[32] 李田，米拉Sla vchev a，迈克尔Zollh oüfer，西蒙格林，克里斯托夫Lassner，Changil Kim，坦纳施密特，史蒂芬Lovegrove，迈克尔Goesele，和Zhaoyang Lv。神经3d视频合成。CoRR，abs/2103.02597，2021。3[33] Zhengqi Li，Simon Niklaus，Noah Snavely，and OliverWang.神经场景流场用于动态场景的时空视图合成在CVPR，2021年。315904[34] Lingjie Liu ， Jiatao Gu ， Kyaw Zaw Lin ， Tat-SengChua，and Christian Theobalt.神经稀疏体素场。神经IPS，2020年。3[35] Lingjie Liu ， Marc Habermann ， Viktor Rudnev ，Kripasindhu Sarkar，Jiatao Gu，and Christian Theobalt.神经演员：具有姿势控制的人类演员的神经自由视图合成。ACM TOG（ACM SIGGRAPH Asia），2021年。一、二、三、四[36] LingjieLiu ， Weipeng Xu ， MarcHabermann ，MichaelZollh oüfer，FlorianBernard，Hyeongw ooKim，Weenping Wang，and Christian Theobalt.通过学习动态纹理和渲染到视频的翻译来进行神经人类视频渲染。IEEE TVCG，PP：1-1，05 2020. 第1、3条[37] LingjieLiu ， WeipengXu ， MichaelZollhoüfer ，HyeongwooKim ， Florian Bernard ， Marc Habermann ，Wenping Wang，and Christian Theobalt.人类演员视频的神经渲染和重演ACM TOG，38（5）：139：1-139：14，2019。第1、3条[38] Yebin Liu，Qionghai Dai，and Wenli Xu.一种基于点云的自由视点视频多视点立体算法。IEEE TVCG，16（3）：407-418，2009年。2[39] Stephen Lombardi、Tomas Simon、G

下载后可阅读完整内容，剩余1页未读，立即下载