DeepMultiCap：使用稀疏多视角相机的多人表演捕获

31 浏览量更新于2023-10-13 收藏 2.32MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1DeepMultiCap：使用稀疏多视角相机的多个字符的表演捕获ZhengYang *，Shao Ruizhi*，Zhang Yuxiang， Tao Yu，Zheng Zerong，Qionghai Dai，Liu Yebin清华大学图1：仅给定稀疏的多视图RGB视频（左侧和中间为6个视图，右侧为8个视图），即使在多人交互场景的具有挑战性的遮挡下，我们的方法也能够重建具有随时间变化的表面细节的各种3D形状。摘要我们提出了DeepMultiCap，这是一种使用稀疏多视图相机进行多人表演捕获的新方法。我们的方法可以捕获时变的表面细节，而不需要使用预扫描的模板模型。为了解决紧密交互场景的严重遮挡挑战设计了一个有效的注意力感知模块，用于从多视点图像中获取细粒度的几何细节，从而生成高保真度的结果。除了空间注意方法，对于视频输入，我们进一步提出了一种新的时间融合方法，以减轻噪声和时间不一致的运动字符重建。对于定量评估，我们贡献了一个高质量的多人数据集，MultiHuman，其中包括150个静态场景与不同程度的遮挡和地面真实3D人体模型。实验结果表明，国家的最先进的性能，我们的方法和真实的多视点视频数据的推广，这比以前的作品了很大的利润。1. 介绍近年来，基于视觉的人的行为捕捉技术取得了很大的进展，这对提高人的行为捕捉能力具有重要的意义。* 平等贡献代码和数据集：http://liuyebin.com/dmc/dmc.html能够实现各种应用（例如，远程呈现、体育直播、游戏和混合现实），具有增强的交互式和沉浸式体验。为了实现令人惊讶的详细的几何形状和纹理重建，引入了甚至配备有复杂照明系统的密集相机装置[56，8，29，28，20，2]。然而，极其昂贵和专业的设置限制了它们的流行。尽管其他轻型多视图人类行为捕获系统即使在实时情况下也取得了令人印象深刻的结果，但它们仍然依赖于预扫描模板[36，35]、定制设计的RGBD [15，13]或商业RGBD [61，62]传感器，或限于单人重建[51，18，25，19]。受益于用于3D表示的深度隐式函数的快速改进，最近的方法[47，48，32]能够仅从单个RGB图像恢复3D身体形状。与基于体素的[53，69]或基于网格的[40，1]表示相比，隐式函数引导深度学习模型以更有效的方式注意几何细节具体而言，PIFu [47，32]仅使用RGB图像实现了合理的单个人体重建，并且PIFuHD [48]进一步利用法线图和高分辨率图像来生成更详细的结果。尽管在数字化3D人体方面表现突出，但PIFu [47]和PIFuHD [48]在将框架扩展到多人场景和多视图设置时都存在一些缺点。首先，PIFu中的基于平均池化的多视图特征融合策略将导致当高频细节（例如，法线贴图）包括在多个62396240查看功能。更重要的是，在这两种方法中，在多人表演捕获场景中，重建结果仅在没有严重遮挡的理想输入图像下才有希望。[47，48]的重建性能将由于严重闭塞导致的观察不足而显著恶化。为了解决上述问题，我们提出了一个新的框架来执行多人重建从多视图图像。首先，受[54]的启发我们设计了一个空间注意力感知模块来自适应地聚集来自多视图输入的信息。该模型能有效地捕获和融合不同视点的几何细节，并最终显著改善多视点条件下的结果此外，对于多人重建，我们进一步将注意力模块与参数模型相结合，即，SMPL在保持细粒度细节的同时增强了鲁棒性SMPL模型用作3D几何代理，其补偿发生遮挡的缺失信息。通过SMPL提供的语义信息，该网络即使在近距离交互场景下也能够重建完整的人体。最后，在处理视频中的运动特征时，提出了一种通过对符号距离场（SDF）进行时域加权的时域融合方法，进一步提高了重建动态三维序列的时域一致性。另一个紧迫的问题是，缺乏对社区中多人交互场景的高质量扫描，这使得难以准确评估像我们这样的多人表演捕获系统。为了填补这一空白并更好地评估我们的系统的性能，我们贡献了一个新的数据集MultiHuman，它由150个高质量扫描组成，每个扫描包含1到3个多人交互动作（包括自然和密切的交互）。根据场景中的遮挡程度和人数，将数据集进一步划分为几个实验结果表明，国家的最先进的性能和良好的泛化能力，我们的方法。总的来说，这项工作的主要贡献可归纳如下：• 我们提出了一个新的框架，高保真多视图重建多人交互场景。通过利用人的形状和姿势先验来解决由严重闭塞所引入的模糊性，即使在每个视图中具有部分观察，我们也实现了最先进的性能。• 我们设计了一个有效的空间注意力感知模块来获得多视图设置的细粒度细节，并引入了一种新的时间融合方法来减少移动重建的不一致性从视频输入字符。• 我们贡献了一个非常高质量的3D模型数据集，包含150多人交互场景。该数据集可用于训练和评估的相关主题在未来的研究。2. 相关工作单视图性能捕获已经提出了许多方法来从单视图输入重建详细的几何形状。典型的技术包括轮廓估计[40]、深度估计[17，50]和模板估计[17，50]。基于变形[1，71，21]。此外，可以结合SMPL [37]回归或优化以生成更可靠和稳健的输出，如[69，68，4]所示。实时方法可以借助单个深度传感器[60，62]或通过创新计算和渲染算法[32]。关于这些方法中使用的3D表示，我们可以将它们分为两类：[2019 - 05- 15][2019 - 05 - 15][2019- 0 5 - 1 5 ] [ 2 0 1 9 - 0 5 -1 5 ]显式[47，48，25，26，7，11，5，58，49]重建方法。与传统的显式表示相比，隐式表示在特定领域的形状学习和细节保持方面显示出一定的优势例如，PIFu [47]将表面定义为函数f的水平集。类似地，[25]定义了表面点的概率场，ARCH [26]预测了3D占用图。然而，上述所有方法主要集中在单人重建，并且它们仍然难以实现多人场景下的精确重建。多视图性能捕获运动捕获已经被开发用于在多人交互场景中进行精确的运动预测[3，36，35，28，46，45，67，65，30、41、52、34、63]。其中一些甚至实现了实时性能[6，12，66，39]。然而，这些作品只捕捉骨架运动，而不是详细的几何形状。关于多视图几何重建，先前的研究使用基于模板的变形方法[10，55，18]，骨架轨道[55，18]或基于融合的技术[14]。除了长的计算时间之外，这些方法在映射纹理、处理拓扑变化或处理剧烈的帧到帧运动方面表现出不足。此外，上述方法还示出了对于多人捕获的有限适应性，因为它们不能有效地处理遮挡。鲁棒的质量重建方法通常具有令人禁止的依赖性和约束。一些方法依赖于密集视点[8，29]甚至受控照明[56，20]来重建详细的几何形状。多视图RGBD系统的另一个分支[15，13，61，70，42]实现了令人印象深刻的实时性能捕获结果，即使对于受益于强深度观察的多人场景也是如此。注意，Huang et，al.[25]还提供了体积捕获AP。6241图2：我们系统的管道。利用估计的SMPL模型和分割的多视图，我们设计了一个空间注意感知网络和时间融合方法来分别重建每个字符。目前，已经提出了使用非常稀疏视图的RGB输入来实现高质量结果的方法，但是它们仅关注单人重建，而没有考虑如何解决由多人遮挡引入的基于注意力的网络除了注意力机制在自然语言处理中的巨大成功[54]之外，基于注意力的网络在视觉任务中取得了突出的表现，包括图像分类[57]，图像分割[64，59，33]，超分辨率[9]，多视图立体[38]和手部姿势估计[24]。在这些工作中，注意力机制被用来捕捉嵌入特征的相关性或层次结构的上下文关系特别是，Luo等人。 [38]提出了一种注意力感知网络AttMVS，用于合并来自多视图场景的上下文信息。注意力引导的正则化模块用于更鲁棒的预测。在[24]中，Lin等人设计了一个非自回归Transformer来学习手部关节之间的结构相关性。最近的研究结果[16]表明，自我注意机制[54]对视觉任务中的严重遮挡非常稳健。3. 概述我们的方法概述如图2所示。以分割的多视点单人图像和相应的SMPL作为输入，系统输出重建的3D人。结果被直接组合在一起而不需要修改相对位置，因为多视图设置确保了不同个体之间的3D空间为了获得输入，我们首先通过轻量级总捕获方法[67]通过从多视图视频估计的3D关键点拟合SMPL-X [43]对于多人分割，我们参考自校正方法[31]并使用SMPL投影图来跟踪多视图场景中的不同角色。最后，三维人体可以通过基于像素对齐隐函数的空间注意力感知网络生成，并且当视频输入中的时间信息可用时，通过时间融合方法进一步抛光，这将在第4节中详细描述。3.1. 初步我们的方法是基于隐函数。隐式函数将3D模型的表面表示为占用场函数F的水平集，例如F（X）= 0.5。具体来说，PIFU [47]将3D点与条件变量结合起来，以制定像素对齐的隐式函数：F（Φ（x，I），z（X））=s：s∈[0，1]（1）其中，对于图像I和给定的3D点X，x= Π（X）是图像平面上的2D投影坐标，z（X）是相机空间中的深度值，并且Φ（x，I）是位置X处的图像嵌入特征。在PIFu中，训练多层感知器（MLP）来拟合F。为了提高重建结果的质量，PIFuHD [48]在将高分辨率图像添加到精细级网络的同时，将原始PIFu框架FH（Φ（x，IH，NF，NB），N（X））=s：s∈[0，1]（2）其中，IH、NF、NB是高分辨率图像、预测的正面和背面法线图，并且X（X）是从粗略级别中的中间特征提取的3D嵌入。更详细的人体模型，可以重建与额外的信息所带来的不断增加的分辨率和高频率的细节，在正常的地图。对于多视图图像，在PIFu [47]中提出了一种简单的策略来提取多视图特征，即，对来自MLP的中间层的嵌入执行均值池化。然而，这种简单的方法可能会导致细节的丢失，甚至在现实世界的情况下崩溃，特别是当多视图特征不一致时，由于到不同视图和遮挡中的各种深度4. 单人重建从多个视点重建单个人是一个具有挑战性的问题。主要关注的是从不同的视图中提取观察的Meta信息。为此，我们提出了一种新的基于自注意机制的特征融合模块，它可以有效地帮助网络感知图像中的几何细节6242Q∈K∈√图3：注意力感知网络的架构我们利用两级粗到细框架（左）和基于自注意的多视图特征融合模块（右）。在粗层使用人体先验SMPL来保证重建的鲁棒性，在细层使用专门设计的SMPL全局法向图来更好地捕捉细节。为了有效地合并多视图特征，我们利用自注意机制从不同的观察中提取Meta信息，这显着提高了重建质量。多视图场景。为了解决遮挡带来的不一致性和信息丢失，我们将注意力模块与参数模型相结合，以增强重建的鲁棒性，同时保留细粒度的我们的网络架构如图3所示。遵循PIFuHD [48]，我们的方法建立在一个由粗到细的框架上。以图像和SMPL模型为条件的粗级确保置信结果，并且细级通过利用高分辨率来细化重建。分辨率图像特征图（512×512）。研究结果可进入线性层和自我注意机制被应用：φTφsattention（φq，φs，φt）=softmax（√d）φt（3）其中φq = φmW q，φs = φmW s，φt = φmW t表示由可学习权重W嵌入的查询、源和目标特征，并且φmRn×dk，其中d k作为嵌入大小。点积结果除以dk以防止当时间信息可用于视频输入时，通过时间融合方法进一步抛光利用所提出的空间注意和时间融合框架，重建保持鲁棒性和高质量。4.1. 注意力感知的多视点特征融合在PIFU [47]中，多视图重构的简单策略是对来自MLP中间层的多视图特征嵌入进行平均。我们认为，该方法是不够有效的合并几何细节从多视图场景，这可能会导致信息丢失。如图4所示，当该策略应用于PIFuHD [48]时，我们获得了更平滑的输出。几何特征可能不保持一致，因为可视区域随视图而变化。平均池方法不能有效地处理这些情况。为了捕获不同视图之间的相关性，受[54]的启发，我们提出了一种基于自注意机制的多视图特征融合方法。该模块的详细架构如图3所示。在实践中，给定η个观察，多视图特征被堆叠在一起作为φm，其然后被嵌入有三个不同的梯度消失问题对于线性权重W，我们使用多头注意策略[54]，即Wq，WS，WtRnhead×dk，将多视图特征编码为n head不同的嵌入子空间，允许模型更好地共同注意不同的几何图案。作为结果，通过softmax函数通过计算查询特征φq和源特征φs中的视图之间的相似度来获得n个观察的权重。显着的共同可见的细节往往有很大的权重，并将被保持，而不可见的区域，导致小的权重对输出的影响很小。最后，我们将线性层和注意力层堆叠起来，形成一个自注意力编码器，如[54]中所提出的然后，元视图预测被生成为：FT（X）=gT（T（φm））（4）其中T（Φm）是自注意编码器的特征输出，并且隐式函数g_T预测占用场。预期输出元视图特征包含全局空间信息。如图4所示，当将注意力模块与PIFuHD [48]相结合时，我们能够捕获并保留观察结果增加的细节。6243NW−ΣMF4.2. 嵌入参数化人体模型虽然注意力感知特征融合模块可以有效地从多视图中挖掘细节，但在没有辅助3D信息的情况下，当信息因遮挡而丢失时，网络很难做出合理的为了解决这个问题，我们结合了强度的注意机制和参数模型。参数化人体模型（如SMPL）包含人体的姿态和形状信息。利用三维卷积网络提取SMPL的语义特征，进行几何推理。为了提高注意力模块的效率，受[54]中引入的位置编码的启发，我们进一步通过渲染SMPL全局法线映射来设计信息视图表示。全球图4：当将PIFuHD [48]扩展到多视图时，平均池化方法（左）导致更平滑的输出，而注意力模块（右）有助于保留细节。其中t，i是p的最近SMPL顶点集，t，i，j是SMPL顶点集xvj，t的混合权重，并且地图为网络提供指导，以识别多视图观察中的特定可见身体部位，并且可以容易地提取对应的几何特征wt，j→i= exp（ pi，t−vj，tσ2t我=j∈Nt，iwt，j→i（八）特别地，为了绘制全局法线映射，SMPL被转换到规范模型空间，其中RGB颜色从法线向量获得，并且可以应用标准绘制过程。在多人场景中，虽然单个人的图像可能由于遮挡而变得残缺不全，但SMPL提供的额外信息弥补了缺失部分，并在不同视角下保持一致，从而显著提高了重建结果的质量和鲁棒性。利用SMPL，我们重写了两级像素对齐函数Eqn。1和Eqn. 二、粗略水平具有公式：是vert e xvj ， t 的权重。考虑到在时间t和t’处的估计的SMPL模型，然后可以通过标准混合蒙皮将重构的顶点Vt扭曲到时间t’Vt'←t=W（W−1（Vt，J（βt），θt，Wt），J（βt'），θt'，Wt）（九）其中W是指蒙皮过程，并且J、β、θ是SMPL参数。使用变形网格，我们计算符号距离场（SDF）并执行均值池以生成连续重建：FL（X）=gL（ΦL（x，I），Ψ（X，VM））（5）和精细水平：1S融合（t）=h tΣ'∈Ft S（t←t′）（10）FH（X）=gH（ΦH（x，I，NF，NV），ΩL（X））（6）其中，VM表示SMPL的体积表示，Ψ（X，VM）是SMPL语义特征，NF，NVM表示预测的正面法线图和渲染的SMPL全局法线图，并且ΩL（X）是来自粗略级别的3D嵌入。请注意，这里我们在SMPL模型空间下执行重建，其中SMPL被归一化为单位立方体，允许在训练和推理期间进行相同的设置。然后将重建结果转换到世界空间并对齐在一起。4.3. 时间融合对于视频输入中的运动字符，由于可见部分的变化，连续帧之间可能会出现不一致。为了解决这个问题，我们提出了一个简单的时间融合方法。假设pi，t是在时间t的重建网格的顶点，我们首先通过以下公式计算混合权重：其中S表示SDF，t是大小为h的滑动时间窗。在我们的方法中，h被设置为3以获得一致的结果，同时保持细节。5. 扩展到多人重建多人重建是通过分别重建每个个体来实现的。关键的挑战是训练网络以保持对交互场景中的遮挡的鲁棒性为此，我们在培训期间添加手工制作的咬合。我们首先从Twindom和THuman2.0 [61]收集了1700个单人模型，以构建大规模数据集。为了模拟多人的情况，我们通过太极[23]渲染图像，并将其他人随机投影到面具上，其中可以生成从非遮挡到严重遮挡的各种情况。数据集中的高质量三维模型使我们能够渲染照片般真实的图片，因此网络可以被训练成具有良好的泛化能力的真实世界数据。6244ΣWWt，i =j∈Nt，iwt，j→iwt，ij（七）https://web.twindom.com/62456. 数据集和实验在本节中，我们将解释我们的实验设置和结果。我们强烈建议读者参考补充文档和视频，以了解更多实施细节，并更好地可视化我们的数据集和结果。6.1. 多人数据集当前的人类数据集仅提供单人扫描（Twindom和THuman2.0 [61]）或3D骨架和可变形参数模型[29，27]。缺乏对多人场景的高质量扫描限制了社区的发展。为此，我们提出了多人数据集，这是收集使用一个密集的摄像机装备有128 DLSR和商业摄影测量软件。该系统也用于构建THuman2.0 [61]。我们的数据集包含150个多人静态场景。总共有278个角色，大部分是穿着休闲服的大学生。每个场景包含1到3个人，其中每个模型由大约300，000个具有照片级真实感纹理的三角形组成。为了评估我们的方法，我们将数据集按遮挡程度和人数划分为不同类别，即，30个单人场景，18个被遮挡的单人场景（被不同物体遮挡），46个自然交互的两人场景，30个紧密交互的两人场景，以及26个三人场景。6.2. 评价我们将我们的方法与当前最先进的方法，即PIFu[47]、PI-FuHD [48]和PaMIR [68]（PIFu + SMPL）进行比较。所有的方法都是用相同的设置训练的，如第2节所述五、对于PIFuHD，在我们的实现中不使用背面法线贴图，并且通过均值池融合多视图特征[47，68]。在测试过程中，地面实况模型被归一化为180厘米的高度，我们渲染6个视图图像作为输入。重建和地面真实几何之间的点到表面的距离定量结果示于表1中。当闭塞随着人员和交互元素的增加而加剧时，现有方法的损失加剧，而我们的方法仍然具有竞争力。图6所示的定性结果表明，我们的方法的突出和以前的作品和我们之间的巨大差距时，处理多人场景中的遮挡。我们的方法是能够重建高度详细的三维人体鲁棒性，即使在密切互动的场景。真实世界数据上的性能我们在ZJU-MoCap数据集[44]（一种多视图真实世界数据集）上评估了我们的方法，并与DeepVisualHull[25]（一种从稀疏多视图捕获的体积性能）、Neu- ralBody [44]（一种直接可区分的渲染方法）进行了比较图5：ZJU-Mocap数据集的性能[44]。我们的方法优于最先进的方法，包括DeepVisualHull [25]，PIFuHD [48]和Neural Body [44]。在测试图像序列和PIFuHD上训练[48]。我们重新实现了DeepVisualHull，并使用已发布的代码和PIFuHD和Neural Body的预训练模型。图5显示了我们的方法在基准测试中的最新性能真实世界图像的重建（我们的数据为6个视图，TotalCapture数据集为8个视图[29]）如图1所示。6.3. 消融研究本节旨在找到有助于我们的方法突出的因素我们实现了国家的最先进的性能，主要是通过利用自注意力网络结合SMPL和时间融合方法的一致的结果。然后，我们展示了如何在不同的情况下，改善重建的方法。变体1：自我注意模块我们设计了自我注意模块以更好地从不同的观察中捕获细节。为了找出我们的多视图特征融合方法的强度，我们将注意力模块与PIFu[47]（PIFu + Att）和PIFuHD[48]（PIFuHD + Att）相结合，并在没有模块的情况下进一步评估我们的方法的性能（由均值池代替）。表1中的定量结果示出了该模块在非遮挡和遮挡场景下有益于基线模型。具有注意力模块的PIFuHD在单个人类重建上甚至优于我们的，因为SMPL（第6.4节）带来的限制可能导致我们的方法的较低准确度。对于PIFu，改进是边际的，表明该模块更有效地将多视图特征与由图像法线映射提供的详细几何信息合并。对于我们的方法，我们失去了竞争的性能没有模块。图4中的定性示例进一步展示了该模块如何帮助基线模型在视图增加的情况下保持几何细节变体2：SMPL的使用SMPL在我们的方法中使用作为网络的3D代理，生成合理的输出，并进一步设计了SMPL全局法线映射6246图6：单个人、被遮挡的单个人、两个自然交互的人、两个紧密交互的人、三个人场景的多人数据集上的重建结果（从上到下）。我们的方法（e）生成了健壮且高度详细的人类，显著缩小了地面实况（f）与当前最先进方法的性能之间的差距（在第4.2节中描述）以提高重建对遮挡和保留细节的鲁棒性。PaMIR [68]和我们之间的巨大差距表明SMPL不仅是促成我们优势的因素。表1显示了我们的方法在没有设计的全局映射（我们的w/o SN）的情况下的性能结果表明，重建的准确性较低，这意味着效率的全球地图作为一个视觉参考，以指导注意网络合并多视图信息。变型3：时间融合图7：我们的方法即使在紧密交互的场景中人类的部分不可见时也会生成鲁棒的结果。结果我们的方法与现实世界的图像序列的时间融合。时域融合方法进一步增强了重建的一致性，可以6247方法多人（单人）多人（闭塞单）多人(twonatural-inter）多人(two密切联系）多人（三）倒角P2s倒角P2s倒角P2s倒角P2s倒角P2sPIFU（Mview +平均值）[47]1.1311.2201.4021.5221.5781.6201.7451.8311.7801.564PIFuHD（Mview +平均值）[48]0.9140.9481.3651.4061.3531.3761.6141.6551.8141.496PAMIR（Mview +平均值）[68]1.1731.1131.3621.3091.2271.1101.4001.1981.4141.281PIFU（多视图+属性）1.0541.1741.3431.4791.5661.6051.7731.8451.5411.383PIFuHD（Mview +属性）0.8450.8671.1951.1891.2781.2721.5151.4501.4681.287我们的（不含属性）1.0150.9671.2511.1811.0200.9251.2641.0881.3091.246我们的（不含SN）1.0631.0171.2771.2331.1260.9891.3571.1411.3341.155我们0.8950.8871.0411.0210.9560.9271.1341.0671.1301.078表1：MultiHuman数据集的定量评价我们将我们的方法与PIFu [47]，PIFuHD [48]，PaMIR [68]和均值池特征融合方法[47]以及包括PIFu + Att（注意模块），PIFuHD + Att在内的几种变体进行了比较，我们的方法没有注意力（w/o att）和我们的方法没有SMPL全局法线映射（SN）。图9：挑战性服装的重建。图8：在真实世界图像序列上的性能。(b)（c）示出了通过时间融合抛光的结果。在我们的补充视频中可以更清楚地看到。定量结果（表1）表明，我们的方法随着遮挡的增加而保持高准确度。图7示出了当身体部分由于严重遮挡而不可见时，将生成平滑的结果。6.4. 限制由于我们使用SMPL作为3D参考，我们的方法不能重建除人体以外的其他物体。对于具有挑战性的衣服，图9表明我们能够重建紧身衣服，而对于宽松的衣服，如风衣，重建可能是不稳定的。此外，我们的方法依赖于一个很好地拟合SMPL，即SMPL机构在正确的区域。不准确的SMPL可能导致伪影和故障情况（图10）。图10：SMPL输入不准确的故障情况。我们的方法被不正确的SMPL信息所误导。7. 讨论和未来的工作我们的方法是能够重建高保真度的多人与假设的预处理条件良好，即，校准的摄像机，准确的分割，良好拟合的SMPL。虽然在现实世界中的情况下，系统-tem保持稳健的小噪声，预处理中的大错误可能会导致失败的情况。未来的工作可以集中在更简化的流水线上，例如，自主标定、隐式人体模板重构、轻量级网络实现实时推理等，使系统具有更强的适用性。鸣谢本工作得到国家重点研究发展计划项目（编号：2018YFB2100500）、国家自然科学基金项目（编号：61827805）、国家自然科学基金国家自然科学基金申请号62171255;水木清华奖学金.6248引用[1] ThiemoAlldieck ， GerardPons-Moll ， ChristianTheobalt，and Marcus Magnor. Tex2shape：从单个图像中获得详细的完整人体几何形状。在ICCV，2019年。一、二[2] Timur Bagautdinov ， Chenglei Wu ， Tomas Simon ，Fabian Prada，Takaaki Shiratori，Shih-En Wei，WeipengXu，Yaser Sheikh，and Jason Saragih.驾驶信号感知全身化身。 ACM Transactions on Graphics （ TOG ）， 40（4）：11[3] Vasileios Belagiannis ， Sikandar Amin ， MykhayloAndriluka，Bernt Schiele，Nassir Navab，and SlobodanIlic.用于多个人体姿势估计的3D图像结构。在CVPR中，第1669-1676页，2014年。2[4] Bharat Lal Bhatnagar，Cristian Sminchisescu，ChristianTheobalt，and Gerard Pons-Moll.结合内隐函数学习和参数模型进行三维人体重建。参见ECCV，第311-329页。Springer，2020年。2[5] Bharat Lal Bhatnagar，Cristian Sminchisescu，ChristianTheobalt，and Gerard Pons-Moll. Loopreg：用于3D人体网格配准的隐式表面对应、姿势和NeurIPS，33，2020。2[6] Lewis Bridgeman、Marco Volino、Jean-Yves Guillemaut和Adrian Hilton。运动中多人三维位姿估计与追踪。在CVPR，2019年。2[7] Julian Chibane，Thiemo Alldieck，Gerard Pons-Moll.特征空间中的隐式函数用于三维形状重构和补全。在CVPR中，第6970-6981页，2020年。2[8] Alvaro Collet 、 Ming Chuang 、 Pat Sweeney 、 DonGillett 、 Dennis Evseev 、 David Calabrese 、 HuguesHoppe、Adam Kirk和Steve Sullivan。高质量的可流式传输的自由视点视频。 ACM Transactions on Graphics（ToG），34（4）：1-13，2015。一、二[9] Tao Dai，Jianrui Cai，Yongbing Zhang，Shu-Tao Xia，and Lei Zhang.二阶注意力网络用于单幅图像超分辨率。在CVPR中，第11065-11074页，2019年。3[10] Edilson De Aguiar，Carsten Stoll，Christian Theobalt，Naveed Ahmed，Hans-Peter Seidel，and Sebastian Thrun.从稀疏多视图视频中捕获性能。ACM SIGGRAPH 2008论文，第1-10页。2008. 2[11] Boyang Deng ， John P Lewis ， Timothy Jeruzalski ，GerardPons-Moll ， GeoffreyHinton ， MohammadNorouzi，and Andrea Tagliasacchi. Nasa神经关节形状近似。参见ECCV，第612-628页。Springer，2020年。2[12] Junting Dong，Wen Jiang，Qixing Huang，Hujun Bao，and Xiaowei Zhou.从多个视图快速和鲁棒的多人3d姿态估计在CVPR中，第77922[13] Mingsong Dou，Philip Davidson，Sean Ryan Fanello，Sameh Khamis，Adarsh Kowdle，Christoph Rhemann，Vladimir Tankovich，and Shahram Izadi.Motion2fusion：实时容积性能捕获。 ACM Transactions on Graphics（TOG），36（6）：1-16，2017。一、二[14] Mingsong Dou，Henry Fuchs，and Jan-Michael Frahm.扫描和跟踪动态物体与商品深度相机。2013年6249和增强现实（ISMAR），第99-106页。IEEE，2013。2[15] Mingsong Dou ， Sameh Khamis ， Yury Degtyarev ，Philip Davidson，Sean Ryan Fanello，Adarsh Kowdle，Sergio Orts Escolano ， Christoph Rhemann ， DavidKim，Jonathan Taylor，et al. Fusion4d：实时性能捕捉具有挑战性的场景。 ACM Transactions on Graphics（TOG），35（4）：1一、二[16] Naseer Muzammal等人视觉转换器的有趣特性。arXiv预印本arXiv：2105.10497，2021。3[17] Valentin Gabeur 、 Jean-Sébastien Franco 、 XavierMartin、Cordelia Schmid和Gregory Rogez。塑造人类：基于单幅图像的非参数三维人体形状估计。在ICCV，第2232-2241页，2019年。2[18] Juergen Gall ， Carsten Stoll ， Edilson De Aguiar ，Christian Theobalt ， Bodo Rosenhahn ， and Hans-PeterSeidel.使用关节骨架跟踪和表面估计的运动捕获。在CVPR，第1746-1753页中。IEEE，2009年。一、二[19] 放大图片作者：Andrew Gilbert，Marco Volino，JohnP. Colomosse和Adrian Hilton从最小摄像机视点捕获体积性能。在ECCV，第11215 卷，第 591-607页中。Springer，2018. 1[20] Kaiwen Guo ， Peter Lincoln ， Philip Davidson ， JayBusch，Xueming Yu，Matt Whalen，Geoff Harvey，SergioOrts-Escolano ， RohitPandey ， JasonDourgarian，et al.可重新点燃的：用逼真的重新照明捕捉人体的体积性能。ACM Transactions on Graphics（TOG），38（6）：1-19，2019。一、二[21] Marc Habermann ，Weipeng Xu， Michael Zollhofer ，Gerard Pons-Moll，and Christian Theobalt. Deepcap：使用弱监督的单一人员绩效捕获。在CVPR中，第5052-5063页，2020年。2[22] Yannan He，Anqi Pang，Xin Chen，Han Liang，MinyeWu，Yuexin Ma，and Lan Xu. Challencap：使用多模态参考的具有挑战性的人类表演的单目3D捕获。在CVPR中，第11400-11411页，2021年。2[23] 胡渊明、李梓茂、卢克·安德森、乔纳森·拉根-凯利和弗雷多杜兰德太极：一用于空间稀疏数据结构上高性能计算的语言。ACM Transactions on Graphics（TOG），38（6）：201，2019。5[24] 林煌、谭建超、孟晶晶、季柳、袁俊松。Hot-net：用于3D手对象姿势估计的非自回归Transformer第28届ACM国际多媒体会议论文集，第3136-3145页，2020年。3[25] Zeng Huang，Tianye Li，Weikai Chen，Yajie Zhao，Jun Xing ， Chloe LeGendre ， Linjie Luo ， ChongyangMa，and Hao Li.从非常稀疏的多视图性能捕获的深度体积视频。在ECCV，第336-354页，2018年。一、二、六[26] Zheng Huang ， Yuanlu Xu ， Christoph Lassner ， HaoLi，and Tony Tung. Arch：可动画化的衣服人的重建.在CVPR中，第3093-3102页，2020年。2[27] Hanbyul Joo 、 Hao Liu 、 Lei Tan 、 Lin Gui 、 BartNabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panoptic Studio：用于社交运动捕捉的大规模多视图系统。在ICCV，2015年。66250[28] H Joo， T Simon ，X Li ，H Liu ，L Tan ，L Gui ，SBanerjee ， T Godisart ， B Nabbe ， I Matthews ， et al.Panoptic Studio：一种用于社交互动捕捉的大规模多视图系统。TPAMI，41（1）：190-204，2019。一、二[29] Hanbyul Joo Tomas Simon和Yaser Sheikh总捕获量：用于跟踪面部、手部和身体的3d变形模型。在CVPR中，第8320-8329页。IEEE，2018年。一、二、六[30] Oh-Hun Kwon，Julian Tanke，Juergen Gall.递归贝叶斯滤波在多摄像机多人体姿态跟踪中的应用。2020年亚洲计算机视觉会议论文集。2[31] 李培科，徐云秋，魏云超，杨毅。用于人工解析的自校正。IEEE TPAMI，2020。3[32] Ruilong Li ， Yuliang Xiu ， Shunsuke Saito ， ZengHuang，Kyle Olszewski，and Hao Li.单目实时体积性能捕获。在ECCV，2020年。一、二[33] Yanwei Li，Xinze Chen，Zheng Zhu，Lingxi Xie，GuanHuang，Dalong Du，and Xingang Wang.用于全景分割的注意力引导统一网络。在CVPR中，第7026-7035页，2019年。3[34] Jiahao Lin and Gim Hee Lee.平面扫掠立体多视角多人三维位姿估计。在CVPR中，第11886-11895页，2021年。2[35] Yebin Liu，Juergen Gall，Carsten St

下载后可阅读完整内容，剩余1页未读，立即下载