使用单个RGBD相机的人体体积捕获方法

6 浏览量更新于2023-10-19 收藏 2.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1通过半参数学习使用单个RGBD相机的人体体积捕获Rohit Pandey，Anastasia Tkach，Shuoran Yang，Pavel Pidlypenskyi，JonathanTaylor，Ricardo Martin-Brualla，Andrea Tagliasacchi，George Papandreou，Philip Davidson，Cem Keskin，Shahram Izadi，Sean Fanello谷歌公司摘要体积（4D）性能捕获是AR/VR内容生成的基础。虽然之前在4D性能捕获方面的工作已经在工作室环境中显示出令人印象深刻的结果，但该技术仍然远未被典型的消费者所使用，他们充其量可能拥有一个RGBD传感器。因此，在这项工作中，我们提出了一种方法来合成的大小自由视点渲染使用一个单一的RGBD相机。关键的洞察力是利用给定用户的先前看到的“校准”图像来从传感器中可用的数据推断应该以新颖的考虑到这些来自多个视点的过去观察，以及来自固定视图的当前RGBD图像，我们提出了一个端到端的框架，该框架融合了这两个数据源以生成表演者的新颖渲染。我们证明，该方法可以产生高保真的图像，并处理极端变化的主题姿势和相机的观点。我们还表明，该系统推广到训练数据中看不到的我们进行了详尽的实验，证明了所提出的半参数模型（即神经网络可用的校准图像）与其他最先进的机器学习解决方案相比的有效性此外，我们比较的方法与更传统的管道，采用多视图捕捉。我们表明，我们的框架是能够实现compelling的结果，与以前所需的基础设施大大减少。1. 介绍虚拟现实和增强现实的兴起增加了对高质量3D内容的需求，以创造令人信服的用户体验，其中现实和虚拟世界无缝融合在一起。对象扫描技术已经可用于移动设备[30]，并且它们已经集成在AR体验中[20]。然而，无论是工业界还是研究界，图1.我们提出了一种新的公式来合成体绘制的人从任意的观点。我们的系统结合了先前看到的用户观察（校准图像）与当前RGBD图像。给定任意的摄像机位置，我们可以生成表演者处理不同的用户姿势和概括到看不见的主题的图像。能够设计出实用的解决方案来生成高质量的人体立体效果图。以降低照片真实性为代价，该行业目前正在通过利用“卡通式”虚拟化身来克服该问题。在频谱的另一端，复杂的捕获钻机[7，39，3]可以用于生成非常高质量的体积重建。其中一些方法[8，18]已经很成熟，并且是许多好莱坞作品中特效的基础。尽管它们取得了成功，但这些系统依赖于高端、昂贵的基础设施来处理它们捕获的大量数据。每帧几分钟的计算时间使它们不适合实时应用。捕捉人类的另一种方法是将实时非刚性融合管道[35，23，44，45，22]扩展到多视图捕捉设置[12，36，11]。然而，结果仍然受到扭曲的几何形状、不良纹理和不准确照明的影响，难以达到AR/VR应用中所需的质量水平[36]。此外，这些冰毒-ODS依赖于多视图捕获装备，其需要几个（104-8个）校准的RGBD传感器。97099710相反，我们的目标是通过消费级硬件实现体积捕获因此，在本文中，我们专注于合成人体的体积渲染的问题。我们的目标是开发一种方法，利用机器学习的最新进展，使用尽可能少的基础设施我们展示了一个半参数模型，其中网络提供了校准图像，可以用来渲染一个新的视点的图像，通过利用校准图像来extropo-late传感器可以提供的部分数据。结合一个完全参数化的模型，这产生了所需的渲染，从任意相机的观点;见图1.一、总之，我们的贡献是一个新的公式的体积捕获的人，采用一个单一的RGBD传感器，并利用机器学习的图像渲染。至关重要的是，我们的流水线不需要4D视频捕获设置通常需要的复杂我们与机器学习以及传统的最先进的捕获解决方案进行了详尽的比较，展示了所提出的系统如何以最低的基础设施要求产生令人信服的2. 相关工作在3D中捕捉人类是计算机视觉、图形和机器学习社区中的活跃研究主题。我们将相关工作分为三个主要领域，代表了文献中的不同趋势：基于图像的渲染、体积捕获和机器学习解决方案。基于图像的渲染。尽管它们取得了成功，但这类方法中的大多数都不能推断出完整的3D模型，但仍然可以从新颖的视点生成渲染此外，底层3D几何结构通常是代理，这意味着它们不能与AR/VR结合使用，其中准确的度量重建可以实现额外的功能。例如，[9，21]，创建令人印象深刻的人物和物体渲染，但具有有限的视点变化。现代的扩展[1，41]产生360毫米的，但有一个固定的相机位置。Zitnicket al. [50]通过预测代理深度图来推断底层几何模型，但具有小的30μ m覆盖范围，并且当内插视图远离原始视图时，渲染严重降级。这些方法的扩展[14，4，47]试图通过引入光流阶段来绕过这些问题，在不同视图之间扭曲最终渲染，但成功有限。体积捕获。商业容积重建管道采用捕获工作室设置，最高精度[7，39，12，11，36]。例如，[7，39]中使用的系统采用了100多个IR/RGB相机，它们用于准确估计深度，然后重建3D几何结构[27]。然后执行非刚性网格对齐和进一步处理以获得用于纹理化的时间上一致的图谱。每帧大约需要28分钟才能获得最终的3D网格。目前，这是最先进的系统，并在许多AR/VR产品中使用。其他方法[51，35，12，11，36，13]通过使用高度定制的高速RGBD传感器进一步推动这项技术。高帧率摄像机[16，15，46]还可以帮助使非刚性跟踪问题更易于处理，并且仅使用8个定制RGBD传感器而不是数百个传感器就可以获得引人注目的体积捕获[28]。然而，这些方法仍然遭受几何和纹理像差，如Dou等人所证明的。[11]和Duet al. [13 ]第10段。机器学习技术。从新颖的视角生成对象的图像的问题也可以从机器学习的角度来考虑，而不是从图形的角度来考虑。例如，Dosovitskiyet al. [10]从不同的视点生成椅子的重新渲染，但是渲染的质量很低，并且操作专门用于离散形状类。最近的作品[25，38，49]试图通过采用3D几何的一些概念来学习2D-3D映射，或者直接在网络架构中对多视图立体约束进行编码[17]。当我们专注于人类时，我们的研究与试图合成人类2D图像的工作更密切相关[48，2，43，32，31，34，5]。这些方法专注于以不可见的姿势生成人，但通常是从固定的相机视点（通常是正面）和比例（不精确）。由粗到细的GAN，[48]合成仍然相对模糊的图像Ma等人[31]检测输入中的姿态，这有助于从姿态中分离外观，从而提高清晰度。甚至更复杂的变体[32，43]试图从外观中分离出姿势，从背景中分离出前景，仍然受到多个伪影的影响，特别是在被遮挡的区域中。密集的UV贴图也可以用作从新视点重新渲染目标的代理[34]，但高频细节仍然无法有效捕获。特别相关的是Balakrishnan等人的工作。[2]，其中通过身体部位的识别和变换产生更清晰的图像尽管如此，请注意这项工作如何只关注正面观点。我们的方法。与此形成鲜明对比的是，我们的目标是以不可见的姿势和任意视点渲染主体，模仿体积捕获系统的行为。手头的任务更具挑战性，因为它需要解开姿态，纹理，背景和视点的模拟。这一目标已部分实现，9711calibcalib经纱经纱马丁-布鲁阿拉等[33]通过将几何管道[11]的优点与卷积架构[42]的优点相结合。然而，他们的工作仍然需要从多个视点重建一个完整的网格相反，我们的目标是从一个单一的RGBD输入实现相同水平的照片现实主义。为了解决这个问题，我们采用半参数方法[40]，其中校准阶段用于从几个不同的视角获取用户外观的帧。然后，这些校准图像以端到端的方式与用户的当前视图合并在我们表明，半参数方法是生成高质量的，2D渲染的人在任意姿势和相机的观点的关键。3. 拟议框架如图1所示，我们的方法接收输入：1）来自单个视点的RGBD图像，2）相对于当前视图的新的摄像机姿态，以及3）以各种姿态和视点观察用户的一些校准图像的集合。作为输出，它生成从新视点观察到的用户的渲染图像。我们提出的框架如图2所示，包括下面列出的四个核心组件。重新渲染&姿态检测器：根据从相机v <$捕获的RGBD图像I<$，我们从新相机视点v重新渲染彩色深度图，以生成图像I云，以及其近似法线映射N。注意，我们只重新渲染图像的前景，通过采用基于深度和RGB的快速背景减除方法，如[15]所述。我们还估计用户的姿态κ，即坐标系v中的关键点，以及标量置信度c，测量相机视点之间的Iclou d，κ，N，c=R（I<$，v<$，v）.（一）校准图像扫描：从卡利的收藏中，请注意，虽然（1）和（2）是不可学习的，但它们提取了表示问题几何结构的量。相反，warper（3）和（4）都是可微的，并且是端到端训练的，其中损失是加权和整经机和混合机之间的损耗。选择权值ωwarper和ωblender以确保相似的控制。两者之间的贡献。我们现在详细描述每个组件，激励我们采取的设计选择。3.1. 重新渲染姿态检测器我们假设相机的内部参数（光学中心o和焦距f）是已知的，因此函数f−1（p，z|o，f）：R3›→R3将具有相关联深度z的2Dpi x elp=（x，y）映射到本地相机中的3D点坐标系渲染→Iclou d.通过函数f−1，我们首先将I<$的深度通道转换为矩阵形式的大小为 M 的点云，即P<$∈R4×M。然后，我们将该点云旋转并平移到新的视点坐标系P=TP<$，其中T∈R4×4是齐次变换。表示v′和v′之间的关系变换的函数，v. 我们在OpenGL中将P渲染为2D图像I云，通过使用3× 3内核对每个点进行溅射来减少重采样伪影。注意，当输入和新相机视点接近时，即， v<$v，则IouttIclou d，而当v<$v，则Icloud将主要包含不可用的信息。姿态检测→ κ。我们还通过使用Papandre等人的方法计算2Dk点κ<$2D=Kγ（I<$）来推断用户的姿势。[37]其中K是预先训练的前馈网络。然后，我们通过使用I<$的深度通道将2D关键点提升到其3D对应部分κ<$，并且，如前所述，将它们在相机坐标系v中变换为κ。我们在可能的情况下依靠四肢、躯干、面部的刚性来推断丢失的关键点，否则我们简单地丢弃帧。最后，为了按照[2]中的策略将关键点κ馈送到（3）和（4动态RGBD图像和姿势{I<$nncalib}，我们选择我们对图像通道中的每个点进行编码（总共在视点v中与目标姿态κ最相似的一个：17个通道）作为以点为中心的高斯分布，I<$calib，κ<$calib=S（{I<$nncalib}，κ）。（二）固定方差。我们尝试了其他表示法，例如一个在[43]中使用，但发现所选的一个导致校准图像扭曲器：给定选定的校准图像I<$calib和用户的姿态κ<$calib，具有可学习参数ω的神经网络工作W将该图像扭曲成期望的姿态κ，同时产生所述图像。在新的姿势中的主体的设置掩模I·更稳定的训练。置信度和法线映射→c，N。为了（4）确定图像I云中的像素是否包含ap，用于从视点进行渲染的适当信息我们提供两个信息源：法线贴图和我扭曲，我=Wω（I<$cali b，κ<$cali b，κ）。（三）置信度得分法线映射N，以一种方式，κ′，κ′9712经纱神经混合器：最后，我们将由（1）中的传统重新绘制捕获的信息混合到变形的校准图像（3）中，以产生我们的最终图像Iout：类似于I云，可以用来决定像素是否从输入测量值v′（例如，网络工作者应该学会丢弃在低掠射角下进行的测量相反，关系I输出=Bβ（I云，I扭曲，I·，N，c）。（四）在v'和v之间，由c编码，可以用来推断是否9713头躯干SIMcalibcalibcalibcalib头躯干SIM calib图2. 建议的框架重新渲染姿态检测器使用深度信息投影纹理，并与目标姿态一起重新投影回最终视点我们还计算当前观测相对于新视点的置信度得分该分数被编码在法线图N和置信度c中。“校准图像”从先前记录的校准库中自动选取最接近的图像（就视点而言）。校准图像变形器尝试将选定的校准图像与当前姿势对齐，它还生成轮廓遮罩。Neural Blender将来自扭曲RGB图像、对齐校准图像、轮廓图像和视点置信度的信息结合起来，以恢复最终的高度详细的RGB图像。新颖的视点是面向后的（即，c0）或面向它（即，c>0）。我们将该量计算为摄像机视图向量之间的点积：c=[0，0，1]·rz/rz，其中v′是假定为原点的直线，rz是新摄像机观点，观点一个输入和输出的例子，这个模型-最后的输出。我们计算所有校准图像的分数，并选择具有最高分数的校准图像。补充材料中列出了甄选过程的几个例子我们的选择评分由三项组成：可以在图2的顶行中观察到ULESn=ωheadSn+ω躯干Sn+ωsimSn（五）3.2. 校准图像在预处理阶段，我们收集一组校准IM-根据当前3D关键点κ，我们计算表示用户头部的前视方向的3D单位向量。通过从眼睛和鼻子的关键点创建局部坐标系来年龄{I<$n}从具有关联姿势的用户{κ<$n {\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}类似地，我们计算3D单位向量{dn}从例如，可以要求用户在屏幕前旋转，校准图像keypoints{κ<$n{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}比分是系统启动前的摄像头;校准示例那么简单点积Snncalib，以及类似的集合在图2的第二行中可视化。虽然对Sn，其中坐标系期望该集合包含处于期望姿势的用户是不合理的，并且从视点V精确地观察到，假设校准集将包含足够的信息以从从左/右肩和左臀部关键点创建。这两个分数已经足以从期望的新颖视点准确地选择校准图像，然而，它们没有考虑校准图像的配置。新颖的观点因此，在这个阶段，我们选择了一个真正的-四肢因此，我们引入第三项Sn，那个=d·d9714来自校准集的可发声图像，当被（3）扭曲时，将向（4）提供足够的信息以产生计算校准图像中的k个点κn与目标姿态κ中的k个点之间的相似性得分。为sim-9715calibcalib部分经纱∗BGGTWn校准FG不是学习的，而是通过（6）在至少两个2D点的关键点组上计算的;我们有10组要点（详见补充资料）。扭曲纹理Iwarp，p对于每个k个点组p具有3个RGB通道（总共30然而，与[2]相比，我们不使用掩模只是为了选择要扭曲的像素，也将身体部位掩模自身扭曲到目标姿态κ。然后，我们在所有通道上取最大值，并监督合成所得到的扭曲轮廓图3.校准整经器将所选校准作为输入我. 我们注意到这对于避免过度拟合至关重要振动所选择的校准图像I<$和姿态κ<$校准并将其对准到目标姿态κ。它还产生一个前景蒙版部分经纱并教网络将纹理从校准图像到目标视图并保持高·经纱. 出于可视化目的，多个通道被折叠频率详情我们也与[2]不同，因为我们变成一个单一的图像。详情见正文简化符号，我们将κ和κn称为像空间不合成背景，因为我们只对表演者感兴趣，但我们确实额外预测背景掩模I·。齐次坐标中关键点的2D坐标我们可以计算一个相似性变换（旋转，反（lation，scale）Tn∈R3×3，使两个集合对齐。注意BG最后，10个通道编码的每一部分的实际I¯warp，p至少需要2个点来估计我们的4DOF trans-还有那裹着头巾的轮廓面具经历另一形成（一个用于旋转，两个用于平移，一个用于缩放），因此我们将手臂关键点（肘部，手腕）和腿部关键点（膝盖，脚）分组在一起。例如，对于属于左臂组（LA）的所有关键点，我们计算：U-NET模块，用于合并每个部件的纹理并细化最后一个前景遮罩。更多详情请参见补充材料。校准Warper正在训练最小化多个迟到：argminΣ ǁκˆLA−TLAκˆn,LAǁ2(6)损失：W WW WW WLAnLAn校准L翘曲=wrecLrec+wfgLfg+wbgLbg+（八）然后，我们将相似性得分定义为：WFgrefWFgrefWGAN甘，SLA=exp（−σκ−TLAκn，LA）（7）其中，所有权重WW都是根据经验选择的，使得所有损耗大致在相同的动态范围内最后的Sn是4个肢体的得分之和（在-翘曲重构损失LW。我们的感知侦察-SIMrecWd除以j）。权重ωj被调整为更重要。头部和躯干方向，其定义了期望的目标视点。从该阶段返回具有最高得分S<$的相对姿态校准的校准图像I<$calib。关于所选参数的所有详细信息可以在补充材料中找到。3.3. 校准整经机结构损失Lrec=<$VGG（Iwarp）−VGG（Igt）<$2测量预测的VGG特征空间之间的差异图像I扭曲，以及对应的地面实况图像Igt。鉴于校准图像的性质，I扭曲可能缺乏高频细节，如面部表情。因此，我们计算VGG网络从conv2到conv5层的损失选择特征翘曲背景损失LW。为了移除背部-[2]的接地分量，我们有损耗LW=I·−所选校准图像Icalib应具有类似的•bgbgvie wpointtov，butthepose仍然可以有所不同Ibg，gt在预测的掩码Ibg和地面实况calib因为校准集很小。在那里-·bg，gt=1−I·。我们考虑了其他损失（例如，低在此之前，·为了获得图像I，经纱，以及其但它们都产生了非常相似的结果。扭曲前景损失LW。每个零件遮罩都被扭曲成我扭曲了轮廓。我们设计的建筑灵感来自于Balakrishnan等人[2]，它使用U-NET模块[42];有关概述，请参见图3FG目标姿态κ通过相应的相似性变换第然后，我们使用最大池化操作合并所有通道，并在其上检索evea以获得egroundmaskI？，校准姿态calib张量（17个通道，每个key-1个）点）和校准图像I<$calib通过U-NET我不+WL+WL面具我9716=1GT部分，p我们将损失LW¯·部分经纱部分经纱-我是... 这种损失是产生作为输出部分掩码的模块{I··}加上a推动网络向学习转型至关重要而不是记住解决方案（即，过拟合）。背景掩模Ibg。这些面具选择哪些区域的身体应该根据相似性变换而被扭曲，扭曲前景细化损失LW. 所述扭曲阵与[2]类似，部分掩模I·Fgref部分p可能与轮廓不精确匹配，9717经纱GTGANGAN经纱经纱recrecGAN基于人体各部位之间相似性变换的假设，我们还对面具进行了改进，最终二进制图像I·. 这是通过最小化WFgref·经纱 -我是...Warp GAN lossLW. 最后我们添加一个GAN组件这有助于幻觉现实的高频细节，如[2]所示。在原始论文[19]之后，当使用以下GANcompo时，我们发现了更稳定的结果-名称：LW=−log（D（I·）），其中D由5个conv层和256个过滤器组成，最大池-对图层进行下采样以降低特征图。最后，我们添加2个具有256个特征的全连接层和一个sigmoid激活来产生一个标签。3.4. 神经混合器重新渲染的图像I云可以经由由另一个U-NET模块组成的神经混合操作通过变形的校准I warp中的内容来增强：请参阅补充材料，了解有关该架构的更多详细信息。通过设计，如果新的相机视图v接近原始v，则该模块应始终支持来自I云的细节，而对于背面视图，它应平均Iwarp中的细节为了引导网络实现这一点，我们将法线映射N和置信度c作为输入传递，置信度c作为每个像素的额外通道传递。这些额外的通道包含所有需要的信息，以消除前后视图的歧义。掩模I·充当附加特征以引导网络朝向理解它应该在哪里使在重新渲染的图像I云中不可见的图像内容产生幻觉。神经混合器由以下损失监督：图4.输入RGBD和groundtruth新视图以及相关掩码的示例。请注意，在我们的数据集中，我们可以为每个输入帧访问8个新视图。培训;其他详尽的评价见补充材料。4.1. 训练数据收集训练过程需要来自RGBD传感器的输入视图和多个地面实况目标视图。最近的人类多视图数据集，例如Human 3.6M [24]，仅提供4个RGB视图和单个低分辨率深度（TOF）传感器，这不足以完成手头的任务;因此，我们收集了我们自己的数据集，有20个主题。与[33]类似，我们使用了多相机设置，其中8个高分辨率RGB视图与自定义有源深度传感器相结合[46]。所有的摄像机通过外部触发器在30Hz下同步。原始RGB分辨率为L=wB LB+wBLB（九）4000×3000，而深度分辨率为1280 ×1024。搅拌机recrecGANGAN由于训练过程中的内存限制，我们还将RGB图像下采样到1280×1024像素.混合器重构损失LB . 重建损失计算最终图像输出Iout和目标视图Igt之间的差。这个损失定义为 LB=<$VGG （ Iout ） −VGG （ Igt ）<$2+w<$1<$Iout−Igt<$1。一个小的（w=1=0. 01）测光（测光1）损失需要确保更快的颜色收敛。Blender GAN lossLB. 这种损失遵循相同的设计的一个描述的校准整经机网络。4. 评价我们现在评估我们的方法，并与代表性的国家的最先进的算法进行比较然后我们执行一个ABLA-每个表演者都可以自由地在捕捉空间中进行任何任意运动（例如，散步、慢跑、跳舞等）同时进行面部运动和伸展。对于每个主题，我们记录了500帧的10个序列。对于训练集中的每个参与者，我们在训练期间遗漏了2个一个序列用作校准，其中我们在每次训练迭代中随机挑选10第二个序列被用作测试，以评估一个看到的演员，但看不见的行动的表现。最后，我们从训练数据集中排除了5个受试者，以评估算法在看不见的人身上的表现轮廓遮罩生成。如第3.3和Sec. 3.4，我们的训练程序依赖于地面实况，对系统的主要组成部分进行了研究。所有的地面和背景遮罩（I·和I·=1− I·）。gtbg，gtgt这里的结果显示在测试过程中没有使用的序列上。因此，我们使用最先进的身体语义段，损耗L=19718GT图5.与现有技术方法的比较。请注意，所提出的框架与传统的体积捕获装备相比是如何有利的，传统的体积捕获装备使用来自多个视点的许多（8）相机。请注意，由于其实时性，Motion2Fusion [11]只能为纹理阶段提供低分辨率（1280× 1024）RGB图像，而FVV [7]接受4000× 3000图像作为输入Chenet al. [6]以生成这些掩模I·，然后通过成对CRF [29]对这些掩模I ·进行细化以改善分割边界。我们不显式地使用该算法提取的语义信息，如[33]，将其留给未来的工作。请注意，在测试时，不需要输入分割，但尽管如此，我们预测轮廓作为副产品，以消除对背景结构的依赖性。我们的训练数据的例子可以在图4中观察到。无需手动注释，因此数据收集是全自动的。4.2. 与最新技术水平的比较我们现在将该方法与代表性的现有技术方法进行比较：我们选择了代表它们使用的不同策略的算法进行比较。Balakrishnan et al.[2]由于其高质量的结果而被选为最先进的基于机器学习的方法。我们还重新实现了传统的捕获钻机解决方案，如FVV [7]和Motion2Fusion[11]。最后，我们与Lookin- Good [33]进行了比较，Lookin-Good是一种将几何管道与深度网络相结合的混合管道。请注意，这些系统使用所有可用的视图（我们的数据集中有8个摄像机）作为输入，而我们的框架依赖于单个RGBD视图。定性结果。我们在图5中显示了定性结果。注意我们的算法，只使用一个RGBD图6.管道各个阶段的结果。请注意系统的每个阶段如何有助于实现最终的高质量结果，证明了我们设计选择的有效性最后，由于半参数模型，该算法可以很好地推广到看不见的主题。输入，优于Balakrishnan等人的方法。[2]：我们合成更清晰的结果，并正确处理视点和尺度变化。此外，所提出的框架产生了令人信服的结果，通常与LookinGood [33]，Mo等多视图方法9719calib表1.测试序列的定量评估。我们计算了多个指标，如光度误差（0.01损失），PSNR，MS-SSIM感知损失。我们将该方法与渲染阶段I云的输出、校准选择器I的输出和校准整经机的输出为I warp。我们还展示了我们的方法如何在多个指标上优于Balakrishna等人的最新方法。[2]的文件。我们还与完整捕获钻机解决方案进行了比较，如Motion2Fusion [11]，FVV [7]和LookinGood系统[33]。图8.预测不在训练集中的视点。该方法正确地推断没有地面实况可用的视图。图7.所提出的系统与全参数模型的比较。请注意，半参数化零件对于获得最高质量级别至关重要。2融合[11]或FVV [7]。定量比较。为了定量评估和比较该方法与最先进的方法，我们使用可用的地面实况图像计算了多个指标。结果示于表1中。我们的系统明显优于多个基线，并与使用多个输入视图的最先进的体积捕获系统相4.3. 消融研究我们现在定量和定性地分析管道的每个阶段。在图6中，请注意流水线的每个阶段如何有助于实现最终的高质量结果。这证明了每个组件都是精心设计和需要的。还请注意，由于我们提出的半参数方法，我们还可以推广到看不见的主题。这些优异的结果也在我们在表1中报告的定量评估中得到了证实：请注意，完整系统的输出如何始终优于来自重新渲染（I 云）的输出，校准图像本身。lector（I<$cali b ）和calibrationimagewarper （Iwar p ）。We请读者参阅补充材料以获得更详细的例子。与全参数模型比较。在这个实验中，我们去掉了框架的半参数部分工作，即校准选择器和校准扭曲器，并在重新渲染器的输出上训练神经混合器（即，全参数模型）。这类似于[33]中提出的方法，适用于单个RGBD图像。我们在图7中显示了结果：注意所提出的半参数模型对于正确处理大的视点变化是至关重要的。视点泛化。我们最后在图8中展示了训练集中没有的视点的定性示例请注意，我们如何能够稳健地处理这些情况。更多示例请参见补充材料。5. 结论我们提出了一种新的配方，以解决问题的体积捕获的人与机器学习。我们的管道优雅地结合了传统的几何半参数学习。我们对该框架进行了详尽的测试，并将其与多种最先进的方法进行了比较，显示出单个RGBD相机系统前所未有的结果。目前，我们的主要限制是由于稀疏的关键点，我们计划通过添加额外的判别先验来解决，如[26]。在未来的工作中，我们还将研究整个管道的端到端训练，包括校准关键帧选择和扭曲。建议1视图我云1视图伊卡利布1视图我扭曲1视图Balakrishnan等人[2]第1次浏览[33]第三十三话8次浏览M2F [11]8次浏览FVV [7]8次浏览1损失十七岁40二十七岁2720块02十八岁70十八岁01三十八岁。80三十三岁。727 .第一次会议。399720引用[1] R. 安德森，D.J·T·盖洛普Barron，J. Kontkanen，N. S a vel y，C. Hern a'ndez，S. A g ar wal和S. M. 塞茨Jump：虚拟现实视频。ACM TOG，2016. 2[2] G. Balakrishnan，A. Zhao，中国粘蝇A. V. Dalca，F.Durand和J. V. Guttag。合成人类在看不见的姿势的图像CVPR，2018年。二、三、五、六、七、八[3] J. Carranza，C. Theobalt，M. A. Magnor和H.- P. Seidel人类演员的自由视点视频。SIGGRAPH，2003年。1[4] D.卡萨斯湾Volino，J. Collomosse，and A. Hilton.用于交互式角色外观的4D视频纹理。欧盟-ROGRAPHICS，2014. 2[5] C.陈，S. Ginosar，T. Zhou和A. A.埃夫罗斯大家跳舞吧CoRR，2018年。2[6] L- C. Chen，Y.Zhu，G.帕潘德里欧F.Schroff和H.Adam.一种用于序列图像分割的带可分离卷积的编码器-解码器。CoRR，abs/1802.02611，2018。7[7] A.科莱M. Chuang，P. Sweeney，D. Gillett，D. 叶夫谢耶夫，D.卡拉布雷斯湾Hoppe，A. Kirk和S.苏利文高质量的可流式传输的自由视点视频。ACM TOG，2015. 一、二、七、八[8] P. Debevec ， T. 霍金斯角 Tchou ， H.-P. Duiker ，W.Sarokin 和 M. 萨加尔获取人脸的反射场。SIGGRAPH，2000年。1[9] P. E.德贝韦茨角Taylor和J.马利克从照片中建模和渲染建筑：一种基于几何和图像的混合在SIGGRAPH，1996中。2[10] A.多索维茨基T. Springenberg，M. 塔塔尔琴科，T.布洛克斯学习用卷积网络生成椅子。CVPR，2015年。2[11] M. Dou，P. Davidson，S. R. Fanello，S. Khamis，A. 考德尔C.Rhemann ， V.Tankovich ， andS. 伊扎迪Motion2fusion：实时容积性能捕获。SIGGRAPH Asia，2017. 一、二、三、七、八[12]M. Dou，S.Khamis，Y.Degtyarev，P.Davidson，S.R. 法内洛A. Kowdle，S. O.埃斯科拉诺角Rhemann，D.金，J. 泰勒P. Kohli，V. Tankovich和S.伊扎迪Fusion4d：实时性能捕捉具有挑战性的场景。SIGGRAPH，2016. 一、二[13] R.杜，M。庄，W。Chang，H. Hoppe，和A.瓦什尼Montage4D：多视图视频纹理的实时无缝融合和样式化。计算机图形技术杂志，8（1），2019年1月。2[14] M.埃克曼湾D.德克尔M. Magnor，P. Bekaert，E. D.Aguiar，N.艾哈迈德角Theobalt和A.塞伦特浮动纹理。计算机图形论坛，2008年。2[15] S. R. Fanello，J. Valentin，A.Kowdle角瑞曼V. Tankovich，C. Ciliberto，P. Davidson和S.伊扎迪低计算和完全并行的计算机视觉与哈希匹配。InICCV，2017. 二、三[16] S. R. Fanello，J. Valentin，C.Rhemann、A.考德尔Tankovich，P. Davidson和S.伊扎迪超立体：有效的基于学习的主动立体声系统匹配。在CVPR，2017年。29721[17] J. Flynn，I. Neulander，J. Philbin和N.很聪明深度立体声：学习从世界的图像中预测新的观点。在CVPR，2016年。2[18] G. Fyffe和P.德贝维克偏振颜色梯度照明的单次反射测量。 IEEEInternational Conference on ComputationalPhotography，2015。1[19] I. J·古德费洛 J. Pouget-Abadie， M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。6[20] Google. Arcore - Google开发者文档，2018。1[21] S. J. 戈特勒河格热什丘克河Szeliski和M.F. 科恩光显仪。在SIGGRAPH，1996中。2[22] K. Guo，J.泰勒，S。Fanello，A.Tagliasacchi，M.窦先生，P. Davidson，A. Kowdle和S. 伊扎迪 Twinfusion：通过快速对应跟踪实现高帧率非刚性融合在3DV，2018年。1[23] M. 因曼，M. Zoll hoferr，M. 尼斯讷河角Theobalt和M. Stamminger体积变形：实时体积非刚性重建。在ECCV，2016年。1[24] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库Hu-man 3. 6 m：大规模数据集和自然环境中三维人体感知的预测方法IEEE PAMI，2014年。6[25] D. Ji，J. Kwon，M. McFarland和S. Savarese深度视图变形。CoRR，2017年。2[26] H. Joo，T. Simon和Y.酋长总捕获量：用于跟踪面部、手部和身体的3d变形模型。CVPR，2018年。8[27] M. Kazdan和H.霍普屏蔽泊松曲面重构。ACM TOG，2013年。2[28] A. Kowdle 角 Rhemann ， S.Fanello ， A.Tagliasacchi ，J.Tay- lor ， P. Davidson ， M. Dou ， K. Guo ， C.Keskin，S.哈米斯D. Kim，D.Tang，V.Tankovich，J.Valentin和S.伊扎迪在实时密集视觉跟踪中需要4种速度。SIGGRAPHAsia，2018. 2[29] P. Kr aühenbuühl和V. 科尔顿具有高斯边势的全连通crfs的有效推理NIPS，2011年。7[30] L.Labs.3D扫描仪应用程序，2018年。https://www.3dscannerapp.com/。 1[31] L. 妈，X。贾湾，加-地孙湾Schiele，T.Tuytelaars和L. 范古尔姿势引导人物图像生成。在NIPS，2017年。2[32] L.马角，澳-地孙习乔治古利斯湖V. Gool，B. schiele和M.弗里茨分解的人物形象生成。CVPR，2018年。2[33]R. 马丁-布鲁阿拉河 Pandey，S. Yang，P. 皮德利彭斯基，J.泰勒，J. Valentin，S. Khamis，P. Davidson，A. 特卡奇，P. Lincoln，A.Kowdle角Rhemann，D.B. 戈德曼角Ke-skin，S.塞茨河Izadi和S.法内洛Lookingood：通过实时神经再现增强性能捕获。SIGGRAPHAsia，2018. 三六七八[34] N. 别再说了，R。A. Guéler和I。好的密集的姿势转换。ECCV，2018年。2[35] R. A. Newcombe，D. Fox和S. M.塞茨动态融合：非刚性场景的实时重建与跟踪。在CVPR，2015年6月。一、二9722[36]S. 奥茨-埃什卡诺， C. 瑞曼 S. 法内洛 W. 张，A. 考德尔 Y. 杰格佳列夫 D. 金姆， P. L. 戴维森S. Khamis，M. Dou，V. Tankovich，C. Loop，Q. Cai，P. A. Chou ， S.Mennicken ， J.Valentin ， V.Pradeep ，S.Wang，S.B. Kang，P. Kohli，Y. Lutchyn角Keskin和S.伊扎迪全息传输：虚拟3d实时传送。InUIST，2016.一、二[37] G. Papandreou，T. Zhu，N. Kanazawa、A. Toshev，J.Tomp-son，C. Bregler和K. P·墨菲野外多人姿态的精确估计. CVPR，2017年。3[38] E. Park，J. Yang，E. Yumer，D. Ceylan和A. C. 伯格。基于变换的新型三维视图合成图像生成网络。在CVPR，2017年。2[39] F. Prada，M.Kazhdan，M.Chuang，A.Collet和H.霍普演化网格的时空地图集参数化。ACM TOG，2017年。一、二[40] X. 齐，阿根-地陈，J.Jia和V.科尔顿。半参数图像合成。CoRR，2018年。3[41] C. Richardt ， Y.Pritch ， H.Zimmer 和 A. 索金 - 霍恩Megastereo：构建高分辨率的立体图像。CVPR，2013。2[42] O.龙内贝格山口Fischer和T.布洛克斯U-net：

下载后可阅读完整内容，剩余1页未读，立即下载