单张照片中估计详细身体的FACSIMILE方法研究

101 浏览量更新于2023-10-12 收藏 1.95MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5330一BCDe传真：在不到一秒的时间内快速准确地扫描David Smith Matthew Loper Hu Xiaochen Paris Mavrophe Javier Romero Amazon BodyLabs{dlsmith，mloper，sonnyh，parism，javier}@ amazon.com图1：传真转换一个单一的RGB图像（a）到扫描（b，d）与纹理（c，e）摘要目前的体型估计方法要么缺乏细节，要么需要许多图像。它们通常在架构上是复杂的并且在计算上是昂贵的。我们提出FACSIMILE（传真），一种从单张照片中估计详细身体的方法，降低了创建人类虚拟表示的我们的方法易于实现和快速执行，使其易于部署。FAX使用图像转换网络，该网络以图像的原始分辨率恢复与直觉相反，驱动FAX的主要损失是在每像素表面法线上，而不是在每像素深度上，这使得在没有任何深度监督的情况下估计详细的身体几何形状成为我们评估我们的方法定性和定量，并与一个国家的最先进的方法进行比较。1. 介绍尽管在医学、游戏和购物中有无数的应用，但高分辨率的身体捕捉还没有得到广泛的采用。用于高质量身体估计的传统方法需要昂贵的捕获系统，其难以部署[28，8]。更实惠的RGB-D传感器，如kinect，试图克服这个问题[47，6]，虽然这些传感器不像RGB摄像头那样广泛使用时代另一方面，用于单张照片身体估计的现代系统缺乏细节[10，31，2，22，7，33]。我们的工作旨在帮助缩小容易获得的图像和丰富，详细，宁静的化身之间的差距针对从单个图像恢复形状的系统在恢复中间身体表示方面做了值得称赞的工作这些包括[44]中的基于体素的重建，[31]中的合成视图生成系统，或[10]中的交叉模态神经网络但不可避免的是，他们的捕获的保真度是有限的，他们的代表粒度。为了解决这种缺乏代表性的能力，我们将现代图像到图像转换技术[19，46]应用于几何估计。更具体地说，我们希望估计图像中每个前景像素对应的深度。但这带来了一个新问题：通过图像转换网络对深度的朴素估计产生了噪声、不可用的表面（图2）。这告诉我们，当用图像到图像的转换来估计深度时，深度的直接损失不能给我们一个合理的表面。这个问题的解决方案可以一直追溯到Horn [18]的Shape From Shading（SFS）文献，其中曲面法线在定义曲面与其外观之间的关系方面起着关键作用。专注于面部区域重建的工作[35]表明，深度损失可以从法线的额外损失中受益。我们超越了这一洞察力，表明5331图2：使用（粉色）深度L1损失和（绿色）法线L1损失估计的正面网格.仅仅在法线上的损失可以足以重建高质量的深度图，并且这适用于铰接的、远离球形的对象。因为一个单独的深度图离一个完整的化身还很远，我们扩展了这个系统来估计正面和背面的几何形状和深度。与[31]中的并发工作类似，我们利用通过训练网络来假设人的背面来获得每个像素两个值的想法（见图3）。与[31]不同的是，我们不将自己限制在纹理上，也会估计后面的深度和法线。虽然像[31，2]这样的当前详细方法通常需要几分钟才能运行，但我们在不到一秒的时间内计算出包含几何和纹理的几乎在本出版物中，我们假设一个合作的主题，并专注于一种特定类型的图像，最大限度地提高信息捕获（正面手臂向下的姿势，最小的衣服），虽然我们相信该方法可以应用于其他情况下，并将继续调查他们在未来的工作。我们展示了三个贡献。首先，我们从单个图像计算完整扫描，比当前生成详细扫描的方法快几个数量级。虽然其他方法也复制服装，我们的方法提取显着更多的细节。我们鼓励读者回顾图1和图7中的扫描图以及影像学资料，特别注意胸部、腰部或臀部的细微褶皱和压迫伪影，这在任何其他方法中都不其次，我们展示了如何在很短的额外时间（不到10秒）内将这些扫描转换为详细的可变形化身，这对于游戏，图像测量和虚拟远程呈现等应用非常有价值。最后，我们通过与最先进的多图像方法[3]进行定量比较并进行定性和定量消融研究来说明我们方法的有效性2. 相关工作从一张照片的几何估计已经是至少50年的研究课题。经典的方法如shape from shading[17]采用阴影图像并生成底层几何体。这个问题的现代解决方案可以在计算上高效和直观[48，4]，但应用于数据的光和分布模型的局限性使得它们在存在输入噪声的情况下变得脆弱，而输入噪声在真实数据中是不可避免的。基于深度学习的方法在减少自动驾驶室外深度重建[13]和室内几何重建[12，43]中的这种脆性方面取得了令人印象深刻的结果。单照片身体估计方法通常通过固定的中间表示进行瓶颈，这在实现分段建模的同时，最终限制了可实现的细节的量。一些方法通过分割图像[21，15，38，10，33]瓶颈，其他方法通过估计关键点位置[7，26]瓶颈，还有一些方法通过两者[44，34，14，1]瓶颈。所有这些方法都允许太多的模糊性，以允许密集的表面重建。最近的方法[22]通过直接在图像上使用编码器-解码器表示来避免这种限制它们对野外图像具有显著的鲁棒性，但很难恢复详细的形状和姿势。SURREAL的工作[45]直接估计深度，但细节粗糙。SiC-loPe [31]系统比我们的系统容忍更大的服装变化，但其几何细节受到中间轮廓使用的限制。值得称赞的是，除了[10]之外，所有这些作品都是为了捕捉“野外”的身体而设计的单张照片人脸估计方法已经为身体估计产生了有用的见解。Blanz和Vetter [5]的早期工作是开创性的，但缺乏细节，并且在野外存在鲁棒性问题。稳健性通过数据驱动模型解决[9，11，20，37，40，39，41];细节首先通过着色形状解决[24，27]，然后通过深度学习解决[36，42，35]。Zollhoffer等人[49]最近的一项调查有更多的细节。FAX特别与[36，42]分享主题，其中Isola等人[19]的图像到图像转换架构成功应用于详细的面部几何形状估计。我们的重点是从一个单一的彩色图像的化身几何估计对于从多个图像中进行身体估计的更一般性综述，建议读者查阅Alldieck等人[2]和Bogo等人[8]中提供的先前工作的出色总结5332GnDDFM背深前法线前缘深度后法线图3：计算在那里我前后索引。每个生成的图像Gi（x）都依赖于输入图像x，因此我们从现在开始放弃这种依赖性以简化符号。前向和后向估计使用相同的损失分量，但前向和后向估计使用不同的判别器，使它们能够专门化。这个网络的应用程序，我们的问题的估计是直接的。给定图像的合成训练数据（参见第4.2节）和相应的前和后双曲余弦，我们用对应于两个双曲余弦集（见图4）。霸王总的损失是s。应用于前端的平均损耗对于离相机最近和最远的身体点，沿着每个像素所包含的光线注意压力-回来，Lalbx，yf+L白蛋白x，y b.未观察到的像素的存在，并在推断的扫描中成为孔（图像中的黑色轮廓）。3. 方法我们的目标是从单个RGB图像估计详细的3D扫描。我们将其视为图像到图像的翻译任务，其中我们将图像翻译为图像空间中的深度和隐式值。更具体地说，我们估计身体的正面和背面部分的输出。深度图像形成规则的顶点网格，可以对它们进行三角剖分以创建3D表面。我们在第3.2节中更详细地描述了我们的深度估计架构，但在第3.1节中首先关注的是深度估计，因为训练协议与[46]的先前工作非常最后，我们将在3.3节中解释如何获得一个完整的、可重用的和可重塑的化身。3.1. 反照率估计我们选择的架构是基于[46]的图像到图像的翻译工作我们省略了特定于语义分割和图像编辑的功能因此，我们使用他们的“全局生成器”来定义我们的生成器我们做了一个小修改，用上采样卷积代替转置卷积，以避免棋盘伪影[32]。[46][ 47][48][49]sarial损失，LGAN使用具有LSGAN [30]目标的多尺度PatchGAN [19]判别器;特征匹配损失，L F M，其惩罚来自生成的G与真实图像y的内部非线性激活之间的差异;以及感知损失，LVGG，其使用预先训练的VGG 19网络，并类似地测量来自真实图像和生成图像的不同VGG激活3.2. 深度估计如前所述，由于各种原因，直接估计深度是具有挑战性的。首先，在尺度和到相机的距离之间存在模糊性，即使是人类也难以解决。其次，这个距离的相机需要一个更大的数据方差比形状的细节。因此，深度损失促使网络解决到相机的总体距离，这对于我们的目的来说是非常具有挑战性且大多不相关的问题相反，我们专注于推断局部表面的几何形状，这是不变的规模模糊。在最初的实验中，我们设法通过直接应用3.1节中描述的图像平移网络来估计详细的表面法线。然而，有效地将法线整合到鲁棒深度中是着色文献中形状的核心的一个具有虽然对推断出的法线图像进行积分是具有挑战性和昂贵的，但是其逆算子是简单的：空间导数。空间导数可以简单地实现为具有局部差分滤波器的固定层。通过将这样的层直接放置在估计的法线之后（参见图4中的δ层），我们隐式地强制先前的结果与深度相对应。类似于经典的积分方法，这允许我们即使在没有深度地面实况数据的情况下也能推断深度，但没有显式积分所引起的额外损失在我们的深度架构中（参见图4），输出是三个通道，它们表示正面和背面深度i，其中i表示正面或背面，以及表示深度有效位置的掩码G m。前深度和后深度用空间微分网络δ处理，该空间微分网络δ将深度转换为法线Gi=δ（Gi，G m，f）。这种空间差异取决于焦距f（在训练和测试数据中被认为是固定的）以校正透视失真。此外，微分算子包括由网络产生的掩码Gm，以确保我们Lalb. x，yi=LGAN. x，yi，Gi+λLFM. x，yi，Gi不要通过边界来区分。的地区+λV GG LV GG.（1）第一章深度无效，则会生成一个常量正常值。而《易经》中的“色”，则是指“色”。5333DD一b c dδeδf一G h深度推理推理输出网格图4：从图像a进行几何推理（左）和非几何推理（右）的网络架构。它们共享第一阶段[46]中的架构（蓝色和黄色，分别训练）。在几何中，网络输出三个通道（遮罩b、前深度e和后深度d），而在几何中，网络产生六个通道（RGB后深度g和RGB前深度h）。深度通道由固定的空间差分层δ处理，该层使用掩模将其效果限制在前景区域，从而产生前法线和后法线（e和f）。为了紧凑性，我们不显示前和后的双曲型判别器。从对抗性损失的拟合，同样似乎并不适用于恢复几何。在我们的经验中（类似于[36]中所描述的），Lalb中的对抗性损失在应用于深度和正常估计问题时引入了噪声，并降低了其对不可见条件的鲁棒性出于这个原因，我们的几何估计目标的深度Ld和法向Ln基于SMPL [29]的身体几何结构，SMPL是人体形状和姿势的统计模型。对齐过程使一组自由体顶点（称为网格）变形，使得它们接近在前一部分（称为扫描）中推断的点云，同时也可能根据SMPL身体模型。类似于[6]，我们最小化由扫描到网格距离项Es，aLi（x，y）= L.y，Gi+λL.（2）人脸特征项E人脸，两个姿态和形状先验E姿态nL1nV GGV GGn和E一个词，指的是一个人，一个人，一个人。Li（x，y）=LL1. 中国（3）形状模型Ecpl.我们提供了一些关于用L1损失代替对抗性损失LV千兆克不以下段落中的术语，尽管细节可以在原始出版物中找到。应用于深度表示，因为这将需要·对可能导致训练不稳定的（无界）深度值进行归一化。总损失可能包括应用于法线和/或深度的几何损失，以及遮罩输出E s会惩罚扫描与网格表面上最近点之间的3D距离平方。 E face对图像上检测到的面部标志[23]（与扫描隐式对应）和SMPL中预定义的标志位置之间的平方3D距离进行分割。ECPLLfull（x，y）=λd.ΣLf+Lb+λn. Lf+Lb鼓励可以自由变形的网格保持紧密到由优化的姿势和形状参数暗示的模型dd n n+λmskLmsk（ym，Gm）（4）在4.5节和表2中，我们从定性和定量两个方面研究了这些损失项的贡献3.3. 估计密集对应上一节中描述的系统产生每像素深度值，这本质上是不完整的。此外，由于这些值是按像素创建的，因此它们缺乏任何语义意义（鼻子、肘部等在哪里）。在本节中，我们采用[6]中描述的网格对齐过程来推断不可见（图3中的黑色部分）部分5334半径。E姿势和E形状通过惩罚这些SMPL参数与从CMU和SMPL数据集推断的其高斯分布之间的马氏距离来正则化耦合模型的姿势和形状[7]。由于这是常见的单视图和未校准的多视图形状估计，我们的结果不能恢复亚尺度准确。由于SMPL无法在任意尺度下拟合扫描，因此我们首先在优化网格之前将扫描缩放到固定高度，然后将逆尺度应用于优化的网格，使其返回到原始参考系。当训练我们的深度估计器时，深度损失充当全局约束，强制执行前面和后面的5335图5：每行显示两个合成数据实例（一个男性，一个女性）。对于每个示例，从左到右：RGB、前、后灰度、前、后深度、前、后法线和分割。请注意，这些示例并不真正属于我们的训练集，因为纹理仅来自签署了特殊同意书的测试对象以一致的尺度来估计扫描。当这种损失如果在训练过程中省略了（见第4.5节），则前后比例不一定一致，因此在网格对齐过程中必须优化它们的相对比例。这可以通过引入一个附加的自由缩放变量来实现在描述我们的实验时，我们将此选项称为“选择返回”。4. 实验4.1. 培训和评估详情为了进行估计，我们对随机大小512×512以符合内存限制。多-比例鉴别器以1×、1×和1×分辨率处理图像参数从CAESAR数据集中采样，姿态从（a）CAESAR姿态和(b)一组实验室扫描姿势，手臂从A姿势到放松。纹理和位移图来自于实验室中捕获的人的3D摄影测量扫描，随机采样并应用于基体，这增加了输入和输出空间的多样性。相机在原点固定为零旋转，身体随机平移和旋转以模拟大约2米的距离，相机略微向下倾斜。具体来说，翻译是从x[−0. 5，0。5]，y=[0. 0，0。4]，z<$[−2. 2，-1。[5]在我身上-角和旋转作为欧拉角，以度为单位，从x[−9. 0，35]，y<$[−7，7]，z<$[−2，2]，按yxz顺序应用。背景图片来自OpenImages [25]，例如，2 4溶液。[46]这是一个很好的例子。对于深度估计，我们在720×960的图像上训练，焦距为720像素。我们不假设到相机的固定距离。深度估计网络和深度估计网络都是训练180k步，批量大小为1，输入图像用高斯模糊、高斯噪声、色调、饱和度、亮度和对比度增强。训练过程需要大约48小时与V100特斯拉GPU。对720×960图像进行评价。单个任何一个网络的前向传递都需要大约100毫秒，秒，而将SMPL与扫描对齐需要7秒。4.2. 数据集我们专门在合成数据集上进行训练（图5），并在“实验室内”收集的真实图像在光线充足的室内环境中，图像由实验室技术人员捕获，受试者穿着紧身衣服并以“A”姿势站立我们渲染了40，000个合成图像元组（1%用于验证和测试）。这些物体具有用SMPL合成的基础低频几何形状，以及在实验室中捕获的高频位移。SMPL形状包括包含人的图像。我们使用三种光源：基于图像的环境光源（使用背景图像作为光源）、点光源和矩形区域光源。对于每个渲染，我们随机采样所有灯光的强度，点光和面光的位置和色温，面光的方向和大小，以及身体上着色器的镜面反射和粗糙度。所有光源都会投射光线跟踪阴影，最明显的阴影通常来自区域光源和点光源。4.3. 目视评价作为一个基线，我们考虑直接估计的正面深度与L1损失函数。图2显示了从自然测试图像估计的网格，比较了使用深度L1损失训练的模型与L1正常值的损失。仅深度损失的结果看起来不可用，而仅法线损失的结果是平滑的、鲁棒的，并且捕获了令人印象深刻的细节量。因此，对于人体的详细深度估计，深度上的直接损失是不够的，而表面法线上的损失足以产生鲁棒且详细的深度估计。然而，由于损失5336受试者ID传真（mm）传真（mm）（可选姿势）[3]第一章500029.466.565.13500047.904.194.36500095.233.863.72500206.603.853.32500214.763.274.45500225.083.505.71500255.033.024.84500267.834.874.56500278.214.343.89表1：使用我们的基线方法，来自D-FAUST数据集的对于每个主题，我们使用第4.2节中描述的方法报告了使用随机环境配置渲染的多个实例的平均误差。在法线上仅约束局部输出，几何体将不真实缩放。深度的损失，虽然不是关键的几何质量，鼓励输出到一个合理的人类尺度的空间。FAX的一个优点是它能够从单个图像中提取细微的形状细节。所描述的形状是复杂的和个人的，如图7中几乎每个例子的腰部、臀部和胸部所观察到的。这很难通过基于凸包[31]、体素[44]或SMPL形状参数[22]的方法来实现。即使是明确优化形状以适应图像轮廓的方法，如[3]，也无法恢复这种细节水平，因为底层优化必须在数据和底层（过于平滑）模型之间找到折衷从FAX获得的细节大多在轮廓中可见，但侧面渲染显示该细节以连贯的方式在整个体形上重建，重新创建与轮廓和图像阴影一致的胸部和腹部形状。阴影和纹身等视觉不连续性是一个挑战。经典的从阴影恢复形状方法在误导性的视觉边界处引入脊伪影是不光彩的。如图7所示（第3行，右侧），我们的方法在存在纹身的情况下产生干净的几何形状在图6中，我们的方法表现出对尖锐阴影的不变性。我们将这种不变性几乎完全归功于我们训练数据集的多样性;在我们的训练中引入清晰的阴影之前（图5：左侧第3行），阴影周围的脊状伪影在我们的测试输出中很常见。空间扫描孔是另一个挑战。像许多高质量的扫描仪设置一样，我们的原始估计扫描并不能捕获所有的几何形状，明显可见的是前后向深度图之间的这个问题是适配化身的一个动机：除了提供可重复定位性之外，它还提供孔闭合和扫描完成。图1和图7展示了我们的扫描、它们的接缝以及提供漏洞闭合的化身。我们的前向阴影估计网络对柔和阴影具有弹性。要看到这一点，请考虑图7中的RGB输入和正面纹理扫描，它使用与灰色扫描相同的光线照射特别是，观察第4行右侧皮肤高光的去除，以及其中大多数腿部和躯干的肤色更加均匀，例如。第七排右边。去除尖锐的投射阴影是非常具有挑战性的，但在第1行，第2行和第5行中实现了合理的结果我们的背部轮廓估计器具有令人满意的前后一致性，包括肤色和服装连续性。一些文胸肩带（例如：7中的第7行左）显示了连续的但在物理上不可信的配置，而肤色的衣服（7中的第3行左）融入皮肤纹理。训练数据的改进应该解决这个问题。4.4. 动态FAUST的定量评价我们将我们的系统与[3]进行定量比较，[3]是从多个图像估计形状的最先进系统之一。在[3]之后，我们从Dynamic FAUST中的主题生成合成渲染，估计它们的形状，并根据合成数据对其进行评估与[3]不同，我们只需要每个主题的一个图像我们还应该注意到，由于我们的系统使用RGB图像，[8]的作者友好地为他们的数据集中的每个主题提供了一个自然纹理。我们按照[3]中描述的程序计算表1中的误差。首先，我们按照第3.2节和第3.3节所述估算扫描和对齐。使用SMPL，我们取消对齐并缩放它，使其与地面实况形状一样高。使用这个固定的形状，我们优化了平移和缩放，以最小化每个网格中的顶点与其他网格的表面之间的平均双向距离，从地面实况初始化平移和姿势。我们在每个受试者的N个合成图像上重复该过程该平均双向距离在表1的左列中报告。该程序与[3]中报告的完整方法相当。我们的误差比文献[3]中的大，这可以归因于两个因素。首先，我们可以访问单个图像，而[3]使用了数百个图像。其次，应用来自扫描的地面实况姿态可能是次优的，因为SMPL在一定程度上合并了姿态和形状为了解决这个问题，我们还优化了姿势以及缩放和平移（始终保持形状固定），如表1的中间列所示。然而，请注意，我们认为这个结果不能直接与[3]进行比较。4.5. 消融研究在这里，我们研究有助于我们的方法性能的因素。我们首先考虑损失项的单独贡献。接下来，我们改变网络中剩余块的数量，这会影响网络深度。同样地，5337n一BC一BC一BC图6：消融实验的目视比较（a）基线，（b）无LL1. y，G i-项，和（c）2个尺度。模糊编号Res.错误错误误差误差标签LinLiD八月区块#比例尺(opt后）（选择姿势）（选择后，姿势）基线✓ ✓ ✓ 946.896.663.773.655个res块✓ ✓ ✓ 546.766.633.623.60没有侠影✓ ✓ 946.996.973.833.852个规模✓ ✓ ✓ 928.217.884.504.34没有深度✓ ✓ 94-8.57-3.87无法线✓ ✓ 949.029.045.285.36无VGG✓ ✓ ✓ 947.806.694.183.60表2：使用网格距离进行评估的深度估计器的消融研究更多详情请参见第4.5我们改变执行多少下采样操作（缩放）这些操作涉及学习卷积，从而增加了网络的容量和深度。最后，我们测试了在我们的合成训练数据上执行的模糊数据增强的作用我们在来自87个受试者的图像上运行这个实验（四个受试者示例见图6消融研究结果总结见表2。为了与[3]兼容，我们使用第4.4节中描述的程序，使用估计的比对而不是扫描进行所有比较，报告平均双向点到网格距离。然而，将模型拟合到我们的扫描会使我们的流水线的不太鲁棒的变体中的问题规则化（例如，“No blur aug.”）并且在解置过程中的不完美性可能引入细微的和潜在的错误引导的不准确性，因此模型变量中的折衷将不一定由该度量很好地表示。标记有opt pose的列与优化为最小化距离的姿势相关，类似于前一节。我们还考虑了前后尺度的独立优化（如第3.3节所述，标记为opt back），因为没有深度的实验显示前后尺度的差异，使得定量评估在没有这种独立优化的情况下使用较少。最值得注意的是法线在这种损失中的重要性删除法向项（L1和VGG）比删除深度项更有害，这与图2中提供的直觉一致。与基线相比，删除深度或正常项会产生负面影响。减少下采样使网络变浅，使其能够保持更多的细节（见表2），但也会产生噪声，从而导致很大的准确性损失。尽管侠影奥格-分段具有小的数值影响，我们观察到它产生尖峰和孔，使得它不能用于快速创建纹理扫描。最后，忽略法线上的VGG损失会导致精度的轻微损失。我们在图6中添加了一个额外的配置：去除法线上的L1损失，但保留VGG会导致过度平滑的扫描，并产生更多的阴影伪影。最后，虽然5. 结论FAX从单个RGB图像中以前所未有的细节水平估计全身几何形状和躯干。这种质量主要取决于两个主要因素。首先，我们不通过体素、凸包或身体模型等表示来间接输出，这使我们能够用图像转换网络重新覆盖原始像素定义的细节，比计算方法快几个数量级。其次，我们的几何估计严重依赖于表面法线的作用，我们甚至表面法线单独可以产生合理的机构在没有深度信息。我们使用两个数据集评估我们的系统，进行消融研究，并广泛说明我们的系统的视觉性能。对于未来的工作，我们相信改进我们的训练数据可以克服当前方法的许多限制，例如正面姿势或最少的衣服。我们希望以快速、数据驱动的方式消除扫描几何和纹理中的接缝。最后，我们相信，结合一个额外的视图可以帮助减少固有的模糊性，目前在形状估计从一个单一的视图。5338图7：两列RGB图像，扫描有和没有纹理和对齐。密切关注形状、姿势和种族的变化，以及臀部、腰部和胸部细节的保真度，特别是轮廓区域。注意，该图中的大多数测试对象穿着与合成训练数据中存在的服装相似的衣服5339引用[1] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个RGB摄像机重建穿着衣服的人。在IEEE计算机视觉和模式识别会议，2019年6月。2[2] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.从单目视频的详细的人类化身。2018年国际3D视觉会议（3DV），第98-109页IEEE，2018年。一、二[3] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.基于视频的三维人物模型重建。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。二六七[4] 乔纳森·T.巴伦和吉坦德拉·马利克形状、照明和着色的反射率 IEEE Trans. 模式分析马赫Intell，37（8）：1670-1687，2015. 2[5] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。在第26届计算机图形和交互技术年会的会议录，SIGGRAPHUSA ， 1999. 出版社： ACM Press/Addison-WesleyPublishing Co. 2[6] 作者：Michael J.布莱克马修·洛珀哈维尔·罗梅罗从单目rgb-d序列对运动中的人进行详细的全身重建。在2015年IEEE计算机视觉国际会议（ICCV），ICCVUSA，2015. IEEE计算机协会。1、4[7] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl：由单一影像自动估计三维人体位姿与形状。欧洲计算机视觉会议，第561-578页。施普林格，2016年。一、二、四[8] Federica Bogo，Javier Romero，Gerard Pons-Moll，andMichael J.黑色. 动态FAUST：记录运动中的人体在2017年IEEE计算机视觉和模式识别会议上，CVPR 2017，檀香山，HI，美国2017年7月21-26日，第5573-5582页，2017年。一、二、六[9] James Booth 、 Epameinondas Antonakos 、 StylianosPloumpis 、 George Trigeorgis 、 Yannis Panagakis 和Stefanos Zafeiriou。3d脸变形模型“在野外”。在2017年IEEE计算机视觉和模式识别会议（CVPR），第00卷，第54642017年7月。2[10] EndriDibra ， HimanshuJain ， A.CengizOüztireli ，RemoZiegler，and Markus H.恶心使用生成hks描述符和交叉模态神经网络从剪影中提取人体形状。在CVPR中，第5504-5514页。IEEE计算机学会，2017年。一、二[11] 窦鹏飞，Shishir K. Shah和Ioannis A.卡卡迪亚里斯基于深度神经网络的端到端三维人脸重建。2017年IEEE计算机视觉和模式识别会议（CVPR），第1503-1512页，2017年7月。2[12] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签CoRR，abs/1411.4734，2014年。2[13] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao. 用于单目深度估计的深度有序回归网络。CoRR，abs/1806.02446，2018。2[14] Yu Guo，Xiaowu Chen，Bin Zhou，and Qinping Zhao.从单个图像估计穿着衣服和裸体的人的形状。在CVM，2012年。2[15] Nils Hasler ， Hanno Ackermann ， Bodo Rosenhahn ，Thorsten Thorm aühlen和Hans-PeterSeidel。从图像集对着装对象的多线性姿态和在第二十三届IEEE计算机视觉和模式识别会议CVPR 2010，旧金山，CA，USA，13-18 June 2010，pages 1823-1830，2010. 2[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。3[17] 贝特霍尔德湾P. 号角. 从明暗恢复形状：从一个视图获得光滑不透明物体形状的方法技术报告MAC-TR-79和AI-TR-232，AI实验室，麻省理工学院，11月。1970. 2[18] 贝特霍尔德湾P. Horn和Michael J.布鲁克斯从阴影中获得形状的变分方法计算机视觉，图形和图像处理，33（2）：174-208，1986。1[19] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。arXiv预印本，2017年。一、二、三[20] 亚伦·S杰克逊、阿德里安·布拉特、瓦西里奥斯·阿吉里乌和乔治奥斯·齐米罗普洛斯。通过直接体积cnn回归从单幅图像重建大姿态三维人脸。 2017年10月在IEEE计算机视觉国际会议（ICCV）上发表。2[21] ArjunJain 、 ThorstenThorm¨ hlen 、 Hans-PeterSeidel 和Christian Theobalt。影片整形：在视频中跟踪和重新塑造人类。ACM事务处理图表，29（6）：148：1- 148：10，Dec. 2010. 2[22] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议，2018年。一、二、六[23] 瓦希德·卡齐米和约瑟芬·沙利文用回归树的集合进行一毫秒见CVPR，第1867-1874页。IEEE计算机学会，2014年。4[24] Ira Kemelmacher-Shlizerman和Ronen Basri。使用单个参考面部形状从单个图像进行 3D 面部重建。 IEEETransactionsonPatternAnalysisandMachineIntelligence，33（2）：394-405，Feb 2011. 2[25] Ivan Krasin，Tom Duerig，Neil Alldrin，Andreas Veit，Sami Abu-El-Haija，Serge Belongie，David Cai，ZheyunFeng ， Vit- torio Ferrari ， Victor Gomes ， et al.Openimages：用于大规模多标签和多类图像分类的公共数据集。数据集来自https：//github。com/openimages，2（6）：7，2016. 5[26] 放大图片作者：Christoph Lassner ， Javier Romero ，Martin Kiefel，Federica Bogo，Michael J.布莱克和彼得五世盖勒团结人民：关闭3D和2D人类表现之间的循环。在IEEE会议计算机视觉和模式识别（CVPR），2017年7月。25340[27] 陈立，周坤，林志颖。基于人脸先验的内在人脸图像分解。在 David J. Fleet ， Toma' sPajdla ， BerntSchiele 和TinneTuytelaars ，编辑， Computer Vision-ECCV 2014 -13th European Conference，Zurich，Switzerland，2014年 9 月 6 日至 12 日， Proceedings ， Part V ，卷 8693ofLecture Notes in Computer Science ，第 218-233 页Springer，2014. 2[28] Guannan Li，Chenglei Wu，Carsten Stoll，Yebin Liu，Kiran Varanasi，Qionghai Dai，and Christian Theobalt.在一般不受控制的照明下捕捉可重燃的人类表演。Comput. Graph. Forum，32（2）：275 -284，2013. 1[29] Matthew Loper 、 Naureen Mahmood 、 Javier Romero 、Gerard Pons-Moll和Michael J Black。Smpl：一个有皮肤的多人线性模型。 ACM Transactions on Graphics（TOG），34（6）：248，2015。4[30] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。计算机视觉（ICCV），2017年IEEE国际会议，第2813IEEE，2017年。3[31] Ryota Natsume，Shunsuke Saito，Zeng Huang，WeikaiChen ， ChongyangMa ， HaoLi ， andShigeoMorishima.Siclope ：基于剪影的穿衣人。 CoRR ，abs/1901.00049，2019年。一、二、六[32] Augustus Odena Vincent Dumoulin和Chris Olah。反卷积和棋盘式伪影。Distill，2016. 3[33] Mohamed Omran 、 Christoph Lassner 、 Gerard Pons-Moll、Pe ter Gehler和Bernt Schiele。神经身体拟合：统一深度学习和基于模型的人体姿势和形状估计。在2018年3D视觉国际会议（3DV）上，第484-494页。IEEE，2018年。一、二[34] Georgios Pavlakos ， Luyang Zhu， Xiaowei Zhou ， andKostas Daniilidis.学习从单色图像估计三维人体姿态和形状。在2018年IEEE计算机视觉和模式识别会议，CVPR 2018，美国犹他州盐湖城，2018年6月18日至22日，第4592[35] Elad Richardson 、 Matan Sela 、 Roy Or-El 和 RonKimmel。从单个图像学习详细的面部重建。在2017年IEEE计算机视觉和模式识别会议上，CVPR 2017，檀香山，HI，美国，2017年7月21日至26日，第5553-5562页，2017年。一、二[36] Matan Sela Elad Richardson和Ron Kimmel使用图像到图像转换的无限制面部几何结构重建在计算机视觉（ICCV），2017年IEEE国际会议上，第1585-1594页IEEE，2017年。二、四[37] 放大图片作者： Soumyadip Sengupta ， AngjooKanazawa，Carlos D.Castillo和David W.雅各布斯学习野外人脸的形状、反射率在计算机视觉和模式识别（CVPR），2018年。2[38] Vince Tan，Ignas Budvytis和Roberto Cipolla。用于3d人体形状和姿势预测的间接深

下载后可阅读完整内容，剩余1页未读，立即下载