高分辨率三维人体数字化新方法

107 浏览量更新于2023-10-23 收藏 2.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

84PIFuHD：用于高分辨率三维人体数字化Shunsuke Saito1，3 Tomas Simon2 Jason Saragih2 Hanbyul Joo31南加州大学2Facebook Reality Labs3 Facebook AI Research摘要基于图像的3D人体形状估计的最新进展是由深度神经网络提供的表示能力的显着改善驱动的。虽然目前的方法已经证明了在现实世界中的潜力，他们仍然无法产生重建的细节水平往往存在于输入图像。我们认为，这种限制主要源于两个相互冲突的要求;准确的预测需要大的上下文，但是精确的预测需要高分辨率。由于当前硬件中的存储器限制，先前的方法倾向于将低分辨率图像作为输入以覆盖大的空间背景，并且因此产生不太精确（或低分辨率）的3D估计。我们通过制定端到端可训练的多级架构来解决此限制粗略级以较低的分辨率观察整个图像，并专注于整体推理。这提供了通过观察更高分辨率的图像来估计高度详细的几何形状的精细水平的上下文我们证明，我们的方法显着优于现有的国家的最先进的技术，通过充分利用1k分辨率的输入图像的单图像人体形状重建1. 介绍高保真人体数字化是实现从医学成像到虚拟现实的无数应用虽然现在可以使用多视图系统[12，26]对人类进行度量上准确和精确的重建，但由于其依赖于具有严格环境约束的专业捕获系统大量的摄像机、受控的照明），其部署起来极其昂贵和麻烦。社区越来越多地转向使用高容量深度学习模型，这些模型在从单个图像中获取重建方面表现出很大的希望[19，42，30，1]。但业绩公司网址：https://shunsukesaito.github.io/PIFuHD/图1：给定一个人的高分辨率单张图像，我们以1k分辨率恢复了穿着衣服的人的高度详细的3D重建。目前这些方法的成本仍然显著低于用专业捕获系统可实现的成本。这项工作的目标是实现高保真三维重建的穿着人类从一个单一的图像，分辨率足以恢复详细的信息，如手指，面部特征和衣服褶皱（见图）。1）。我们的观察是现有的方法没有充分利用高分辨率（例如，1k或更大）的人的图像，该图像现在使用移动电话上的商品传感器容易地获取。这是因为先前的方法依赖于整体推理来在成像的人的2D外观与其3D形状之间进行映射，其中，在实践中，由于禁止的存储器要求，使用下采样的图像[19，42]。虽然局部图像块具有用于详细3D重建的重要线索，但是由于当前图形硬件的存储器限制，这些线索很少在全高分辨率输入中被利用。旨在解决这一限制的方法可以分为两个阵营之一。在第一个阵营中，问题被分解成一个由粗到细的方式，其中高频细节浮雕在低保真度的表面上。在该方法中，使用低图像分辨率85以获得粗糙的形状。然后，表示为表面法线[51]或位移[3]的精细细节通过后处理（如Shape From Shading[14]或神经网络内的合成）添加。第二阵营采用人类的高保真模型（例如，[5]第五，要有一个明确的定义。虽然这两种方法都导致看起来详细的重建，但它们通常不能忠实地再现输入图像中存在的真实细节。在这项工作中，我们引入了一个端到端的多级框架，该框架以像素对齐的方式以前所未有的高1k图像分辨率推断穿着衣服的人的3D几何形状，保留原始输入中的细节而无需任何后处理。我们的方法不同于从粗到细的方法，因为没有明确的几何表示是强制执行的粗糙水平。相反，隐式编码的几何上下文被传播到更高的级别，而不过早地做出关于几何的显式确定我们的方法基于最近引入的像素对齐隐式函数（PIFu）表示[35]。表示的像素对齐性质使我们能够以原则性的方式将从粗略推理中学习到的整体嵌入与从高分辨率输入中学习到的图像特征每一级递增地合并在粗略级中缺失的附加信息，仅在最高级别中进行几何形状的最终确定最后，对于完整的重建，系统需要恢复背面，这在任何单个图像中都是不可观察的。与低分辨率输入一样，无法从可观察测量结果预测的缺失信息将导致过度平滑和模糊的估计。我们通过利用图像到图像转换网络来产生背面法线来克服这个问题，类似于[30，11，39]。用推断的背面表面法线调节我们的多级像素对齐形状推断去除了模糊性，并显著提高了我们重建的感知质量，在可见和遮挡部分之间具有更一致的细节水平。这项工作的主要贡献包括：• 一个端到端的可训练的粗到细框架，用于隐式表面学习，以1k图像分辨率进行高分辨率3D• 一种有效地处理未观察到的区域（例如背部）中的不确定性的方法，从而产生具有高细节的完整重建。2. 相关工作单视图三维人体数字化由于沿相机射线的基本深度模糊性，单视图三维人体重建是一个不适定问题。为了克服这种模糊性，参数化3D模型[5，27，18，33]通常用于将估计限制为一小组模型参数，将解空间约束为特定选择的参数化身体模型[7，22，20，46，33，47]。然而，所得到的模型的表现力是有限的，通过使用一个单一的模板网格，以及由数据上的模型被建立（通常主要包括最低限度的穿着的人）。虽然使用单独的参数化模型可以减轻有限的形状变化[6]，但是大的变形和拓扑变化对于处理这些形状表示仍然是重要的。研究人员还提出了不使用参数模型，而是直接从单个视图回归“自由形式”3D人体几何形状的方法。这些方法基于每个算法使用的输入和输出表示来改变它们的方向。一些方法通过体积表示来表示3D输出世界[42]。与这项工作特别相关是郑等人的DeepHuman[49]方法，其中由网络以增加的分辨率和细节产生离散化的体积表示。使用曲面法线的其他细节在最终级别上进行浮雕。虽然该方法获得了令人印象深刻的结果，但是由离散体素表示施加的立方存储器要求防止简单地通过简单地缩放输入分辨率来获得高分辨率。替代方法考虑在参数模型空间[1]之上的附加自由形式变形，并且还存在预测目标人的深度图作为输出的多种方法[40，11，39]。最近引入的像素对齐隐式函数（PIFu）[35]没有显式离散输出空间表示，而是回归确定任何给定3D位置占用率的函数。这种方法显示了其在重建高保真3D几何结构方面的优势，而不必同时在存储器中保持整个输出体积的离散化表示此外，与使用全局特征向量的隐式表面表示不同[29，32，10]，PIFu利用完全卷积的图像特征，保留输入图像中存在的局部细节纹理空间中的高分辨率合成一些最近的方法追求重建高质量的3D纹理或几何形状，通过使用纹理映射表示[48，41，23]，在其上估计几何或颜色细节。特别地，Alldieck et al.[3]旨在通过在展开的UV空间中回归位移来重建高质量的3D几何形状。然而，这种类型的方法最终受限于模板网格的拓扑（在表示不同拓扑时表现出问题，诸如由不同发型或裙子所要求的）以及为UV参数化选择的拓扑（例如，可见接缝伪影86围绕纹理接缝）。最近的方法利用神经网络模型来预测中间纹理或深度表示，然后用于重建最终的3D几何输出[36，49]。我们的工作还涉及到产生高质量或高分辨率合成人体图像的方法最近的方法考虑生成高质量的合成人脸，以克服原始基于GAN的方法的局限性[43，21]。在语义分割任务中追求类似的权衡[8，9]。3. 方法我们的方法建立在最近引入的像素对齐隐式函数（ PIFu ）框架 [35] 的基础上，该框架将分辨率为512×512的图像作为输入，获得低分辨率特征嵌入（128×128）。到实现更高的分辨率输出，我们堆叠一个额外的在这个框架之上的像素对齐预测模块，其中精细模块将更高分辨率的图像（1024×1024）作为输入，并编码为高分辨率图像特征（512×512）。第二个模块需要高分辨率特征嵌入以及3D从第一模块嵌入以预测占用概率字段。为了进一步提高重建的质量和该方法的概述参见图23.1. 像素对齐隐式函数我们简要地描述了在[ 35 ]中引入的PIFU的基础，它构成了我们方法的粗略水平（图中的上半部分）。2）。3D人体数字化的目标可以通过估计密集3D体积的占用来与先前的方法相比，在先前的方法中，目标3D空间被离散化并且算法集中于显式地估计每个体素的占用（例如，[51]），PIFU的目标是对函数f（X）进行建模，该函数预测任何给定3D的二进制占用值在连续相机空间中的位置X=（Xx，Xy，Xz）∈R3：.具体地，函数f首先从在π（X）=x∈R2处的投影2D位置提取图像特征嵌入，我们用Φ（x，I）表示。对于π使用正交投影，因此x=π （X）=（Xx ，Xy）。然后，它估计查询3D点X的占用率，因此：f（X，I）=g（Φ（x，I），Z），（2）其中Z=Xz是沿着由2D投影x定义的射线的深度。注意，沿着相同射线的所有3D点具有来自相同投影位置x的完全相同的图像特征Φ（x，I），并且因此函数g应当聚焦于变化的输入深度Z以消除沿着射线的3D点的占用的在[35]中，卷积神经网络（CNN）架构用于2D特征嵌入函数Φ，多层感知器（MLP）用于函数g。通过渲染数百个高质量扫描的3D人体网格模型合成生成的大规模数据集[34]用于以端到端的方式训练函数f与基于体素的方法不同，PIFU不产生离散体积作为输出，因此可以通过对3D点进行采样并计算采样位置处的占用损失来执行训练在推断过程中，对3D空间进行均匀采样以推断占用率，并使用行进立方体以0.5的阈值提取最终等值面[28]。局限性：PIFu和其他现有工作的输入尺寸以及图像特征分辨率被限制为由于现有图形硬件的内存限制，分辨率分别为512×512和128× 128。重要的是，网络的设计应该使其感受野覆盖整个图像，以便它可以采用整体推理进行一致的深度推理-因此，具有中间监督的重复自下而上和自上而下的架构[31]对于实现具有泛化能力的鲁棒3D重建这阻止了该方法将更高分辨率的图像作为输入并保持特征嵌入中的分辨率，即使这可能允许网络利用仅在这些更高分辨率下存在的细节线索。我们发现，虽然理论上PIFU的连续表示可以表示3D，f（X，I）=1如果X在网格曲面0否则，（一）在任意分辨率下的几何图形，实际上，该表示受特征分辨率的限制。因此，我们需要一种有效的平衡其中I是单个RGB图像。由于在训练期间没有显式3D体积存储在存储器中，因此该方法是存储器高效的，并且更重要的是，目标3D体积不PIFu [35]通过一个以端到端方式训练的神经网络架构对函数f进行鲁棒性源于长距离的整体推理和更高的特征嵌入分辨率的表达能力。3.2. 多级像素对齐隐式函数我们提出了一个多层次的方法，以更高的保真度三维人体数字化，1024×1024分辨率的图像作为输入。我们的方法由两个层次组成87输入X0.5下采样512x512粗像素对齐隐式函数Ω1Image-to-Imagetranslation1024x1024512x512前/后正常精细PIFUMLPMLPMLP低分辨率占用（输入/输出）28x128查询深度：高分辨率占用率（输入/输出）重建图2：我们的框架概述两个级别的像素对齐的预测产生高分辨率的3D重建。粗略级别（顶部）捕获全局3D结构，而精细级别添加高分辨率细节。PIFU模块：（1）类似于PIFu [35]的粗略级别，专注于通过以下方式整合全局几何信息：以下采样的512×512图像作为输入，并产生128×128分辨率的骨干图像特征，以及（2）精细级别，其专注于通过以原始1024×1024分辨率图像作为输入来添加更细微的细节，并产生512×512分辨率的骨干图像特征（比实现高四倍的分辨率）。[35]）。值得注意的是，精细级别模块采用从粗略级别提取的3D嵌入特征，而不是绝对深度值。我们的粗略级别模块的定义类似于PIFU，但作为修改（第3.3节），它还采用预测的正面和背面法线贴图：如果网络设计可以适当地利用增加的图像分辨率和网络容量。此外，精细网络不需要处理归一化（即，产生全局一致的3D深度），因此这对于允许高分辨率图像输入而不受存储器限制是重要的3.3. 前后推理预测人的背部的精确几何形状是一个不适定问题，因为它不是直接在图像中观察到因此，背面必须完全由MLP预测网络推断，并且由于模糊性和fL（X）= g L.ΦLΣ（xL，IL，FL，BL，），Z、（3）由于这个问题的多模态性质，3D重建往往是平滑的和无特征的。这部分是由于其中IL是较低分辨率输入，并且FL和BL是相同分辨率下的预测法线贴图。xL ∈ R2 is the projected 2d locationof X in the image space of IL. 的精细级表示为占用损失（第二节）3.4）有利于不确定性下的平均重建，但也因为最终的MLP层需要学习复杂的预测函数。我们发现如果我们把这个推论的一部分f H（X）=gH.ΦHΣ（xH，IH，FH，BH，），X（X）、（四）问题的特征提取阶段，网络可以产生更清晰的重建几何。为此我们其中IH、FH、BH分别是分辨率为1024×1024。xH∈R2是高分辨率下的二维投影位置，因此在我们的例子中xH= 2xL。函数ΦH对来自高分辨率图像的图像特征进行编码。输入并且具有类似于低分辨率特征提取器ΦL的结构。一个关键的区别是Φ H的感受野不覆盖整个图像，但由于其完全卷积的架构，可以用随机滑动窗口训练网络，并以原始图像分辨率进行推断（即， 1024×1024）。最后，是从粗级网络提取的3D嵌入，其中我们从gL的中间层获取输出特征。由于精细级别从第一像素对齐的MLP中获取这些特征作为3D嵌入，因此全局反射质量不应降低，并且应提高预测法线贴图作为图像空间中3D几何形状的代理，并将这些法线贴图作为特征提供给像素对齐的预测器。然后，3D重建由这些图引导以推断特定的3D几何形状，使得MLP更容易产生细节。我们使用pix2pixHD[44]网络预测图像空间中的背面和正面法线，从RGB颜色映射到法线映射。类似于最近的方法[30，11，39]，我们发现，对于充分约束的问题域（例如穿着衣服的人），这为看不见的背面产生了合理的输出。3.4. 损失函数和曲面采样所使用的损失函数的细节可能对最终模型恢复的细节有很与[35]中使用平均L1或L2损失不同，我们使用88在一组采样点处的扩展二进制交叉熵（BCE）损失[51ΣLo=λf <$（X）logf{L，H}（X）X∈S+（1−λ）（1−f（X））log.Σ1−f{L，H}（X），（五）正面正面其中S表示评估损失的样本集，λ是S中表面外点的比率，f{L，H}（·）表示该位置处的地面真值占用率，f{L，H}（ ·）是第3.2节中的每个像素对齐的隐式函数。与[35]中一样，我们使用以下混合方法采样点：均匀体积采样和使用均匀采样的表面点周围的高斯扰动的表面周围的重要性采样。我们发现，这种采样方案产生更清晰的结果比采样点成比例的距离从表面的倒数。事实上，表面上的高斯球的混合物在具有高曲率的区域附近具有更高的采样密度（直到高斯球半径的倒数）。由于曲率是曲面几何的二阶导数，因此基于曲率的重要性采样显著增强了细节和保真度。4. 实验结果数据集。为了获得高保真的3D几何形状和相应的图像，我们使用RenderPeople数据[35]，该数据由市售的500个高分辨率摄影测量扫描组成。我们将数据集分为450个受试者的训练集和50个受试者的测试集，并使用来自HDRI Haven1的163个二阶球谐函数使用预先计算的辐射传递[38]渲染网格。每个主题都是从偏航的每一个其他角度呈现的轴，其高程固定为0°。与[35]不同，在需要干净的分割掩码的情况下，我们增加了随机背景图像使用COCO [24]数据集，消除了分割作为预处理的需要。实施详情。低分辨率和高分辨率级别的图像编码器使用分别具有4个和1个堆栈的堆栈沙漏网络[31]，使用[16]建议的修改和用组归一化代替的批归一化[45]。注意，精细图像编码器移除一个下采样操作以实现大的特征嵌入分辨率。的（a）输入（b）滑动窗口wo/ 3D上下文(c)带有3D上下文的图3：没有3D感知上下文信息的滑动窗口，如（b）所示，无法学习合理的3D几何形状。方法RenderPeople正常P2s倒角正常缓冲器P2s倒角仅限精细模块0.2134.152.770.2293.632.67精细模块+全局图像功能0.1652.922.130.1832.7672.24单个PIFU0.1091.451.470.1341.681.76我们的（ML-PIFU，端到端）0.1171.661.550.1471.881.81我们的（ML-PIFu，备用）0.1111.411.440.1331.631.73我们的正常值为0.107一点三七1.43 0.1341.63一点七五表1：针对单视图重建的RenderPeople和BUFF数据集的定量评估点到曲面和倒角距离的单位为cm。第二MLP采用第四层的输出在第一MLP中，作为3D嵌入，代替绝对深度值Φ H ∈R256连同高分辨率图像特征ΦH（xH，IH，FH，BH）∈R16，导致总共272粗PIFu模块使用大小调整为512×512的输入图像和8的批处理大小进行预训练。精细PIFu采用批量大小为8和大小为 512×512 的随机窗口裁剪来训练。我们使用RMSProp，权重衰减因子为0。每10个epoch1个。在[35]之后，我们使用8000个采样点，采用均匀抽样和重要抽样相结合的方法，粗、细两级的标准差分别为5cm和3cm表面法线推断使用由[17]提出的网络架构，由9个残差块组成，4 对图层进行缩减采样。我们训练了两个网络，分别预测正面和背面法线，以下目标函数：LN=LVGG+λ11L11，（6）特征尺寸为128×128×256精细级为512×512×16MLP为其中LV千兆克是Johnson等人粗略级图像编码器具有（257，1024，512，256，128，1）个神经元，在第三、第四、第五层具有跳跃连接用于精细级图像编码器的MLP具有在第二层和第三层具有跳过连接的神经元的数目（272，512，256，128，1）注意1https://hdrihaven.com/[17]，并且Ll1是预测和地面实况法线之间的l1距离。相对权重λ11被设置为5。0在我们的实验中我们使用前面提到的450个RenderPeople训练集来生成合成地面实况正面和背面法线以及相应的输入图像。我们使用Adam优化器，学习率为2.0 ×10- 4直到收敛。89(a) 输入（b）仅精细模块（c）精细模块+全局图像特征（d）单级PIFU（e）多级PIFU图4：我们的多级像素对齐隐式函数在RenderPeople和BUFF [50]数据集样本上的定性评估。我们比较我们的方法与其他替代设计的结果。(a)输入（b）PIFU（c）我们的wo/ normal(d)我们的w/正常图5：使用预测的背面表面法线调节3D推断可提高缺失区域的保真度。4.1. 评价消融研究。我们评估我们的多级像素对齐的隐式函数与几个替代方案，以评估有助于实现高保真recruitics-tions的因素。首先，我们评估了3D嵌入的重要性，它考虑了高分辨率推理的整体背景。为了在推理时支持更大的输入分辨率，我们使用512 ×512从1024×1024图像，类似于2D计算机视觉任务（例如，语义分割）。我们发现，如果我们的精细级别模块的条件是绝对深度值，而不是学习的3D嵌入，使用滑动窗口的训练显着降低了训练和测试精度（见图2）。（3）第三章。这说明使用高分辨率特征而没有整体推理的3D重建严重遭受深度模糊性，并且无法推广训练和推理之间的输入大小差异因此，整体推理和高分辨率图像特征对于高保真三维重建是必不可少的其次，我们从健壮性和保真度的角度来评估我们的设计选择为了实现高分辨率重建，重要的是保持足够大的特征分辨率，同时保持整体推理的能力In thisexperiment, we implement 1) a pixel-aligned implicitfunction using only our fine-level image encoder byprocessing the full resolution as input during training,2) 条件1）使用ResNet34 [13]作为精神上的全局特征编码器，使用联合学习的全局特征[15]，3) 单个PIFU（即，我们的粗级图像编码器）通过将输入转换为512×512，4）我们提出的多级PIFu（两个级别）通过联合训练所有网络（ML-PIFu，端到端），以及5）我们的粗模块和细模块的交替训练（ML-PIFu，交替）。图4和表1显示了我们使用RenderPeople和BUFF [50]数据集进行的定性和我们计算点到表面的距离，倒角距离，使用地面真实几何的表面法线一致性。与骨干特征分辨率（128×128）在空间上小4倍的单级PIFU相比，特征嵌入的大空间分辨率（512 ×512另一方面，由于高分辨率输入的设计选择有限，使用局部特征受到过拟合和鲁棒性的影响，泛化变得具有挑战性。虽然添加全局上下文有助于网络推理更精确的几何形状，从而导致更清晰的重建，但全局特征中缺乏精确的空间信息会降低鲁棒性。这个问题在非刚性铰接物体的情况下变得更加关键[35]。同时，我们发现，90(a) 输入(b) 我们的（多级PIFU）(c) Tex2Shape(d) PIFu(e) DeepHuman图6：我们将我们的方法与最先进的方法进行了定性比较，包括（c）Tex2shape [3]，（d）PIFU [35]，(e)[51]在人物快照数据集上的DeepHuman [2]。通过充分利用高分辨率图像输入，（b）与现有方法相比，我们的方法可以重建更高分辨率的几何形状。训练粗略和精细模块比以端到端方式联合训练它们产生更高的我们还评估了推断背面正常的重要性，以恢复闭塞区域的细节图5示出了仅获取输入图像的PIFu由于模糊性而在缺失区域上遭受模糊重建。另一方面，通过促进图像到图像的平移网络直接提供指导，显著提高了正面和背面的重建精度，具有更逼真的皱纹。由于像素对齐的隐式函数在图像平面上可微分地渲染在计算上是昂贵的，因此在图像域中求解子问题是解决完成任务的实际解决方案有可信的细节4.2. 比较我们将我们的方法与最先进的3D人体重建方法进行了定性比较，这些方法具有公开可用的人物快照数据集上的各种形状表示[2]。形状表示包括多尺度体素（DeepHuman）[51]，像素对齐隐式函数（PIFu）[35]以及使用位移和表面法线（Tex2shape）[3]进行纹理映射的人体参数模型虽然Tex2shape和DeepHuman采用了从粗到精的策略，但结果表明，由于基本形状的表示能力有限，细化的效果是微不足道的（见图10）。（六）。更具体地，体素表示限制了空间分辨率，并且基于模板的方法难以处理变化的拓扑和大的变形。虽然基于模板的方法[3]保留了一些独特的形状，如皱纹，但由于不完美的映射，所产生的形状失去了输入主体的保真度从图像空间到纹理参数化，使用现成的人类密集对应图[4]。相比之下，我们的方法充分利用了基础形状和精细形状的表达性形状表示，并直接在像素级预测3D几何形状，保留了输入图像中存在的所有更多定性结果见图7。5. 讨论和未来工作我们提出了一个多层次的框架，执行联合推理的整体信息和局部细节，以达到高分辨率的3D重建的穿着人类从一个单一的图像，没有任何额外的后处理或边信息。我们的多级像素对齐的隐式函数实现了这一点，通过一个规模金字塔作为一个隐式的3D嵌入增量传播的全球背景。这避免了对具有有限的先前方法的显式几何做出过早的决定。我们的实验表明，重要的是要纳入这样的三维感知的背景下，准确和精确的重建。此外，我们表明，规避模糊的图像域大大增加了三维重建细节的一致性，在闭塞地区。由于多级方法依赖于先前阶段在提取3D嵌入方面的成功，因此提高基线模型的鲁棒性预计将直接有利于我们的整体重建精度。未来的工作可以包括并入人类特异性先验（例如，语义分割，姿势和参数化3D人脸模型），并添加隐式表面的2D监督[37，25]以进一步支持野外输入。91输入重建几何输入重建几何图7：互联网照片的定性结果。这些结果表明，我们的模型通过综合生成的数据训练，可以成功地从真实世界数据中的人类重建高保真3D。92引用[1] T. Alldieck，M.马格诺尔湾L. 巴特纳加尔角Theobalt和G.庞莫尔学习从单个RGB相机重建穿着衣服的人。在IEEE计算机视觉和模式识别会议上，第1175-1186页[2] T. 阿尔迪克， M. A. 马格诺， W. 许、 C. Theobalt和G.庞莫尔基于视频的三维人体模型重建。在IEEE计算机视觉和模式识别会议上，第8387-8397页[3] T. Alldieck ， G. 庞斯莫尔角 Theobalt 和 M. 玛格诺Tex2shape：从单个图像中获得详细的完整人体几何形状在IEEE计算机视觉国际会议（ICCV），2019年10月。[4] R. AlpGuüler，N. 我也是。好的密度：野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集，第7297-7306页[5] D. Anguelov， P. 斯里尼瓦桑D. Koller， S. Thrun ，J.Rodgers和J.戴维斯SCAPE：人的形状完成和动画。ACMTransactions on Graphics，24（3）：408-416，2005。[6] B. L.巴特纳加尔湾蒂瓦里角Theobalt和G.庞莫尔多服装网：学习从图像中打扮3d人在IEEE计算机视觉国际会议论文集，第5420-5430页[7] F. Bogo、A.金泽角Lassner，P.Gehler，J.Romero和M. J.布莱克。保持它SMPL：从单个图像自动估计3D人体姿势和形状。欧洲计算机视觉会议，第561-578页[8] L- C. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A.L.尤尔。Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。IEEE Transactions on PatternAnalysis and Machine Intelligence，40（4）：834[9] L- C. Chen，Y.Zhu，G.帕潘德里欧F.Schroff和H.Adam.一种用于序列图像分割的带可分离卷积的编码器-解码器。在ECCV，2018。[10] Z. Chen和H.张某学习生成式形状建模的隐式字段在IEEE计算机视觉和模式识别会议上，第5939-5948页[11] V. Gabeur，J. S. Franco，X. 马丁角 schmid和G.罗杰塑造人类：基于单幅图像的非参数三维人体形状估计。在ICCV 2019 -国际计算机视觉会议上，第1-10页，韩国首尔，10月。2019年。[12] K. Guo ，山核桃 P.Lincoln ， P.Davidson ， J.Busch ，X.Yu，M.惠伦G. 哈维，S。奥茨埃什卡诺河Pandey，J. Dourgarian等人，《可靠性：体积性能捕捉人类与现实的重新照明。ACM Transactions on Graphics（TOG），2019年。[13] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，第770-778页[14] B. K. 号角. 从阴影中获得形状：从一个视图获得光滑不透明物体形状的方法1970年。[15] S. Iizuka、E. Simo-Serra和H.石川全局和局部一致的图像完成。ACM Transactions on Graphics（ToG），36（4）：107，2017。[16] A. S. 杰克逊角Manafas和G.齐米罗普洛斯基于体积回归的单幅图像三维在ECCV研讨会论文集，PeopleCap2018，第0-0页[17] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页。施普林格，2016年。[18] H. Joo，T. Simon和Y.酋长总捕获量：用于跟踪面部、手部和身体的3d变形模型。在IEEE计算机视觉和模式识别会议论文集，第8320-8329页[19] A. Kanazawa，M.J. Black，D.W. Jacobs和J.马利克端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议上，第7122- 7131页[20] A. Kanazawa，M. J. Black，D. W. Jacobs和J.马利克端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议论文集，第7122-7131页[21] T. Karras，T. Aila，S. Laine和J.莱赫蒂宁为提高质量、稳定性和变异性而进行的干细胞arXiv预印本arXiv：1710.10196，2017。[22] C.放大图片作者：J. Romero，M.基费尔F. Bogo，M. J.Black和P.V.盖勒。团结人民：闭合3d和2d人类表征之间的循环。在IEEE计算机视觉和模式识别上，第6050[23] V. Lazova，E. Insafutdinov和G.庞莫尔360-从单个图像中获得穿着衣服的人的程度纹理。在3D视觉国际会议（3DV），2019年9月。[24] T.- Y. 林 M. 梅尔 S. 贝隆吉 J. Hays，P. Perona，D. 拉马南山口 Doll a'r和C. L. 齐特尼克Microsoftcoco：上下文中的公共对象在ECCV，第740[25] S. Liu，S. Saito，W. Chen和H.李学习在没有3d监督的情况下推断隐含表面。 arXiv 预印本 arXiv ：1911.00767，2019。[26] S.隆巴迪，J. Saragih，T. Simon和Y.酋长用于面部渲染的深层外观模型 ACM Transactions on Graphics（TOG），37（4）：68，2018。[27] M. 洛珀，N.Mahmood，J.罗梅罗湾Pons-Moll和M.J.布莱克。SMPL：一个多人皮肤线性模型。ACM Transactionson Graphics，34（6）：248，2015.[28] W. E. Lorensen和H. E. 克莱恩移动立方体：一种高分辨率三维表面构造算法。在ACM siggraph计算机图形，第21卷，第163-169页。ACM，1987年。[29] L. Mescheder，M.Oechsle，M.Niemeyer，S.诺沃津和A. 盖革Occupancy networks：Learning 3d reconstructionin function space.arXiv 预印本 arXiv ： 1812.03828 ，2018。[30] R. Natsume，S. Saito，Z.黄，W. Chen C.，马缨丹属Ma，H. Li和S.森岛Siclope：基于剪影的穿衣人。在IEEE计算机视觉和模式识别会议上，第4480-4490页93[31] A. Newell，K.Yang和J.邓小平更用于人体姿态估计的堆叠沙漏欧洲计算机视觉会议，第483-499页[32] J·J·帕克， P.弗洛伦斯， J. Straub， R. 纽科姆，以及S.洛夫格罗夫Deepsdf：学习连续符号距离函数的形状表示。arXiv预印本arXiv：1901.05103，2019。[33] G.帕夫拉科斯河谷Choutas，N. Ghorbani，T.博尔卡特A.A. Osman，D.Tzionas和M.J. 黑色. 富有表现力的身体捕捉：从一张图像中捕捉3d手、脸和身体在IEEE计算机视觉和模式识别会议论文集，第10975-10985页[34] Renderpeople，2018.https://renderpeople.com/www.example.com[35] S. Saito ，Z. 黄河，巴西 - 地 Natsume ， S.Morishima ，A.Kanazawa 和H. 李Pifu ：Pixel-aligned implicit functionfor high-resolution clothed human digitization. 在 ICCV ，2019年。[36] M. Sela，E. Richardson，和R.基梅尔使用图像到图像转换的无限制面部几何重建。在IEEE计算机视觉国际会议论文集，第1576-1585页[37] V. Sitzmann，M. Zollh o¨fe r和G. 威茨斯坦场景表示网络：连续3D结构感知神经场景表示。arXiv预印本arXiv：1906.01618，2019。[38] P. - P. Sloan，J. Kautz和J.斯奈德在动态、低频照明环境中进行实时渲染的预先计算的辐射传递。在 ACMTransactions on Graphics，第21卷，第527-536页[39] D.史密斯，M。Loper，X. Hu，P. Mavrostan，and J.罗梅罗传真：在不到一秒钟的时间内快速准确地扫描图像在IEEE计算机视觉国际会议，2019年10月。[40] S. 唐氏F.谭，K.郑，Z.Li，S.Zhu，和P.Tan. 一个神经网络，用于从单个图像中进行详细的人体深度估计。在IEEE计算机视觉国际会议论文集，第7750-7759页[41] A. T.特兰，T.哈斯纳岛Masi，E. Paz，Y. Nirkin和G. G.梅迪奥尼极速3D人脸重建：透过闭塞看到。[42] G. Varol，D.锡兰湾Russell，J.Yang，E.尤默岛Laptev和C.施密特BodyNet：3D人体形状的体积推断在欧洲计算机视觉会议上，第20-36页[43] T.- C.王兆国Y.刘杰- Y. Zhu，中国茶青冈A. Tao，J.Kautz和B.卡坦扎罗基于条件gans的高分辨率图像合成与语义处理。在IEEE计算机视觉和模式识别会议集，第8798-8807页[44] T.- C.王兆国Y.刘杰- Y. Zhu，中国茶青冈A. Tao，J.Kautz和B.卡坦扎罗基于条件gans的高分辨率图像合成与语义处理。在IEEE计算机视觉和模式识别上，第8798[45] Y. Wu和K.他外组归一化。在欧洲计算机视觉会议上，第3-19页[46] D. Xiang，H. Joo和Y.酋长单眼总夺获：在野外摆出脸、身体和手的姿势。法律程序IEEE计算机视觉和模式识别会议，第10965-10974页，2019年。[47] Y.徐世文C. Zhu和T. 阿东 Denserac：通过密集渲染和比较联合3d姿势和形状估计。在IEEE计算机视觉国际会议论文集，第7760-7770页[48] S. Yamaguchi，S. Saito、K. 长野，Y. Zhao，W. 陈先生，K. Olszewski，S. Morishima和H.李无约束图像的高保真面部反射和几何推断。ACM Transactions on Graphics，37（4）：162，2018。[49] X. Zeng，X. Peng和Y.乔Df 2net：一个用于详细3D人脸重建的密集-精细-精细网络。在IEEE计算机视觉国际会议（ICCV），2019年10月。[50] C. Zhang，S.Pujades，M.Black和G.庞莫尔根据穿戴的3D扫描序列进行详细、准确的人体形状估计。在IEEE计算机视觉和模式识别会议上，第4191-4200页[51] Z. Zheng ， T. Yu ， Y. 韦角，澳 - 地 Dai 和 Y. 刘某Deephuman：从单幅图像重建三维人体。在IEEE计算机视觉国际会议（ICCV），2019年10月。

下载后可阅读完整内容，剩余1页未读，立即下载