ARCH:图像重建的动画人服装体20字概述

150 浏览量更新于2023-10-14 收藏 3.1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11046ARCH++：重新审视动画准备的服装人体重建TongHe1，2*，YuanluXu1*，Shunsuk eSaito1，Stef anoSoatto2，TonyTung11Facebook Reality Labs Research，USA2加州大学洛杉矶分校，美国{simpleig，soatto}@ cs.ucla.edu，{merayxu，shunsuke.saito16}@ gmail.com，tony. fb.com摘要我们提出了ARCH++，一个基于图像的方法来重建，结构与任意服装风格的3D化身。我们重新构建的化身在来自输入视图的可见区域和不可见区域中都是动画就绪的并且是高度真实的。虽然之前的工作显示出很大的希望在重建具有各种拓扑结构的可动画化的穿着衣服的人的过程中，我们观察到存在导致次优重建质量的基本限制。在本文中，我们回顾了基于图像的化身重建的主要步骤首先，我们引入了一个端到端的点为基础的几何编码器，以更好地描述语义的基础3D人体，在取代以前的手工制作的功能。其次，为了解决由规范姿势中的穿衣人的拓扑变化引起的占用模糊性，我们提出了具有跨空间一致性的协同监督最后，我们使用图像到图像的平移网络来进一步细化重建表面上的细节几何和纹理，这提高了跨任意视点的保真度和一致性在实验中，我们展示了在重建质量和真实性方面的公共基准和用户研究方面的最新技术水平的改进。1. 介绍数字人已经成为众多AR/VR应用程序的越来越重要的构建块，例如视频游戏，社交远程呈现[48，39]和虚拟试穿。为了实现真正的沉浸式体验，这些化身必须获得超越恐怖谷的更高水平的真实感[45]。构建逼真的化身涉及艺术家的许多手动工作或受控环境下昂贵的捕获系统[14，21，49]，限制了访问并增加了成本。因此，用最小的先决条件（例如，自拍）用于未来的数字人应用。从单个图像重建的最新人类模型将类别特定的数据与图像ob-to-ob-to*这项工作是作为Tong He在Facebook，Sausalito，CA，USA实习的一部分完成的。通讯作者是许元禄。输入姿势重建化身重建图1.给定任意姿势的对象的图像（左），我们的方法可以在姿势输入空间（中）以及自动装配的规范空间（右）两者中生成照片级真实感化身服务[72，31，66]。其中，基于模板的ap-然而，方法[32，34，67，3，9]遭受缺乏保真度和难以支持服装变化;而非参数重建方法[55，75，56，23]，例如，使用隐式表面函数，尽管逼真度令人印象深刻，但不能提供直观的方式来动画化重建的化身。在最近的工作ARCH [26]中，作者提出在规范空间中使用像素对齐的隐式函数[55]重建非参数人体模型，其中所有重建的化身都被转换为共同的姿势。为此，利用参数化人体模型来确定变换。通过从下层身体模型传递环蒙皮权重（其编码每个顶点受每个身体关节的变换的影响的程度），重建结果准备好动画。然而，我们观察到，参数化身体模型和像素对齐的隐式函数的优点没有得到充分利用。在本文中，我们介绍了ARCH++，它重新访问的主要步骤的动画化身重建从图像，年龄和解决的局限性，在制定和表示的先前的工作。首先，当前基于隐函数的方法主要使用手工特征作为3D空间表示，其遭受深度二义性并且缺乏人体语义信息。为了解决这个问题，我们提出了一个端到端的几何编码器11047基于PointNet++[52，53]，它表达了基本的3D人体。其次，我们发现获得规范空间监督的unpos- ing过程导致拓扑变化（例如，去除自相交区域），并且因此铰接式重建不能在原始姿态空间中获得相同水平的精度。因此，我们提出了一个共同监督的框架，其中占用联合预测的构成和典型的空间，与跨空间的一致性的额外限制。这样，我们就可以从两者中获益：在所设定的空间中的监督允许预测保留原始扫描的所有细节;而规范空间重建可以确保重建的化身的完整性。最后，基于图像的化身重建往往遭受退化的几何形状和纹理的遮挡区域。为了使问题更易于处理，我们首先推断表面normals和纹理的遮挡区域的图像域使用图像平移网络，然后细化重建的表面与造型修复计划。在实验中，我们评估了ARCH++的photore-alistically渲染的合成图像以及在野外的图像，优于以前的作品的基础上隐式函数和其他设计选择的公共基准。ARCH++的贡献包括：1）用于隐函数的基于点的几何编码器，以直接提取人体形状和姿势先验，其是高效的并且没有量化误差;（2）首次提出并研究了确定目标占有空间的基本问题：姿态空间保真度与正则空间完备性虽然之前没有提到，但我们还是概述了不同空间的利弊，并提出了一个联合空间中占用场的共同监督框架; 3）我们发现基于图像的表面属性估计可以解决视图不一致重建质量的公开问题。我们的模具修复表面细化策略生成360◦逼真的3D头像。4）我们的方法在基于图像的可动画化化身重建的全新任务上展示了增强的性能。2. 相关工作基于模板的重建利用参数人体模型，SCAPE [4]和SMPL [40]提供了关于体型和姿势的强先验，以解决不适定问题，包括服装下的身体估计[69，73]和基于图像的人体形状重建[11，37，32，20，35，65，34，67]。虽然这些工作主要集中在没有衣服的基础身体形状上，但基于模板的表示后来扩展到从最小身体[51]或外部服装模板[10]，从3D扫描[68，51]，视频[2，22]和单个图像[1，10，29]中对穿着衣服的人进行由于这些方法在人体模板网格上构建服装形状，因此可以通过参数化人体模型的姿势参数来容易地驱动重建的模型。要解决网格分辨率有限的细节缺失问题，请重新30世纪的作品提出利用2D UV图[36，3]。然而，由于服装拓扑结构可以显著地偏离下层人体网格并且其变化是巨大的，因此这些基于模板的解决方案无法捕获现实世界中的服装变化。非参数捕获广泛用于在受控环境下从多视图系统捕获具有任意拓扑的高度详细的3D形状[43，5，61，58，18，62，16，64，59，42]。深度学习的最新进展通过支持稀疏视图输入[19，25]甚至单目输入[38]进一步推动了包络。对于单视图穿着的人体重建，直接回归方法展示了有希望的结果，支持具有广泛形状表示的各种服装类型，包括体素[60，28]，双向深度图[17，57]，可视化外壳[46]和隐式函数[55，56，23]。特别是，像素对齐隐式函数（PIFu）[55]及其后续工作[56，23]通过利用神经隐式函数[44，12，50]和完全卷积图像特征展示了令人印象深刻的重建结果不幸的是，尽管其高保真度结果，但非参数重建由于缺少身体部位分离和接合而不能用于动画制作。最近，IF-Net [13]利用部分点云输入并使用潜在体素特征学习隐式与基于图像的化身重建相比，从点完成可以利用直接提供的强形状和姿势线索，从而跳过从复杂图像中学习它们。混合方法将基于模板的方法和非参数方法相结合，并且允许我们利用两个世界中的最好的，即结构先验和任意拓扑的支持最近的工作[8]表明，使用SMPL模型作为指导显著提高了来自RGB-D输入的非刚性融合的鲁棒性。对于单视图人类重建，Zheng等人首先介绍模板模型（SMPL）和非参数形状表示（体素[75]和隐式表面[74]）的混合方法。然而，这些方法选择用于形状建模的输入视图空间，其中重建的身体部位可能粘合在一起，使得重建难以如在前述非参数方法中那样动画化与我们最相关的工作是ARCH [26]，其中重建的穿着衣服的人准备好了动画，因为像素对齐的隐式函数在未设定的规范空间中建模。然而，这样的框架从根本上导致次优的重建质量。我们通过解决隐函数的手工空间编码、原始姿势空间中缺乏监督以及遮挡区域的有限保真度，实现了准确性和照片真实感的显著改善。3. 提出方法我们提出的框架，ARCH++，使用一个由粗到细的方案，即通过学习关节空间隐式曲面函数进行初始重建（见图1）。2），然后在两个空间网格细化（见图2）。（3）第三章。11048al0∈11∈∈G1--∈∈∈∈0 i=111 j=122k=133 l=1GGGG一11S（p，{xj，hj}）111GG223∈3J⊕⊕语义感知的几何编码器PointNet++不摆姿势，采样关节空间占用估计器Canonical空间MLP空间对准的堆叠沙漏像素对齐外观编码器PosedSpace像素对齐图2.初始关节空间隐式曲面重建概述。该过程包括三个组件：i）语义感知几何编码器，ii）像素对齐外观编码器和iii）联合空间占用估计器。详细解释见正文3.1. 关节空间隐式曲面重构空间特征学习，即，语义感知几何编码器。空间有限元-fpn：{xi}N0→{xi，hj}N1，{xi，hk}N2，{xi，hl}N3，（1）查询点的真实表示对于深度隐式函数是关键的。虽然经由堆栈沙漏网络[47]的像素对准外观特征已经通过先前的工作[55，56，26，23]证明了其在详细的穿衣人重建中的有效性，但是逐点空间编码的有效设计所提取的几何特征应当被告知底层3D人体的语义，这提供了强先验以规则化整体穿着的人的形状。先前使用的空间编码方法包括手工制作的特征（例如，RBF [26]）和潜在体素特征[13，23，74]。前者是基于查询点和人体关节之间的欧氏距离基于体素的特征捕获参数化人体网格的形状和姿势先验。与手工制作的特征相比，端到端学习的体素特征更好地了解底层身体结构，但通常受到GPU存储器大小的约束，并且由于低空间分辨率而遭受量化误差其中 X1R3 是从参数化人体网格采样的点。基于PointNet++的编码器利用全连接层和邻域最大池化来提取点的语义感知几何特征hR32。它还应用最远点采样来逐渐向下采样点N1=2048，N2=512，N3=128，以提取具有增加的感受野的潜在特征。为示例{x}是大小为N 1的下采样点集，并且h j∈ R32是学习的特征w.r. t。每个点。如示于图2、对于任意查询点p aR3在规范空间中的空间编码通过基于逆L2范数核的特征插值得到其逐点空间编码fgR96，然后通过查询坐标关联多层感知器（MLP）。特别地，我们从不同的点集密度-j，k，l中提取这些特征来构造级联特征f g=（f jf kf l）被告知多尺度结构。例如，f j∈R32定义为：平方米f ，j（p，{x，j，h，j}）=MLP（pΣ使用任何精度，我们提出了一种新的语义感知的几何编码器，提取逐点的空间编码。基本上，参数化人体网格可以被采样到ma1一个S（pa，{xj，hj}）=Σpa−xm−2，M（二）点云并输入PointNet++[52，53]以学习基于点的空间特征，这与手工制作的RBF特征和基于体素的特征相比具有几个优点。我们的方法编码的形状和姿态先验参数的形状，没有计算开销和量化误差所造成的网格体素化过程。点与s的其他详细统计比较在[17]中报告了表示3D形状的体素给定由[67，26]估计和变形的参数化身体网格，我们使用基于PointNet++ [52，53]的语义感知几何编码器来学习底层3D人体先验。我们采样N0（例如，7324）点，并将它们馈送到几何编码器中以用于其中，索引m通过找到K最接近点集Xj之间的邻居w.r.t. 查询点。根据经验，我们发现设置K=3可获得较好的性能。在其他点集密度fk、fl∈R32处提取的特征分别类似地利用{xk，hk}和{xl，hl}来获得。像素对齐外观编码器。我们共享与[55，56，26，23]相同的架构设计，以将输入图像IR512×512×3映射到潜在特征映射ψ μ（I）R128×128×256通过堆叠沙漏网络[47]重量µ。为了得到任意查询点pbR3在姿态空间中的外观编码faR256，我们基于弱的为了有效地编码形状和姿势先验而不损失-一111049G我·B·∈透视投影，并且双线性内插潜像特征：fa（pb，I）=B（ψμ（I），π（pb）），（3）其中（）表示可微双线性采样操作，并且π（）表示从查询点pb到I的图像平面的弱透视相机投影。联合空间占用估计器。虽然大多数非参数和混合方法使用姿势空间作为学习和推断目标空间，但ARCH替代地直接在规范空间中重建穿着衣服的人类网格不同的目标空间选择各有利弊。构成的空间自然地与输入像素证据对准，并且因此重建具有利用直接图像特征对应的高数据保真度。因此，许多作品选择在其原始姿势空间中重建穿衣服的人体网格（例如，PIFU（HD）[55，56]，Geo-PIFU [23]，PaMIR [74]）。然而，在许多情况下，人可以展示具有自相交的复杂姿势（例如，手在口袋里，交叉的手臂），并导致难以铰接的“胶合”网。同时，规范姿势重建为我们提供了一个操纵的网格，该网格是动画就绪的（通过其配准的A形参数网格[26]）。使用规范空间作为目标空间的问题是，当我们将网格扭曲到其设定的空间时，可能会出现像相交表面和扭曲的身体部位这样的伪影（见图10）。（六）。这样，通过翘曲得到的正则到定态的空间网格的重构保真度将退化。为了保持输入图像的保真度和重建表面的完整性，我们建议学习关节空间的占用分布。我们使用联合空间定义的占用图O来隐式地表示在其原始姿势空间和操纵的规范空间两者下的3D穿着衣服的人O={（p a，p b，o a，o b）：p a，p b∈R3，−1≤o a，ob≤1}，（4）其中o a，o b表示点p a和p b的占有率。一个点在给定的空间中是p，b，它的映射反-正则空间中的部分是pa=SemDF（pb）。通过最近的构造来实现原始的设定的和操纵的规范空间之间的语义变形映射（SemDF）。b和估计的底层参数人体网格之间的基于邻域的蒙皮权重匹配[26]。为了在关节空间中实现网格重建，我们使用了被告知语义全身结构的逐点空间特征fgR96和编码人类正视外观的像素对齐特征fa∈R256oa=Fθ（fgfa），ob=Fβ（fgfa），（5）其中θ、β是基于MLP的深度隐式表面函数的网络权重为了从两个空间中的密集占用估计重建化身，我们使用March-ing Cube [41]来提取〇a=τ和〇b=τ处的等值面（即，τ=0）。网络输出oa，ob由地面真值联合空间anc yoa，ob监督，这取决于a图3. 网格优化步骤概述。我们的方法细化了最初估计的关节空间网格图。2使用估计的法线和纹理。设定的空间查询点Pb及其对应的规范空间点Pa是否在穿戴的人体网格内。虽然pa、pb是一对映射点，但它们的地面实况占用值在所有情况下都不相同。例如，如果初始网格在给定的空间中具有自接触（例如，<手放在口袋里）。即，SemDF定义了两个空间之间的密集对应映射，但是它们的占用值不一定相同。因此，天真地学习一个空间中的分布，然后将重建扭曲到另一个姿势可能会导致网格伪影（见图11）。（六）。这促使我们对两个空间占用分布联合建模，以保持规范空间网格的完整性和构成的空间重建保真度。3.2. 网格细化我们通过添加几何表面细节和photorealistic- tic纹理进一步细化关节空间中的重建网格。如示于图3.提出了一种利用图像空间中估计的正面和背面法线和纹理的造型修复方案。这是基于这样的观察，即使用深度隐式函数直接学习和推断密集的正常/颜色场[26]通常会导致过平滑的模糊图案和块伪影（见图11）。（五）。相比之下，正常和纹理图的图像空间估计产生尖锐的结果与精细尺度的细节，是强大的人的姿势和形状的变化。这些益处来自设计良好的2D卷积深度网络（例如，Pix2Pix [27，63]）和高级（对抗性）图像生成训练方案，如GAN，具有感知损失。图像空间估计的法线（和纹理）映射可以以两种不同的方式使用。它们可用作堆栈沙漏的直接输入，作为单视图图像的附加通道，或基于模塑的正面和背面网格细化采样源。在实验中，我们对这两种方案（即，早期直接输入，图像空间法线/纹理估计Pix2Pix模制修复初始重建模制11050∈∈L Locc occconOL∈不b recb vggb advBL·LLL·O∈O后期表面细化），并证明我们的基于成型的细化更好地保持在不同的意见（见图5）的精细尺度的表面细节。（八）。摆姿势的空间对于由Marching Cube得到的原始姿态空间中的穿衣人网格，我们进行了可视性跟踪，以确定顶点VR3是应该投影到正面还是背面，以形成双线性的sam.[16]以其坚固性匹配如图的最后两列所示。5、与直接逐点回归法线和纹理相比，我们的基于inpainting的结果获得了更清晰的细节和更少的伪影。4. 培训损失训练过程涉及学习深度网络以用于两个目标：用L估计联合空间占用率，以及使用法线/纹理贴图。本质上，这是一个基于模型的网格细化过程，用于表面细节和纹理。法线/纹理估计OLn和Lt。具体来说，Lo纹理增强我们首先进行正常的细化。请注意，对于未细化法线为n的顶点R3接近平行（即，在ε度内）到输入图像平面，我们将它们投影到正面和背面上正规映射If，Ib∈R512×512×3. 我们就可以-是我们的联合空间深im的占用回归损失显式函数，并且n，t是正常纹理估计网络的图像平移损失。关节空间占用估计。深度隐函数训练是基于查询点采样和su-nn′3有监督占用回归与Tanh输出层。我们将优化后的曲面法线nR融合：通过线性共混随机采样网格点pa、pb在两个空间里然后n′=χ（1−α′）B（If，π（V））+χ（α′）B（Ib，π（V）），添加对角高斯扰动与标准devi-nα′=（90◦+ε−α）/（2ε），n（6）5cm的间距以增加空间中接近表面区域在每次训练迭代中，我们其中α是未细化法线与前向相机光线投射之间的角度，并且α’是α的归一化值。Gain，B（·）指示双线性采样操作。指示符函数X（·）确定样本20480对查询点（PA，PB），具有预测的占用率（OA，OB）。联合空间占用回归损失包含三项：L〇（〇a，〇b）=L（〇a）+L（〇b）+L（〇a，〇b），⑻从正面和背面采样的法线：o o o其中，Locc（oa）、Locc（ob）表示平滑L1-Loss为这种简单而有效的融合方案创建了一个正常的细化网格与可忽略不计的混合边界文物。有了优化后的曲面法线，我们可以进一步应用Pois-之间的估计占用值和它们的地面真理在规范和构成的空间分别。con（oa，ob）是正则化两个空间之间的占用一致性的对比损失，即，子曲面重建[33]以更新网格拓扑-Lω n（o，o）=.|，如果o a = o b，|,ifoˆa=oˆb,（九）ogy，但在实践中，我们发现这是不必要的，因为模型细化的化身已经可以满足各种AR/VROaBλ1max（λ2— |oa — o b|，0），否则，和新颖视图渲染应用程序。这种凹凸渲染的想法也用于DeepHuman [75]，但它们只使用前视图来细化网格。我们以类似的方式进一步进行纹理细化，但是使用细化的法线来帮助确定边界顶点的线性混合我们的基于模具的前/后法线和纹理细化方法产生穿着的人体网格，在不同的视角下看起来逼真其中λ1和λ2是用于调整惩罚的两个参数不一致的联合空间地面实况对。这些对通常存在于自相交区域周围，并且由于规范空间监督中的误差而需要被降权。根据经验，我们设置λ1=0。1且λ2= 0。3 .第三章。网格细化。我们认为图像空间也不是-图像和纹理估计作为图像到图像的转换任务。给定输入图像I，我们的任务是学习前法线映射If、后法线映射Ib和后侧法线映射I b。全身表面细节（例如，衣服褶皱、毛发）。n n规范空间重构的规范空间化身被操纵，并且因此可以被扭曲回到其姿势空间，并且然后经由上述相同的流水线来细化。然而，一个独特的挑战，为规范化身纹理贴图I bR512×512×3。注意我们假设输入图像可以直接用作前纹理图。受Pix2Pix [27，63]所展示的优越结果的启发，我们将训练损失定义为：fbrecFrecBVGGFVGGB这种细化的一个缺点是，该空间中的网格重建可能包含在所构成的空间下的不可见的表面。考试-Ln（In，In）=Ln（In）+Ln（In）+Ln（In）+Ln（In），Lt⑴=L⑴+L⑴+L⑴，在图的第三行中5、折臂接触t t ttt t t t t（十）其中胸部在摆姿势的空间中但在标准空间中展开因此，我们不具有规范网格的胸部区域的为了解决这个问题，我们渲染的正面和背面图像的规范网格与不完整的法线和纹理，并把它作为一个修复任务。这个问题已经使用深度神经网络[70，71]和基于补丁匹配的方法[7，6，24]进行了很好的研究。我们用帕奇-χ（α’）= min（max（α’，0），1）（7）11051其中，rec（）表示L1距离重构损失，adv（）表示生成对抗损失，并且vgg（）是由[30]提出的VGG感知损失在实验中，我们发现生成对抗性损失adv（）抵消了法线图估计任务中的性能，因此我们仅在背面纹理图上实施该损失项。一种解释是法线贴图空间受到的约束比法线贴图空间更大，变化也更少。11052组件Posed Space规范空间是说正常↓P2S↓倒角↓正常↓P2S↓倒角↓正常↓P2S↓倒角↓摆姿势只0.0370.6740.7870.0871.8981.5970.0621.2861.192Canonical Sup. 只0.0390.7160.8380.0460.6060.9970.0430.6610.917联合0.0370.6620.7890.0450.6200.9880.0410.6410.825联合+GeoEnc0.0330.4950.6140.0400.4710.8190.0360.4830.717联合+ GeoEnc +优化0.0310.4950.6140.0390.4710.8190.0350.4830.717表1. 两个空间中ARCH++拟定组件有效性的消融研究：经典与经典最好的分数是粗体。行是目标重构空间，列是评估空间。第一行意味着使用构成的空间作为目标空间（例如，、PIFu、PIFuHD、Geo-PIFu、PaMIR），其重建可以经由配准的参数体被扭曲到规范空间中以计算两个空间中的评估度量。第二行意味着在规范空间中的直接监督和重建，随后是扭曲到所设定的空间（例如、ARCH）。其余排是基于我们的联合空间共同监管和改造方案。表2.在RenderPeople和BUFF数据集上，对姿势重建和地面实况之间的正常、P2S和倒角误差进行定量结果和比较。最好的分数是粗体。纹理图，因此对抗训练在这种情况下没有完全显示其有效性。5. 实验在本节中，我们介绍了ARCH++的实验设置、结果比较和消融研究。5.1. 实现细节我们使用PyTorch实现我们的框架，并使用一个NVIDIA Tesla V100 GPU进行训练。所提出的深度神经网络使用RMSprop优化器进行训练，学习率从1 e-4开始。我们使用指数学习率调度器，通过乘以因子0，每3个epoch更新一次。1，并在12个时期后终止训练。5.2. 数据集我们采用[26，56]中的数据集设置。我们的训练数据集由来自RenderPeople数据集[54]的450个3D扫描组成。这些水密的人体网格有各种服装风格以及身体形状和姿势。我们的测试集包括来自RenderPeople数据集[54]的37次扫描，来自AXYZ数据集[15]的32次扫描，来自BUFF数据集[73]的26次扫描，以及来自互联网公共领域的2D图像，代表穿着各种复杂衣服的人训练数据集中的受试者大多处于站立姿势，而测试数据集中的受试者包含各种姿势，包括坐着、扭曲和站立，以及自粘和分离的肢体。我们使用Blender和38个环境贴图来渲染不同自然光照条件下的每次扫描。对于每个3D扫描，我们通过以1度的步长围绕网格旋转相机来生成360个图像。这些RenderPeople图像用于图4.我们故意隐藏了方法名称，以便您自己进行公平的比较（请放大）。答案是2。以训练占用估计和图像翻译网络。我们使用[26]中介绍的方法在规范姿势中生成地面实况穿着的人体网格。注意，在所设定的空间和规范空间之间的扭曲过程不可避免地包含模型噪声（例如，自接触区域伪影、最接近邻近不连续性的蒙皮权重），这激发了我们的联合空间协同监督和重建方案。5.3. 结果和比较我们使用与[55，56，26]相同的度量来定量评估重建的网格。我们报告的平均点到表面的欧氏距离（P2S）和倒角距离厘米，以及L2正常的重新投影误差。我们主要比较的两种最先进的方法是PIFuHD [56]和ARCH [26]，两者都是建立在PIFu [55]的基础上，在不同方面进行了改进PIFuHD以滑动窗口方式摄取高分辨率图像，以实现丰富的表面重建细节。ARCH利用基于最近邻的线性混合蒙皮权重和手工制作的RBF功能，在规范空间中重建可动画化的化身。除了这两种最相关的方法之外，我们还包括多个先前的方法[60，28，46，12，55]，并在选项卡中报告RenderPeople和BUFF数据集的基准结果二、ARCH++[Ours]的结果优于第二好的方法ARCH的大差距。图1B中的视觉比较。图5和图4进一步说明了我们的改进的优点。PIFuHD由于缺乏由端到端几何编码器提供的形状和姿态先验而遭受形状失真注意2我们的结果（绿框）具有较少的重建伪影（例如，在-正确的法线方向，网格失真）比ARCH（红色框）。方法RenderPeople缓冲器正常↓P2S ↓倒角↓正常↓P2S ↓倒角↓BodyNet [60]0.265.725.640.314.944.52VRN [28]0.121.421.600.132.332.48SiCloPe [46]0.223.814.020.224.063.99IM-GAN [12]0.262.873.140.345.115.32PIFU [55]0.111.451.470.131.681.76PIFuHD [56]0.111.371.430.131.631.75ARCH [26]0.040.740.850.040.820.87ARCH++[我们0.030.500.610.030.580.6111053输入PIFu ARCH我们的PIFuHD ARCH我们的ARCH我们的图5. 与最先进方法的定性比较[55，56，26]。第一列是输入。第2-4、5-7列为彩色和形状重建结果。最后两列是规范空间化身重建。我们的方法处理任意姿态与自接触和遮挡鲁棒，并重建比现有方法更高层次的细节变体正常↓P2S↓倒角↓深度[55]0.0470.780.93RBF [26]0.0420.740.85端到端体素[23，74]0.0340.520.63端到端点0.0330.500.61变体摆姿势↓经典↓平均值↓基线0.0330.0400.037目标空间回归[26]0.0320.0410.037图像空间输入[56]0.0320.0380.035图像空间回归0.0310.0390.035表3.不同类型几何编码器的烧蚀研究。PIFuHD不能重建规范空间化身并且缺乏纹理估计。ARCH重建往往过于平滑和模糊。其恢复的网格法线和纹理也有一些块文物。另外，两种方法都不能产生合理的背面表面细节，如衣服褶皱、毛发等。相比之下，我们的ap-proach实现了真实感和动画重建的关节空间和跨不同的观点。我们进一步显示了我们的结果在互联网上的图像图。9 .第九条。5.4. 消融研究关节间隙重建。为了进一步了解所提出的方法的影响，我们在表中展示了消融研究。1.一、前三行展示了联合空间共同监督的有效性，实现了平衡表4.不同法向细化方式的烧蚀研究。的性能上提出的和规范的空间网格重建。选择所设定的空间作为重建目标空间（例如，PIFu、PIFuHD、Geo-PIFu、PaMIR）可能会导致曲面丢失和在posed-to-canonical空间扭曲网格中的拓扑畸变（见图12）。（六）。同时，选择规范空间作为目标空间（例如，ARCH）在正则到定态的空间变形网格中，会引起流形破裂的自相交网格以及体部的非自然相比之下，我们的共同监督和关节空间推理方法实现了在构成空间中的重建保真度和在规范空间中的体网格完整性。几何编码。如Tab.所示。1，我们观察到利用端到端学习的逐点空间编码的进一步错误减少。ARCH使用的先验方法11054侦察姿势卡诺空间联合侦察卡诺侦察Posed Space联合侦察图6. 重建间隙的消融研究。单空间重建显示了从一个空间扭曲到另一个空间时网格表面过度拉伸或相交表面的伪影。我们的联合空间重建获得了平衡的性能，即在正则空间下的高重建完整性和在姿态空间下的高输入图像保真度。输入RBFE2E体素E2E点图9.从照片中捕捉数字人的应用。正面和背面仍然是一个开放的问题，一些图7. 几何编码的消融研究。学习的空间特征捕获底层参数模型的姿态和形状先验两者，并且因此使得能够进行具有比手工制作的RBF特征更多的表面细节的网格重建同时，由于网格量化，基于体素的特征的结果比基于点的特征的结果噪声更大（即，体素化）误差。经验观察和先前的工作表明，正常估计是相对容易的任务，并且可以帮助改进重建。在选项卡中。在图4和图8中，我们对利用估计的法线进行具有细化的表面细节的网格重建的三种主要方式进行了在这些正常的细化方法中，我们的正面/背面图像空间正常回归和基于成型的表面细化方法优于其他变体。ARCH模型采用对象空间正态回归，基于学习空间正态场的深隐函数它不能产生丰富的背面细节，有时会导致块伪影，如图4的第四行所示。五、图像空间输入用于PIFuHD。它将输入基线OS注册IS输入IS寄存器具有估计的图像空间法线映射的彩色图像输入图8.正常细化的消融研究：对象空间回归（OS Reg.），图像空间输入（IS输入）和图像空间回归（IS注册）。我们的方法是注册。导致丰富的重构细节（例如，衣服褶皱）在所有视图中。手工制作的RBF功能，仅对参数化人体网格骨架的姿势先验进行建模，忽略网格形状。相比之下，我们的基于点的特征被告知底层参数化身体模型w.r. t的姿势和形状先验。一个穿衣服的人网格，从而提高表面重建质量。我们进一步实现了学习的体积空间特征编码中使用的Geo-PIFu和PaMIR作为替代编码器，并注入到我们的框架进行直接比较。结果见表。图3和图7。虽然这两种类型的端到端的空间特征优于手工制作的RBF功能，我们的基于点的特征提取方法不受计算开销和网格量化误差的基于体素的方法。普通精炼。而基于单幅图像的人体网格直接推理在两个方向上都具有丰富的表面细节并将其输入Stack Hourglass进行特征提取。虽然这种方法达到了与我们的网格细化方法相同的定量性能水平，但它的视觉结果在正面和背面都不如我们的那样清晰。我们的网格细化方法的退化情况之前在DeepHuman中进行了研究，其中它们仅估计前视图法线映射，因此缺乏背面的重建细节。6. 结论在本文中，我们重新审视现有的基于深度隐函数的3D化身重建的主要组成部分我们的方法ARCH++产生的结果具有高水平的保真度，并为许多AR/VR应用程序的动画准备。我们进行了一系列的比较和分析的最先进的状态，以验证我们的研究结果。对于未来的工作，我们计划将环境信息（例如，照明、示能性）以进一步理解身体姿势和外观，并解决当前的限制。鸣谢。我们要感谢Minh Vo和Niko- laos Sarafianos的讨论和合成数据的创建。输入11055引用[1] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个RGB摄像机重建穿着衣服的人。在IEEE计算机视觉和模式识别会议上，2019年。二个[2] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.基于视频的三维人物模型重建。在IEEE计算机视觉和模式识别上，2018。二个[3] ThiemoAlldieck ， GerardPons-Moll ， ChristianTheobalt，and Marcus Magnor. Tex2shape：从单个图像中获得详细的完整人体几何形状。在2019年IEEE计算机视觉国际会议上。一、二[4] D. Anguelov ， P. 斯里尼瓦桑 D.Koller ， S.Thrun ，J.Rodgers和J.戴维斯Scape：人物的形状完成和动画。ACMTransactions on Graphics，2005年。二个[5] 亚历山德鲁岛放大图片作者：Michael J.作者：James E.Davis和Horst W. Haussecker从图像中获得详细的人体形状和姿势。IEEE计算机视觉与模式识别会议，2007年。二个[6] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing.ACM Trans.Graph. ，28（3）：24，2009. 五个[7] Marcelo Bertalmio、Guillermo Sapiro、Vincent Caselles和 Coloma Ballester 。图像修复。 ACM SIGGRAPH ，2000年。五个[8] Bharat Lal Bhatnagar，Cristian Sminchisescu，ChristianTheobalt，and Gerard Pons-Moll.结合内隐函数学习和参数模型进行三维人体重建。2020年欧洲计算机视觉会议。二个[9] BharatLalBhatnagar ， GarvitaTiwari ， ChristianTheobalt，and Gerard Pons-Moll.多服装网：学习从图像中打扮3d 人 IEEEInternational Conference on ComputerVision，2019。一个[10] BharatLalBhatnagar ， GarvitaTiwari ， ChristianTheobalt，and Gerard Pons-Moll.多服装网：学习从图像中打扮3d 人 IEEEInternational Conference on ComputerVision，2019。二个[11] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J.黑色. SMPL：从单个图像自动估计3D人体姿势和形状。2016年欧洲计算机视觉会议。二个[12] 陈志勤和张浩。学习生成式形状建模的隐式字段。IEEE计算机视觉和模式识别会议，2019年。二、六[13] Julian Chibane，Thiemo Alldieck，Gerard Pons-Moll.特征空间中的隐式函数用于三维形状重构和补全。在IEEE计算机视觉和模式识别会议上，2020年。二、三[14] Alvaro Collet 、 Ming Chuang 、 Pat Sweeney 、 DonGillett 、 Dennis Evseev 、 David Calabrese 、 HuguesHoppe、Adam Kirk和Steve Sullivan。高质量的可流式传输的自由视点视频。ACM Transactions on Graphics，34（4）：1-13，2015. 一个[15] AXYZ design S.R.L. https://secure.axyz-design.com/网站。六个11056[16] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。 IEEE Transactions on Pattern Analysis andMachine Intelligence，32（8）：13622[17] ValentinGabeur，Jean-Se´bastienF

下载后可阅读完整内容，剩余1页未读，立即下载