可动画重建的衣服人类：一种新的端到端框架

127 浏览量更新于2023-10-25 收藏 2.5MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1ARCH：可动画重建的衣服人类曾煌1，2刘伟，徐元璐1，Christoph Lassner1，Hao Li2，Tony Tung11 FacebookReality Labs，Sausalito，USA2美国南加州大学zenghuan@usc.edu，merayxu@gmail.com，classner@fb.com，hao@hao-li.com，tony. fb.com摘要在本文中，我们提出了一个新的端到端的框架，准确重建的动画准备3D穿着的人从单目图像的可动画重建（Animatable Recon-structure of Clothed Humans）。现有的3D人体建模方法难以处理姿态变化和恢复细节。此外，它们不会生成可用于动画的模型。相比之下，ARCH是一个学习的姿势感知模型，它可以从单个不受约束的RGB图像中生成详细的3D使用参数化3D身体估计器创建语义空间和语义变形场。它们允许将2D/3D穿着衣服的人转换为规范空间，减少几何形状输入典范重建重建的3D头像寄托这是由训练数据中的姿势变化和遮挡引起的。详细的表面几何形状和外观的学习使用隐式函数表示空间局部功能。此外，我们提出了额外的每像素超透视的3D重建使用不透明度感知的可区分渲染。我们的实验表明，重复性增加了重建人类的保真度。我们获得了超过50%的标准度量相比，国家的最先进的方法对公共数据集的重建误差降低。我们还展示了许多定性的例子，动画，高品质的重建化身在文献中看不到到目前为止。1. 介绍三维人体重建在计算机视觉和计算机图形学领域已经提出了使用各种类型的传感器的基于立体或融合的精确方法[12，42，31，33，38，49，50]，并且若干应用在运动、医学和娱乐中已经变得流行（例如，电影、游戏、AR/VR体验）。然而，这些设置需要严格控制的环境。迄今为止，从野外图片中具有详细几何形状和外观的全3D人体重建仍然具有挑战性（即，在与实验室环境相反的自然条件下进行）。在Facebook Reality Labs工作图1.给定任意姿势的对象的图像（左），这是一个精确的、可动画化的化身，带有详细的衣服（中）。由于索具和绳索估计，化身可以在新的环境中休息和重新启动（右）。此外，缺乏自动装配防止基于动画的应用程序.最近的计算机视觉模型已经能够从单个图像中恢复2D和3D人体姿势和形状估计。然而，它们通常依赖于具有局限性的表示：（1）骨架[11]是精确表示3D姿势的运动结构，但不携带身体形状信息。(2)表面网格[18，35，51]可以表示身体形状几何形状，但具有拓扑约束; 2（3）体素[44]是无拓扑的，但分辨率有限的内存成本高，并且需要为动画装配。在本文中，我们提出了一个具有当前表示的所有优点的可动画化重构（ Animatable Reconstruction of Clothed Humans ）框架。特别地，我们引入具有人体结构知识的学习模型（即，身体部分语义学），并与人类一起以任意姿势训练。首先，3D身体姿势和形状估计可以通过预测模型从任意姿势的人的单个图像中推断[51]。该初始化步骤用于在规范空间内对穿着衣服的人体形状进行归一化姿态重构这允许我们通过对衣服周围的3D点进行密集采样30933094MLP渲染图像编码器（SHG，U-net）正常颜色比较渲染地面实况Conv.线性ReLUBatch Norm3D身体估计语义变形场隐式曲面重建正常颜色图2. ARCH概述。该框架包含三个组成部分：i）输入图像空间和规范空间之间的对应关系的估计，ii）在规范空间中从表面占用，法线和颜色估计的隐式表面重建，iii）通过可微分渲染的法线和颜色的细化。身体曲面和指定蒙皮权重。然后，我们学习基于SemS和SemDF的规范空间中的3D占用的隐式函数表示，这使得能够重建表面的高频细节优于现有技术的状态[32，40，44]。表示处于中性姿势的穿着衣服的人的表面被隐含地操纵，以便用作可动画化的化身。此外，可微分渲染器用于通过粒度渲染和比较来细化空间中每个3D点的法线和颜色在这里，我们把它们看作一个球体，并根据估计的占有率，提出了一种新的混合公式。框架概述见图2在我们的实验中，我们评估ARCH从一个单一的图像的三维人体重建的任务定量和定性的实验结果都表明，在公共3D扫描基准和野外2D图像上，该方法的性能优于最先进的人体重建方法。我们还表明，我们重建的穿着人类可以通过运动捕捉数据来模拟，展示了人类数字化动画的潜在应用。捐款.主要贡献有三个方面：1）我们引入语义空间（SemS）和Seman-tic Deformation Field（SemDF）来处理以任意姿势穿着衣服的人类的隐式函数表示，2）我们提出了不透明度感知的可微分渲染来通过粒度渲染和比较来改进此外，我们学习每像素的法线，以获得高质量的表面细节，和表面重新照明的应用程序。2. 相关工作三维穿衣人体重建的重点是重建三维人体与衣服的任务。有多种尝试用视频输入来解决这个任务[2，3，37，1，52]，RGB-D数据[53，56]和多视图集中-[5，13，14，45，46，47，48，6]。虽然更丰富的输入显然比单个图像提供更多的信息，但开发的管道对硬件和部署的额外时间成本有更多的限制最近，在从单个RGB图像估计参数化人体方面已经取得了一些进展[7，15，18，20，21，23，41，51，54]，但是边界未被探索到可以从这样的输入重建3D服装细节的程度在最近的工作[22，24，4]中，作者学会了使用2D UV贴图生成表面几何细节和外观虽然可以学习细节，但这些方法不能重建宽松的衣服（例如，着装）并恢复复杂的形状如头发或精细结构（例如，鞋跟）。由于不同类型的服装拓扑结构，体积重建在这种情况下有很大的好处。例如，BodyNet [44]将一个人的图像作为输入，并通过身体先验（例如，2D姿态、3D姿态、零件掩模）;而PIFu [40]假设没有身体先验，并基于对齐的图像特征学习隐式表面函数，导致更多的衣服细节和对姿势变化的鲁棒性较低。在本文中，我们结合身体先验知识，将人在任意姿势的规范空间，然后学习重建一个隐式表示。可微分绘制使绘制操作可微分，并使用它来优化场景表示的参数。现有的方法可大致分为两类：基于网格光栅化的渲染[9，19，25，29，43]和基于体积的渲染 [16 ， 26] 。例如， OpenDR [29] 和 Neural MeshRenderer [19]手动定义渲染操作的近似梯度以移动面。相比之下，SoftRasterizer [25]和DIB-R [9]将光栅化重新定义为连续和可微函数，允许自动计算梯度。对于基于体积的双螺杆挤出机-3095i=1i=1我τppppi=1ppppp pp3NK我pitiable rendering [16]将每个3D点表示为多变量高斯，并使用网格离散化和光线跟踪执行遮挡推理。此类方法需要点p与蒙皮权重{wi，p}的耳组合。继LBS之后，人体的规范空间是被绑在一个骨架上描述了钻机的状态一个显式体积来执行遮挡推理。[26日]通过相对旋转R={ri}NK所有的骨骼关节为隐式表面表示开发可微分渲染表示，重点是重建刚性对象。相比之下，我们使用连续渲染函数[25]，但重新使用它来处理不透明度，并且我们在感兴趣的点处使用几何图元并优化其属性。3. 拟议框架X={xi}NK。每个旋转都是相对于运动树中父元素的方向的对于一个有N-K个身体部位的骨架，R ∈ R3×N-K，X ∈ R3× N-K. 给定具有N V个顶点的处于静止姿势的身体模板模型T，LBS函数V（v i，X，R; W）将顶点v i∈ T、关节X、目标姿势R作为输入，并且将每个v i变形到具有蒙皮权重W∈RNV× NK的姿势位置v′，在通过[51]进行3D身体估计之后（见图2），该模型包含三个组成部分：使用语义空间（SemS）和语义变形场的也就是说，K.K.V（vi，X，R;W）=wk=1k，iGk（R，X）vi，（2）（SemDF），隐式表面重建和细化使用可微渲染器的颗粒渲染和比较（见节。第3.4段）。3.1. 语义空间与变形场我们的目标是将一个任意（可变形）的对象转换到一个规范的空间中，该对象是在一个预定义的休息姿势。为此，我们引入两个概念：语义空间（SemS）和语义变形场（SemDF）。SemSS={（p，sp）：p∈R3}是一个空间组成-其中每个点p∈S关联到语义信息sp使转换操作-第SemDF是由完成变换的向量值函数V表示的向量场在计算机视觉和图形学中，3D人体模型具有通过模仿用于控制姿势的解剖结构的运动学结构以及表示人的形状和几何形状的表面网格来广泛地表示。皮肤-其中，Gk（R，X）是静止姿态校正的仿射变换。适用于身体部位k的信息。3.2. 隐式曲面重建我们使用占用图O来隐式地表示3D穿着衣服的人，即，O={ （ p ， o ）： p∈R3 ， 0≤o≤1} ，（ 3）其中op表示点p的占用率。为了得到一个曲面，我们可以简单地对占用图O进行阈值化，得到等值面O′。在本文中，我们通过在规范空间中重建中性形状来引入人体先验。类似于[40]，我们开发了一个深度神经网络，该网络将规范空间点p、其对应的2D位置q和2D图像I作为输入，并估计p的ocu_p、normal_n_p、color_c_p;即，op =F（fs，I;θo），np=F（fs，I，f o;θn），p pning是使曲面变形的变换，pose.它通过单独影响身体部位变换的蒙皮权重进行参数化[28]。在纽约，cp=F（fs，I，f o，fn;θc），fs∈R171，fo∈R256，fn∈R64，fc∈R64，（四）我们以类似的形式用蒙皮权重定义SemS。其中θo、θn和θc表示占用率、法线和颜色假设一个皮肤的身体模板模型T在一个非-子网络权重，fs是提取的空间特征理想化A姿态（即，静止姿势）、其在规范空间中的相关联骨架以及蒙皮权重W，SemS则为S={ （ p ， {wi ， p}）： p∈R} ，（1）基于SemS。我们使用[51]中估计的57个典型身体标志，并计算p和第i个标志p'之间的径向基函数（RBF）距离，即其中每个点p与相对于N，K个身体部位定义的蒙皮权重{wi，p}的集合相关联（例如，骨骼）。在本文中，我们近似{wi，p}为：fs（i）= exp{−D（p，p′）}，（5）其中D（·）是欧几里得距离。我们还评估了不同类型的空间特征的影响。四点三。fop检索模板表面上与pn最近的点p′以及从W分配相应的蒙皮权重。在实践中，我们设置了一个距离阈值，以截断距离T太远的点。SemDF实际上执行逆蒙皮变换，将任意姿势的人置于规范空间中的标准化姿势。这扩展了标准蒙皮（例如，线性混合蒙皮或LBS [28]）应用于结构化对象到任意3D空间，并能够将任意姿势的整个空间转换为规范空间，因为每个点p′都可以表示为一条直线。3096p以及从占用和非占用提取的特征图mal子网络，分别（也见图。2）。三子网定义如下：Occupational子网络使用堆叠沙漏（SHG）[34]作为图像特征编码器，并使用多层感知器（MLP）作为回归器。给定512×512的输入图像I ， SHG 产生具有相同网格大小的特征图f∈R512×512×256对于每个3D点p，我们认为位于对应投影像素q处的特征作为其视觉特征描述符fo∈R256。对于没有对齐到网格上的点，我们在-3097p3dp2个3d3dL3d2个2个J2个在特征图上插值以获得该特征，表面预测最好。损失Lo定义为像素对齐的位置。MLP将3D点p∈R3的空间特征和像素对准的图像特征fo∈R256作为输入，并且通过分类该点是否位于穿着的身体内部来估计占用率op∈[0，1或不.正常子网络使用U网[39]作为图像特征编码器和MLP，MLP采用空间特征。真，以及特征描述符fn∈R64和fo∈R256，Huber损失比较占用预测和地面真相与[36]类似，我们发现比平方误差更适合优化的损失函数更不积极，但发现Huber损失在零附近的二次行为是有益的。曲面点的法线和颜色。可以直接从地面实况网格优化位于其表面上的点的颜色和法线。使用这个强大的超级-p p它自己的骨干网和占用子网，输入并估计法向向量np。颜色子网络还使用U网[39]作为图像特征编码器和MLP，其采用空间特征和特征描述符fc∈R64，fn∈R64，我们引入了专用的视觉信号训练阶段。在在这个阶段，我们只从网格表面采样点，并将它们推过颜色和法线模型。在我们的设置中，每个模型每个训练使用51 200个点样本步骤。损失项Ln Lc 被定义为 pp3d3dfo∈R256从自己的骨干，以及正常和占用子网络作为输入，并估计在RGB空间中的颜色cp对于每个子网络，MLP采用像素对齐的图像特征和空间特征（如第2节所述）。3.1），其中隐层神经元的数目为（1024，512，256，128）。与[40]类似，MLP的每一层都有来自输入特征的跳过连接。对于概率子网络，MLP使用Sigmoid激活来估计一维概率p∈[0 ， 1] 。对于正规子网络， MLP 估计三维正规np∈[0，1]3，<$np <$2 =1，使用L2归一化。为颜色子网络，MLP估计三维在所有曲面点上，将预测的法线和颜色与地面真实值进行比较会损失L1.入住率预测保持不变。不在曲面上的点的法线和颜色。对于不在网格表面上的点，不清楚如何以最佳方式使用地面实况信息来改进预测而无需额外的映射。在训练的第三步中，我们对另一组51200个点进行采样，并将它们推过占用，颜色和正常模型，并在预测上使用可微分渲染器。我们使用占用信息作为不透明度来渲染图像，并通过使用颜色通道来表示颜色或法线，并使用梯度来更新预测值。颜色cp∈[0，1]3使用范围箝位。n和Lc 定义为每像素L1损失，3.3. 培训在训练过程中，我们优化了所有三个子模型的参数，即，占用、正常和颜色模型。我们将训练定义为三个独立的循环，以训练具有适当损失的每个部分并避免计算瓶颈。总损失函数定义为渲染图像和地面实况。关于这方面的细节步骤，见图。第三，以下是SEC。三点四分。3.4. 粒度渲染和比较该模型的预测是一个隐函数表示。通过在预定义体积通过优化Lo、Ln和Lc，可以优化α-n c n c三维立体L=L3d+L3d+L3d+L2d+L2d，（6）这些点的色度、法线和颜色直接给出3D其中Lo是占用网络的3D损失，Ln和地面真相然而，目前尚不清楚梯度n是正常网络的3D和2D损失，Lc和Lc是彩色网络的3D和2D损失。对于每个训练迭代，我们执行以下三个操作：timizations.占用。我们使用可用的地面实况以直接和监督的方式训练占用预测模型。首先，我们在规范空间中采样20480个点。根据标准差为5 cm的正态分布，在模板网格周围对其进行采样。这在我们的实验中很好地涵盖了各种体型和服装，但可以根据手头的数据分布进行选择这些点然后由占用模型处理，为我们提供每个采样点的估计占用值我们在这些值上使用sigmoid函数将网络输出归一化为区间[0，1]，其中我们选择0。5作为等值面的位置0的情况。5是sigmoid函数的导数最高的位置，我们期望优化应该是不直接位于表面上的点，地面实况网格的正面。为了解决这个问题，我们建议使用微分渲染器。我们首先创建一个明确的几何表示的场景在手。对于每个要优化的采样点，我们在其位置放置一个具有空间范围的几何图元。为了独立于视点，我们选择每个采样点的半径为1 cm的球体（关于可微渲染损失计算的概述，请参见图2）。（3）第三章。在训练期间，每个要渲染的场景包含51200个球体。然后，我们定义了一个可微分的渲染函数[25]来将球体投影到图像平面上，这样我们就可以与投影的地面实况进行像素级比较。我们使用具有权重wi的线性组合来将点pi的颜色贡献与像素qj相关联。对于点pi具有颜色ci和法线ni，像素qj的颜色和法线被计算为加权线性L3098正常，颜色JJJ我jiiJI典型空间（Canonical采样点（原始空间）预测占位，正常，颜色逐像素比较地面实况翘曲向前传球渲染正常反向传播颜色图3.通过可微分渲染的损失计算的说明。从左到右：根据规范空间中模板网格周围的高斯分布对点进行采样它们与估计的语义变形场一起变换并由模型处理。该模型为每个3D点提供占用率、法线和颜色的估计。我们使用可微分渲染器将这些点投影到新的相机视图上，并计算与渲染的地面实况的像素差异点值的组合，将等值面细化到值0。5到阈值，其中α我们考虑两个因素来定义w i：点P1的球体在像素Qj处的深度Z1，以及点P1的球体的投影表面到像素Qj的接近度D1。为了使遮挡成为可能，深度需要具有对所产生的重量有很大的影响。因此，[25]将权重定义为diexp（zi/γ）转向透明度。我们通过实验确定值大约为0。7 .第一次会议。3.5. 推理为了进行推断，我们将表示处于任意姿势的人的单个RGB图像作为输入，并运行如第2节所述的前向模型3.2和图二、网络出-wi=Σj j（七）jdiexp（zi/γ）+exp（zi/γ）将密集采样的占用字段放在规范的KK K其中λ是小的数值常数。在此定义下，接近度对所得权重具有线性影响，而深度具有指数影响。冲击比由比例因子γ控制，在我们的实验中，我们将其固定为1×10−5与[25]相反，我们还需要使用不透明度αi，用于渲染的球体我们通过线性缩放和移位将此不透明度值α i直接与预测的占用值联系起来。为了保持渲染函数的公式化，我们将α i集成到等式1中的权重公式中。7 .第一次会议。如果不透明度用作此等式中的线性因子，softmax函数仍将渲染不透明度非常低的球体，而不是深度值较低的其他球体。问题在于应用于缩放深度值的指数函数。另一方面，如果仅将不透明度因子并入指数函数中，则球体将在背景前面保持可见（其权重因子仍大于背景因子exp（λ/γ））。我们找到了一个解决方案，通过使用不透明度值作为线性缩放因子以及指数深度缩放因子。结果表明，该解具有数值稳定性，可用于具有所有期望性质的优化.这会将权重函数更改为：αidiexp（ αizi/γ）我们使用Marching Cube算法的空间[30]以在阈值0处提取等值面。五、等值面表示重建的穿着衣服的人在规范的姿势。整个表面的颜色和法线也由前向传递来推断，并与输入图像像素对齐（见第二3.2）。然后，可以通过LBS使用SemDF和如在第5.1.2节中定义的每点对应的蒙皮权重W将人类模型变换到其原始姿态R。第3.1条此外，由于隐式函数表示配备了蒙皮权重和骨架装备，因此可以自然地将其扭曲为任意姿势。然后，所提出的端到端框架可以用于创建详细的3D化身，该3D化身可以用来自单个不受约束的照片的看不见的序列来动画化（参见图11）。（五）。4. 实验我们详细介绍了用于训练的数据集和数据库的实现，以及与最先进技术的结果和比较。4.1. 实现细节Python在PyTorch中实现。我们训练神经wi=Σj jjαidiexp（αizi/γ）+exp（ε/γ）.（八）网络模型使用RMSprop优化器，从1 E-3开始学习率已更新k k k使用该公式，我们优化每个点的颜色通道值ci和正常值ni在渲染和地面实况数据的渲染之间计算每像素L1损失，并通过模型反向传播对于我们的实验，γ=1×10−5，体积的深度，我们映射的占用值，去-通过乘以因子0使用每3个时期的指数调度。1.一、我们使用582个3D扫描来训练模型，每个时期使用360个视图，每个时期训练209520个图像在配备Tesla V100GPU的NVIDIA DGX-1系统上训练模型需要90小时，共9个epoch。3099方法RenderPeople缓冲器正常P2s倒角正常P2s倒角[44]第四十四话0.265.725.640.314.944.52SiClope [32]0.223.814.020.224.063.99[第10话]0.262.873.140.345.115.32VRN [17]0.121.421.60.132.332.48PIFU [40]0.081.521.500.091.151.14基线0.0801.981.850.0811.741.75+ SemDF0.0420.740.850.0450.820.87+ GRaC0.0380.740.850.0400.820.87（一）（b）第（1）款（c）（d）表1. 正常、P2S和Chamfer图4. 将3D扫描放置到规范空间的图示。（a）来自RenderPeople数据集的原始3D扫描。（b）自动检测拓扑变化。红色标记具有自接触的点，蓝色区域也在静止之前被移除以避免法线问题。（c）静止扫描。4.2. 数据集我们的训练数据集由来自RenderPeople1数据集的375个3D扫描和来自AXYZ2数据集的207个3D扫描组成。扫描是防水网格，大多数情况下没有噪音。它们代表着穿着休闲服装的主体，并可能持有小物体（例如，手机、书籍和钱包）。我们的测试数据集包含来自RenderPeople数据集的64个扫描，来自AXYZ数据集的207个扫描，来自BUFF数据集的26个扫描[55]，以及来自DeepFashion [27]数据集的2D图像，代表穿着各种复杂服装的人训练数据集中的受试者大多处于站立姿势，而测试数据集中的受试者处于任意姿势（站立，弯曲，坐着，等等）。. .）.我们使用Blender创建3D扫描的渲染。对于每个3D扫描，我们通过围绕垂直轴以1度的间隔旋转相机来产生360个对于当前的实验，我们只考虑了弱透视投影（正交摄影机），但这可以很容易地适应。我们还使用了38个环境贴图来渲染不同自然光照条件下的每次扫描所提出的模型经过训练以预测真实颜色（由地面真实扫描颜色给出）。我们还观察到，增加图像的数量可以提高预测颜色的保真度（如[40]）。为了使用3D扫描进行模型训练，我们将操纵的3D身体模板拟合到扫描网格以估计3D身体姿势（参见图11）。4）.估计的参数化3D身体可以在模型训练步骤期间直接用作地面实况输入数据（参见第2.2节）。3.3）。这也允许我们获得扫描的SemS和SemDF。然而，由于每个3D扫描具有其自己的拓扑结构，因此当姿态归一化被天真地应用于包含自接触（例如，手臂接触身体）的模型时，将发生由于拓扑结构变化而导致的伪影这会产生不准确的变形。因此，我们首先检测自接触和拓扑变化的区域，并在姿态归一化之前切割网格（见图11）。（见第4段（c）和（d）分段）。然后使用平滑符号距离曲面重建[8]填充孔（见图1）。4（c）1http://renderpeople.com2http://secure.axyz-design.com3100在RenderPeople和BUFF数据集上的姿态重建和地面实况之间的误差值越低越好。和（d））。对于来自DeepFash-ion数据集的2D图像的推断，我们使用[51]中的预训练模型获得3D身体姿势。4.3. 结果和比较我们使用类似于[40]的三个度量来评估重建精度。我们在相同的测试集上重建结果，并将它们恢复到输入图像的原始姿态，并将重建结果与原始姿态中的地面真实表面进行比较。我们以厘米为单位报告平均点到表面欧几里得距离（P2S），以厘米为单位报告倒角距离，并以表2为单位报告L2法线重投影误差。1.一、除了与最先进的方法[10，17，18，32，40，44]进行比较外，我们还包括使用所提出的方法进行的消融研究的评分。特别是，我们评估了三种变体，并验证了两个主要组件的有效性：语义变形场和粒度渲染和比较损失。基线：[40]的变体，使用我们自己的网络规范，将图像作为输入并直接估计隐式表面重建。语义变形场（SemDF）：我们首先通过[51]估计人体配置，然后使用隐式表面反射重建规范形状，最后将规范形状放置到输入图像中的原始姿势。粒度渲染和比较（GRaC）：在前一步的基础上，我们使用可微分渲染和比较进一步细化重建的表面法线和颜色。在正常估计中，基线规范已经实现了最先进的性能，但是在相对于正常估计的性能方面，基线规范的性能较差。与PIFU [40]相比，P2S和倒角误差。与PIFu相比，我们使用了不同的训练数据集，显然也不能代表测试集。此外，PIFu在训练和预测时对每个扫描进行最后，PIFu使用初始3D身体配置估计执行身体的大小归一化。图像被重新缩放，以使人的身高与规范尺寸匹配。这使得人的身高估计PIFU不可能，而我们正确地重建它-在3101输入动画化身图5.一个动画的预测化身的例子。我们使用一个预测，皮肤化身从我们的测试集和驱动它使用现成的运动捕捉数据。此头像仅使用单个正面视图创建。我们的模型对看不见的部分产生了合理的预测，例如头发和衣服的背面。输入我们PIFu输入我们PIFu图6. 对BUFF的评价。我们的方法优于[40]从任意姿势的详细重建我们从不同的角度展示结果输入图7.服装细节的重建质量。从我们的方法的几何重建再现较大的皱纹和裤子和鞋子的接缝，而预测的法线再现细皱纹。正常和颜色预测一起渲染产生一个合理的图像。一个更难解决的任务的成本这种操作的好处没有反映在分数中，因为度量是在原始图像空间中计算的。When adding SemDF, we see a substantial gain in per-formance compared to our own baseline, but also to the sofar best-performing PIFu metrics.我们在渲染-人物数据集上的平均性能优于PIFu，平均性能提高了50%以上，在BUFF数据集上的平均性能提高了60%以上当添加粒度渲染和比较损失时，这些数字再次略有改善，特别是在正常估计上。此外，结果获得了很大的视觉保真度，我们设法消除了很多视觉伪影。图7显示了我们的模型可以实现的几何、法线和颜色预测的细节水平。请注意，例如，拉链不会在预测的法线图8. 使用不同类型空间特征的重建示例。XYZ：绝对坐标，L2：到每个关节的欧几里得距离，RBF：到每个关节的基于径向基函数的距离建议的RBF保留了更多的细节。空间要素类型正常P2s倒角XYZ0.0450.750.91L20.0430.760.89RBF0.0420.740.85表2.空间特征有效性的消融研究。XYZ功能使用身体标志的普通位置。L2和RBF特性都提高了性能。地图这是一个指标，该模型并不简单地重新产生直接在法线贴图中的阴影的差异，但能够了解人类外观的几何和阴影属性。图6，我们展示了来自BUFF数据集的挑战性姿势的定性在图9中，我们提供了我们的方法与各种最先进模型的结果比较[44，18，40]。消融研究。我们评估了Tab中不同类型空间特征的有效性。图2和图8。我们评估三个不同的特征：XYZ使用采样点的绝对位置，L2使用从采样点到每个身体地标的欧几里得距离，RBF表示我们在第二节中提出的方法第3.1条可以观察到，RBF特征在定性和定量上都最适合此用例。径向基函数特征强烈强调距离当前分析点近的特征，而不太强调距离较远的点，从而促进优化并保留细节。动画重建化身。通过预测的占用场，我们可以重建一个已经装配好的网格，并可以直接设置动画。我们展示了我们从图中的AXYZ数据集重建的化身的动画。5，由一个现成的重新定位Mixamo驱动，输入XYZL2RBF几何重建正常颜色重建重建3102输入我们的PIFu BodyNet HMR输入我们的PIFu BodyNet HMR图9. 与最先进的方法[18，44，40]在看不见的图像上进行定性比较。Ours（我们的）鲁棒地处理具有自接触和遮挡的任意姿势，并重建比现有方法更高层次的细节图片来自RenderPeople。DeepFashion上的结果具有类似的质量，但由于版权问题而未显示请联系我们了解更多信息。在训练数据集中（例如，膝关节）之前返回不准确此外，细节（即，法线）可以通过对遮挡感知估计的特定处理来改善。图10. 有挑战性的案子。可以进一步改进罕见姿势的重建和遮挡区域的细节。imation [51].通过在规范空间中工作，化身被自动操纵并且可以直接动画化。仅给定单个视图图像，化身以3D重建，并且从各个方面看起来都是合理的。如图10所示，未充分覆盖的5. 结论在本文中，我们提出了一个端到端的框架，重建衣服的人从不受约束的照片。通过引入语义空间和语义变形场，我们能够处理从任意姿态的重建。我们还提出了一个颗粒渲染和比较损失，我们的隐式函数表示，以进一步约束随机相机视图下的视觉相似性。在服装细节方面，它显示了更高的保真度，包括像素对齐的颜色和法线，以及更广泛的人体配置。结果模型是动画准备，可以由任意运动序列驱动。我们将在未来探索处理具有野外图像的严重遮挡情况鸣谢。我们要感谢Junbang Liang和Yinghao Huang（FRL实习生）在数据集创建方面所做的工作3103引用[1] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个RGB摄像机重建穿着衣服的人。在IEEE计算机视觉和模式识别会议，2019年6月。2[2] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.从单目视频的详细的人类化身。2018年3D视觉国际会议。2[3] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.基于视频的三维人物模型重建。在IEEE计算机视觉和模式识别上，2018。2[4] ThiemoAlldieck ， GerardPons-Moll ， ChristianTheobalt，and Marcus Magnor. Tex2shape：从单个图像中获得详细的完整人体几何形状。IEEEInternationalConference on Computer Vision（ICCV）。IEEE，2019年10月。2[5] 亚历山德鲁岛放大图片作者：Michael J.作者：James E.Davis和Horst W. Haussecker从图像中获得详细的人体形状和姿势。IEEE计算机视觉与模式识别会议，2007年。2[6] BharatLalBhatnagar ， GarvitaTiwari ， ChristianTheobalt，and Gerard Pons-Moll.多服装网：学习从图像中打扮3d 人 IEEEInternational Conference on ComputerVision（ICCV）IEEE，2019年10月。2[7] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J.黑色. SMPL：从单个图像自动估计3D人体姿势和形状。2016年欧洲计算机视觉会议。2[8] 卡拉克里和加百列·陶宾。SSD：平滑符号距离表面重建。Comput. Graph. Forum，30（7）：1993-2002，2011. 6[9] Wenzheng Chen，Jun Gao，Huan Ling，Edward Smith，Jaakko Lehtinen，Alec Jacobson，and Sanja Fidler.学习使用基于插值的可区分渲染器预测3d对象。在2019年神经信息处理系统年会上2[10] 陈志勤和张浩。学习生成式形状建模的隐式字段。IEEE计算机视觉和模式识别会议，2019年。6[11] Hao-Shu Fang，Yuanlu Xu，Wenguan Wang，XiaobaoLiu，and Song-Chun Zhu.学习姿势语法编码人体结构以进行3d姿势估计。2018年AAAI人工智能会议。1[12] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。IEEE计算机视觉与模式识别会议，2007年。1[13] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。 IEEE Transactions on Pattern Analysis andMachine Intelligence，32（8）：1362- 1376，2010. 2[14] Juergen Gall ， Carsten Stoll ， Edilson de Aguiar ，Christian Theobalt ， Bodo Rosenhahn ， and Hans-PeterSeidel.使用关节骨架跟踪和表面估计的运动捕获。在IEEE计算机视觉和模式识别会议上，2009年。2[15] Riza Alp Guler和Iasonas Kokkinos。Holopose：Holistic3D human reconstruction in the wild.在IEEE计算机视觉和模式识别会议，2019。2[16] Eldar Insafutdinov和Alexey Dosovitsky使用可微分点云进行形状和姿态的无监督学习。神经信息处理系统年会，2018年。二、三[17] 亚伦·S杰克逊，克里斯·马纳法斯，乔治斯·齐米罗普洛斯.通过体积回归从单个图像进行3D人体重建。2018年欧洲计算机视觉研讨会。6[18] 作者：Michael J. Black，David W Jacobs，and JitendraMalik.端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议上，2018。一二六七八[19] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在IEEE计算机视觉和模式识别会议上，2018年。2[20] 放大图片作者：Michael J.布莱克和科斯塔斯·丹尼利迪斯学习通过循环中的模型拟合重建3d人体姿势和形状。在IEEE国际计算机视觉会议上，2019年。2[21] Nikos Kolotouros Georgios Pavlakos和Kostas Dani- ilidis卷积网格回归用于单幅图像的人体形状重建。在IEEE计算机视觉和模式识别会议，2019。2[22] 佐拉·莱纳丹尼尔·克里默斯托尼·董深皱纹：精确逼真的服装造型。2018年欧洲计算机视觉会议。2[23] 放大图片作者：Christoph Lassner ， Javier Romero ，Martin Kiefel，Federica Bogo，Michael J.布莱克和彼得·盖勒。团结人民：关闭3D和2D人类表现之间的循环。2017年在IEEE计算机视觉和模式识别会议上发表。2[24] Verica Lazova ， Eldar Insafutdinov ， and Gerard Pons-Moll. 360-从一张照片中可以看出人们穿着衣服的不同程度的纹理。在2019年的3D视觉国际会议上。2[25] Shichen Liu，Tianye Li，Weikai Chen，and Hao Li.软光栅化器：基于图像的3d推理的可微分渲染器。2019年IEEE计算机视觉国际会议。二三四五[26] Shichen Liu，Shunsuke Saito，Weikai Chen，and Hao Li.学习在没有3d监督的情况下推断隐含表面。神经信息处理系统年会，2019年。二、三[27] Ziwei Liu，Ping Luo，Shi Qiu，Xiaogang Wang，andXiaoou Tang. Deepfashion：通过丰富的注释实现强大的服装识别和检索IEEE计算机视觉与模式识别会议，2016年。6[28] Matthew Loper、 Naureen Mahmood 、Javier Rome

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

可动画重建的衣服人类：一种新的端到端框架

鼠标悬停动画js框架

Android 换肤框架

C++ 有哪几个框架 QT

前端所有的技术栈和知识点

Android动画框架

Unity 有支持几种动画类型

html动画效果有哪些

使用js写一个动画组件应用：分别实现不同类型动画，以及两种动画组合（串行、并行）

帮我列出open fly开源代码框架，并告诉我如何学习应用

android banner动画框架

ani.save保存动画时报错IndexError: list index out of range

unity常用的ui动画

补间动画Android

threejs 可以支持的threejs格式

有没有类似Bootstrap的框架

unity 主流框架

js svg语音波动动画_整理一些有趣的svg动画

Android 动画 相关书籍

常见的jQuery动画效果有哪些？

Android 中de的补间动画

最新资源

Android 动画相关书籍