没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文AvatarCap:可动画化的化身条件单目人体体积捕获Zhe Li,Zerong Zheng,Hongwen Zhang,Chaonan Ji,Yebin Liu清华大学自动化系抽象的。 为了解决单目人体体积捕获中部分观察引起的不适定问题,我们提出了AvatarCap,这是一种新颖的框架,它将可动画化的化身引入捕获管道,用于在可见和不可见区域进行高保真重建。我们的方法首先创建一个动画化身的主题,从一个小数目(1020)的3D扫描作为一个先验。然后给出该主题的单色RGB视频,我们的方法整合来自图像观察和化身先验的信息,并相应地重建具有动态细节的高保真3D纹理模型,而不考虑可见性。为了从少量样本中学习有效的体积捕获化身,我们提出了GeoTexAvatar,它利用几何和纹理监督来以分解的隐式方式约束姿势相关的动力学。进一步提出了一种涉及规范正态融合和重建网络的化身条件体积捕获方法,以整合图像观测和化身动态,用于在观测区域和不可见总的来说,我们的方法使单目人体体积捕捉详细和姿势相关的动态,实验表明,我们的方法优于最先进的。1介绍人体体积捕获由于其在Metaverse、全息通信、视频游戏等中的潜在价值,几十年来一直是计算机视觉中的热门研究课题。25,66,83,59]可以使用多个RGB(D)传感器重建高分辨率3D人体模型,但复杂的设置限制了它们在实践中的部署。为了克服这一限制,研究人员已经开发了各种基于模板跟踪的单眼人体重建技术[90,17,20,21],体积融合[52,80,64]或单图像重建[87,56,57,26,36,23]。尽管单目立体捕获技术发展迅速,但现有的方法主要集中在根据直接观测数据重建可见表面,无法恢复不可见区域的动态细节。POSEFusion [38]通过整合来自整个RGBD序列的相似姿势的关键帧进行不可见区域重建来解决这一限制然而,它要求受试者多次面对类似的动作arXiv:2207.02031v2 [cs.CV] 2022年7+v:mala2255获取更多论文∼2Z. Li等人图1:AvatarCap的概述。我们提出了AvatarCap,它利用从用于单目人体体积捕获的少量(1020)扫描中学习的可动画化的化身来实现高保真重建,而不管可见性如何个方向更糟糕的如何在不可见表面上恢复时间相干和姿态相关的细节是单目人体体积捕获中迫切需要解决的问题最近,在社区中出现了许多关于姿势驱动的人类化身的作品他们从各种输入创建可动画化的化身,包括扫描[9,58,44,46,8],多视图RGB视频[53,39]和单目深度测量[7,71]。在本文中,我们的关键见解是,特定于人的化身的姿势驱动的动态正是单目 人 体 体 积 捕 获 中 所 缺 少 的 。 考 虑 到 这 一 点 , 我 们 提 出 了AvatarCap,这是第一个将个人特定的动画化身与单眼人类体积捕获相结合的管道。直观地,化身编码关于姿态相关动态细节的数据驱动先验,其可以补偿单目输入中的完整观察的缺乏,从而使得具有动态细节的3D模型的高质量重建与可见性无关。虽然将特定于人的化身引入到体积捕获中增加了流水线准备中的开销,但是我们相信,姿态相关动态的数据驱动先验对于未来的动态单目人类捕获是不可或缺的。在本文中,为了在数据采集的容易性和重建质量之间进行权衡,我们选择仅使用少量(20)纹理扫描作为数据库。请注意,仅从几次扫描中学习一般化的化身是具有挑战性的,并且最先进的方法通常需要多次扫描来创建一个化身[58,46]。如果只有20个扫描可用,则其结果往往过拟合并且缺乏几何细节,因为它们将所有表面细节(包括姿态相关和姿态不可知的 细 节 ) 都 限 制 在 姿 态 输 入 上 。 为 了 解 决 这 一 挑 战 , 我 们 提 出 了GeoTexAvatar,一个decomposed表示,保证详细的表示能力和概括能力。更具体地说,我们的表示尽可能多地将姿势不可知的细节提取到一个公共的隐式模板中[84],并对其进行模使用姿态条件扭曲场来消除其余的姿态驱动动力学。这样的解纠缠促进了更好的泛化,因为大部分几何细节被分解为公共模板,因此姿态相关的扭曲场更容易学习。另一方面,在一项研究中,+v:mala2255获取更多论文AvatarCap 3先前的方法仅依赖于几何线索来学习条件扭曲,ing字段[84],但我们发现这是不够的,因为许多类型的布料动态(例如,布料滑动)不能仅由几何体监督,因为建立几何对应时的模糊性。因此,我们引入了一个由NeRF[49]表示的额外纹理模板,以使用几何和纹理监督来联合约束姿势相关的扭曲场,这使得可以学习准确的姿势条件扭曲场。作为因此,建议GeoTexAvatar不仅可以保留更多的细节,但也产生更合理的姿态依赖的动态动画。然而,在单元捕获流水线中利用可动画化的化身仍然不是微不足道的。主要原因是, 在没有任何明确的3D信息的情况下,虚拟化身先验和单目颜色输入。幸运的是,可以从单目彩色图像中提取具有丰富细节的2D法线图[57],我们可以使用它来桥接3D化身和2D RGB输入。然而,使用非常密集的非刚性变形[65]直接优化化身几何形状以拟合2D法线贴图是困难的,如果不是不可行的话,因为在没有明确的3D对应关系的情况下强制表面与法线贴图一致是不适定的。为了克服这一挑战,我们提出了化身条件体积捕获,它将化身和法线贴图之间的整合正则正态融合和模型重构。具体地说,规范法线融合将化身法线和图像观察法线集成在统一的2D规范图像平面上。在此过程中,我们将融合公式化为旋转网格和法线映射的优化,以纠正由不准确的SMPL [42]拟合引起的低频法线方向错误,同时保持高频细节。之后,重建网络预训练使用大规模3D人体数据集[79]作为强先验,用于从融合的法线图中产生具有全身细节的高保真3D人体本文提出了以下贡献:1)AvatarCap,一种新的框架,其将可动画化的化身引入到单目人体体积捕获流水线中,以实现详细和动态的捕获,而不管可见性如何(Sec.3)。2)GeoTexAvatar,一种新的分解的化身表示,其包含姿势不可知的Geo-Tex隐式模板和姿势依赖的扭曲场,以使用几何和纹理监督来联合约束姿势依赖的动态,以实现更详细和更广泛的动画(第12节)。4)。3)化身调节的体积捕获,其包含规范正态融合方法和重建网络,以克服化身先验与用于全身高保真重建的单目输入之间的域间隙(Sec. 5)。代码可在https://github.com/lizhe00/AvatarCap上获得。2相关工作模板跟踪。给定单目RGB(D)视频,许多作品利用模板来使用骨架运动[47]或非刚性变形来拟合每个帧。[65]. 具体来说,[34,90,17]解决了非刚性翘曲场,以跟踪+v:mala2255获取更多论文4 Z. Li等人输入深度流,而[76,16,88,24]跟踪模板的骨架运动以适应单目输入。[20]和DeepCap [21]共同解决了或者从单目RGB视频推断骨架和非刚性运动。MonoClothCap [74]基于SMPL构建了一个统计变形模型,以捕获可见的布料动态。然而,这些方法仅关注拟合模板解释图像观察,而忽略了不可见区域的动态。体积融合。同时,为了实现从单个深度传感器的实时重建,Newcombe等。[52]率先提出DynamicFusion,以增量方式跟踪和完成规范模型。这件事鼓舞了大量的后续工作[27,60,18,78,61,33,80,85,64],以结合不同的身体先验或其他线索,以提高性能。然而,类似于基于模板跟踪的方法,这些工作没有考虑不可见区域的动态变形。SimulCap [81]将布料模拟引入体积融合管道,但其重建质量有限 一个简单的布料模拟器。POSEFusion[38]提出整合相似姿势的多个关键帧以恢复整个身体的动态细节,但是该方案导致较差的姿态概括,即,只有在不同帧中看到的那些姿态才能被忠实地重建。单图像重建。最近,研究人员越来越关注通过体积回归[69,28,87],视觉外壳[51],深度图[12,62],模板变形[89,2]和隐函数[56,26,36,22,23,75]。对于隐函数表示,PIFuHD [57]引入了正常估计以产生详细的几何形状。PaMIR [86]和IPNet [4]结合了参数化身体模型(例如,SMPL [42])转换为隐式函数来处理具有挑战性的姿势。然而,在没有直接观察的情况下,这些方法仅恢复过度平滑的不可见几何而没有细节。NormalGAN [70]使用GAN [14]从输入RGBD推断后视图RGBD图像,然后将它们缝合在一起。不幸的是,由于训练数据中的有限变化,推断的细节可能与姿势或布料类型不一致可动画化的人类化身为了创建可动画化的人类化身,以前的方法通常重建模板,然后通过物理模拟[15,63]或深度学习[3]对角色的姿势相关动态进行建模,73,19]。最近的工作提出直接从数据库中学习可动画化的化身,包括扫描[45,58,44,46,8],多视图RGB视频[39,53]和深度帧[7,71,10]。这些作品通常需要大量的数据来训练特定于人的化身;当只有少量的扫描可用时,它们会遭受过度拟合和姿势泛化的困扰 Wang等人[71]在克服这个问题之前,他们学习了一种Meta,但仍然很难将他们的方法应用于纹理建模。3概述如图1、AvatarCap的整个框架包含两个主要步骤:+v:mala2255获取更多论文∼∼AvatarCap 51. 化身创造。 在执行单目体积捕获之前,我们收集受试者的少量(20)纹理扫描作为数据库以构建他/她的可动画化的化身,其将用于促进动态细节捕获。为了创建具有真实细节和概括能力的化身,我们提出了GeoTexAvatar,这是一种将动态水平集函数[58]分解为隐式模板(包括占用[48]和辐射[49]字段)和姿态相关扭曲字段的表示,如图所 示 二 、 我 们 通 过 使 用 纹 理 扫 描 监 督 几 何 和 纹 理 来 训 练GeoTexAvatar网络2. 化身条件体积捕获。在化身先验的情况下,我们在给定单目RGB视频输入的情况下执行体积捕获,如图3所示。为了解决化身和RGB输入之间的域差距,我们建议使用表面法线作为中间桥梁。具体来说,我们首先从每个RGB图像中估计可见法线,然后使用估计的SMPL姿势将其映射到规范空间[31,82]。然后,我们生成的规范化身与姿态相关的动力学给定的姿态和渲染的规范法线映射从正面和背面的意见。下一步是将渲染的法线贴图与它们基于图像的对应物集成。为此,我们提出了规范的正常融合,其目的是正确的低频局部正常方向,同时保持高频细节的图像观测。最后,使用预训练的重建网络来产生一个高保真度的人体模型的条件上的综合正常的地图。4创建头像在本节中,我们的目标是学习一个可动画化的化身,用于体积捕获。遵循SCANimate [58]的实践,我们将SMPL拟合到原始3D扫描,并通过逆蒙皮将其转换为规范姿势。我们的目标是建立从这些规范化的扫描中获得可动画化的化身,其表示为姿势条件隐式函数。由于只有少量(20)纹理扫描可用,我们提出了一个分解的隐式函数,以保证表示能力和泛化能力(第二节)。4.1),这使我们能够更好地利用训练数据的几何和纹理信息(第4.1节)。4.2)。4.1GeoTexAvatar表示我们的表示建立在SCAN- imate [58]中的姿态条件隐函数上,定义为f(xc,θ)=s,其中s∈[0, 1]是占用值,xc是正则空间中的3D点,θ是SMPL姿态参数。姿态相关的表面由该隐式的函数f(xc,θ)= 0. 5. 然而,这样的纠缠表示条件的所有表面动力学,包括姿势依赖的变形和姿势不可知的细节,姿势输入。因此,当给定不可见的姿势时,动画+v:mala2255获取更多论文·····6个Z。Li等人图2:GeoTexAvatar表示的图示。我们将规范扫描分解为姿态不可知的Geo-Tex隐式模板和姿态相关的扭曲场,以使几何和纹理的联合监督更加详细和广泛的动画。为了不仅对姿势相关的变形进行建模,而且还在不同的训练样本中保留姿势不可知的细节,我们提出了一种基于[84]的分解表示:TGeo(W(xc,θ))=s,(1)其中W(xc,θ)= xc+ Δ W(x,θ)表示将姿态参数和点作为输入并返回其模板位置的姿态相关扭曲字段,并且TGeo()是姿态不可知的占用模板。请注意,之前从扫描中学习的化身[58,44,46]忽略了纹理信息,即使他们的数据库包含纹理。然而,我们发现纹理对于约束姿势相关的布料变形是必不可少的,因为仅几何上最接近的约束不能建立正确的对应关系,特别是对于常见的切向布料运动(例如,布料滑动)。因此,我们进一步引入了一个额外的纹理模板使用神经辐射场[49](NeRF)以相同的分解方式,即,TTex(W(xc,θ))=(σ,c),(2)其中TTex()是将模板p〇 int映射到其密度σ和颜色c的模板辐射场。请注意,我们利用模板NeRF来表示扫描纹理,而没有视图相关的变化,因此我们放弃了视图方向输入。由于分解(Eq. 1当量2),我们的化身表示,称为GeoTexAvatar,能够在训练扫描的几何形状和纹理的联合监督下,联合约束姿态相关扭曲场W()与Geo-Tex隐式模板场(TGe o()&TTex())。图2是我们的表示的图示。与最先进的基于扫描的化身方法[58,46]相比,我们的代表显示了两个主要优势,如图7所示。1)分解表示可以为动画保留更多的姿势不可知的细节2)几何和纹理的联合监督使得更合理的姿态相关变形成为可能.更重要的八、+v:mala2255获取更多论文L·PLR·L·geo2|P|xp∈PppTex|R|¨¨r∈RAvatarCap 74.2GeoTexAvatar培训我们的GeoTexAvatar网络的训练损失包含几何损失,纹理损失和扭曲场的正则化损失,即, L = λgeoLgeo+λtexLtex+ λregLreg,其中λgeo、λtex和λreg为损失重量。几何损失。geo惩罚推断的占用率and the ground地面truth真相:L=1<$BCE(s(x),s<$(x)),(3)其中是采样点集,s(xp)和s(xp)分别被推断和地面实况占用,BCE()测量二进制交叉熵。纹理损失。为了联合训练NeRF模板,我们将纹理扫描渲染到不同的视图以进行监督。tex测量网络呈现的颜色与真实颜色之间的误差:L=1-C(r)-C(r)-2,(4)其中,是图像视锥中的ray样本的集合,[49]中的渲染函数,C(r)是地面真值颜色。正规化损失。reg通过W()约束翘曲点以接近输入,因为规范的依赖姿态的动力学通常很小:1Lreg=Σǁ∆W(xc,θ)ǁ,(5)|xc ∈P <$PR|xc∈P∪PR其中PR是在体绘制期间沿着R5化身调节体积捕获接下来,我们前进到化身调节的体积捕获。主要的困难在于化身表示之间的巨大领域差距而输入图像,即,图像不提供与化身几何形状相关联的3D测量。如图3所示,为了克服这一挑战,我们建议采用法线映射作为中间表示,以弥合图像输入和化身先验之间的差距。具体地说,我们在一个统一的正则图像平面上进行两个模态之间的积分,然后将积分分解为正则法向融合和模型重构。- 是的给定RGB图像,我们的方法首先准备规范化身和图像法线映射,如图3所示。具体地,1)化身动画:GeoTexAvatar网络使用SMPL姿势输出动画化的规范化身,然后分别渲染表示为F化身B化身2)法线映射规范化:在并行分支中,输入RGB图像被馈送到2D卷积网络[72]中以推断表示可见细节的法线映射N。然后 将其映射到正则空间,结果记为F像和B像。 这两个步骤的实现细节可以在Supp. Mat.+v:mala2255获取更多论文八Z。Li等人图3:化身条件体积捕获管道。 对于单目视频的RGB图像,我们首先推断SMPL姿态和法线映射。然后,姿态驱动的GeoTexAvatar生成并渲染规范的化身法线贴图,而图像观察到的法线贴图被扭曲到规范空间中。规范法线融合将化身和观察到的法线两者集成在一起,并馈送将法线映射融合到重建网络中以输出高保真3D人体模型。最后,使用GeoTexAvatar网络生成高分辨率纹理。5.1规范正态融合给定准备好的化身图像观察到的法线映射,我们将它们集成在2D规范图像平面上。然而,用对应的基于可见图像的法线直接替换化身法线是不可行的,因为由于不准确的SMPL估计(例如,如图所示,前臂旋转4(a),导致重建中的因此,我们提出了一种新的规范的法线融合方法,不仅保留高频图像观察法线,但也纠正低频局部批次方向。在不失一般性的前提下,以正面头像法线贴图和基于图像的贴图(F头像和F图像)为例,介绍了公式。如图4(a)所示,F图像包含从输入颜色估计的丰富的观察细节,但是法线的取向可能由于SMPL估计误差而不正确另一方面,即使F化身的可见区域不完全遵循图像观察,低频法向取向在规范空间中也是准确的,如图4(b)所示。为此,我们建议优化化身法线映射F化身,以整合来自图像观察的一个F图像的高频细节,同时保持其初始正确的低频取向,如图4(d)所示。为此,我们引入2D旋转网格来分解F化身和F图像之间的低频方向差异,使得F图像上剩余的高频细节可以旋转回具有正确方向的F化身如图所示图4(b),每个ch网格被分配一个旋转矩阵Ri∈SO<$(3),旋转使用双线性插值的{Ri}的组合,其中wi(p)是插值权重。通过这样的参数化,我们优化了旋转网格{Ri}在地图上的2D点p=(x,y)被定义为R(p)=iwi(p)Ri,线性+v:mala2255获取更多论文ΣDΣ2N→--AvatarCap 9图图4:典型正态融合的图解。使用图像观察到的法线直接替换可见区域会导致严重的重建伪影(d),而所提出的规范法线融合校正低频局部批量方向并保留高频细节以用于鲁棒和高保真重建(c)。和化身法线映射F化身,E(Ri,Favatar)=λ拟合E拟合(Ri,Favatar)+λ平滑E平滑(Ri),(6)其中E拟合和E平滑分别是旋转的化身法线和观察到的法线之间的未对准的能量以及网格的平滑正则化拟合项。拟合项测量由其变换矩阵旋转的化身法线与目标图像观察到的法线之间的残差:Efittingg(Ri,Favatar)=<$R(p)Favatar(p)−Fimage(p)<$2,(7)p∈D其中是F化身和F图像的有效相交区域。平滑项。 平滑项将旋转网格正则化为低-频率通过约束相邻网格之间的旋转相似性:Esmooth(Ri)=我j∈<$N(i)Rod(Ri)−Rod(Rj)其中(i)是第i个网格的邻居,Rod:SO(3)so(3)将旋转矩阵映射到轴角向量。延迟优化的F头像。 我们首先初始化{Ri}为单位矩阵。注意,化身法线映射F化身和旋转网格Ri都是可优化变量,使得解不是唯一的。如果我们联合优化这两个变量,F化身往往等于F图像,这是不希望的。为此,我们首先求解低频旋转网格{Ri},然后优化F化身在{Ri}固定的情况下,从F图像中整合高频细节结果我们获得优化的F化身作为融合了高频细节和正确的低频方向的融合法线图F,4(c).5.2模型重建几何重建为了从融合的标准法线映射Ffused&Bfused重建3D几何结构,我们在大规模3D人体数据集上预训练重建网络[79]。有了这样一个强大的数据先验,我们可以有效地和鲁棒地恢复3D几何与高保真全身细节+v:mala2255获取更多论文10 Z。Li等人图5:我们的方法的示例体积捕获结果。自上而下单目RGB输入、几何和纹理结果。从完整的法线贴图。重建网络被表示为图像条件隐函数g(h(π(x);Ffused,Bfused),xz),其中x是正则空间中的一个三维点,h(·)是一个采样卷积图像的函数特征,π(·)是正交投影,xz是z轴值,g(·)是将图像特征和xz映射到占用值的隐式函数我们对这个隐式函数执行Marching Cubes [43]来重建正则模型,然后通过向前蒙皮将其变形到设定的空间纹理生成。 基于GeoTexAvatar表示,通过映射辐射场,可以生成重建几何的纹理具体地,给定正则模型的顶点v及其法线nv,基于等式(1),2,我们可以使用NeRF [49]中的体绘制来计算它的颜色,其中相机射线r(t)=v−tnv和近界和远界−δ和δ(δ>0)。6结果我们的方法的体积捕获结果如图5所示。在实验中,我们收集了10名受试者的纹理扫描及其单眼视频,并将部分扫描用作评估数据集。关于数据预处理和实现的更多细节可以在Supp. Mat.6.1比较体积捕获。如图6所示,我们将AvatarCap(我们的整个体积捕获框架)与最先进的融合和单RGB(D)图像重建方法(包括POSEFusion [38],PIFuHD[57]和NormalGAN [70])进行了比较。我们对捕获的序列进行比较,一个Kinect Azure也与基于RGBD的方法进行比较[70,38],以及+v:mala2255获取更多论文∼AvatarCap 11图6:与单眼体积捕获方法的定性比较。我们展示了我们的方法(AvatarCap),POSEFusion [38],PIFuHD [57]和NormalGAN [70]的重建结果。我们的方法比其他方法更有效-不可见区域(红色圆圈)中的姿态相关动力学的真实性度量/方法AvatarCap(我们的)PIFuHD [五十七]NormalGAN [70]倒角距离1.0973.4002.852扫描到网格距离1.0963.0922.855表1:AvatarCap与PIFuHD [57]和NormalGAN[70]的定量比较。我们报告了不同方法在整个测试数据集上的平均倒角和扫描到模型距离误差(×10−2m)。为了公平起见,所有基于学习的方法都是在我们的化身创建中使用的个人特定扫描上进行微调的。图6表明,我们的方法可以实现高保真度重建与详细的观察和合理的姿态相关的不可见动力学。虽然POSEFusion [38]可以整合其他帧的不可见表面,但它完全依赖于每次捕获的序列,姿势泛化。PIFuHD [57]仅考虑从颜色输入推断的法线贴图中恢复可见细节,而没有姿势条件化的特定于人的动态,因此不可见区域通常被过度平滑。虽然NormalGAN [70]可以从RGBD输入中推断出一个合理的反向RGBD图,但推断出的不可见外观可能与特定于人的动态不一致。我们还对测试数据集与地面实况扫描进行了定量比较,并在Tab 中报告了平均误差。1. 注意,POSEFusion是一种基于序列的方法,但测试扫描是在离散姿态下进行的,因此我们只与其他方法进行比较。总的来说,我们的方法在质量和准确性上都达到了最先进的捕获动画化身。如图7所示,我们将我们的化身模块GeoTexAvatar与基于个人特定扫描的最先进的化身作品SCANimate [58],SCALE [44]和POP [46]进行了比较。请注意,POP是一个多主题服装表示,在这个比较中,我们使用与其他方法相同的几个(20)扫描从头开始训练它。我们的方法优于这些方法的动态细节的恢复,以及切向布料运动受益于建议的分解表示和联合监督的几何和纹理,分别。我们进一步定量评估+v:mala2255获取更多论文12号Z。Li等人图7:与动画化化身方法的定性比较。 我们展示了我们的方法的动画结果(也具有高质量的纹理),SCANimate [58],SCALE [44]和POP [46]。并且我们的方法在褶皱(实心圆)和与姿态相关的布料切向运动(虚线圆)的建模上显示出了优越性。病例/方法 GeoTexAvatar (我们的)SCANimate [58个]规模[第四十四届][46]第四十六话连帽衫16.297.388.196.83衬衫12.805.724.723.08表2:GeoTexAvatar与SCANimate [58],SCALE [44]和POP[46]的定量比较。我们报告了不同方法的动画结果与地面实况扫描之间的平均倒角距离误差(×10−3m)。GeoTexAvatar和其他作品在Tab中测试数据集上的动画精度2,我们的方法实现了更准确的动画效果。6.2评价GeoTexAvatar的分解表示。我们评估了所提出的分解表示与图8中的纠缠表示[58]。首先,类似于SCANimate [58],我们选择局部姿态向量作为表示中扭曲场的姿态编码。与纠缠表示(图8(a))相比,分解表示(图8(b))产生更详细的动画结果,例如,拉链,面部和腿部细节,这要归功于对姿势相关动力学和姿势不可知细节的分解。此外,分解允许我们在单次扫描时对纹理模板进行微调以恢复高质量的纹理,而在纠缠学习中纹理完全模糊。此外,我们根据经验发现,在正则空间中定义的SMPL位置映射比局部姿态向量显示出更强大的姿态依赖动力学表达,如图所示8(b)和(c)。GeoTexAvatar中的纹理监督。我们通过在图9中的动画期间可视化对应来评估纹理监督对姿势相关扭曲场的有效性。我们首先训练化身网络单独使用和不使用纹理模板。为了可视化不同姿态的动画结果之间的对应关系,我们首先生成几何体,+v:mala2255获取更多论文··AvatarCap 13图8:分解表示的评估。(a),(b)和(c)分别是纠缠表示[58]和姿态矢量和位置图编码的分解表示的动画几何和纹理结果。图9:GeoTexA-vatar中纹理监督的有效性评估。我们通过顶点颜色来表示顶点属于上半身还是下半身,从而可视化不同帧之间的对应关系。在T Geo()上使用[43]进行模板,然后手动将模板网格分割为上半身和下半身。给定一个新的姿势,化身网络输出一个规范的化身模型,然后可以使用姿势相关的扭曲场将该模型上的每个顶点扭曲到模板。最后,我们根据变形顶点在模板上的最近点来确定变形顶点属于上半部分还是下半部分。 图9展示了纹理监督可以通过联合学习额外的文本模板TTe x()来隐式地约束warping字段,从而使得能够实现用于动画的更合理的姿势概括。然而,由于仅在几何最接近约束下建立对应培训扫描编号。我们定量地评估了训练扫描次数对GeoTexAvatar动画精度的影响。我们选择包含100次扫描的数据集的一个子集(图图10示出了使用不同扫描次数的可视化和数值动画误差更多的训练样本并不总是导致更准确的结果,因为从姿势到布料细节的映射在训练数据集中可能是一对多的规范正规融合与直接覆盖方法相比,我们定性和定量地评估了所提出的规范正态融合。图图11(c)和(d)分别示出了使用直接覆盖和规范法线融合的重建结果,以及它们相对于地面实况扫描的每个顶点点到表面的误差由于SMPL估计的不准确性和法线图推断中正射假设与摄像机视角的差异,规范化法线往往是错误的。直接覆盖方法保持了错误的图像观察法线,从而导致不准确的重建和重影伪影,如图所示11(c).相反,+v:mala2255获取更多论文14 Z. Li等人图10:评估训练扫描次数对GeoTexAvatar动画精度的影响。从(a)到(d)分别是通过20、40、60和80次扫描训练的动画结果的可视化顶点到表面误差,(e)是地面实况扫描,(f)是整个测试数据集上的平均倒角和扫描到网格距离误差的图表。图图11:典型正态融合的评估。 我们可视化了重建模型与地面实况之间的每个顶点的点到面误差,(f)是不同阈值下正确顶点的百分比正则法线融合不仅校正了正则化图像法线的低频方向,而且保留了图像观测的高频细节,从而实现了如图1所示11(d)和(f)。7讨论结论我们提出了AvatarCap,一种新的单目人体体积捕获框架,它利用了一个可动画化的化身,只从几次扫描中学习到捕捉身体动态,而不管可见性如何。基于建议的Geo-TexAvatar和化身条件的体积捕获,我们的方法有效地集成从图像观察和化身先验的信息。总的来说,我们的方法优于其他国家的最先进的捕获方法,我们相信,化身条件的体积捕获将取得进展,朝着动态和逼真的三维人体动画化身的进步。限制. 我们的方法的主要限制是3D扫描收集,一个可能的解决方案是使用RGBD相机使用3D自拍方法[35,37]捕获扫描此外,我们的方法对于宽松的衣服可能失败,例如,长裙,因为SMPL骨架不能正确地变形这样的衣服。致谢。本文得到国家重点研发计划(2021ZD0113501)和国家自然科学基金项目(No.62125107)的资助。+v:mala2255获取更多论文AvatarCap 15图12:一个主题的训练扫描。在这份补充材料中,我们提供了我们的方法的实施细节,更多的实验和分析。请访问项目网站1了解我们的结果的更多可视化。A实现细节A.1数据收集和预处理纹理扫描是使用密集DLSR钻机作为训练数据库来捕获的,用于创建如图所示的化身12个。我们首先使用[1]将SMPL [42]拟合到每个然后将扫描变形为遵循规范的姿势[26]。与直接从非水密规范化扫描中学习SDF不同[58],我们非刚性地变形规范SMPL以与扫描对齐以填充孔,然后利用泊松重建[29]生成水密扫描。最后,为了联合训练由NeRF [49]表示的纹理模板,我们从均匀分布在一个圆圈中的60个视图中渲染原始纹理扫描。注意,纹理和占用监督不在同一空间中,即,前者是在定态空间中,而后者是在规范空间中。其原因是在原始捕获的扫描上可能存在身体部分交叉,例如,腋窝,如果我们在姿势空间中围绕这些区域采样点,则相应的地面实况占用值将是不正确的。A.2GeoTexAvatar网络架构。GeoTexAvatar网络包含两个模块,即,Geo-Tex隐式模板和姿势条件扭曲字段。Geo-Tex隐式模板表示为MLP,其采用具有10阶位置编码的3D模板点[49,67]作为输入,并返回其颜色,颜色和密度。模板网络由一个共享的MLP组成,1http://www.liuyebin.com/avatarcap/avatarcap.html+v:mala2255获取更多论文····××××16Z. Li等人(63,256,256,256,256,256,256,256)神经元,具有(256,128,2)个神经元和(256,256,128,3)个神经元的彩色MLP几何MLP联合输出占用率和密度值;这种隐式表示受到[59]的启发占用率、密度和颜色MLP的最后一个非线性激活函数分别是Sigmoid、ReLU和Sigmoid。位置条件化的加权场由位置映射编码器E(·)和偏移解码器D(·)组成W(xc,θ)=D(xc,B(π(xc);E(P(θ)))),(9)其中xc是规范3D点,P(θ)是渲染的规范SMPL位置图,其中像素值是所定位的SMPL位置,B(·)是对xc的特征图E(P(θ))上的特征进行的渲染的位置贴图。为了生成位置图,我们从前视图和后视图渲染标准SMPL以生成两个像素对准的位置图,然后将它们连接在一起,并且最后将它们馈送到位置图编码器E(),随后是偏移解码器D()。在[46]之后,位置映射 编 码 器 E ( ) 是 UNet [55] , 其 包 含 七 个 [Conv 2d , BatchNorm ,LeakyReLU(0.2)]块,后面是七个[ReLU,ConvTranspose 2d,Batch-Norm]块,并且它返回25625664地图偏移解码器是MLP,其将所述规范点和对应特征作为输入,以及它在每层分别包含(3+ 64,256,256,256,256,256,256,256,3)个神经元。请注意,在[46]中,SMPL位置映射在SMPL UV空间中定义。我们不遵循[46]中的实践,因为我们需要查询整个3D空间的特征。我们的定义也避免了UV空间导致动画模型背面的接缝伪影在[46]中。训练我们使用Adam[30]优化器,批量大小为4,用于30个epoch,扫描次数为20 损失权重设置为λgeo= 0。5,λtex= 1。0,λreg= 0。1. Geo-Tex隐式模板和扭曲字段的初始学习率分别为1 10−3和1 10−4,每20000次迭代下降一半我们初始化扭曲字段以输出零偏移,并且在前两个时期,我们固定翘曲场并且仅优化模板网络以获得粗模板。一个主题的训练,创造一个动画化身需要大约两个小时。A.3化身调节体积捕获如主论文的图3所示,体积捕获的初始化包括化身动画和法线映射规范化。阿凡达动画。首先,我们可以使用SPIN [31]或PyMAF [82]从单眼彩色输入估计SMPL姿态。利用SMPL姿态,我们可以生成规范的SMPL位置图,如第2节所述。A.2.我们分配一个包含规范SMPL主体的规范卷。对于每个体素,我们将其位置和卷积特征图上的投影特征馈送到+v:mala2255获取更多论文×××∼∼AvatarCap 17网络来评估其占用率,然后我们对该占用体积执行Marching Cubes [43]以获取规范几何模型。最后,我们从正面和背面的意见,通过正交投影渲染,以获得正面和背面的化身法线映射。法线贴图规范化。在这个分支中,我们首先使用PIFuHD [57]之后的pix2pixHD [72]从单眼彩色输入估计法线图。然后,我们使用估计的SMPL对规范化身模型进行变形 pose到图像/已设定姿势的空间,然后将其投影到法线贴图上,以获取每个可见顶点的法线向量。与化身动画类似,我们使用正投影从相同的前视图和后视图中的规范化身渲染所获取的法线,以获得前视图和后视图的图像观察法线图。通过上述两个步骤的初始化,我们在统一的2D规范图像平面上桥接了化身和典型的正常融合,如第二节所介绍的。5.1的主要文件,我们制定的融合作 为 一 个 优 化 , 并 在 能 量 函 数 方 程 。 6 , 我 们 设 置 λfitting=1 。 0 且λsmooth=1。0,并采用高斯-牛顿算法进行了50次迭代优化。所有法线贴图的分辨率为512 512,旋转网格的分辨率为64 64。模型重建我们引入了一个在大规模人类数据集上预训练的重建网络(THuman 2.0 [79]),以在从融合的法线映射中推断3D模型之前利用数据。因为法线映射在正则空间中,类似于Sec。A.1,我们通过SMPL配准将所有原始扫描变形为规范姿态然后,我们从正面和背面视图渲染规范化的扫描,我们在表面附近和规范体积中随机采样3D点,如PIFU [56]中所述,然后计算其占用值。使用渲染的法线贴图和采样点,我们使用Adam [30]优化器训练这个网络,批量大小为4,学习率为1 10−3,持续240个epochs。培训大约需要两天时间 RTX 3090 GPUA.4运行时性能给定一个对象的20个纹理扫描,数据预处理大约需要0.5小时,化身训练大约需要2.0小时。在体积捕获中, 化身动画、法线映射规范化、规范法线融合、模型重建和纹理生成的成本约为1.0、0.5、1.2、0.8、3.0 秒,分别。总的来说,我们的方法需要约6 - 7秒重建一帧。B附加实验与Neural-GIF的比较[68]。我们进一步比较了我们的动画化身模块GeoTexAvatar与另一种最先进的基于扫描的化身方法Neural-GIF [68]。图13分别显示了我们的方法和Neural-GIF在训练和新姿势上的动画结果。它显示+v:mala2255获取更多论文18 Z. Li等人图13:GeoTexAvatar和Neural-GIF之间的比较[68]。我们通过GeoTexAvatar和Neural-GIF分别在训练和新姿势上显示动画结果。Neural-GIF遭受过度拟合,并且不能将在22次扫描上训练的化身我们假设原因包括:1)Neural-GIF中的逆蒙皮网络很难从很少的例子中学习到良好的泛化,因为其输入坐标在姿势空间中,当SMPL姿势改变时,相同位置的蒙皮权重会发生显着变化; 2)Neural-GIF不分解姿势不可知的细节和姿势相关的细节,并且它将位移和规范SDF网络都限制在姿势输入上,因此所有的表面细节都由姿势输入驱动。该方法利用姿态无关和姿态相关细节之间的分解,实现了更鲁棒、更合理的姿态生成。失败案例。我们的方法不能处理宽松的衣服,例如,长礼服,因为对于如右边所示的这种服装,规范化步骤可能失败。仅使用SMPL骨架将长裙变形到规范空间仍然很困难,可能的解决方案是通过非刚性嵌入节点图来参数化变形[6
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功