没有合适的资源?快使用搜索试试~ 我知道了~
3824基于体采样的拓扑一致性多视点人脸推断Tianye Li1,2,Shichen Liu1,2,Timo Bolkart3,Jiayi Liu1,2,Hao Li1,2,and YajieZhao11USCInstituteforCreativ eTechnology,2USC,3MPIforIntelligentSystems,Tübingen(a)输入图像(15个视图中的9个)(b)对应的网格(c)皮肤细节和外观(d)使用完全装配的面部模型进行图1:给定(a)多视图图像,我们的人脸建模框架ToFu使用体积采样来预测(b)一致拓扑中的准确基础网格以及(c)高分辨率细节和外观。我们高效的流水线能够(d)快速创建动画制作质量的化身。摘要高保真面部数字化解决方案通常结合用于3D重建的多视图立体(MVS)技术和非刚性配准步骤,以建立跨身份和表情的密集对应。一个常见的问题是在MVS步骤之后需要手动清理此外,网格配准往往会失败极端的面部表情。大多数基于学习的方法使用底层3D变形模型(3DMM)来确保鲁棒性,但这限制了极端面部表情的输出准确性。此外,回归架构的全局瓶颈不能产生紧密拟合地面实况表面的网格。我们提出了ToFu,从多视图到拓扑一致的面我们的新的渐进网格生成网络嵌入的拓扑结构的脸在一个特征量,采样从几何感知的本地fea- tures。由粗到细的架构促进一致的网格拓扑中的密集且准确的面部网格预测ToFu进一步捕获孔隙的位移图水平的几何细节,并促进高质量的渲染,在反照率和镜面反射映射的形式。这些高质量的资产很容易被制作工作室用于化身创建,动画和基于物理的皮肤渲染。我们展示了国家的最先进的几何和对应的准确性,而只需要0.385秒,秒计算网格与10K顶点,这是三个数量级的速度比传统技术。代码和模型可在https://tianyeli.github.io/tofu上获得以用于研究目的。1. 介绍创建高保真数字人不仅在电影和游戏行业受到高度追捧,而且在消费者应用中也虽然存在全自动单视图化身数字化解决方案[28,29,42,56,63],但专业工作室仍然选择高分辨率多视图图像作为输入,以确保在受控设置[8,23,25,40,41,46,50]中尽可能高的保真度和表面覆盖率,而不是不受约束的输入数据。通常,期望高分辨率几何细节(1mm误差)以及高分辨率基于物理的材料特性(至少4K)。<要为动画构建完全装配的面部模型,3825通常遵循基于面部动作编码系统(FACS)的一些惯例,执行大量的面部扫描和对准(通常超过30个)生产中使用的典型方法包括使用多视图立体获取过程来捕获每个面部表情的详细3D扫描,并且使用非刚性配准[8,36]或推理方法[37]将3D面部模型扭曲到每个扫描,以确保一致的网格拓扑。在这两个步骤之间,通常需要手动清理以去除伪影和不需要的表面区域,特别是具有面部毛发(胡须、眉毛)以及牙齿和颈部区域的那些配准过程通常由手动标记任务辅助,以进行对应和参数调整,以确保准确拟合。在生产环境中,一个人完成的钻机很容易需要长达一周的时间才能完成。几个最近的技术已经被引入到自动化这个过程,通过拟合一个3D模型直接到一个校准的一组输入图像。[21]的多视图立体人脸建模方法不仅特别慢,而且依赖于动态序列和针对每个主体的仔细调整的参数,以确保表达式之间的一致参数化。特别地,未被连续捕获的面部表情不能确保准确的拓扑一致性。最近的深度学习方法[4,63]使用3D变形模型(3DMM)推理来获得粗略的初始面部表情,但需要基于优化的细化由于线性3DMM的约束,这些方法在拟合极端表达式方面受到限制,并且由于其回归架构的全局性质,这些方法紧密拟合地面真实人脸表面。附加的光度学细化也倾向于适合不需要的区域,如面部毛发。我们介绍了一种新的体积一致的三维人脸网格推理方法,使用多视图图像。而不是依赖于一个基于网格的人脸模型,如3DMM明确,我们的体积的方法是更普遍的,使其能够捕捉更广泛的表情和微妙的变形细节的脸。我们的方法也比传统方法快三个数量级,仅取0.385秒即可生成密集的3D网格(10K顶点),并为高保真度生产用例生成其他资源,例如反照率、镜面反射和高分辨率置换贴图。为此,我们提出了一个渐进的网格生成网络,可以直接推断出拓扑一致的网格。我们的体积架构预测顶点位置的概率分布,以及体积的功能,使用底层的多视图几何-尝试提取。人脸的拓扑结构被嵌入到这个体系结构中,使用分层网格表示和由粗到细的网络。我们的实验表明,ToFu能够产生-自动地形成与拓扑结构一致的高度精确的几何形状,而现有的方法或者依赖于手动清理和参数调整,或者特别是对于具有面部毛发的对象不太精确。由于我们可以在没有任何人工输入的情况下确保面部身份和表情的一致参数化,因此我们的解决方案适用于高保真面部头像的缩放数字化。我们不仅减少了生产的周转时间,而且还为生成大型面部数据集提供了关键解决方案,这通常与过度的手工劳动有关。我们的主要贡献是:• 一种新的用于从多视图图像重建拓扑一致的3D网格的体积特征采样和细化模型。• 一个外观捕捉网络,用于推断高分辨率皮肤细节和外观图,其与基础网格相结合,形成了适合于动画和photore-alisitic渲染中的生产的完整• 我们展示了国家的最先进的性能组合的几何形状和对应的准确性,同时实现网格推理在近互动率。• 代码和模型是公开的。2. 相关工作面部捕捉。传统上,人脸采集分为两个步骤,3D人脸重建和配准[17]。面部几何形状可以用激光扫描仪[35]、无源多视图立体(MVS)捕获系统[7]、专用有源光度立体系统[23,41]或基于结构光或飞行时间传感器的深度传感器来捕获。 其中,MVS是最常用的[18,20,24,34,43,60]。虽然这些方法产生高质量的几何形状,但由于视图之间的成对特征匹配,它们遭受繁重的计算,并且由于缺乏重叠的相邻视图,它们往往在稀疏视图输入的情况下失败。最近,深度神经网络学习用于3D几何重建的多视图特征匹配[26,31,33,51,64]。与经典的MVS方法相比,这些基于学习的方法代表了准确性和功效之间的权衡。所有这些MVS方法输出非结构化网格,而我们的方法产生密集的顶点对应的网格。大多数配准方法使用模板网格,并通过最小化扫描表面和模板之间的距离将其拟合到扫描表面。对于优化,模板网格通常使用统计形状空间[3,9,11,38]或一般混合变形基础[48]进行参数化其他方法使用非刚性迭代最近点(ICP)直接优化模板网格的顶点。3826--i=1∈M我{}M FI图2:端到端人脸建模系统概述。给定从多视图捕获的图像,渐进式网格生成网络预测一致拓扑结构中的准确面部网格。然后,外观和细节捕获网络合成高分辨率皮肤细节和属性图,这使得能够实现高度详细的几何形状和照片般逼真的渲染。[36],使用统计模型作为正则化器[39],或者以分组方式联合优化整个数据集的对应关系[12,65]。关于面部获取和配准的更全面的综述,参见Egger et al.[17 ]第10段。所有这些配准方法独立于数据采集解决面部对应。因此,原始扫描数据中的误差传播到配准中。只有少数方法与我们从校准的多视图输入直接输出高质量配准的3D面部的方法类似[8,13,14,21]。在共享一个3D扫描[49]。这并不奇怪,因为从单个图像推断3D几何形状是一个不适定问题,这是由于焦距、比例和形状的固有模糊性[5],因为在透视投影下,不同的形状会导致不同的物体-相机距离的相同图像。相反,我们的方法利用显式校准的多视图信息来重建度量准确的3D几何形状。3. 多视点人脸推理类似的目标,我们的方法超越了这些方法如图2,给定图像{I}K在K视图中几种重要的方式。 与我们的方法不同,利用已知的摄像机校准ii=1K校准的多视图图像序列输入包含多个优化步骤(例如 , 用 于 构 建 对 象 特 定 模 板 [21] 或 锚 定 框 架 网 格[8]),并且在计算上缓慢(例如,粗网格重建每帧25分钟[21])。ToFu替代地将经校准的多视图图像作为输入(即,静态),并直接输出-以密集顶点对应的方式输出高质量网格,0的情况。385秒。无论如何,我们的方法对于序列输入实现了稳定的重建和配准结果。基于模型的重建。大量的工作旨在从无约束的图像或单目视频重建3D人脸。为了限制问题,大多数方法估计基于优化的统计3D变形模型(3DMM)的系数[1,6,10,11,57]或基于学习的框架[15,19,22,45,49,56,58]。由于使用过度简化的、主要是线性的统计模型,重建的网格仅捕获粗略的几何形状,而丢失了细微的细节为了更好地生成无约束条件,[53,59]联合学习3D先验并从图像重建3D面部虽然单目重建方法可以提供视觉上可应用的3D面部重建,但是它们的精度和质量不适合于需要度量精确的几何形状的应用。最近发表的工作表明,现有的最先进的单眼3D人脸重建在度量上比静态模型平均人脸更差或仅稍微好一点,当与地面实况相比时Pii=1,一起表示为=Ii,PiK,ToFu的目标是双重的:(1)重新在艺术家设计的拓扑中构建精确的基础网格形式上,输出基网格包含一个顶点列表VRN×3和一个固定的三角剖分T。要求基础网格(1)紧密地配合面部表面,(2)共享共同的艺术家设计的网格拓扑,其中每个顶点跨所有网格编码相同的语义解释,以及(3)具有足够的三角形或四边形密度(其中N >104个顶点)。密集网格预测的关键是由粗到细的网络架构,如图所示。3.第三章。期望的语义网格对应自然地嵌入在分层架构中。基于此,通过以下两个阶段推断几何学:(1)粗网格预测0,由全局级V0=g();以及(2)迭代地上采样并细化到更密集的网格{M1,M2,…ML},通过局部级Vk+1=Fl(I,Vk)。Ml是基础网格M的最终预测。从概念上讲,全局阶段模仿基于学习的MVS,而局部阶段提供与传统的两种方法相比,我们的两个步骤在一个固定的拓扑结构中共享一致的对应关系,并使用体积特征进行几何推断和表面细化。3827第3.2地方V(j)k+1V(j)k+1(i,2)V(i,0)VKV(j)k+1KDQ(i,0)KV(j)k+1(i,1)QKV(i,1)K步骤1:上采样运算符步骤2:局部细化网络i=1G··M MMMGk=1GM{M}M图3:渐进式网格生成网络概述。3.1. 全局几何阶段体积特征采样。为了提取显著特征以预测对应的表面点,我们部署了一个共享的U-Net卷积网络来提取局部特征。3.2. 局部几何学阶段针对每个输入图像Ii的2D特征图Fi。我们采样体积-- 通过双线性采样和融合3D网格G中的每个局部点v∈R3的所有图像中的投影坐标处的图像特征来确定非度量特征L:L(v)=σ({Fi(Π(v,Pi))}K),(1)Fl(·)Fl(·)Fl(·)其中Π()是透视投影函数,σ()是视图融合函数,其常见选择可以是最大值、平均值或标准偏差。 3D网格是规则3D网格上的一组点,可以在任意位置以任意形状定义。 这里我们选择立方体网格,如图中绿色立方体所示。3用于馈送到3D卷积网络。全球几何网络。为了使顶点的灵活性,我们设计的网络预测顶点位置的约束的3DMMs。为了鼓励更好的推广,我们设计了一个体积网络架构来学习的概率分布,而不是每个顶点的绝对我们定义了覆盖主体头部的整个捕获体积的规范全局网格g我们应用体积特征采样(等式10)。类似于[ 30,32 ],在全局网格g上计算全局体积特征L(1)以获得全局体积特征Lg。我们部署全局几何网络Φg(具有跳过连接的3D卷积网络)来预测概率体积Cg=Φg(Lg),其中每个通道对初始网格0中的对应顶点的位置的概率分布进行编码。顶点位 置 通 过 每 个 通 道 的 soft-argmax 操 作 提 取 , V0=E(Cg),类似于[32]中的操作。0 1 23(341个顶点)(1194个顶点)(3412个顶点)(10495个顶点)图4:局部几何阶段中的迭代上采样和细化过程。基于从全局阶段获得的粗网格0,局部阶段逐渐产生具有更高分辨率和更精细细节的网格kL。在每个级别k处,该过程分两步完成,如图1所示第四章:(1)固定的和可微分的上采样算子,用于为上采样的网格提供可靠的初始化,以及(2)局部细化网络,用于基于输入图像进一步改进表面细节。上采样运算符。Ranjan等人[44]提出了一种基于较低分辨率网格版本中顶点的重心嵌入的网格上采样技术。直接使用该上采样方案导致不平滑的伪影,因为重心嵌入将上采样的顶点约束为位于较低分辨率网格的表面中。相反,我们使用附加的法向位移权重,如图1的步骤1所示。4.第一章 给定稀疏网格k=(Vk,Tk)及其每顶点法向量Nk,我们上采样-3828∈其中j),我们定义较小的不不{T T T}k+1L˜MM2 k=0L2(j)(j)L˜G具有相等权重的chy水平Σ¨Vk−Vk¨,其中¨− ¨通过以下方式折叠网格Vk+1=QkVk+DkNk,(2)其中Qk∈RNk+1×Nk是重心权重矩阵,如[44]中所示,Dk−1RNk+1×Nk是沿法向应用位移向量的附加系数矩阵。选项。法向位移对允许顶点位于输入曲面外部的附加曲面细节进行编码。对于具有L个层级的层次结构,我们首先通过各向同性重新网格化和非刚性配准将全分辨率模板网格=(V,T):=L下采样为一系列分辨率降低的网格,同时仍然保留原始网格的几何形状和拓扑结构:L-1,L-2,...,0的情况。接下来,我们通过重心坐标Q k将较高分辨率的顶点嵌入到较低分辨率网格的表面中,如[44]所示。然后,我们将剩余的残差向量投影到法线方向上,求Dk。本地精炼网络。围绕每个折点(索引(j)k+1在局部邻域中,罩. 我们采样局部体积特征L通过 当量1 .一、对于每个局部特征体积,我们应用局部细化网络Φ1(具有跳过连接的3D卷积网络)来预测每顶点概率体积C(j)=Φ1(L(j))。然后我们计算出正确的i向量并获得UV域上的反照率反射图。此外,通过应用纹理处理和采样顶点位置而不是RGB颜色,我们获得了UV域上的另一个映射,我们称之为几何映射。细节贴图合成。为了进一步增强表示,我们采用图像到图像的翻译策略来推断更精细的细节。使用类似于[61]的网络,我们的合成网络在给定反照率和几何图的情况下推断镜面反射率和位移。然后,我们通过使用[62]的超分辨率策略我们可以通过在基础网格上应用位移贴图来获得高分辨率的详细网格,如图所示二、重建的皮肤细节和外观图可直接用于照片级真实感渲染的标准图形管线。4. 实验数据集。我们在从Light Stage系统[23,41]捕获的数据集上评估我们的方法,其中3D扫描来自MVS,地面实况基础网格来自传统网格配准流水线[38],地面实况皮肤属性来自传统的光舞台流水线[16]。特别地,我们用光流和专业艺术家的手动工作来校正地面真实基础网格(配准),以确保配准的高质量和高精度。该数据集包含64个主题(45个用于训练和45个用于测试)。L l通过期望算子,δV(j)=E(C(j))。 该过程独立地应用于所有顶点,因此可以批量并行化。最后,上采样和细化的网格顶点是Vk+1=Vk+1+δVk+1。(三)给定0,我们在所有级别迭代地应用局部阶段,直到我们达到最高分辨率并获得L。体积特征采样和上采样操作器以及网络是完全可微分的,使得渐进几何网络能够从输入图像端到端地训练到密集配准网格。3.3. 外观和细节捕获皮肤细节和外观图通常用于照片级真实感渲染,如果没有特殊的捕获硬件(例如Light Stage捕获系统[16]),通常难以我们提出了一个简单而有效的架构来估计高分辨率的细节和外观- ance地图,可能没有特殊的外观捕捉系统的依赖。反照率图生成。为较小的头部区域重建基础网格。我们通过使用拉普拉斯变形对后脑勺进行额外拟合来增强基础网格[52]。然后,我们执行标准的纹理给定完成的网格和多视图图像19人),涵盖了性别、年龄和种族的广泛多样性。每组捕捉包含一个中性的脸和26个表情,包括一些极端的脸变形(例如,面部变形)。嘴巴张大),不对称的动作(下巴向左/向右)和微妙的表情(例如,凹陷的脸颊或眼睛运动)。实施详情。 对于渐进网格生成网络,我们的特征提取网络采用预训练的UNet [47],其中ResNet34 [27]作为其骨干,其预测具有8个通道的输入图像分辨率一半的特征图。 的体积特征的全球阶段是从一个32-3网格与网格大小为10毫米,局部阶段使用8- 3网格与网格大小为2.5毫米。 我们随机旋转网格的体积特征采样作为训练过程中的数据增强。L = 3的网格层级包含具有341、1194、3412和10495个顶点的网格。全局几何网络和局部细化网络都使用与[32]中的V2V网络类似的这两个阶段是分开训练的。全球舞台为400 K迭代培训-l2损失V0的情况V¯02,局部阶段t训练150K次迭代,其中l2损失跨网格层次组合。吕 2V¯k是预测的真实基础网格顶点在k级的Vk。我们训练渐进网格生成网络-3829−参考扫描参考扫描> 5PP输入图像3DMM回归3DMM回归DFNRMVS[4]我们的基础网格输入图像3DMM回归3DMM回归DFNRMVS[4]0我们的基础网格(8/15)(直接输出)(带后处理)(带后处理)(直接输出)(8/15)(直接输出)(带后处理)(带后处理)(直接输出)图5:与现有方法的几何精度的定性比较。扫描到网格的距离在热图中可视化(红色表示>5mm)。请注意,3DMM和DFNRMVS [4]需要刚性ICP作为后处理。我们的输出不需要后处理,同时在几何精度方面优于现有的基于学习的方法。在单个NVIDIA V100 GPU上使用Adam优化器,学习率为1e4,批处理大小为2对于细节图合成,我们采用来自[61]和ESRGAN的超分辨率网络[62]。有关更多详细信息,请参见Sup. Mat.4.1. 结果基线。我们评估我们的基础网格预测的性能,并与以下现有方法进行比较:(1)传统MVS和配准:我们运行商业摄影测量软件AliceVision [2],然后进行非刚性ICP表面配准。(2)3DMM回归:我们采用类似于[54,55,63]的网络架构 用 于 多 视 图 设 置 。 (3)DFNRMVS : [4]: 一 种 在3DMM回归之上学习自适应模型空间和动态迭代细化的方法。我们认为,MVS和注册的两步法易受MVS错误的影响,需要人工操作。输入图像(2/15)输入图像(2/15)保守的侵略性传统MVS +配准保守的侵略性传统MVS +配准DFNRMVS [4]DFNRMVS [4]我们我们针对不同的输入,不断调整优化参数,这使得它不健壮。我们的方法显示了鲁棒性和普遍性,具有挑战性的情况下,优于现有的基于学习的方法,并实现了国家的最先进的几何和对应的质量。我们的方法具有高效的运行时间。我们展示了各种消融研究来验证我们设计的有效性。我们将在Sup中提供更多的比较和结果。Mat.鲁棒性图6示出了给定挑战性输入的各种方法的结果。注意,当受试者的鼻子(顶部情况)是镜面反射的(由于油性皮肤)或具有面部毛发时,传统的MVS无法重建真实的表面,产生影响随后的表面配准步骤的伪影。 使用保守优化参数(例如强烈依赖3DMM),结果更稳健。然而,使用相同的参数,它影响拟合详细形状和运动的灵活性图6:方法耐用性评价。对于其他输入情况(例如,底壳)。此外,极端和不对称的运动对于仅在可变形模型内拟合是具有挑战性的。这种情况需要“渐进”拟合,其中应用较少的正则化。因此,我们指出了传统MVS中的通用参数和自动配准影响的困境,并且需要大量的手工工作来获得高质量的结果。基于学习的方法DFNRMVS [4]显示了鲁棒性和可推广性的潜力。但是,它们不能以精确的形状和表达式输出网格。相反,我们的模型在预测可靠的网格方面表现出优越的性能注意,诸如闭合的眼睑和不对称的嘴部运动的细节被忠实地捕获。不依赖对MVS的MVS不依赖对MVS的MVS覆盖扫描到网格距离输出网格扫描到网格距离覆盖输出网格MVS扫描输出网格MVS扫描输出网格3830> 10PP0> 0.33DMM回归,无后处理3DMM回归,带后处理DFNRMVS [4]带后处理0我们图8:对应组件的定性评价图7:对应准确性几何精度。图5示出了在给定来自15个视图的图像的情况下推断的网格,以及利用参考扫描的误差3DMM回归方法无法拟合极端或微妙的表情(张大嘴、凹脸颊和闭眼)。自适应空间和在线细化改进了DFNRMVS[4]以获得更好的拟合,但它仍然缺乏覆盖几何细节的准确性。我们的方法是能够预测的基础网格密切配合地面实况表面。结果恢复了受试者的身份,并捕获了具有挑战性的表达,例如无法通过线性3DMM建模的极端张口或小肌肉运动的微妙重叠和误差可视化表明,我们的重建拟合地面实况扫描密切与拟合误差显着低于5毫米。由于不能利用真实的投影参数,3DMM回归和DFN-RMVS [4]的结果在绝对坐标上缺乏准确性,并且需要Procrustes分析(比例和刚性姿态)作为后处理以进一步拟合目标。相比之下,我们的方法在没有后处理的情况下执行这些方法。作为定量评价,我们测量扫描到网格距离的分布。78.3%的顶点通过我们的方法具有扫描到网格的距离小于1mm。该结果优于3DMM回归,其具有27.0%和33.1%(没有和有后处理)。中值扫描到网格距离为我们的结果是0.584毫米,achieev- ING亚毫米性能。 我们在Sup中示出了累积扫描到网格距离曲线。Mat.通信准确性。通过将生成的基础网格与地面真实对齐网格(艺术家在相同拓扑中生成的)进行比较,并在测试集上计算顶点到顶点(v2v)距离,我们为生成的基础网格的对应精度提供了定量度量。3DMM回归方法实现了3.66 mm / 2.88 mm的中值v2 v距离(w/o和w/后处理)。我们的方法实现了1.97毫米优于现有的方法。v2v距离也在图1中的地面实况网格上可视化。7.第一次会议。我们还评估我们的对齐网格的中位数误差地面真相与光流相比。方法时间自动传统的管道超过600人✗DFNRMVS [4]4.5✓ToFu(基础网格)0.385✓表1:在基础网格上的运行时间的比较,给出来自15个视图的图像并且以秒为单位测量。3D地标。我们的方法实现了2.02mm,而3DMM回归方法实现了3.92mm/3.21mm(w/o和w/后处理)。我们提供了更多的定量评价。Mat.我们计算输出网格的纹理贴图和地面实况网格之一之间的光度误差。较低的光度学误差指示UV纹理匹配预先设计的UV参数化(即更好的对应性)。我们的方法具有显著较低的误差,特别是在眉毛区域,下巴周围以及眼睛和鼻子周围的皱纹。注意,没有后处理的3DMM回归方法执行得更差,而我们的方法不需要后处理。图8,我们通过将其投影到2D图像上并将参考图像(极端表达)扭曲回目标图像(中性表达)来进一步评估对应理想的扭曲输出将尽可能接近目标图像,除了如在皱纹中的阴影我们比较了MVS和配准(手动调整)和传统的光流法的传统管道的性能 我们的方法比光流恢复更好的2D对应,光流依赖于局部匹配,当遮挡和大运动时,局部匹配往往失败,如图所示。8(见唇区)。进一步的光流需要30秒的图像分辨率1366 ×1003,相比之下,在1秒内基于我们的基础网格。传统的方法取得了良好的效果,但代价是3个数量级的处理时间和可能的手动调整。推理速度。传统的管道需要10分钟以上,手动调整可能需要更多时间。DFNRMVS [4]在测试时推断面而不调整-传统管道(带手动调节)我们光流参考图像翘曲图像目标图像纹理贴图错误顶点到顶点距离3831基础网格详细网格具有完整属性基础网片详细网片具有完整属性画在受试者脸上的燕鸥结果表明,该方法是可行的。图11示出了我们的系统原则上可以应用于不同的捕获设置。然而,我们观察到颌骨周围的一些伪影这可能是由于受试者数量有限和不充分图9:基于我们可靠的基础网格,我们的外观和细节捕捉网络预测逼真的面部皮肤细节和属性,在测试时无需特殊硬件(如Light Stage),即可实现照片级逼真的渲染。> 5PP0摄像机覆盖范围(例如,第三图像错过了颌区域)。5. 结论本文提出了一种基于多视点输入图像的三维人脸推理方法我们已经表明,给定多视图输入,隐式地学习形状变化和变形场可以产生优异的结果,与使用底层3DMM的方法相比,即使它们用优化步骤来细化所得到的推断。我们已经证明了亚毫米级的表面重建精度,并指出-4视图8视图15视图无正常显示在上采样中,正常的disp。在上采样中,最先进的通信性能,同时实现高达3个数量级的速度提高,超过传统的通信性能。图10:消融研究。左:输入相机视图的数量;;右:在网格上采样函数中的法向位移权重上。图11:CoMA [44]数据集的结果。时间,但由于其在线优化步骤和对密集的光测量项的大量计算,仍然较慢,为4.5秒。我们的全局和局部阶段分别需要0.081秒和0.304秒。如表1中所示,我们的方法产生高质量的配准基础网格。0.385秒,并达到亚秒级性能,同时是全自动的,无需手动调整。外观捕获。在图1和图9中,我们示出了具有推断的位移和反照率以及镜面反射贴图的渲染结果消融研究。在图10(左)中,我们评估了我们的网络在不同数量的输入视图上的鲁棒性。随着视图的减少,最终的质量会逐渐降低。我们的方法产生合理的结果稀疏的意见4,这是非常困难的标准MVS由于大基线和小重叠。图10(右)示出了上采样函数中的法向位移有助于捕获精细形状细节。 我们在Sup中提供了更多消融研究。Mat.泛化到新的捕获设置。我们在CoMA [44]数据集上微调我们的网络,该数据集包含不同的相机设置,显着减少的视图(4)和主题(12),不同的照明条件和特殊的化妆模式。传统技术。最重要的是,我们的方法是完全自动化的,并消除了数据清理后,ter MVS,或任何参数调整传统的非刚性配准技术的需要我们的实验还表明,体积特征采样可以有效地聚合不同尺度的视图中的特征,并且还可以提供用于预测准确对齐的显著信息,而不需要任何手动后处理。我们的下一步是将我们的方法扩展到皮肤区域以外的区域,包括牙齿,舌头和眼睛。我们相信,我们的体积数字化框架可以处理非参数面部表面,这可能会消除对传统图形管道中专用着色器和模型的需求。此外,我们想探索视频序列,并调查如何确保时间的连贯性,在精细尺度的表面变形。我们的模型适用于铰接的非刚性物体,如人体,这促使我们研究更一般的形状和物体,如衣服和头发。谢谢。我们感谢M。Ramos,M. He和J.Yang在可视化方面的帮助,以及P。普拉萨德角Li和Z. Lv用于校对。该研究由陆军研究办公室赞助,合作协议号为W 911 NF-20-2-0053,由美国国防部赞助。陆军研究实验室(ARL),合同号W 911 NF-14-D-0005,CONIX研究中心,JUMP的六个中心之一,半导体研究公司(SRC)计划由DARPA赞助,部分由ONR YIP拨款N 00014 -17-S-FO 14。所发表的声明和意见以及所载的内容不一定反映政府的立场或政策,也不应推断政府对此表示赞同。管理公开虽然TB是亚马逊的兼职员工,但他的研究完全是在MPI进行的,并由MPI资助。扫描到网格距离基础网格3832引用[1] Oswald Aldrian和William AP Smith。在多云的日子里反向渲染人脸。在Proc. European Conference on ComputerVision(ECCV),第201-214页,2012中。3[2] 爱丽丝Alicevision,2020年。6[3] Brian Amberg,Reinhard Knothe,and Thomas Vetter.基于变形模型的表情不变三维人脸识别。在InternationalConference on Automatic Face Gesture Recognition,第1-6页2[4] Ziqian Bai , Zhaopeng Cui , Jamal Ahmed Rahim ,Xiaoming刘平谭平深层面部非刚性多视图立体。在IEEE/CVF计算机视觉和模式识别会议论文集,第5850-5860页,2020年。二、六、七[5] Anil Bas和William A. P.史密斯。关于3d脸型,2d几何信息到底告诉了我们什么?国际计算机视觉杂志,127,2019。3[6] 放大图片作者:William A.P. 史密斯,蒂莫·博尔卡特,还有燕姿乌勒将3D可变形模型拟合到边:硬对应和软对应之间的一种对比。在亚洲计算机视觉研讨上,第377占婆,2017年。施普林格国际出版社. 3[7] Thabo Beeler , Bernd Bickel , Paul Beardsley , BobSumner,and Markus Gross.高质量的面部几何形状的单镜头捕捉ACM事务处理图表,29(4),2010. 2[8] Thabo Beeler , Fabian Hahn , Derek Bradley , BerndBickel,放大图片作者:Robert W. Sumner和Markus Gross。高品 质 的 被 动 面 部 性 能 捕 捉 使 用 锚 帧 。 在 ACMTransactionsonGraphics(ProceedingsofSIGGRAPH),pages 75:1美国纽约,2011年。ACM。一、二、三[9] Volker Blanz , Curzio Basso , Tomaso Poggio , andThomas Vetter.在图像和视频中恢复面部动画。计算机图 形 论 坛 , 第 22 卷 , 第 641-650 页 。 Wiley OnlineLibrary,2003. 2[10] Volker Blanz,Sami Romdhani,and Thomas Vetter. 脸利用3D可变形模型在不同姿势和光照下进行识别在Proc. International Conference on Automatic Face andGesture Recognition,第202IEEE,2002年。3[11] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模 型 在 ACM Transactions on Graphics ( TOG ) ,SIGGRAPH二、三[12] Timo Bolkart和Stefanie Wuhrer 成组多行3D 人 脸 的耳 朵 对 应优 化 。 在Proc.InternationalConferenceonComputerVision(ICCV),第3604-3612页,2015中。3[13] George Borshukov,Dan Piponi,Oystein Larsen,JohnPeterLewis和Christina Tempelaar-Lietz。通用捕获-基于图像的面部动画。黑客帝国重装上阵SIG-GRAPH,2003年。3[14] George Borshukov、Dan Piponi、Oystein Larsen、John PLewis和Christina Tempelaar-Lietz。通用捕捉-基于图像的面部动画“矩阵重装”。在ACM Siggraph 2005课程中,第16-es页。2005. 3[15] Feng-Ju Chang , Anh Tuan Tran , Tal Hassner , IacopoMasi,Ram Nevatia 和 Gerard Medioni 。 Expnet: 无 地 标 , 深度,3D面部表情。在Proc. International Conference onAutomatic Face and Gesture Recognition中,页3833122-129,2018。3[16] Paul Debevec 、 Tim Hawkins 、 Chris Tchou 、 Haarm-Pieter Duiker、Westley Sarokin和Mark Sagar。获取人脸的反射场。在Proc. Conference on Computer Graphicsand Interactive Techniques,第145- 149156. ACM出版社/Addison-Wesley出版公司2000. 5[17] 放大图片作者:William A. P. Smith、Ayush Tewari、Ste-fanieWuhrer、 MichaelZollh ? fer、 ThaboBeeler、FlorianBernard 、 Timo Bolkart 、 Adam Kortylewski 、Sami Romd- hani、Christian Theobalt、Volker Blanz和Thomas Vetter。3D变形人脸模型-过去,现在和未来。ACM事务处理图表,2020年。二、三[18] Car l osHern a'ndezEstebanandFrancisSchmitt. 剪影以及用于3D对象建模的立体融合。计算机视觉与图像理解,96(3):367-392,2004。2[19] 姚风: 冯海文: 迈克尔·J·布莱克 和蒂莫博尔卡特从野外图像中学习可动画化的详细3D人脸模型 。 ACM Transactions on Graphics ( ToG ) , Proc.SIGGRAPH,40(4):88:1-88:13,2021。3[20] 古川康孝 基于图像的高保真建模。伊利诺伊大学香槟分校,2008年。2[21] G. Fyffe,K.长野湖Huynh,S.Saito,J.Busch,A.琼斯H. Li,and P. Debevec.多视图立体一致的面对拓扑结构。Compututer Graphics Forum,36(2):2952017年5月。 二、三[22] Kyle Genova,Forrester Cole,Aaron Maschinot,AaronSarna,Daniel Vlasic和William T.弗里曼。3D变形模型回归的无监督训练。在Proc. IEEE计算机视觉和模式识别会议,第8377-8386页,2018年。3[23] AbhijeetGhosh,GrahamFyffe,BoromTunwattanapong,JayBusch,Xueming Yu,and Paul Debevec.使用偏振球面梯度照明的多视图面部ACM事务处理图表,30(6),2011. 一、二、五[24] Michael Goesele,Brian Curless,and Steven M Seitz. 多-查看立体重访。2006年IEEE,2006年。2[25] PauloGotardo,Je're' myRi viere,DerekBradley,AbhijeetGhosh和Thabo Beeler实用的动态人脸外观建模与获取 。 ACM Transactions on Graphics ( Proceedings ofSIGGRAPH Asia ),37(6 ):232 :1- 232:13,2018。1[26] 顾晓东,范志文,朱思宇,戴左卓,费彤谭平谭平级联成本体积高分辨率多视图立体和立体匹配 。 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2020年6月。2[27] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition,第770-778页,2016中。5[28] 胡立文,齐藤俊介,魏玲宇,长野幸树,Jae-吴徐,延斯弗松,伊曼萨代吉,孙嘉莉,陈燕春,李浩。从单个图像进行化身数字化以进行实时渲染。ACM事务处理图表,36(6),2017. 1[29] Alexandru Eugen Ichim,Sofien Bouaziz,and Mark Pauly.从手持视
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功