没有合适的资源?快使用搜索试试~ 我知道了~
像素编解码器化:实现高保真的3D人脸重建和通信的模型
64像素编解码器化身Shugao Ma Tomas Simon Jason Saragih Dawei Wang Yuecheng LiFernando De La Torre Yaser Sheikh Facebook Reality Labs研究{shugao,tsimon,jsaragih,dawei.wang,yuecheng.li,ftorre,yasers}@ fb.com摘要在虚拟或增强现实中与真实感化身的通信是在远程物理距离上实现3D中的真实面对面通信在这项工作中,我们提出了像素编解码器化身(PiCA):3D人脸的深度生成模型,实现了最先进的重建性能,同时计算效率高,并在执行过程中适应渲染条件我们的模型结合了两个核心思想:(1)用于解码空间变化特征的全卷积架构,以及(2)渲染自适应逐像素解码器。这两种技术通过密集的表面表示进行集成,该表示以弱监督的方式从训练图像上的低拓扑网格跟踪中学习。我们证明了PiCA在测试不同性别和肤色的人的表情和观点方面优于现有技术的重建。重要的是,我们表明PiCA模型比最先进的基线模型小得多,并使多人虚拟现实成为可能:在一个Oculus Quest 2移动VR头戴式设备上,5个化身在同一场景中实时渲染。1. 介绍如在[10,26]中提出的虚拟现实(VR)中的逼真的临场感描述了一种用于使得能够在远程距离上进行真实通信的技术,使得每个通信方感觉到其他方的真正的共址存在。该技术的核心是Codec Avatar,它是一种高保真的可动画化的人脸模型,实现为可变自动编码器(VAE)的解码器网络想象一个双向通信环境。在发射机端,执行编码过程:安装在发射机的VR头戴设备上的摄像机捕获部分面部图像,并且编码器模型将捕获的图像实时编码为解码器的潜在代码。在接收器端执行解码过程:在通过因特网接收到潜在码图1.VR中用于电话会议的多人配置在正常的人际距离[20],头部只占显示器中像素的子集,其中覆盖量主要取决于到观看者的距离。由于自遮挡,从任何视角都看不到大约一半的头部。我们的方法避免了浪费计算的地区,不直接有助于最终的图像。在第一行中,我们显示了生成和光栅化的几何体,以及显示来自相应视图的可见像素的纹理图;在第二行中,我们显示了渲染的化身以及它们覆盖整个图像的像素百分比。解码器对化身的几何形状和外观进行解码通过真实感VR远程呈现的多人通信将实现现代社会中非常需要的应用,例如在远距离物理距离上的家庭团聚然而,使用[10]中提出的解码器模型进行渲染并不能很好地随通信方的数量而具体来说,一个完整的65固定分辨率1K×1K的纹理在每帧被解码,而不管化身到观看者的距离和不同面部区域的可见性这导致了巨大的浪费计算时,化身是遥远的,在这种情况下,渲染化身只包括少量的像素(图。1),导致解码纹理图中的大量像素未被使用。此外,由于自遮挡,头部的一半在大多数时间对于2K显示器(如Quest2中的显示器),渲染超过4个化身相当于计算比显示器更多的像素。这显然是限制性的,例如,超过4人的家庭团聚或超过4名成员的团队合作是常见的。为了解决这个问题并将渲染缩放到VR远程呈现中的人数,我们应该只计算最近的神经渲染工作,如延迟神经渲染[24],基于神经点的图形[2],隐式可微渲染[27],使用神经网络来计算屏幕空间中的像素值,而不是纹理空间,因此只计算可见像素。然而,在所有这些作品中,要么是静态场景的假设,或观看距离和视角不期望在3D空间中完全自由然而,对于远程呈现来说,实时动画面部并从任何可能的视角和距离渲染面部的能力至关重要。在 本 文 中 , 我 们 提 出 了 像 素 编 解 码 器 化 身(PiCA),旨在实现有效的,但高保真度的动态人脸渲染,适用于多人telepresence在VR设备上有限的计算。为了避免在不对最终渲染有贡献的面部区域中的浪费计算,PiCA仅在由几何体的光栅化覆盖的图像区域中采用逐像素解码。类似于隐式神经渲染的最新进展[11,17,21],该解码器依赖于丰富的以面部为中心的位置编码来产生高度详细的图像。我们采用两种策略来有效地生成这样的编码。首先,我们利用纹理空间中卷积网络的空间共享计算来产生空间变化的表达和视图,特定的代码在降低的分辨率(256×256)。这是由预先计算的高分辨率(1K×1K)学习的非参数位置编码补充的,即联合[24]类似于[24]的屏幕空间光栅化。为了实现甚至更高的分辨率结果,我们进一步补充具有10K分辨率的1D位置编码的信号,独立于纹理域的水平和垂直维度。总之,这些地图使模型的尖锐的空间细节,目前在高分辨率的面部图像。由于UV坐标的最佳编码值直接从数据中学习,因此低8维编码足以恢复高频。这与现有的位置编码方案(例如,[11]),使用正弦函数实现高细节,但需要将维度增加20倍,并具有相应的计算成本。其次,与在诸如[24,2,27]的其他作品中,我们不采用屏幕空间中的卷积,而是在每个贡献像素处应用浅MLP。这具有避免在运动和立体不一致期间的视觉伪影的优点,以及在推广到比例、旋转和视角的变化方面的挑战,所有这些在交互式沉浸式3D媒体中是常见的我们的另一个主要观点是,在以前的工作中,依赖于视图的外观的复杂性主要源于面部的几何模型不足。最近对隐式场景建模(即NeRF [11])的研究表明,如果对场景几何结构有很好的估计,可以使用浅层网络对复杂的视景相关效应(如镜面反射)进行充分建模受这些结果的启发,我们的构建涉及一个变分几何解码器,该解码器以自监督的方式学习,使用图像和深度重建作为监督信号。从该解码器获取的所得网格包含更准确的几何信息,大大简化了视图相关的纹理生成任务,允许使用轻量级的逐像素解码。贡献:我们的贡献如下:• 我们提出了像素编解码器头像,一种新的轻量级表示,解码只有可见像素头像• 我们做了两个主要的技术创新,以实现高质量的解码与一个小的模型:学习的位置编码功能和全卷积密集网格解码器在弱监督的方式训练。2. 相关作品2.1. 深度3D可变形人脸模型三维可变形人脸模型(3DMFM)是一种三维人脸生成模型。早期的作品探索了用线性子空间表示来表示人类面部变形和外观Blanz等人[4]将人脸的形状和纹理建模为向量空间,并将新的人脸和表情生成为原型向量的线性组合。从那时起,Blendshape模型在动画中得到了广泛的研究和应用-[9]提供了对此类方法的良好概述。为了实现高表现力的模型,需要大量的blendshapes,66可以手动创建和细化,例如,电影《指环王》中的角色Gol-lum有946个混合变形,花了一年多近年来,深度学习技术,特别是诸如变分自动编码器(VAE)[8]和生成对抗网络(GAN)[7]的生成模型,已经被积极研究用于创建非线性3D变形人脸模型模拟。Tewari等人[23]提出了一种用于单目人脸重建的深度卷积架构,从变形模型中学习。Lombardi等人[10]提出用VAE联合建模面部形状和外观:编码器分别用全连接层和卷积层将面部网格和纹理编码为潜在代码,解码器分别用全连接层和转置卷积层解码回面部网格和视向调节纹理这个模型已经被称为一个编解码器化身由几个后续的作品[26,6,15,14],动画使用视觉和/或音频感官数据这个模型。Tran等人[25]还使用自动编码器来建模几何和纹理,但使用渲染损失从无约束的面部图像训练模型。Bagautdinov等人[3]使用组合VAE通过多层隐变量对面部几何形状的不同粒度的细节进行建模。Ranjan等人[13]直接应用网格卷积来构建网格自动编码器,而Zhou等人。[28]扩展了这一思想,并联合模型纹理和几何网格卷积,导致彩色网格解码器。生成对抗网络(GAN)也被探索。在使用GAN模型构建3DMFM的第一批作品中,Slossberg等人。[18]构建GAN模型,该模型生成逼真2D纹理图像以及基于PCA的面部网格模型的系数Abrevaya等人[1]将网格映射到几何图像(即,本文中的位置映射),建立了一个表达码和身份码解耦的网格GAN模型,并在训练过程中通过辅助表达和身份分类任务来实现解耦。Shamai等人[16]还将网格映射到几何图像中,并使用几何和纹理的卷积层构建GAN模型。Cheng等. [5]提出了具有网格卷积的面部几何GAN模型。PiCA相对于先前的3DMFM的最显著的特征是像素解码器在给定被生成并光栅化到屏幕空间的底层几何结构的情况下对每个像素处的颜色进行解码,因此实现了自适应分辨率和计算成本。相比之下,在所有非线性方法中,纹理要么被建模为2D纹理图[10,25,18],从而固定输出分辨率,要么在网格顶点处建模[28,16],从而网格密度确定渲染分辨率。另一个优点是,我们的方法在每个对象解码步骤中明确地对几何和纹理之间的相关性进行建模,这是缺乏的。大多数以前的3D DFMM模型。2.2. 神经渲染我们 的方 法也 涉及 到最 近的工 作, 神经 -ralRendering和[22]提供了一个很好的调查最近的进展,在这个方向上。特别地,Thieset al.[24]提出了一种神经纹理的延迟神经渲染方法,它在精神上与我们的工作很接近:神经纹理,即。从深度神经网络输出的特征被光栅化到屏幕空间,并且另一个神经网络,即,神经渲染器,从它计算颜色。然而,他们的工作并不针对实时动画或动态,并且在我们的设置中使用重型U-Net渲染最终结果是不可能的Aliev等人[2]提出了基于神经点的图形,其中几何图形表示为点云。每个点都与一个深度特征相关联,神经网络根据飞溅的特征点计算像素值。虽然在对各种几何结构进行建模时非常灵活,但是这种基于点云的方法还不如用于对动态面进行建模的基于网格的表示有效,对于动态面,拓扑是已知的并且是固定的。Yariv等人[27]使用神经网络建模渲染方程,该神经网络将观看方向,3D位置和表面法线作为输入。Mildenhall等人[11]提出了一种用于合成复杂场景的新颖视图的方法,并且利用MLP对底层体积场景进行建模:MLP采用位置编码的3D坐标和视图方向矢量,并且产生像素值。 [17]中提出了一个密切相关的想法,其中使用具有正弦激活函数的MLP将位置映射到颜色。[21]中进一步研究了使用正弦编码将平滑的低维输入空间映射到高频函数的频谱特性我们的方法受到这些方法的启发,使用像素解码器来渲染图像像素,但我们进行了创新,以适应这些想法的问题,创建高质量的3DMFM与轻量级计算,包括学习的位置编码和密集的几何解码器。3. 像素编解码器头像像 素 编 解 码 器 化 身 是 条 件 变 分 自 动 编 码 器(VAE),其中潜在代码描述面部的状态(例如,面部表情)和解码器产生逼真的面部图像(见图。(2)以观察方向为条件。在运行时,可以使用面部跟踪器来产生潜在代码以估计面部表情(例如,来自安装在VR头戴式耳机上的相机[10,26,6]),并且估计代码可以用于解码和渲染逼真的面部图像。在训练时,使用变分编码器来使用多视图训练数据产生潜在代码,类似于Lombardi等人。[10](见图3(a))。解码器将计算分布在两个阶段:逐对象解码产生密集网格和小视图67图2.像素编解码器头像通过使用浅SIREN解码每个光栅化或光线投射像素的颜色来渲染逼真的面部[17]它将局部表达式代码z、物空间中的3D坐标x和位置编码表面坐标u作为输入(第4节)。这种特殊的组合允许特征尺寸和网络大小保持较小和计算效率,同时保持图像保真度(第6节)。局部表达式代码和几何结构是使用全卷积架构从全局潜在代码和观察方向解码的(第3节),并且只需要256×256的小分辨率。可学习组件(蓝色)在多视图图像、深度和跟踪的粗网格上进行监督。条件表达式代码(图的左侧)2),并且每像素解码在通过光栅化或光线投射确定可见性之后计算屏幕上的面部像素值我们在第二步中使用像素解码器fc=f(p),p=[z,x,u](1)其中c是面部像素的解码RGB颜色,并且p是该像素的特征向量,其是局部面部表情代码z、编码的以面部为中心的3D坐标x和编码的表面坐标(UV)u的级联。我们将f参数化为一个小SIREN(见图2),并在第4节中描述编码输入。图中右侧图2示出了逐像素解码。我们概述了主要组成部分:编码器(参见图3)(a))将在所有相机视图的展开纹理上计算的平均纹理和跟踪的网格编码成潜在代码。请注意,此跟踪网格是粗糙的,包含5K个顶点,并且我们只假设这种粗网格用于训练的可用性,因为在具有明确牙齿和舌头跟踪的长序列上使用密集网格进行面部跟踪既具有挑战性又耗时。由于训练时只需要粗网格,因此该方法更具有实用性.在Lombardiet al.[10],网格顶点的3D坐标使用全连接层编码并与纹理编码器融合;相比之下,我们首先使用网格的UV展开将网格转换为位置图。然后应用几何和纹理的联合编码,并且最终的代码是空间代码的网格,在我们的情况下是4维代码的8x8网格。几何解码器将潜在代码作为输入,并对描述以面部为中心的3D协同的密集位置图进行解码。图3. (a)编码器。(b)几何解码器和表达式解码器中的基本块。每个位置的坐标。该体系结构是完全卷积的,基本构建块如图所示。3(b)款。我们通过在每个顶点的UV坐标处采样将位置图转换为密集网格,并将其光栅化以确定可见像素。在我们的实验中,位置图是256×256,提取的密集网格有65K个顶点。表达式解码器使用潜在代码和观看方向来解码局部代码的低分辨率、视图相关映射。它由图3(b)中的解码器块组成,在我们的实验中,输出映射为256×256。像素解码器解码给定的每个面部像素的颜色p.具体地,光栅化确定屏幕像素是否对应于可见网格点,并且如果是,则三角形ID和网格点的重心坐标这允许我们从表达式映射、顶点坐标和三角形的UV坐标计算编码输入p灵感来自于68不不不不CSitzmannet al.[17],像素解码器被设计为SIREN。然而,我们使用了一个非常轻量级的网络设计,有4层,总共307个参数。我们利用u中的有效编码来产生具有这样的光模型的面部细节,在第4节中描述。4. 像素解码器虽然神经网络和MLP在给定足够的容量时可以表示任意复杂度的函数,但轻量级MLP在给定平滑变化的输入时倾向于产生低频输出[17,21,11]。因此,仅给定平滑的以面部为中心的坐标和表面坐标作为输入,轻量级像素解码器倾向于为相邻像素产生平滑的输出颜色,导致解码图像中的锐度损失 相反,我们使用两种策略在像素解码器的输入处编码关于这种空间不连续性的信息:用于动态的低分辨率局部表达式代码z,以及用于细节的表面坐标的学习非参数位置编码u。这些补充网格坐标输入x,其使用两层SIREN编码面中心xyz面部表情的位置编码是面部表情的全局编码,即面部表情的位置编码.编码器的输出,被解码为本地表达式代码的低分辨率映射(图的左下角2),并进一步光栅化到屏幕空间(图中2)的情况。这导致在每个像素位置处的局部面部表情的低维编码z我们发现使用局部表情代码来解码高保真面部动态是至关重要的面部表面位置编码局部表情编码分辨率太低,无法捕获高频细节。因此,我们另外为像素解码器提供面部表面坐标的位置编码u在每个像素处标记(u,v)虽然一般的位置en-诸如正弦曲线的编码[11]可以实现高度详细的在重构中,它们需要大量的频率水平,因此需要高维度,从而导致计算成本。相反,我们通过设计一个学习的非参数位置编码函数,模型的其余部分。直观上,muv,mu和mv分别是在二维中具有1K×1K断点和在一维中具有10K断点的分段线性函数直接从数据中学习。除了2D编码函数muv之外,我们还使用1D编码函数mu和mv,作为一种具有成本效益的方式来建模更高的分辨率,同时避免模型参数的二次增加。从经验上讲,我们发现两者的结合比单独使用任何一种都能产生更好的重建效果(第6.2节)。5. 基于密集网格解码器的联合学习用于像素解码器的几何结构需要精确并且在时间上对应,以防止像素解码器必须经由复杂的视图相关纹理效果来补偿几何未对准。为了实现这一点,我们学习的几何和表达式的变分解码器与像素解码器。我们使用一组多视图图像Ic(即,在帧t处来自相机c的图像),具有校准的本征函数Kc和外征函数Rc|tc 。 或 者 帧 的 子 集 , 我 们 使 用 多 视 图 立 体(MVS)来计算深度图D。此外,我们使用基于视觉的人脸跟踪器来产生一个粗糙的网格Mt表示为位置图以提供粗略的时间对应。然而,请注意,输入的跟踪网格分辨率较低,在难以跟踪的区 域 ( 如 嘴 和 眼 睛 ) 缺 乏 细 节 ( 图 10 ) 。 4(c))。直观地,几何形状越准确,像素解码器可以越容易且越好地解码像素因此,我们的几何解码器生成一个密集网格的位置图G,65K个顶点,包括嘴巴内部,没有来自跟踪密集网格的直接监督(图1)。4(d))。对于每个训练样本,我们通过将相机图像反向投影到粗跟踪网格上来计算平均纹理Tavg,类似于[10]。从粗网格计算的纹理和位置图被用作卷积编码器r,E(·)的输入,图1。3(a)生产潜码Z=E(Tavg,Mt)∈R8×8×4,其中nel维度是最后一个。 另外,我们计算凸轮-在以面为中心的坐标中,将视角方向归一化为单位长度。我们把这个向量平铺成一个8x8的u=[muv (u,v),mu(u),mv(v)](2)网格V∈R8×8×3。图2中的几何和表达式解码器产生几何和本地代码,其中muv联合编码u和v;mu和mven。分别编码U和V。我们直接将muv、mv和mu建模为非参数函数,其从给定(u,v)的学习编码映射中检索低维编码。 具体来说,muv检索一个4维向量从位置(u,v)us处的1024×1024×4编码映射,双线性插值;同样,mu和mvre-分别从两个单独的10000x1地图中提取二维向量。 所有三张地图都是与G=Dg(Z),E=De(Z,V),(3)其中G∈R256×256×3是位置映射,E∈R256×256×4是表达式代码映射。 位置贴图在每个顶点的UV坐标处采样生成网格以进行光栅化。光栅化将其对应的uv坐标和以面部为中心的xyz坐标分配给屏幕位置s处69不不不我DWGI^(a) 相机图像(b) 输入深度(c) 输入网格(d) 了解到 (e)渲染密目图4.我们监督(a)图像,(b)深度,和(c)7K顶点的粗跟踪网格,从中我们以65K顶点的更高分辨率学习最终渲染(e)可以表示难以跟踪的表达,例如,包括舌头。p是根据Sect. 四、最终的像素颜色被解码,产生渲染图像,Ic(s)=f(p)。在每个SGD步骤,我们计算损失L =λi LI +λd LD +λn LN +λm LM +λs LS +λkl LKL,(四)其中,l=||Ic−Ic||2测量图像误差, 以及ct t表1.MSE对渲染图像的像素值与LD=||(D−Dc)WD||1测量深度误差,其中t t测试测试集上的地面实况图像,在5个视图上进行评估。 基线是WD是选择深度误差低于10mm的阈值。我们还使用正常损失,LN=||(N(Dc)−N(Dc))WD||2其中[10]中的模型;Full是我们的模型PiCA(图)。No-UV是不使用表面坐标的PiCA变体;Coarse是解码粗网格(7 K顶点)的PiCA变体完整PiCA模型N(·)计算屏幕空间中的法线并鼓励更清晰的几何细节剩下的项是正则化:LM=||(S(G)−S(Mt))<$WM||其中S(·)是在顶点UV处对位置图进行采样的函数,使用掩模W M来惩罚与粗略跟踪网格的大偏差,以避免惩罚嘴部区域(其中跟踪网格不准确)。LS是Laplacian[2019 -10 - 19]《易经》中的易经,这些术语防止了源自深度重建中的噪声、没有深度监督的图像和噪声SGD步骤的几何结构中的伪影。关于平滑度项的实现细节以及如何使用可微渲染来优化这些损失,请参见补充材料。LKL是变分编码器的Kullback-Leibler发散项。上述过程恢复在输入跟踪网格中未捕获的解码密集网格中的特别值得注意的是,口腔内的顶点自动分配给牙齿和舌头,以及头发,参见图6的示例。6. 实验实验设置我们在5个不同的观察方向上对6个身份进行评估我们的模型:前,上,下,左和右(参见补充材料中的示例图像)。我们使用两个面部捕获系统捕获每个身份的多视图视频数据:在所有视图中,SIEMENS在所有测试身份上都优于其他人模型前起来下来左权充分21.3919.7117.5215.5218.00NERF-PE21.8520.1017.8615.9018.61S1UV-无PE21.4519.9317.7015.9818.532d-PE21.5619.8517.9715.9818.801D-PE21.4019.6717.6015.7018.29充分18.3119.9616.3614.2812.14NERF-PE18.9920.3517.3515.1913.18S2UV-无PE19.1720.5117.5315.4013.292d-PE19.0520.2317.4715.0213.021D-PE19.3020.6117.6415.4313.39充分6.226.065.394.974.95NERF-PE6.416.165.605.295.14S6UV-无PE6.596.535.685.335.242d-PE6.286.005.485.265.091D-PE6.586.395.685.265.21表2.使用UV坐标的消融:使用学习的编码映射进行编码(完整),直接使用UV(UV-NoPE),使用正弦函数进行编码[11](NERF-PE),仅联合编码(2D-PE)和仅单独编码(1D-PE)拍摄对象5和拍摄对象6是用56台焦距为35 mm的摄像机拍摄的。我们使用大小为2048×1334的图像进行训练和测试。每个身份的数据包括表情,面部运动范围和阅读句子。 我们随机选择表达式和句子阅读作为测试数据,导致模型前起来下来左权基线23.0320.7818.1316.3218.97S1充分无紫外线21.3922.1619.7120.3817.5218.2815.5216.2718.0018.57粗21.6420.0417.8416.0218.69基线19.5320.9016.6215.4413.52S2充分无紫外线18.3119.3419.9620.5216.3617.6114.2815.4012.1413.29粗19.8821.6217.9715.9713.92基线24.4122.8316.5416.0916.81S3充分无紫外线23.1123.9522.2222.9916.0416.4215.2915.8615.6416.12粗23.9423.0416.4415.8116.79基线7.266.037.347.157.76S4充分无紫外线6.817.205.786.137.337.407.057.327.638.05粗7.196.027.487.218.25基线9.2010.877.247.276.54S5充分无紫外线8.749.0610.3710.967.167.397.097.466.536.76粗9.0910.647.497.496.56基线6.866.535.855.665.297018 cm(2.7M)65cm(0.9M)120cm(0.2M)DSP步骤基线44.76毫秒44.76毫秒44.76毫秒PiCA2.16毫秒2.16毫秒2.16msGPU步骤基线2.67毫秒2.47毫秒1.94毫秒PiCA8.70毫秒3.27毫秒2.70毫秒表3.在Oculus Quest 2上的性能测试,在3个不同的化身距离下测量请注意,60- 120厘米是典型的人际距离[20],而18厘米则被认为是亲密的。图5.测试表达式上的MSE分布,对于完整模型按降序排序:x轴为表达式,y轴为MSE。我们可以看到,我们的模型的性能与所有身份的表达式的基线相似或更好。每个身份用于训练的12K帧和用于测试的101K帧。图像的总数大致是数字-帧的BER 乘以摄像 机的数量。所 有的模型都是用batchsize 4训练的,学习率为0.001,迭代次数为40万次。方程中不同损失项的权重4对于λi、λd、λn、λm、λs和λkl,设定为2、10、1、0.1、1和0.001。我们报告的均方误差(MSE)之间的渲染图像和原始图像的光栅化像素的测试数据作为重建质量的评价指标。请注意,由于不同的相机设置和主体外观(如面部肤色和发型),不同身份的结果无法直接比较。6.1. 整体性能基线模型具有19.08M参数,PiCA具有5.47M参数。特别是,PiCA的像素解码器只有307个参数。渲染5个化身时(均匀在 OculusQuest2 上 的 同 一 场 景 中 , PiCA 平 均 以1050FPS运行,显示了多路远程存在呼叫的可能性。在表1和图5中,我们报告了定量比较,结果表明PiCA在所有测试的恒等式、表达式和视图中始终实现了更好的重建,尽管模型大小减少了3.5倍,计算速度更快(表3)。具体而言,表1比较了5个视图的重建质量,平均值为在所有测试表达式中进行测试图5绘制所有测试表达式上的Full和Baseline的MSE值(按 Full结果的降序定性的例子有如图6所示,我们邀请读者在补充材料中看到更高分辨率的结果。显示了完整模型(左)和基线模型(右)的示例结果帧,并且我们还以更高的分辨率显示局部区域以进行更仔细的检查。总的来说,这两个模型-els产生非常现实的脸。我们的模型在许多面部区域产生更清晰的结果,特别是显示牙齿、舌头和头发的选定区域。6.2. 消融研究UV位置编码面部表面的许多细节被表示为相邻像素中颜色值的不连续性,例如,与毛发像素相邻的皮肤像素。 我们用学习的编码映射对这种不连续性进行建模,使得编码函数是分段线性的,映射条目作为学习的断点值(第4节)。在本节中,我们研究了这种方法的好处。我们训练PiCA变体No-UV,其不使用UV坐标来解码像素值。在表1中,可以看出,完全PiCA模型始终优于无UV变体,显示出使用编码的UV坐标的明显优势。我们进一步比较了我们的方法与直接使用UV而不编码,以及用正弦函数编码UV[11]。我们训练了两个额外的PiCA变体UV-NoPE,其使用UV而不进行任何编码,以及NERF-PE,其使用[11]的编码函数对UV进行编码(与等式8的8维相比,40维代码)。(2))。比较结果如表2所示。完整模型在所有测试视图和主题上始终优于两种变体我们还消除了我们的编码方案:我们训练了仅执行2D联合编码的PiCA变体2D-PE(等式2中的muv(2))和仅执行1D单独编码(mu,mv)的1D-PE。比较结果如表2所示。组合联合编码和1D编码两者的全PiCA模型优于这两种变体,表明这两种编码方法是互补的,并且通过组合两者,我们可以实现一致的性能改进。密集网格解码器在图6中,我们在渲染图像旁边显示深度图像。该模型生成的密集网格包含更多的几何信息,相应的渲染图像更清晰:特别是,人们可以检查牙齿,舌头和头发区域。 在图7中,我们比较了在非常靠近嘴巴的观看位置处的Full和Baseline的新颖视点渲染结果:在我们的训练集中没有这样的视图。虽然基线结果看起来像一个粘贴在嘴里的平面,但我们的看起来更真实,这要归功于生成的密集网格中更精确的几何形状。牙齿、舌头和嘴唇。为了进行定量研究,我们训练了一个PiCA模型变体Coarse,它解码了[10]中使用的相同拓扑在表1中,我们评估了71图6.将我们的完整模型(左)与基线[10](右)进行比较的示例渲染面部对于每个示例,我们显示渲染的渲染图像的视觉质量对两个模型都很好,而我们的模型在牙齿,舌头和头发上产生更清晰的细节深度图像显示了由我们的模型生成的更多几何细节图7.在一个新的观察位置进行渲染,比任何训练视图都更靠近两个示例帧也显示了渲染深度:左列是PiCA Full,右列是Baseline模型[10],放大后最佳。测试集,并且结果显示其始终低于全PiCA模型,说明了像素编解码器化身中的密集几何解码器的益处。6.3. 移动SoC我们在表3中展示了Oculus Quest 2 VR头显1的运行时性能。我们测量了在DSP(数字信号处理单元)和GPU步骤-注意,这两个步骤在运行时是流水线式的。从基线到PiCA,DSP时间缩短了20倍。总的来说,基线运行在1022FPS,而PiCA击中了任务21PiCA的基线模型以及几何和表达式解码器是8位量化的,可在DSP上执行,质量下降很小最大帧速率为90 FPS。虽然基线模型总是以固定分辨率解码化身头部的整个纹理图,但PiCA仅解码具有适应化身距离的分辨率的此外,PiCA允许在移动SoC上的计算负载分布中平衡流水线解码过程:虽然每个对象解码需要在DSP上进行卷积操作,但轻量级像素解码器可以在高度优化的片段着色器中实现,以便可以在GPU上进行每个像素解码。相比之下,对于基线模型,网格和纹理的解码计算需要完全在DSP上完成,并且GPU仅在给定解码的纹理和网格的情况下执行最终渲染。7. 结论和未来工作我们将Pixel Codec Avatar作为一个高质量的轻量级深度可变形人脸模型,作为一种潜在的技术,使多人通信在虚拟现实中的移动VR耳机。本文的工作仅限于译码器,可以沿用Wei等人的方法。[26]构建用于远程呈现通信系统的编码器。通过改进编码器和解码器模型实现高保真、低时延的临场感通信是未来工作的主要方向。72引用[1] Victoria Fernandez Abrevaya,Adnane Boukhayma,Ste-fanie Wuhrer,and Edmond Boyer. 一个通过对抗训练的解耦3D人脸形状模型。在IEEE/CVF计算机视觉国际会议(ICCV)上,2019年10月。[2] Kara-Ali Aliev , Artem Sevastopolsky , Maria Kolos ,Dmitry Ulyanov,and Victor Lempitsky.基于神经点的图形学。arXiv预印本arXiv:1906.08240,2019。[3] Timur Bagautdinov 、 Chenglei Wu 、 Jason Saragih 、Pascal Fua和Yaser Sheikh。使用合成vae建模面部几何形状。在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。[4] 沃尔克·布兰斯和托马斯·维特。一种用于合成3d人脸的可变形模型。在第26届计算机图形和交互技术年会的会议记录中,SIGGRAPH[5] Shiyang Cheng , Michael Bronstein , Yuxiang Zhou ,IreneKotsia,MajaPantic,andStefanosZafeiriou.Meshgan:Non-linear 3D Morphable Models ofFaces,2019.[6] 朱杭,马树高,费尔南多·德拉·托雷,桑加·菲德勒和亚瑟·谢赫。通过模块化编解码器化身表达远程呈现2020年。[7] Ian Goodfellow , Jean Pouget-Abadie , Mehdi Mirza ,Bing Xu , David Warde-Farley , Sherjil Ozair , AaronCourville,and Yoonne Bengio.生成性对抗网。神经信息处理系统进展,第27卷,第2672-2680页,2014年[8] 迪德里克·P·金马和马克斯·威林。自动编码变分贝叶斯。载于ICLR,2014年。[9] J. P. 刘易斯,K。Anjyo,T.李,M。Zhang,F.比金和邓志刚混合型面部模型的理论与实践在Eurographics,2014年。[10] 斯蒂芬·隆巴迪,杰森·萨拉吉,托马斯·西蒙,还有亚瑟·谢赫.用于面部渲染的深层外观模型。ACM事务处理图表,37(4),2018.[11] 放大图片作者:David J. Barron,Ravi Ramamoorthi,and Ren Ng. Nerf:将场景表示为用于视图合成的神经辐射场。在ECCV,2020年。[12] 贝·莱特咕噜的制作。介绍U。2004年8月,南加州创意科技学院[13] Anurag Ranjan , Timo Bolkart , Soubhik Sanyal , andMichael J. Black.使用卷积网格自动编码器生成3d人脸。在欧洲计算机视觉会议(ECCV)上,2018年9月。[14] 亚历山大·理查德、科林·李、马树高、于尔根·加尔、费尔南多·德拉托雷和亚瑟·谢赫。音频和凝视驱动的编解码器化身的面部动画。在WACV,2021年。[15] Gabriel Schwartz、Shih-En Wei、Te-Li Wang、StephenLom- bardi 、 Tomas Simon 、 Jason Saragih 和 YaserSheikh。眼睛有它:一个集成的眼睛和面部模型的photorealistic面部动画. ACM事务处理图表,39(4),2020.[16] 吉尔·沙迈,罗恩·斯洛斯伯格和罗恩·基梅尔。使用生成对抗网络合成面部光度和相应的几何形状美国计算机协会多媒体计算机事务部.Commun. Appl. ,15(3s),2019.[17] 放大图片创作者:Julien N.P. Martel,Alexander W.作者声明:David B. Lindell和Gordon Wetzstein。具有周期性激活函数的内隐神经表征。在Proc. NeurIPS,2020年。[18] 罗恩·斯洛斯伯格吉尔·沙迈和罗恩·基梅尔通过生成对抗网络进行高质量的面部表面和纹理合成在欧洲计算机视觉会议(ECCV)研讨会上,2018年9月。[19] OlgaSorkine,Daniel Cohen-Or,Yaron Lipman ,MarcAlexa,ChristianR?ssl和Hans-PeterSeidel。表面拉普拉斯编辑。在EUROGRAPHICS/ACM SIG-GRAPH几何处理研讨会,第179- 179188. ACM Press,2004.[20] AgnieszkaSorokowska , PiotrSorokowski , PeterHilpert , Katarzyna Cantarero , Tomasz Frackowiak ,KhodabakhshAhmadi , AhmadM.Alghraibeh ,Richmond Aryeetey , Anna Bertoni, Karim Bettache ,SheylaBlumen,MartaBastazstecejewska,TiagoBortolini , MarinaButo vskaya , Fe- lipe NalonCastro , Hakan Cetinkaya , Diana Cunha , DanielDavid,Oana A.法赫德·戴维Dileym,Alejandra del Car-men Dom 'ınguez Espinosa , Silvia Donato , DariaDronova , SedaDural , JitkaFialova' , MaryanneFisher,EvrimGul- betekin , AslıhanHamamcziogzelluAkkaya , IvanaHromatko, Raffaella Iafrate ,Mariana Iesyp ,BawoJames,Jelena Jara- novic,Feng Jiang,Charles ObadiahKimamo , Grete Kjelvik , FıratKoc, AmosLaar ,F'ıviadeArau'joLopes , GuillermoMacbeth , NicoleM.Marcano,Rocio Martinez,Norbert Mesko,NatalyaMolodovskaya,KhadijehMoradi,Zahrasa-datMotahari,Ale xandraM uühlhauser,JeanCarlos
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功