没有合适的资源?快使用搜索试试~ 我知道了~
3474通过神经缓存将神经人脸合成扩展到高FPS和低延迟余承东frankyu@cs.ubc.ca席德·费尔斯不列颠哥伦比亚大学(UBC)ssfels@ece.ubc.ca海尔格·罗丹rhodin@cs.ubc.ca摘要最近的神经绘制方法大大提高了图像质量,达到了接近照片真实感。然而,底层神经网络具有高运行时间,排除了需要低延迟高分辨率的远程呈现和虚拟现实应用。深度网络中层的顺序依赖性使得它们的优化变得困难。我们通过缓存前一帧的信息来打破这种依赖性,从而通过隐式扭曲来加速当前帧的处理。具有浅网络的扭曲减少了延迟,并且缓存操作可以进一步并行化以提高帧速率。与现有的时间神经网络相比我们测试的ap-proach的3D肖像化身,视需要的远程呈现,在既定的基准序列。Warping将延迟降低了70%(在商用GPU上从49.4ms降低到14.9ms),并在多个GPU上相应地缩放帧速率,同时仅将图像质量降低1%,使其适合作为端到端视图依赖的3D电话会议应用的一部分。1. 介绍通过照片般逼真的3D化身实现的网真有望更好地连接人们。神经渲染的最新进展已经实现了接近照片级的图像质量,但底层的深度神经网络限制了其顺序分层处理的最佳可能延迟。这对于虚拟现实应用是一个问题,因为这些应用在用户的头部运动时需要低延迟来传达沉浸式体验。例如,[33]创建了一个高保真系统,使用120Hz投影仪和用户视点跟踪,跟踪器具有60Hz更新和3ms延迟,以最大限度地减少用户移动时对场景扭曲的感知。然而,现有的神经渲染器都没有达到所需的运动到光子延迟,即,从用户输入所花费的时间,例如在VR中移动头部神经纹理(NT)CV重建经纱UV图推理学习图1:使用Warping的神经渲染。虽然单帧方法需要深度神经网络从粗略的几何形状合成逼真的头部图像,但我们的隐式扭曲在t+ 1处使用浅网络为新帧产生低延迟。直到显示更新。因此,寻找改进的神经模型,在速度和图像质量之间取得更好的平衡,是一个悬而未决的我们开发了一个并行实现,灵感来自于通过将计算分散在多个GPU上的几个帧来提高其他视频处理任务的帧速率的方法[3]就其本身而言,并行执行仅提高了帧速率,而不是对VR至关重要的延迟,因为顺序执行的然而,为了达到期望的延迟降低和帧速率,我们将并行执行与专用的扭曲层相结合,该扭曲层为神经人脸合成量身定制,并充当连续帧之间的跳过连接。这种神经缓存方法重新使用来自前一个时间步的信息,以改善当前时间步的延迟,其中浅层网络用于图像生成,深层网络用于在等待下一个输入帧时计算缓存请注意,这种缓存策略本身已经改善了单个GPU上的延迟,并通过打破顺序层依赖性和将图像缓存生成卸载到多个线程中,在日益并行的硬件困难在于找到合适的代表,3475高速缓存在低容量网络中取得成功。我们的方法受到VR显示器上经典的低延迟渲染的启发然而,显式扭曲并不适用于神经渲染器,其中底层几何结构是近似的,神经纹理是高维的,使得扭曲操作成本更高。26.626.426.226.025.825.625.4PSNR与延迟[ms]27.026.826.626.426.226.025.825.625.4PSNR与FPSarp)为了扭曲神经表示,我们引入了一个隐式扭曲,它提供了一个定制的跳过连接10 20 30 40 50 60延迟[ms]10 20 30 40 50 60 70每秒帧数(FPS)通过考虑头部模型参数化来进行神经渲染。其结果是一个扭曲网络,该网络在给定所需视点和头部模型参数的情况下对从一帧到下一帧的图像空间运动进行建模。图1概述了主要组成部分。我们的设计是面向一个动态变化的观点,如用户的头部运动在VR中的一个说话的头的新颖的视图合成我们建立在延迟神经渲染器(DNR)[24]的基础上,该渲染器使用在训练时学习的神经我们在并行硬件上扩展帧速率和延迟方面的贡献如下:• 证明了所提出的神经缓存可以将延迟减少高达70% , 同 时 图 像 质 量 的 下 降 最 小 ( 仅1%PSNR)。• 通过缓存和隐式扭曲扩展DNR以生成具有低延迟的高分辨率• 开发一个并行调度器,支持使用队列进行多线程的翘曲和重排序。• 细化面部表情、头部姿势和相机角度的表示,以改善隐式扭曲。• 增加头部稳定和调整骨干和训练策略的嘈杂的现实世界条件。我们的实验强调了如何缓存以及当前帧中的信息是如何传递到浅层隐式扭曲网络的重要性。图2比较了最相关的方法。我们的解决方案以最少的图像质量代价实现了最佳的延迟和FPS改进。2. 相关工作在本节中,我们将讨论最近的高质量图像生成方法,并与那些优化运行时的方法进行对比,重点关注人脸生成。真实感合成。高质量的真实感渲染正在蓬勃发展,使用隐式场景表示,如神经辐射场(NeRFs)[19]或在GAN目标上训练的深度神经网络[14,15],也可以根据视点和姿态变化[4,23]进行调整。然而,这些隐式模型都依赖于非常深的神经网络,这些神经网络不能以足够高的帧速率运行,或者通过预先计算的加速结构仅限于静态场景[31]。图2:性能与我们的模型的延迟(左)和fps(右)以及beard数据集的基线。最佳性能位于左上角和右上角,由每个相应图中的黄色星形指示。垂直的蓝线标记[32]的延迟和fps。适合并行执行的模型使用两个GPU运行。会说话的头部模型。对于动态面部,最常见的是从参数面部模型开始,该模型以混合形状的形式参数化身份和表达这些模型的系数是低维的,因此适合于在远程呈现中驱动化身和通过混合两个主体的身份和姿态信息来进行虽然早期的模型仅关注于对面部区域进行建模[29,25,26,22,24],但在完整的头部模型(如FLAME [17])上进行调节,使得能够实现适用于视图相关3D系统[35]的侧视图[9]的新颖视图合成。我们遵循这一工作路线,并通过减少交互式应用程序的渲染延迟来扩展它。另一项工作开发了主体不可知的面部合成[21,20,8,7],其以单个或多个图像而不是主体特定的3D模型为条件。然而,这是以减少细节以及表情和头部运动的纠缠为代价的[30],特别是如果参考和目标姿势差异很大,并且可能需要显式扭曲操作,这对于被遮挡区域来说相对昂贵且定义不清[32]。 虽然[32]在中等图像分辨率上已经非常快,运行时间为4ms,但在嵌入式设备上渲染高分辨率图像和中等分辨率时仍有改进的空间缓存方法。重用来自先前时间步的信息已用于许多计算机视觉任务,其中包括:对象检测[18]、视频动作识别[5]和分割[10]。Carreira等人[3]对视频处理的不同架构进行了出色的概述,包括:i)深度并行架构,其在若干迭代上执行深度神经网络,导致等于层深度的延迟; ii)深度并行+跳过,其中深度并行网络的头部(最后一对网络层)用新的ODODNR++ 我们的(1x翘曲)DNR+我们的ExWarp(1xwarp)ExWarp(2xwarp)DNR+(未经治PSNRPSNRNR++urs(1x战争p)DNR+urs(2x战争Exp)翘曲(1x 翘曲)Ex翘曲(2x 翘曲)柔红霉素+(钠(iv)3476∈∈∈∈∈∈∈通过跳过连接输入;以及iii)多速率时钟体系结构,其中头的输入特征不是在每个时间步长都更新,并且头和主干以不同的时钟速率工作。我们的缓存方法遵循多速率时钟模式。然而,没有一个现有的并行模型已经证明了图像生成。我们的贡献是量身定制这个一般的概念,通过神经渲染一个合适的形式的翘曲的新颖的视图合成的脸的问题。3. 预赛我们的目标是一个高效的神经渲染器,它输出一个人脸的图像IRH×W,该人脸被参数化为一个表面网格,顶点vR3×K,三角形索引iR3×K,以及相关的纹理坐标uR2×K和神经纹理NRD×H ×W[24]。除了纹理N是D维的而不是存储三个颜色值之外,这些是普通渲染器所期望的相同输入。延迟神经渲染。 我们的出发点是由Thies等人引入的延迟神经渲染器。[24],其用卷积神经网络G来近似复杂且计算昂贵的渲染方程。图1给出了一个概述,包括应用于我们的完整模型(包括缓存)的[24]的差异首先,光栅化器渲染纹理网格的UV贴图U R2×H ×W这些与输出图像具有相同的维度从N中抽取这些位置,得到特征图FRD×H ×W。对于经典的延迟渲染,我们将从颜色纹理中采样,并将其与灯光位置信息结合起来,以形成最终的图像。在神经渲染器的情况下,纹理有三个以上的通道形成可学习的特征。网络G将F转换为最终图像,取代了经典渲染中的几何照明在图1中,这个向前传递用蓝色箭头表示,而训练过程中的向后信息流用绿色标记。训练和面部重建。 所涉及的神经网络G的参数以及神经纹理本身在具有输入3D网格和面部的高分辨率图像的示例的大数据集上训练,期望的输出。我们使用真实的视频作为输入,重建顶点v∈R3×K,表达式系数e∈R50,PCA形状参数s∈R100,头部姿态FLAME参数模型的θ∈R6[17],随机初始化并随后通过反向传播优化以本地存储训练对象的细节。损失函数是数据集中渲染图像和参考图像之间的L1差异在图1中,绿色箭头表示这种向后传递。训练是在裁剪的图像上进行的,这加快了训练速度。基础架构。 我们使用[11]中的10层U-Net和[24]中的具有四个细节层次的多尺度神经纹理。此外,为了更好地对视点相关效果进行建模,将视图方向投影到9个球面谐波系数,随后将其乘以特征图的通道4至12。这使得与位置编码类似的视图相关效果的显式编码成为可能[28]。实时视点相关渲染。我们的主要应用领域是3D电话会议,其中必须以高帧速率、低延迟、从用户的大致正面的视角来给定新的视图方向,例如,从眼睛跟踪器,我们的重点是尽可能快地生成该新颖视图的自然外观图像,以减轻晕动病、减少扭曲伪像[34]并避免不适。对象运动捕捉可以离线或通过较慢的通道执行,因为通常只有视点相关的渲染需要低延迟。在远程呈现应用中,带宽由FLAME模型的大小决定;在源侧估计、传输和渲染,由我们的系统给出来自接收器的新视图。4. 方法在本节中,我们将介绍我们的神经缓存方法,并提出两种变体,它们分别在单GPU和多GPU系统上运行我们缓存来自前一帧的信息。因此,必须从缓存信息桥接到当前帧的运动很小,这允许我们引入获得最大性能的隐式扭曲。神经缓存对于我们的神经缓存,我们首先运行深度和慢速图像生成器G(Nt,Ut,pt),其以神经纹理N、UV映射Ut和视图方向(例如,VR中的用户图3提供了我们的管道的详细概述。我们缓存最后3层的功能C(3)、C(4)和C(5)摄像机位置p∈R3使用现成的估计器t t tDECA [6]. 在内部,它使用2D关键点检测器生成器的ers与摄像机位置pt一起,以及姿态的球谐(SH)编码, 毛皮-从[2]。重建的人脸与图像重叠良好。接下来,我们添加UV贴图不Ut,表达式et,年龄,但是细节,例如头发和耳朵经常是未对准的,这给神经渲染器带来了更大的负担来合成这些。这个重建步骤在图1中用红色箭头标记。生成器G是一个U-Net,神经纹理N是特定于渲染面部的姿势θt。形式上,我们将组合缓存C写为Ct:=[C(3),C(4),C(5),θt,pt,et,hob j,Ut].(一)t t t t t t3477电话+1−···t tt+1顺序(1x翘曲)G V W G V W平行(2x翘曲)图3:我们的低延迟流水线缓存了我们的框架(来自生成器的特征(左)标记为橙色和红色)和人的姿势来生成下一个。图4:我们的顺序(顶部)和并行执行(底部)的渲染管道。一旦新的视点V准备好渲染,网络W就从前一帧扭曲缓存,比完整的生成器G更快地生成输出图像。利用两个线程进一步提高了输出帧速率。只有两个额外的上卷积层的连续帧,一旦有新的视图方向可用,就立即执行(右)。的缓存和缓存的作用电话+1调制特征图生成器和扭曲网络是端到端学习的,并且可以在推理时并行应用。通过乘法,类似于位置编码的工作方式,但这里是旋转变化。这些特征被进一步处理以输出图像,其中I t+1=W2(F1,C(5)λhobj).请注意,W扭曲了先前的t t+1隐式扭曲。 先前的工作使用来自参考帧的显式扭曲操作,这需要预先的神经网络层来预测扭曲,并且由于每个像素的随机访问模式而被实现为相对较慢的纹理采样步骤。我们提出了一个隐式的warp,其中神经网络W仅由两个上卷积层组成。这两个层从新帧t + 1中获取缓存的信息Ct、渲染的UV图和新相机、姿态和表情,以重建图像It+1。该网络工作被有意地保持为浅以减少图像生成的延迟。此外,我们在详细的消融研究中发现,通过单层MLPM,给出新相机位置pt+1、物体姿态θt+1、表达式et+1及其与前一帧的差异作为输入效果最好。这产生θ<$t+1=M( pt+1 , pt+1 , θt+1 , θt+1 , et+1 , et+1 ,hobj),(二)其中θ t是指两帧之间的量的变化,这里是θt+1θt。 另外,我们还包括UV映射Ut+1。与由第一扭曲层W1处理的缓存特征一起给出F1=W1(C(3),C(4)hobj,θ<$t+1,Ut+1)(3)到当前帧,但没有空间变换层-它通过图像如何相对于姿势的变化而变化的局部近似来隐含地这样做。4.1. 操作模式和并行执行我们的方法可以在单GPU执行和并行GPU执行之间轻松扩展。当只有一个GPU可用时,图4-top可视化了与运行较慢的生成器相比,使用浅扭曲网络减少延迟的原理。在这里,高速缓存与扭曲顺序更新,从而减少延迟但不减少帧速率。当多个GPU可用时,我们可以将所提出的隐式扭曲与并行执行相结合,从而通过扭曲单个或多个图像It,It+1,而生成器在单独的GPU上在单独的线程上运行。图4-右展示了这个方案。值得注意的是,即使扭曲是近似值,当在高帧速率视频流上在线操作时,多次扭曲也不会降低图像质量并行扭曲两次的较高处理速度减小了可以处理的帧之间的距离,从而使得两帧扭曲与以一半帧速率操作的单帧扭曲一样困难。我们尝试了不同的工作分配,其中,t+1,θ<$t+1被广播到分辨率,两个线程之间的同步机制我们LPF =低通滤波器V W VGVWVWGVWVWVG线程2线程13478××--发现线程在图像生成和扭曲之间交替是最有效的,并且易于实现。在该模型中,主线程经由队列将新到达的这些进程依次等待队列中的新数据。在接收到新数据时,它们在缓存和扭曲之间切换,如图4底部所示因此,在与生成器相同的GPU上执行扭曲,使得高速缓存可以保持在相同的使用专用线程束和缓存线程的替代方案具有低得多的性能,因为缓存必须从一个GPU移动到CPU,然后再次从CPU移动到目标GPU。所需的ques同步,灰有一个可以忽略不计的开销,在我们的实现上的两个RTX 2080只有0.25ms/帧。此外,我们最初尝试使用手动锁而不是队列,这在没有提高性能的情况下更加复杂我们将公开我们的实现,以促进进一步的研究。4.2. 改进的神经头渲染我们的出发点DNR [24]是一种通用的渲染方法。在下文中,我们解释了我们的架构变化,以调整它的面部合成。头部稳定为了减少头部的抖动和闪烁,我们确保用于生成UV遮罩的虚拟摄像机始终以受试者的头部为中心,并且在生成视频时具有一致的比例,方法是将摄像机以头部中点为中心,并按投影的耳到耳距离进行由于驱动运动捕获信号通常是不稳定的,我们进一步用尺寸为5的延迟高斯滤波器平滑全局头部位置pt,并将FLAME模型的身份s固定为DECA在训练集上估计为了忠实地保持面部表情和嘴唇运动,保持θ中的下颌方向和表情参数e不变。损失函数对于仅预测时间t处的图像的基线,我们将损失函数定义为Ltrain=λ texL tex+λ imgL img+λ pL p,(4)其测量采样神经纹理的前三个通道与地面实况图像之间的L1距离(Ltex)、L1光度损失(Limg)以及预测图像与地面实况图像之间的感知损失[12](Lp)。我们用系数1、1和0.1对这些损失项加权。对于扭曲,我们在未来帧t+ 1上添加λimg和Lp,并将现有Limg的权重降低0.1,以将更多的权重放在推断时使用的It+1架构变更。基于[13]的工作,我们对基本DNR [24]网络进行了以下改进,以提高输出图像质量。首先,我们将U-Net其中双线性上采样层之后是2D卷积(上卷积)。这已被证明可以提高输出的最终图像质量并减少重建图像中的网格状噪声。此外,我们应用高斯低通滤波器(LPF)的最小空间特征的U-Net架构。我们将利用所有这些改进的基线称为DNR+。5. 实验我们评估我们的神经扭曲技术,以实现我们的目标,即通过应用我们的神经扭曲来最大限度地提高图像质量和最大限度地减少延迟 图2总结了我们的主要结果,这些结果可能是准确性与延迟和准确性与fps,将我们的两个变体与最相关的工作进行比较,并显示出高达300%的fps改善和70%的延迟减少。我们还提供了一个消融研究,以确定特定的权衡相对于我们的翘曲网络的各个组件补充材料中包含广告结果。基线。DNR [24]是我们用作参考的主干。DNR+通过[13]中最近的神经网络架构改进来改进DNR。我们进一步添加DNR++,它使用当前和过去的帧作为输入。DNR+和DNR++都作为我们模型图像质量的理论上限,因此,提供了有效性和效率的良好衡量标准我们的方法。我们还比较了Wang等人[30]的最新方法,使用他们的在线界面(http://www.cc/vid2vid-cameo/)和Zakharov等人的运行时间。[32]使用相同的512 512图像分辨率。我们不提供PSNR数字,因为它是为256 256的小得多的分辨率而设计的。此外,我们还创建了一个简单的基线,在该基线中,我们将输入帧移位一帧,以模拟运行大型图像生成器时产生的延迟,而不进行扭曲。它用作准确度的预期下限。数据集。我们使用[24]中的说话的头部序列与之前的工作以及胡须和高fps序列进行比较,这些序列具有更困难的面部毛发,并获得了伦理委员会的批准。胡须和高fps数据集的视频以1920 x1080记录,并分别分为2604/558/558和3600/500/1000帧进行训练/验证/测试。特朗普[24]序列是431帧的1280x720。奥巴马[24]序列是2412帧的512x512。男性和女性[24]序列都是768x768,具有2380帧。高fps录制有60 fps,所有其他运行在30 fps。培训设置。 我们使用Adam [16]训练了150个epoch的所有模型,beta = 0.9,0.999,Generator,G和Warp网络W的学习率为1 e-4,神经纹理的学习率为1 e-3。指标. 我们评估我们的图像重建精度3479GTDNR+DNR+(Naive)Ours(1xw.) Ours(2xw.)图5:我们的模型(1x和2x扭曲)、DNR+和朴素基线的帧及其误差图基于L1误差,我们可以看到所有模型的表现都相似,在高频细节的误差图中可以看到差异。使用地面实况和重建图像之间的L1重建误差以及PSNR和SSIM。此外,为了显示速度的提高,我们报告了模型和基线的延迟和每秒帧数(fps)。对于所有方法,我们只测量处理输入UV贴图和相应的骨架(姿势),表达式和相机(外部)信息所需的时间;不包括渲染UV贴图所需的时间,因为它们依赖于实现,并且在光栅化器中实现时的开销可以忽略不计类似地,我们仅计算推理生成器在[32]中所花费的时间,忽略条件关键点图像的处理。所有延迟和fps指标均在NVIDIARTX 2080 GPU上计算对于我们的方法,当我们缓存每一帧(1x扭曲)和每一秒帧(2x扭曲)时,我们报告度量和时间,以表明我们的方法对输入帧之间的变化偏差是鲁棒的。5.1. 延迟和延迟改进生成器主干的运行时间为47.02 ms,延迟相等。我们的warp网络的运行时间为14.62ms,因此延迟降低了3.2 倍 。在 多个 GPU上 运行 将帧 速率 从 28.5提 高到67.6,同时由于所需的同步而导致延迟仅增加了微不足道的0.25 ms请注意,跨多个GPU的并行执行本身并不能改善顺序进程的延迟。在不同的GPU上处理偶数帧和奇数帧时,从输入视图到渲染输出的时间保持不变。表3评估了不同模型配置对延迟的影响5.2. 离线重建质量为了测试图像生成质量,我们使用了一个保持的测试视频,并使用在参考视频上重建的FLAME头部模型来驱动训练模型。图5和表1的结果评估了与离线处理模式下参考视频的差异。当比较基线和我们的模型之间的单个帧时,图5显示单帧(1x warp)和多帧warp(2x warp)在误差方面几乎一样好表1显示,令人惊讶的是,1x warp在PSNR方面略优于DNR+基线,尽管必须使用浅网络进行warp。这是可能的,因为它可以访问当前和过去的帧,这有助于校正面部表情估计中的错误。为此,我们引入了DNR++基线作为新的上限,该上限也可以访问前两帧。总之,与基线模型相比,在准确性的小的降低下,延迟和帧速率被极大地提高了两倍或更多倍。5.3. 在线重建质量在线重建要求算法以视频的本机帧速率运行这对我们的算法的性能有显著的影响,因为对于高帧率视频,两帧之间的运动减少,翘曲操作变得更简单,从而导致比先前的of-fline评估更高的性能增益。 我们在图1所示的高fps序列上测试了这种效果。6.表2显示,使用Ours(2x warp)在线运行60 fps视频比Ours(1xwarp)更好,因为后者只能处理需要更大warp的每隔一帧。因此,当并行硬件可用时,多次扭曲是有益的,共同改善了延迟、运行时间和图像质量。基本的DNR基线甚至不能以30 fps运行,因此在高fps在线设置中不可请注意,绝对PSNR数字在主体和场景中不同,因为面部更小/更大,并且还包含型号#GPUL1 ↓PSNR ↑SSIM ↑延迟[ms] ↓FPS↑时间基线[32]1---16.6060.2DNR+(未经治疗)10.027825.560.897046.8121.4DNR+10.024026.590.916546.8121.4DNR++10.023726.670.916849.3720.3ExWarp如[32](1x warp)20.025726.330.910818.8426.4ExWarp(如[32]中的ExWarp)(2x warp)20.026026.240.909418.8460.8我们的(1x翘曲)10.024426.660.910714.6216.3我们的(1x翘曲)20.024426.660.910714.8728.5我们的(2x曲速)10.025126.450.906914.6226.3我们的(2x曲速)20.025126.450.906914.8767.6表1:胡子数据集的离线评估。正如预期的那样,我们的模型在图像重建指标上没有达到最佳指标,但在延迟和fps方面优于基线我们的2x warp的时序结果使用并行执行。图像图像误差误差3480操作模式我们的(1x warp@30fps) 23.19 0.8148我们的(2x warp@60fps) 23.23 0.8162L1↓PSNR↑SSIM↑电话:+86-21 - 6666666传真:+86-21 - 66666666图6:在线申请。 当以其本机帧速率运行时,高fps模型(2倍扭曲)会有所改善,因为它们必须在帧之间桥接较小的间隙。或多或少的高频细节,包括肩部区域上的纹理,该纹理与面部特征重建保真度无关。因此,将胡子和高fps分数之间的绝对数字而只是相对数字联系起来是没有意义的。5.4. 新视图合成质量再现预先记录的序列不一定需要低延迟,因为整个视频可以被缓存。然而,延迟对于从新颖的视点渲染面部以考虑VR中用户的头部运动以及通常对于视点依赖的显示器来说是至关重要的。我们通过旋转角色的底层3D网格(用于生成我们的输入UV贴图)来生成角色的新视图,同时保持其他参数固定。图8显示了跨视频的姿势和视图的重定向,图7显示了合成生成的视图,并将其与[30]的结果进行了比较。因为我们以完整的3D人脸模型为条件,所以与Wang等人学习的3D特征相比,我们的旋转更精确,并且保持姿势不变。这导致了嘴的张开和向上旋转。[30]的质量预计会略低,因为它不是个人特定的,这有助于我们训练个人特定模型的动机。5.5. 重定向为了展示我们方法的灵活性,我们在野外视频中将面部和头部运动从一个人重新定位到另一个人,这些视频在这个设置中,我们在目标对象上训练神经纹理和渲染器,并在推理时使用这些学习的模型,表2:在高fps数据集上使用真实操作设置的扭曲网络的高fps比较。2倍扭曲不仅提高了速度,甚至还略微提高了渲染质量。图7:与Wang等人的比较[30]第30段。虽然这两种模型显示了相似的细节水平,但我们的模型锚定在3D表示中,这为我们提供了更细粒度和独立的控制。源目标电话:+86-21 - 6666666传真:+86-21 - 66666666图8:重定向时的新视图。我们的模型能够生成逼真的、视图依赖的小说视图(第5.4节),同时模仿源这些示例是使用Ours(1x warp)使用[24]中的目标演员生成的。由从具有不同演员的源序列重构的头部运动驱动。在图9中,我们展示了我们的方法能够仅通过传输表达式(如[24])以及映射全局头部方向来重定向[24]提供的原始结果不包括头部稳定。尽管如此,这一com-course表明,我们的方法(1x warp)是复制,甚至优于他们的图像质量。此外,当我们以完整的3D头部模型为条件时,我们能够在执行重定向的同时生成新视图,如图8所示。由于我们的方法仅近似每个场景的背景,因此我们在预测中使用5.6. 消融研究网络骨干。为了显示我们的方法正如预期的那样,扭曲在将延迟从113 ms减少到26 ms方面是有效的,但是ResNet 并 没有 优 于 UNet 架 构。 在 胡 子序 列上 ,ResNet主干2xwarp@60fps1xwarp@30fpsWang等人我们的我们的GT(2xwarp)(1xwarp)'213481Concat UV使用Θ使用MLPSH式SH跳过ExWarpExp. L1↓PSNR↑SSIM ↑延迟[ms] ↓Rel.延迟[ms]↓✓0.027625.67990.898712.80-✓✓0.027525.69940.898913.24 0.44✓✓✓0.027125.83780.901213.61 0.81✓✓✓✓0.026026.16270.903813.79 0.99✓✓✓✓✓0.024426.57050.910514.40 1.60✓✓✓✓✓✓0.025726.33260.910818.84 6.03✓✓✓✓✓✓0.024426.656214.621.82表3:使用顺序变体(1x warp)的扭曲网络的消融研究结果,显示了在bear数据集上包含每个组件所产生的相对改善。t=0t =25t =50t =75t =100t =125图9:重定向,不转移和转移全局头部运动,包括与[24]的比较。使 用 单 个 线 程 束 操 作 给 出 23.70 的 PSNR ( UNet26.66 ) , 使 用 两 个 线 程 束 操 作 给 出 23.18 的 PSNR(UNet 26.45)。模型组件。逐个添加我们完整模型中使用的参数和转换可以提高图像质量(L1、PSNR和SSIM),同时仅导致延迟和fps略有下降(参见相对延迟和相对fps列,与我们完整模型相比的相对延迟)。表3显示了以下组件上须状序列的顺序操作模式的结果:• ConcatUV:使用C3中当前和缓存的UV贴图的差异.• 使用θ:连接缓存的姿势和相机前三聚体到C3• 使用MLP:在与C3级联之前将θ,e,p通过MLPM。• SH Pose:包括θ中的球谐函数Sobj。• SH跳过:使用CoS对象• ExWarp:通过使用Ut+1对学习到的神经纹理进行采样并使用C3将其连接起来,从参考中进行显式扭曲。• Exp:缓存并连接表达式e和θ。显式扭曲(ExWarp,倒数第二行)增加了大量延迟,但没有始终如一地提高质量指标。因此,我们赞成在我们的全模型当在多个GPU上并行应用时,这些减少的延迟直接转化为提高的帧速率。并行实现中的同步开销仅为0.25ms/帧,这是我们通过运行具有与并行模式相同的线程和队列同步的顺序模型并考虑它们的延迟差来测量的。6. 限制因为我们的生成器G和变形网络W学习如何在没有显式渲染方程的情况下生成图像,所以我们需要一组不同的训练视图,以确保我们可以在推理时执行新颖的视图合成和准确的变形。我们可以在图8中看到,新视图在目标受试者耳朵周围的极端角度处中断,因为这些在我们的训练视频中看不到。这里的限制因素是面部重建算法,当面部的大部分被遮挡时,该算法变得不可靠。眼睛和张大的嘴巴也会造成问题,因为它们在底层FLAME模型中被表示为孔,因此无法对眼睛注视和舌头的方向进行建模。此外,由于FLAME模型仅估计头部的3D模型,因此在用户戴眼镜或无法表达表情的情况下,在这些方向上提高图像质量在很大程度上与我们对低延迟和高帧速率的贡献正交。7. 结论我们引入了一种隐式扭曲方法,该方法可以减少延迟,并且如果并行硬件可用,则可以提高神经人脸渲染的帧速率我们相信,随着VR和AR在消费者市场上大规模涌现,这种减少延迟和提高帧速率的并行执行将变得越来越重要因此,我们的工作朝着使用视图相关显示器的端到端VR和3D远程呈现迈出了重要的一步鸣 谢 本 研 究 由 自 然 科 学 与 工 程 研 究 委 员 会(NSERC)、华为和加拿大计算机公司(ComputeCanada)提供部分赞助。我们还要感谢Justus Thies提供他们的数据集和基线。我们的(1x翘曲)我们的(1x翘曲)DNR'19重新定位使用源重定目标目标源3482引用[1] Volker Blanz和Thomas Vetter。用于合成3D面的可变形模型一九九九年。[2] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远?(and 230,000个3D面部标志的数据集)。2017年计算机视觉国际会议[3] Joao Carreira 、 Viorica Patraucean 、 Laurent Mazare 、Andrew Zisserman和Simon Osindero。大规模并行视频网络。在欧洲计算机视觉会议(ECCV)的会议记录中,第649-666页[4] 邓宇,杨蛟龙,陈冬,方文,童欣。通过3D模仿-对比学习的解纠缠和可控的面部图像生成。在CVPR,2020年。[5] 克里斯托夫·费希滕霍夫。X3d:扩展架构以实现高效的视频识别。在IEEE/CVF计算机视觉和模式识别会议论文集,第203-213页[6] 放大图片作者:Yao Feng,Haiwen Feng,Michael J.布莱克和蒂莫·博尔卡特。从野外图像中学习可动画化的详细3D人脸模型。第40卷,2021年。[7] OhadFried , AyushTewari , MichaelZollhoüfer ,AdamFink el-stein ,Eli Shechtman ,Dan B Goldman ,Kyle Genova , Zeyu Jin , Christian Theobalt , andManeesh Agrawala.基于文本的编辑说话头视频。ACMTOG,2019年。[8] 耿嘉豪,邵天嘉,郑友谊,翁彦林,周坤。曲速引导GAN用于单张照片面部动画。ACM TOG,2018年。[9] Partha Ghosh,Pravir Singh Gupta,Roy Udine,AnuragRan- jan,Michael J Black,and Timo Bolkart. Gif:生成的可解释的面孔。2020年国际3D视觉会议(3DV),第868-878页。IEEE,2020年。[10] Ping Hu,Fabian Caba,Oliver Wang,Zhe Lin,StanSclaroff,and Federico Perazzi. 用于快速视频语义分割的时间分布式网络。 在IEEE/CVF计算机视觉和模式识别会议论文集,第8818-8827页[11] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。2017年。[12] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694-711页。施普林格,2016年。[13] 泰罗·卡拉斯、米卡·艾塔拉、萨穆利·莱恩、埃里克·哈克·奥嫩、简·赫尔斯滕、贾科·莱赫蒂宁和蒂莫·艾拉。无 干 扰 生 成 对 抗 网 络 。 arXiv 预 印 本 arXiv :2106.12423,2021。[14] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在CVPR,2019年。[15] Tero Karras , Samuli Laine , Miika Aittala , JanneHellsten,Jaakko Lehtinen,and Timo Aila.分析和改进StyleGAN的图像质量。在CVPR,2020年。[16] 迪德里克·金马和吉米·巴。Adam:随机最佳化的方法。2015年,国际会议[17] Tianye Li,Timo Bolkart,Michael J Black,Hao Li,and Javier Romero.从4d扫描中学习面部形状和表情的模型。ACM事务处理图表,36(6):194[18] MateuszMalinowski , GrzegorzSwirszcz , JoaoCarreira,and Viorica Patraucean.Sideways:视频模型的深度并行训练。在IEEE/CVF计算机视觉和模式识别会议论文集,第11834[19] Ben Mildenhall,Pratul P Srinivasan,Matthew Tancik,Jonathan T Barron , Ravi Ramamoorthi , and Ren Ng.Nerf:将场景表示为用于视图合成的神经辐射场。欧洲计算机视觉会议,第405-421页。Springer,2020年。[20] Koki Nagano,Jaewoo Seo,Jun Xing,Lingyu Wei,Zimo Li , Shunsuke Saito , Aviral Agarwal , JensFursund,and Hao Li. paGAN:使用动态纹理的实时化身。ACM TOG,2018年。[21] Kyle Olszewski 、 Zimo Li 、 Chao Yang 、 Yi Zhou 、Ronald Yu 、 Zeng Huang 、 Sitao Xiang 、 ShunsukeSaito、Pushmeet Kohli和Hao Li。使用GAN从单个图像中获得逼真的动态面部纹理。InICCV,2017.[22] Supasorn Suwajanakorn , Steven M Seitz , and IraKemelmacher-Shlizerman.合成奥巴马:从音频中学习对口型ACM TOG,2017年。[23] Ayush Tewari,Mohamed Elgharib,Gaurav Bharaj,Flo-rianBernard , Hans-PeterSeidel , PatrickPe'rez , MichaelZ?llhofe r和ChristianTheobalt。StyleRig:RiggingStyle-GAN用于对肖像图像进行3D控制。在CVPR,2020年。[24] Jus t usThies,MichaelZollh oüfer,andMatthiasNießne r.延 迟神 经 渲染 : 使 用神 经 纹 理的 图 像 合成 。 ACMTransactions on Graphics(TOG),38(4):1-12,2019。[25] Just usTh
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功