面向虚拟现实的3D社交存在优化方法

41 浏览量更新于2023-10-25 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

20323面向虚拟现实的阿敏·朱拉布鲁*费尔南多·德拉托雷†杰森·萨拉吉·施恩伟斯蒂芬·隆巴迪·李德·王达尼埃尔·贝尔科·秋特林布尔·埃尔南·巴迪诺Facebook现实实验室，宾夕法尼亚州匹兹堡†卡内基梅隆大学机器人研究所摘要社交存在，即与“真实”的人在一起的感觉最好的3D视频逼真的VR化身，最大限度地减少了神秘的效果依赖于个人特定（PS）模型。然而，这些PS模型的构建是耗时的，并且通常是用有限的数据可变性来训练的，这导致泛化性和鲁棒性差。影响面部表情转移算法的准确性的主要可变性摄像机配置、头戴式耳机的倾斜度），面部外观随时间变化（例如，胡须、化妆），以及心理因素（例如，照明、背景）。这是VR中这些模型可扩展性的主要缺点。本文通过提出一种经过专门增强策略训练的端到端多身份体系结构（MIA），在克服这些限制方面取得了进展 MIA在未经训练的受试者中使用最少的个性化信息（即，中性3D网格形状）。类似地，如果PS纹理解码器可用，则MIA能够驱动完整的化身（形状+纹理），在挑战场景中稳健地优于PS模型。我们对提高鲁棒性和泛化的关键贡献在于，我们的方法以无监督的方式隐式地将面部表情与滋扰因素（例如，耳机、环境、面部外观）。我们证明了优越的性能和鲁棒性的所提出的方法与国家的最先进的PS方法在各种实验。1. 介绍我们对通信系统的经验是二维的，主要是通过视频电话会议（例如，mes-senger），其包括音频和视频传输。最近关于视频会议的研究表明，*通讯作者：jourabloo@fb.com图1. 3D照片般逼真的化身由VR头戴式设备中的三个头戴式摄像机（HMC）图像驱动。本文提出了一种系统，以驱动逼真的化身鲁棒性与可变性的耳机，照明，环境背景，头部姿势和面部外观。技术越能模拟面对面的互动，参与者就越能集中注意力、参与并保留信息[43]。通过远程呈现与虚拟现实（VR）进行更高级的通信[5，8，12，19，30，34，44，45]将允许远程位置的虚拟存在如果成功，这种新的面对面互动形式可以减少旅行的时间和财务承诺，使销售会议或家庭会议更加身临其境，对环境和个人时间的使用产生巨大影响今天，AR/VR中的大多数化身实时系统都是卡通式的（例如，Hyprsense，Loom AI）;另一方面，好莱坞使用先进的计算机图形技术和个人特定模型（例如，Siren）。虽然其中一些化身可以从相机实时驱动，但构建PS模型是一个非常耗时和手动调整的过程，这阻碍了这项技术的民主化。本文在这方面取得了进展，通过将VR头戴式耳机中的头戴式摄像机（HMC）图像中的微妙面部表情转移到3D说话头上来生成视频逼真的化身（见图1）1）。我们建立在最近的编解码器化身（CA）[26]上，从Plenoptic研究中学习PS模型。回想一下，从HMC摄像机驾驶化身通常比20324（一）（b）第（1）款（c）第（1）款（d）其他事项（e）（f）第（1）款耳机耳机耳机耳机耳机环境环境环境环境环境面部外观面部外观图2.比较在多个HMC捕获中的主体的HMC图像与耳机、环境和面部外观的变化(a)训练HMC捕获，（b-e）测试HMC捕获。蓝色粗体显示相对于训练捕获（a）的变化。（f）中的红色圆圈显示了耳机内摄像头的位置。比从常规相机驾驶它更有挑战性（例如，iPhone）[25，37，52]，由于IR相机和化身的纹理/形状之间的域差异，由于耳机可变性（例如，摄像机位置、IRLED照明）、近摄像机视图引入的高失真以及面部的部分可见性（图2）。Wei等[49]提出了一种端到端的深度学习网络，用于学习HMC图像和参数化化身之间的映射。首先，该模型使用十一视图HMC头戴式耳机以无监督方式解决HMC图像与化身参数之间的未知对应关系。第二，为了从三个HMC图像（即，推论），Weiet al.[49]学习编码器网络，从3视图HMC图像回归（3）第三章。虽然先前的工作已经报道了令人信服的照片逼真的面部表情转移结果，但是现有的方法由于该方法的PS性质而具有限制在收集PS样本以学习鲁棒模型时，捕获足够的统计变异性是耗时、昂贵且容易出错的。它通常需要记录几个会话，其中照明、耳机和图标变化（例如，化妆，胡须），这限制了它的可扩展性。为了构建通用模型（以中性形状为条件），本文最重要的贡献是提出多身份架构（MIA），一种分解讨厌参数的架构，如相机参数，面部美学变化（例如，胡须、化妆）和环境因素（例如，照明）从面部运动（即，面部表情）。这是至关重要的，因为编码器能够从HMC图像中仅提取与最终任务相关的信息，该最终任务是传递微妙的面部表情，并且编码器能够边缘化不相关的信息（耳机、面部外观、环境）。这意味着，这导致了一种算法，该算法以无监督的方式跨用户对齐面部表情（3D形状+纹理）。回想一下，以监督或非监督的方式跨用户对齐微妙的面部行为（使用3D形状+纹理两者）也就是说，我们如何才能找到跨学科表达的对应关系？即使手动完成，这也是一个极具挑战性的问题，而MIA（据我们所知）是第一个以无监督和有区别的方式解决这个问题的算法（见第4.3节）。MIA产生了一种用于VR的面部表情转移算法，该算法在现实场景中改进了PS模型。2. 先前工作2.1. 动画风格化和编解码器化身从视频中制作风格化的化身有着悠久的历史，例如[7]将通用的3DMM适配到面部，并使用它将面部运动重新定位到3D角色。为了提高准确性，Chaudhurietal.[6]提出了从受试者的输入视频中学习在[42]中，通过利用用于拟合表情的可微分渲染层以自监督方式估计面部动作单元强度，图3.训练和测试管道动画的脸编解码器头像。在数据收集阶段，我们执行面部捕获以生成受试者的编解码器化身[26]和HMC捕获。我们利用[49]来找到化身和HMC捕获之间的对应关系。最后，我们可以训练一个模型来实时地从HMC图像中动画化编解码器化身（CA）。20325图4. 多身份架构（MIA）。它由三个主要部分组成：骨干网B、3D形状网G，纹理网络Fi。标识选择器模块将特征传递到对应的纹理网络。将表达式重定向到字符。相比之下，由于HMC图像中面部的部分可见性、特定硬件和有限的现有数据，从VR头戴式设备[12，18，27，33]进行表情转移更具挑战性CA通过从HMC [9，26，39，49]估计PS形状和纹理模型的参数来制作化身的动画，参见图3。在[26]中，利用真实和合成HMC图像的组合来减少IR光谱中的真实HMC图像与用于训练编码器的渲染图像之间的域间隙，并减少HMC-化身域间隙。Wei等[49]利用循环GAN实现11视图HMC图像和CA之间的准确然后，他们从3-视图HMC图像训练一个人特定的回归量Chu等人[9]建议使用模块化CA，以便为眼睛和嘴巴设置更多的自由度。在另一种方法中，Richardet al. [36]基于注视方向和音频输入来模拟CA。上述方法依赖于PS模型，通常对耳机和环境的变化不鲁棒2.2. 3D形状估计基于模型的形状和纹理估计的早期方法是基于主动形状模型 [11] （ ASM ）和主动外观模型 [10 ， 28]（AAM）。AAM方法学习形状和外观的联合整体模型。三维变形模型（3DMM）提供了一个密集的三维表示的脸，例如 . Basel Face Model [35] 和FaceWarehouse [3]。在[16，21]中，3DMM被引入到端到端CNN训练中，以区分地估计给定单个输入图像的面部的3D形状。Tran等人[47]提出通过深度神经网络从野外图像中学习非线性3DMM，并且以这种方式3DMM能够表示非线性面部表情。[13]中提出的方法可以从3D形状中提取依赖于表达式的细节，一个单一的形象。[14]建议使用GAN生成器用于3DMM拟合和估计高保真UV纹理。类似地，[20]建议利用面部的体积表示而不是使用3DMM。在[15]中提出的一种无监督方法，用于识别3DMM拟合，回归3D形状和纹理。此外，在[38]中，在同一主题的图像之间利用身份约束。类似于[47]，我们学习非线性判别式3DMM，但我们将其扩展为从给定中性3D形状的HMC图像中学习模型，并以无监督方式跨子据我们所知，这是第一个以无监督的方式解决跨主题表达对应的工作3. 多重身份模型本节描述了所提出的多身份架构（MIA）和增强技术，以鲁棒化和推广现有的编码器模型，用于驱动CA。3.1. 多身份架构（MIA）给出眼睛和嘴的3视图HMC图像（见图11）。1），我们的目标是估计CA（形状+纹理）的面部表情，并将其渲染到VR中的任意视图中MIA有三个主要部分（见图4）：骨干网络，3D形状网络和纹理分支。骨干网：骨干网，图中的B4、是在受试者之间共享的它的目标是分解前-从其他干扰因素，如照明，背景，或摄像机的意见，并建立一个内部表示，是不变的这些因素。正如我们将在实验部分所示，MIA自然发现，对跨主体的HMC图像进行编码的最佳方式是除了所提到的讨厌因素之外，还边缘化特定于人的因素。这导致学习仅保留表达而不需要解决主题之间的表达的对应性的嵌入。3D形状网络：MIA假设中性形状20326我i=0时S不骨干编码器B跨身份进行训练，以通过联合训练来鼓励鲁棒性受多任务学习技术[4，32]的启发，我们还学习了特定于个人的适应层Fθ，它将由Bθ产生的身份一致性表达嵌入转换为每个身份最后，为了消除z中不必要的维度，即非信息维度，我们应用PCA降维，表示为P∈R256×80到每个身份的潜在空间，并在训练期间固定它。这些组分一起用于生成PS表达蛋白。参数如下：Z=P（F（B（H0，H1，H2）+z，（4）图5.将3D增强层应用于HMC图像的示例。第一行：真实的HMC图像，第二行：通过改变3D姿态，焦距和背景来增强图像.在g i v e n 1 中，SN∈R7306×3 。这是唯一的信息MIA需要概括的网络的形状组成部分，未经训练的科目。训练网络 Gγ ，从 HMC 中估计三维形状Sε∈R7306×3图像. 网络G将网络G的输出i i θi i i i ii其中i是主题索引，zi是主题i的平均表达参数。然后，我们使用Eqn。3，以从视图v生成估计的纹理Tv。为了指导网络，我们最小化估计和目标表达参数和纹理之间的欧几里得损失Li=<$z−z<$ $>2+λ<$WT<$（Tv−T<$v）<$2，（5）γ骨干网B节点和SN节点来估计人员的空间分布。Ti i2Ti i2精确的三维形状表达残差。中性的3D形状用于重新注入在B中被分解的个人特定信息。例如，可以从每个对象的中性3D形状SN中提取跨身份变化的眼睛张开度这样，我们将对象i的3D形状重建为：其中WT是来自HMC图像的可见区域的权重掩模，λT是纹理损失的权重。总损失：整个MIA网络都是端到端训练的，通过最小化以下参数来优化网络ΣKS =SN+ G（B（H0，H1，H2），SN）.（一）尽量减少γ，{θi}Ki=0时i+λSLi，（6）iiγii i i i网络Gγ通过最小化目标Si和估计的S_i3D形状之间的欧几里得距离来训练其中K是受试者数量，λS是形状损失的权重Li=<$WS<$（ S-S<$）<$2，（2）3.2. 增强SII2其中WS是可见区域的权重遮罩。纹理网络：当预训练的PS纹理解码器可用于每个身份时，我们的目标是能够稳健地并且以最小的自适应努力从HMC图像动画化CA在本文中，我们假设[26]中的预训练解码器Dφ可用，但我们的工作也可以类似地应用于其他PS模型（例如[24，46]）。网络Dφ将表达式参数作为输入，z∈R256和视图向量v∈R3，并且生成人特定和视图特定的纹理Tv∈R1024×1024×3，该纹理Tv ∈ R 1024 × 1024 ×3与形状一起可以用于渲染化身，Tv = Dφ（z，v）。（三）然而，由于每个PS模型都是独立于所有其他模型进行训练的，因此潜在空间z的结构在身份之间并不一致。我们希望利用共享的1从单个或几个镜头的手机捕获图像中提取中性人脸是一个研究得很好的问题[25，37，52]，并且有许多商业解决方案可用[1，2]。数据增强是一种广泛实践的启发式方法，许多深度学习任务。主要目标是使训练数据中的变化分布与测试集中的变化分布更相似。最常见的数据增强技术包括缩放[41]，颜色增强[23]，简单的几何变换[40]和利用合成数据[22，29]。然而，我们的任务中的可变性的主要来源源于头戴式耳机因素，例如相机放置和焦点的变化，以及头戴式耳机相对于面部的倾斜度，其在使用期间变化。这些变化不容易使用不考虑面部的3D形状的标准增强技术来建模在本文中，我们通过扰动训练集中人脸形状的3D旋转和平移来模拟基于耳机的变化，并使用它来重新渲染随机背景上每个HMC图像的增强视图图中示出了一些示例五、如下面的实验部分所示，这种简单的增强技术大大提高了我们的方法对现实世界变化的鲁棒性。L20327主题三维形状误差（mm）HMC MIA GT HMC MIA GT图6.基于[49]中的11视图结果，估计六个未经训练的受试者的3D形状及其地面真实值的测试结果4. 实验结果本节报告了MIA的实验结果和分析第一个实验展示了MIA如何直接从未经训练的受试者的HMC图像中估计准确的3D形状在第二个实验中，我们评估了MIA的纹理预测的质量与预先训练的化身在具有挑战性的测试场景下的身份。在第三个实验中，我们展示了MIA如何以最少的训练将新的主题结合起来。此外，我们还进一步分析了MIA在适应之前和适应过程中学习的内容数据：我们使用了120个不同主题的HMC捕获用于训练，21个HMC捕获用于测试。训练和测试HMC捕获不重叠。每个HMC捕获是11个视图的HMC图像的45分钟长的视频（30fps），并且包含73个峰值表情、两组连续运动范围、50个句子的背诵和5-10分钟的转换。HMC图像在红外光谱中，分辨率为480×640。在测试期间，只有3视图可用。对于每一个主题，我们都有一个预先训练的去-编码器从任意视图生成用于各种表情的PS纹理。对于如何构建PS解码器的更多信息，参见[26]和等式10。3 .第三章。地面真相：我们利用[49]中方法的结果，解决了11视图HMC表1.在未经训练的受试者中进行3D形状估计的测试结果脸眼睛嘴人11 .一、681 .一、08二、90人21 .一、511 .一、21二、32人31 .一、070的情况。741 .一、82人41 .一、841 .一、20二、92人51 .一、450的情况。89二、23人61 .一、470的情况。97二、56人71 .一、731 .一、20二、98人81 .一、570的情况。89二、52人91 .一、210的情况。911 .一、84人101 .一、581 .一、00二、68整体1 .一、51±0。231 .一、00±0。16二、47±0。42在眼睛中，它们捕捉张开和眨眼的错误，而在嘴巴中，它们捕捉对视觉语言重要的唇形的偏差。类似地，眼睛中的纹理误差通常是由于注视方向的误差，并且在口腔中，其对应于不正确的牙齿和舌头估计。实现细节：在训练中，我们使用Adam优化器，将批量大小设置为32，初始学习率设置为1e−3。我们在每25K次迭代后将学习率降低8 e-1。总的来说，我们训练编码器250 K迭代，并将λT和λS都设置为100。我们将HMC图像裁剪并调整大小为192×192，以专注于面部区域。骨干网络B由两个剩余网络组成，图像和CA参数作为地面实况。召回作品[17]，一个用于眼睛图像H0，H1∈R192×192×2训练数据是用11个视图捕获的，在HMC和CA之间的对应关系更精确的结果，而测试数据只有三个视图。基线方法：我们将MIA与[49]中的个人特定（PS）编码器进行了比较。PS编码器使用一个HMC捕获（3视图图像）进行训练，并使用与我们的参数相同数量的CNN架构。评估指标：我们报告的平均欧几里德误差的眼睛，嘴和面部地区分别为3D形状和纹理。3D形状误差以毫米为单位测量，纹理误差以原始强度值（即0-255）为单位测量.我们报告本地化的错误度量，以更好地分析故障模式。例如，3D形状误差20328另一个为H2∈R192×192。每个网络由一个Res-Net头模块、五个BottleNeck模块和一个64路全连接层组成。每个BottleNeck块由10个卷积层组成，具有3×3和1×1滤波器。我们在卷积中添加快捷连接-每个层后面都是ReLU [31]和实例规范化[48]层。为了提取最终的身份不变特征，我们将全局平均池化和64路全连接层应用于最后一个BottleNeck块的激活。3D形状网络的架构Gγ由四个完全连接的层组成，其中每个层后面都是负斜率为0.2的泄漏ReLU [51]层。我们将提取的特征归一化20329图7.测试结果，从未经训练的受试者的HMC图像中估计3D形状，用于各种表情。从HMC图像和中性3D形状，考虑到它们的不同域，通过在连接特征后采用组归一化[50最后，对于纹理网络Fθ，我们利用ReLU层和无偏全连接层的组合。4.1. 定量评价本节使用三个实验来量化MIA的性能：（1）驾驶未经训练的受试者的3D形状。(2)具有训练的PS模型的受试者的形状和纹理估计的鲁棒性。(3)对新学科的学习特征的概括。驱动3D形状：形状生成网络Gγ的输入是HMC图像和对应的识别我们使用等式中的损失函数训练具有120个子节点的网络二是指导。图6示出了来自六个未经训练的受试者的极端表达示例的估计的3D形状以及它们的基础事实。我们的3D形状估计器捕捉微妙的细节，在表达式中推断社会信号所必需的.表1显示了10个未经训练的受试者的整个序列的面部、眼睛和嘴部区域的3D形状误差面部/眼睛的误差小于2 mm，口腔的误差小于3 mm。重新调用MIA不使用除中性形状之外的测试对象的任何样本，并且在训练期间从未见过这些对象的图图7显示了一个未经训练的受试者在广泛范围内的测试结果。请注意，PS [49]无法估计3D为未经训练的对象。将表1与表2中的3D形状误差的PS我们怀疑这是因为MIA学会了从120个训练对象中边缘化问题的外在变化（即环境，耳机），而PS倾向于过拟合用于训练的特定HMC捕获会话更多的比较结果可以在补充材料的视频中找到。驱动完整的化身：在这个实验中，我们评估了MIA生成形状和纹理的能力，以及它对诸如耳机、环境和面部外观变化等外在因素的鲁棒性。这里，测试对象的数据在训练期间可用，但是来自不同的选定的主题是在五个不同的日期拍摄的; HMC图像的例子如图所示。二、这些样本显示了由于面部毛发、头戴式耳机倾斜中的姿势变化以及头戴式耳机之间的相机组件差异而导致的较大外观变化;它还包含由于环境变化和整体照明差异而导致的背景变化。我们使用受试者的一个HMC捕获（图2（a））和其他受试者的119个HMC捕获进行训练，并对该受试者的剩余四个HMC捕获进行测试。表2比较了MIA与PS的测试误差[49]。在与训练捕获非常相似的测试捕获1上，PS [49]的性能优于MIA。但是，表2.具有不同变化的多个测试HMC捕获的受试者的测试结果。对象的一个HMC捕获在训练集内。3D形状误差以mm为单位，纹理误差以强度为单位.测试捕获样品图像变化方法三维形状误差纹理错误脸眼睛嘴脸眼睛嘴1图二、（b）第（1）款耳机PS [49]0的情况。850的情况。651 .一、331 .一、131 .一、931 .一、50米娅1 .一、200的情况。851 .一、901 .一、33二、341 .一、792图二、（c）第（1）款耳机面部外观PS [49]二、040的情况。774.第一章711 .一、84二、473 .第三章。51米娅1 .一、280的情况。79二、221 .一、49二、52二、003图二、（d）其他事项耳机面部外观PS [49]1 .一、900的情况。983 .第三章。681 .一、65二、73二、84米娅1 .一、260的情况。86二、231 .一、32二、52二、03203304图二、（e）环境面部外观PS [49]二、210的情况。864.第一章921 .一、92二、333 .第三章。39米娅1 .一、140的情况。731 .一、941 .一、45二、11二、05整体PS [49]1 .一、75±0。610的情况。81±0。133 .第三章。66 ±1。641 .一、63±0。352.36±0.33二、81±0。92米娅1.22±0.060.80±0.062.07±0.171.39±0.08二、37±0。191.96±0.1220331表3.通过预先训练好的固定骨干网对新课题进行训练和测试的测试结果。方法三维形状误差纹理错误脸眼睛嘴脸眼睛嘴PS [49]米娅1 .一、12±0。261.05±0.190的情况。74 ±0。110.74±0.091 .一、98±0。651.71±0.372.22±0.61二、22±0。62二、90±0。952.88±0.81二、77±0。832.65±0.78当测试其他捕获时，其性能显著下降，其中环境和面部外观的变化更加极端。请注意，MIA的总体误差，对于所有3D形状和纹理区域，更稳定，并且在所有测试捕获中同样较低。图的前两行10显示了测试HMC捕获的方法的视觉比较，其中PS结果中的表达细节显著减少[49]。我们建议读者参考补充材料以获得更多结果。适应新的身份：我们评估了MIA6名受试者中的每一名都有一个以上的HMC捕获，表现出外在因素的变化。我们使用预先训练的MIA网络与120个主题（不包括测试6个主题），并固定形状生成网络G和骨干网络B。对于每个新的主题，我们训练了一个新的小纹理网络Fθ。在对HMC变化捕获的测试中，我们使用新训练的纹理估计分支来估计纹理参数，并利用方程（1）对纹理和3D形状进行解码。3 .第三章。表3示出了6个子帧的7个测试HMC捕获的不同区域的3D形状和纹理MIA在所有区域实现了较低的误差，具有较小的变化性，证明了从固定骨干网络提取的特征的有效性。图10的最后三行示出了这种情况的可视化。4.2. 消融研究3D增强层：为了分析使用3D增强层的优势，我们比较了PS [49]模型的误差，使用1名受试者训练的具有3D增强的MIA，使用30名受试者训练的没有3D增强的MIA（3DAug），以及使用30名受试者训练的具有3DAug的MIA。图8示出了表2中的四个测试捕获的平均误差。它表明，与PS相比，即使使用具有1个受试者的3D Aug层也会略微减少错误[49]。然而，有一个巨大的下降，错误使用3D八月层与30个主题.这种减少呃-图8. 三维增强层的优点是，三维增强和多分辨分析同时使用，误差显著降低.图9.培训科目数量的影响。形状误差随着训练对象数量的增加而减小。ROR在口腔区域中更显著。结果表明，MIA与3DAug相结合是有效的.受试者数量的影响：我们评估了受试者数量的影响。在测试过程中，训练受试者的数量对MIA性能的影响我们用30、60、100和120个受试者训练MIA，并在10个未经训练的受试者上测试它们以估计3D形状。图9示出了通过增加训练对象的数量，3D形状误差减小，特别是对于嘴部区域。4.3. 无监督表达式对应MIA隐式地学习求解表达式之间的对应关系，以便边缘化讨厌的参数（例如，照明）。它自然地发现，对HMC多身份数据进行编码的最佳方式是找到一个只包含表情信息的潜在图11显示了MIA如何学习解决表达式之间的对应关系。第一列示出了输入HMC图像，并且第二列是第一列中的受试者的CA。剩余列是从第一列中的HMC图像驱动的其他子对象的CA，即，利用从HMC图像提取的相同特征来估计（通过使用对应的Fθ）剩余对象中的每一个的潜在空间中的新的表达参数（具有相同的面部表情含义）z。正如我们所观察到的，MIA能够以无监督的方式在所有主题中对齐表达式，并创建一个公共的表达式空间。请注意图11中第二行的嘴部区域，该区域显示了具有不同嘴部内部的相同表情。5. 结论和未来方向本文提出了MIA的鲁棒性和一般化的ex-campus驱动CA的方法。MIA学习提取与面部表情相关的身份不变特征，同时以无监督的方式边缘化讨厌的因素（耳机、环境、面部表情）。我们表明，MIA是能够驱动的形状组件在未经训练的子树，如果PS纹理解码器是可用的，与最小的妈妈训练，MIA可以驱动CA的新的主题。对于未来的发展方向，首先，我们将设计新的损失函数的基础上关闭的3D表面的嘴唇和眼睛的关闭模型。其次，我们将致力于纹理条件解码器，使该方法的纹理部分可推广到新的主题，而无需预先训练的解码器。20332HMC PS [49] MIA GT HMC PS [49] MIA GT图10. PS [49]和MIA方法的比较，用于从HMC图像动画化编解码器化身。MIA可以估计更有表现力和准确的表达式。图11.通过使用相同的输入HMC图像，训练主体的同步表达的例子20333引用[1] FacePlusPlus。https：www.faceplusplus.com/3dface/. 4[2] KeenTools。https://keentools.io/网站。4[3] 曹晨、翁彦林、周顺、童一英、周坤。Facewarehouse：一个用于视觉计算的3D面部表情数据库。IEEE Trans.Vis. Comput. Graph. ，20（3）：413-425，2013. 3[4] Jiajiong Cao，Yingming Li，Zhongfei Zhang.局部约束部分共享多任务卷积神经网络人脸属性学习。在IEEEConf.目视模式识别，第4290-4299页，2018年。4[5] Prashanth Chandran，Derek Bradley，Markus Gross，andThabo Beeler.语义深层人脸模型。在国际会议3D可视第345-354页。IEEE，2020年。1[6] Bindita Chaudhuri，Noranart Vesdapunt，Linda Shapiro和Baoyuan Wang。个性化的人脸建模，用于改进人脸重建和运动重定向。以Eur. Conf.Comput.目视第142-160页。Springer，2020年。2[7] Bindita Chaudhuri ， Noranart Vesdapunt ， and BaoyuanWang.多个人脸的联合人脸检测和人脸运动重定向在IEEE Conf. Comput.目视模式识别，第9719-9728页，2019年。2[8] Lele Chen ， Chen Cao ， Fernando De la Torre ， JasonSaragih，Chenliang Xu，and Yaser Sheikh.基于深度光照适应的增强现实/虚拟现实高保真人脸跟踪在IEEE会议Comput.目视模式识别，第13059-13069页1[9] Hang Chu，Shugao Ma，Fernando De la Torre，Sanja Fi-dler，and Yaser Sheikh.通过模块化编解码器化身表达远程呈现以Eur.确认补偿目视第330Springer，2020年。3[10] Timothy F Cootes，Gareth J Edwards，and Christopher JTay- lor.活动外观模型。以Eur.确认补偿目视第484-498页。Springer，1998年。3[11] Timothy F Cootes ， Christopher J Taylor ， and AndreasLani- tis.活动形状模型：评估用于改进图像搜索的多分辨率方法。在英国。马赫目视Conf. 第1卷，第327-336页。Citeseer，1994年。3[12] Mohamed Elgharib ， Mallikarjun BR ， Ayush Tewari ，Hyeongwoo Kim，Wentao Liu，Hans-Peter Seidel，andChris-tian Theobalt.自我脸：以自我为中心的面部表现捕捉和视频逼真的重演。 arXiv 预印本 arXiv ：1905.10822，2019。第1、3条[13] Yao Feng，Haiwen Feng，Michael J Black，and TimoBolkart.从野外图像中学习可动画化的详细3d人脸模型。ACM事务处理图表，40（4）：1-13，2021. 3[14] Baris Gecer ， Stylianos Ploumpis ， Irene Kotsia ， andStefanos Zafeiriou.Ganfit：用于高保真3D人脸重建的生成对抗网络拟合。在IEEE会议Comput.目视模式识别，第1155-1164页3[15] Kyle Genova、Forrester Cole、Aaron Maschinot、AaronSarna、Daniel Vlasic和William T Freeman。三维变形模型回归的无监督训练。在IEEE会议Comput. 目视模式识别，第83773[16] Jianzhu Guo ，Xiangyu Zhu，Yang Yang， Fan Yang ，Zhen Lei，and Stan Z Li.迈向快速、准确、稳定的3D密集20334面对齐。以Eur.确认补偿目视第152Springer，2020年。3[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在IEEE会议Comput. 目视模式识别，第7705[18] Steven Hickson ， Nick Dufour ， Avneesh Sud ， VivekKwatra和Irfan Essa。Eyemotion：使用眼动追踪摄像头对 VR 中的面部表情进行分类。在 IEEE WinterConference on Applications of Computer Vision 中，第1626IEEE，2019。3[19] 胡涛， Kripasindhu Sarkar ， Lingjie Liu ， MatthiasZwicker，and Christian Theobalt.Egorenderer：从以自我为中心的相机图像中渲染人类化身。在国际会议计算机上。目视第14528-14538页，2021。1[20] Aaron S Jackson，Adrian Bulat，Vasileios Argyriou，and Georgios Tzimiropoulos.通过直接体积cnn回归从单幅图像重建大姿态三维人脸。在国际会议计算中目视，第1031-1039页，2017年。3[21] Amin Jourabloo，Mao Ye，Xiaoming Liu，and Liu Ren.用单个cnn实现姿态不变的人脸对齐在Int. Conf. 计算机。目视，第3200-3209页，2017年。3[22] 马丁·克劳迪尼，史蒂文·麦克唐纳，德里克·布拉德利，塔博·比勒，肯尼·米切尔。实时多视图面部捕捉与合成训练。在计算机图形格式，第36卷，第325-336页。Wiley Online Library，2017. 4[23] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在高级神经信息。过程系统第1097- 1105页，2012年。4[24] 李健熙和李成焕用于高保真3D人脸重建的不确定性感知网格解码器。在IEEE Conf. Comput.目视模式识别，第61004[25] 林江珂、袁毅、邵天佳、周坤。使用图卷积网络从野外图像重建高保真3d人脸在IEEE会议Comput.目视模式识别，第5891二、四[26] 斯蒂芬·隆巴迪、杰森·萨拉吉、托马斯·西蒙和亚瑟·谢赫。用于面部渲染的深层外观模型。ACM事务处理图表，37（4）：1-13，2018. 一、二、三、四、五[27] Jianwen Lou，Yiming Wang，Charles Nduka，MahyarHamedi，Ifigeneia Mavridou，Fei-Yue Wang，and HuiYu.为VR头盔用户提供逼真的面部表情重建。IEEE Trans. Multimedia，22（3）：730-743，2019。3[28] 伊恩·马修斯和西蒙·贝克。主动外观模型重新审视。国际计算机目视，60（2）：135-164，2004. 3[29] 史蒂文·麦克唐纳，马丁·克劳迪尼，德里克·布拉德利，塔博·比勒，伊恩·马修斯和肯尼·米切尔。实时人脸跟踪的综合先验设计在Int. Conf. 三维可视化，第639-648页IEEE，2016. 4[30] Koki Nagano，Jaewoo Seo，Jun Xing，Lingyu Wei，Zimo Li ， Shunsuke Saito ， Aviral Agarwal ， JensFursund，and Hao Li.pagan：使用动态纹理的实时化身ACM Trans.Graph. ，37（6）：1-12，2018. 1[31] Vinod Nair和Geoffrey E Hinton。修正线性单元改进受限玻尔兹曼机。InInt. Conf. Machine Learning，2010. 520335[32] J Naruniec，L Helminger，C Schroers，and RM Weber.高分辨率神经人脸交换视觉效果。计算机图形论坛，第39卷，第173-184页。Wiley在线图书馆，2020年。4[33] Kyle Olszewski ， Joseph J Lim ， Shunsuke Saito ， andHao Li.用于虚拟现实头盔的高保真面部和语音动画。ACM事务处理图表，35（6）：1-14，2016. 3[34] Sergio Orts-Ehrano，Christoph Rhemann，Sean Fanello，Wayne Chang，Adarsh Kowdle，Yury Degtyarev，DavidKim ， Philip L Davidson ， Sameh Khamis ， MingsongDou，et al. Holoportation：Virtual 3d teleportation in real-time.在用户界面软件和技术研讨会上，第741-754页，2016年。1[35] Pascal Paysan、Reinhard Knothe、Brian Amberg、SamiRomdhani和Thomas Vetter。一种用于姿态和光照不变人脸识别的三维人脸模型。在高级视频和基于信号的监视国际会议上，第296-301页。IEEE，2009年。3[36] 亚历山大·理查德、科林·李、马树高、于尔根·加尔、费尔南多·德拉托雷和亚瑟·谢赫。音频和凝视驱动的编解码器化身的面部动画。在2020年IEEE计算机视觉应用冬季会议上。3[37] Joseph Roth，Yiying Tong，and Xiaoming Liu.基于无约束照片集的自适应三维人脸重建。在IEEE Conf. Comput.目视模式识别第4197二、四[38] Soubhik Sanyal ， Timo Bolkart ， Haiwen Feng ， andMichael J Black.学习在没有3d监督的情况下从图像中回归3d面部形状和表情在IEEE会议Comput. 目视模式识别，第7763-7772页，2019年。3[39] Gabriel Schwartz、Shih-En Wei、Te-Li Wang、StephenLom- bardi 、 Tomas Simon 、 Jason Saragih 和 YaserSheikh。眼睛有它：一个集成的眼睛和面部模型的照片逼真的面部动画

下载后可阅读完整内容，剩余1页未读，立即下载