表情康复练习的RGB图像测量3D面部变形

67 浏览量更新于2024-01-24 收藏 1.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

引文：Claudio FERRARI，Stefano BERRETTI，Pietro PALA，Alberto Del BIMBO.从表情康复练习的RGB图像测量3D面部变形。虚拟现实智能硬件，2022，4（4）：306虚拟现实智能硬件·文章·2022年6月第4卷第4期：30610.1016/j.vrih.2022.05.004从表情康复练习Claudio FERRARI1*，Stefano BERRETTI2，Pietro PALA2，Alberto Del BIMBO21. 帕尔马大学工程与建筑系意大利帕尔马43124;2. 佛罗伦萨大学信息工程系，佛罗伦萨50139，意大利接收日期：2022年4月28日;修订日期：2022年4月28日;接受日期：2022年5月24日翻译后摘要：背景三维人脸变形的准确（定量）分析是一个问题，在许多应用中越来越感兴趣。特别是，在现有文献中，将面部变形的3D模型定义为2D目标图像以捕获局部和非对称变形仍然是一个挑战。这种局部变形的量度可以是用于监测患有帕金森氏病或阿尔茨海默氏病的患者或从中风中恢复的患者的康复锻炼的相关指标。方法在本文中，一个完整的框架，允许建设一个3D变形形状模型（3DMM）的脸适合目标RGB图像。该模型具有基于局部变形分量的具体特征。从3D到2D进行拟合变换，并由目标图像中检测到的标志与平均3DMM上手动注释的标志之间的对应关系指导拟合还具有在两个步骤中执行的区别，以将与目标主体的身份相关的面部变形与由面部动作引起的面部变形分离。结果利用包含11个主题的MICC-3D数据集对该方法进行了实验验证。每个受试者都以一个中性姿势成像，同时执行18个面部动作，使面部以局部和不对称的方式变形。对于每次采集，将3DMM拟合到RGB帧，由此从顶点面部动作和中性帧计算变形的程度。实验结果表明，该方法能够准确地捕捉人脸变形，甚至局部和非对称变形。结论所提出的框架表明，它是可能的测量变形的重建三维人脸模型，以监测面部动作响应于一组目标。有趣的是，这些结果仅使用RGB目标获得，而不需要使用昂贵的设备捕获的3D扫描这为在远程医疗康复监测中使用所提出的工具铺平了道路关键词：3D形变人脸模型;稀疏和局部相干3DMM组件;局部和非对称;人脸变形;人脸修复;人脸变形测量1介绍人脸在人际互动中起着核心作用，因为宏观和微观表情在很大程度上有助于传达情感状态。最终，皮肤组织的可见变形*通讯作者unipr.it2096-5796/©版权所有2022北京中科学报出版有限公司Elsevier B. V.代表KeAi Communation Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。307Claudio FERRARI，et al.从表情康复练习的RGB图像测量3D面部变形源于面部肌肉的收缩。不幸的是，面部肌肉可能会受到由于严重或完全丧失运动功能而导致的收缩力降低或某种形式的瘫痪的影响。面瘫（即，麻痹）可发生在任何年龄组，在大多数情况下影响单侧面部。其发病特征为患侧面部表情肌肉突然麻痹、前额皱纹变浅、患侧眼睑无法完全闭合、流泪、流涎和嘴巴偏向健康侧[1，2]。面部周围神经麻痹通常被认为是由滋养神经的局部血管的痉挛、缺血、水肿或病毒感染引起的[3]。这种功能性降低或瘫痪可能损害面部表情，并且通常导致面部的不对称变形，从而导致受影响患者的身体和心理痛苦。由于面部传达了我们大部分的情感感受，改变面部表情可以对生活质量产生巨大影响，损害人际关系和互动以及自我感知。在这些情况下，需要使用面部肌肉进行康复，以重建正常或至少可接受的功能水平。随着康复训练的发展，物理治疗对面神经功能恢复的影响越来越受到重视[4早期物理治疗可以减轻或减轻不协调运动的严重程度，促进面部表情的恢复，增强面部肌肉的力量[7]。相比之下，也有一些情况下，减少面部肌肉的激活是美容干预的预期效果，通过产生微和局部麻痹来减少面部皱纹[8]。在某些情况下，肌肉麻痹可以通过医疗干预自愿诱导，以应对面部的不对称变形，目的是恢复面部对称性，这是公认的美丽标志[9]。在上述场景中，需要对面部变形进行定量评估，以监测肌肉运动功能随时间的动态演变。这样的评估应该考虑面部的3D变形而不是2D变形。以这种方式，可以更好地捕获由一些肌肉的运动动作引起的面部的该分析的另一个价值是远程执行面部评估的可能性，而不需要患者移动和使用动态3D扫描设备。在这方面，最自然的选择是使用消费者相机捕获的RGB图像。面部的3D可变形形状模型（3DMM）可以是针对应用需求设计有效且高效的框架的可行解决方案在本文中，提出了一个完整的框架进行面部康复练习的受试者的三维面部变形的定量评价特别是，受试者被要求通过尽可能多地复制来变形他们的脸，一些面部动作代表由视觉草图给出的康复练习。最终的目标是使用客观和定量的测量来评估受试者能够在多大程度上变形他们的脸总体框架如图1所示。首先，将3DMM拟合到目标RGB视频帧，其中受试者表现出放松的面部而没有任何肌肉收缩，并且重建具有受试者身份的相应3D模型拟合操作利用了3D模型上标注的地标与帧中检测到的2D地标之间的对应关系（参见图1的最左侧部分）。随后，通过将先前步骤中获得的身份特定3D重建拟合到视频帧来从视频创建第二3D模型，其中执行中间或顶点面部动作。最后，在同一个体的放松和动作的3D面部模型之间计算变形的定量测量（参见图1的最右侧部分）。所提出的方法是使用佛罗伦萨大学（MICC）的媒体集成和通信中心（MICC）-3D人脸数据集开发和测试的，该数据集是专门为面部康复任务而获得的，具有各种面部动作，包括局部化，大型和不对称动作。该数据集包括高分辨率3D扫描以及低分辨率深度和RGB视频序列，共11个分区。308虚拟现实智能硬件六月（2022）卷。4条第4图1建议的框架：3DMM按照两步方法对面部动作视频序列的目标帧执行变形。首先，3DMM被变形以匹配给定对象的中性帧（序列的初始帧）的界标，从而获得身份特异性模型;然后，身份特异性模型被变形为序列的中间或最终帧，从而导致表达特异性变形。通过在序列的几个帧上重复拟合，可以通过将初始帧上的身份特定模型作为参考来计算面部变形的定量测量（参见在图的最右边部分具有着色顶点的变形的3DMM的总之，作为本研究的主要贡献，提出了一个完整的框架，允许重建的3D人脸模型的主题，给定的2D RGB视频帧。专注于我们以前的结果[10更具体地说：- 一个具体的应用程序，使用新发布的MICC-3D人脸数据集，提出了定量评估面部变形。据我们所知，在计算机视觉/虚拟现实领域还没有实验过类似的应用。- 这是首次尝试使用稀疏和局部相干（SLC）-3DMM[11]，给定单个图像，使用两步拟合方法重建3D人脸模型论文的其余部分有以下组织。在第2节中，总结了与我们提出的框架密切相关的文献。在第3节中，介绍了我们提出的方法中使用的方法，包括训练和测试数据，以及3DMM构造和拟合。第4节报告了定性和定量评价结果。最后，在第5节中，对工作进行了讨论，提出了目前的局限性以及未来的发展前景2相关工作本节重点介绍与我们提出的解决方案密切相关的文献在应用方面，我们的工作与主要出现在医疗领域的面部康复领域的研究有关，从方法和技术的角度来看，它与计算机视觉文献中讨论的从单个图像进行3D面部重建的方法有关面部康复大多数专注于从面瘫中恢复的患者的面部康复的工作出现在医学领域（例如参见Vaughan等人的工作，[13]）。Debnath等人最近发表了一项基于计算机视觉的调查[14]为身体运动而不是脸。Lou等人提供了一个全面的审查最相关的和代表性的研究视觉人脸捕捉自动化309Claudio FERRARI，et al.从表情康复练习的RGB图像测量3D面部变形面神经功能评估[15]。在这些研究中，针对可见的面部体征进行了面神经功能分析，研究了在临床实践中重要的这些研究中的许多都是在2D中进行的，计算地标之间的然而，这些研究在很大程度上低估了平面外标志位移，导致测量不准确。许多现有的3D测量[16通常会计算面部正常侧的3D标志之间的距离、角度和表面，并与瘫痪侧的距离、角度和表面进行比较[19]。仅使用标志，面部运动可以以粗略的方式勾勒，并且不能描绘面部软组织中更深入的形态变化为了解决这个问题，一些研究[24-然而，这些基于表面的方法都此外，这些方法直接捕获3D扫描，而在我们的解决方案中，3DMM适合RGB目标帧，从而大大降低了系统设置的难度和采集设备的成本Blanz和Vetter[29]提出了第一个用于3DMM训练和拟合的3DMM框架。他们使用主成分分析（PCA）独立地导出了面部形状和纹理的3DMM，以识别跨越3D扫描训练集的向量空间的主方向在这个视图中，每个3D面部扫描被解释为训练样本，并且形状和纹理被转换为向量空间表示。作者还提出了一个拟合的解决方案，从一个单一的图像重建三维人脸模型。这一开创性的工作在很大程度上影响了随后的3DMM文献。特别是Paysan等人的Basel人脸模型（BFM）将原始的3DMM提案改进为公开可用的工具。然而，原始3DMM公式和BFM都不包括训练数据集中的表达扫描[30]。Cao等人提出了一种流行的多线性3D人脸模型，称为FaceWarehouse（FWH），将表情扫描引入3DMM训练集。这里的想法是构建两个独立的线性模型：一个用于使用中性扫描的身份，另一个用于线性组合的表达式[31]。Li等人通过提出FLAME改进了FaceWarehouse模型，FLAME是一种功能强大的多线性PCA模型，由形状，表情形状混合和姿势参数组成，这些参数分别从4D序列中学习[32]。与FaceWarehouse相比，该模型使用了更多的训练扫描，展示了在训练集中使用丰富数据的优势。上述方法都是基于PCA的，它提供了一个全局分解的脸，也就是说，平均变形模型是通过作用于一个单独的变形组件，对3D人脸的大部分点的影响进行修改一些方法已经研究了除PCA之外的技术来学习变形分量。例如，Brunton等人使用小波分解来定义多线性模型，并证明了学习局部和去相关分量以处理3D-3D拟合场景中的身份和表达变化的优势他们还表明，通过选择适当的面罩，可以实现对全局模型遮挡的更高鲁棒性。然而，存在局限性，因为将模型拟合到表情面部需要基于面部标志的初始化以及专用的非标准变形过程。Lüthi等人还证明了对局部和空间不相关变形进行建模的能力，使用3DMM高斯过程[34]推广了基于PCA的统计形状模型。这项工作的作者还详细阐述了去相关面部运动以实现更大灵活性的重要性，但模型学习的局部变形无法完全再现面部的解剖结构。因此，很难直接应用这些组件来生成逼真的面部实例。Neumann等人提出了一种具有额外局部支持约束的PCA稀疏变体，以实现局部但逼真的变形[35]。然而，在该研究中，变形组件是在单个主题的网格序列上学习的，它们主要用于艺术和动画目的。Ferrari等使用字典学习方法而不是PCA来推导变形com，310虚拟现实智能硬件六月（2022）卷。4条第43DMM的优点[36]。通过这种被称为基于字典学习的3DMM（DL-3DMM）的解决方案，变形组件将形状和表情变化组合到单个模型中。这通过去除PCA施加的正交约束来增加建模能力;然而，学习的组件仍然不能执行稀疏的局部变形。最近，深度神经网络（DNN）已被用于学习非线性3D人脸模型。这些方法中提出的思想是直接从面部图像[37]或UV图[38，39]回归形状和纹理参数。其中一些解决方案还展示了使用卷积网格自动编码器对极端表达式进行建模的能力[40，41]。例如，Liu et al.从大量原始3D扫描中学习非线性面部模型[42]。使用PointNet架构[43]将面部的点云转换为潜在的身份和表情表示，这导致了全局形状模型。在点集之间建立了密集的点到点对应关系。这需要训练数据包括已知密集对应的合成扫描，类似于半监督设置。该方法还能够处理来自不同数据库的扫描。在本研究中，使用了我们先前研究[11]中定义的3DMM。该模型是从BU-3DFE数据库的扫描中学习的，该数据库包括具有不同强度的中性和表达性面部，从低到夸张。该3DMM解决方案相对于现有文献的显著特点是训练扫描的顶点被认为是独立的样本。因此，训练样本的数量是固定的，并且训练扫描的数量定义了每个样本的维度。这表明，从数据中推断额外的模式是有利的，从而提高建模能力。通过这样做，所得到的模型还减少了同一张脸的区域之间的相关性的影响，允许在单个模型中学习与身份和表情相关联的局部变形，同时确保真实和可解释的变形。3方法所提出的方法是通过依赖于三个主要组成部分开发的：（1）包括相同对象的2D和3D数据的训练数据集;（2）用于从2D图像中提取地标并将其与3D图像匹配的解决方案;以及（3）基于构建和拟合3DMM以从2D帧开始重建面部的3D形状的方法在本节的其余部分中，针对上述每个组件描述了所提出的解决方案：第3.1节（数据集）、第3.2节（标志）以及第3.3节和第3.4节（3DMM构造和拟合）。3.1MICC-3D数据集在这项研究中，使用了2019年夏天在MICC收集的数据集，称为MICC-3D[10]。这些数据将公开发布，用于研究和非商业目的。大多数现有的3D人脸数据集包括根据六个原型类分类的标准表情[44]（即，愤怒、厌恶、恐惧、快乐、悲伤和惊讶）。然而，这种分类构成了一个受约束的集合，不包括面部肌肉运动的多样性面部的局部变形与一个肌肉或肌肉群的运动相关联，可以用动作单位（AU）更好地解释。然而，AU很难执行，需要有经验和受过训练的受试者。具有AU注释的3D数据集的少数示例包括Bosphorus[45]和D3DFACS[46]。此外，目前可用的数据集包括高分辨率或低分辨率扫描，根据具体任务，这种分辨率差异可能会显著影响性能。由于现有3D人脸数据集的局限性，我们收集了MICC-3D数据集，其特征在于包括高分辨率扫描以及相应的低分辨率动态采集的独特功能。311Claudio FERRARI，et al.从表情康复练习的RGB图像测量3D面部变形同样的主题。此外，高分辨率扫描与低分辨率采集中的相应帧同步，为潜在的新研究方向铺平了道路使用3dMD高分辨率扫描仪和Microsoft Kinectv 2低分辨率RGB-D（红、绿、蓝深度）相机采集数据[10]。3dMD扫描仪可为坐在设备前的受试者提供约190°的全面部覆盖（耳到耳）。网格的几何形状非常精确，平均均方根（RMS）重建误差约为0.2 mm或更好，具体取决于设备的精确预校准和配置。扫描平均约有40，000个顶点和80，000个小平面。所获取的纹理是分辨率为3341×2027像素的立体RGB图像在图2的左侧，示出了具有对应的立体RGB图像的3D面部扫描的示例Kinect相机被用来捕捉深度和RGB帧，分辨率分别为512×424和1920×1080，频率为每秒30帧。在图2的右侧示出了样本RGB帧和从深度帧重建的3D模型。采集协议如图2所示，要求受试者在两个采集设备前静坐约80 cm的距离，这在以合理分辨率捕获Kinect面部采集室用人造光照明，允许在不同会话期间保持稳定的条件对于每名受试者，在一个会话中进行采集，持续时间约为15分钟。对于中性加18个面部动作中的每一个，Kinect记录开始，同时要求受试者复制一张纸上指示的面部动作之一。在每一个序列中，受试者都以一张中性的脸开始，并以一个高峰表情的面部动作结束。在达到顶点表情时，3D扫描仪用于捕获面部动作的高分辨率静态扫描图2还显示了3dMD扫描仪（左）和同步Kinect帧（右）捕获的样本面部之间的对比。在该程序之后，为每个受试者捕获19个高分辨率扫描（1个中性加18个有动作）和19个RGB-D序列，每个序列大约持续15-图3展示了参与者被要求复制的18个面部动作。对于每个动作，向受试者展示一张纸上草图，并为其中一名登记的个体获取相应的扫描。总体而言，数据集包括11名参与者，包括MICC的学生和工作人员，年龄从20岁到50岁不等。3.2地标检测我们的想法是将3DMM适配到目标RGB帧，以重建具有目标帧中主体的身份和面部动作的3D模型。拟合过程由在3DMM上手动注释一次的面部标志与在RGB帧中检测到的标志更具体地说，面部对齐库[47]用于识别面部中的兴趣点。给定一个RGB帧，检测到一组68个地标（图4）：17个蓝色地标界定面部轮廓，10个蓝色地标界定图2MICC-3D数据集。（左）示例RGB立体图像和使用3dMD扫描仪捕获的中性3D模型;（右）使用Kinect相机捕获的同一对象的RGB帧和从深度帧提取的3D点云312虚拟现实智能硬件六月（2022）卷。4条第4图3MICC-3D数据集。18个面部动作被图解说明（按行报告，根据编号从左到右在发布的数据集中使用：（2）意外地抬起眉毛;（3）将眉毛放在一起，好像遇到麻烦;（4）-（6）用力关闭右/左眼，形成皱纹;（5）-（7）平滑地关闭右/左眼，没有皱纹;（8）挤出嘴唇以显示牙齿和牙龈;（9）通过挤压鼻子底部的眉毛来(12)左右嘴角分别向右/向左移动;（13）嘴唇向前，好像要亲吻;（14）嘴唇末端向后，好像要微笑;（15）-（16）从右/向左微笑;（17）嘴角向下移动;（18）脸颊和嘴唇压在牙齿上;（19）微笑时中性扫描[未报告采集（1）图4地标检测：在左侧，报告具有中性表情的RGB Kinect帧;在中间，检测到的地标显示在RGB帧上;在右侧，报告2D地标配置。代表眉毛的绿色界标、代表鼻子轮廓的4个红色界标、界定鼻孔的5个青色界标、界定眼睛的12个品红色界标、界定嘴唇的12个黄色界标以及代表牙齿的8个黑色界标。在MICC-3D上进行的实验证实，可以在大多数RGB帧上有效地检测地标，从而允许与3D地标建立准确的对应关系313Claudio FERRARI，et al.从表情康复练习的RGB图像测量3D面部变形在3DMM上标注。3.33DMM有大量关于3DMM的构造及其在多种应用中的使用的文献[48]。从这些先前的工作中可以看出，3DMM的建模能力取决于两个主要因素：用于训练模型的数据，以及计算作用于平均人脸模型的变形分量的方式。关于数据，用于学习模型的扫描集应该足够大，以包括由性别、种族、年龄等引起的面部特征谱此外，非常重要的是，在训练中包括具有面部的各种局部变形的扫描。局部变形源自面部表情和动作单元，其对应于面部的单个肌肉的收缩作为第二个重要因素，作用于平均模型的变形组件应局部操作，以提高3DMM的能力，从而更好地适应目标3D扫描或2D图像。在这项研究中，使用稀疏和局部相干（SLC）-3DMM提出了分析的局部和非对称变形的脸，并得出定量的措施。SLC-3DMM[11]表现出在生成的模型中具有大范围可变性的独特特征，包括性别，种族和表达，以及对面部局部变形建模的能力。为此，在第3.3.1节中介绍了模型的构造，在第3.3.2节中总结了拟合目标帧的方法。这些解决方案最初在[11，36]中提出，并在这里进行了总结，以使手稿尽可能独立。3.3.13DMM施工SLC-3DMM使用来自宾厄姆顿大学3D面部表情数据集（BU-3DFE）[49]的扫描进行训练。该数据集包括性别（44名男性和56名女性）、种族（白人、黑人、东亚人、中东亚洲人、印度人和西班牙裔拉丁美洲人）和年龄（18-70岁）不同的受试者的扫描。每个受试者有25个扫描：一个中性加上六个典型的表情（愤怒，厌恶，恐惧，快乐，悲伤和惊讶），以四种强度捕获，从轻微到夸张。后一种表达式还确定拓扑变化，例如张开/闭合的嘴。为了计算平均模型，训练扫描被定位在密集的语义对应中，使得它们都具有相同数量的点，并且对应的点具有相同的语义含义。对于SLC- 3DMM，BU-3DFE扫描与之前的研究[36]一样对齐。在实践中，通过首先使用83个面部标志来注释每个BU-3DFE扫描以提供跨所有扫描的初始对应并将面部表面划分为一组非重叠区域来获得密集对准。然后对每个区域进行重新采样，以便在扫描中有相同数量的采样点。这产生了用共享共同语义的相同数量的点重新采样的扫描给定密集语义对应的这种扫描，训练集中的3D面部的几何形状被表示为包含m个顶点的线性化（x，y，z）坐标设为N个训练扫描的矩阵，每个训练扫描具有m个排列的列方式，并且每个训练扫描与平均3D面部之间的差异计算为.每个vi表示用于将平均模型m变换为训练模型fi的方向集合。它们组合在一起形成训练矩阵。SLC-3DMM的主要创新之处在于训练数据的使用方式。在“标准”3DMM方法中314虚拟现实智能硬件六月（2022）卷。4条第4独立治疗。这可以解释为所使用的N次扫描作为训练样本。以这种方式，对于总共3m个训练样本，每个样本变成表示每个顶点坐标的变化的统计的N维数据点实际上，这是通过转置训练矩阵V来获得的。主方向和展开系数的估计是将其表述为稀疏编码问题，其中目标是找到可以稀疏组合以重构训练数据的方向集。为了总结这个过程，设为转置训练矩阵。然后，对允许输入数据的最佳重构的k（k）个主方向和稀疏扩展系数的集合进行搜索，使得最小化，并且C是稀疏的。为了获得真实的变形，系数应该足够大。光滑以防止不连续。这个问题表述如下。.这等价于弹性网络问题，并且具有一些对我们的任务有用的性质。第一、正则化鼓励分组效应[11]，即与高度相关的变量相关的回归方法的系数这种相关性是在位移方向方面，并由面部肌肉引起的运动的局部一致性这些特性共同导致稀疏和空间局部化的变形。最后，值得注意的是，除了学习顶点运动之外，还在（2）中施加了正性约束，通过促进每个学习原子的互补性，将额外的稀疏性引入到解中[11]。由于面的不同部分中的不平衡变形，D的元素可以具有不同的量值。为了解决这个问题，计算每个方向di的N个训练模型上的字典元素的平均值，并且权重向量μ由元素定义。这表示每个方向的平均一致性。矢量μ用于正则化3DMM的变形，平衡每个分量的贡献，如第3.4节所述。稀疏分量C与平均模型m组合，并且权重向量μ构成稀疏和局部相干（SLC）-3DMM。关于SLC-3DMM构造过程的更详细描述，读者可参考原始论文[11]3.3.23DMM拟合我们研究中的平均SLC-3DMM模型包括6704个点。在拟合过程中，这些点改变它们的3D位置，使得3DMM可以根据目标面部的身份和表情变形在为这项工作设计的场景中，在2D RGB帧上执行拟合，并通过帧中检测到的68个2D地标与3DMM上手动注释的3D地标之间的对应关系进行指导让我们考虑如何执行拟合的更多细节假设这是表示2D平面中的n个界标的矩阵3D空间中的相同界标可以表示为，其中这两个矩阵通过以下仿射变换连接l=A·L+T，在哪里和。L中的顶点在3D模型中注释;因此，未知数为A和T.通过求解以下最小二乘问题来确定A、由此可以容易地导出T，使得T=1-A·L。一旦获得仿射变换，就进行对非刚性变换的搜索，该非刚性变换改变模型中的界标的位置以将它们与目标图片的界标对准。这也使315Claudio FERRARI，et al.从表情康复练习的RGB图像测量3D面部变形将相邻点映射到界标以获得平滑的连续变换。因此，投影变换可以表示为P=[A，T]。在实践中，拟合变换分两步进行，如最初提出的[35，36]。在第一步中，DL-3DMM[36]的平均模型被用作面部3D点的起始配置，受试者表现出放松（中性）的面部。为了将起始配置变形为目标RGB帧，使用DL-3DMM，因为变形不考虑面部表情，因此可以在不考虑局部变形的情况下全局执行。这生成捕获目标对象的身份的拟合的3DMM。拟合变换的第二步骤从第一步骤中产生的身份特定模型开始，并将其变形为目标帧，其中主体表现出面部动作。随后，SLC-3DMM用于对源自特定面部动作的局部变形进行建模;在这种情况下，拟合从受试者相关的3D模型开始。总的来说，这两步拟合过程将与身份相关的变形与取决于特定身份的表达的变形分开。不使用平均模型进行整个拟合的原因是为了提高结果的精度;如果3DMM用于具有夸张表情的面部，则更有可能获得不准确的变形，而如果使用特定于该人的3DMM（即从该人的中性姿势获得的模型），则可以获得更好的结果拟合被公式化为正则化岭回归问题的解决方案，如以前的工作[36]：其中，Iv是平均模型中对应于2D界标的顶点的索引集合;ci是学习的变形分量;并且是应用于变形分量的变形系数α与第3.3.1节中定义的权重向量μ的倒数之间的Hadamard乘积在操作上，在非刚性变换中，λ参数扮演重要角色，λ参数是控制变形有多“积极”的标量，使得λ的较低值对应于更积极的通过实验确定，对于从平均模型开始的初始拟合使用较低的λ（λ=0.15）和对于变形使用较高的值以拟合在先前步骤中获得的身份特异性3DMM（λ=64）更方便。拟合的最终结果是面部的3D重建，如图5所示，指示样本身份。在图中，还观察到SLC-3DMM的点不是均匀分布的，在受面部动作影响较小的面部区域（例如前额或下巴）中具有较低的密度。图6比较了通过使用一步（中间）或两步拟合变换（右）在具有笑脸（左）的RGB帧上变形3DMM所获得的结果很明显，两步解决方案显示更明显的变形，在嘴部区域比一步拟合得到的模型。在第二步中，λ参数的增加值还允许使用更多局部化分量。基于该证据，使用双重拟合来构建起始模型（松弛面部）：第一次拟合在平均模型和帧的2D界标之间，如在朴素实现中那样。第二次拟合是在第一次拟合得到的模型之间进行的，使用相同的2D界标以及局部分量来考虑面部的最小变形。然后，将该模型与使用与表现出面部动作的受试者的2D界标上的局部分量的拟合而重构的模型进行比较。因此，在多大程度上，可以评估表示从放松位置的面部动作移动的模型。为了提高性能并避免个人的偶发错误，图53D 模型获得用平均面部模型拟合放松面部的特征点。316虚拟现实智能硬件六月（2022）卷。4条第4图6左：受试者张开嘴的RGB帧，检测到的标志叠加在其上;中间：通过将平均3DMM直接拟合到目标标志（一步拟合）获得的3D模型;以及右侧：通过用两步过程拟合3DMM获得的3D模型。显然，通过分离身份变形和表情变形，可以获得更准确和逼真的面部变形从单个帧构建的模型中，模型的构建方式是，每个点都是帧中相同点、前一点和后一点4评价和结果在MICC-3D数据集上对拟定方法进行了定性（第4.1节）和定量（第4.2节）评价（数据集详情见第3.1节）。为了评估SLC-3DMM适应包括不对称和非常强（夸张）的面部动作的局部面部动作的能力，将模型拟合到MICC-3D数据集中每个序列的顶点RGB帧。这构成了最具挑战性的拟合场景，其中拟合考虑了2D和3D重建以及由目标身份和面部动作引起的变形。按照第3.4节中报告的程序将SLC-3DMM拟合到目标后，获得每个RGB顶点帧的3D重建模型为了评估变形模型捕获目标身份和变形的程度，将重建的模型与3D高分辨率扫描进行比较，所述3D高分辨率扫描与相同受试者的RGB帧相关联但处于中性姿势。这允许计算两个模型的顶点之间的定量距离，也可以在模型本身上进行渲染以进行定性比较。总共对11名受试者进行了拟合，每个序列19个（11×19）。以下各段报告和讨论了定性和定量比较的结果4.1定性结果为了目视检查3DMM拟合的结果，使用不同颜色的比例来突出变形模型的顶点在图7中，显示了受试者扬起眉毛的模型;颜色表示每个点相对于中性点改变其位置可以清楚地观察到，模型变形在眉毛区域中更加突出，从而确认了模型识别具有较大变形的面部区域的能力由于序列从中性面部开始并演变为顶点帧，因此面部动作的顶点帧也可以与序列中的其他帧进行比较。例如，面部动作的顶点帧可以与序列中的前一帧进行比较，其中对象处于示出面部动作的过程中，因此表现出相同的面部动作。图7对应于眉毛抬起的面部动作的拟合模型的示例。模型的顶点用红色表示较高的变形;正如预期的那样，它们位于眉毛周围。317Claudio FERRARI，et al.从表情康复练习的RGB图像测量3D面部变形形成，但程度较轻。在图8中，从微笑的受试者的序列中选择两个帧：在左侧的帧中，受试者开始微笑，也就是说，他处于完全微笑和中性姿势之间;在右侧的帧中，报告序列的顶点帧考虑到来自这两个帧的模型以及在位于序列的四分之一和四分之三处的帧上使3DMM变形的结果，获得了图9中所示的结果。颜色清楚地指示变形强度从左（中性）到右（完全微笑）的进展为了更好地进行比较，图中的模型使用相同的色标，即每种颜色对应于所有模型中相同的移动量。在该图的底行中，报告了下一段中定义的变形指数的值以用于定量评估，其是拟合的3DMM的所有点相对于拟合在同一对象的中性框架上的3DMM的点的平均移动图10示出了表情面部动作草图（在左列上）、从试图复制面部动作的受试者的帧提取的界标（在中间列中）以及重建的3D模型的对应变形（右列）的一些附加示例。这些示例进一步证明了所提出的3DMM捕获面部的不同和局部区域（例如，眉毛和嘴）。同样有趣的是，观察到模型可以准确地捕捉面部的不对称变形，例如“向右移动嘴角”面部动作（图中的第三行），或者小的且非常局部化的变形，例如“微笑而不露出牙齿”面部动作（图中的最后一行）。事实上，对于图8示例：从微笑序列中提取的两个帧，将面部动作的起始帧（左侧）与顶点帧（右侧）进行比较。图9示例：四个3DMM拟合到微笑序列的四个帧。帧位于序列的开始、四分之一、四分之三和结尾。颜色从左到右从冷到暖。在每个拟合模型下方报告的值指示相对于拟合到序列的中性帧的3DMM的变形指数：如预期的，这些值从左到右增加318虚拟现实智能硬件六月（2022）卷。4条第4图10四个选定面部动作的变形结果。第二栏：举例说明面部动作的面部草图;第三列：在2D帧上检测到的用于引导3DMM拟合的界标;以及最右列：拟合的3DMM，其中顶点根据变形的强度着色。颜色从蓝色（非常小的变形）变化到青色、绿色、黄色和红色，用于具有最大强度的变形，即，顶点位置相对于相同标识的3DMM静止姿态的最大偏差。非常小的细长区域有趣的是，在后一种情况下，该模型还能够识别鼻子和鼻孔下部的相关轻微变形在图11中，所提出的方法捕获面部局部变形的能力进一步定量地证明。在该图中，针对所有主体和面部动作2、8和19示出了所得到的变形。作为最后一个定性示例，在图12中，将本研究中使用两步法的拟合结果（图1）与一次性拟合进行比较，一次性拟合同时使平均3DMM变形以获得身份和表达。面部动作编号2、4和19用于比较（与图11中所示的相同），受试者编号2作为MICC-3D数据集中的参考与基于地标的单次拟合的情况一样，变形在整个面部模型中扩散以补偿身份变化，而对于所提出的两步解决方案，变形更加局部化并且更好地表示已经变形的面部的实际区域319Claudio FERRARI，et al.从表情康复练习的RGB图像测量3D面部变形图11MICC 3D面部数据集中所有受试者的面部动作2、8和19的3DMM拟合结果（另见图3中的面部动作）。这三种情况说明了眉毛的变形，以及嘴部区域的强烈和轻微变形。该模型捕捉了在执行相同的面部变形的受试者之间的差异图12使用两步拟合（建议的解决方案）和一次拟合的3DMM拟合结果。受试者2的结果在 MICC 3D面部数据集，用于面部动作编号2、8和19。4.2定量结果为了评估3DMM拟合模型偏离相同身份的松弛面部模型的程度，计算两个模型的3D点之间的距离设为矩阵，其中每行是拟合到中性图像的模型的点，列表示3D空间中的空间坐标另外，设为矩阵，其中每行表示拟合到表情面部图像的3DMM的点。每个点i的距离对应于两个矩阵的第i变形的程度，称为变形指数，计算如下：320虚拟现实智能硬件六月（2022）卷。4条第4.在该实验中，针对序列的几个帧计算变形指数。在图13中，显示了所有受试者在所有视频中变形指数的变化。在图中，通过计算序列中等间隔的九个帧的变形指数来获得每条曲线。因此，第一帧、最后一帧以及在面部动作的整个持续时间中以规则间隔等间隔的帧被选择。所有曲线在开始时都显示出增加的趋势，因为在视频中，受试者从放松的姿势开始，然后逐渐显示出完整的表情。大多数曲线在特定的最大变形指数处表现出平台，这对于每个视频都是特定的最后，在图14中，两步拟合的效果与一次拟合的效果进行了定量比较很明显，使用两步拟合为所有面部动作序列计算的左侧变形指数图具有比针对单次拟合的右侧图中报告的值更低的值，即，图13所有受试者（受试者1-11）的变形指数图。图中的每条曲线示出了相对于第一帧的跨序列的帧的变形指数的变化。九帧被认为是在八分之一的时间间隔。第一帧具有零变形，因为它是相对于其计算变形指数的参考帧所有的曲线都是从零开始的，并且呈现出上升的趋势。最终帧的变形指数变化很大，因为一些面部动作涉及面部的较大变形。图14（a）针对所提出的两步拟合的所有19个面部动作的变形指数;以及（b）针对单次拟合的变形指数。报告了受试者2的结果;在其他受试者中观察到类似行为321Claudio FERRARI，et al.从表情康复练习的RGB图像测量3D面部变形右侧曲线的平台值大于1.25，而左侧仅一条曲线达到该值。此外，变形指数的可变性在图14a的图中更加明显，而在图14b中，不同序列的变形彼此非常接近，这表明大部分变形确实捕获了受试者的身份5讨论和结论在这项研究中，提出了一个框架，以确定该地区的面部变形时，3DMM是适合的2D帧的视频。面部修复是所提出的框架的潜在应用之一。在特定应用的背景下，受试者可以在家中使用简单的摄像机来监控他们的面部康复练习的进展，而不会产生用于专用设备的高成本。3DMM的装配可以向受试者提供关于面部局部区域变形的即时定性和定量反馈，该反馈也可以被传送给医务人员以进行详细监测。在操作上，在获得由模型的变形分量引导的精确局部拟合时，应当强调适当地调整λ参数的相关性。虽然拟合结果随λ参数变化相当平滑，但如果λ的值太小，则拟合较差。在MICC-3D人脸数据集上进行的测试证明了该方法的可行性。然而，实验仍然局限于实验室条件，没有招募真实的患者。这主要是在未来的工作中，数据集中的受试者数量将增加，以在将模型部署到真实环境中之前提供随时间变化的变形的本文中使用的源代码可以在https://github.com/lucabindini/bidimensional-face-morph上获得。竞合利益我们声明我们没有利益冲突引用1 张晓刚，冯丽，杜丽，张爱新，唐涛。利用Web of Science近20年来面神经麻痹临床治疗的文献研究：康复、物理疗法和针灸的比较。神经再生研究，2012，7（2）：152-159 DOI：10.3969/j.issn.1673-5374.2012.02.0132 阮文良超短波配合穴位离子导入治疗面神经麻痹。中国康复，2004，19（4）：2413 杨志华，李志华.磁刺激面神经的临床研究。喉镜，1999，109（3）：492DOI：10.1097/00005537-199903000-000284 2005年10月26日，李文辉，李文中风后偏瘫上肢之运动：结合虚拟实境与远距医疗之方法。康复医学杂志2009，41（12）：1016-5 Shafshak T S.从物理和康复医学的角度治疗面神经麻痹。欧洲医学杂志，2006，42（1）：416 Salgado de Oliveira L，Sobral L L，Takeda S Y M，Betini J，Guirro R R J，Somalia M C，Teodori R M.电刺激和游泳对轴突断伤的影响：神经再生和功能恢复。神经病学杂志，2008，47（1）：117 郑光钧。针灸治疗常见疾病的神经解剖学基础。针灸医学，2009，27（2）：618 Wiest L G.一种新型肉毒杆菌毒素用于面部肌肉美容治疗的综述。克罗地亚皮肤性病学学报：ADC，2009，17（1）：489 [10]杨文，王文，王文.面部对称与美感。PsychonomicBulletin Review，1998，5（4）：65910 Ferrari C，Berretti

下载后可阅读完整内容，剩余1页未读，立即下载