基于HMM与DNN的逼真面部表情合成技术研究

1 下载量 184 浏览量 更新于2024-07-15 1 收藏 2.62MB PDF 举报
本文探讨了一种创新的基于HMM(隐马尔可夫模型)和深度神经网络(DNN)的面部表情参数映射方法,用于实现高真实度的有声人脸合成技术。该研究发表在《计算机与通信》期刊(Journal of Computer and Communications, 2017年5期,卷50-65页),并提供了在线ISSN 2327-5227 和印刷版ISSN 2327-5219,DOI: 10.4236/jcc.2017.510006。 研究的核心思想是将面部表情参数作为合成过程中的中间表示,这种参数能够有效地结合输入的上下文信息和输出的面部像素数据,从而生成逼真的谈话动画。首先,研究人员利用具有静态和动态特征的上下文相关HMM对这些表情参数序列进行建模,以便捕捉和保留表情变化的动态特性。HMM在此过程中起到了关键作用,它能有效地处理序列数据,并捕捉到面部表情的自然过渡。 然后,利用深度神经网络(DNN)进行进一步的学习和训练,DNN被设计为从表情参数映射到目标像素图像,这一步旨在将中间的参数表示转换为实际可见的、高度逼真的人脸图像。DNN的优势在于其强大的非线性拟合能力,使得复杂的参数到像素的转换变得更加精确。 在研究中,作者着重关注了HMM和DNN所需训练数据的数量对比,这是评估模型效率和效果的重要指标。通过对不同数据量的比较,研究者旨在揭示这两种技术在实际应用中的表现差异,以及它们对数据需求的敏感性。 此外,文章还进行了客观和主观评估实验,通过量化和定性的方法对比了所提出的基于HMM和DNN的方法与传统基于主成分分析(PCA)技术的性能。这有助于评估新方法在生成逼真度、流畅度和情感表达方面的优势,从而为视觉语音合成领域提供了一个重要的技术改进参考。 这项研究不仅提升了有声人脸合成的质量,而且展示了如何巧妙地结合HMM和DNN的优势,以实现更高效的面部表情参数映射。这对于虚拟人物开发、交互式娱乐和电影特效等领域具有显著的实际价值。