TPS方法规范化汉语与日语发音语音元音图像

0 下载量 69 浏览量 更新于2024-08-27 收藏 1.65MB PDF 举报
本文主要探讨了在发音语音识别领域中,如何通过形态学归一化方法来处理和优化元音图像,以应对不同说话者间声带形状的个体差异问题。针对普通话和日语等语言,研究者提出了一种利用 Thin-Plate Spline (TPS) 方法进行声带形态归一化的策略。 在语音识别过程中,声带和口腔的形态对语音特征有着显著影响,而不同说话者的这些结构可能存在显著的个体差异。这不仅增加了识别的复杂性,还可能导致识别精度下降。因此,通过形态学归一化,可以减少因说话者之间声带结构的差异而引起的噪声,有助于提高分析和建模的准确性。 TPS 是一种基于局部线性插值的非刚性形状匹配技术,它允许在保持局部平滑性和全局一致性的同时,灵活地变形一个形状以适应另一个形状。在这项研究中,研究人员将 TPS 应用于 Mandarin 和 Japanese 的元音图像上,目标是创建一个标准化的声带模型,以便在保持语音动态特性的前提下,更好地反映通用的发音规律。 首先,他们收集了大量来自不同说话者的声带图像数据,然后使用 TPS 进行拟合和变形。这个过程涉及到计算两个形状之间的对应关系,以及在目标空间中找到最佳的变形参数,使得源形状能够接近目标形状,同时尽量保持原始形状的细节和动态变化。 接着,通过对声带图像的 TPS 归一化,研究人员得到了一组标准化的声带模板,这可以作为后续语音识别系统的基础,比如深度神经网络 (DNN) 模型中的输入特征。标准化后的元音图像不仅可以提升语音识别系统的稳定性和泛化能力,还可以促进跨说话者间的语音模型共享,降低训练数据的需求。 该研究的工作流程包括数据采集、预处理、TPS 归一化、以及验证归一化效果对语音识别性能的影响。通过实验结果,作者展示了这种形态学归一化方法的有效性,并讨论了其在实际应用中的潜在优势,为提高发音语音识别的准确性和可靠性提供了新的解决方案。此外,这种方法可能对其他依赖于声带或口腔图像的领域,如语音合成和声纹识别也有着积极的影响。