傅立叶参数在语音情感识别中的应用

1 下载量 19 浏览量 更新于2024-08-30 收藏 1.11MB PDF 举报
"语音情感识别的研究近年来逐渐受到关注,特别是在使用和声特征方面。研究指出,一阶和二阶差异的和声特征对于识别语音中的情感至关重要。因此,提出了一种创新的傅立叶参数(FP)模型,该模型结合了语音质量的感知内容以及一阶和二阶差异,以实现说话者无关的语音情感识别。实验结果显示,FP特征在德语EMODB、中文CASIA和中国老年人EESDB情感数据库上显著提升了识别率,分别提高了16.2%、6.8%和16.6%。更进一步,当将FP与传统的梅尔频率倒谱系数(MFCC)特征结合使用时,识别率在各数据库上分别提升了17.5%、10%和10.5%。这项工作发表在IEEE Transaction on Affective Computing期刊上,展示了傅立叶参数在情感计算领域的潜力和优势。" 本文详细探讨了傅立叶参数在语音情感识别中的应用,指出了一种新的模型设计思路。傅立叶参数模型不仅考虑了语音信号的基本频域特性,还利用了和声特征的一阶和二阶差异,这些差异对于捕获语音中的情感信息至关重要。传统的梅尔频率倒谱系数虽然广泛应用于语音处理,但该研究表明,结合FP特征能够提升情感识别的准确性,尤其是在处理跨语言和跨年龄组数据时。 在实验部分,作者对比了FP特征与MFCC特征的性能,并在三个不同的情感数据库上进行了验证。EMODB是德国的一个多情绪数据库,CASIA是中国的一个中文情感数据库,而EESDB则专注于中国老年人的情感表达。通过对这些数据库的测试,FP特征在所有情况下都表现出了优越的性能,这证明了其在不同文化和年龄群体中的普适性。 此外,将FP与MFCC相结合的结果进一步强化了这一方法的有效性。这种融合策略利用了两种特征的互补性,从而提高了情感识别的综合性能。这种结合方法可能尤其适用于复杂和多样化的语音环境,因为它能够捕捉到更广泛的频率信息和情感变化。 这篇论文揭示了傅立叶参数在语音情感识别中的潜在价值,为情感计算领域提供了一个新的分析工具。通过结合语音质量的感知内容和差异性特征,该模型有望在未来的情感识别系统中发挥重要作用,尤其是在跨文化和跨年龄的应用中。同时,这种技术的进一步优化和扩展可能促进人机交互、情感理解和心理健康等领域的进步。