融合声学统计与时序特征的情感语音识别

需积分: 1 0 下载量 70 浏览量 更新于2024-09-12 收藏 228KB PDF 举报
"这篇论文是关于情感识别的研究,主要探讨了声学参数的统计特征和时序特征在情感语音识别中的应用,并提出了一种融合这两种特征的识别方法,旨在提高情感识别的准确性。该研究发表在《清华大学学报(自然科学版)》上,由蒋丹宁和蔡莲红共同完成,得到了国家自然科学基金的支持。" 在情感识别领域,声学特征起着至关重要的作用。这篇论文中,研究人员首先提取了基本的韵律参数和频谱参数,这些参数可以从语音信号中捕获到说话人的音调、节奏和强度等信息,这些都是情感表达的关键元素。然后,他们利用概率神经网络(PNN)和隐马尔可夫模型(HMM)对这些声学参数进行了深入分析。 PNN被用于处理统计特征,它可以捕捉参数的分布模式,如均值、方差等,这些统计信息有助于理解情感的一般趋势。而HMM则用于处理时序特征,它能够捕捉参数随时间变化的模式,揭示情感变化的动态过程。通过PNN和HMM,可以计算声学参数属于特定情感类别的概率。 为了进一步提升识别效果,论文提出了将统计特征和时序特征融合的方法。融合策略包括加法规则和乘法规则,这两种规则结合了两种特征的优点,从而增强情感分类的能力。实验结果显示,融合特征后的识别正确率相比单独使用统计特征或时序特征有显著提高,最高达到了92.9%,这证明了所提出方法的有效性。 关键词涉及的领域包括语言识别、模式识别、情感信息处理以及声学特征,表明这篇论文涵盖了语音处理、机器学习和情感计算等多个技术领域。中图分类号和文献标识码则是学术出版物的标准标识,文章编号则用于追踪和引用该论文。 这篇研究为提高情感语音识别的准确性和效率提供了新的思路,特别是在结合声学参数的统计和时序特性方面,为后续的语音情感识别工作提供了理论和技术支持。