LESE法:噪声环境下语音端点检测的新方法

需积分: 12 0 下载量 123 浏览量 更新于2024-08-07 收藏 329KB PDF 举报
"该资源是一篇2010年发表在《湖南大学学报(自然科学版)》第37卷第7期的论文,主要探讨了一种新的语音端点检测方法,即对数能量谱熵(LESE)方法。通过结合对数能量(LE)特征和谱熵(SE)特征,该方法在噪声环境中表现出了更好的检测性能和稳健性。实验在TIMIT连续语音库上进行,结果显示,在低信噪比(-5 dB)下,LESE法的检测错误率仅为18.02%,而在0到10 dB的信噪比范围内,其检测错误率显著低于传统的EE法和LE法。" 本文提出的语音端点检测方法是一种创新性的技术,它将两种不同的特征——对数能量(LE)和谱熵(SE)——融合在一起,形成了对数能量谱熵(LESE)特征。对数能量特征通常用于捕捉语音信号的能量变化,而谱熵则考虑了信号频谱的分布情况,两者结合可以更全面地反映语音信号的特点。在实际应用中,噪声环境常常影响语音识别和处理的准确性,因此端点检测的稳健性至关重要。 为了确定LESE特征的门限,论文采用了模糊C均值聚类算法和贝叶斯信息准则(BIC)算法。模糊C均值聚类能够处理数据的不确定性,更好地划分不同类别的边界;贝叶斯信息准则则用于模型选择,帮助找到最佳的特征划分。之后,通过双门限法进行语音端点的判断,这种方法可能涉及到两个阈值,分别用于初步识别和确认语音段的开始和结束。 实验部分,研究者在TIMIT连续语音库上进行了测试。TIMIT库是语音识别领域广泛使用的标准数据库,包含多种方言和说话者的样本,能有效验证方法的普适性。实验结果表明,即使在信噪比较低的情况下(-5 dB),LESE方法也能保持较低的检测错误率,这对其在实际应用中的性能具有重要意义。在更高的信噪比区间(0到10 dB),LESE方法的优势更加明显,进一步证明了其在噪声抑制和语音识别方面的优越性。 关键词涵盖了语音处理、语音端点检测、对数能量谱熵、能量谱熵和对数能量,显示了这篇论文的核心研究内容。该研究对于语音识别、语音压缩、通信系统和人机交互等领域的技术进步有着积极的推动作用,特别是在噪声环境下的语音处理方面。