基于分带谱熵和谱能量的电话语音端点检测提升策略

需积分: 10 3 浏览量更新于2024-08-12 收藏 268KB PDF 举报

本文主要探讨了一种针对噪声环境下的语音端点检测算法，特别是在电话语音城市名识别系统中的应用。语音端点检测作为语音识别的关键步骤，其精度直接影响识别系统的性能。在高信噪比环境中，传统的基于能量的方法表现良好，但在低信噪比下，这种方法的效果会显著下滑。论文提出了一种改进的端点检测算法，核心在于结合了分带谱熵和谱能量，形成了一套新的特征参数集。分带谱熵能够更好地捕捉信号的频域特性，而谱能量则反映了信号的整体强度。通过集成这两种参数，算法能够更有效地区分语音段和非语音段，提高端点检测的鲁棒性，尤其在面对各种类型的噪声干扰时，如说话人的呼吸声、背景噪声和环境噪音等。在噪声环境下，单纯的能量参数可能无法准确区分语音和噪声，而谱分析方法虽然在噪声存在时表现不佳，但由于总能量在语音加上噪声时通常会超过噪声能量，因此仍然有一定的优势。论文中的算法通过结合分带谱熵和谱能量，减少了单一参数的缺陷，提升了在低信噪比条件下的检测性能，这对于提高语音识别的准确性和效率具有重要意义。此外，该研究还提到了与短时峰谷能量和过零率结合的尝试，以及神经网络在端点检测中的应用，尽管这些方法能够改善性能，但它们的复杂性可能限制了实际应用。相比之下，提出的基于分带谱熵和谱能量的算法既保持了较高的检测精度，又相对简化了处理流程，对于提升电话语音识别系统的实用性和可靠性具有显著的价值。这篇2007年的论文在语音处理领域引入了一个创新的端点检测策略，旨在解决噪声环境下语音识别中的挑战，为提高识别准确度和降低系统复杂度提供了新的思路和技术支持。

第

卷第

期

2007

年

月

北京工业大学学报

JOURNAL

BEUING

UNIVERSITY

TECHNOLOGY

Vol.

No.9

2007

一种基于分带谱娟和谱能量的语音端点检测算法

李如王书，鲍长春

(北京工业大学电子信息与控制工程学院，北京

100022)

摘

要:语音端点检测的精确度直接影响语音识别的准确度.在噪声环境下，语音端点检测很困难.信噪比下

降，语音端点检测的正确率也随之下降，同时，噪声类型的变化影响端点检测的正确率.为此，提出了一种改进

的、适合在电话语音城市名识别系统中应用的端点检测算法，并结合分带谱愤和谱能量形成了一个新的特征参

数集，利用该参数集进行端点检测，弥补了分别采用分带谱娟和谱能量进行端点检测的缺陷，提高了检测性能.

关键词:语音处理;语音识别:谱分析;端点检测;分带谱铺

中图分类号:

TN 912.3

文献标识码

文章编号:

0254

一

0037(2007)09

0920

语音端点检测是指从含噪语音中找到语音段的起始点.语音识别的准确性直接取决于端点检测的正

确与否.端点检测对孤立词识别非常关键，在这种情况下，语音识别一半以上的错误是由错误的端点检测

导致的[1]准确的端点检测还可以降低后续处理时间和存储空间，使语音识别系统性能达到最佳.

在传统电话、移动电话和

电话语音识别系统中，许多因素影响着语音端点检测的精确性.说话人

在说话时重重的呼吸声、无线电系统背景噪声、汽车噪声、工厂噪声、嘈杂人声等都使语音端点检测更加

困难.

目前，基于能量的方法是目前语音端点检测广泛使用的方法

[2]

它在高信噪比条件下效果很好，但是

当信噪比很低时，纯悴的能量参数效果不再令人满意.研究者们开始把能量和其他方法结合使用，如将短

时峰谷能量和过零率结合

[3-4]

但是，这

个参数对噪声都很灵敏，不能完全识别语音的特征.还有研究者

把神经网络用于端点检测[剖，效果不错但相对复杂.基于娟的方法首次在文献

[6]

中使用在端点检测，实

验表明，语音段与非语音段的摘是不同的，该方法在有嘈杂人声时性能很差.但是，在这种情况下，语音加

上噪声的总能量是超过噪声能量的，所以基于能量的方法性能很好.鉴于此，文献

[7]

提出了整合情和能

量形成摘加能量

(entropy

and

energy

，简称为

EE)

特征参数的方法，但是，当信噪比很低时，这种方法的性

能变得很不稳定.

本文设计了一种语音端点检测方法，能很好地运行在电话语音这种环境随时变化的语音识别系统中.

基于对上述端点检测方法的分析，通过对每帧语音的频段进行分带

[8]

来改进娟的形成而改善

特征参

数，形成新的分带谱摘加能量

(band-partitioning

spectral entropy and

energy

，简称为

BSEE)

参数，使端点检

测算法性能更优.

改进的

BSEE

特征参数

从语音的窄带语谱图可知，只有语音段才有明显的谐波结构，如从依次包含嘈杂人声、工厂噪声、语音

信号、汽车马达声和自噪声的混合信号波形，见图1，图中

表示样点数

，

表示归一化幅值.研究语音

的频谱发现，每个波峰和波谷间隔大约为

125

，为了更加清楚地划分语音与噪声的边界，文献

[8]

对语

音的频段进行分带处理形成新的分带谱惰

(band-partitioning

spectral

entropy

，简称为

BSE)

参数，在低信噪

收稿日期:

2006-09-04.

基金项目:北京市教委科技发展计划项目

0071000500

;北京工业大学研究生科技基金

(ykj-2005-018)

;北京市优秀

人才培养资助项目

(20061

501500202).

作者简介:李如讳(1

972

-).女，四川眉山人，讲师.

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38607864

粉丝: 3
资源: 934

基于分带谱熵和谱能量的电话语音端点检测提升策略

谱熵法改进多子带语音端点检测技术

低信噪比下谱熵增强的语音端点检测算法优化

临界频带与能量熵结合的语音端点检测算法

基于信息熵和神经网络的语音端点检测算法研究

基于谱熵的语音端点检测算法的研究1

论文研究-低信噪比下基于功率谱熵的语音端点检测算法.pdf

一种基于谱熵的语音端点检测方法 1

基于谱熵语音端点检测

基于熵函数的语音端点检测方法.rar_c 端点检测_基于熵 语音 端点 检测_端点检测_语音 检测_语音 端点检测

基于能量和鉴别信息的语音端点检测算法 (2006年)

最新资源

基于熵函数的语音端点检测方法.rar_c 端点检测_基于熵语音端点检测_端点检测_语音检测_语音端点检测