临界频带与能量熵结合的语音端点检测算法

需积分: 9 4 浏览量更新于2024-08-11 1 收藏 337KB PDF 举报

"基于临界频带及能量熵的语音端点检测 (2013年)，张婷，何凌，黄华，刘肖珩" 本文主要探讨了一种创新的语音端点检测算法，该算法结合了临界频带理论和能量熵的概念，旨在提高在各种背景噪声环境下的语音检测准确率。语音端点检测是语音处理技术中的关键步骤，直接影响到语音识别、合成和增强等应用的性能。临界频带是模拟人耳听觉感知的一种方式，它将声音频谱划分为多个频带，每个频带对应人耳对不同频率敏感的程度。在本文提出的算法中，首先对含噪语音信号进行临界频带分析，这样可以更好地模拟人耳对声音的感知，从而更精确地捕捉到语音的存在。接着，算法利用能量熵这一概念来区分语音段和噪声段。能量熵是衡量信号在一个频带内能量分布均匀性的指标，当语音存在时，其能量通常在各个频带上分布不均匀，而噪声则呈现出相对均匀的能量分布。通过比较不同频带内的能量熵值，算法能够识别出语音活动的开始和结束点，即语音端点。实验结果显示，与传统的短时能量法相比，该算法在语音端点检测上的正确率平均提高了1.6个百分点，显示出其在处理复杂噪声环境下的优势。尤其是在低信噪比（SNR）条件下，该方法仍然能有效地检测到语音端点，这是传统方法难以做到的。论文《基于临界频带及能量熵的语音端点检测》发表在《计算机应用》杂志2013年第一期，由四川大学的学者张婷、何凌、黄华和刘肖珩共同完成。文章通过理论分析和实验验证，详细阐述了算法的设计思路、实现过程以及性能评估，为后续的语音处理研究提供了新的视角和方法。关键词包括：小波降噪、临界频带、能量熵、语音端点检测。该研究对理解人耳听觉机制在语音处理中的应用，以及开发更适应实际环境的语音技术具有重要意义，尤其对于提高语音识别系统的鲁棒性和准确性具有积极的推动作用。中图分类号：TP391（信息技术、计算机科学）；TN912.3（通信技术、电子技术）。文献标志码A，表示该论文属于应用基础研究，具有较高的学术价值。

Joumal of Computer Applications

计算机应用，

日，

33(

: 175

-178

ISSN 1001-9081

CODEN JYIIDU

2013-01-01

http://www.joca.cn

文章编号:

1001 - 9081

(2013

)

- 0175 -

doi:l0.

3724/SP.

1087.2013.00175

基于临界频带及能量娟的语音端点检测

张婷何凌

黄华刘肖珩

(1.四川大学电气信息学院，成都

∞

65;

四川大学华西基础医学与法医学院，成都

610041)

(

*通信作者电子邮箱

ling.

he@

scu.

edu.

cn)

摘

要:语音端点检测的准确性直接关系着语音识别、合成、增强等语音领域的准确性，为了提高语音端点检测

的有效性，提出了一种基于临界频带及能量煽的语音端点检测算法。算法充分利用人耳听觉特性的频率分布，将含

嗓语音信号进行临界频带划分，并结合各频带内信号的能量煽值在语音段和噪声段的不同分布，实现不同背景噪声

下语音端点检测。实验结果表明，提出的语音端点检测算法与传统的短时能量法相比，检测正确率平均高1.

个百分

点。所提方法在不同噪声的低信嗓比

(SNR)

环境下均能实现语音端点检测。

关键词:小波降嗓;临界频带;能量煽;语音端点检测

中图分类号

凹

91;

TN912.3

文献标志码

Speech endpoint detection based

critical band and energy entropy

ZHANG

Ting

Ling

HUANG

Hua

LIU

Xiaoheng

(1. School

Electrical Engineering and Information,

Sich

皿

University, Chengdu Sichuan

610065

, China;

2. College

Forensic

Medici

时"

Sichua

University

，

Chengdu Sichuan

610041

, China)

Abstract:

The accuracy of the speech endpoint detection has a direct impact on the precision of speech recognition,

synthesis, enhancement, etc.

improve the effectiveness of speech endpoint detection, an algorithm based

critical band

and energy entropy

was

proposed. It took full advantage of the frequency distribution of human auditory characteristics, and

divided the speech signals according to critical bands. Combined

由

the

different distribution of energy entropy of each

critical band of the signals respectively in the speech segments and noise segments

, speech endpoint detection under different

background noises

was

completed.

e experimental results indicate that the average accuracy of the newly proposed algorithm

1.6%

higher than the traditional short-time energy algorithm. The proposed method can achieve the detection of speech

endpoint under various noise environment of

low

Signal

Noise Ratio (SNR) .

Key

words:

wavelet denoising; critical band; energy entropy; speech endpoint detection

引言

语音端点检测是语音识别、语音合成和语音增强等领域

不可或缺的前端处理技术，旨在从复杂的噪声环境中准确地

找到语音段的起始点和终止点。有效的语音端点检测，可以

提升语音识别系统的精度，改善语音增强系统的语音质量。

语音端点检测技术最早由贝尔实验室在

1959

年提出，经

过

多年的发展，语音端点检测的方法层出不穷。传统的语

音端点检测方法如短时能量法以及对其的各种变换法(平

方、差分、绝对值)在复杂的噪声环境中，检测的准确率较低。

为了提高语音端点检测的准确性和精确度，提出了许多新的

方法。如信息论的方法、人工神经网络的方法、统计模型的方

法等

[IJ

。王博等提出了基于:摘函数的检测算法

[2J

张梅提出

了基于模糊神经网络的检测方法[町等均用在低信噪比环境

下，取得了比较理想的效果。但相对神经网络的方法，精函数

的方法具有原理简单、运算量较小且不需要模型匹配等优点。

基于

恼的优越性，本文提出了一种基于临界频带及能量

怖的语音端点检测算法。该算法首先对含噪语音信号进行小

波降噪，然后利用人耳的听觉特性，对语音信号进行临界频带

的划分，进而对每个频带内的信号求能量

厢，根据情值在语音

段和噪声段的不同分布，采用自适应门限，判别语音段的起始

点和终止点。实验结果与采用传统短时能量法得到的语音端

点检测正确率进行比较，充分证明了该方法的优越性。

小波变换及降噪

小波变换

小波变换作为一种数学理论和方法在科学技术和工程界

应用越来越广泛。它的表达式如式(1)所示:

盹川

~(a

阳川

凯叩川，厅川

忖)

去扛[汇

二

叫叫(

式(口1)的含义是把基本小波函数

刷(

吵)做位移

后，再在

不同尺度

下与待分析信号

叫

吵)做内积。其中

仅影响小披

变换时频窗口在相平面时间轴上的位置;川

既影响窗口在频

率轴上的位置，又影响窗口的大

小、

J[4]

」。因此，小波变换对不同

的频率在时域上的取样步长是可调节的，即在低频时具有较

低的时间分辨率和较高的频率分辨率;在高频时具有较低的

频率分辨率和较高的时间分辨率。这正符合低频信号变化缓

慢而高频信号变换迅速的特点。

小波降曝

小波变换之所以具有很好的降噪效果，是因为其具有以

收稿日期

:2012-07-31

;修回日期

:2012-08-22

。

基金项目:国家自然科学基金资助项目(1

0972148

)。

作者简介:张婷(1

987

- )

，女，甘肃酒泉人，硕士研究生，主要研究方向:语音信号处理、医学电子学;

何凌

(1981

- ) ，女，四川成都人，讲

师，博士，主要研究方向:语音信号处理;

黄华(1

961

- )

，男，四川成都人，教授，博士生导师，博士，主要研究方向:医学电子学、医学信息工程;

刘肖珩(1

968

斗，男，四川成都人，教授，博士生导师，博士，主要研究方向:生物医学工程。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38730389

粉丝: 7
资源: 915

临界频带与能量熵结合的语音端点检测算法

基于配置熵识别（2+1）维Ginzburg-Landau模型临界点

临界带宽滤波器组对语音频谱的影响分析

基于音素的非特定人语音识别及其拒识算法深度探讨

听觉临界频带及其在声频信号处理中的应用 (2004年)

基于临界度和球对称性的面积定律微状态熵

洪水冲击流动管道基于DQM的临界长度研究* (2013年)

基于VB的阶梯搅拌轴临界转速算法实现 (2013年)

基于最小势能原理的变截面压杆临界压力的计算方法 (2013年)

平板断面颤振过程中能量输入特性研究 (2013年)

whids：Windows开源端点检测系统

最新资源