汉语数字语音识别系统的特征提取与端点检测分析

版权申诉
0 下载量 56 浏览量 更新于2024-04-04 收藏 969KB DOCX 举报
第二章 汉语数码语音的特征提取及端点检测方法分析 在语音识别系统中,模拟的语音信号在完成A/D转换后成为数字信号,但时域上的语音信号很难直接用于识别,因此我们需要从语音信号中提取语音的特征,一方面可以获得语音的本质特征,另一方面也起到数据压缩的作用。目前通用的特征提取方法是基于语音帧的,即将语音信号分为有重叠的若干帧,对每一帧提取kHz ms语音特征。例如采用的语音库采样率为11kHz,因此我们采用的帧长为220个采样点(即20ms),帧ms步长(即每一帧语音与上一帧语音不重叠的长度)为110个采样点(即10ms)。 现有语音识别系统采用的最主要的两种语音特征包括: 1. 线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)。该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。LPCC参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能也较差。 2. Mel频标(Mel-frequency Cepstral Coefficient,MFCC)。MFCC是一种描述语音信号频谱特征的参数,它模拟了人耳对频谱的感知特性。MFCC参数可以较好地表示语音的频谱特征,对于噪声和语音识别的性能也相对较好。 在特征提取的基础上,需要进行端点检测,即确定语音信号的起始点和结束点。端点检测方法的主要目的是剔除语音信号中的静音段及非语音干扰,提高语音识别系统的准确性。 要进行端点检测,首先需要对语音信号进行预处理,如去除直流分量、增强信号峰值等。之后,可以采用以下几种方法进行端点检测: 1. 短时能量法。该方法通过计算每一帧语音信号的能量来判断语音的起始和结束点,当能量超过设定的阈值时认为是语音信号,否则认为是静音部分。 2. 过零率法。通过统计语音信号每一帧过零点的个数,当过零率超过设定的阈值时认为是语音信号的边界。 3. 立方差法。该方法结合了短时能量和过零率的信息,通过计算语音信号每一帧的立方差来确定语音信号的起始和结束点。 通过合理选择特征提取方法和端点检测方法,可以有效地提高汉语数码语音识别系统的准确性和稳定性。在实际应用中,还可以结合深度学习等新技术来进一步提升系统的性能,为语音识别技术的发展做出贡献。