一个实用的语音识别系统应由哪几个部分组成?语音识别中常用的语音特征参数有哪些?什么是动态语音特征参数?怎样提取动态语音特征参数?
时间: 2023-12-11 15:02:47 浏览: 94
一个实用的语音识别系统通常由以下几个部分组成:
1. 语音预处理:将原始语音信号进行滤波、降噪、预加重等处理,以便后续处理的顺利进行。
2. 特征提取:将预处理后的语音信号转换成一系列特征向量,作为后续模型的输入。常用的特征参数有MFCC、LPCC、PLP等。
3. 建模和训练:利用已标注好的语音数据进行模型的训练,常用的模型包括隐马尔可夫模型(HMM)、深度神经网络(DNN)、循环神经网络(RNN)等。
4. 解码和后处理:将测试语音转换成特征向量序列后,利用训练好的模型进行识别,得到最终的文本结果。对于连续语音,还需要进行声学模型对齐和后处理等操作。
常用的语音特征参数包括:
1. 短时能量(Short-term energy)
2. 短时过零率(Short-term zero crossing rate)
3. 梅尔倒谱系数(Mel-frequency cepstrum coefficients,MFCC)
4. 线性预测征候系数(Linear predictive coding coefficients,LPCC)
5. 感知线性预测(Perceptual linear predictive,PLP)
动态语音特征参数是指对语音的一系列动态变化进行建模,包括一阶差分参数(delta)和二阶差分参数(delta-delta)。这些参数能够更好地反映语音信号的动态特性,提高语音识别的准确率。
提取动态语音特征参数的方法包括:
1. 差分法:对每个特征向量的相邻帧求差分,得到一阶差分参数。
2. 双向差分法:对每个特征向量的前后若干帧求差分,得到一阶差分参数和二阶差分参数。
3. 动态时间规整法(Dynamic time warping,DTW):将测试语音的特征向量序列与训练语音的模板序列进行匹配,得到一阶差分参数和二阶差分参数。
阅读全文