提升语音识别鲁棒性：噪声抑制与特征优化策略

版权申诉

110 浏览量更新于2024-07-02 收藏 1.28MB PDF 举报

本文主要探讨了人工智能领域中自动语音识别（Automatic Speech Recognition, ASR）在噪声环境下的鲁棒性提升方法。随着技术的发展，ASR系统从实验室环境逐渐向实际应用场景转移，然而噪声环境对识别性能的影响是一个亟待解决的问题。本文通过以下几个关键方面来推进这一领域的研究： 1. **理论基础与分类**：首先，作者概述了语音信号的数字模型和语音识别的基本原理，将噪声鲁棒性方法在自动语音识别中的应用分为信号空间、特征空间和模型空间三个层次进行分类讨论。这有助于理解噪声如何影响识别过程，以及如何通过不同的技术手段进行应对。 2. **端点检测与语音增强**：文章深入研究了预处理阶段的端点检测算法，特别是基于短时能量、短时过零率和谱熵的检测技术。在此基础上，作者提出了改进的谱熵端点检测算法，旨在提高识别系统的抗噪声性能。此外，还探讨了谱减法及其改良版本，用于减少噪声对语音信号的干扰，有效提高了信噪比。 3. **特征提取**：从特征空间的角度，作者对比了LPC、LPCC和MFCC等常见的语音特征参数。在此基础上，设计了一种新型鲁棒特征参数SS-MFCC，它在不同噪声条件下进行了识别实验，结果显示SS-MFCC在保持识别精度的同时，提高了系统对噪声的抵抗能力。 4. **HMM模型的应用**：研究中采用了隐马尔可夫模型（Hidden Markov Model, HMM）作为核心建模工具，构建了一个基于HMM的语音识别系统。实验结果显示，在信噪比为10dB的白噪声环境中，该系统对于汉语数字0-9的识别率达到83.75%，证明了所采用策略的有效性和系统在实际噪声条件下的良好鲁棒性。本文通过对噪声鲁棒性方法的深入研究，特别是在信号处理、特征提取和模型选择上的创新，为提高自动语音识别系统在复杂环境下的性能提供了实用的解决方案。这不仅有助于现有系统的优化，也为未来的智能语音交互技术发展奠定了坚实的基础。

南京邮电大学硕士研究生学位论文第二章鲁棒语音识别研究概述

()









（2.1）

上式 N 的取值越大，模型与实际声道传输越一致。此种声道模型是以多种理想假设为前

提推导得出，但基本上与大多数语音的实际情况相符合。

在辐射模型中，其描述的含义为人的声音经过声道，最终由口和唇辐射出。口唇辐射效

应可以用下式来表示：

() 1

zrz



 （2.2）

其中 r 接近于 1。

综上所述，我们可以构建一个离散时域的语音信号产生模型，它由三部分组成：激励源、

声道模型、辐射模型。

2.1.2 语音识别系统的基本原理

语音识别系统本质上为一个模式识别系统

[14]

，其原理框图如下图所示。语音信号通过预

处理，语音特征提取，声学模型训练及模式匹配后，输出识别结果。

预处理特征提取

模式匹配

模型库

失真测度

语音信号

识别

结果

训练

识别

图 2.2 语音识别系统的原理图

（1）预处理

包括语音信号的电压放大、抗混叠滤波、自动增益控制、模/数转换、消除声门激励和口

鼻辐射的影响等，涉及到语音识别基元的选取和预加重、加窗、分帧、端点检测。

（2）特征提取

万方数据

南京邮电大学硕士研究生学位论文第二章鲁棒语音识别研究概述

用以提取语音中能够反映其本质特征的声学参数，如短时能量，平均过零率，频谱，倒

谱，共振峰，线性预测系数等。

（3）训练

在识别之前通过说话者多次重复语音，把冗余信息从原始语音样本中去掉，保留最能体

现语音各种特征的关键数据，再按一定规则对数据来加以聚类，形成识别参考的模式库。

（4）模式识别

它是整个语音识别系统的核心，提取出输入待识别语音的特征参数，依据一定的准则（如

某种距离测度），计算出输入特征与模式库中模式之间的相似度（如似然概率、匹配距离），

由此判断输入语音的语义信息，从而得到识别结果。

2.2 鲁棒语音识别研究内容

语音识别的噪声鲁棒性

[15]

是指在输入语音质量退化，语音的音素特性、声学特性或分割

特性在训练与测试环境中不同时，语音识别系统依旧维持较高识别率的性质。在基于统计模

型的语音识别系统中，训练的数据必须具备足够的代表性。但是当训练环境和测试环境不匹

配时，由训练数据所得模板的代表性降低，识别系统的性能随之显著下降。尽管增大训练数

据量可以减少失配情况的发生，但是这并不能从根本上解决问题。所以鲁棒语音识别系统的

另一个重要目标就是减少对大量训练语音数据的依赖性，更有效地利用有限的数据，构建准

确的统计模型来适应不同声学环境的变化。

由噪声引起的训练环境和测试环境的不匹配对识别系统的影响可以从信号空间、特征空

间与模型空间三个层次来分析

[16]

。图 2.3 描述了语音识别中训练与测试时信号空间、特征空

间及模型空间存在的不匹配。其中，

S 表示训练环境下的语音数据，X 表示从训练环境下的

语音数据中提取的特征，表示根据训练数据得到的语音模型。

T、Y、分别表示测试语

音、测试语音特征与测试语音模型。当训练环境和测试环境不匹配时，噪声令

T、Y、发

生失真，从 S、X、到 T、Y、的失真函数分别用

()D



、

()D



、D 来表示。各种噪声

鲁棒语音识别方法就是从信号空间、特征空间与模型空间三个层次来去除由于训练环境与测

试环境不同所带来的畸变影响。

()

万方数据

南京邮电大学硕士研究生学位论文第二章鲁棒语音识别研究概述

()D 

()D



()D 

图 2.3 训练环境与测试环境不匹配时的影响

2.3 信号空间鲁棒语音识别方法

基于信号空间的鲁棒语音识别方法主要针对原始语音信号的处理，重点包含语音增强和

语音端点检测等方法。

2.3.1 语音增强

语音增强

[17]

是解决噪声污染的有效方法，其主要目标是从带噪语音中提取尽可能纯净的

原始语音信号，改善语音质量，去除背景噪声，提高语音可懂度。语音增强技术作为预处理

或前端模块存在于语音识别系统中，尽可能的把纯净语音送到识别系统输入端，提高了识别

系统输入信号的信噪比和系统识别率，一定程度上解决了语音识别系统在背景噪声较大时性

能急剧下降的问题。由于噪声信号产生都是随机的，完全去除噪声几乎不可能。噪声有许多

来源，特性又各不相同，所以不存在一种能够适用于所有噪声环境的语音增强算法。实际应

用时还需要根据不同的噪声类别，采用特定的语音增强算法。从处理方法上来说，通常采用

的语音增强算法有以下几类

[18]

：

（1）基于语音周期性的增强算法

语音信号中的浊音在时域上呈现出明显的周期性，而且能量大部分集中在低频段，频谱

中表现出共振峰结构，所以能够使用自适应梳状滤波器来提取语音分量，抑制噪声。梳状滤

波器可以在频域上实现，通过对信号做傅里叶变换，将所需的各次谐波分量提取出来，然后

做傅里叶逆变换还原出时域信号。这种算法的关键在于准确地估计和跟踪基音周期。基音周

期的估计可以利用语音信号处理中的各种估计算法，不过在强背景噪声下，很难保证基音估

计的准确性。同时，这种方法也和噪声的浊化程度有关，一般在清音部分性能较差。因此这

种方法虽然可以提高信噪比，但不能提高可懂度，辅音在传达意义上比浊音更重要。

万方数据

剩余73页未读，继续阅读

programhh

粉丝: 8
资源: 3741

提升语音识别鲁棒性：噪声抑制与特征优化策略

人工智能-语音识别-鲁棒语音识别中的模型自适应算法研究与实现.pdf

人工智能-语音识别-汉语连续语音识别中自适应技术的研究.pdf

人工智能-语音识别-基于元音长度调整的中语言语音识别.pdf

人工智能-语音识别-经验模态分解及深度信念网络在语音识别中的应用研究.pdf

智能语音识别系统噪声鲁棒性研究.pdf

噪音环境下的语音识别研究.pdf

人工智能中远场语音识别技术的研究.pdf

基于深度学习的语音识别方法研究.pdf

基于PSO-BP神经网络的语音识别研究.pdf

深层神经网络语音识别自适应方法研究.pdf

最新资源