无监督聚类增强的VTS语音识别在噪声环境下的性能提升

需积分: 11 147 浏览量更新于2024-08-11 收藏 164KB PDF 举报

"基于VTS的稳健语音识别 (2005年)，赵贤宇, 欧智坚, 王作英 - 清华大学学报(自然科学版)" 这篇论文探讨了如何改进矢量Taylor级数（VTS）算法在噪声环境下的语音识别性能。VTS算法是一种用于声学模型补偿的技术，它通过泰勒级数展开来逼近模型的非线性行为。在噪声环境中，VTS的模型补偿精度可能会降低，导致识别性能下降。论文提出了一种创新的方法，即结合无监督聚类算法与VTS。无监督聚类算法利用Kullback-Leibler距离，这是一种衡量两个概率分布差异的度量，将含噪语音信号分割成多个子段。每个子段的噪声特性可能有所不同，因此对每个子段分别进行一阶泰勒级数展开更为合适。这样，可以更精确地估计每个子段内的噪声参数和声学模型，从而提高模型的适应性和识别效果。实验是在一个中文数字串识别系统上进行的，系统在Babble噪声和Gauss白噪声环境下运行。应用新方法后，相对于传统的VTS算法，误识率分别下降了27.7%和17.8%，显示出显著的性能提升。这表明结合无监督聚类的分段VTS算法能更有效地处理语音和噪声在倒谱域上的非线性混合，转化为一阶线性模型，从而提高了在噪声环境中的语音识别稳健性。关键词涉及到的信息处理、语音识别、模型自适应和稳健性是本研究的核心内容。论文的分类号TP391表明其属于信息处理技术领域，而文献标识码A则提示这是一篇原创性的科研论文。文章发表在《清华大学学报(自然科学版)》2005年第45卷第7期，展示了该领域的最新研究成果。这篇论文提供了一种有效增强语音识别系统在噪声环境下的性能的方法，对于噪声抑制和语音识别技术的发展具有重要的理论和实践意义。

ISSN 1000-0054

11-2223/N

清华大学学报 (自然科学版)

J T singhua U niv (Sci& T ech),

2005 年第 45 卷第 7 期

2005, V ol.45, N o.7

8/38

892-895

基于

VTS

的稳健语音识别

赵贤宇, 欧智坚, 王作英

(清华大学电子工程系, 北京 100084)

收稿日期: 2004-05-16

基金项目:国家“八六三”高技术项目 (2001A A 114071)

作者简介: 赵贤宇 (1976-), 男( 汉), 湖南, 博士研究生。

通讯联系人:王作英,教授,

mail

wzy

dee

mail

tsinghua

edu

摘要: 为了进一步提高矢量

Taylor

级数(

VTS

)算法的模

型补偿精度以及在噪声环境下的识别性能,提出将无监督聚

类与

VTS

算法相结合。无监督聚类算法利用噪声模型之间

的 K ullback-Leibler 距离将含噪语音段划分为若干个子段。

然后针对各个子段分别进行一阶

Taylor

级数展开,并在此

基础上逐段估计噪声参数和补偿声学模型。该算法结合一个

中文数字串识别系统进行实验,在

B abble

噪声和

Gauss

白

噪声环境下该算法的误识率相对传统的

VTS

算法分别下降

了 27.7% 和 17.8% 。证明这种结合无监督聚类的分段

VTS

算法能够更加有效地将语音和噪声在倒谱域上的非线性混

合模型用一阶线性模型来近似。

关键词: 信息处理; 语音识别; 模型自适应; 稳健性

中图分类号:

391 文献标识码:

文章编号: 1000-0054(2005)07-0892-04

VTS -based rob ust spee ch re co gnition

ZHAO Xianyu

OU Zhij ian

WANG Zuoying

(

Department of Electron i c Engine e ring

Tsinghua Univer sity

Beijing 100084

China

)

Abstract

: In order to further im prove noise m odeling accuracy and

acoustic m odel com pensation, this paper presents an unsupervised

clustering techn ique com bined w ith vector T ay lo r series (V T S)

expansions. T his m ethod clu sters noise speech fram es into different

classes based on the K ullback-L eibler distance betw een noise

m odels. S eparate V T S expansions are applied to each class for noise

m odels' param eter estim ation and acoustic m odel com pensation .

E xperim ents w ith a digit string recognizer w ith babble and G aussian

w hite noise env ironm ents gave 27. 7% and 17.8% error reduction

relative to a conven tio nal V T S algo rithm . T h ese results show that

th e com b in atio n of un supervised noise clustering and V T S

expansions for each class can appro xim ate the non-linear speech and

noise corruption m odel in the cepstral dom ain m ore effectiv ely.

Key words

: inform ation processing; speech recognition; m odel

adaptation; robustness

目前的语音识别系统通常使用在安静环境下录

制的语音数据训练声学模型。当该模型用于实际环

境中时,由于噪声等因素的影响,训练数据与识别数

据之间存在较大的失配,识别器的性能将会变差

[1]

。

如何提高在噪声环境下的稳健性是目前语音识别技

术研究的重要问题,目前已经提出了多种滤波和模

型自适应与补偿算法。欧洲电信联盟(

ET SI

)针对分

布式语音识别应用提出的 A U R O RA 特征提取算

法

[2]

使用了滤波和波形处理等方法,被认为是一种

在加性噪声环境下改善语音识别器性能较好的算

法。在模型自适应方面,传统的针对说话人的模型自

适应算法,例如

MLLR

、

MAP

等

[3 ]

,对于补偿由于

说话人差异导致的模型失配,已经取得了一定的效

果。但是,所有这些算法通常需要较长的语音数据

(十几 s 到几十 s)进行模型变换。而实际环境中的噪

声通常是非平稳、时变的,直接利用上述说话人自适

应算法无法取得良好的模型补偿效果。因此,利用较

少的噪声数据估计噪声的统计特性进行声学模型补

偿的自适应算法仍然继续被广泛研究。其中比较典

型的是并行模型补偿(

PM C

)算法

[4]

和矢量

Taylor

级数展开(V T S)算法

[5]

。由于在倒谱域,语音信号与

噪声的混合模型是非线性的,精确的

PM C

算法需

要计算数值积分,系统的运算负担太大。而使用对数

正态分布近似的

PM C

算法,虽然补偿算法简单,但

是模型逼近的精度受到了影响。V T S 通过 T aylor

级数展开式将一个非线性混合模型用其一阶

T aylor 级数展开式来近似。在此基础上能够方便地

利用噪声统计信息对声学模型进行补偿。

本文讨论利用噪声聚类算法提高 V T S 算法的

参数估计和模型补偿精度。结合一个数字串识别系

统,在不同的噪声环境设置下进行了试验,比较了

AURORA

特征提取算法、传统的

VTS

算法以及融

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38516804

粉丝: 5
资源: 930

无监督聚类增强的VTS语音识别在噪声环境下的性能提升

两层GMM结构的VTS特征补偿：鲁棒语音识别新方法

鲁棒语音识别：模型自适应算法研究与实现

基于XM2VTS数据集的Python TensorFlow加载与测试指南

基于两层GMM结构的VTS特征补偿，可实现鲁棒的语音识别

人工智能-语音识别-鲁棒语音识别中的模型自适应算法研究与实现.pdf

基于Grafana的nginx vts模板

vts.rar_vts

VTS bacnet

vts fastboot

PACS-VTS:基于Python和React的PACS服务器

最新资源