2008年SM-DBN：大词汇量语音识别与音素切分的创新模型

需积分: 5 166 浏览量更新于2024-08-12 收藏 399KB PDF 举报

本文主要探讨了2008年发表在《西北工业大学学报》上的一篇关于基于动态贝叶斯网络的大词汇量连续语音识别和音素切分的研究论文。作者吕国云、蒋冬梅、张艳宁和赵荣椿，以及Hichem Sahli合作提出了Single Stream Multi-states Dynamic Bayesian Network (SM-DBN)模型。这一创新性的模型是在Bilmes等人先前的Single Stream Dynamic Bayesian Network (SS-DBN-P)模型基础上发展而来，SS-DBN-P模型专注于词级别的识别，而SM-DBN则进一步细化到音素层面。 SM-DBN的主要特点是它将语音识别的基元从词级细化到音素级，每个词由其对应的音素状态组成，这使得模型能够更好地捕捉和描述语音中的发音细节。音素被赋予固定数量的状态描述，并直接与观测向量相连，从而实现了对音素动态发音过程的精确建模。这种设计允许模型在处理大词汇量连续语音时展现出更高的准确度。实验结果显示，相比于传统的隐马尔可夫模型（HMM）和SS-DBN-P模型，SM-DBN在纯净语音环境下，语音识别率分别提升了13.01%和35.2%，音素切分的正确率也分别提高了10%和44%。这表明SM-DBN在复杂任务中的性能显著优于传统方法，特别是在处理大量未知词汇和连续语音时。动态贝叶斯网络（DBN）作为一种统计建模工具，因其强大的非线性建模能力和自适应性，在语音识别领域中得到了广泛关注。Bilmes等人的工作不仅推动了DBN在连续语音识别中的应用，而且SM-DBN的提出更是对其进行了进一步的优化和扩展，使之适用于大词汇量的场景。这篇论文在语音识别技术的发展史上具有重要意义，因为它不仅提升了识别性能，还通过引入音素级的处理，为后续的研究提供了新的思路和技术手段，对后续大词汇量连续语音识别和音素分析的算法设计产生了深远影响。

•

2008

年

月

第

卷第

期

西北工业大学学报

Apr.

2008

No.

Journal

Northwestern Polytechnical University

基于动态贝叶斯网络的大词汇量连续语音

识别和音素切分研究

吕国云

，蒋冬梅

，张艳宁

，赵荣椿

，

Hichem Sahli

(1.西北工业大学计算机学院，陕西西安

710072;

布鲁塞尔自由大学电子与信息处理系，比利时布鲁塞尔

B-1050)

摘要

提出一个新颖的单流多状态动态贝叶斯网络

(Single

stream

Multi-states

Dynamic

Bayesian

Network

SM-DBN)

模型，以实现大词汇量连续语音识别和音素切分。该模型在

Bilmes

等人提出的单流动态贝叶斯网络

(Single

stream

Dynamic

Bayesian

Network

Phone-shared

SS-

DBN-P)

模型(识别基元为词〉基础上，增加了一个隐含的状态节点层，每个词由它的对应音素组

成，而音素采用固定个数的状态描述，状态和观测向量直接连接。它的识别基元为音素，描述了音素

的动态发音变化过程。大词汇量语音识别的实验结果表明:在纯净语音环境下，

SM-DBN

模型的识

别率比

HMM

和

SS-DBN-P

模型的识别率分别提高了

13.01%

和

35.

2 %

，而音频流的音素切分正

确率则分别提高了

10%

和

44%

。

关

键词:动态贝叶斯网络音视频语音识别音素切分

中圄分类号

:TP39

文献标识码

文章编号

:1000-2758(2008)02-0173-06

近年来，采用动态贝叶斯网络

(Dynamic

Bayesian

Network

DBN)

进行语音识别成为一个

研究热点旧。最初的一些动态贝叶斯网络结构是用

来模拟标准的隐马尔可夫模型

(HMM)

及其它的扩

展模型白，

如

factorial

HMM

couple

HMM

等等。

最近，

Bilmes

等人提出一个单流的

DBN

模型用于

连续语音识别

[44

，这个模型显式地描述了词、音素

(整词状态〉、观测向量以及他们之间的条件概率分

布。每个词由它的对应组成音素构成，而每个音素和

观察向量联系并采用高斯混合模型来描述，对于每

个词，采用它的组成音素以及音素之间的状态转移

概率描述词的动态发音过程，也可以称为共享音素

(Phone-share)

的单流

DBN

(SS-DBN-P)

模型。同

时，针对连续语音识别，Bi

lmes

还构建了一个整词

(Whole-Word)

结构的单流

DBN

(SS-DBN-

WW)

模

型，在这个模型中，没有体现音素节点，每个词采用

了固定个数的整词状态来描述。报告采用一个图模

型工具包

(GMTK)

对数字连接词数据库进行了语

音识别实验[川，和

HMM

比较，更好的识别结果被

得到。

然而上述

个模型在本质上是一个词模型，描

述了词的动态变化过程，没有描述音素的动态变化

过程，而且

SS-DBN-WW

模型中没有音素节点，不

能进行音素切分，因此这两个模型仅仅适合于小词

汇量的语音识别任务。

在上述模型的基础上，本文提出一个新颖的单

流多状态

(Single-stream

Multi-states)

DBN

模型，

简写为

SM-DBN

模型，这个模型引入了状态节点，

每个词由它的对应组成音素构成，每个音素采用

定个数的状态来描述，而状态和状态之间的转移概

率关系反映了音素的动态变化过程，每个状态节点

都采用高斯握合模型来描述。模型可以输出词识别

序列和带时间边界的音素序列。

SM-DBN

模型介绍

动态贝叶斯网络

(DBN)

是贝叶斯网络(B

时间变化的一个动态扩展，它是由一系列变量节点

收稿日期:

2007-03-07

基金项目

中国科技部与比利时国际合作项目

(No.

[2004J48

7)资助

作者简介

吕国云(1

975

一)，西北工业大学博士生，主要从事音视频语音信号处理。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38693192

粉丝: 5

2008年SM-DBN：大词汇量语音识别与音素切分的创新模型

基于动态贝叶斯网络的大词汇量连续语音识别和音素切分研究

论文研究-基于动态贝叶斯网络的语音识别及音素切分研究.pdf

动态贝叶斯网络驱动的大词汇量语音识别与音素切分提升研究

基于动态贝叶斯网络的语音识别及音素切分研究* (2007年)

基于动态贝叶斯网络的威胁估计研究

基于动态贝叶斯网络的机器人巡检线路故障方法研究

基于改进的动态贝叶斯网络的步态识别

基于动态贝叶斯网络的电力系统故障诊断研究.pdf

基于动态贝叶斯网络的电子对抗演练效果评估研究 (2014年)

论文研究-基于上下文三音素DBN模型的连续语音识别.pdf

最新资源