动态贝叶斯网络驱动的大词汇量语音识别与音素切分提升研究

需积分: 9 95 浏览量更新于2024-09-11 收藏 378KB PDF 举报

本文主要探讨了基于动态贝叶斯网络的大词汇量连续语音识别和音素切分的研究。动态贝叶斯网络(Dynamic Bayesian Network, DBN)作为一种强大的机器学习工具，在语音识别领域展现出广阔的应用前景。作者在此提出了一种创新的单流多状态动态贝叶斯网络(Singlestream Multi-states Dynamic Bayesian Network, SM-DBN)模型，它是在Bilmes等人提出的Phone-shared Singlestream Dynamic Bayesian Network (SS-DBN-P)模型的基础上发展而来。 SS-DBN-P模型以词作为识别单元，而SM-DBN模型在此基础上进行了扩展，将识别单元改为音素，以更好地捕捉语音信号中的细致变化。每个音素被赋予固定数量的状态描述，并且这些状态直接与观测向量相连，这样可以更精确地反映音素的动态发音过程。与SS-DBN-P模型相比，SM-DBN模型在大词汇量连续语音识别中取得了显著提升，特别是在纯净语音环境下的识别率分别提高了13.01%和35.2%，这表明音素级别的建模有助于提高识别性能。此外，SM-DBN在音频流的音素切分任务中也表现优秀，相比于SS-DBN-P模型，音素切分的正确率分别提升了10%和44%，进一步证明了该模型在复杂语音处理任务中的优越性。动态贝叶斯网络的使用使得模型能够处理非平稳的语音信号，通过条件概率分布的建模，有效地解决了大词汇量连续语音识别中的不确定性问题。本文的研究工作不仅提升了连续语音识别的准确度，还展示了动态贝叶斯网络在音素层面分析和处理语音信号的强大能力，对于推动语音识别技术的发展具有重要意义。未来的研究可以进一步探索如何优化模型结构，提高在噪声环境下的性能，以及与其他深度学习方法相结合，以实现更高效、鲁棒的语音识别系统。

２

００８年４月

第２６卷第２期

西ｊＥ工业大学学报

Ｊｏｕｒｎａｌ

ｏｆ

Ｎｏｒｔｈｗｅｓｔｅｒｎ

Ｐｏｌ”ｅｃｈｎｉｃａｌ

ＵｎｉＶｅｒｓｉｔｙ

Ａｐｒ．

２００８

Ｖ０１．２６

Ｎｏ．２

基于动态贝叶斯网络的大词汇量连续语音

识别和音素切分研究

吕国云１，蒋冬梅１，张艳宁１，赵荣椿１，Ｈｉｃｈｅｍ

Ｓａｈｌｉ２

（１．西北工业大学计算机学院，陕西西安

７１００７２，２。布鲁塞尔自由大学电子与信息处理系，比利时布鲁塞尔＆１０５０）

摘

要：提出一个新颖的单流多状态动态贝叶斯网络（Ｓｉｎｇｌｅ

ｓｔｒｅａｍ

Ｍｕｌｔｉ—ｓｔａｔｅｓ

Ｄｙｎａｍｉｃ

Ｂａｙｅｓｉａｎ

Ｎｅｔｗｏｒｋ，ＳＭ—ＤＢＮ）模型，以实现大词汇量连续语音识别和音素切分。该模型在Ｂｉｌｍｅｓ

等人提出的单流动态贝叶斯网络（Ｓｉｎｇｌｅ

ｓｔｒｅａｍ

Ｄｙｎａｍｉｃ

Ｂａｙｅｓｉａｎ

Ｎｅｔｗｏｒｋ，Ｐｈｏｎｅ—ｓｈａｒｅｄ，ＳＳ—

ＤＢＮ—Ｐ）模型（识别基元为词）基础上，增加了一个隐含的状态节点层，每个词由它的对应音素组

成，而音素采用固定个数的状态描述，状态和观测向量直接连接。它的识别基元为膏素，描述了音素

的动态发膏变化过程。大词汇量语音识别的实验结果表明：在纯净语音环境下，ＳＭ—ＤＢＮ模型的识

剐率比ＨＭＭ和ＳＳ—ＤＢＮ—Ｐ模型的识别率分别提高了１３．０１％和３５．２％，而音频流的音素切分正

确率则分别提高了１０％和４４％。

关键词：动态贝叶斯网络音视频语音识别音素切分’

中图分类号：ＴＰ３９１．４２

文献标识码：Ａ

文章编号：１０００一２７５８（２００８）０２—０１７３一０６

近年来，采用动态贝叶斯网络（Ｄｙｎａｍｉｃ

Ｂａｙｅｓｉａｎ

Ｎｅｔｗｏｒｋ，ＤＢＮ）进行语音识别成为一个

研究热点［１】。最初的一些动态贝叶斯网络结构是用

来模拟标准的隐马尔可夫模型（ＨＭＭ）及其它的扩

展模型［。，３］如ｆａｃｔｏｒｉａｌ

ＨＭＭ，ｃｏｕｐｌｅ

ＨＭＭ等等。

最近，Ｂｉｌｒ玳ｓ等人提出一个单流的ＤＢＮ模型用于

连续语音识别［．．ｓ］，这个模型显式地描述了词、音素

（整词状态）、观测向量以及他们之间的条件概率分

布。每个词由它的对应组成音素构成，而每个音素和

观察向量联系并采用高斯混合模型来描述，对于每

个词，采用它的组成音素以及音素之间的状态转移

概率描述词的动态发音过程，也可以称为共享音素

（Ｐｈｏ舱．ｓｈａｒｅ）的单流ＤＢＮ（ＳＳ—ＤＢＮ—Ｐ）模型。同

时．针对连续语音识别，Ｂｉｌｍｅｓ还构建了一个整词

（Ｗｈ０１ｅ—Ｗｏｒｄ）结构的单流ＤＢＮ（ＳＳ—ＤＢＮ—ＷＷ）模

型，在这个模型中，没有体现音素节点，每个词采用

了固定个数的整词状态来描述。报告采用一个图模

型工具包（ＧＭＴＫ）对数字连接词数据库进行了语

音识别实验邙Ｊ】，和ＨＭＭ比较，更好的识别结果被

得到。

然而上述２个模型在本质上是一个词模型，描

述了词的动态变化过程，没有描述音素的动态变化

过程，而且ＳＳ—ＤＢＮ—ＷＷ模型中没有音素节点，不

能进行音素切分，因此这两个模型仅仅适合于小词

汇量的语音识别任务。

在上述模型的基础上，本文提出一个新颖的单

流多状态（Ｓｉｎｇｌｅ—ｓｔｒｅａｍ

Ｍｕｌｔｉ—ｓｔａｔｅｓ）ＤＢＮ模型，

简写为ＳＭ—ＤＢＮ模型，这个模型引入了状态节点，

每个词由它的对应组成音素构成，每个音素采用固

定个数的状态来描述，而状态和状态之间的转移概

率关系反映了音素的动态变化过程，每个状态节点

都采用高斯混合模型来描述。模型可以输出词识别

序列和带时间边界的音素序列。

１

ＳＭ—ＤＢＮ模型介绍

动态贝叶斯网络（ＤＢＮ）是贝叶斯网络（ＢＮ）随

时间变化的一个动态扩展，它是由一系列变量节点

收稿日期ｚ２００７一０３一０７

基金项目ｔ中国科技部与比利时国际合作项目（Ｎｏ．［２００４］４８７）资助

作者简介ｔ吕国云（１９７５一），西北工业大学博士生，主要从事音视频语音信号处理．

　万方数据

下载后可阅读完整内容，剩余5页未读，立即下载

KNS863

粉丝: 0

动态贝叶斯网络驱动的大词汇量语音识别与音素切分提升研究

MSBNx：微软开发的贝叶斯网络建模工具

MSBNx：使用指南

MSBNX贝叶斯网络工具

基于动态贝叶斯网络的大词汇量连续语音识别和音素切分研究 (2008年)

论文研究-基于动态贝叶斯网络的语音识别及音素切分研究.pdf

基于动态贝叶斯网络的语音识别及音素切分研究* (2007年)

2008年SM-DBN：大词汇量语音识别与音素切分的创新模型

基于动态贝叶斯网络的威胁估计研究

基于动态贝叶斯网络的机器人巡检线路故障方法研究

基于动态贝叶斯网络的电力系统故障诊断研究.pdf

最新资源