ISSN1000-0054
CN11-2223
/
N
清华大学学报
(
自然科学版
)
JTsin
g
hua Univ
(
Sci& Tech
),
2012
年 第
52
卷 第
11
期
2012
,
Vol.52
,
No.11
4
/
25
1530-1534
大规模词表连续语音识别引擎紧致动态网络的构建
刘
加
,
陈
谐
,
单煜翔
,
史永哲
(
清华大学 电子工程系
,
清华信息科学与技术国家实验室
,
北京
100084
)
收稿 日期
:
2012-02-28
基金 项目
:
国家自然科学基金委员会与香港研究资助局联合科研
基金资助项目
(
60931160443
);
国家自然科学基金项目
(
90920302
,
61005019
);
国家
“
八六三
”
高技术项目
(
2008AA040201
);
国家科技支撑计划资助项目
(
2009BAH41B01
)
作者 简介
:
刘加
(
1954
—),
男
(
汉
),
福建
,
教授
。
E-mail
:
liu
j
@mail.tsin
g
hua.edu.cn
摘
要
:
大规模词 表 连 续 语 音识 别 系 统 需 要 综 合 各 种 知 识
源
,
如声学模型
、
语言模 型
、
发 音 词 典 等
。
其 中
,
解 码 网 络 是
识别引擎的基 础
,
对 提 高 解 码 器 的 性 能 有 着 至 关 重 要 的 影
响
。
有效综合这些知识 源
,
构 建 一个 紧 致 的 解 码 网 络
,
可 以
有效减少识别 时 的 搜 索 空 间 和 重 复 计 算
,
显 著 提 高 解 码 速
度
。
该文针对语音识别的动态解码网络进行研究
,
提出 了 词
标志
(
wordend
,
WE
)
节 点 前 推 算 法
,
结 合 传 统 的 前 后 向 合
并算法
,
实现了一个基于隐
Markov
模 型 状态 为 网 络 节 点 的
紧凑动态解码网络
。
优 化 后的 解 码 网 络 的 节 点 数 和 边 数 分
别是线性词典 解 码 网 络 的
1
/
4
,
是 开 源 工 具 包
HDecode
的
1
/
2
;
需要计算 语 言 模 型 预 测 分 数 的 节 点 数 为
HDecode
的
1
/
2
。
该声学模型基于三 音 子 建 模
,
可 方 便 地 移 植 到 其 他 语
种上
。
关键词
:
语音识别
;
解码网络
;
声学模型
;
语言模型预测
中图分类号
:
TN912.34
文献标志码
:
A
文章编号
:
1000-0054
(
2012
)
11-1530-05
Constructionofacom
p
actd
y
namicdecoder
networkforlar
g
evocabular
y
continuous
s
p
eechreco
g
nition
LIUJia
,
CHENXie
,
SHANYuxian
g
,
SHIYon
g
zhe
(
Tsin
g
huaNationalLaborator
y
forInformationScience
andTechnolo
gy
,
De
p
artmentofElectronicEn
g
ineerin
g
,
Tsin
g
huaUniversit
y
,
Bei
j
in
g
100084
,
China
)
Abstract
:
Lar
g
evocabular
y
continuouss
p
eechreco
g
nitions
y
stems
(
LVCSR
)
involvevariousknowled
g
esources
,
suchasanacoustic
model
,
alan
g
ua
g
e modeland a
p
ronunciation dictionar
y
. The
decodernetworkasthebasisofthedecoderhasacriticalinfluenceon
thedecoder
p
erformance.B
y
effectivel
y
inte
g
ratin
g
theseknowled
g
e
sources
,
acom
p
actdecodernetworkcanreducethesearchs
p
aceand
avoid re
p
eated com
p
utations
,
which accelerates the reco
g
nition
s
p
eed.This
p
a
p
erdescribesacom
p
actd
y
namicdecodernetwork
basedonhiddenMarkovmodelstatesasthenetworknode
,
withan
efficientwordend
p
ushin
g
al
g
orithm fors
p
eechreco
g
nition.The
al
g
orithmcombinestraditionalforwardandbackwardcombination
al
g
orithmstoreducethenumberofnodesanded
g
esb
y
afactorof4
com
p
aredtoalinearlexicaldecodernetworkandwithhalfasman
y
nodesasthewell-knowno
p
ensourcetoolHDecode.Thenumberof
nodesneededtocalculatethelook-aheadscoreiscutinhalf.This
acousticmodelisbasedonthree
p
honemessodecodernetworkscan
easil
y
bebuiltforotherlan
g
ua
g
es.
Ke
y
words
:
s
p
eechreco
g
nition
;
decodernetwork
;
acoustic model
;
lan
g
ua
g
emodellook-ahead
语音 识 别是对未知的语 音 信 号进行识别
,
转换
为文字
(
串
)
输 出 的 技 术
[
12
]
。
在 信 号 层 上
,
利 用 语
音信号的短时平稳 特 性
,
将语 音 分 帧 并 提 取 频 谱特
征
,
使用统计模型进行建模
,
通常称为声学模型
。
声
学模 型 通 常 采 用 隐
Markov
模 型
(
hidden Markov
model
,
HMM
)
建 模
。
在 语 言 层 上
,
根 据 字 词 之 间
的上下文连接
,
利用 历史 语 句 预 测 当 前 词 出 现 的 概
率
,
这种模型称之 为 语 言 模 型
。
语言 模 型 通 常 采 用
N
元
(
N
-
g
ram
)
文法 模 型
。
发音 词 典 定 义 了 词 和 其
发音音素串的映 射
。
解码 器 则 综 合 声 学 模 型
、
语言
模型和发音词典的信息
,
构建一个高效的解码网络
。
在解码时
,
搜索算法在网络中进行搜索识别
,
寻找最
优路径
,
作为识别结果输出
。
随着语音查询系统
、
语音输入法
、
呼叫中心等应
用的出现
,
为了提高用户体验
,
人们对语音识别系统
各个指标提出较高 的 要 求
,
如何 提 高 语 音 识 别 系 统
的实时率成为一 个被 普 遍 关 注 的 问 题
。
其中
,
解码
网络作为识别引擎 的 基 础
,
直接 关 系 着 解 码 速 度 和
响应时延
。
因此
,
解码 网 络 的 优 化 对 于 语音 识 别 任
务显得尤为重要
。
当前主流的语音识别系统按照解码网络主要可