使用Kaldi构建LVCSR语音识别系统指南

需积分: 16 63 浏览量更新于2024-08-05 收藏 223KB PDF 举报

“LVCSR语音识别系统搭建.pdf主要涵盖了使用Kaldi工具包构建大规模连续语音识别系统（LVCSR，Large Vocabulary Continuous Speech Recognition）的基础步骤和核心原理。文档详细讲解了从数据预处理、特征提取到语言模型和声学模型的构建过程。” 在LVCSR系统的搭建过程中，首先要进行的是数据预处理和特征提取。这部分主要包括以下几个环节： 1. **词典准备（Lexicon Preparation）**：使用`aishell_prepare_dict.sh`脚本，将`resource_aishell`下的`lexicon.txt`复制到`data/local/dict`目录，并生成额外的文件如`extra_questions.txt`, `nonsilence_phones.txt`, `optional_silence.txt`和`silence_phones.txt`。`lexicon.txt`包含大约140000个中文词汇的拼音和声调信息，多音字会被一起列出。`nonsilence_phones.txt`和`silence_phones.txt`分别存储非静音和静音音素。 2. **数据预处理（Data Preparation）**：通过运行`aishell_data_prep.sh`，将指定的语料`aishell_transcript_v0.8.txt`转化为`transcripts.txt`。在这个阶段，会在`data/local/`和`data/`目录下创建`train`, `dev`, `test`子目录，这些目录下会生成多个关键文件，如： - `spk2utt`：记录说话者与句子之间的对应关系。 - `text`：每个句子的文本标注。 - `utt2spk`：每个句子所属的说话者信息。 - `wav.flist`：所有句子原始音频的地址列表。 - `wav.scp`：句子编号与音频文件路径的映射。 3. **Phone Sets, Questions, and Language Compilation**：运行`utils/prepare_lang.sh`，在`data/`目录下生成`lang`文件夹，包含如`L.fst`等文件，它是发音字典的有限状态机模型。这个过程主要是通过`utils/lang/make_lexicon_fst(_silprob).py`脚本完成，其中`_silprob`表示是否考虑静音的概率。接下来，系统将进入声学模型和语言模型的训练，这通常涉及到GMM-HMM（高斯混合模型-隐马尔可夫模型）或深度神经网络（DNN）模型的训练，以及语言模型的构建，可能包括N-gram、RNN（循环神经网络）或者Transformer等模型。Kaldi提供了一系列工具来处理这些任务，例如用于HMM-GMM训练的`steps/train_mono.sh`，用于DNN训练的`steps/nnet3/`目录下的脚本，以及用于语言模型的`utils/mkdata-lang.sh`等。 LVCSR系统的优化通常包括模型的精细调整、解码器的优化以及语言模型的增强。例如，使用困惑度网络（Confusion Network，CN）或词汇重迭解码（Viterbi decoding with lattice）来提高解码性能，或者采用更复杂的语言模型，如KenLM，来提升识别准确率。在实际应用中，LVCSR系统还涉及到噪声抑制、回声消除、语音活动检测（VAD）等前处理技术，以及适应不同说话人特性的说话人自适应训练。Kaldi框架提供了相应的模块和脚本来支持这些功能，使得开发者能够构建出高效且准确的语音识别系统。

Project 2：LVCSR 系统搭建

学号作者

1. Baseline (70 分)

1.1. 数据处理及特征提取 (10 分)

1.1.1. Lexicon Preparation

通过执行 aishell_prepare_dict.sh

程序，将 resource_aishell 下的

lexicon.txt 复制到 data/local/dict 目

录下, 同时生成了 extra_questions.txt、

nonsilence_phones.txt、

optional_silence.txt、silence_phones.txt

观察发现，lexicon.txt 中，记录了近 140000

个中文词汇的读音包括声调，顺序上基本是按

照拼音首字母顺序来排的，但也有多音字放

在一起的情况。其中

nonsilence_phones.txt

、

silence_phones.txt 顾名思义，记录着 nonsi-

lence phones 和 silence phones，

1.1.2. Data Preparation

执行 aishell_data_prep.sh 程序，进行

数据整理工作。也是在这一步，指定了我们使

用的语料为 aishell_transcript_v0.8.txt,

并转而生成对应 transcripts.txt 文件。

在 data/local/和 data/目录下，分布建立

train,dev,test 目录，且不论哪个集，目录下生成

的文件名称都一致，比较关键的有如下几个

1、spk2utt 记录的是说话者到句子的映射关系，

第一列是说话者的编号之后是该说话者对应的所

有句子的编号。

2、text 记录了每个句子对应的文本标注

3、utt2spk 记录的是每个句子对应的说话者

4、wav.ist 则是所有句子的原始音频的地址

5、wav.scp 记录句子编号到音频地址的映射关系

1.1.3. Phone Sets, questions, L compilation

运行 utils/prepare_lang.sh 程序，

会在 data/下建立 lang 文件夹，文件夹

中有以下一系列文件，L.fst, 即为发音字

典的有限状态机模型。脚本内主要是通过

utils/lang/make_lexicon_fst(_silprob).py

来进行构图，其中 silprob 是表示考虑静音概率的

意思。L_disambig.fst, 则在此基础上引入了消歧

信息。另外 phones.txt、words.txt 则记录所有音

素、词语所对应的编号，而

oov

则记录了集外词的

信息。topo 文件则记录了音素的 HMM 模型的拓

扑结构。此外还有一个 phone 文件夹，记录了音素

的各项详细信息。而在 data/local/下也会有 lang

文件夹，例如里面的 lexiconp_disambig.txt

在原 lexiconp.txt 的基础上加了“#X”的消歧符

号，这是为了用来生成 L_disambig.fst 做的准备。

1.1.4. 特征提取

特征提取的方法与 kaldi 其他 recipe

一致，先执行 steps/make_mfcc_pitch.sh，

提取 mfcc 及基频特征，再执行

steps/compute_cmvn_stats.sh ，其中 CMVN

即为 Cepstral Mean and Variance Normalization,

倒谱均值方差归一化。

1.2. 模型训练 (50 分)

1.2.1. 语言模型及 WFST

首先执行 local/aishell_train_lms.sh,

其内部主要调用了一个叫 ngram-count 的函数，

通过统计词出现的频率来计算词的条件概率以

及回退。最终输出的结果为

data/local

下的

lm/3gram-mincount/lm_unpruned.gz。

之后基于这个输出结果，再执行

utils/format_lm.sh, 即根据语言模型生成

下载后可阅读完整内容，剩余4页未读，立即下载

z_m_zzmz

粉丝: 11
资源: 7

使用Kaldi构建LVCSR语音识别系统指南

基于深度神经网络的语音情感识别方法.pdf

汉语大词汇量连续语音识别系统研究进展_倪崇嘉.pdf

人工智能-语音识别-汉语连续语音识别中自适应技术的研究.pdf

语音识别技术及应用综述_禹琳琳.pdf

深度神经网络在维吾尔语大词汇量连续语音识别中的应用.pdf

藏经阁-阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用.pdf

《语音识别入门教程》[定义].pdf

数据手册-SN75176B-datasheet.zip

基于javaswing酒店点餐系统

WinPE-26241.5000-ReFS-v3.14.wim

最新资源