Kaldi教程：LVCSR语音识别系统基础搭建与数据预处理

需积分: 15 110 浏览量更新于2024-08-05 收藏 223KB PDF 举报

本篇文章主要介绍了利用Kaldi工具包搭建LVCSR（Large Vocabulary Continuous Speech Recognition，大规模连续语音识别）系统的详细步骤和基础原理。LVCSR是一种先进的语音识别技术，适用于处理大量词汇的实时语音转写，常见于智能语音助手和自动语音识别系统。首先，文章从数据处理和特征提取阶段开始讲解。1.1.1 Lexicon Preparation部分提到，通过执行aishell_prepare_dict.sh脚本，将包含近140,000个中文词汇及其读音（包括声调）的lexicon.txt文件导入到data/local/dict目录，并生成额外的文本文件如extra_questions.txt、nonsilence_phones.txt等。值得注意的是，lexicon.txt中的词汇按照拼音首字母排序，但存在多音字混杂的情况。nonsilence_phones.txt和silence_phones.txt分别记录非静音和静音音素。接着，1.1.2 Data Preparation阶段，通过aishell_data_prep.sh脚本对数据进行预处理，指定使用的语料为aishell_transcript_v0.8.txt，生成transcripts.txt文件。在此过程中，数据被组织成train, dev, test三个子目录，其中关键文件包括： - spk2utt：记录每个说话者与其对应句子的映射，用于区分不同的说话人。 - text：存储每个句子的文本内容。 - utt2spk：标识每个句子对应的说话者。 - wav.flist：存放所有句子原始音频的链接。 - wav.scp：将句子编号与音频文件路径关联起来。 1.1.3 PhoneSets, questions, Lcompilation涉及到语音识别中的语言模型构建。通过utils/prepare_lang.sh脚本，会在data/目录下创建一个lang文件夹，包含L.fst（有限状态机模型），这是发音字典的核心组成部分。脚本内部通过utils/lang/make_lexicon_fst(_silprob).py进行模型构建，其中silprob参数表示是否考虑静默概率，这对于准确处理连续语音中的停顿至关重要。总结来说，这篇文章深入讲解了如何使用Kaldi搭建LVCSR系统，从数据预处理、特征提取到语言模型的构建，确保了语音识别系统能够处理大规模词汇并实现高效、准确的转写。对于想要深入了解Kaldi语音识别技术的人来说，这是一个宝贵的实践指南。

Project 2：LVCSR 系统搭建

学号作者

1. Baseline (70 分)

1.1. 数据处理及特征提取 (10 分)

1.1.1. Lexicon Preparation

通过执行 aishell_prepare_dict.sh

程序，将 resource_aishell 下的

lexicon.txt 复制到 data/local/dict 目

录下, 同时生成了 extra_questions.txt、

nonsilence_phones.txt、

optional_silence.txt、silence_phones.txt

观察发现，lexicon.txt 中，记录了近 140000

个中文词汇的读音包括声调，顺序上基本是按

照拼音首字母顺序来排的，但也有多音字放

在一起的情况。其中

nonsilence_phones.txt

、

silence_phones.txt 顾名思义，记录着 nonsi-

lence phones 和 silence phones，

1.1.2. Data Preparation

执行 aishell_data_prep.sh 程序，进行

数据整理工作。也是在这一步，指定了我们使

用的语料为 aishell_transcript_v0.8.txt,

并转而生成对应 transcripts.txt 文件。

在 data/local/和 data/目录下，分布建立

train,dev,test 目录，且不论哪个集，目录下生成

的文件名称都一致，比较关键的有如下几个

1、spk2utt 记录的是说话者到句子的映射关系，

第一列是说话者的编号之后是该说话者对应的所

有句子的编号。

2、text 记录了每个句子对应的文本标注

3、utt2spk 记录的是每个句子对应的说话者

4、wav.ist 则是所有句子的原始音频的地址

5、wav.scp 记录句子编号到音频地址的映射关系

1.1.3. Phone Sets, questions, L compilation

运行 utils/prepare_lang.sh 程序，

会在 data/下建立 lang 文件夹，文件夹

中有以下一系列文件，L.fst, 即为发音字

典的有限状态机模型。脚本内主要是通过

utils/lang/make_lexicon_fst(_silprob).py

来进行构图，其中 silprob 是表示考虑静音概率的

意思。L_disambig.fst, 则在此基础上引入了消歧

信息。另外 phones.txt、words.txt 则记录所有音

素、词语所对应的编号，而

oov

则记录了集外词的

信息。topo 文件则记录了音素的 HMM 模型的拓

扑结构。此外还有一个 phone 文件夹，记录了音素

的各项详细信息。而在 data/local/下也会有 lang

文件夹，例如里面的 lexiconp_disambig.txt

在原 lexiconp.txt 的基础上加了“#X”的消歧符

号，这是为了用来生成 L_disambig.fst 做的准备。

1.1.4. 特征提取

特征提取的方法与 kaldi 其他 recipe

一致，先执行 steps/make_mfcc_pitch.sh，

提取 mfcc 及基频特征，再执行

steps/compute_cmvn_stats.sh ，其中 CMVN

即为 Cepstral Mean and Variance Normalization,

倒谱均值方差归一化。

1.2. 模型训练 (50 分)

1.2.1. 语言模型及 WFST

首先执行 local/aishell_train_lms.sh,

其内部主要调用了一个叫 ngram-count 的函数，

通过统计词出现的频率来计算词的条件概率以

及回退。最终输出的结果为

data/local

下的

lm/3gram-mincount/lm_unpruned.gz。

之后基于这个输出结果，再执行

utils/format_lm.sh, 即根据语言模型生成

下载后可阅读完整内容，剩余4页未读，立即下载

z_m_zzmz

粉丝: 11
资源: 7

Kaldi教程：LVCSR语音识别系统基础搭建与数据预处理

使用Kaldi构建LVCSR语音识别系统指南

实现高识别率的离线语音识别系统教程

深度信任网络在大词汇量语音识别的应用研究

基于深度神经网络的语音情感识别方法.pdf

深度神经网络在维吾尔语大词汇量连续语音识别中的应用.pdf

藏经阁-阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用.pdf

人工智能-语音识别-汉语连续语音识别中自适应技术的研究.pdf

汉语大词汇量连续语音识别系统研究进展_倪崇嘉.pdf

DEEP CONVOLUTIONAL NEURAL NETWORKS FOR LVCSR.pdf

Very Deep Convolutional Neural Networks for LVCSR.pdf

最新资源