Kaldi入门指南：资源整理与教程概览

kaldi

语音识别

5星 · 超过95%的资源需积分: 13 76 浏览量更新于2024-07-17 4 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"该资源是一份关于kaldi入门的学习资料整理，主要涵盖了kaldi的介绍、安装、使用方法以及各种数据库的介绍，并深入讲解了数据准备、特征提取、声学建模、解码图构建、深度神经网络训练、关键词搜索与检索、在线识别等关键步骤。此外，还提供了附录，包括TIMIT基线系统的搭建和在VS2013中编译kaldi的教程。" kaldi是一个开源的语音识别工具包，它由语言模型、声学模型和解码器三大部分组成，广泛用于语音识别的研究和开发。kaldi的特点在于其强大的功能和灵活性，支持多种类型的模型训练，如GMM-HMM、深度神经网络(DNN)、卷积神经网络(CNN)和循环神经网络(RNN)等。 1. kaldi简介：kaldi是一个用C++编写的语音识别框架，它的设计目标是简化实验流程，提供高效的数据处理和模型训练能力。 2. kaldi的特色： - 支持大规模的模型训练和并行计算。 - 提供了丰富的预处理工具，用于语音信号的特征提取。 - 内置了多种模型训练算法，如HMM-GMM、DNN-BNF、LSTM等。 - 集成了多种解码算法，如Viterbi、Forward-Backward、CTC等。 - 有完整的数据处理管道，包括数据预处理、模型训练、解码和评估。 3. kaldi的安装：kaldi的安装涉及多个步骤，包括配置环境、编译源代码等，适用于Ubuntu、Cygwin和服务器或工作站环境。 4. kaldi的使用：资料详细介绍了kaldi的各种应用场景，如使用yesno数据集进行简单识别，处理TIMIT、RM和VoxForge等大型语音数据库，以及如何进行在线识别。 5. 数据准备与特征提取：kaldi提供工具处理原始音频，提取MFCC特征，并进行VAD、PLP等预处理。 6. 声学建模：涉及HMM-GMM、DNN-BNF等模型的训练，包括模型的初始化、迭代优化和模型融合。 7. 解码图构建：kaldi使用FST构建解码图，实现从语言模型到解码过程的转换。 8. 深度学习应用：介绍Karel的DNN训练实现，包括RNN和CNN的训练方法。 9. 关键词搜索与检索：kaldi支持关键词检索功能，包括离线和在线两种模式。 10. 在线识别：kaldi能够实现实时的语音识别，适用于嵌入式设备和服务器环境。 11. 其他高级主题：包括决策树的使用、HMM拓扑结构、聚类机制以及解码图创建的详细步骤。这份资料是初学者了解和掌握kaldi的好帮手，通过它，读者可以从基础到进阶逐步熟悉kaldi的各项功能，并进行实际的语音识别项目开发。同时，资料中提供的社区和论坛链接，也是获取更多学习资源和支持的好去处。

资源详情

资源推荐

3.2 kaldi

里各种数据库的介绍

1、babel : IARPA Babel program 语料库来自巴比塔项目，主要是对低资源语言的

语音识别和关键词检索例子，包括普什语，波斯语，土耳其语，越南语等等。据

文献上讲效果不太好，wer 达到50以上。

2、sre08：" Speaker Recognition Evaluations" 说话人识别。

3、aurora4: 主页：http://aurora.hsnr.de/ 研究各种噪音的。带噪音的语音识别--

健壮的语音识别项目。包括说话人分离，音乐分离，噪声分离。

4、hkust:香港大学的普通话语音识别

5、callhome_egyptian: 埃及的阿拉伯语语音识别

6、chime_wsj0: chime 挑战项目数据，这个挑战是对电话，会议，远距离麦克风

数据进行识别。

7、fisher_englist：英语的双声道话音。

8、gale_arabic:全球自动语言开发计划中的阿拉伯语。

9、gp:global phone项目，全球电话语音：19种不同的语言，每种15-20小时的语

音

10、lre:包括说话人识别，语种识别

11、wsj:wall street journal 华尔街日报语料库，似乎所有的脚本都是这个东西开

始的。

12、swbd:Switchboard 语料库

13、tidigits:男人，女人，孩子说的不同的数字串语音的识别训练，

14、voxforge:开源语音收集项目

15、timit:不同性别，不同口音的美国英语发音和词汇标注，包括 Texas Instruments

(TI) 和 Massachusetts Institute of Technology (MIT), 所以叫timit

16、tedlium: 数据在这里

http://www.openslr.org/resources/7/TEDLIUM_release1.tar.gz

TED talks 英语语音数据, 由Laboratoire d’Informatique de l’Université du Maine

(LIUM) 创建

17、vystadial_cz:dataset of telephone conversations in Czech 希腊人搞的电话语音

识别数据

18、vystadial_en:dataset of telephone conversations in English 希腊人搞的电话语音

识别数据

19、yesno: 各种yes,no 两个词的语音识别，归入命令词语音识别吧。

20、rm:DARPA Resource Management Continuous Speech Corpora 。

3.3 yesno

的例子

1. 把 waves_yesno.zip.gz 复制到 yesno/s3 目录下，然后使用

sudo yumzip waves_yesno.zip.gz

tar –xvf waves_yesno.tar

2.运行./run.sh。

4.1

数据准备

译者：V (shiwei@sz.pku.edu.cn) 水平有限，如有错误请多包涵。@wbglearn校对。

介绍

在运行完示例脚本后（见Kaldi tutorial），你可能会想用自己的数据在Kaldi上跑一下。本

节主要讲述如何准备相关数据。我们假设本页的读者使用的是最新版本的示例脚本（即在脚

本目录下被命名为s5的那些，例如egs/rm/s5）。另外，除了阅读本页所述内容外，你还可以

查看脚本目录下的那些数据准备相关的脚本。（译者：结合起来看更易理解。）在顶层的

run.sh 脚本（例如 egs/rm/s5/run.sh）中，最前面的几行命令都是和数据准备相关的，代表

数据准备的不同步骤。子目录local/下的脚本都是和数据集相关的。例如，Resource

Management（RM）数据集相应的脚本就是local/rm_data_prep.sh。对RM数据集来说，这几

行数据准备的命令为：

local/rm_data_prep.sh /export/corpora5/LDC/LDC93S3A/rm_comp || exit 1;

utils/prepare_lang.sh data/local/dict '!SIL' data/local/lang data/lang || exit 1;

local/rm_prepare_grammar.sh || exit 1;

而对于 WSJ 来说，命令为：

wsj0=/export/corpora5/LDC/LDC93S6B

wsj1=/export/corpora5/LDC/LDC94S13B

local/wsj_data_prep.sh $wsj0/??-{?,??}.? $wsj1/??-{?,??}.? || exit 1;

local/wsj_prepare_dict.sh || exit 1;

utils/prepare_lang.sh data/local/dict "<SPOKEN_NOISE>" data/local/lang_tmp data/lang

|| exit 1;

local/wsj_format_data.sh || exit 1;

在WSJ的示例脚本中，上述命令之后还有一些训练语言模型的命令（根据标注重新训练语言

模型，而不是使用LDC提供的），但是上述几条命令是最重要的。

数据准备阶段的输出包含两部分。一部分与“数据”相关（保存在诸如data/train/之类的目录

下），另一部分则与“语言”相关（保存在诸如data/lang/之类的目录下）。“数据”部分与数据

集的录音相关，而“语言”部分则与语言本身更相关的内容，例如发音字典、音素集合以及其

他Kaldi需要的关于音素的额外信息。如果你想用已有的识别系统和语言模型对你的数据进

行解码，那么你只需要重写“数据”部分。

数据准备-- 数据部分.

举个数据准备阶段中的关于“数据”部分例子，请查看任何一个示例脚本目录下的“data/train”

目录（假设你已经运行过一遍这些脚本了）。注意：目录名字“data/train”本身没有什么特别

的。一些被命名为其他名字的目录，如“data/eval2000”（为一个测试集建立的），有几乎差

不多的目录结构和文件格式（说“几乎”是因为在测试集的目录下，可能含有“sgm”和“glm”

文件，用于sclite评分）。我们以Switchboard数据为例，对应脚本在egs/swbd/s5下

s5# ls data/train

cmvn.scp feats.scp reco2file_and_channel segments spk2utt text utt2spk

wav.scp

不是所有的文件都同等重要。如果要设置简单点，分段（segmentation）信息是不必要的（即

一个文件里只有一段发音），你只需要自己创建“utt2spk”、“text”和“wav.scp”，“segments”

和“reco2file_and_channel”是可选的，根据实际需要决定是否创建。剩下的就都交给标准脚

本。

下面我们会详细描述该目录下的这些文件。首先从那些需要你手动创建的文件开始。

需要手动创建的文件

文件“text”包含每段发音的标注。

s5# head -3 data/train/text

sw02001-A_000098-001156 HI UM YEAH I'D LIKE TO TALK ABOUT HOW YOU

DRESS FOR WORK AND

sw02001-A_001980-002131 UM-HUM

sw02001-A_002736-002893 AND IS

每行的第一项是发音编号（utterance-id），可以是任意的文本字符串，但是如果在你的设置

中还包含说话人信息，你应该把说话人编号（speaker-id）作为发音编号的前缀。这对于音

频文件的排序非常重要。发音编号后面跟着的是每段发音的标注。你不用保证这里出现的每

一个字都出现在你的词汇表中。词汇表之外的词会被映射到data/lang/oov.txt中。注意：尽管

在这个特别的例子中，我们用下划线分割了发音编号中的“说话人”和“发音”部分，但是通常

用破折号（“-”）会更安全一点。这是因为破折号的ASCII值更小。有人向我指出说，如果使

用下划线，并且说话人编号的长度不一，在某些特殊的情况下，如果使用标准"C"语言风格

对字符串进行排序，说话人编号和对应的发音编号会被排成不同的顺序。另外一个很重要的

文件是wav.scp。在Switchboard例子中，

s5# head -3 data/train/wav.scp

sw02001-A /home/dpovey/kaldi-trunk/tools/sph2pipe_v2.5/sph2pipe -f wav -p -c 1

/export/corpora3/LDC/LDC97S62/swb1/sw02001.sph |

sw02001-B /home/dpovey/kaldi-trunk/tools/sph2pipe_v2.5/sph2pipe -f wav -p -c 2

/export/corpora3/LDC/LDC97S62/swb1/sw02001.sph |

这个文件的格式是：

<recording-id> <extended-filename>

其中，“extended-filename”可能是一个实际的文件名，或者就像本例中所述那样，是一段提

取wav格式文件的命令。 extended-filename末尾的管道符号表明，整个命令应该被解释为一

个管道。等会我们会解释什么是“recording-id”，但是首先，我们需要指出，如果“segments”

文件不存在，“wav.scp”每一行的第一项就是发音编号。

在Switchboard设置中，我们有“segments”文件，所以下面我们就讨论一下这个文件。

s5# head -3 data/train/segments

sw02001-A_000098-001156 sw02001-A 0.98 11.56

sw02001-A_001980-002131 sw02001-A 19.8 21.31

剩余113页未读，继续阅读

费马马

粉丝: 68
资源: 6

Kaldi入门指南：资源整理与教程概览

构建Kaldi需要的openfst和测试Kaldi是否安装成功的音频文件

Kaldi在线编译运行

Kaldi的全部资料v07

怎么无网安装kaldi

centos7 kaldi 安装

ubuntu18.04安装kaldi

conda kaldi

Kaldi 安装完成后怎么使用

Kaldi-python

python调用kaldi语音识别模型

kaldi windows

用kaldi提取fbank特征

我该如何编译 PyTorch-Kaldi

kaldi/egs/voxceleb/v2 kaldi/egs/voxceleb/v2 kaldi/egs/voxceleb/v2 kaldi/egs/voxceleb/v2 kaldi/egs/voxceleb/v2 kaldi/egs/voxceleb/v2 X-vector

window如何下载和安装Kaldi

centos7环境下kaldi的安装

怎么使用kaldi开发

kaldi实时语音识别

Kaldi音频处理介绍

最新资源