清华大学语音和语言技术中心：语音识别实践经验

3星 · 超过75%的资源需积分: 50 191 浏览量更新于2024-07-16 1 收藏 13.4MB PDF 举报

"语音识别基本法.pdf" 这本《语音识别基本法》是由清华大学语音和语言技术中心的研究者编写的，旨在介绍语音识别的基础知识。书中不仅涵盖了语音识别的基本概念，还分享了作者们在实践中积累的经验，对于初学者来说是一份宝贵的指南。作者团队希望通过书中的内容，帮助读者快速理解语音识别系统的整体构架，掌握如何使用Kaldi等工具构建常见的语音识别系统。在语音识别领域，新手往往需要经历一系列的学习和实践才能真正理解和应用相关技术。这本书以直觉和实践经验为主，强调“是什么”而非仅仅停留在理论的“为什么”，使读者能够迅速建立起对语音识别系统的感性认识。同时，书中提到的代码存储在GitHub的特定分支上，便于读者实际操作和跟随学习，确保理论与实践相结合。作者们认识到经验的主观性和不连贯性，因此他们选择将这些经验整理成文，以促进知识的传承和交流。尽管本书可能不具备传统教材的系统性和连贯性，但其提供的实用指导和案例分析对于初学者来说极具价值。同时，作者推荐配合实验室负责人王叔编写的《机器学习》一书，以补充理论基础，实现理论与实践的平衡发展。除了技术内容，书中还表达了作者们对声音世界的热情和追求。他们致力于通过语音技术挖掘声音的意义，创造价值，影响更多人。实验室欢迎志同道合的研究者加入，无论他们是博士后、工程师、联合培养的学生还是实习生，都能在这里找到属于自己的位置，共同推动语音识别技术的发展。目录部分虽然未在提供的内容中列出，但可以推测，书中可能包括了语音识别的基础理论、关键技术、常用工具的使用教程、实际案例分析以及可能的项目实践等内容，帮助读者全面了解和掌握语音识别的各个环节。

16 第第第 2 章章章语语语音音音识识识别别别方方方法法法

算法，

Viterbi

算法，

算法）。语音识别的最终应用对应的是解码问题，所以对语

音识别系统的评估也叫做解码（Decoding）。

2.2.2 GMM-HMM

HMM

确定了语音识别的整体框架，其中发射概率的求取直接取决于声学模型的好

坏，也是研究者探索最多的地方。

高斯混合模型（

Gaussion Mixture Model

，

GMM

）是最常用的统计模型，给定充分的

子高斯数，

GMM

可以拟合任意的概率分布，自我迭代式的

算法使得

GMM

的训练较

为容易实现，所以

GMM

成为首选的发射概率模型。每个

GMM

对应一个

Senone

，并用

各自的概率密度函数（

Probability Density Function

，

PDF

）表示。

GMM

把每帧看成空间中

一个孤立的点，点与点之间没有依赖关系，所以

GMM

忽略了语音信号中的时序信息，并

且习惯使用帧间相关性较小的 MFCC（Mel Frequency Cepstral Coefﬁcient）特征。

GMM

训练完成后，通过比对每个

PDF

，可以求出每个发射概率 P(x

)，然后往

上回溯，直到得到句子，这其中会有一系列条件限制，比如，这一串

Senones

能否组成

Triphone

，这一串

Triphones

能否组成

Phone

，这一串

Phones

能否组成

Word

，这一串

Words

能否组成

Sentence

，以及组合过程当中，这种选择是否是当下最优的，这些问题可借助加

权有限状态转换器（

Weighted Finite State Transducer

，

WFST

）统一进行最优路径搜索

[1]

。

2.2.3 DNN-HMM

GMM

是生成式模型（

Generative Model

），着重刻画数据的内在分布，可直接求解

P(x

)，而 P(x

) = P(s

)P(x

)/P(s

)，因 P(x

) 省去不算，P(s

) 可通过常规统计方法

求出，问题进一步归结为求取 P(s

)，这是典型的分类（

Classiﬁcation

）问题，也是判

别式模型（

Discriminative Model

）所擅长的，其中深度神经网络（

Deep Neural Network

，

DNN

）的研究在当下很是繁荣。上述各项也有各自的叫法， P(x

) 是似然（

Likelihood

），

P(s

) 是先验概率（Prior Probability）， P(s

) 是后验概率（Posterior Probability）。

DNN

用于分类问题，是有监督学习（

Supervised Learning

），标签（

Label

）的准备是

必不可少的。由于训练集中只提供了整条语音与整条文本之间的对应关系，并未明确指出

帧级别的标签，所以还需要额外的算法对数据集进行打标签，选择的方法是上文的

GMM

。

作为生成式模型的

GMM

擅长捕捉已知数据中的内在关系，能够很好地刻画数据的分布，

打出的标签具有较高的可信度，但对于未知数据的分类，判别式模型的

DNN

有着更强

的泛化能力。通俗点来说，

GMM

善于就已有资源进行最大化的开发（

Exploitation

），而

DNN

擅长举一反三，具有探索精神（

Exploration

），

DNN-HMM

能够超越

GMM-HMM

正

是两大态度的强强结合，所以青（DNN）出于蓝（GMM）也就不足为奇了。

相较于

GMM-HMM

结构，

DNN-HMM

与之唯一的不同是结构中的发射概率是由

DNN

而非

GMM

求出的，即二者的区别在于

GMM

与

DNN

之间的相互替代。此外，

GMM

和

DNN

中的前向神经网络（

Feedforward Neural Network

），是独立对待各帧的，即上一帧计

算的结果不会影响下一帧的计算，忽略了帧与帧之间的时序信息。

DNN

起用循环神经网

络（Recurrent Neural Network，RNN）时，便可以考虑时序信息了。

2.2 实现方法 17

贝叶斯定理（

Bayes’ theorem

）已被用到两次，宏观的一次是分出了声学模型和语言

模型，微观的一次是构造了 HMM 发射概率的判别式求法。

2.2.4 End-to-End

由于语音与文本的多变性，刚开始的时候我们否决了从语音到文本端到端映射的想

法，经过了抽丝剥茧、以小见大，再回过头来看这个问题。假设输入是一整段语音（以帧

为基本单位），输出是对应的文本（以音素或字词为基本单位），两端数据都处理成规整

的数学表示形式了，只要数据是足够的，选的算法是合适的，兴许能训练出一个好的端对

端模型，于是所有的压力就转移到模型上来了，怎样选择一个内心强大的模型是关键。深

度学习方法是端对端学习的主要途径。

端对端学习需要考虑的首要问题也是输入输出的不定长问题。

对于输入，可以考虑将不同长度的数据转化为固定维度的向量。如果输入一股脑地进

入模型，可以选择使用卷积神经网络（

Convolutional Neural Network

，

CNN

）进行转换，

CNN

通过控制池化层（

Pooling Layer

）的尺度来保证不同的输入转换后的维度相同；如果

输入分帧逐次进入模型，可以使用

RNN

，虽然输入是分开进入的，但

RNN

可以将积累的

历史信息在最后以固定维度一次性输出。这两个方法常常用于基于注意力（

Attention

）的

网络结构 [2, 3]。

对于输出，往往要参照输入的处理。先考虑输入长度不做处理的情况，此时输出的长

度需要与输入保持匹配。因为语音识别中，真实输出的长度远小于输入的长度，可以引入

空白标签充数，这是

CTC

（

Connectionist Temporal Classiﬁcation

）损失函数

[4]

常用的技

巧，如果真实输出的长度大于输入的长度，常规

CTC

就不适宜了；另一个情况是，输入

只传来一个向量，这正是上段对输入的处理，也正是注意力模型的手段，它根据这个向量

解码出一个文本序列（真正实现时，不同时步传来的向量因着当时的注意力权重有所差异

和偏重），此时输出的长度便没有了参照，则需要其他机制来判断是否结束输出，比如引

入结束符标签，当输出该标签时便结束输出。

当仔细斟酌了输入输出的不定长问题，目前最主流的两个端对端方法也呼之欲出，即

上文提到的基于

CTC

损失函数和注意力网络结构的深度学习方法，且二者可以合用。端

对端方法将声学模型和语言模型融为一体，简单明了，实施便捷，是当下语音识别的主要

方向之一。随着数据量和计算力的增加，端对端方法行之愈加有效，然而这里仍将语音识

别系统拆解开来、逐一透视，只因这是真正理解语音识别的必经之路。

上面简述了声学模型各个层次可以使用的数学模型，而数学模型的参数该如何确定才

能物尽其用，就是训练的事了，具体实施细节会在后面结合实验详述。语言模型方面没有

太多的枝节，常用的方法基于 n 元语法（N-gram Grammar）或 RNN。

20 第第第 3 章章章语语语音音音识识识别别别工工工具具具

3.2 深深深度度度学学学习习习平平平台台台

随着深度学习的发展，更先进的计算平台层出不穷

。比起

Kaldi

等术业专攻的平台，

通用深度学习框架提供各种深度学习技术，并可拓展应用于多种任务，比如语音识别、计

算机视觉、自然语言处理等，所以语音识别系统的建立并不局限于某个平台。最为流行的

深度学习框架有

TensorFlow

（Google 首先开发并使用），

PyTorch

（Facebook 首先开发并使用），

Caffe2

（Facebook 首先开发并使用，已集成至 PyTorch），

CNTK

（Microsoft 首先开发并使用），

MXNet

（Amazon 等使用），

以及对已有框架的进一步封装，比如

Keras

（

TensorFlow

已开发相关

API

），其他的不一

一列举，其中

PyTorch

等使用动态计算图，较适合快速的研究探索，

TensorFlow

、

Caffe2

等较适合高效的产品部署（包括移动端）。

通用深度学习框架的内核语言多为

C++

，前端接口语言多支持

Python

，这样的搭配使

得保持灵活性的同时又不失计算速度。开源工具的更新换代也很快，比如

Theano

已停

止维护，有些功成身退的意味，而面对执着于

Lua

语言的

Torch

，更多人选择或转移到

了 PyTorch。

面对林林总总的深度学习框架，

Microsoft

与

Facebook

发起推出

ONNX

，让用户可

以在不同框架之间转换模型。

语音识别系统有着长久的积淀，并形成了完整的流程（从前端语音信号处理，到声学

模型和语言模型的训练，再到后端的解码），而深度学习方法较多地作用于声学模型和语

言模型部分（或者端对端模型），所以，深度学习框架常与专有的语音识别工具相结合，

各取所长，相互弥补，以减少重复劳动、提高研发效率。

各种开源工具应接不暇，然而善假于物而不囿于物，通晓原理，仍是使用工具的基本

原则。

https://en.wikipedia.org/wiki/Comparison_of_deep_learning_software

https://www.tensorﬂow.org

http://pytorch.org

https://caffe2.ai

https://www.microsoft.com/en-us/cognitive-toolkit

https://mxnet.incubator.apache.org

https://keras.io

http://deeplearning.net/software/theano

http://torch.ch

http://onnx.ai

剩余148页未读，继续阅读

Xwei1226

粉丝: 500
资源: 7

清华大学语音和语言技术中心：语音识别实践经验

语音识别基本法

语音识别基础 pdf版 王炳锡

实用语音识别基础

基于MATLAB和BP网络的语音识别系统.pdf

基于轮式机器人平台的语音识别系统.pdf

模式识别复习要点.pdf

课程设计报告语音数字信号处理.pdf

基于单片机的语音录放系统设计.pdf

在MATLAB环境下实现的语音识别.pdf

基于深度学习的语音增强方法研究.pdf

最新资源

语音识别基础 pdf版王炳锡