没有合适的资源?快使用搜索试试~ 我知道了~
首页语音识别算法原理文档整理.docx
资源详情
资源评论
资源推荐
语音算法原理介绍
MFCC 提取过程
声音是模拟信号,声音的时域波形只代表声压随时间变化的关系,不能很好的代表声
音的特征,因此,必须将声音波形转换为声学特征向量。目前有许多声音特征提取方法,
如梅尔频率倒谱系数 、线性预测倒谱系数 、多媒体内容描述接口 等,
其中 是基于倒谱的,更符合人的听觉原理,因而是最普遍、最有效的声音特征提取
算法。在提取 前,需要对声音做前期处理,包括模数转换、预加重和加窗。
模数转换就是把模拟信号转换为数字信号,包括两个步骤:采样和量化,即以一定的
采样率和采样位数把声音连续波形转换为离散的数据点。由于日常生活中的声音一般都在
以下,根据 定律, 采样率足以使得采样出来的数据包含大多数声音
信息。 意味着 的时间内采样 个样本,这些样本都是以幅度值存储,为了有
效 存 储 幅 度 值 , 需 要 将 其 量 化 为 整 数 。 对 于 位 采 样 位 数 来 说 , 可 以 表 示
之间的整数值,所以可以将采样幅度值量化为最近的整数值。
采样和量化后的波形表示为 ,其中 是时间索引。然后可以对 做 特
征提取,算法流程图如图:
一、预加重-
特征提取的第一步是增加声音高频部分的能量。对于声音信号的频谱来说,往
往低频部分的能量高于高频部分的能量,每经过 倍 ,频谱能量就会衰减 !,为
了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,
此外为使高频部分的能量和低频部分能量有相似的幅度,使信号的频谱变得平坦,保持在
低频到高频的整个频带中,能用同样的信噪比求频谱"则需要提升高频部分的能量。加强高
频部分的能量能使声学模型更好的利用高频共振峰,从而提高识别准确率。
预加重可以通过一个一阶高通滤波器实现,在时域,如果输入信号是 "并且式中 #
的值介于 $%$ 之间,我们通常取 $%,滤波器表示为 &#;在频域
则表示为'
二、分帧加窗---
先将 个采样点集合成一个观测单位,称为帧。通常情况下 的值为 ( 或 (,
涵盖的时间约为 ) 左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间
有一段重叠区域,此重叠区域包含了 个取样点,通常 的值约为 的 * 或 *。通常
语音识别所采用语音信号的采样频率为 + 或 +,以 + 来说,若帧长度为 (
个采样点,则对应的时间长度是 (*,&)。
日常生活中的声音一般是非平稳信号,其统计特性不是固定不变的,但在一段相当短
的时间内,可以认为信号是平稳的,这就是加窗。窗由三个参数来描述:窗长(单位毫
秒)、偏移和形状。每一个加窗的声音信号叫做一帧,每一帧的毫秒数叫做帧长,相邻两
帧左边界的距离叫帧移。
从信号 中提取一帧的过程可表示为 &-,如果 -是矩形窗,则信
号会在边界处切断,这些不连续会对傅里叶分析造成影响。因此在 中,加窗一般使
用边缘平滑降到 的汉明窗,表达式如下:
.....
其中 为帧长。
三、离散傅里叶变换
由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能
量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧
还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行
快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。
设语音信号的 /0 为:
.....
.式中 为输入的语音信号, 表示傅里叶变换的点数。
计算 /0 常用的一个算法是快速傅里叶变换(0),它非常高效但是一般要求 是
的幂。
四、-Mel 滤波器组
0 的结果包含此帧信号在每一频带的能量信息。但是,人耳听觉对不同频带的敏感
度是不同的,人耳对高频不如低频敏感,这一分界线大约是 ,在提取声音特征时
模拟人耳听觉这一性质可以提高识别性能。在 中的做法是将 0 输出的频率对应到
)12 刻度上。一 )12 是一个音高单位,在音高上感知等距的声音可以被相同数量的 )12
数分离。频率(单位 )和 )12 刻度之间的对应关系在 以下是线性的,在
以上是对数的,其计算公式如下:
..... ..
式中 3 为频率,单位为 。下图展示了 12 频率与线性频率的关系:
在计算 时,将 0 频谱通过一组 )12 滤波器组就可以转换为 )12 频谱。12
滤波器组一般是一组 )12 刻度的三角形滤波器组, 以下的 个滤波器线性相隔,
以上的剩余滤波器对数相隔。定义一个有 个滤波器的滤波器组,采用的滤波器
为三角滤波器,中心频率为 34)5,)&,,…,, 通常取 (滤波器的个数和
临界带个数相近)。各 34)5之间的间隔随着 ) 值的减小而缩小,随着 ) 值的增大而增宽,
如图:
每个三角滤波器的频率响应为:
.....
式中 。
使用三角带通滤波器两作用:
、可以对频谱进行平滑,并消除谐波的作用,突显原始声音的共振峰。因此一段声
音的音调或音高,不会反应在 参数内,也就是说以 作为声学特征,并不会受
到输入声音的音调不同而对识别结果有所影响。
、还可以降低运算量。
在得到 )12 频谱后,计算每个滤波器组输出的对数能量。一般人对声音声压的反应呈
对数关系,人对高声压的细微变化敏感度不如低声压。此外,使用对数可以降低提取的特
征对输入声音能量变化的敏感度,因为声音与麦克风之间的距离是变化的,因而麦克风采
集到的声音能量也是变化的。每个滤波器输出的对数能量为:
.....
五、倒谱:离散余弦变换(DCT)
尽管可以用 )12 频谱本身作为声音特征,但使用倒谱有其优点并且可以提高识别性能 。
抛开预加重和 )12 刻度转换,倒谱的定义可以看做是频谱对数的频谱,即将标准幅度谱的
幅度值先取对数,然后形象化对数谱使其看起来像声音波形。倒谱这个单词 6178) 正
是将单词 7168)(频谱)的前四个字母颠倒而来,频谱是将时域信号变换为频域信号 ,
倒谱则是将频域信号又变换回时域信号;在波形上,倒谱与频谱有相似的波形,即如果频
谱在低频处有个峰值,则倒谱在低倒谱系数上也有峰值,如果频谱在高频处有个峰值,则
倒谱在高倒谱系数上也有峰值。所以如果是为了检测音元,可以用低倒谱系数;如果是检
测音高,则可以用高倒谱系数。倒谱系数的优点是其不同系数的变化是不相关的,意味着
高斯声学模型(高斯混合模型 )无需表现所有 特征的协方差,因而大大减少
了参数数量。
.利用滤波器的对数能量,倒谱系数可以由离散余弦变换获得:
.....
式中 指 阶数,通常 阶就可以代表声学特征; 指三角滤波器个数。
六、能量和差分
某一帧的能量定义为某一帧样本点的平方和,对于一个加窗信号 ,其从样本点 到
样本点 的能量为:
.....
实际应用中也可以将上式取以 为底的对数值,再乘以 。若要加入其他声音特征
如音高、过零率及共振峰等也可以在这一阶段加入。
以上提取的特征每一帧单独考虑,是静态的,而实际声音是连续的,帧与帧之间是有
联系的,因而需要增加特征来表示这种帧间的动态变化,这通常通过计算每一帧 个特
征( 个倒谱特征加上 个能量)的一阶差分甚至二阶差分来实现。一个简单计算差分的
方法就是计算当前帧前后各一帧的 个特征的差值:
.....
如果不考虑二阶差分,最终每一帧的 特征为 维度(即 音素): 维倒
谱系数、 维倒谱系数差分、 维能量和 维能量差分。
高斯函数 gmm
Gaussian Funcon,-也简称为 Gaussian,一维形式如下:
对于任意的实数 a,b,c,是以著名数学家 Carl Friedrich Gauss 的名字命名的。高斯的一维图
是特征对称“bell curve”形状,a 是曲线尖峰的高度,b 是尖峰中心的坐标,即均值,c 称为
标准方差,表征的是 bell 钟状的宽度。
隐马尔可夫模型 hmm
隐马尔可夫模型(,)是统计模型,它用来描述一个含
有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然
后利用这些参数来作进一步的分析,例如模式识别。
例如我们可能得到这么一串数字(掷骰子 次):
这串数字叫做可见状态链。但是在隐马尔可夫模型中,我们不仅仅有这么一串可见状
态链,还有一串隐含状态链。在这个例子里,这串隐含状态链就是你用的骰子的序列。比
如,隐含状态链有可能是:
剩余52页未读,继续阅读
37号同学
- 粉丝: 52
- 资源: 6
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0