基于SVMDTW的语音识别技术及DSP实现

版权申诉

5星 · 超过95%的资源 79 浏览量更新于2024-07-01 1 收藏 2.74MB PDF 举报

"该文档主要探讨了基于支持向量机动态时间规整（SVMDTW）算法的语音识别技术，并介绍了其在数字信号处理器（DSP）上的实现。文档首先概述了语音识别的重要性以及在多个领域的广泛应用，然后分析了国内外语音识别的发展现状，提出了相应的语音识别算法，并强调了改进算法在语音识别系统中的核心地位。接下来，详细阐述了语音识别系统中的关键步骤，包括预加重、窗口截取、端点检测、特征提取等，重点介绍了DTW算法及其优化，以及支持向量机（SVM）算法。此外，还提到了参数优化算法，如网格搜索方法和遗传算法（GA），以及这些算法如何提升语音识别的性能。最后，文档可能涉及了在硬件和软件层面的系统仿真。" 这篇文档深入探讨了人工智能领域中的语音识别技术，特别是基于SVMDTW算法的实现。语音识别作为模式识别的一个分支，经过数十年的发展，已经在工业、军事、交通、医疗等多个领域取得了显著突破，特别是在信息处理和电子通信系统中的应用日益广泛。随着技术的进步，语音识别产品层出不穷，应用场景也更加广泛。在技术层面，文档首先介绍了语音信号处理的基本步骤，包括预加重以消除低频噪声、使用窗口函数对语音信号进行分帧处理，以便于分析，以及端点检测来确定语音的起始和结束位置。这些步骤为后续的特征提取奠定了基础。特征提取是语音识别的关键，它通常涉及梅尔频率倒谱系数（MFCC）等特征参数的计算。接着，文档详细讨论了动态时间规整（DTW）算法，这是一种用于比较不同长度序列的匹配算法，特别适合处理语音这种非线性变化的数据。通过DTW，可以找到两个序列的最佳匹配路径，从而实现语音模板的比对。为了提高识别效率和准确性，文档还提到了对DTW的改进策略。支持向量机（SVM）作为一种强大的分类工具，在语音识别中也有广泛应用。SVM通过构建超平面将不同类别的样本分开，能够处理高维特征空间，且具有较好的泛化能力。文档中提到了参数优化，包括网格搜索和遗传算法，这些方法用于寻找最佳的SVM模型参数，以提升识别性能。最后，文档还讨论了系统在硬件和软件层面的实现，这通常涉及到DSP的利用，因为DSP具有高效处理数字信号的能力，适合执行复杂的语音识别算法。通过仿真，可以评估和优化整个系统的性能。这篇文档为读者提供了一个全面的理解，关于如何利用SVMDTW算法进行语音识别，并在实际硬件平台上实现这一技术的详细过程。这对于从事相关领域的研究人员和工程师来说，是一份宝贵的参考资料。

展开

基于 SVM/DTW 算法的语音识别研究及其 DSP 实现



预加重处理一般是在语音信号数字化之后，用预加重数字滤波器来实现，该滤

波器具有6dB/ 倍频的高频特性提升能力，将语音信号输入一个一阶的高通滤波器：

H(z)=1−μz

−1

                             (2-2-1)

式中μ 值(预加重系数)接近于1，取值范围在0.9到1之间。

经过预加重处理后的语音信号，其高频部分可与中频部分(1-2kHZ)的幅度相

当，这个过程可以用公式表示：

y(n)=x(n)-0.975x(n-1)                       (2-2-2)

其中y(n)和x(n)分别为预加重前后的信号

图2.2为语音信号预加重前后的时域波形图。

   

图2.2 预加重前后的信号比较

§2.2.2 加窗分帧

一般采用有限长度的窗函数来截取语音信号形成分帧，在区域之外，窗函数w(n)

将待处理的样本点全部置零，以获得当前语音帧。对已取出的一帧语音s(n)进行加窗

处理，就是用一定的窗函数w(n)来乘以s(n)，得到加窗后的语音s

(n)：

( ) ( ) ( ) 0 1

s n s n w n n N

    

                          (2-2-3)

在语音信号数字处理中常用的窗函数是矩形窗和汉明窗

[23]

，它们的定义如下

（N为帧长）：

矩形窗：     

1 0 ( 1)

( )

n N



  









，

，其他

                           (2-2-4)

汉明窗：

0.54 0.46cos[2 /( 1)], 0 1

( )

n N n N





    









其他

            (2-2-5)

用一个窗函数对采集数据进行滑动截断，每个短时的语音段称为一个分析帧。

分析帧一般采用如图2.3所示的交叠分段的方法，这是为了使帧与帧之间平滑过渡，

第二章  语音信号模型和特征提取

 10

保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移和帧长的比值一般取为

0～1/2 。

第k帧

第（k+1）帧

第（k+2）帧

帧移帧长



图 2.3 帧长与帧移的示例

这样，经过上面介绍的处理过程，语音就已经被分割成了单帧的短时信号，这

些短信信号都加过窗函数了，这样这些语音帧均可以看成一个平稳的随机信号，然

后利用DSP技术来提取语音特征参数。在处理过程中时，从数据区中按帧取出语音

数据，处理完一帧再取一帧，最后即可得到语音特征参数的时间序列，这个序列式

由每帧的参数组成的。

§2.2.3 端点检测

    端点检测是指用数字处理技术找出语音信号中的各种段落的始点和终点的位

置。这种处理对于连续语音识别是非常必要的。在实际应用中，由于环境噪声的影

响，语音识别系统比较不稳定，这就导致了系统识别率的降低。端点检测主要用在

噪声环境中的语音识别。只有准确的判断语音信号的端点，才能够保证识别系统的

性能。判断语音信号的端点一般采用基于短时能量和短时平均过零率的检测方法。

短时能量：以n为标志的某帧语音信号的短时能量E

如下式所示：

    

       

m m n N

E x m n m x m n m

 



   

   

   

   

 

            (2-2-6)

对于高电平信号，使用短时平均能量E

来处理的方式有点过于灵敏，在处理器

的字长有限的情况下，容易导致溢出，在这种情况下，可以采用短时平均幅度这种

参量，它是度量语音信号幅度变化的，其定义如下：

        

( ) ( ) ( ) ( )

M x m n m x m n

 





   



                       (2-2-7)

短时平均过零率：信号的幅度不论从从负值到正值还是从正值到负值都要经过

零值，我们称它为过零，过零率就是信号在一个单位时间内过零的次数

[24]

。下式是

语音信号序列的短时过零率Z

的数学表达式： 

基于 SVM/DTW 算法的语音识别研究及其 DSP 实现



sgn[ ( )] sgn[ ( 1)] ( ) sgn[ ( )] sgn[ ( 1)] ( )

Z x m x m n m x m x m n m

 





         



   (2-2-8)

由于语音段的能量比噪声段的能量大，传统检测方法认为只要系统的信噪比较

高时，那么只需要输入短时能量就能够把语音段和噪声背景分开。但是，在实际应

用中很难保证有这么高的信噪比，因此，在短时能量检测方法上，加上短时过零率

作为识别特征来进行检测。这种方法也称为双门限比较法

[25]

。

针对到语音信号开始后，总会有较大能量的浊音出现的情况，双门限法设置了

一个Th（较高门限）用来确定语音信号的开始，再取一个比Th稍低的门限Tl，用来

确定真正的起点N1和结束点N2。，采用另一个较低的门限Tz，用穿过该门限的“过零

率” 来判断无话和清音的差别。在Tz取的合适情况下，一般语音的低门限过零率值

将明显高于背景噪声的低门限过零率值。图2.4为采用双门限法对安静环境下语音信

号“9”的端点检测结果，语音信号在实验室采用麦克风和声卡录制。图2.5给出的是

信噪比为20dB的语音信号端点检测结果，此时，可以明显看到，基于短时能量、过

零率的双门限方法已经无法检测出语音的始末端点。短时能量和过零率容易受到外

界噪声的干扰，鲁棒性(Robust)较差，当语音信号的信噪比较低时，信号的短时能量

和平均过零率将受到很大的影响

[26]

。因此，无法在实际应用中体现出其优越性。

2000 4000 6000 8000 10000 12000 14000 16000

-1

语音

20 40 60 80 100 120 140 160 180 200

能量

20 40 60 80 100 120 140 160 180 200

   

2000 4000 6000 8000 10000 12000 14000 16000 18000

-1

语音

20 40 60 80 100 120 140 160 180 200 220

能量

20 40 60 80 100 120 140 160 180 200 220



图2.4 纯净语音的端点检测结果              图2.5 加噪语音的端点检测结果

针对双门限方法抗噪能力差的情况，本文采用了一种基于Teager能量算子和差

分算法的端点检测算法。在信噪比比较低的环境中，通过实验证明，这种改进算法

取得的效果明显优于双门限法。

1．基于差分功率谱的滤噪

[27]



一般语音信号功率谱相对于加性噪声的功率谱变化较快。设带噪音的语音信号

为s(n)，其中，纯净的语音信号为x(n)，用高斯白噪声η(n)表示加性噪声，则

               

( ) ( ) ( )

s n x n n



 

                               (2-2-9)

噪声η(n)和纯净语音x(n)互不相关，于是有：

第二章  语音信号模型和特征提取

 12

               

     

2 2 2

m m

S X

   

 

                      (2-2-10)

其中，|Xm(ω)|2、|η(ω)|2和|Sm(ω)|2分别为纯净语音、噪声和带噪语音的功率谱，对

其求偏导，则

               

     

2 2 2

m m

S X

m m m

   

  

 

                (2-2-11)

可以认为对加性噪声求偏导为零，则

                       

   

2 2

m m

S X

m m

 

 



                (2-2-12)

由(2-3-11)可以看出，差分算法可以达到降低噪声影响的作用。等式（2-2-12）

可以表示成时域差分形式，如：

                    

 

   

2 2

m m

S S



 





 



             (2-2-13)

2．TeagerEnergyOperator

[28]



TEO具有非线性能量的信号跟踪特性。理论和实验结果表明，TEO在抑制背景

噪声中，既能够进行信号特征提取，又能起到增强信号的作用。对于一有限频带的

信号f(n)，Teager能量算子可以描述如下：

          

















1 1

f n f n f n f n

    

 

 

                    (2-2-14)

式中Ψ[.]表示离散时域的能量算子。从（2-2-13）式中看出，能量算子的局部特性输

出只受原始语音信号的时域差分和它本身影响，即只需要知道该样本点的前后各一

个样本点的值和它本身，就能计算能量算子在第n点处的输出

[29]

。这样会使得能量算

子输出后的信号依然与原始信号保持相似的局限性。由(2-2-8)、(2-2-13)得到带噪语

音信号的Teager能量为：

          





















s n x n n x n n

 

      

       

       



           (2-2-15)

式中

[ ( ) ( )]

x n n







为

( )

x n

和

( )



互Teager能量，由于

( )

x n

和

( )



相互独立，则

[ ( ) ( )]

x n n







为0，因此有：















{ } { } { }

E s n E x n E n



    

     

     

           (2-2-16)

E{Ψ[η(n)]}与E{Ψ[x(n)]}相比，可以忽略不计，所以：

              









{ } { }

E s n E x n

  

   

   

                        (2-2-17)

用Teager能量算子能消除零均值噪声的影响，具有语音增强的能力。

基于功率谱差分和TEO的语音端点检测流程图如图2.6，步骤如下：

剩余72页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

programhh

粉丝: 8

基于SVMDTW的语音识别技术及DSP实现

人工智能-语音识别-鲁棒语音识别中的模型自适应算法研究与实现.pdf

人工智能-语音识别-基于移动机器人的语音识别与声源定位技术研究.pdf

人工智能-语音识别-基于元音长度调整的中语言语音识别.pdf

深度学习-语音识别实战(python)

基于人工智能的自动语音识别交换机的具体实施方式

单片机语音识别算法有哪些

基于芯原DSP核的智能语音识别SoC设计

基于人脸表情识别和语音识别的多模态融合算法

基于DSP核的智能语音识别SoC怎么设计

最新资源