基于听觉ERB类小波包特征的TIMIT音素识别

164 浏览量更新于2023-12-14 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

主办方：可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：http://www.elsevier.com/locate/jestch工程科学与技术，国际期刊17（2014）145e151全文基于听觉ERB类可容许小波包特征的TIMIT音素识别P.K. Sahua，Astik Biswasa，*，Anirban Bhowmickb，Mahesh Chandraba部。印度Rourkela国家技术学院电气工程系b部Birla Institute of Technology，Mesra，Ranchi，IndiaA R T IC L EIN F O文章历史记录：2013年12月15日收到2014年4月242014年4月24日接受2014年5月28日在线提供保留字：语音识别小波包ERB尺度WERBCWMFCC音素识别A B S T R A C T近年来，小波变换被认为是一种有效的时频分析工具。小波变换已被用于语音识别应用中的特征提取，它已被证明是一种有效的清音音素分类技术。本文分析了一种新的基于容许小波包的英语音素识别滤波器结构。这些滤波器的优点是具有与听觉等效矩形带宽（ERB）尺度相似的频带间隔。ERB量表的中心频率沿人耳蜗的频率响应均匀分布利用小波包变换的多分辨率特性，提出了一种新的语音特征，该特征对清音音素问题的识别效果优于传统特征。NOISEX-92数据库中的一些噪声已被用于准备人工噪声数据库，以测试基于小波的特征的鲁棒性。Copyright© 2014，Karabuk University.由爱思唯尔公司制作和主持All rights reserved.1. 介绍在过去的几十年里，语音作为人与机器或机器与机器通信的媒介已经越来越受欢迎。如果没有自动语音识别的改进，人工智能就无法得到显著的培养。到目前为止开发的大多数系统都是基于实验室环境中语音信号的频域分析然而，语音识别准确性在不利的实时情况和传感器失配条件下仍然会显著降低自动语音识别系统包括前端处理和后端处理两部分。前端包含各种特征提取和噪声补偿技术。后端有不同类型的声学，语言和发音。特征提取是一种从音素中提取最佳最大信息的技术，该技术在音素类之间给出最大区分。特征提取技术应该足够鲁棒，以在不同的环境条件以及传感器失配条件下表现良好。除了基于小波的特征提取技术之外，*通讯作者。电子邮件地址：pksahu@nitrkl.ac.in（P.K.Sahu），astikbiswas@live.com（ A.Biswas ）， anirban. outlook.com （ A.Bhowmick ）， rediffmail.com （ M 。Chandra）。由Karabuk大学负责进行同行审查常用的特征提取技术是Mel频率倒谱系数（MFCC）[1]，基于线性预测的倒谱系数（LPCC）[2]，伽马色调特征倒谱系数（GFCC）[3，4]，感知线性预测[5]。特征提取技术必须先进行傅立叶变换（FT），以获得其语音频谱。在频率平面上具有均匀分辨率的加窗FT或短时傅立叶变换（STFT）技术不适合于识别诸如塞音的一些音素。短时傅里叶变换（STFT）技术很难在慢时变信号中检测到短事件（如突发）。为了克服这个问题，小波包（WP）和局部余弦变换有助于特征提取[6e 8]。小波包（WPs）[9e11]被认为具有重要的影响压缩、检测和分类的信号表示方案[12，13]。 WP广泛用于分析伪平稳时间序列过程和准周期随机场，例如声学语音过程[14，15]。WP可以有效地用于描述信号空间分解的丰富覆盖，以及提供用于生成观测空间的子带相关分区的方式。总之，WP诱导了一系列结构滤波器组，具有丰富的时频特性覆盖范围，有可能丰富传统MFCC特征描述声学语音过程短期行为的方式。已采用WP和多速率滤波器组分析，通过将传统特征划分为http://dx.doi.org/10.1016/j.jestch.2014.04.0042215-0986/Copyright© 2014，Karabuk University.由爱思唯尔公司制作和主持All rights reserved.146P.K. Sahu等人 /工程科学与技术，国际期刊17（2014）145e151频率轴模拟到MEL标度频率分辨率在ASR的上下文中[7，16e 19]。他们使用了Daubechies（db）双通道滤波器（TCF），据报道，该滤波器可以增强TIMIT部分中特定电话子类别（停止和无声语音）的识别性能。 Choueiter和Glass（2007）[15]探索了双通道滤波器组设计的问题，并提出了理性滤波器组的新框架。这项工作的主要重点是通过设计一种 MEL 频率滤波器组结构来改善传统采用的Daubechies WP的频率选择性。在简化的音素分段分类任务中，MFCC的性能得到了改善。Farooq等人。（2010）[17]使用基于小波变换的特征提取技术，通过考虑时间和频带能量变化进行印地语音素识别。在简化的电话分类中，这种特征提取技术的性能优于MFCC特征。Litvin和Cohen（2011）[19]已经表明，基于小波的巴克尺度对齐WP分解改进了音频信号的单通道源分离的性能。最近，Pavez和Silva（2012）[18]已经表明，基于小波的小波包倒谱系数（WPCC）已经显示出具体的结果，补充了以前支持使用WP作为ASR特征提取技术的工作。在本文中，基于WP的特征是基于小波的，其中频率轴被划分为等效矩形带宽（ERB）[20]尺度频率分辨率的模拟。该ERB量表最初设计用于模拟人类耳蜗过滤[21]。Erb标度频率分辨率可用于近似GFCC中每个伽玛滤波器的中心频率和带宽。根据ERB标度对频率轴进行了划分，以跟踪人类耳蜗的响应。本文尝试利用听觉ERB滤波器组和WP提取某一感兴趣频率的系数。该技术试图减少音素特征中的清晰度效应。最近，我们已经证明了这些ERB特征在印地语辅音识别应用中的有效性[22]。在TIMIT数据库上对该特征技术的性能进行了测试。此外，这些功能已被证明更强大的存在的串音，沃尔沃，工厂和白噪声。将基于小波的特征的性能与MFCC（WMFCC）[8，17]，MFCC和GFCC等文章的其余部分组织如下：第二部分简要概述了基于小波的特征提取技术。第3节简要介绍了TIMIT数据库。第4节涵盖了电话识别任务所进行的实验和获得的结果的细节最后，在第5节中得出实验结论。2. ERB类小波分解和特征提取参考文献[11，16]可参考小波分析的详细描述。推导出24个子带小波包树，其近似于ERB尺度划分，如图1所示。的Fig. 1. 基于ERB尺度的24子带小波包树。1000P.K. Sahu等人 /Engineering Science and Technology，an International Journal 17（2014）145e151147听觉滤波器的中心频率（fc）和ERB之间的数学关系由下式给出：ERB24：7。4：37fc1（1）WP分解是通过使用一对共轭镜像滤波器实现的[7]。从而将信号分解为两个频带，例如低频带（近似系数）和高频带（细节系数）。低频带用于进一步分解。小波包树是由两个通道滤波器组级联而成。TIMIT数据库中的语音以16 kHz采样，给出8 kHz带宽信号。利用可容许小波包变换的能力，将信号分解为ERB滤波器那样的24个子带。一个24毫秒的帧大小与10毫秒的跳跃率已被用来推导基于小波包的ERB倒谱特征（WERBC）。最初，汉明窗口应用于每个帧。然后，对整个频带进行全三层小波包分解，以得到每个1kHz的八个子带一级WP所得到的子带划分精细地强调了通常包含大部分信号能量的0和500Hz之间的频率接下来，500e 1000 Hz和1e 2 kHz频带已经使用全2级WP分解来分解，以得到125 Hz和250 Hz的每个子带。然后对2e3kHz和3e4kHz两个频段进行全一级小波分解，得到各500Hz的子带四个频带4e 5 kHz，5e 6 kHz，6e 7 kHz，7e 8 kHz保持不变。最后，实现了总共24个频率子带表A1（附录）中给出了使用WP分解获得的每个滤波器的中心频率从表A1中可以注意到，对于前20个子带，小波频率划分与听觉ERB尺度相似，但最后4个子带与ERB尺度不同然而，语音信号的范围高达4000 Hz，并且大部分语音能量低于1500 Hz。因此，人们期望这些小波包滤波器可以提取某些信息，从语音信号中采用ERB的频率分解。在通过音素的WP执行分解之后，通过下式计算每个频带中的能量：分解被应用于0的最低子带e1 kHz至hSiik¼PwJx;ki2N（二）将频带分解为两个子带，每个子带为500 Hz。通过使用全3级WP分解，将0e 500 Hz的频带进一步划分为每个62.5Hz的8个子带的我其中，W是信号x的WP变换，i是子带频率索引（1≤i≤M），k表示时间帧，并且图二. 基于ERB类小波的特征提取过程。j j j j j j jjj j j j j j j j j j j j j j j jJ Jj j j j jj j j j j j j jJj j j148P.K. Sahu等人 /工程科学与技术，国际期刊17（2014）145e151N i是第i个子带中的系数的数量。已应用等响加权能量对数，产生24个系数。最后，对这24个系数应用离散余弦变换（DCT）以使滤波器组能量去相关，并将前12个系数作为特征。为了捕捉语音信号的动态信息，在静态特征向量中加入了增量和加速系数。以这种方式，每帧总共获得36个EDA（能量，增量加速度）特征为了使基于小波的特征在噪声环境中更鲁棒，还基于能量特征的方差计算另一个附加特征，如图1所示。二、在计算方差特征（VF）之前，已经计算了平均子带能量（m）VF有助于音素的识别，因为方差不会因噪声而发生的恒定增加而改变因此，最终每帧总共获得37个特征3. TIMIT数据库实验采用TIMIT语料库. TIMIT是用于评估ASR中新技术性能的标准语料库之一，因为它是一个语音平衡的数据库，并且具有良好的说话者和方言覆盖率。所有这些都使TIMIT成为评估新ASR方法的一个具有足够挑战性的语料库，这使得它被社区广泛采用。TIMIT语料库包括美国8种主要方言的6300个话语。有630个不同的说话者，每个人说10个句子。在本实验中，从训练集中选择了方言区DR1、DR2、DR3和DR4对鼻音（m，n ng）、清擦音（f，sh，sth）、浊擦音（z，v，zhdh）、流音（l，r，yw）、清塞音（p，tk）和浊塞音（b，dg）进行了识别。使用来自完整测试集的方言区DR1、DR2、DR3和DR4本实验中用于研究基于小波的特征集性能的单个音素组成见附录（表A2和A3）。语音信号被预强调以确保声学信号的所有共振峰具有相似的幅度，使得它们在后续处理阶段中具有相同的重要性。4. 实验装置和结果这里遵循Messaoud和Hamida（2010）[23]为每个音素创建一个模型，每个HMM模型有三个发射状态，八个高斯混合。使用TIMIT音素级注释来初始化HMM参数，然后使用Viterbi对齐来改善状态-时间对应性。Baume Welch算法随后应用于句子级别。然后，使用语音决策类树进行三音子上下文相关的障碍[24]解码是通过在一个循环中并行编译所有词汇音素的网络来执行的[25]。一旦编译完成，表1具有基线特征的不同系统的音素识别准确率。音素系统CICD增益WMFCCWERBCWMFCCWERBCWMFCCWERBC鼻音70.4571.7376.2078.095.756.36浊塞音71.8871.1279.2779.557.398.43清音塞音76.7078.8583.6085.086.906.23浊擦音73.3074.2281.8082.908.508.68清擦音81.2082.9587.1389.255.936.30液体72.6474.7878.0781.155.436.37Avg74.3675.6181.0182.676.657.064.1. 基线识别结果使用常规的36个MFCC和GFCC特征进行了基线识别测试。 MFCC和GFCC特征已经使用24ms的帧大小和10 ms的跳跃率导出。首先，实验开始与上下文无关（CI）的音素模型，然后切换到上下文相关（CD）的音素识别实验。从该CI和CD实验获得的结果示于表1中。结果表明，CD音素模型显示出显着的改善CI模型。当从CI切换到CD系统时，结果的不匹配可以通过以下事实来解释：发音信息利用了CD系统中的协同发音现象建模的巨大优势来改善结果。音素受邻近语音环境的影响很大，CD模型已经考虑到了这些事实。结果表明，GFCC的平均PRA（%）优于MFCC特征，这是因为它利用了根据人类耳蜗滤波模型设计的γ-酮滤波器库的优点。在下一小节中，将呈现具有WMFCC和基于小波的特征的结果。4.2.基于小波特征这些实验已经进行了比较的性能，我们的识别系统使用新的小波特征集与传统的MFCC，GFCC和WMFCC。一个24毫秒的帧大小与10毫秒的跳跃率已被用来推导小波包为基础的功能。WMFCC和WERBC特征已经使用db24母小波得到。表2示出了基于小波包的特征的性能。实验结果表明，除浊摩擦音外，WP派生特征的识别性能优于MFCC和GFCC特征。MFCC和GFCC特征更优越，因为它使用了具有正弦和余弦基的STFT，这更有效地从信号中提取WP派生的功能在停止类中表现得更好，因为停止具有突然的高频率突发，由于常数表2基于小波包特征的不同系统的音素识别精度。整个识别网络可以用于传统维特比解码器，用于将音素分类为未知输入话语的相应音素识别准确度（PRA）通过以下公式计算：PRA（%）¼100（%）-PER（%）（3）音位系统CI CD增益WMFCC WERBC WMFCC WERBC WMFCC WERBC鼻用70.45 71.73 76.20 78.09 5.75 6.36销售额%浊塞音71.8871.1279.2779.557.398.43清音塞音76.7078.8583.6085.086.906.23其中音素错误率（PER）由下式给出：浊擦音73.3074.2281.8082.908.508.68清擦音81.2082.9587.1389.255.936.30<$替换<$删除<$插入<$×100（4）液体72.6474.7878.0781.155.436.37音素总数Avg74.3675.6181.0182.676.657.06P.K. Sahu等人 /Engineering Science and Technology，an International Journal 17（2014）145e151149表3与其他功能相比，使用WEBRC实现的识别率提高百分比音位系统CI CDMFCC GFCC WMFCC GFCC WMFCC鼻4.03 2.38 1.28 3.41 1.19 1.89浊塞音1.92-1.74-0.76 3.10 0.99 0.28清音停4.20 5.80 2.15 4.20 5.24 1.48浊擦音-0.86-1.73 0.92 1.64-0.63 1.10清擦音4.70 5.37 1.75 4.12 3.40 2.12液体4.93 2.90 2.14 5.88平均值3.15 2.16 1.25 3.73 2.23 1.66在STFT的时间和频率平面的分辨率小波分析具有多分辨率的特点，可以很容易地捕捉到这些特征此外，基于小波的特征提取技术被证明是优于其他特征提取技术在大多数的音素类，因为它利用了小波分析以及听觉ERB 尺度的优势。表3显示了与其他特性相比，WERBC实现的PRA增益。由于小波包分解是根据ERB尺度进行的，目的是将目标语音从复合听觉场景中分离出来，因此基于小波的特征得到了令人满意的改善。详细的音素错误分析如表4所示。替代错误详细分为两个错误：内部和内部替代电话组。从表4中可以看出，与基于STFT的特征相比，清音塞音类的小波特征的帧间替换率（误分类为其他音素类别）明显较低它显示了关于清音音素分类的特征的有效性此外，在液体和鼻腔组的情况下，PER率显示的增强尤其归因于替代误差率，与基线系统相比，该误差率显示出显著下降。4.3.方言不匹配条件为了研究基于小波的特征在方言失配条件下的有效性，我们选取了方言DR5、DR6和DR7的完整测试集。表5给出了所有特征在方言不匹配条件下的识别性能。表5显示了方言不匹配条件下基于ERB的特征的鲁棒性。MFCC特征的性能相对下降了3.6%，这是由于Mel尺度可能不太适合跟踪方言变化，从而减慢了音素识别。WMFCC利用小波包的时频分析特性，在识别性能上有一定的提高。然而，听觉GFCC特征表现出更好的识别效率，证明了ERB对方言失配情况的适应性WERBC利用听觉ERB的子带小波包分解的优点，在方言失配的表5方言失配条件下小波特征的性能评估。相对变化（%）在括号中示出，与清洁训练条件的性能相比。音素MFCCGFCCWMFCCWERBC鼻音71.98（-3.62）74.89（-1.34）75.32（-1.16）77.39（-0.90）浊塞音74.03（-3.67）77.28（-1.63）77.68（-2.01）78.85（-0.88）清音塞音76.95（-5.10）77.74（-2.64）80.86（-3.28）83.18（-2.24）浊擦音81.76（-1.81）83.85（-0.72）80.18（-1.99）81.39（-1.83）清音擦音82.43（-3.37）84.09（-2.06）85.33（-2.07）88.28（-1.09）液体73.20（-3.52）76.22（-1.34）76.56（-1.94）80.33（-1.02）Avg.76.72（-3.5）79.02（-1.62）79.32（-2.09）81.57（-1.34）4.4.噪声环境最后，噪声音素识别任务已经进行了评估的鲁棒性的小波为基础的功能。为了评估基于小波的特征的鲁棒性，将来自NOISEX-92数据库的多路重合噪声、工厂噪声、沃尔沃噪声和白噪声添加到不同信噪比水平的清洁信号中。上下文相关（CD）音素识别准确性进行了评估，SNRs范围从0 dB到20分贝。不同噪声水平和类型下的英语音素识别器的平均PRA如图所示。3.第三章。这清楚地示出了用于英语音素的WP导出特征相对于MFCC和GFCC特征的改进的性能，特别是对于低SNR值。WP衍生的特征对噪声不太敏感，它可以提取特定频率的系数。进一步的结果表明，ERB过滤器WP衍生的功能优于WMFCC功能。基于小波变换的特征提取方法充分利用了小波分析的优点，并根据人类耳蜗的频率响应特性（ERB尺度）设计。由于语音和噪声信号的平稳特性不同，ERB滤波器组对噪声的敏感度较低，并集中于语音信号。4.5.TIMIT话机整机为了研究基于小波的特征的整体性能，使用了所有39个TIMIT电话集上下文相关的三音子模型已经准备好评估基于小波的功能的性能表6显示了不同前端功能在干净和嘈杂条件下的平均电话识别准确率所有四种类型噪声的平均性能已在表6中报告。有趣的是，基于STFT的功能的性能随着整体干净的TIMIT电话集而显着提高。基于STFT的技术表现出更好的性能相比，辅音识别问题，因为包括元音和其他浊音音素。基于短时傅立叶变换的技术在提取浊音音素的周期信息方面具有更好的性能。但是包含噪声对基于STFT的特征，特别是对MFCC有很大的影响而GFCC是一种纯听觉的方法，其中心频率按照ERB尺度分布，可以在复合听觉场景中实现目标语音的聚焦和分离这证明了再培训局的有效性表4不同类型错误的详细PER（%）分析。音素分析删除（%）替换内（%）替换间（%）插入（%）MFCCGFCCWMFCCWERBCMFCCGFCCWMFCCWERBCMFCCGFCCWMFCCWERBCMFCCGFCCWMFCCWERBC鼻音5.204.855.575.056.35八点八八10.479.788.886.52 4.653.654.892.853.11 3.43语音停止5.923.264.754.4010.76九点九八7.309.352.852.95 4.142.204.025.25四点五四四点五清音塞音4.754.383.263.052.652.245.875.456.717.57 2.651.955.015.974.62 4.47浊化4.273.783.902.798.35六点零五分5.255.901.581.78 4.274.754.544.864.78 3.66清辅音3.582.473.121.952.653.284.214.485.055.90 2.151.853.592.503.39 2.47液体5.854.954.543.246.28五块七11.249.987.576.28 0.791.435.035.125.36 4.20150磅Sahu等人 /工程科学与技术，国际期刊17（2014）145e151图3.第三章。存在不同类型噪声（a）多路重合噪声、（b）工厂噪声、（c）沃尔沃噪声、（d）白噪声时的平均PRA（%）。在嘈杂的环境中工作已经发现WERBC特征更好WERBC特征在噪声条件下的性能远远优于其他特征。这证明了WERBC在训练数据和测试数据之间的环境失配条件下的有效性。如第2节所述，已尝试增加低频范围内的频率分辨率。这是众所周知的事实，即语音信号的鉴别信息被嵌入在较低的频带中。语音产生-感知假说认为，对于最佳通信设计，最大信号能量应该嵌入在更低的频率区域，那里有更多的感知（频率歧视）。5. 结论通过保持与ERB滤波器相同的子带数目，提出了一组新的听觉ERB类小波特征。表6TIMIT手机整体性能识别准确率平均值。实验已经进行了连续的步骤，看看新的小波基功能的性能。与基线系统的比较研究也显示了基于小波的功能的鲁棒性小波变换的多分辨率特性可以更好地对音素类，特别是无音素类进行建模。新功能的性能进行了研究，音素识别的任务。与WMFCC和STFT特征相比，基于小波的特征在英语音素识别性能上有了全面的提高。WERBC被认为是优于相比，WMFCC，特别是在嘈杂的条件下。与说话人无关的结果表明，在识别TIMIT数据库测试的音素类有相当大的改善此外，基于小波的功能被发现是强大的存在不同的噪声。致谢我们感谢尊敬的审稿人和编辑为我们提供了重要的建议，并感谢建设性的评论帮助我们提高了论文的质量清洁0db的5 dB10 dB15 dB20 dB其中，MFCC80.2642.8654.8666.2874.2676.89GFCC80.8446.4158.2168.4874.8877.54附录WMFCC79.9547.0557.2468.7172.8975.32WERBC81.7848.7661.0873.3273.0876.81P.K. Sahu等人 /Engineering Science and Technology，an International Journal 17（2014）145e151151表A124个均匀间隔的ERB尺度和小波包子带的中心频率（Hz）的比较表A2实验中使用的音素组成（标记数量），以使用4个方言区域训练系统。[5] H. Hermansky，感知线性预测（PLP）分析，J. Acoust。美国社会87（1990）1738e 1752。[6] C.龙，S。基于小波的音素识别特征提取，第四届国际会议发言。Lang.Process.Philadelphia（USA），1996，pp.264和267。DR3 1866 1286 2058 1465 1979 2864粤ICP备16018888号-1总人数6552 4279 7062 4898 6868 9609表A3实验中使用的音素组成（标记数），使用TIMIT的7个方言区域测试系统。1998，pp. 81e84[9] M.林志玲，小波分析与子带编码，国立成功大学计算机科学系硕士论文，1995.[10] S.A. Mallat，Wavelet Tour of Signal Processing，第3版，中国科学技术出版社，2009年.[11] S. Mallat，多分辨率信号分解理论：小波表示，IEEE Trans. 模式肛门。马赫内特尔 11（1989）674e 693。[12] C.斯科特河Nowak，Templar：a wavelet based framework for patternlearningand analysis，IEEE Trans. 信号处理。 52（2004）2264e 2274。[13] K.埃特马德河Chellapa，基于分离度的多尺度基选择和特征提取信号和图像分类，IEEE Trans. 图像专业版-清音塞音方言测试浊塞音清擦音浊擦音鼻液cess. 7（1998）1453e 1465。[14] J. Silva，S.张文，小波包滤波器组的选择与模式识别，北京大学出版社，1998。57（2009）1796e 1810。DR1244193326202298419[15] G. Choueiter，J. Glass，一种有理小波的实现和滤波器设计对于语音分类，IEEE Trans.音频语音语言过程15（2007年）DR26784597104507011027939e948.DR36174316954976831048[16]O. Farooq，S. 基于小波的音素鲁棒子带特征DR4531378578451560927认可，IEE Proc. 视觉、图像信号处理。 151（2004）187e 193。总207014612309160022423421[17] O. Farooq，S.Datta，M.C.Shrotriya，基于小波子带的时间特征鲁棒印地语音素识别的方言失配条件。 J. Wavelet Multiresolut.Inf Pro-DR59416509987389651486cess. 8（2010）847e 859。DR6256175330191298429[18]E. Pavez，J.F.席尔瓦，分析和设计小波包倒谱共-DR7总597179441212376361964432136163118949442859自动语音识别，语音通信。Elsevier 54（2012）814e 835.引用[1] S.B. Davis ， P. Mermelstein ， Comparison of parameters representationsformonosyllobular word recognition in continuously spoken sentences ， IEEETrans. 声音。语音信号处理。（1980）357e 366. ASSP-28.[2] E.黄，S. Sridharan，语言识别的线性预测倒谱系数和梅尔频率倒谱系数的比较，Proc. IEEE Int. Symp.内特尔多次。视频语音处理。（2001）95e 98。[3] A.比斯瓦斯峰Sahu，A. Bhowmick，M. Chandra，在传感器失配条件下使用GFCC和共振峰分析的印地语元音分类，WSEAS Trans. 13（2014）130e 143.[4] Y. Shao，S.斯里尼瓦桑角Jin，L.王，一种用于语音分离和鲁棒语音识别的计算听觉场景分析系统，Comput。 SpeechLang. Elsevier 24（2010）77e 93.[19] Y.利蒂温岛张文，基于小波包分解的单声道音频信号源分离，信号处理。350.第339和第350章.[20] B.C.J. Moore，An Introduction to the Psychology of Hearing，Academic Press，San Diego，2003。[21] R.D.帕特森岛林文彬，一种基于神经网络的听觉滤波器，国立成功大学，2001。[22] A. 比斯瓦斯峰萨胡，M。基于人内耳频率响应的小波包特征在印地语辅音识别中的应用。电气工程师：Elsevier 40（2014）pp. 1111e 1122，2014。[23] z.B. Messaoud，A.B.李文生，基于变阶LPC编码的语音识别方法，北京大学出版社，2001。Speech Technol. Springer 14（2010）393e 403.[24] K.F. Lee，H.W.韩，使用隐马尔可夫模型的与说话人无关的电话识别，IEEETrans. 声音。语音信号处理。 37（1989）1641e 1648。[25] N. Kumar，A.G.李文，最大似然框架下线性判别分析的推广，北京大学出版社，1996。滤波器ERB量表小波子带滤波器ERB量表小波子带滤波器ERB量表小波子带15062.59632.83625172433.982500292.2312510763.35750182837.2930003140.86187.511913.62875193301.735004196.85250121086.661000203836.4440005261.33312.5131285.921250214452.1750006335.57375141515.351500225161.1760007421.06437.5151779.521750235977.5670008519.49500162083.712000246917.588000清音表示清音表示鼻音液体[7]《中国日报》O. Farooq，S. 基于Datta，Mel滤波器的可容许小波包结构停止停止摩擦音摩擦音语音识别，IEEE信号处理。Lett. 8（2001）196e 198。DR1926653104472210001389[8]R.萨里基亚湾J.H.L.佩洛姆Hansen，小波包变换的特征，DR2198412612129137620622886演讲者身份认证，Proc。IEEE Nord.信号处理。症状：

下载后可阅读完整内容，剩余1页未读，立即下载