基于布谷鸟搜索的语音信号噪声抑制与增强

52 浏览量更新于2024-01-14 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com基于布谷鸟搜索的语音信号噪声抑制与增强Anil Garg*，O.P. 萨胡印度Kurukshetra国立理工学院欧洲经委会系接收日期：2013年4月25日;修订日期：2014年3月7日;接受日期：2014年2015年6月18日在线发布摘要本文提出了一种有效的噪声抑制技术，用于语音信号的优化掩模增强。首先，含噪语音信号被分解成各种震级谱图（AMS）。然后，基于质量比将信号分类为不同的类别，以生成初始解集。然后，基于布谷鸟搜索算法生成每类的最优掩模.随后，在波形合成阶段，对滤波后的波形进行加窗，然后乘以最佳掩码值并求和，得到增强的目标信号该技术的实验进行了使用各种数据集和性能与以前的技术相比，使用SNR。实验结果证明了该方法的有效性，并证明了其抑制噪声和增强语音信号的能力。？2015制作和主办Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍语音增强的问题在过去几十年中得到了大量的研究关注（Hu和Loizou，2007）。特别地，它专注于改善语音通信系统在诸如交通和人群的噪声环境中的性能（Hong等人，2009年）。许多语音增强算法，如频谱增强算法，*通讯作者。电子邮件地址：anilgarg0778@gmail.com，agarg001@yahoo.com（A.Garg）。沙特国王大学负责同行审查已经报道了减法、子空间、基于几何模型和维纳类型（Hu和Loizou，2007; Kim和Loizou，2011）。谱减法的基本原理是从含噪语音谱中减去噪声谱的平均值，从而得到纯净语音信号的估计值（Boll，1979）。噪声谱最初是在没有语音信号的情况下估计的（Boll，1979）。语音增强算法的性能通常根据清晰度和信噪比（SNR）来测量（Kim和Loizou ， 2011; Chirstiansen 等人， 2010; Ma 等人， 2010年）。一些研究人员和专业人员已经开发了用于估计和改善可懂度和 SNR 的各种算法（ Hu 和 Loizou ， 2007;Chirstiansen等人，2010年）。在许多语音增强和降噪算法中，决策是基于先验SNR（Loizou，2006），而谱减法、维纳滤波和最大似然等经典算法可以公式化为先验SNR的函数http://dx.doi.org/10.1016/j.jksuci.2014.04.0061319-1578< $2015制作和主办Elsevier B. V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier关键词噪声抑制;语音信号增强;AMS特征提取;布谷鸟搜索;波形合成;最优掩模由以下人员指定：2y，其中c是任意的，：伪代码：目标函数：最大化信噪比，并获得每个类开始对于每个类别Cli，对于0 I6 3，执行：<所考虑的类cli的初始种群是Gi={gi1，gi2......... giNci}生成25个主机嵌套H={h1，h2...................... h25}，并考虑信号Yi={yi1，yi2..........yiNh}在第i个主机嵌套中，0 i6 25Fj）270 A. O.P.加格萨胡先验SNR（Scalart和Filho，1996）。在实时应用中，先验SNR估计是有用的，但在理想情况下，局部SNR比先验SNR更可取（Wolfe和Godsill，2003）。例如，Ephraim和Malah通过使用过去SNR估计值和当前SNR估计值的加权平均值，使用决策导向方法进行信噪比估计（Ephraim和Malah，1984年; Chen和Loizou，2011年）。后验和先验SNR是使用改进的决策导向方法计算增益函数的主要函数（Ephraim和Malah，1984）。用于计算听觉场景分析的理想二元掩模中使用的增益函数与最大后验（MAP）估计器Lu和Loizou（2011）的增益函数相同。Kim等人（2009年）和Kim和Loizou（2010年）提出了另一项重要研究，其中输入信号被分解为时频单元，并通过AMS特征提取技术提取特征。在这种方法中，基于贝叶斯分类器进行二元决策（权重值0或1），以确定每个T-F单元是由目标还是掩蔽物主导。已经报道了这些语音增强算法/方法来估计被各种类型的噪声降级的原始语音（Lu和Loizou，2011; Kim等人，2009; Kim和Loizou，2010; Muhammad，2010）。然而，在可懂度和SNR方面测量的改善程度并不容易（Kim和Loizou，2011; Chirstiansen等人，2010; Ma等人，2010年）。这主要是由于缺乏对噪声频谱的良好估计，特别是当其是非平稳的时（Kim和Loizou，2011）。然而，高为了提高语音清晰度在第3节。模拟结果和讨论在第4节中给出。本文在第5节中结束。2. 布谷鸟搜索算法布谷鸟搜索（CS）Yang，2009年; Valian等人，2011年是最新的优化算法之一，是从一些杜鹃物种的专性育雏寄生在其他物种的其他宿主鸟类的巢中产卵的灵感中开发的。在布谷鸟搜索中，考虑了三个理想化的规则，即每只布谷鸟每次产一个蛋，并将蛋倾倒在随机选择的巢中。第二条规则指出，具有高质量蛋的最佳巢将延续到下一代，第三条规则说，可用的宿主巢的数量是固定的，杜鹃下的蛋被宿主鸟发现的概率在0-1之间。在这种情况下，宿主鸟可以扔掉蛋，也可以放弃鸟巢，建立一个全新的鸟巢。它还假设，一个明确的分数的巢，都被新的巢穴所取代对于最大化问题，解的质量或拟合度可以简单地与目标函数的值成比例。该算法是基于一些杜鹃属物种的专性育雏寄生行为，结合一些鸟类和水果类物种的Levy寄生行为该算法利用Levy权进行更新，并与拟合函数进行比较，进行适当的替换。利瓦伊·赖特是在ym i上进行的 toyield屈服togetanew新cuckoo杜鹃ymωi 其由下式给出：ymω<$ymt 1ymtDLevyy，其中征费分摊（Kim和Loizou，2011; Chirstiansen等人，2010; Ma等人，2010年）。在最近的研究中，二元掩模（Kim和Loizou，i1i 1I1pce-1c2个py3=22010年）保留了GET语音支配掩蔽（噪声）（例如，当地SNR> 0dB），并去除掩蔽物主导的T-F单位（例如，局部SNR 0dB）（Kim和Loizou，2010年）。<虽然，在噪音存在下产生的语音被称为在先前的研究中，即使在极低（5、10dB）SNR水平下，也可以通过将噪声信号与理想二进制掩码信号相乘来获得可懂度的大增益（Brungart等人，2006; Li和Loizou，2008）。 Kimet al.（2009）和Kim andLoizou（2010）在贝叶斯分类器技术的帮助下提出了二进制掩码的生成，贝叶斯分类器技术是一种惰性分类技术。由于使用懒惰分类器进行分类，因此二进制掩码的生成将不是最佳的。如果二进制掩码不是最优的，它会影响语音增强的性能。本文提出了使用布谷鸟搜索算法（Yang，2009）的最佳掩码生成，布谷鸟搜索算法是一种用于语音增强的优化算法（Mandal，2012;Venkata Rao和Waghmare，2014），以提高SNR，从而提高可懂度。该算法通过优化掩蔽参数，有效抑制噪声，实现语音信号的增强。我们提出的方法的比较和仿真结果是更好的信噪比比贝叶斯分类器技术。本文的其余部分组织如下：布谷鸟搜索算法的简要描述在第2节中给出。解释了基于布谷鸟搜索的最优掩模生成stant.因此，观察到另一个巢，并找到了它的拟合函数。如果Levy权生成的嵌套的适合性优于所考虑的嵌套的适合性，则由主嵌套Levy执行值代替嵌套信号值。每一次迭代，一部分最可怕的巢穴被拆除，新的巢穴被建造作为替代。基于上述规则，布谷鸟搜索的基本步骤可以概括为如下伪代码（Yang，2009; Valian等人， 2011年）：ðÞSFF基于布谷鸟搜索的最佳掩码生成271用嵌套i的新解替换嵌套j端放弃最差嵌套的分数Fra并构建新的嵌套最好的解决方案被保留，其被排名并采用当前最好的解决方案。最佳解的SNR比被用作类End的掩码。3. 基于布谷鸟搜索的最优掩模生成本文中用于噪声抑制和语音增强技术的方法包括三个主要模块，即：特征提取模块（Kim等人，2009）、最优掩模生成模块和波形合成模块。首先，原始和噪声语音信号作为输入提取特征，随后，最优掩模生成与布谷鸟搜索的使用。随后，在波形合成模块中，滤波后的波形被加窗，然后乘以最佳掩模值并求和以获得增强信号。所提出的技术的框图在图中给出。1.一、3.1. 特征提取模块在该模块中，借助于幅度幅度谱图（AMS）从输入语音语料库中提取特征。2009年输入语音信号将是干净语音信号和噪声信号的混合。输入信号首先通过执行采样、量化进行处理，然后进行预加重，以使信号适合进一步处理。AMS特征提取的框图如图所示。二、然后，使用带通滤波器将处理后的信号分解为各种TF（时频）单元。在该模块中（Kim等人，2009），我们将信号分成25个TF单元;每个TF单元对由Ci表示的通道有贡献;其中1 6i6 25：带通滤波器具有以下特性：的在规定的范围内传递信号频率，同时衰减其他信号。因此，在所考虑的所有25个频带信道中，每个信道将具有位于为相应信道定义的频率范围内的信号。这里，每个信道由上限频率Ui和下限频率Li定义：在形成信道频带后，通过全波校正计算每个频带的包络，随后，包络被抽取3倍，随后被分割成128个32 ms样本的重叠段，其中重叠 64 个样本（ Lu 和 Loizou ，2011）。设每个段由Sij表示;其中16i6 25; 16j6Ni，并且Ni是数。由第i个信道形成的段的BER。对分割后获得的采样信号进行汉宁加窗（Salivahanan，2010），以去除不需要的信号成分并获得更尖锐的峰值。加窗信号最初被零填充并进行傅立叶变换（256点FFT）以获得具有15.6 Hz频率分辨率的每个信道的调制频谱（Kim等人， 2009年）。因此，通过使用FFT获得所有25个通道的调制频谱，随后，每个通道乘以在15.6-400Hz范围内均匀间隔的十五个三角形窗口（Kim等人， 2009年）。将所有这些相加以产生15个调制频谱幅度，并且每个调制频谱幅度表示AMS特征向量（Kim等人， 2009年）。AMS的使用导致具有更好的提取的特征，从噪声语音信号相比，其他传统的特征提取技术。这是由于段分离、加窗、FFT和与三角函数相乘的综合努力。令特征向量由AFk;/k表示，其中f表示时间槽和 K代表的子带（金 et 例如， 2009年）。考虑到在时域和频域中可能发生的微小变化，我们还将delta函数引入到提取的特征中。时间增量函数DA T如下所示（Kim等人，（2009年）：DATk;/AFk;/-AFk;/-1;其中/2;：;Tð1Þ频率增量函数DAS如下所示DAk;/Ak;/-Ak-1;/其中k2;：;Bð2Þ包括delta函数的整体特征向量AkiAk;/Ak;/B;DATk;/C;DASk;/C]3因此，我们已经使用AMS特征提取（Kim等人， 2009年）。3.2. 最优权值生成模块在该模块中，通过与原始信号进行比较，将每个单独的TF单元分类为各种类别，然后通过使用布谷鸟搜索找到最佳掩模（Yang，2009; Valian等人， 2011年）。(a) 分类：图1所提出的技术的框图在这里，输入TF单元通过使用原始信号和噪声信号被分类为相应的类。语音信号到不同类别的分类是基于质量比，质量比是估计的语音幅度的比率对于每个T-F单元，将NitudeM<$转换为真实语音幅度T。通道1带通滤波器组通道2通道25输入处理信号..........汉宁窗汉宁窗汉宁窗第N25段(128样品64个重叠）段N1（12864个重叠样本）第1段（128个样本64个重叠）校正和抽取272 A. O.P.加格萨胡…….....图3波形合成模块框图。三角函数FFT××..........图2AMS特征提取框图。AMS特征三角函数FFTAMS特征×三角函数FFTAMS特征¼2ek;/-11-g/ml：max0;ek;/-1Q基于布谷鸟搜索的最佳掩码生成273这里，考虑时隙f和子带k处的频谱;因此，质量比RQ可以定义为：其中增益可以从等式中找到。（3）：swk;/RjMk;/jjTk;/jð4ÞGAk;/1周;/周ð6Þ其中，估计信号频谱M通过频谱M与增益函数GA的乘积获得下面的等式其中w是由以下等式（g 0： 98是平滑常数，eN是背景噪声方差的估计值）（Loizou，2007）：g：jMk;/-1j2N“jMk;/j#N图4（a）原始语音信号的频谱图（b）在10 dB SNR下被街道破坏的信号的频谱图（c）使用最佳掩码生成的估计语音信号的频谱图（d）使用最佳掩码生成的类似信号的估计语音信号的频谱图。¼Mk;/Gk;/：jMk;/j5wk;/ð7Þ2xCl2类;如果RQ6T2I1I1I1274A. O.P.加格萨胡随后，基于质量比值RQ;rce-110cMk;/的语音频谱分为不同的类别莱维·埃克斯2p：x3=2 10Cl1，Cl2，Cl3. 如果RQ的比值小于T1，则它被分类为为Cl1，否则，如果在T1和T2之间，则归类为Cl2，否则归类为Cl3。也就是说，它可以表示为：8>类Cl1;如果RQ6T19>=其中c是任意常数。因此，通过执行Levi搜索，我们获得新的解，然后找出新解的拟合值（SNR值）。让李维所做的巢的适合性是Fi。随后，一些其他的巢被认为是除了>：Cl3类;若RQ>T2>;i个主机嵌套，并让所考虑的嵌套由下式表示：表示第j个主机嵌套。的适合性(b) 通过cuckoo search生成最优权重这里，利用布谷鸟搜索算法为每个类生成最佳权重掩码（Yang，2009）。3.2.1. 初始种群令带噪语音输入信号由 Mi 表示，其定义为M^fm1;m2;：：：;mNsg;，其中Ns是输入信号的总数。使用质量比将输入信号分为Cl1、Cl2或Cl3类。为了以较少的迭代获得最佳的最优二进制掩码，首先将单元分类为不同的类，并使用帮助分类模块生成初始掩码。然后，计算初始种群的拟合度（SNR），以确定其是否固定为合成语音增强信号。3.2.2. 新的解决方案然后，在初始模板的帮助下，基于布谷鸟搜索方程生成新的模板。在Yi（初始掩码）上执行Levi加权，以得到新的布谷鸟Yωi：考虑信号y i1 在Yi中;然后改变的值（新的解）yωi1由Yang（2009）和Valian等人给出。（2011年）：yω<$yt 1 <$ytKLevyx：9使用拟合函数找到第j个嵌套，并由F j表示：如果第i个嵌套Fi执行的Levy权的拟合度大于第j个嵌套F j的拟合度;则替换第j个嵌套信号值Y j^fy j1;y j2;：;y jNhg 在i th主机巢征费每-形成的值Yωi<$fyωi1;yωi2;：;yωiNhg：最初，当执行Levi检验时如果满足条件Fi>Fj，则执行替换。3.2.3. 终止在比较和替换之后，我们不得不放弃一小部分最差的巢穴，并在它们的位置上建造新的巢穴。这是通过发现所有现有巢穴的质量并对其进行分析来完成的。也就是说，保留最佳解决方案，并用新建的巢穴替换最差的巢穴随后，对解决方案进行排名，并找出当前最佳解决方案。继续整个循环，直到满足某些停止标准，并且执行的最后一个循环中的当前最佳方案将是最佳方案。训练信号的最佳掩码权重将是针对最佳解获得的拟合函数值。3.3. 波形合成模块这里K>0是大于零的步长，通常取为1，意味着逐项乘法。Levi Weight方程表示随机游动的随机方程，因为它取决于当前位置和转移概率（等式中的第二项）。这里，征税分布由下式给出：在增强模块（测试阶段）中，将测试含噪语音信号乘以从训练模块中的布谷鸟搜索获得的相应的最优二进制掩码。随后，合成所得到的信号以产生增强的语音波形。图3示出了波形合成模块的框图在这里，图5PSD的估计Mk;/2ð8Þ基于布谷鸟搜索的最佳掩码生成275图6输入信号、噪声信号和去噪信号。E k; t O k; tω T k; t11因此，最终在对25个信号分量的加权响应求和之后估计原始语音信号。图4示出了使用所提出的用于语音增强的方法的合成信号的示例频谱图。(c)使用最佳掩模生成的估计语音信号的频谱图。使用最优掩模生成的估计语音信号的频谱图示出了在相应频率处类似于原始语音信号能量水平的能量水平。图5示出了功率谱幅度（dB）与频率（赫兹）的关系。功率谱密度（PSD）描述了信号或时间序列的功率如何随频率分布。PSD显示信号的能量作为频率的函数，其是估计信号的FFT功率谱密度用于描述信号在不同频率处的能量。它还表示方差应尽可能小，以提高信噪比。在已知功率谱密度和系统带宽的情况下，可以计算出系统的总功率。本文的主要贡献是布谷鸟搜索的就业产生最佳的面具为每个类。与现有技术相比，最佳掩模生成导致具有更高的语音增强和降噪。使用AMS的特征提取也增加了所提出的技术的有效性。最佳掩模是重要的，因为增强的信号是通过将掩模与噪声信号相乘而得到的。因此，找到正确的掩码非常重要。在我们提出的技术中，我们采用布谷鸟搜索，这是有效的，以获得良好的最佳掩模，以获得良好的效果。图7使用所提出的方法在不同噪声和不同电平0 dB、5 dB、10 dB、15 dB下(a)贝叶斯方法（b）。首先，将带噪语音信号与从布谷鸟搜索算法直接生成假设作为语音增强的输入给出的噪声语音信号被表示为Tk;t，并且所生成的最优掩码被表示为Ok;t：增强的信号（表示为Ek;t）由以下等式给出：伪代码：输入噪声信号输出增强语音信号开始使用以下等式使用幅度幅度谱图从输入语音语料库中提取特征：Ak;/Ak;/B;DATk;/C;DASk;/C]（接下页）通过比较每个TF单元的< Cl类;如果R6T第一季度原始信号使用：Mk;/2类Cl2;如果RQ6T2=使用布谷鸟搜索将测试噪声语音信号与相应的最佳值从布谷鸟搜索获得的二进制掩码：Cl类;如果R>T3季度2;合成所得到的信号以产生增强语音Stop给出的波形E k; t O k; tω T k; t276A. O.P.加格萨胡4.1. 数据库描述图810 dB街道噪声级的SNR增加百分比。4. 实验结果和讨论所提出的用于语音增强和降噪的技术在MATLAB版本2012和COLEA（Kim等人，2009）在具有4GB RAM和32位操作系统（具有i5处理器）的系统上运行。数据集描述见第4.1节，实验结果见第4.2节。用于实验的数据库取自Kim等人（2009）中给出的Loizou该数据库的引入是为了简化语音改善技术的评估。噪声数据库包括30个IEEE sentences退化的八个不同的现实世界的噪声在不同的SNR。噪声来自AURORA数据库（Hirsch和Pearce，2000年），包括郊区火车噪声、牙牙学语、汽车、展览厅、餐馆、街道、机场和火车站噪声。IEEE句子数据库是在一个隔音棚使用塔克戴维斯技术（TDT）录音设备。三名男性和三名女性发言者宣读了判决。句子最初以25 kHz采样，然后下采样至8 kHz。4.2. 实验结果仿真结果包括输入信号、噪声信号和去噪信号的曲线图，如图所示。六、针对相应频率绘制信号功率，频率范围在0和2.5 kHz之间。为此，各种类型的噪声，如串音噪声，汽车噪声，展览噪声，餐馆噪声，街道噪声和火车噪声在不同水平的0 dB，5 dB，10 dB，15 dB的被用作掩蔽物。受试者参与了总共24种条件[4种SNR水平（0 dB、5 dB、10 dB、15 dB）·6种类型的掩蔽]。实验结果证明了该方法的有效性，并具有抑制噪声和增强语音信号的能力。在10 dB水平下，各种掩蔽噪声的SNR增加百分比的图形表示如图所示。8.第八条。4.2.1. 根据（表1和图2）进行比较分析的推论。（第7和第8段）我们使用SNR的标准评估指标将各种表2不同情况下的SSNR。噪音汽车噪音展览噪音餐厅噪音街道噪音火车噪声声级（dB）贝叶斯提出贝叶斯提出贝叶斯提出贝叶斯提出贝叶斯提出的贝叶斯051015-1.80SSNR-4.551.094.17SSNR-7.13-5.39-4.82-3.00-2.33SSNR-5.050.773.45SSNR-7.68-5.40-4.83-3.16-1.19SSNR-4.88SSNR-7.46-4.54-4.99-4.87-3.13SSNR-7.06-5.20-4.75-2.95SSNR-4.750.963.70-2.230.934.33-1.071.554.61SSNR-7.64-5.28-4.62-3.10-1.84SSNR-4.520.694.31SSNR-7.35-5.43-4.78-3.07表1不同情况下的SNR。噪音水平汽车噪音展览噪声餐厅噪音街道噪音火车噪声（dB）拟议贝叶斯提出的贝叶斯提出贝叶斯提出的贝叶斯提出的贝叶斯提出的贝叶斯SNR SNR SNRSNRSNR信噪比SNR信噪比SNR信噪比SNR2.171 5.6502 1.3375.94681.6405.5359 1.8065.2881 1.6995.7519 1.98711.468 6.991 12.038 7.21111.5398.94011.49 7.50811.367 7.90611.453 7.16710 20.284 9.922 19.997 9.58420.2669.66219.625 9.76519.714 9.98919.966 9.70915 29.635 23.88 29.94 23.4230.41823.8830.026 24.6731.097 23.9528.747基于布谷鸟搜索的最佳掩码生成277所抽取的噪音类别包括串音噪音，火车噪音，汽车噪音，展览噪音，食肆噪音及街道噪音。在所有情况下，已考虑0 dB、5 dB、10 dB和15 dB水平的噪声。图7给出了提议和贝叶斯技术的平均SNR。与贝叶斯方法相比，该方法具有更好的效果，表明了该方法的有效性。当与以下相比时，所提出的技术获得的最佳SNR值为31.0977 dB。贝叶斯技术为24.67 dB。平均信噪比值来约16.79 dB的贝叶斯技术相比，所提出的方法为10.78 dB 图 8给出了10 dB噪声水平下SNR的增加百分比。最佳掩模的使用导致所提出的技术具有更好的性能。这是因为掩码值非常重要，因为要将该值相乘以获得分段信噪比（SSNR）的计算也进行了。这里，该技术将目标信号和掩蔽信号划分为段。它随后计算分段能量，然后计算SNR，并返回平均分段SNR（dB）。表2给出了所提出的技术和贝叶斯技术的分段SNR值。从这些值中，我们可以观察到所提出的技术已经实现了更好的SSNR值。所提出的技术的净平均SSNR0.02，而贝叶斯技术为-5.315. 结论本文提出了一种基于布谷鸟搜索的语音信号噪声抑制与增强的最优掩模生成方法。该技术分为三个模块：特征提取模块、最优掩模生成模块和波形合成模块。使用AMS进行特征提取，并对信号进行分类以生成布谷鸟搜索算法的初始种群。使用各种数据集进行了所提出的技术的模拟。并与已有的利用信噪比参数的方法进行了比较。实验结果证明了该方法的有效性，并证明了其抑制噪声和增强语音信号的能力。最佳信噪比值为31.0977 dB，而使用贝叶斯技术是24.67 dB。平均信噪比值来约16.79 dB的贝叶斯技术相比，所提出的方法为10.78 dB。所提出的方法使用有限数量的训练数据实现了大的增益的可懂度总体而言，使用所提出的方法发现的总结表明，可以通过估计每个时频单元中的信噪比来提高语音清晰度引用Boll，S.F.，1979.用谱减法抑制语音中的声学噪声。IEEE Trans.Acoust.语音信号处理27，113- 120。Brungart，D.，Chang，P.，Simpson，B.，Wang，D.，中国科学院，2006.用理想的时频分离分离法分离语音间掩蔽的能量成分。J. Acoust. Soc.Amer.120，4007-4018。陈芳，Loizou，C.，2011.信噪比和增益函数过估计和欠估计对语音清晰度的影响。语音通讯54，272-281.Chirstiansen，C.，Pedersen，M.S.，Dau，T.，2010.基于听觉预处理模型的语音清晰度预测。语音通讯52，678-692。Ephraim，Y.，Malah，D.，1984.使用最小均方误差短时谱幅度估计器的语音增强。 IEEETrans. Acoust Speech Signal ProcessASSP-32（6），1109-1121.Hirsch，H.，皮尔斯，D.，2000.噪声条件下语音识别系统性能评估的Aurora实验框架ISCA ITRW ASR，9月18日洪耀龙，清海镇，广律仁，包家祥，基于独立分量分析的语音增强算法。第五届IEEE自然计算国际会议，2009年，pp。598-602Hu，Y.，Loizou，P.，2007.语音增强算法的主观比较。语音通讯49，588-601。Kim，Gibak，Loizou，Philipos C.，2010年。使用环境优化算法提高噪声中的语音可懂度。IEEE Trans. 音频语音语言处理。18（8），2080-2090.Kim，G.，Loizou，C.，2010.一种新的基于噪声约束的二值掩模，用于改善语音可懂度。日本千叶，1632-1635年。金，吉巴克，Loizou，Philipos C.，2011.语音增强算法不能提高语音清晰度的原因及解决方法. IEEE Trans.音频语言处理。19（1），47-56。Kim，Gibak，Yang，Lu，Yi，Hu，Loizoua，Philipos C.，2009.一种提高听力正常听众在噪声中语音清晰度的算法。J. Acoust.美国社会126（3），1486-1492。Li，N.，Loizou，P.C.，2008.影响理想二进制掩蔽语音清晰度的因素：对降噪的影响。J. Acoust. Soc.Amer.123（3），1673-1682。P.C. Loizou，2006年，语音处理以调用编码器为中心的人工耳蜗植入体，在：Møller，A.R. (Ed.)、髋关节和脑干植入物，耳鼻喉科进展，Karger，巴塞尔，瑞士，第64页。109-143Loizou，P.C.，2007.语音增强：理论与实践。Press.Youyi，Lu，Cooke，Martin，2009. F0和频谱倾斜的变化对噪声中产生的语音清晰度增加的贡献。语音通讯51，1253-1262。吕，Y.，Loizou，P.，2011.幅度平方谱的估计器和用于合并SNR不确定性的方法。IEEETrans.音频语言处理。19（5），1123-1137。Jianfen，Ma，Loizou，P.C.，2010.信噪比损失：一种新的预测噪声抑制语音清晰度的客观度量。语音通讯53，340-354。Mandal ， Sangeeta ， Ghoshal ， Sakti Prasad ， Kar ， Rajib ，Mandal，Durbadal，2012.基于疯狂粒子群优化技术的最优线性相位FIR高通滤波器设计。J. King Saud Univ. Comp. Inform. Sci. 24 （ 1 ）， 83-92 。Muhammad，Ghulam，2010. 噪声鲁棒基音检测增强的相关函数。J. King Saud Univ.- Comp. Inform. Sci. 22，13-28。Salivahanan，Gnanapalan，2010年。数字信号处理第二版。塔塔·麦格劳·希尔Scalart，P.，Filho，J.V.，1996.基于先验信噪比估计的语音增强，在：IEEE声学、语音和信号处理国际会议论文集，第2卷。IEEE，pp. 629-632.Valian，E.，Mohanha，S.，Tavakoi，S.，2011.一种用于前馈神经网络训练的改进布谷鸟搜索算法。Int. J. 《人工智能应用》，2（3），第36-42页。Venkata Rao，R.，Waghmare，G. G.，2014.多目标无约束函数与约束函数的教与学优化算法比较研究。J.沙特国王大学补偿通知。Sci. 26（3）.沃尔夫，P.J.，Godsill，S.J.，2003.用于音频信号增强的Ephraim和Malah抑制规则的有效替代方案。EURASIP J.应用信号处理。2003（10），1043-1051.杨，辛。她，2009年。布谷鸟搜索通过Le'vy照明。 Nat. Biol.你好计算：二一零至二一四

下载后可阅读完整内容，剩余1页未读，立即下载