没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于深度神经网络的以声门闭合时刻为锚点的Chuya China BhanjaChang,Mohammad Azharuddin Laskar,Rounge Hussain Laskar,SivajiBandyopadhyay电子和通信工程系,国家理工学院锡尔查尔,阿萨姆邦788010,印度阿提奇莱因福奥文章历史记录:收到2019年2019年5月20日修订2019年7月4日接受在线预订2019年保留字:声调/非声调语言GCI音节DNN数据库A B S T R A C T本文提出了一个两阶段的印度语言识别(TS-LID)系统,它是由一个音调/非音调预分类和个人语言识别模块。研究了平均希尔伯特包络系数(MHEC)和梅尔倒谱系数(MFCC)在TS-LID背景下的有效性及其与韵律的结合声门闭合时刻(GCI)为基础的方法和块处理(BP)的方法进行了探索。它还探讨了不同类型的分析单位,如整个话语和音节。在这项工作中,各种国家的最先进的建模技术进行了实验已经进行了NIT Silchar语言数据库(NITS-LD)和OGI-多语种数据库(OGI-MLTS)。结果表明,在预分类阶段,对于NITS-LD,使用基于GCI的方法,具有音节级特征的深度神经网络(DNN)对30 s,10 s和3 s的测试数据分别提供了90.6%,85%和81.3%的最高准确率。基于GCI的方法优于BP方法多达7.5%,6.2%和5.7%。对于30 s、10 s和3 s的测试数据,预分类模块有助于将LID系统的性能分别提高5.7%、4.4%和2.2%OGI-MLTS数据库的相应改进分别为7.4%、6.8%和5%。©2019作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍自动LID系统的目的是找到所讲语音信号的语言身份。这种系统在多语言服务中有着广泛的应用,如自动语音识别和安全系统的前端。已经为具有最先进性能的LID系统提出了几种方法和计算上先进的方法。为了区分共享共同起源的语言,如印度语言的情况,在文献中已经提出了基于预分类的系统(Bhanja等人,2018年)。在这样的系统中,在最后阶段识别各个语言之前,语言被预先分类为子语言家族或类别。文献研 究 表明 , 世 界 上大 量 的 语言 要 么 是 声调 的 , 要 么是 非 声 调 的(Everett等人, 2016年,全球近一半的...*通讯作者。电子邮件地址:chuya@rs.ece.student.nits.ac.in(中国) China Bhanja)。沙特国王大学负责同行审查制作和主办:Elsevier语 言 是 音 调 的 , 至 少 在 一 定 程 度 上 是 这 样 ( Dan 和 Robert ,2007)。这两种语言类别之间存在细微的差异(Everett等人,2016年)。然而,在这方面的文献中报告的工作有限。据观察,韵律特征提供了重要的音位特征,有助于区分声调语言和非声调语言(Wang et al.,2006年)。MFCC特征在携带音调信息方面也相当有效(Le等人,2009; Ryant等人,2014年),因此它已被用于区分音调语言的不同音调或用于音调和非音调语言。然而,众所周知,MFCC(Davis和Mermelstein,1980)仍然是基于自动语音识别器(ASR)的LID系统的最有用的特征,这可能是由于它们在匹配条件下的可接受性能。然而,它是敏感的背景噪声,声学不匹配的训练,和测试环境,房间混响等几个研究人员在最近的时间已经朝着发展的替代频 谱 功 能 , 强 大 的 噪 声 和 不 匹 配 的 声 学 训 练 和 测 试 环 境 。 Li 和Narayanan(2014)以及Sadjadi和Hansen(2015)提出了使用伽马频率倒谱系数(GFCC)和MHEC + SDC特征的噪声鲁棒LID系统。在这两种情况下,伽马通滤波器的使用不仅有助于使系统噪声鲁棒,而且能够捕获人类听觉感知的基本声学线索的更精细的细节。然而,在李和https://doi.org/10.1016/j.jksuci.2019.07.0011319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com1440C. China Bhanja et al./沙特国王大学学报--Narayanan (2014 ) ,Sadjadi 和Hansen( 2015 ) 作 者没 有 讨论MHEC如何携带音调信息,这些信息可能有助于区分音调语言和非音调语言。由于MHEC携带了对识别不同声调有用的人类听觉感知信息的更精细细节,因此它可以更有效地以更高的准确度区分声调/非声调语言。谱特征,如MFCC或MHEC,可以用作与韵律的互补特征以在第一阶段改善系统性能,这将进一步改善整体性能。此外,本文研究了两个不同的数据集的系统性能,其中数据已被收集使用两个不同的通道。因此,这些实验可以帮助找到更合适的声学特征为两个不同的信道条件。在LID系统中,语音信号可以用块处理(BP)方法(Deng和在BP方法中,连续语音信号被划分成一系列重叠的帧块。从这些帧中提取特征,然而,这些帧包括多个音调周期。因此,它不捕获从一个音调周期到另一个音调周期的瞬时变化,因为对于特征提取仅考虑多个音调周期上的平均频谱。此外,在BP方法中,声带闭合的时刻(否则是关键的)没有被精确地反映,因为考虑了较长的窗口。如果分析框架中包含不完整的基音周期,则对MFCC或MHEC等特征的谱估计可能会出错(Ananthapadmanabha和Yegnanarayana,1975)。为了避免这种情况,考虑从基于GCI(音调同步分析,即PSA)定义的每个音调周期获得的频谱。它有助于避免突然截断的语音信号的频谱分析的伪影。然而,GCI的精确确定,标志着声门闭合区(GCR)的开始,是一项艰巨的任务,因为后者位于任何地方的节段持续时间之间的10%和60%的音调周期。一些研究人员使用GCI两侧30%的历元长度(Rao,2010; Rao和Yegnanarayana,2006)作为GCR。在基于GCR的方法中,对于每个音调周期,仅从高SNR区域提取特征(Ramu Reddy等人, 2013年)的报告。在LID领域的研究显示了重大进展在用于补偿不希望的可变性的后端技术中也是如此。研究重点已经从联合因子分析(JFA)(Kenny等人,2007),其试图为语言和通道信息构建单独的子空间,到i向量(Dehak等人,2011)技术,该技术使用总可变性子空间将通道和扬声器信息一起建模。使用分类器如支持向量机(SVM)(Dehak等人,2011)和概率线性判别分析(PLDA)(Hochreiter和Schmidhuber,1997)。在最近的一项研究中,DNN和长短期记忆(LSTM)-递归神经网络(RNN)(Prince和Elder,2007; Gers等人,2003年)已被证明是有效的LID系统。RNN有效地捕获了用于LID和语音识别系统的数据中存在的时间依赖性(Dua等人,2018)也。它需要比前馈DNN更少的训练数据(Dehak等人,2015; Richardson等人, 2015年)。本文主要关注与之密切相关的印度语言。印度是一个多语言国家。印度官方语言有22种。大多数印度语言共享相同的音素集(英语和乌尔都语除外),因此,一种语言对另一种语言的影响非常大。印度语言分为四个主要语系,即印度-雅利安语、南亚语、达罗毗荼语和藏缅语(Jothilakshmi et al.,2012年)。其中,印度-雅利安语占75.28%,达罗毗荼语占22.5%,南亚语占1.13%,藏缅语占0.97%。德拉威语言主要在印度南部使用。在印度的北部、东部和中部,主要使用印度-雅利安语。语言多样性是印度东北部各邦有趣的现象之一。该地区的种族混合影响了他们相互交流的语言。在印度东北部,一种语言对另一种语言的影响非常大,这就是为什么与其他不同的语言相比,这些语言之间的区别很难。2. 相关作品在最近的一项研究中,Jothilakshmi等人(2012)探索了9种印度语言的分层LID系统。在第一个层次中,语系,即印度雅利安语或达罗毗荼语,被识别,然后在第二个层次中,个别语言被从该特定语系的语言中识别出来。他们比较了高斯混合模型(GMM)、隐马尔可夫模型(HMM)和使用MFCC、MFCC + delta(D)+delta-delta(D D)和MFCC +移位delta系数(SDC)的人工神经网络(ANN)的系统性能,并报告使用MFCC +D D系数的GMM模型提供了最高的精度,特别是80.5%。然而,他们手动地将语言分类为不同的语系,这是自动LID系统设计中的缺点。Yin(2009)提出了一种基于MFCC的分层LID系统(HLID),它实现了树状结构。与两阶段识别系统不同,HLID是利用每一层的最显著特征,对测试话语进行一层一层的分类。他们报告说,使用层次结构有助于提高系统性能。尽管已经针对世界上不同的语言提出了语言组建模、语言聚类和特征选择方法的各种方法另一方面,Wang et al. (2006)报道了一种新的系统将六种世界语言分为声调和非声调两类。他们报告说,使用语音水平、音高和时长特征以及人工神经网络分类器的准确率为80.6%在一项扩展研究中(Wang et al.,2007),发现当在执行个体语言分类之前使用音调/非音调预分类模块时,系统性能提高了4%到5%。然而,在Wang et al.(2006,2007)中,对语音标记数据的依赖使得系统扩展以纳入新语言成为一项不平凡的任务。此外,系统性能进行了分析,为世界上不同的语言识别在密切相关的印度语言的上下文中,层次模型可能有助于提高LID任务的性能。虽然不同的噪声鲁棒谱特征(如MHEC)已用于LID任务(Li和Narayanan,2014; Sadjadi和Hansen,2015),但迄今为止尚未研究MHEC是否携带可用于区分声调语言和非声调语言的声调信息。由于MHEC携带了人类听觉感知信息的更精细细节,这对于识别不同的音调是有用的,因此它可以更有效地以更高的准确度区分音调/非音调语言。频谱特征,如MFCC或MHEC,可以用作与韵律的互补特征,以在第一阶段改善系统性能,这将进一步改善整体性能。此外,本文研究了两个不同的数据集的系统性能,其中数据已被收集使用两个不同的通道。因此,这些实验可能有助于找到更适合两种不同信道条件的声学特征。使用从BP方法提取的韵律特征进行音调/非音调分类(Wang等人,2006)和光谱的使用C. China Bhanja et al./沙特国王大学学报1441ðÞ使 用 基 于 PSA 和 GCR 的 方 法 提 取 的 用 于 LID 任 务 的 特 征(RamuReddy等人,2013)(无预分类阶段)已在文献中报告。然而,没有现有的工作探索韵律和频谱特征,如MFCC和MHEC,使用基于PSA和GCR的方法提取音调/非音调预分类或TS-LID系统。因此,研究基于PSA和GCR的方法对预分类系统以及对整个TS-LID系统的影响可能是有用的在现有文献中(Dehak等人,2011; Gers等人,2003;Mounika等人, 2016),基于i向量的SVM,DNN和LSTM RNN用于对从话语中提取的特征进行建模。此外,在Martinez等人(2013)中,提出了一种系统,其中将话语划分为固定长度的语音段,然后使用段级特征获得话语的i向量表示然而,在声调语言中,声调事件在音节内是突出的(Atterer和Ladd,2004),并且因此优选地应当逐个音节地提取特征。此外,大多数印度语言都是以音节为中心的(Singh,2006),这就是为什么语言特定信息在音节水平上表现得更突出到目前为止,音节级特征还没有用于DNN,LSTM-RNN或i-vector SVM框架非常少的数据库(口语语料库,2009年; Maity等人,2012年)已为印度语言编写。此外,在印度,现有的数据库要么包括较少的目标语言,要么没有商业可用。为了解决这个问题,需要建立一个印度语数据库因此,从文献中观察到,现有的分层系统依赖于语音标记的数据。此外,还没有研究谱特征的比较分析,如MHEC或MFCC,以及它们与印度语言TS-LID任务的韵律特征的互补性。此外,文献告诉我们,用于特征提取的分析框架(BP/ PSA/GCR)的选择方式对LID系统的性能有直接影响。然而,基于PSA/GCR的方法对声调/非声调分类的影响尚未在文献中讨论。使用基于PSA/GCR的方法对TS-LID系统进行音节级分析还没有报道,并且到目前为止还没有探索本文试图解决上述一些问题。本文件的主要贡献可归纳为:一个基于声调/非声调预分类的TS-LID系统已经为印度语言开发。它不依赖于任何语音标记的数据或ASR。研究了TS-LID系统相对于传统LID系统的优势。性能分析的频谱特征,即MFCC,MFCC+ 提出了基于色调/非色调预分类的LID系统的SDC、MHEC和MHEC + SDC。此外,还研究了韵律特征与这些谱特征的互补性。还对BP、PSA和GCR方法进行了性能比较分析不同的模型,即GMM-通用背景模型(UBM),基于i向量的SVM,DNN,和LSTM-RNN的性能分析已经完成了使用音节级特征的TS-LID系统的结果进行了比较,对话语水平的功能。NITS-LD(Studio-quality)已准备好涵盖12种密切相关的印度语言,即不同语系的阿萨姆语、印度英语、孟加拉语、印地语、Nagamese、Odia、泰米尔语、Manipuri、Mizo、Punjabi、Bodo和Gojri。这些数据来自全印度广播电台(AIR)新闻档案。此外,还在OGI-MLTS(tele-marts)上对系统进行了评估。语音)数据库,由世界上不同语系的不同语言组成。对两个不同数据库上的模型的分析有助于理解不同数据条件下的特征和模型的行为。本文的其余部分组织如下:在第3节中提出了拟议的语言识别系统。第4节描述了用于实验的数据库。第5节讨论了这些特性,而本实验中使用的语言建模技术将在第6节中讨论。第7节介绍了实验结果和讨论。第8节总结了工作,并讨论了今后的工作范围3. 拟议的语言识别系统为了相对于现有技术系统提高系统精度,已经准备了具有音调/非音调预分类级的TS-LID系统。第二阶段由两个模块组成-一个仅对声调语言进行分类,另一个仅对非声调语言进行分类。在此,系统性能分析了三种不同的条件:条件I,条件II(A)和条件II(B)。条件I是形成基线系统的常规LID系统这个工作。在这里,一个单独的模型L1;L2:LM每一个的M语言进行训练。在识别时,确定L个语言模型中的哪一个最有可能被给予试验语音样本。在条件II(A)和条件II(B)中,语言首先被预先分类为两个类别之一-音调和非音调。然后在第二阶段使用声调和非声调语言的单独模块进行个别语言分类。在条件II(A)中,取决于第一阶段的分类决定并且不管其正确性如何,试验样本被路由到第二阶段的音调或非音调模块。另一方面,在条件II(B)中,只有预分类模块的真正分类的音调和非音调试验样本(手动分离)被进一步路由到个体语言识别的第二阶段。系统评估的三种不同条件的框图表示如图1所示。相同的特征集和建模技术用于TS-LID系统的两个阶段。3.1. 用于音调/非音调分类的图2示出了用于音调/非音调分类的预分类模块的框图表示。使用基于PSA和GCR的方法提取特征。在声调语言中,音高轮廓的峰和谷 与 音 节 的 起 始 和 偏 移 对 齐 ( Xu , 1999; MaryandYegnanarayana , 2008 )。音节是声调的承载单位( Zhang ,2014),可以是开放的,也可以是封闭的。不同语言的音节之间可能有相似之处,但音节中存在的听觉线索可能仍然不同。音节也捕捉到一些协同发音效应,有助于区分语言(Krakow,1999)。试图利用这些因素,本文使用音节级别的功能来区分语言。常见的音节结构有元音(V)、元音辅音(VC)、辅音元音辅音(CVCC)和元音辅音辅音(VCC)等,印度语言大多有CV类型的音节(Khan et al.,2003年)。研究人员大多考虑VOP周围的CV段来提取特征。然而,对于声调/非声调分类,音节的更合适的定义将是起始点和偏移点之间的段,如上所述。因此,对于预分类模块,这样的片段被认为是音节●●●●1442C. China Bhanja et al./沙特国王大学学报图1.一、 (a)条件I(b)条件II(A)(c)条件II(B)的TS-LID系统框图图二. 使用音节级特征开发的预分类系统的框图表示。并且在整个系统中保持相同的音节定义。使用元音起始点(VOP)获得音节(Prasanna等人,2009年,作为终点。这里,GCI(Naylor等人, 2007)位于自发语音中,然后映射到每个音节内的GCI,如图2所示。之后,以两个连续GCI作为边界的基音周期,对应于声门脉冲被认为是PSA方法的分析框架。在基于GCR的方法的情况下,30%的时期长度(Rao,2010; Rao和Yegnanarayana,2006)被认为是计算光谱信息的分析框架。图3(a)(Dias,2012)中示出了基音周期的四个阶段,并且图3(b)中描绘了基于PSA和GCR的方法的框架。在基于PSA和基于GCR的方法中,通过考虑音节内语音的全历元长度来获得韵律特征。得到每个音节对应的音高和能量轮廓,然后用5阶中值滤波器进行平滑,图3. (a)四个相位的声门脉冲,(b)30%的音高周期考虑GCI作为锚点。(D表示一个基音周期)。C. China Bhanja et al./沙特国王大学学报1443表1NITS-LD的描述语言孟加拉语阿萨姆语印度英语印地语长濑奥里亚泰米尔博多戈伊里曼尼普尔米佐Panjabi(Be)(As)(En)(嗨)(Na)(Od)(Ta)(博)(Go)(马)(米)(蒲)#h1412131111111510910911发言者人数2435222691617131311917信道条件无噪声(演播室质量)演讲类型脚本在图2中解释。然后,音节的音高和能量轮廓用勒让德多项式的线性组合参数化(Martinez等人,2013年)的报告。音节持续时间已被计算的基础上的两个连续VOP之间的帧的数量。此外,节奏是根据有声帧与音节内帧总数的比率计算的。音节的时长和节奏构成了时长特征。将基音曲线、能量曲线和时长参数进行连续关联,得到对应于音节的韵律特征参数。此外,光谱特征,即MHEC,MHEC + SDC,MFCC,MFCC + SDC,从PSA和GCR为基础的方法获得然后,得到的值对应于每个单独的系数的一个音节的频谱特征的勒让德多项式的线性组合参数化。将MFCC、MFCC + SDC和韵律特征的参数以及MHEC、MHEC + SDC和韵律特征串联在一行中以获得对应于音节的声学特征。在传统的BP方法中提取相同的特征,以及比较系统的性能。4. 用于语言识别的数据库语音数据库,即NITS-LD、OGI-MLTS数据库(Muthusamy等人,1992)和印度数据库的子集(Baby等人, 2016)以各种方式用于分析系统的性能。4.1. OGI-MLTS数据库OGI-MLTS语音语料库包括11种语言的会话8 kHz电话语音,即波斯语、印地语、德语、法语、英语、日语、韩语、西班牙语、汉语普通话、越南语和泰米尔语。它包括每种语言大约90个不同说话者的话语。越南语和普通话是这个数据库的两种声调语言,其余的九种语言都是无声调的。对该数据库的10种语言(日语除外)进行了评价。4.2. NITS-Ld在印度商业上可获得的数据库的数量非常少,因此为了进行我们的实 验 , 已 经 制 备 了 NITS-LD , 扩 展 了 先 前 公 开 的 NITS-LD(Bhanja等人, 2018年)。NITS-LD由12种印度语言组成,即孟加拉语,阿萨姆语,印度英语,印地语,Nagamese,Odia,泰米尔语,Mizo ,Manipuri,Bodo,Gojri和Panjabi。它包括五种音调语言(Mizo,Manipuri,Bodo,Gojri和Panjabi)和七种非音调语言。AIR新闻档案被用于数据收集。广播新闻的发言人都很成熟,专业性很强,因此所收集到的语音样本发音清晰,说话得体。然而,这样准备的数据库存在一些基本问题,例如,(i)很难获得某些语言(如长话、Mizo等)的合理使用者和(iii)背景音乐可以与新闻标题一起出现。因此,数据库的准备工作必须十分谨慎。新闻不同语言的公告通常以不同的频率即16kHz、22.05kHz进行采样。为了均匀性,所有的语音样本已被重新采样在8千赫和存储为32位浮点数。文中对NITS-LD作了详细的描述表1中除了我们的NITS-LD,印度数据库的一个子集也被用作训练集的一部分。印度语数据库的细节在Babyet al. (2016年)。5. 语言识别特征5.1. 韵律特征在这项工作中考虑的韵律特征包括音高,能量和持续时间。每一种音调语言都有一套固定的音调。例如,Manipuri有两个,Mizo有四个,越南语有六个,普通话有四个音调。音调可以是不同的类型,即高(H)、低(L)、下降、上升、上升-下降和下降-上升。声调类型决定了讲话的词汇意义。另一方面,在非声调语言的情况下,词汇意义保持不变,不管音高轮廓如何变化。因此,参数化的音高轮廓可以用于表征语言。此外,每种语言都在一定程度上存在重音特征。重读音节在感知上比其他音节更突出。这些syllables的特点是更高的音高变化和更长的持续时间。然而,重音在大多数声调语言中不那么明显(Killing,2004)。相反,非声调语言,如英语,重音更明显。语音信号中的重音表现主要依赖于语言,并且通常借助于能量参数来量化。使用语音信号的能量轮廓来获得应力。它补充了音高轮廓线索相当有效。在BP方法中,音调是在自相关方法的帮助下计算的(Talkin,1995)。从每10 ms帧获得能量值。在计算了发音的音调和能量轮廓之后,这些音调和能量轮廓然后与VOP位置相关联,用于获取音节级音调和能量轮廓。语音的清音帧被检测到,并且不考虑长度小于50 ms的轮廓。在基于PSA和GCR的方法中,通过将基音周期计算为两个连续GCI之间的距离来获得基音,并且从基音周期内的样本计算能量。在基于BP、PSA或GCR的方法中获得的轮廓都被平滑化和参数化,如第3.1节所述。音调对比表现为音高轮廓的差异和持续时间的系统差异(Kidder,2008),称为节奏。节奏的计算方法是一个音节中的有声部分与总的区域的比率。元音质量的平均数量(Maddieson,2013)在音调和非音调语言中各不相同,因此,元音持续时间可以帮助区分这两类语言。5.2. MHEC和MHEC + SDC功能文献研究(徐,2004)表明,声调的识别受声调产生过程和辨别的影响1444C. China Bhanja et al./沙特国王大学学报¼ð Þ¼ ðÞQFs.ΣM15t¼01/4海明窗函数(二十人的感知。人类听觉神经反应具有MHEC特征。此外,MHEC可以具有关于音高的补充信息,这对于更准确地识别不同的语言是有用的。在BP方法中,MHEC特征(Hasan等人,2013)通过将希尔伯特包络分块成具有10 ms的跳跃率的20 ms持续时间的帧来提取。在表2中给出了使用基于PSA/GCR的方法提取MHEC特征的MHEC和SDC所涉及的步骤。5.3. MFCC和MFCC + SDC功能MFCC是任何LID任务中使用最广泛的功能。它模拟了声道结构。据观察,与不同音调相一致的声道动力学,如普通话,越南语等等,与MFCC特征密切相关(Dusan和Deng,1998)。因此,MFCC可以是用于该LID任务的有用此外,已知MFCC具有对音高的信息的补充信息(Le等人,2009年)。MFCC特征提取使用标准算法执行,如Steven和Mermelstein(1980)中所解释的。这里,MFCC是从第2节中描述的基于BP、PSA和GCR的技术获得的。在BP算法中,以10ms的步长从20ms长的Hamming窗口帧中提取MFCC,考虑前7个系数(包括c0)及其49个SDC系数。这里,使用如表2中给出的标准配置参数7-1-3-7来计算每个帧的SDC。然后,将从构成音节的帧获得的相应系数堆叠在一起,以形成关于每个特征系数的轮廓。然后使用如表2中所讨论的Legendre多项式来参数化每个轮廓。5.4. 三种不同特征使用勒让德多项式的参数化过程在表2中给出。勒让德拟合的每个系数表示不同的-在这里,4阶勒让德多项式导致音调和能量轮廓的5维表示、音节的35维MFCC特征、280维MFCC + SDC特征、35维MHEC和280维MHEC +SDC特征。2-还使用维度持续时间特征。图4(a)给出了从自发语音中获得的VOP位置。GCI位置及其与VOP的关系如图4(b)所示。图4(c)中示出了针对基于PSA/GCR的方法获得的音节的音高轮廓。图4(d)和(e)分别示出了针对基于PSA和基于GCR的方法获得的音节的第一MHEC的勒让德拟合。5.5. 数据归一化为了补偿扬声器和声道变化,z归一化方法(Ng等人, 2009)已经用于在训练基于GMM-UBM和i向量的SVM分类器之前对数据进行归一化。6. 语言建模已知分类器在具有更多不同特征的情况下工作得更好。在本研究中,GMM-UBM(Reynolds,2008)、基于i-向量的SVM(Dehak等人,2011)、DNN(Mounika等人,2016)和LSTM RNN(Zazo etal.,2016)已被用于开发TS-LID系统。类内协方差归一化(WCCN)(Hatch等人,2006)技术推广了支持向量机的线性核函数。SVM广泛用于处理高度非线性数据(Hatch等人,2006年)。支持向量机在分类任务中可以解决小样本问题和共同均值问题。 LSTM-RNN映射输入序列Xx1;x2:x T至Yy1;y2:y T当从时间步长t =1到t1/4 T通过以下等式迭代地计算网络单元的激活时(Zazo等人, 2016年)。表2将GCI作为锚点的MHEC和MHEC + SDC特征的提取和参数化(1)pre_emphasize_speech=预加重语音信号,并以8 kHz(2)获得自发言语(3)从自发语音获得VOP(4)获取自发语音(5)对于loc_vop= 1:(VOP数量-1)(6)speech_1=pre_emphasize_speech(vop(loc_vop):vop(loc_vop+1))(7)processed_speech=语音的浊音部分_1(8)获取processed_speech(9)processed_speech_1=通过32通道伽马通滤波器组分解的processed_speech。滤波器组的中心频率在ERB标度上均匀分布在200和3400 Hz之间。 通道i = 1,2N的ERB计算为ERBfif i Bmin,其中,Q = 9.26449和B = 24.7被称为Ekberg,摩尔参数,fi是第i个通道的中心频率,单位为Hz(10)创建伽玛通滤波器组,伽玛通滤波器的脉冲响应为ht;idtsexpansion-2pbfitcosm 2pfith,其中d和s分别表示响应的幅度和滤波器阶数,bfi是滤波器带宽,h是初始相位(11)获取每个通道的输出信号,表示为st;i=processed_speech_1*ht;i(12)求出sht;it的希尔伯特变换sht;it(13)通过考虑信号的绝对值,获得sht;i的希尔伯特包络sabst;i(14)使用截止频率为fc= 20 Hz的低通滤波器对希尔伯特包络进行平滑,截止频率如下所示:esnt;j1-gesnt;jesnt-1; jesnt;i 1-gsabst;iesnt-1;i,其中下标n表示平滑的包络,g是平滑因子,与截止频率成(反比)指数比例,可以表示为gexp-2pfc(15)将每个帧分块成帧,其中通过将GCI位置视为锚点(PSA/GCR)来获得帧,然后对每个帧进行汉明加窗(16)每个帧l的样本平均值被计算为Sl;i1PM-1wtsnt;i,以获得时间包络,其中,M是以样本为单位的帧大小,wts是(17)sl;i通过根压缩进行压缩,其中指数项,(18)离散余弦变换(DCT)(提供32维倒谱特征,称为MHEC)(19)包括C 0,保留MHEC的前7个系数,然后使用标准配置参数7-1-3-7(N-d-P-k)计算来自每个帧的49个移位增量倒谱系数(SDC)系数(Torres-Carrasquillo等人,2002年)。将SDC特征和静态倒谱系数堆叠在一起,得到56维特征向量。(20)对应于音节的每个系数的轮廓再次用勒让德多项式的线性组合参数化,勒让德多项式由下式给出:其中,ft是被建模的轮廓,ai是第i个勒让德拟合系数,P it是第i个勒让德多项式(Martinez等人, 2013年度)C. China Bhanja et al./沙特国王大学学报1445.Σ[1/2]见图4。(a)Odia语言的3 s持续时间话语的VOP位置(b)GCI位置与VOP的关联。1、2、3等,表示VOP位置,(c)从基于PSA/GCR的方法获得的一个音节的音高轮廓,(d)将勒让德多项式拟合到从基于PSA的方法获得的音节的MHEC的第一系数(e)将勒让德多项式拟合到从基于GCR的方法获得的音节的MHEC的第一系数。ft¼r. Wfx xtWfrrt-1wfcct-1bf2itrWix xtWir rt-1Wicct-1bi3ct¼ftct-1ittanhWcx xtWcrt-1bc4Ot¼rWox xtW或 rt-1Wocctb05rtottanhct6yt 2017年12月27日其 中 W 代 表 权 重 矩 阵 。 Wix 表 示 输 入 门 到 输 入 权 重 的 矩 阵 ,Wic;Wfc;Woc表示窥视孔连接的对角权重矩阵,b表示偏置向量,r表示逻辑S形函数,i、f、o和c分别是输入门、遗忘门、输出门和单元激活向量。这些与细胞输出激活向量r大小相同,r是向量的元素乘积,tanh代表细胞输入和细胞输出的双曲正切激活函数,U是本文中使用的LSTM-RNN模型的输出层的激活函数。7. 实验结果7.1. 实验装置为了分析NITS-LD的系统性能,将整个数据集(如表1所述)分为三个部分:NITS-训练、NITS-开发和NITS-测试数据集。12种语言中的每种语言的大约7-10小时的数据总共大约100小时的数据形成了用于该实验的NITS训练集。在100小时的NITS-列车集,39小时的数据已从五个音调的语言和其余61小时的数据已从七个非音调的语言。此外,12种语言中每种语言的1小时数据,总计约12小时,构成了NITS开发集另一个排他的集合,由来自12种语言中的每一种的1小时数据组成,构成12小时NITS测试集。NITS-训练、NITS-开发和NITS-测试集都是互斥的。针对三种不同的测试数据持续时间(30 s、10 s和3 s)分析了系统性能,以研究测试样本持续时间对LID系统性能在GMM-UBM的情况下,训练阶段分两步进行。UBM已经使用NITS开发集构建,然后在第二步中,GMM使用NITS训练集适应每个语言类别(声调语言39 h,声调语言61 h)非音调语言的数据)。模型已经测试了三个不同的测试话语的持续时间。此外,利用相同的UBM,i-向量已被计算。给定一个M-音节语音发音,使用L个音节的上下文大小来计算i-向量,使得从音节序列开始从N-L到N-L,以获得第N个i-向量。它产生一个i向量序列,可以表示为w w1;w2;:wM。i 向量提取器基于全变率空间模型,由Dey等人给出。( 2017年)。秒/分秒Tw/秒其中s代表GMM超向量,m代表超向量的平均值,T代表总可变性子空间,w是语音信号的低维i向量表示使用每个3个音节的左右上下文,形成7个音节的滑动窗口,移位步长为1个音节。由于仅使用短片段来计算i向量,因此在类似的短片段上训练i向量提取器。本实验中使用的DNN架构是一个完全连接的前馈神经网络。DNN的输入是从音节获得的堆叠特征集。这里,使用当前音节周围的3个音节的上下文。特征堆叠导致输入特征向量的维度为(12*7 = 84)(对于prosody)、(35*7 = 245)(对于MHEC或MFCC)、(47*7 =329)(对于MHEC+ 韵律或MFCC +韵律和(280*7 = 1960)对于MHEC + pro-1446C. China Bhanja et al./沙特国王大学学报Sody + SDC或MFCC+韵律+SDC。网络中有三个隐藏学习率和L2正则化参数分别设为0.001和10- 7.本实验中使用的LSTM-RNN架构包含256个隐藏节点。LSTM-RNN的学习率设置为0.001。在DNN和LSTM-RNN中,输出被配置为具有S形激活的单个输出神经元,以在预分类阶段给出类概率。对于个人语言识别,被配置为具有等于目标语言的数量的维度的softmax层。此外,这两个模型使用Adadelta优化器最小化交叉熵损失。这些模型已经训练了100个epoch,小批量大小为256。NITS训练集用于训练模型,NITS开发集用于在每个时期之后验证模型。5-在该实验中使用了折叠交叉验证方法,并且在验证阶段给出最佳准确度的模型被用作最终模型。最后,NITS测试已被用于评估和报告结果的开发模型。为了分析OGI-MLTS数据库的性能,所有建模技术都遵循相同的过程。使用该数据库的15小时训练数据(9小时来自非音调类别的数据和6小时来自音调类别的数据)、5小时开发数据和5小时测试数据(30分钟来自每种语言的数据)来执行实验。训练DNN的处理时间在很大程度上取决于训练数据量和系统的计算能力。用于训练网络的系统配置如下:系统架构,Amazon web service( AWS ) p2 xlarge; 操 作 系 统 , Ubuntu bionic Beaver ( 18.4 ) ;RAM,64 GB; GPU,Tesla K80;平台,Python 2.7;深度学习框架,Keras with Tensorflow 1.4.1;音频处理库,Librosa,机器学习框架,Scikit-learner。基于prosody + MFCC和prosody + MHEC特征的前馈DNN的每时期训练时间在预分类阶段被发现为500 s。在LSTM的情况下,每个epoch的训练时间是510 s。此外,在基于预分类的LID任务的情况下,对于相同的特征组合,发现DNN和LSTM的每时期训练时间分别为600 s和605 s。图5示出了TS-LID系统的框架,其示出了处理的不同阶段。给定具有p个音节的测试话语,首先,针对每个音节计算韵律、MHEC + SDC和MFCC + SDC特征被连接以获得最终的p个特征向量。向量作为输入被提供给预分类模块。对psyl标签获得的分数取平均值,并基于此,将测试试验分配给音调或非音调类别。然后将特征向量作为输入传递到相应类别的个体语言识别系统。所有p个音节的分数再次平均,并且测试试验被指定为得分最高的语言身份。在这里,韵律特征由F1表示,MHEC由F2表示,MFCC由 F3 表 示,韵律+ MHEC由F4表示,韵律+MHEC + SDC由F5表示,韵律+ MHEC + SDC由F6表示。+ F6的MFCC和F7的韵律+ MFCC + SDC。实验结果在以下小节中给出7.2. 语言预分类的实验结果7
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功