没有合适的资源?快使用搜索试试~ 我知道了~
软计算快报3(2021)100018法语语音特性分析与口音识别Pierre Berjona、Avishek Nagb、Soumyabrata Devc、d、a法国图卢兹INP-ENSEEIHT数字科学系b爱尔兰都柏林大学电气和电子工程学院cADAPT SFI研究中心,爱尔兰d爱尔兰都柏林大学计算机科学学院A R T I C L E I N F O保留字:口音识别法国口音分类A B标准语音识别系统在过去的几十年里取得了巨大的进步。它们在识别说话者的言语方面有了很大的发展。然而,语音识别系统在识别说话者的细微差别和口音方面存在改进的范围。 众所周知,任何特定的自然语言都可能拥有至少一种口音。尽管同一个词的音素组成,如果用不同的口音发音,我们就会产生声波,它们彼此不同。差异在语音的发音、口音和语调中,通常会产生语音识别的最常见问题之一。如果语言中有很多口音,我们应该分别为每个口音创建声学模型。本文对口音的准确分类问题进行了系统的分析。 我们使用传统的机器学习技术和卷积神经网络,并表明经典技术不足以有效地解决这个问题。利用语音信号的频谱图,我们提出了一个口音识别的多类分类框架。在本文中,我们将重点放在法国口音。我们还确定其局限性,了解法国特质的影响,其声谱图。1. 介绍口音识别是近年来自动说话人识别和非特定人语音识别(SI-ASR)系统中的一个重要课题。语音控制技术的发展已经成为我们日常生活的一部分,然而语音的可变性使得这些口语技术相对困难。语音信号中的一个深刻的变化是口音。 不同的模型可以 通过对各种口音类型进行准确分类来处理SI-ASR [1]。 这种成功的口音识别模块可以 将其集成到自然语言处理器中,从而在金融[2],医学[3]和可持续环境[4]方面产生广泛的影响。方言/口音指的是在一个社区内发音/说一种语言的不同方式。 一些说明性 示例 可能是美国英语对英国英语使用者或西班牙语使用者对加勒比海。在过去的几年中,已经进行了大量的尝试来自动识别给定他或她的语音话语的说话者的方言或口音。在自动语音识别(ASR)之前识别说话者的方言或口音有助于通过适当地适配ASR声学和/或语言模型来提高ASR系统的性能。此外,在智能手机中使用的智能助理等通过识别呼叫者的口音使用具有相似方言或口音的代理将为应用程序的用户大多数现有的技术不具备良好的准确性,在识别各种口音。我们在口音识别问题上很难有很好的准确性的原因之一是我们对英语音节结构缺乏了解。为了为了接近英语语音学,我们必须了解母语在发音、语调和节奏方面的相似性。 在过去,研究主要集中在音素的库存和序列,声学实现和语调模式。因此,研究英语音节结构具有重要意义。单词识别背后的主要问题是对音节的理解。 它通常由一个强制性的元音与可选的初始和最后的辅音。一种常见的音节细分方法是将音节分为首韵和押韵。 所有语言的音节在语音上至少都由声母和韵组成。然而,这些类别本身并不表明音节在单词中的位置。为了捕捉外国口音在英语中,我们要突出那些音节的成分, 最有可能被证明是困难的语言,其中他们不包含[5]。∗ 通讯作者:爱 尔 兰 都 柏 林 大 学 计算机科学学 院 。电子邮件地址:pierre. etu.enseeiht.fr(P. Berjon),avishek. ucd.ie(A. Nag),soumyabrata.dev @ ucd.ie(S.Dev)。https://doi.org/10.1016/j.socl.2021.100018接收日期:2021年6月2日;接收日期:2021年8月11日;接受日期:2021年8月20日2021年9月8日网上发售2666-2221/© 2021作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软计算快报期刊主页:www.elsevier.com/locate/soclP. Berjon等人软计算快报3(2021)1000182在本文中,我们专注于法语语言的规范。我们感兴趣的是确定法国人的特质,导致模型预测错误的口音。1.1. 相关工作Berkling等人[5]讨论了音调和非音调语言及其在语音识别系统中的处理。在Kardava等人[7]中,他们开发了一种方法来解决上述问题,并创建格鲁吉亚语和与格鲁吉亚语类似的语言的更有效、改进的语音识别系统Katarina等人[8]提出了一种自动检测外国口音程度的方法,并将结果与专家语音学家进行的口音标记进行了比较在[9]中,他们给出了一种基于隐马尔可夫模型的语音识别系统中的同音异义体建模的在[10]中,他们研究了母语和非母语元音在学习过程中的相互影响,即:在非母语语音的短期视觉构音反馈训练之前和之后。为了获得说话人 Hossari 等 人 在 [12] 中 使 用 了 一 个 两 阶 段 级 联 模 型 , 使 用FacebookDavies等人提出了先进的计算机视觉方法,强调了过去5-10年中出现的机器和深度学习技术这本书提供了清晰的解释应用程序支持的原理和算法。在[15]中,法里斯提出了基尼指数和几个完整性的衡量标准1.2. 文件的贡献本文的主要贡献1可以概括如下:• 重点介绍了重音识别研究中的极限问题。在本文中,我们将表明,当涉及到口音分类时,存在一个这项工作的主要目的是解决这一限制并解决这一问题。• 突出法国的特质限制了深度学习模型的准确性值。在本文中,我们的工作重点是讲法语的人 我们决定研究说法语的人的语言习惯,这可以解释精度的下降。事实上,英语是印欧日耳曼语,而法语是拉丁语,这意味着它们的结构非常不同。因此,我们会发现两种语言之间非常相似的单词,但发音的方式往往会有很大的不同。因此,对这些拉丁习惯的研究在我们的工作背景下特别有趣:了解法语的哪些方面降低了我们模型的有效性,将使我们能够更好地识别法国口音。• 在光谱图中突出显示这些特异质的发生率,因此也突出显示所讨论的模型。一旦我们更清楚地分离出负责任的法国特质,我们就通过对所使用的声音样本的频谱图的精确研究来确定它们对所使用的模型(在我们的案例中是CNN)的真正影响。 在这种情况下,我们将比较同一个句子的不同语谱图,并确定“法语”和“英语”语谱图之间的差异1 本 着 可 复 制 研 究 的 精 神 , 本 文 中 用 于 复 制 结 果 的 代 码 在https://github.com/pberjon/Article-Accent-Recognition上共享。表1突出显示英语中法语的主要发音错误英语发音和法语发音短A,如脂肪法国口音:发音为“啊”,如父亲长A后跟辅音,如gate中的长A法国口音:发音类似get中的短eER在一个词的末尾,如在water法国口音:发音Air短的I,就像啜饮一样法语口音:发音为“ee”,如seep长I,就像风筝一样法国口音:拉长,几乎变成两个音节:[ka it]短O,如cot法语口音:发音为“uh”,如cut,或“oh”,如coatU在单词中,如full法语口音:发音为“oo”,如在傻瓜本文其余部分的结构如下。第2节讨论我们在初步研究中使用的数据和方法(数据集和神经网络),第3节讨论了我们用这些方法获得的结果。在第四节和第五节中,我们分析了法语使用者的本我特质及其对语谱图的影响。最后,第6节总结了本文的工作,并讨论了我们未来的工作。2. 关于法语使用者特质的初级读本在本节中,我们将向读者介绍法语使用者所表现出的各种言语特质2.1. 法语元音几乎每一个英语元音都受到法语口音的影响[10]。法语没有双元音,所以元音总是比英语的元音短。长A、O和U在英语中的发音,如say,so和Sue在法语中的发音类似于法语中的sais、seau和sou。例如,说英语的人把say发成[seI],双元音由一个长的“a”音和一个类似“y”的音组成。但说法语的人会说[se] --没有双元音,没有“y”的声音。英语中没有相近的法语元音的元音被其他元音系统地取代,如表1所示。2.2. 脱落的元音、音节化和单词重音法国人发所有的schwas(非重读元音)。母语为英语的人倾向于他们会把amazes法语经常强调动词末尾的-ed,即使这意味着增加一个音节:amazed变成以英语为母语的人往往会略过或吞下的简短单词,在以法语为母语的人那里总是会仔细发音。后者会说因为法语没有单词重音(所有音节都以相同的重音发音),所以说法语的人很难在英语中重读音节,并且通常会以相同的重音发音,比如实际上,这变成了“ahk chew ah lee”。或者他们可能会强调最后一个音节-特别是在两个以上的单词中:计算机经常说P. Berjon等人软计算快报3(2021)1000183∑1������������������L=1 =1���2.3. 法语重音辅音在法语中,H总是不发音,所以法国人会把happy读成appy。偶尔,他们可能会做出特别的努力,通常会导致一个过于有力的H音-即使是像hour和honest这样的单词,其中H在英语中是不发音的。 J的发音很可能像按摩中的G一样。R的发音要么和法语一样,要么是一个介于W和L之间的狡猾的声音。有趣的是,如果一个以元音开头的单词中间有一个R,一些讲法语的人会错误地加上一个(过于有力的)英语H在前面。例如,arm可以读TH• 清音TH []读作Z或DZ:“this "变成”zees"或“dzees "• 清音TH读作S或T:“thin "变成”seen"或“teen "在单词的开头和结尾应该是无声的字母(心理学,羔羊)经常发音。3. 口音识别系统3.1. 用于检测口音声谱图是声音的图形表示,我们可以用于语音识别[11]。纵轴代表时间,单位为秒,表2使用各种基准测试模型在不同语言中获得平均口音分类准确率。SVM和CNN模型整体ACC F1宏观F1微观汉明损耗SVM 0. 3518 0. 33458 0. 33458 0. 380432层CNN 0.70652 0.405 0.70652 0.29348四层CNN 0.6529 0.52 0.73913 0.26087在Steven H. Weinberger,最新版本的存档由乔治梅森大学托管,可以在这里找到:www.kaggle.com/rtatman/speech-accent-archive。[16个]4.2. 口音识别度量为了提供对口音识别任务的客观评估,我们计算了整体准确度、F1宏观、F1微观和汉明损失[17]。这些指标定义为:=������+(+)+(+)���������������1个=1个=1������������ − ��������������������������� ∗ ������������ − ���������������������纵轴表示频率,单位为赫兹。不同的颜色代表1=2微查准率+微查全率不同的频率在特定的时间。我们可以把L光谱图作为图像。图1表示样本语音单及其对应的谱图。一旦音频文件被转换为一个图像,这个问题减少到一个图像分类任务。基于图像的数量,支持向量机(SVM)等算法。 用来对声音进行分类,验证说话者的身份3.2.我们提出的检测口音我们使用了不同的机器学习和深度学习模型,第一个是具有5种不同口音的两个卷积层神经网络,如图所示。二、该神经网络是一个2层卷积神经网络:一个具有32个滤波器和一个ReLu激活函数,另一个具有64个滤波器和一个ReLu激活函数。我们将在剩下的工作中专注于这个2层CNN4. 结果和讨论4.1. 数据集每一个说一种语言的人,都带着口音。一个特定的口音基本上反映了一个人的语言背景。当人们听到别人用不同的口音说话时,他们会注意到这种差异,他们甚至会对说话者做出某些有偏见的社会判断。在本文中,我们使用了Speech Accent Archive [16]。它已经建立了统一的表现出大量的语音口音从各种语言背景。在五种语言的语音信号的分布表示图3 .第三章。英语母语者和非英语母语者都读同一段英语,并被仔细记录。这个数据集允许我们比较说话者的人口统计和语言背景,以确定哪些变量是每个口音的关键预测因素。语音口音档案表明,口音是系统的,而不仅仅是错误的语音。它包含2140个语音样本,每个样本来自不同的说话者阅读相同的阅读段落。他们来自177个国家,有214种不同的母语。每个谈话者都在用英语讲话的L =1∑∑,������,在总准确度公式中,tp、tn、fp、fn分别代表真阳性、真阴性、假阳性、假阴性。在汉明损失公式中,表示exlusive-or,���,(,)表示布尔值,即第个数据(第个预测)包含第个标签���表2展示了通过SVM技术和CNN模型的两个变体使用常规的机器学习方法如SVM,我们获得了0.35的低准确率。 正如预期的那样,深度学习方法的影响[14]在这里非常清楚。我们从表2中观察到,卷积神经网络达到了0.65的准确度。然而,我们观察到,如果我们在模型中使用太多的层,我们不会获得最佳分数。根据我们的数据集有多大,实现CNN架构。向任何CNN添加不必要的层只会增加较小数据集的参数数量。由于某些原因,在添加更多隐藏层时,提供更好的准确性。对于较大的数据集来说,这是正确的,因为具有较小步幅因子的更多层将为输入数据提取更多特征。在CNN中,我们如何使用架构完全取决于我们的需求是什么以及我们的数据如何。增加不必要的参数只会过拟合你的网络,这就是为什么我们的CNN有2层比4层有更好的结果宏观平均值将为每个类独立计算度量,然后取平均值(因此平等对待所有类),而微观平均值将汇总所有类的贡献 来计算平均度量。在多类分类设置中,如果我们怀疑可能存在类不平衡问题(即,与其他类相比,我们可能具有更多的一类示例),则微平均是优选的。表2清楚地解释了这种情况。我们观察到,神经网络在多类分类的背景下表现出更好的F1得分值。在这种情况下,汉明损失是模型性能的一个很好的衡量标准。汉明损耗越低,模型性能越好。在我们的情况下,汉明损失范围从0.26到0.39,这被认为是良好的结果,特别是在上下文中5类多类分类问题。一P. Berjon等人软计算快报3(2021)1000184Fig. 1. 一个法国口音样本的信号和声谱图。图二. 具有ReLu激活功能的2层CNN。P. Berjon等人软计算快报3(2021)1000185∑���表3使用SVM模型的多类分类度量值。SVM类ACCAGFAUCGI英语0.423910.217740.3678126437阿拉伯文2009年12月31日德国印地文0.95652 0.0 0.5 −0.01124表4使用我们提出的 2层CNN模型的多类分类度量值。2层CNN分类ACC AGF AUC GI英语1.0 1.0 1.0 1.0阿拉伯文法语德语印地文4.3. 多类口音识别度量在这种多类分类的情况下,我们考虑ACC、AGF、AUC和GI。=������+������+������+������+������A =(1 +12)������������������������������∗������������������(2)+���������������������������������������������������������������������������������������������������图3.第三章。 样本在数据集中五种语言之间的分布。5. 语言特性对语谱图我们现在将研究法语的特质以及它如何影响语音信号的相应频谱图声谱图是一种可以观察整体的表示法 将语音的分解频谱与语音的图示相同。该工具是精确的,信息丰富和可靠的分析,特性的声音生产 在 一 初切 分析我们将频谱图与时间节奏、功率曲线A == 1−���=12���2= 1和分割。 更广泛地说,有大量的指标、衡量标准和工具。这包括基频及其衍生物,声音和语音的变化,以及更普遍的可懂度评估它有能力衡量我们使用2层CNN和SVM方法在混淆矩阵中获得了这些结果:表3表明,阿拉伯语、印地语和德语口音的结果更好。这可以很容易地用对应于每个重音的数据集的大小来解释。这个结果很好地显示了经典机器学习算法的局限性。 在网络安全[18]和计算机视觉[19]的广泛领域中也观察到了经典机器学习模型的评估分数的这种限制。在口音识别的这个特定应用中,我们观察到声音样本数量的增加不会导致准确度值的增加。这种差异是由于缺乏支持向量机在处理像图像这样复杂的信息时有一定的困难。表4表明,不同口音之间的结果更加协调。我们仍然没有在数据集的大小和模型的性能之间实现完美的匹配,但是口音之间的差异消失了。我们可以从表3和表4中观察到,经典的机器学习方法效率很低,而深度学习方法在口音识别中非常突出;这就是为什么我们将使用2层CNN作为本文其余部分的参考。 在大多数情况下,支持向量机方法是不够强大,我们有一个很好的精度。这可以用我们在 基尼系数[15]。该指数获得的值非常低(负值被认为是非常低的正值),这意味着在SVM的情况下,频谱图在性质上是相似的。等 SVM方法的选择性不足以清楚地确定重音(这也由AGF值显示)。 然而,SVM方法并不完全被排除在外:在印地语口音或德国口音的背景下,SVM比所有使用的深度学习方法都更有效。当我们提出的方法计算时,总的计算时间为1 min 23 s。模型在Google Colab上使用GPU执行我们会感兴趣的声音变化我们将主要关注频谱图给出了两条信息:我们研究中的振幅和频率。5.0.1. 不带双元音的首先,我们将分析单词“星期三”的声谱图的差异,其中法语使用者不应该使用“y”的声音,就像在法语元音中解释的那样。 下面是一个英语人和一个法语人在听到“我们星期三去火车站见她”这句话时的声谱图。图 4和图 五、我们可以看到,正如预期的那样,在单词的末尾(英语为1.3-1.4,法语为1.05-1.1实际上,在整个音频样本中使用的频率相对相似,但某些音节被法语使用者以高得多的频率按压因此,相应的振幅将在幅度上较低这就解释了说法语的人和说英语的人对一个词的感知之间的明显差异:非母语的人往往会把英语发音得不那么大声,但会比说英语的人更支持某些音节5.0.2. 清TH []读作Z或DZ法国人喜欢说“zees "而不是”these“。 这就是我们在句子在这句话中界定单词“these”是相当复杂的,在这里,我们看到说法语的人倾向于贬低 但是一P. Berjon等人软计算快报3(2021)1000186见图4。 ‘‘Wednesday’’ in English version:图五. ‘‘Wednesday’’ in French version:见图6。 ‘‘Bring these’’ in English version:见图7。 ‘‘Bring these’’ in French version:频率(见图) 6和图7)。我们注意到,这就是为什么对于说法语的人来说,“th”听起来像“z”。 事实上,在法语中最接近th的音它们是文章,在法语,他们倾向于强调最重要的部分, 这句话,使这位法语发言者减少因此,法语使用者的特质对音频样本频谱图有直接影响。然后,我们可以很容易地理解为什么这些id-iosyncasies对深度学习模型的结果有直接影响P. Berjon等人软计算快报3(2021)1000187我们使用频谱图来开发语音识别系统的第一个原因是将音频分类问题转化为图像分类问题。然后,如果一种特定语言的特质对语谱图有这么大的影响,这意味着不同的语言有不同的语谱图,这应该有助于深度学习模型在英语和法语之间获得更好的分类。6. 结论和今后的工作在本文中,我们得出结论,经典的深度学习模型不足以准确预测用户的口音。因此,我们决定研究声调语言和非声调语言之间的差异,以便清楚地识别阻碍我们在口音识别中取得更好结果的障碍。为了实现这一目的,我们决定对法语口音进行分析,这是一种非音调语言。在本文中,我们研究了法语使用者的特质:法语口语的特点对法语使用者的英语单词发音有直接影响。此外,我们还确定了这些特质对频谱图的影响,以及对深度学习模型准确性的影响。在未来,我们希望通过建立一个模型来确定音频样本中是否存在一种特质,从而进一步研究法语特质。这将使我们能够更容易地确定音频样本中是否存在法国口音。这种对语音信号中的口音的准确识别将导致更好的自动语音识别系统。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢ADAPT数字内容技术中心由爱尔兰SFI研究中心计划资助(赠款13/RC/2106_P2),并由欧洲区域发展基金共同资助引用[1] O. Omidvar,J. Dayhoff,《神经网络与模式识别》,牛津大学出版社,1996年,pp. 23比26[2]M.S.伊斯兰,E. Hossain,Foreign exchange currency rate prediction using aGRU-LSTM hybrid network,Soft Comput. Lett.(2020)100009.[3]H.Y.公司Raji-Lawal,A.T.阿金瓦莱岛Folorunsho,A.O.陈晓,决策支持系统在老年痴呆症患者中的应用,北京大学学报,2000。Lett. 2(2020)100005.[4] J.Wu,F. Orlandi,T. Alskaif,D. O'Sullivan,S. Dev,分散式家庭能源系统的本体建模,2021年智能能源系统和技术国际会议,SEST,IEEE,2021年。[5]K. Berkling,J. Vonwiller,C.范围,音节核心和外围评估:自动音节化和外国口音识别的应用,语音通讯。35(2001)125[6]S. Awang,M. Maros,N.第二语言学习者交际策略使用的语言特质, 亚 洲 社 会科 学 院 。Sci. 11(2015)55[7] I. Kardava,J. Antidze,N. Gulua,解决语音识别系统的口音问题,Int. J. 信号处理。系统4(2016)235[8]B. Katarina , D. Jouvet , 用 于 自 动 语 音 识 别 的 外 国 口 音 的 自 动 检 测 , 在 :Proc.16th Int.Con.Phon。Sc.,2007年,第页。2185-2188[9]D.茹韦湾Bartkova,J.Monné,基于HMM的语音识别系统中的音位变体模型化,第二届欧洲语音通信与技术会议,1991年。[10] N. Kartushina,A. Hervais-Adelman,U.H. Frauenfelder,N. Golestani,母语和非母 语元 音在 产生 中的 相互 影响 : 来自 短 期视 觉发 音反 馈训 练的 证据 ,J。Phonetics 57(2016)21-39.[11] J.Yanjie,X. Chen,J. Yu,L. Wang,Y. Xu,S. Liu,Y.王,基于特征谱图和改进的自组织特征映射神经网络的 说 话 人 识 别 。系统(2020年)。[12] M. Hossari,S. Dev,J.D. 凯莱赫, 测试: 一 术语 提取 系统 对于技术相关的术语,在:2019年第11届计算机和自动化工程国际会议论文集,2019年,pp.78比81[13] A. Joulin , E. 作 者 : Grave , P. Mikolov , Bag of tricks for efficient textclassification,2016,arXiv preprintarXiv:1607.01759.[14] 急 诊 室 Davies , O. 坎 普 斯 湾 Turk , Advanced Methods and Deep LearninginComputer Vision,Academic Press,2021,pp. 441-452.[15] F.A. Farris,The Gini index and measures of inequality,Amer. Math. Monthly117(2010)851-864.[16] S.温伯格,语音口音档案。乔治梅森大学。该数据集在ccby-nc-sa 2.0许可证下发布,2013年。[17] S. 德夫,H。Javidnia,M.Hossari,M.Nicholson,K.McCabe,A.瑙蒂亚尔角康伦J.Tang,W. Xu,F. Pitié,识别广告植入的候选空间,2019年IEEE第7届计算机科学和网络技术国际会议,ICCSNT,IEEE,2019年,pp. 503-507[18] M.S. Elsayed,N. A. Le-Khac,S. Dev,A.D. Jurcut,用于检测SDN中攻击的机器学习技术,2019年IEEE第7届计算机科学与网络技术国际会议,ICCSNT,IEEE,2019年。[19] M.贾恩角,澳-地Meegan,S. Dev,使用GANs来增强云图像分割任务的数据,在:2021 IEEE国际地球科学和遥感研讨会,IGARSS,IEEE,2021。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功