印尼语音素化：词干和音位规则改进及效果评估

164 浏览量更新于2024-01-17 收藏 807KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报词干和音位定位规则改进基于n-gram标记的印尼语音素化Suyanto Suyantoa， Andi Sunyotob，Rezza Nathanismaila，Ema Rachmawatia，Warih Maharaniaa印度尼西亚万隆Telkom大学计算机学院b印度尼西亚Amikom Yogyakaran大学计算机科学系阿提奇莱因福奥文章历史记录：收到2020年2020年12月20日修订2021年1月8日接受2021年1月14日在线提供保留字：印尼语n-gramPhonotactic rules词干A B S T R A C T音素化（phonemicization）或字素到音素转换（grapheme-to-phoneme conversion，G2 P）是将一个单词转换成其发音的过程它是语音合成、语音识别和自然语言处理的重要组成部分之一基于深度学习（DL）的最先进的G2P模型通常为高资源语言（例如英语和欧洲语）提供低的音素错误率（PER）以及单词错误率（WER），但不为低资源语言提供。因此，一些传统的基于机器学习（ML）的G2P模型与特定的语言知识相结合，是更可取的低资源的语言。然而，由于各种问题，这些模型对于一些低资源语言来说很差例如，印度尼西亚的G2P模型对根很有效，但对衍生品的PER很高偏误主要来自于词根和派生词中含有四个前缀的歧义：hbe ri，hmengi，hpengi和hte ri。在这项研究中，印尼G2P模型的基础上结合词干和音位规则（NGTSP）提出了解决这些问题。一项基于5折交叉验证的调查，使用50 k印度尼西亚语单词，告知建议的NGTSP给出了比最先进的基于Transformer的G2P模型（1.14%）低得多的PER 0.78%此外，它还提供了一个更快的处理时间。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍音素化（ phonemicization ），也称为字素到音素转换（G2P），通常被定义为将单词（字素序列）转换成其发音（音素序列）的过程。字素是书写系统的一个单位（如字母或有向字）。同时，音素是区分一个单词和另一个单词的最小语音单位。例如，单词“cab”中的音素/b/将*通讯作者。电子邮件地址：suyanto@telkomuniversity.ac.id（S.Suyanto），andi@amikom.ac.id （A. Sunyoto ）， zafitract@student.telkomuniversity.ac.id （ R.N. Ismail），emarach-mawati@telkomuniversity.ac.id（E.Rachmawati），wmaharani@telkomuniversity.ac. id（W. Maharani）。q 这项研究由研究和技术部 / 国家研究和创新机构（ Kementerian Riset danTeknologi/Badan Riset dan Inovasi Nasional或KemenRistek/BRIN）按照世界级研究计划提供全额资助。“can”“cap”和“cat”音素化在自动识别语音中起重要作用（Emiru等人，2019），合成语音（Achanta等人，2016; Hadj Ali等人，2020），开发音素音节化模型（Stan，2019; Suyanto等人，2016）以及语音和语言学领域的许多其他应用（Švec et al.， 2018年）。G2P可以使用基于规则的方法、传统的基于ML的方法或基于DL的方法来开发。这些方法的特点通常是基于语言的音位规则的复杂性，这反映了字素和音位之间的关系有多密切。基于规则的G2P模型通常对一些简单的语言有很高的性能，这些语言具有低的音位规则，除了少数例外，使得字素与音素密切相关（如印地语和阿拉伯语），但它对复杂的语言产生低准确性。在Patil等人（2019）中，据报道，基于印地语规则的G2P分别提供了0.20%和0.62%的低音素错误率（PER）和低单词错误率（WER），这与基于决策树（DT）的传统ML竞争，后者在10，713个印地语单词的小数据集上分别产生了0.07%和0.48%。在Al-Daradkah和Al-Diri（2015）中，一个基于阿拉伯语规则的G2 P在3,440个单词中获得了0.81%的PER在本文中，PER是https://doi.org/10.1016/j.jksuci.2021.01.0061319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comS. Suyanto，A.Sunyoto，Rezza Nassa Ismail等.沙特国王大学学报3808××hihihihihihihihihihihihi我爱你喜喜我爱你音素级别的错误率，计算方法为音素错误数除以测试集中出现的音素总数。同时，WER是单词级别的错误率，其计算方法是单词错误的数量除以测试集中出现的单词总数。传统的基于ML的G2P模型通常可以达到可接受的错误率，即使对于一些使用低计算资源的相当复杂的语言。在Rugchatjaroen et al.（2019），条件随机场（CRF）的两阶段处理成功将一个大型泰语单词数据集转换为其发音，WER为9. 94%。在Hlaing和Pa（2019）中，联合序列模型为缅甸的大型数据集分别产生了1.7%和10.0%的PER和WER。在Chen（2020）中，基于动态有限泛化（DFGA）的英语G2P在27，040个单词的数据集上分别实现了6.86%和26.49%的PER和WER。同时，基于DL的G2P模型通常为世界上大多数语言提供最先进的性能。它能够很好地推广序列到序列数据集。例如，在Hlaing和Pa（2019）中，对于一个大型缅甸数据集，基于Transformer的G2P给出的PER和WER分别为1.8%和10.4%。在英语中，基于卷积神经网络（CNN）和双向长短期记忆（BiLSTM）的G2P模型对于CMUDict数据集获得4.81%的PER和25.13%的WER（Yolchuyeva等人，2019年）。该模型包含两个组件：编码器（使用具有残差连接的CNN）和解码器（使用Bi-LSTM）。此模型可以处理短（少于六个字符）、中（六到十个字符）和长（超过十个字符）单词。换句话说，它在所有范围依赖性上都表现良好。此外，它给出了更多的音素错误在前半部分的一个词比在后半部分。一个单词前半部分的错误会降低下半部分的准确性。一个单词前半部分的正确音素并不会增加第二部分的准确性（Yolchuyeva等人，2019年）。基于Transformer 4的另一模型对于CMUDict 数据集实现了 5.23% 和 22.1% 的相似 PER 和 WER（Yolchuyeva等人，2019年）。最后，在Liu et al.（2020）中，一种关于目标双向RNN的新协议为数据集产生了5.00%的竞争PER和21.2%的最低WER它比CNN-BiLSTM和Trans- former 4 4更在某些情况下，基于DL的G2P可以应用于低资源语言（Jyothi和Hasegawa-Johnson，2017）。此外，它还可以大量用于多语言G2P模型（Peters，2017）。不幸的是，它需要高计算资源来训练数百甚至数千个epoch的模型。因此，它应该通过考虑可用数据集的大小来开发。对于低资源语言，如印度尼西亚语，它可以使用基于规则或传统的基于ML的方法来构建。相反，对于高资源语言，如英语和欧洲语，最好使用基于DL的方法进行开发。然而，可以创建三种方法的组合。一些特定的语言规则可以结合到传统的ML或DL中，以获得更好的性能。例如，在Sar和Tan（2019）中，应用高棉语的语言知识提高了加权有限状态转换器（WFST）的性能，其中PER可以从23.2%降低到11.1%。在Stan（2019）中，将音节化和词汇重音插入序列到序列罗马尼亚语G2P中，获得了相对较低的PER，高达0.38%。同时，在印度尼西亚语的情况下，将一组音位规则组合到基于伪最近邻规则（PNNR）的G2P中对于50 k个单词实现了0.93%的低PER（Suyanto等人，2016年）。音节组合要点（音节之间的边界，例如单词“con.clu.sion”具有将单词分成三个音节的两个音节化点：“con”、“clu”和“sion”）。PER为0.83%（Suyanto，2019）。然而，由于某些词根和派生词含有四个前缀：ber、meng、peng和ter，因而产生了许多歧义。这些前缀生成许多与词根具有转换歧义的词（Suyanto 等人， 2016），如词根"berang"中的字素h e i（irascible）读作/e/，但e在派生词"berangin"（windy）中被转换成/e/，因为"ber"是基本词"angin"（windy）的前缀，而angin总是读作/b r/;词根'meman g'中的字素h e i（确实）读作/e/，但e在派生词"memangsa"中（toprey）被转换成/mangsa/，因为"me"是基本单词"mangsa"（prey）的前缀，发音为/m/;词根'peroksida'中的字形h e i（peroxide）读作/e/，但在派生词perokok中e（smoker）被转换成/烟/，因为' pe'是基本单词' rokok'的前缀（香烟）总是读作/p/的;基本字" pering"中的字素h e i（tuberculos is）表示为/e/，但是在派生词" teringat"（记住）中的e被转换成//，因为" ter"是发音为/t r/的基本词" in-gat"（记住）的前缀。这些情况下的gra- pheme序列是具有挑战性的解决使用传统的ML和DL。此外，印尼语中的词缀创造了许多长词。一个前-对语言中心（Pusat Baidu）开发的第三版《印度尼西亚语大词典》（Kamus Besar Baidu Indonesia，KBBI）中收集的5万个词的数据集进行了初步研究，结果表明，印度尼西亚语平均每字8.02字。数据集包含多达401 k个字符，包括一个破折号符号，其中385 k是字素（26个字母）：a到z。此外，表1说明了（26个中的）8个语法素及其可能的音素，这是Suyanto等人（2016）详细观察的一部分，在印度尼西亚G2P的情况下最具挑战性。同时，其他18个字素没有在这里列出，因为它们很容易使用简单的规则转换成两个可能的音素，甚至转换成一个音素。从表中可以看出，在低于1 k的其他三个音素：/a/、/af/和/+/中，字素a最常发音为//（高达54 k）。然而，关于双元音存在一些问题，双元音是一种滑动元音，在其发音中存在从一个位置到另一个位置的连续过渡，例如包含在单词“ice”和“out”中的元音分别被表示为双元音/a f/和/ a f /。在印度尼西亚语中，字素a后面跟着字素i，它产生一个字素序列ai并不总是转换成双元音/a/，但它也可以读作/a/或/+/，没有一定的规则。例如，幸运的是，有一个音位限制，即字素序列ha ii不可能发音为音素/af/。这些事实表明，字素a是相当具有挑战性的转换成正确的音素。同时，字素e可能被转换成五个不同的音素：/e/、//、/e/、/e+/和/+/。将字素e转换为音素/e/或//可能更具挑战性，因为它们动态变化，没有特定的规则，并且它们的频率很高：高达10.49%（分别为2.56%和7.93%）。它们来自词根和派生词（由其他词或词根构成的词，如由词根concluded派生的结论）的歧义，这些词包含四个前缀：ber，meng，peng，ter。因此，在Suyanto等人（2016）中，据报道，将字形e转换为/e/和//会导致许多错误。S. Suyanto，A.Sunyoto，Rezza Nassa Ismail等.沙特国王大学学报3809×hihi喜喜伊希伊希嗨嗨嗨表1八个印尼字素及其在国际音标（IPA）中的可能发音，频率以及在50 k单词中的百分比，其中符号* 是一个空白（没有音素），这是改编自Suyanto等人。（2016年）。石墨烯IPA频率百分比一ɑ54,859百分之十四点二三一阿979百分之零点二五一aF6240.16%一+6690.17%ee9,8512.56%eə30,5547.93%e埃290.01%ee+360.01%e+193百分之零点零五GG6,4921.68%G*11,5132.99%我我26,6856.92%我*1,0470.27%我i+300.01%KK21,7845.65%KX2170.06%K*190.00%nn22,1435.74%nN11,7793.06%nɲ3,7410.97%Oɔ13,763百分之三点五七Oɔɪ560.01%O+600.02%uu17,9264.65%u*6230.16%uu+190.00%接下来，字素g可以任意转换为/ g/或/*/，没有明确的规则。字素i前面有一个字时，也可以随机转换为/i/或/*/三个字素：a，e和o，没有特别的规则。Fur-，其他四个字素：k，n，o和u，也给了一些关于音位限制的挑战。在这项研究中，一个新的ML为基础的印尼G2 P模型称为n-gram结合词干，音位规则，和sylabification点（NGTSP），提出了解决这些问题。最先进的G2P模型之一，使用Transformer还研究了Yolchuyeva等人（2019）中描述的4 4，以确认NGTSP性能。2. 研究方法所提出的NGTSP模型如图1所示。将音节化点并入输入字素序列中，因为它可以降低PER并解决派生词的模糊转换（Suyanto，2019）。本研究中使用的数据集由50 k音节化的印度尼西亚语单词组成，与Suyanto（2019）相同，因为这些单词是从KBBI中收集的，所以具有足够的代表性。n-gram标签器是一种实现隐马尔可夫模型（HMM）的标签器，该模型基于最大化的条件概率对项目进行标记，该条件概率取决于先前标签出现的固定上下文大小（在本研究中，标签器将字素标记为音素标签），该标签器改编自印度尼西亚音节化中使用的标签（Ismail和Suyanto，2020），原因有两个：1）它提供了低错误率，具有高效的过程，以及2）它以类似于G2 P任务的方式工作。在音节化任务中，n-gram标记器是一个二元类模型，它只是将给定的字素序列分为两类：“音节化点”和“非音节化点”。同时，在G2P任务中，它应该是一个多类模型，因为一个字素可以转换为三个或更多的可能的音素。因此，如下介绍一些修改第一、Fig. 1.本文提出的基于n音节化点被识别为字符，并且被包括在标签编码中，该标签编码是将字素转换为音素标签的标签状态生成。在这种情况下，标记是字素的对应音素。这些标签被按顺序放置，顺序基于它们在训练数据中的相应外观。标签序列类似于S. Suyanto，A.Sunyoto，Rezza Nassa Ismail等.沙特国王大学学报3810hi-喜喜喜喜喜喜Ih我1hi1hihi11Y111第1页1jt1页1111/1在标注过程中使用维特比算法。然后，状态消除过程，即移除包含违反所建立的规则的一个或多个标签的状态的过程，适于实施表2中列出的十五个音位规则，其改编自Suyanto等人。（2016年）。在这种情况下，规则基于标签中的对应音素是否是不可能音素（IP）。最后，在条件概率计算中使用发射概率，因为存在对应于多于一个字素的音素，例如可以由字素hfi或hvi表示的音素= f=。2.1. 产生词干化是将一个词形变化或派生词还原为其词根（词根或词干）形式的过程，例如派生词在这项研究中，使用称为CS Stemmer的前缀剥离方法进行词干提取，这是一个使用根词词典基于出现顺序去除confix（单词中前缀和后缀的组合）的过程（Adriani et al.， 2007年）。这种词干提取模型（stem-mer）可以将词根与包含前缀和后缀的特定组合的派生词分离。例如，单词然而，由于输入由音节化的字素序列组成，词干分析器被修改以考虑音节化点。某些词缀可能会根据词根的不同而有不同的音节。例如，词根"ambil“（取）中的前缀meng可以音节化为me.ng或meng。.词干分析器需要考虑所有词缀的所有可能的音节化。2.2. 标签编码来自输入的每个字素可以具有一个或多个对应的音素标签。例如，字素序列hai具有四个可能的音素：==;=a=;=af=和=+=，因此可以被编码为四个不同的标签。基于来自输入中的每个字素的所有可能的音素，生成包含长度为k的音素标签序列的状态，其中k是n-1，并且n是n-文法的顺序大小如示于图2、每个状态下的音素标签序列是来自输入单词的所有可能的音素标签序列组合之一的子集。还要注意的是，由于输入是音节化的字素序列，所以音节-图二、来自输入单词“”www.example.com“（liquid）的每个字素的标记编码ca.ir对于在词干提取步骤获得的词缀，字素到音素编码对于每个字素是一对一的，因为对于词缀中包含的每个字素只有一个可能的音素。例如，前缀meng的音素序列总是mN *，而与单词无关。因此，即使字素e最初可以被编码为五个不同的音素，它也将仅被编码为单个音素==。2.3. 基于语音规则的状态消除在印度尼西亚语音素化中应用音位定位规则可以显着降低PER，如Suyanto等人所示。（2016）。表2中列出的相同的语音定向规则通过使用Ismail和Suyanto（2020）中描述的状态消除来使用。状态消除被修改为识别不可能音素（IP），这是由于语言中的音位规则而不能是给定字素的发音的音素对于来自输入的给定字素的每个可能的音素，基于前一个字素和下一个字素来决定音素是否是IP 如果标签包含一个或多个IP，则将丢弃该标签。例如，状态haf，. i在Fig. 2包含音素=af=。基于第二音位规则，音素=af=是IP，因为对应的字素ha i的下一个字素是hii，而不是hui。2.4. n-革兰氏标记器为了从输入中生成最佳音素序列，标记器使用一致性概率和维特比算法（Ismail和Suyanto，2020）找到最可能的音素标记序列，维特比算法是一种动态编程算法，可有效地处理许多可能的隐藏状态序列对于音素序列gn<$g1;g2; ··· ;gn，标注器将找到最佳音素标签序列tn<$t1;t2; ··· ;tn，其最大化Ptnjgn的条件概率，其公式为化点也被编码到它自己的标签中。argmaxtnPtnjgn argmaxtnPtnPgnjtn：1表211 111 1 1十五个音位规则，改编自Suyanto等人。（2016）以减少潜在的音素，其中G是字素，P是音素列表，L1和R1分别是左侧和右侧的第一个上下文字素数规律1如果G=hai且R1R{hii，hyi}则PR{/ai/}2ifG=hai且R1R{hui，hwi}则PR{/af/}3如果G=hei且R1R{hii，hyi}则PR{/ei/}4如果G=hei且R1R{hai，hei，hii，hoi，hui}，则PR{/e+n/，/e+ n/}5ifG=hgi且L1R{hni}则PR{/*/}6如果G=hii且L1R{hai，hei，hoi}则PR{i * i}7如果G=hii且R1R{hai，hei，hoi}则PR{i+hi}Ptn是音素标签序列tn的概率，其中通过使用马尔可夫假设，每个标签ti取决于k个这意味着k是上下文大小（在概率计算中考虑的标签数量）。因此，Ptn可以用公式表示为n联系我们Ptijti-k; ···;ti-1：21/1对于每个音素标签ti，发出字素gi的概率是发出概率Pgijti。所以Pgnjtn可以公式化为8如果G=hki且R1R{hhi}则PR{/x/}9ifG=hni且R1R{hci，hji，hsihyi}则PR{/n/}10若G=hni且R1R{hgi，hki}则PR{/N/}11若G=hoi且R1R{hii，hyi}则PR{/pi/}1 1n n Y12如果G=hsi且R1R{hyi}则PR{/n/}13如果G=hui且L1R{hai}则PR{/*/}14若G=hui且R1R{hai，hei，hoi}则PR{/u+H/}如果G=hyi且L1R{hni，hsi}，则nPR{/*/}通过将EQ。（2）Eq.（3）在Eq.（1），找到字素序列gn的最可能音素标签序列tn的最终公式如下n发布日期：2013年12月S. Suyanto，A.Sunyoto，Rezza Nassa Ismail等.沙特国王大学学报3811n你好，¼¼¼¼¼11我我我J1I1argmax pnjgnYPtjt1/1; ··· ;t联系我们联系我们：404404404的WER。接下来，进行了一些详细的调查，查看导致WER的因素。最后，还仔细研究了处理时间。正如Ismail和Suyanto（2020）所解释的那样，广义修正Kneser-Ney（GKN）（Shareghi等人，2016）被用作平滑技术（一种更准确地计算概率以交易与数据稀疏性在的数据集）到计算等式（4）中的Pti ii-ktii-1。GKN具有折扣界参数B，其作用是确定平滑过程的折扣参数的数量。最后，利用维特比算法来优化音素标签序列，因为它是一种动态规划算法，其通过在下一次计算中重用计算结果来有效地找到最高得分路径以节省时间，如图1所示。3.第三章。来自输入的每个字素表示单个时间状态。每个时间状态具有来自编码的表示当前字素和k个先前字素的对应状态集合给定一个特定的状态Si，到另一个状态Sj的转换是转换概率Aij，它是条件概率Ptkjtk。每个状态也有发射概率3.1. 参数优化如Ismail和Suyanto（2020）所述，n-gram标记器需要调整两个参数，即n-gram阶数n和discount界B。如图4所示，n-gram标记器（NGT）、具有词干分析器的n-gram标记器（NGTS）、具有音位趋化规则的n-gram标记器（NGTP）以及具有词干分析器和音位趋化规则的n-gram标记器（NGTSP）的最佳n值都是n =7.图5显示NGT、NGTS和NGTP的最佳B值为19，而NGTSP的最佳B值为18。PER在B16处出现尖峰，因为具有延续计数16的唯一文法的数目对于较低阶的6-文法来说异常低.折扣界限（B）处的低唯一克计数使得折扣太小并且影响概率计算。这种失范-aly只发生在折叠1，2和3，导致他们的PER相当Pgnjtn的概率，表示做出某些观察结果的概率比第4和第5折叠高11。B值限制在19，在这种状态下的一个字素的变化。维特比算法产生具有最大概率的音素标签序列的最佳路径。3. 结果和讨论所有开发的G2P模型都使用基于5重交叉验证的50 k Indonesian词进行评估，这是一种重新创建程序，用于创建五个新数据集，通常用于在有限的数据集上评估机器学习模型，以防止意外结果。将50k字的原始数据集随机划分为五个子集或折叠（每个子集或折叠包含10k个唯一字）。因此，创建了五个新的数据集。第一个新数据集由用于训练模型的Fold 1到4和用于测试训练模型的Fold 5组成;第二个包含用于训练的Fold 1，2，3和5以及用于测试的Fold 4，依此类推，直到第五个数据集。首先在没有词干分析和音位趋化规则的情况下对n-gram标注器进行评估。然后，分别对词干规则和音位规则在n-gram标注器中的添加进行了评估.最后，用词干分析器（stemmer）（词干分析模型）和语音规则（phonotac- tic rules）（定义在语言中哪些声音序列是可能的以及哪些其他声音序列是不可能的知识）来评估n元语法标记器。通过实验对四种模型的参数进行了优化。最佳模型，然后比较国家的最先进的基于变压器的G2P模型使用PER模型根据Shareghi等人（2016）中描述的GKN折扣公式，对于B i，n元语法模型需要至少有一个频率为1到i的唯一元语法项。由于对于n7，在模型中没有频率为20的克项，因此B20在折扣值计算中给出除以零的计算误差。3.2. 模型的比较所有 G2P 模型使用这些最佳参数产生的 PER ，以及与基于Transformer的G2P模型的比较，如图6所示。NGT产生的平均PER为1.21%，标准差（STD）为0.02%。NGTS中的词干合并器使PER降低了10.06%，平均PER为1.09%，STD为0.03%。在NGTP中简化趋声规则使平均PER降低到0.79%，STD降低到0.02%。在NGTSP中结合词干规则和音位趋化规则，相对减少高达35.93%，达到最低的平均PER为0.78%，STD为0.02%。然而，该结果与NGTP产生的结果没有显著不同。详细的调查发现，派生词的比例仅占测试集的16%，这主要可以通过执行音位规则来解决。最后，基于Transformer的G2P模型产生了更差的性能，其中平均PER要高得多（高达1.14%）并且不稳定（具有更大的STD 0.20%）。图三. 输入单词“www.example.com“的维特比算法的可视化ca.ir不不n1n1i-ki-1S. Suyanto，A.Sunyoto，Rezza Nassa Ismail等.沙特国王大学学报3812见图4。 NGT、NGTS、NGTP和NGTSP的平均PER，对于不同的n，B1/43。图五. NGT、NGTS、NGTP和NGTSP的平均PER，对于不同的B，n¼7。见图6。由NGT、NGTS、NGTP、NGTSP和基于Transformer的印度尼西亚G2P模型生成的PER。同时，所有G2P模型的WER以及与基于Transformer的G2P模型的比较如图7所示。NGT产生的平均WER为8.77%，STD为0.19%。NGTS中的词干子使WER降低了10.06%，平均WER为7.88%，STD为0.22%。趋声性NGTP中的规则将平均WER降低为5.74%，STD为0.20%。在NGTSP中结合词干规则和音位趋化规则，相对减少了35.70%，获得了最低的平均WER为5.64%，STD为0.22%。最后，基于transformer的G2P模型表现出更差的性能，其中S. Suyanto，A.Sunyoto，Rezza Nassa Ismail等.沙特国王大学学报3813hihihi喜喜嗨嗨嗨见图7。由NGT、NGTS、NGTP、NGTSP和基于Transformer的印度尼西亚G2P模型生成的WER。平均 WER 高得多（高达 8.20% ）且不稳定（具有更大的 STD（1.46%））。3.3. 对WER的此外，四个详细的调查，关于NGT和NGTSP产生的WER看到词干和音位规则的影响。基于5倍交叉验证数据集，NGT和NGTSP平均产生897和572个单词错误，分别获得8.77%和5.64%的WER，如图7所示。首先，在一个词的音素错误的数量进行评估，看看他们对WERs的影响。三个词的类别的WERs的贡献进行了调查。接下来，研究了字素e和其他字素的贡献。最后，四个前缀的影响对WERs的影响也进行了研究。第一次调查表明，NGT和NGTSP产生的WER主要来自一个音素错误的词（超过90%）和两个音素错误的词（超过8%）。同时，一个低的（小于1%）WER来自三个和四个音素错误的单词。然而，NGTSP给出了略高的WER从一个音素错误的话，但它得到略低的WER从两个，三个，四个音素错误的话。这些结果解释了为什么WER（35.93%）的相对减少略小于PER（35.70%）。数据集中的50k个单词被分类为短、中和长，它们被定义为少于六个字符、在六个和十个字符之间以及多于十个字符（Yolchuyeva等人，2019年），其百分比分别为19.90%、62.48%和17.62%。调查表明，NGT和NGTSP产生的WER大多数（分别为62.99%和63.32%）都是来自于中介词。短词和长词都给出了令人兴奋的结果，其中NGTSP对于短词给出了比NGT（19.44%）更高的WER（24.02%），但对于长词，它达到了比NGT（17.57%）低得多的WER（12.67%）。进一步的研究表明，NGTSP能够解决由音位限制和四个前缀（包含在长词中）引起的词错误。由NGT推出。NGT产生的WER的很大一部分来自对应音素=e=或==的字素e，其贡献高达90.31%。音素=e=和==可以互换使用，不受任何音位规则的限制。而与音位制约因素有关的其他字素对WER的贡献率仅为9.69%。在NGTSP中，e字素对WER的贡献率高达96.28%，而其他字素的贡献率仅为3.72%。这一结果表明，语音规则，这是作为一个国家消除程序纳入NGTSP，可以解决关于声定向约束的许多错误。此外，NGTSP中使用的词干提取器还解决了与四个前缀：ber，meng，peng和ter中包含的字形e有关的一些错误这些事实证明，词干规则和音位规则的结合，这是主要的贡献的这项研究，可以显着降低WER产生的基线NGT模型。详细的观察，然后进行的WERs，来自音位结构的限制和前缀。结果表明，NGT产生的WER中只有11.76%（897个词中的104个）来自四个前缀，88.24%（897个词中的793个）来自词根中的音位约束与此同时，NGTSP中的词干规则和音位规则显著减少了错误率，其中只有 1.51% （ 9/572 ）的 WER 来自四个前缀， 98.49%（563/572）的WER来自词根中基于这一事实，它可以暗示，词干是成比例地更有效地减少WER比音位规则。然而，由于错误来自音位结构的限制是远远超过前缀，它可以说，在NGTSP中使用的音位结构的规则贡献更多的WER衰减比词干。3.4. 处理时间训练和测试都运行在英特尔酷睿i5- 8300 H处理器和8 GB的DDR4与GPU NVidia Geforce GTX 1050Ti。在训练过程中，四个G2 P模型：NGT、NGTS、NGTP和NGTSP使用相同的7-gram模型，训练时间约为6 s平均40 k字，比基于transformer的G2 P模型快得多，后者需要72,080s（20 h），如表3所示。四个n-gram模型在一遍过程中线性地工作，以从40 k个单词的给定训练集开发7-gram，而Transformer迭代地工作两千个epoch。这三个模型：NGTS，NGTP和NGTSP，需要与NGT相同的时间，因为它们不需要任何训练过程来开发词干和/或音位规则。相反，表3NGT、NGTS、NGTP、NGTSP和基于Transformer的G2P模型在5重交叉验证数据集的训练和测试过程中的平均处理时间，其中训练时间是针对40 k单词计算的，测试时间是针对10 k单词计算的。模型训练时间（秒）测试时间（秒）NGT6128NGTS698NGTP616NGTSP620Transformer72,08037S. Suyanto，A.Sunyoto，Rezza Nassa Ismail等.沙特国王大学学报3814词干分析器和音位定位规则使用预先定义的词典和由语言学家手动开发的规则来实现在测试过程中，四个n-gram模型需要更多的时间比在训练一个，因为他们应该找到最好的音素组合使用维特比算法。然而，它们需要不同的平均时间来测试每个折叠中的10k个单词。NGT是最慢的一个（10k字128秒），因为它在所有的音素组合搜索NGTS稍微快一些（10 k单词为98s），因为通过提取一些派生单词减少了音素组合的数量。NGTP是最快的一个（10 k字16秒）的音素组合的数量显着减少的音位规则。同时，由于词干分析器的字典查找时间，NGTSP需要多一点但是，它比Transformer快得多（10 k字37秒）。因此，结果得出结论，所提出的 NGTSP 是更有效的比基于transformer的G2P在训练和测试过程。在实现和参数整定过程中，它也比Transformer简单得多4. 结论基于n-gramtagger结合词干分析和音位趋化规则（NGTSP）的印尼语G2 P模型已经成功开发。使用5万个单词的5折交叉验证表明，该词干可以将平均PER降低10.06%（从1.21%降低到1.09%）。同时，趋声规则使平均PER降低到0.79%。结合词干规则和语音定向规则，相对减少率可达35.93%和35.70%，平均PER和WER最低，分别为0.78%和5.64% （标准偏差分别为 0.01% 和 0.04% ）。这个结果比基于Transformer的G2P模型更低，更稳定，后者是最先进的深度学习模型之一，其平均PER和WER分别为1.14%和8.20%，STD分别为0.20%和1.46%。详细的调查表明，词干规则和音序规则都可以减少由前缀和音序违规引起的单词错误。测试时间增加，但趋声规则大大减少.将来，可以开发更有效的词干分析器来改进NGTSP模型。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用Achanta，S.，潘迪，A.，Gangashetty，S.V.，2016.序列到序列神经网络在字素到音素转换任务上的分析。国际神经网络联合会议（ IJCNN ） 2016 ， 2798-2804 。https://doi.org/10.1109/IJCNN.2016.7727552.Adriani，M.，亚洲人，J.，Nazief，B.，Tahaghoghi，S.M.，威廉姆斯，H.E.，2007.Stemming Indonesia ： a confix-stripping approach. ACM Trans.Asian LanguageInform. 过程6（4），1-33. https://doi.org/10.1145/1316457.1316459网站。Al-Daradkah，B.，Al-Diri，B.，2015.阿拉伯语文本的自动字形到音素转换。科学与信息会议（SAI）2015，468-473。网址：http：//doi.org/10.1109/SAI.2015.7237184陈洪，2020年。基于dfga g2p转换算法的英语语音合成https://doi.org/10.1088/1742-6596/1533/3/032031.Emiru，E. D.，李，Y.，Xiong，S.，Fesseha，A.，2019.基于深度神经网络声学建模的低资源语言-阿姆哈拉语语音识别系统。在：ACM国际会议程序系列，计算机协会，pp。141-145哈吉阿里岛，Mnasri，Z.，Lachiri，Z.，2020.基于dnn的阿拉伯文语音合成中的字素-音素转换。Int.J.SpeechTechnol.23（3），569-584.https://doi.org/10.1007/s10772-020-09750-7网站。Hlaing，A.，爸爸，W.，2019.大型缅甸语发音词典上字素到音素转换的序列到序列模型，电气和电子工程师协会。https://doi.org/10.1109/O-COCOSDA46868.2019的网站。 9041225伊斯梅尔，R. N.，

下载后可阅读完整内容，剩余1页未读，立即下载