迁移学习和多阶段训练：阿拉伯诗歌准确变音

17 浏览量更新于2024-01-17 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报迁移学习和多阶段训练，用于阿拉伯诗歌的准确变音吉斯A.Abandah，Ashraf E.穆罕默德？苏亚格阿卜杜勒-马吉德约旦大学工程学院，安曼11942，约旦阿提奇莱因福奥文章历史记录：2022年1月15日收到2022年4月2日修订2022年4月8日接受2022年4月15日网上发售保留字：阿拉伯诗歌自动变音双向神经网络迁移学习多阶段培训A B S T R A C T大多数阿拉伯诗歌是无变音符号或部分变音符号（没有短元音）。对于不同年龄和语言掌握水平的人来说，区分阿拉伯诗歌将使他们能够轻松适当地享受阅读和吟唱此外，对诗歌进行变音是对诗歌进行分类和评价的必要步骤不幸的是，现有的自动诗歌变音解决方案是不准确的。对阿拉伯诗歌进行变音对于人和机器来说都是一项艰巨的任务，因为阿拉伯语有许多复杂的变音规则，而阿拉伯诗歌有额外的特殊情况和丰富而充满活力的成分。如果有足够的训练数据集，深度机器学习可以提供所需的变音解决方案不幸的是，现有的数据集是不够的和昂贵的开发。在本文中，我们提出了使用深度机器学习改进阿拉伯诗歌我们采用迁移学习来利用预训练分类模型的模式特征，从而减轻了区分阿拉伯诗歌的难度我们还通过在精心选择的子数据集上在多个阶段训练复合变音符号化模型来克服训练数据集的不足。与已知的结果相比，所提出的解决方案将变音错误率从6.08%提高到3.54%（提高42%）。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍阿拉伯诗歌是最古老的阿拉伯文学形式，在现代阿拉伯文学中仍发挥着重要作用它是一种精致的艺术，精心组成，遵循严格的模式和形式。许多阿拉伯诗人因其诗歌而广为人知，这些诗歌经常用于歌曲和国歌（艾伦，2022）。许多人喜欢听、读和吟诵好诗。然而，正确地朗读和吟诵一首不熟悉的诗是困难的，原因是多方面的。主要原因是阿拉伯语文本和诗歌通常没有变音符号，如图左侧所示。1.一、由于大多数阿拉伯语单词具有多重发音和含义，因此通常很难确定单词的预期含义和发音。但是，当将适当的阿拉伯语变音符号添加到文本中时（如*通讯作者。电子邮件地址：abandah@ju.edu.jo（G.A. Abandah）。沙特国王大学负责同行审查图的右侧），消除了所有的歧义，并且发音变得直接。大多数出版的阿拉伯诗歌是 undiacritized 或部分 diacritized（Abandah等人，2020年）。许多儿童，新的阿拉伯语学习者，甚至是阿拉伯语流利的人都会喜欢自动区分这些诗歌的解决方案，以享受直接阅读和吟唱它们的乐趣。此外，区分阿拉伯诗歌诗句是一个重要的和困难的一步，执行几个阿拉伯韵律分析（Atiq，1987年）。例如，要找到一首诗的特定模式或检查其质量（声音或破碎）;这些问题的分析始于一个完全did-critized版本的诗句。不幸的是，它是难以自动变音阿拉伯诗歌和可用的解决方案不提供令人满意的准确性。Abandah等人（2020年）报告说，区分阿拉伯诗歌的错误率是区分阿拉伯散文的错误率的三倍多。表1总结了他们的调查结果。他们的最佳变音符号化模型被训练为变音符号化三个数据集：Tashkeela是古典阿拉伯语的数据集，LDC ATB3是现代标准阿拉伯语的数据集，APCD 2是阿拉伯语诗歌的数据集。该表显示Tashkeela比LDC ATB 3更大然而，尽管阿拉伯诗歌数据集大于https://doi.org/10.1016/j.jksuci.2022.04.0051319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comG.A. Abandah，A.E. Suyyagh和M.R.阿卜杜勒-马吉德沙特国王大学学报3745图1.一、两首阿拉伯诗歌，有和没有变音符号。这些诗句来自著名诗人哈蒂姆·阿尔·泰的一首诗。公元578年表1散文（Tashkeela和ATB 3）和诗歌（Abandah等人， 2020年）。数据集文字大小DERWERTashkeela（古典阿拉伯语）2，312 k百分之一点九七百分之五点一三LDC ATB3（现代标准阿拉伯语）305 k2.46%8.12%APCD2（阿拉伯诗歌）3，475 k6.08%20.40%与其他两个数据集的总和相比，其错误率要大得多（6.08% DER和20.40% WER）。正如在后面的章节中所阐述的那样，阿拉伯诗歌的变音困难有几个原因。诗人通常使用的词语和短语都是经过精心挑选和创造性的，以艺术地适合他们的目的和诗歌此外，他们经常练习阿拉伯语变音规则的一些自由，在变音一些词的结束，以满足诗歌的选定押韵和模式。此外，由于缺乏足够的训练数据集，阿拉伯诗歌的变音是一个具有挑战性的机器学习问题。尽管有大量的阿拉伯诗歌可以通过电子方式获得，但它们大多是未变音或部分变音的，并且可用的变音诗句不足以训练深度模型。Abdel-Karim和Abandah（2021）已经表明，用于精确变音的训练数据集应该比可用的变音阿拉伯诗歌大五倍。此外，人工di-critizing阿拉伯诗歌准确是一项昂贵的任务，因为它需要很长的专家时间.在这项工作中，我们使用深度机器学习为阿拉伯诗歌提出准确的自动变音解决方案。我们提出了一种迁移学习方法，该方法建立在预先训练的模型上。更大的阿拉伯诗歌数据集。该模型被集成到所提出的变音模型中，并提取有助于变音模型更好地变音雄辩的诗歌诗句的特征。我们还提出了一个多阶段的训练方法，解决了现有的阿拉伯诗歌数据集的不足本文分为八个部分。接下来的两节介绍了阿拉伯诗歌和序列抄写的一些背景。第4节回顾了重要的相关工作，第5节描述了研究的深度神经网络模型，第6节描述了实验设置，第7节介绍了实验结果并进行了讨论，第8节提供了一些结论和未来工作的想法。2. 阿拉伯诗歌和变音符号在阿拉伯文学传统中，诗歌反映了阿拉伯人的自我认同，他们的共同历史和他们对未来的渴望。阿拉伯诗人赞美他们的英雄、部落甚至神灵（在伊斯兰教之前的时代），蔑视他们的敌人，嘲笑他们的统治者或对手。阿拉伯人总是用诗歌来反映或反对流行的政治情绪，反映他们的浪漫，对自己成就的自豪感，并表达其他感情和情绪。像其他文化一样，阿拉伯人用诗歌来传递他们的口述历史和他们伟大战斗的故事（艾伦，2022）。古典阿拉伯诗歌大多由一系列遵循固定模式的诗句组成。每节经文分为两个对联（shair）;第一个是所谓的adir和第二个是ajuz。两个阿朱兹和阿纳迪尔是大约相同的长度。的诗句在古典阿拉伯语诗歌中是押韵的（qa<$f<$yah）;整首诗诗句以相同的字母结尾，或者具有发音/声音相似的结尾字母在公元8世纪，阿拉伯语言学者分析了阿拉伯诗歌的节奏总的来说，他们将古典阿拉伯诗歌分为16类，每一类都有一定的格律（bar）。从形态学上讲，许多阿拉伯语单词都是由完全相同的字母却有不同的含义然而，这些单词的发音不同，并且变音符号（在这种情况下称为词汇变音符号）用于将这些单词分开。尽管如此，这些变音符号通常不是书面的，而是从上下文中推导出来的.变音符号进一步区分同一个词的不同变形形式;在这种情况下，它们通常被称为to asinflectional曲折 diacritics变音符号.屈折变音符号放置在单词结尾（词尾变音符号），并遵循语法规则。它们可以影响最后一个字母和之前的字母在阿拉伯语中，变音符号被称为haraka<$t，字面意思是移动，因为它们将字母的发音移向特定的元音，有效地使它们成为短元音。阿拉伯变音符号是fatha（），相当于短的前两个字母写在信的上面，而后者通常写在信的下面这三种dia- critics的变体也用于阿拉伯语单词的结尾，并添加声音这些变体被称为nunation（tan wın）。命名前面的短元音的形式分别用于发“an“、”oun“和"een“的fathatan（）、dammatan（）或kasratan缺少变音符号的情况称为sukun，可以选择用变音符号（）表示。shadda（）表示双字母，用于在发音时重读某些字母。sukun和shadda也被用作音节标记（Madhfar和Qingdao，2020）。我们在表2中显示了28个阿拉伯字母的Unicode字符、它们的变体形式和8个变音符号。在阿拉伯语形态学中，大多数单词（无论是动词还是名词）从三个辅音根开始动词的词根是动词模式fa'ala（英语：Patternfa'ala）。阿拉伯语单词是从这个基础上通过添加额外的字母/变音符号派生出来的。同样，在计量阿拉伯诗歌时，对句的节奏模式由动词模式fa'ala的变体来表示。节奏来自于字母的连续性，有没有变音符号。节拍中的基本重复序列称为taf '<$ıla<$t（节拍）或英尺。每对对联有两到四个脚。阿朱兹和阿卡迪尔通常共享相同的节奏模式。16联（米）阿拉伯古典诗歌的名单见表3。与西方韵律学家使用基于音节的韵律不同，阿拉伯韵律学家使用基于字母的韵律。对联是从元音字母和非元音字母（无声）的角度来分析的。元音字母通常有三个短元音变音符号之一：fatha（），damma（）和kasra（）。无声字符被视为具有sukun（）变音符号。G.A. Abandah，A.E. Suyyagh和M.R.阿卜杜勒-马吉德沙特国王大学学报3746表2Unicode阿拉伯语代码块，显示36个字母变体和8个基本的变音符号。x：0123456789一BCDEFU +062xﺀﺁﺃﺅﺇﺉﺍﺏﺓﺕﺙﺝﺡﺥﺩU +063xﺫﺭﺯﺱﺵﺹﺽﻁﻅﻉﻍU + 064xU +065xﻑﻕﻙﻝﻡﻥﻩﻭﻯﻱ表316首古典阿拉伯诗歌。号米字对联机器学习领域中的序列模型是处理数据序列的模型。递归神经网络（RNN）已成功地用于处理和解决1阿瓜维尔2卡密3巴氏4哈尔夫5瓦菲尔6拉贾兹7Ramal8穆塔克阿里布9萨若河10Munsari11穆杰塔斯12马德13哈扎伊14穆塔德阿里克15穆克塔吉阿卜16穆哈里َ◌ﻃِ◌ﻮﻳﻞَ◌ﻛﺎِ◌ﻣﻞَ◌ﺑِ◌ﺴﻴﻂَ◌ﺧِ◌ﻔﻴﻒَ◌ﻭﺍِ◌ﻓﺮَ◌ﺭَ◌ﺟﺰَ◌ﺭَ◌ﻣﻞُ◌ﻣﺘَ◌َ◌ﻘﺎِ◌ﺭﺏَ◌ﺳِ◌ﺮﻳﻊُ◌ﻣْ◌ﻨَ◌ﺴِ◌ﺮﺡُ◌ﻣْ◌ﺠﺘّ◌َ◌ﺚَ◌ﻣِ◌ﺪﻳﺪَ◌ﻫَ◌ﺰﺝُ◌ﻣﺘَ◌َ◌ﺪﺍِ◌ﺭﻙُ◌ﻣْ◌ﻘﺘَ◌َ◌ﻀّ◌ﺐُ◌ﻣَ◌ﻀﺎِ◌ﺭﻉَ◌ﻓُ◌ﻌﻮﻟْ◌ُ◌ﻦَ◌ﻣَ◌ﻔﺎِ◌ﻋﻴﻠْ◌ُ◌ﻦَ◌ﻓُ◌ﻌﻮﻟْ◌ُ◌ﻦَ◌ﻣَ◌ﻔﺎِ◌ﻋﻴﻠْ◌ُ◌ﻦُ◌ﻣﺘَ◌َ◌ﻔﺎِ◌ﻋﻠْ◌ُ◌ﻦُ◌ﻣﺘَ◌ﻔﺎِ◌ﻋﻠْ◌ُ◌ﻦُ◌ﻣﺘَ◌َ◌ﻔﺎِ◌ﻋﻠْ◌ُ◌ﻦُ◌ﻣْ◌ﺴَ◌ﺘْ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋﻠْ◌ُ◌ﻦُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋﻠْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦُ◌ﻣْ◌ﺴَ◌ﺘْ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦُ◌ﻣَ◌ﻔﺎَ◌ﻋﻠَ◌ﺘْ◌ُ◌ﻦُ◌ﻣﻔﺎَ◌ﻋﻠَ◌ﺘْ◌ُ◌ﻦَ◌ﻓﻌﻮﻟْ◌ُ◌ﻦُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦُ◌ﻣْ◌ﺴَ◌ﺘْ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋﻠْ◌ُ◌ﻦَ◌ﻓُ◌ﻌﻮﻟْ◌ُ◌ﻦَ◌ﻓُ◌ﻌﻮﻟْ◌ُ◌ﻦَ◌ﻓُ◌ﻌﻮﻟْ◌ُ◌ﻦَ◌ﻓُ◌ﻌﻮﻟْ◌ُ◌ﻦُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠُ◌ﻦَ◌ﻣْ◌ﻔُ◌ﻌﻮَ◌ﻻُ◌ﺕُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠُ◌ﻦُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋﻠْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦَ◌ﻣَ◌ﻔﺎِ◌ﻋﻴﻠْ◌ُ◌ﻦَ◌ﻣَ◌ﻔﺎِ◌ﻋﻴﻠْ◌ُ◌ﻦَ◌ﻣْ◌ﻔُ◌ﻌﻮَ◌ﻻُ◌ﺕُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠُ◌ﻦَ◌ﻓِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻣَ◌ﻔﺎِ◌ﻋﻴﻠْ◌ُ◌ﻦَ◌ﻓﺎْ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦ序列相关的问题，如情感分析、文本分类以及文本翻译和变音符号化（Rumelhart等人，1986年）。这种成功来自于RNN将初始序列输入的信息存储在内部存储器中，并将其用于分析序列的后续输入的能力。然而，RNN经常遭受消失梯度问题，特别是在处理长序列时。这个问题限制了它们在长序列中捕获长期依赖关系的能力。Hochreiter和Schmidhuber（1997）提出了长短期记忆细胞（LSTM），可以检测和记忆长期依赖关系。他们添加了长期依赖状态ct来实现这一目标。Schuster和Paliwal（1997）提出了双向RNN，其中除了从开始到结束将序列馈送到模型的传统方式之外，模型还从结束到开始遍历端这提高了模型的开发能力一个字母接一个字母的连续分析导致了对联的发音，也就是说，因为它是发音。在一定的规则下，这可能会增加字母或省略其他字母;语音转录的对联可能与实际的对联不同，因为单词不一定符合阿拉伯语听写规则。例如，单词（）在发音上被转录为（），其中fatha被转录为字母alef（因为它的发音），而诗句结尾的damma被转录为字母 waw 。字母省略的一个例子是在一些 alef-lamarti- cles（llmlshmsyt）中的字母lam双格tanwn结尾通常在语音转录的单词。例如，单词（kt bunn）被重写为（kt bun）。由于shadda（）在发音时用于强调某些字母，因此带有shadda的字母在语音上被转录为两个字母;第一个是无声的，第二个是元音。例如，单词（thumã）写作ﺛْْﻤْﻢ(thumma). 最后，这对对句的音标是与表3中的对联图案相匹配。因此，使用正确的变音符号直接影响到找到正确的节拍的过程。相反，阿拉伯语的韵律和音标都遵循一套规则，了解韵律有助于恢复正确的变音符号，特别是阿拉伯诗人可以自由地选择性地改变某些词尾的变音符号，而不考虑句法规则。3. 序列转录阿拉伯诗歌变音处理在这项工作中作为一个序列转录问题，其中输入的时间序列序列或字符或单词的序列被翻译成另一种类型的相应的目标序列，例如。将阿拉伯语文本翻译成英语文本。在我们的问题中，输入序列是未变音的诗歌诗句，输出序列是相应的诗句变音符号。一个相关的问题是序列分类，其中输入序列被分类到类（类型）中，例如，从韵文序列中寻找诗歌格律当给定序列的整个上下文时，结果。Sutskever等人（2014）提出了编码器-解码器RNN，用于解决输入和输出序列长度不同的问题。然而，Abandah和Abdel-Karim（2019）已经证明，当这个问题作为一对一问题解决Vaswani等人（2017）提出了Transformer模型，这是一种解决序列任务的高效模型，可以保持长距离依赖。转换器依靠注意力机制来分析给定序列中的单词之间的关系，并生成上下文向量，该上下文向量用于理解给定序列以执行给定任务。在这项工作中，我们研究了多阶段设计，迁移学习和多阶段训练等技术，以提高使用BiLSTM模型区分阿拉伯诗歌的准确性，因为缺乏足够的训练数据集。一般来说，多阶段设计和迁移学习用于结合从不同任务中学习到的特征，以生成一个更好地理解上下文的模型，从而提供更好的准确性。4. 文献综述我们从回顾阿拉伯语文本和诗歌变音符号化的重要相关工作开始这一节。然后，我们回顾了与本工作中研究的两种主要方法相关的一些工作：多阶段神经网络模型和迁移学习。4.1. 阿拉伯语文本和诗歌变音符号化文本自动变音符化问题一直受到广泛关注。最初和传统的工作依赖于统计和基于规则的方法。统计方法依赖于在字符序列上的变音符号的概率分布。另一方面，基于规则的方法依赖于词典、词法和句法分析器以及扎实的语言学知识，G.A. Abandah，A.E. Suyyagh和M.R.阿卜杜勒-马吉德沙特国王大学学报3747生成一组规则以应用于所述未变音输入序列。Pasha等人（2014）提出了MADAMIRA：一个全面的开源工具，用于阿拉伯语的形态分析和消歧，提供了区分阿拉伯语文本的能力。该工具同时使用n-gram语言模型和支持向量机（SVM）。Chennoufi和Mazroui（2017）提出了一种混合四阶段系统，用于结合语言和统计规则的阿拉伯语自动变音。它们将句法规则应用于Alkhalil形态分析器的输出。然后，作者应用马尔可夫模型，维特比算法和平滑技术，然后进行统计处理，并实现了变音错误率（DER）为6.28%。Darwish等人，（2017）提出了一种阿拉伯语发音器，该发音器在单词级采用Viterbi解码器，具有回退到词干，形态模式，音译和基于序列标签的发音，并结合SVM用于发音单词结尾。他们实现了3.29%和12.77%的词级DER没有和情况下结束，分别。Metwally et al.（2016）提出了一种多层次的方法，用于在形态和语法上区分阿拉伯语单词。他们采用隐马尔可夫模型（HALF），外部形态分析器的词汇外的话，和条件随机场（CRF）在三个连续的阶段上的LDC阿拉伯语树库第3部分（ATB3），以实现4.3%的形态词错误率（WER）和9.4%的语法WER。最近，变音符号化方法依赖于机器学习和深度神经网络已经在文学中获得了动力。Fadel et al.（2019 b）将几种基于规则的方法和闭源工具用于阿拉伯语变音符号化，与Shakkala项目的BiLSTM模型进行了比较（Barqawi，2021）。作者表明，BiLSTM Shakkala模型的DER为2.88%，而最好的非神经方法的DER为13.78%。Abandah 等人（ 2015 ）使用了一种依赖于双向长短期记忆BiLSTM的序列转录方法，而不依赖于对输入句子的先前词汇，形态或句法他们的方法在11本书的样本上分别得出了2.09%和5.82%的平均DER和WERAlqudah等人（2017）提出了一种混合方法，他们使用MADAMIRA完整的形态和语法分析器输出来馈送BiLSTM网络以生成完全变音的输出。混合模型实现DER和WER分别为2.39%和8.40%。Abandah和Abdel-Karim（2020）研究了多种BiLSTM架构、网络大小、超参数和序列长度，并提出了区分输出序列的替代编码，以调整和调整阿拉伯语区分的最佳模型。他们的最佳解决方案在LDC ATB3数据集基准上达到了 2.46% 的 DER ，在 Tashkeela 数据集上达到了1.97%。作者进一步改进了他们的工作，首先提取了一个经过清理的Tashkeela完整数据集语料库，其中字母变音率不低于80%（Abdel-Karim&Abandah，2021）。然后，作者研究了使用清洁的Tashkeela数据集的增量大小训练子集对变音准确性的影响。作者的表现最好的模型实现了平均DER和WER分别为1.45%和3.89%。Mubarak et al.（2019）研究了通过使用不同大小的重叠窗口以及使用具有编码器、解码器和注意力的序列到序列模型来改变输入序列的大小。他们的最佳模型实现了4.49%的WER和1.21%的DERFadel等人（2019 a）比较了使用前馈神经网络和递归神经网络构建的几个模型，这些网络通过100-hot模型，嵌入和条件随机场增强。作者表明，他们的模型实现了2.18%的DER和4.44%的WER。马德法尔和Qingdao（2020）提出了用于阿拉伯语文本变音符化的三字符级RNN模型，基本模型是具有嵌入的三阶段BiLSTM层，第二个模型是具有注意力的编码器-解码器模型，而最后一个模型仅使用注意力层。作者表明，第三种模型优于其他模型，并报告了4.32%的WER和1.13%的DER几乎所有以前的文献都与阿拉伯散文变音有关。Abandah等人（2020）提出了具有双向长短期记忆的深层和窄行递归神经网络来处理阿拉伯诗歌的变音。Baïna和Moutassaref（2020）在识别诗歌韵律的第一阶段将变音符号应用于诗歌。他们采用基于规则的方法来部分区分诗句。4.2. 多级神经网络模型多级或级联模型可用于准确的预测和分类。在这些模型中，早期阶段的结果作为输入向量的一部分被馈送到下一阶段。这些阶段的结果可以是提取的特征或分类结果。这些特征可以手动提取或使用深度神经网络提取。最近，Dang et al. （2021）使用了三个级联的深度神经网络模型：Word 2 Vec/BERT（来自transformers的双向编码器表示），然后是卷积神经网络（CNN），然后是LSTM来执行情感分析。CNN模型用于检测输入向量中的空间特征，然后将结果馈送到LSTM模型以检测时间特征，然后由全连接网络进行分类。Hassan等人（2020）使用混合深度学习模型来有效地检测网络入侵。他们使用CNN来提取特征，使用LSTM来检测和维护提取的特征之间的依赖关系。它们不是顺序级联模型，而是并行工作，并且两个模型的提取特征与元数据（手动提取的特征/信息，如果存在的话）连接在一起，以生成更广泛和更丰富的特征向量。然后将生成的向量馈送到分类模型。另一个例子：Karar et al. （2021）为细菌分类器模型提供了病毒分类器的结果（阴性或阳性），以帮助进行更好的分类。4.3. 机器学习迁移学习技术的出现是为了解决质量和数量的问题。迁移学习通过将从一个任务中学到的知识迁移到Thrun定义的新任务的训练过程中来实现和Pratt（1998）。例如，在大型数据集上训练的模型可以用于在另一个数据集上执行类似的任务。例如，由Deng等人（2009）引入的在大型ImageNet数据集上训练的模型可以用作预训练模型/基线，以解决需要从头开始训练的其他计算机视觉任务（Weiss等人，2016;Long等人，2015年）。在自然语言处理（NLP）领域（Alyafeai等人， 2020），BERT模型已经在大型文本数据集上进行了训练，并大量用于各种NLP任务，如Devlin等人的文本分类。（2018），Wang等人的问题回答。（ 2019 ），以及 Khattab 和 Zaharia 的文章搜索（2020）。传递的知识的性质取决于特征空间（所使用的语言）的相似性和差异性、特征的概率分布（所研究的文本中单词的分布）以及源域和目标域中的标签（针对不同的类）。基于这些差异，迁移学习问题已经被分类为同质或异质迁移学习（Zhuang等人， 2021年）。迁移学习技术已经应用于不同的领域，如网络，医疗应用和自然环境。G.A. Abandah，A.E. Suyyagh和M.R.阿卜杜勒-马吉德沙特国王大学学报3748语言处理例如，Li等人（2014）将学习到的知识从相邻区域的放射性网络转移到可用数据有限的另一个区域。结果表明，在短时间内节省了大量的能源。在语音情感识别领域，Deng等人（2013）将从识别特定数据集上的情感中学习到的知识转移到另一个模型中，该模型在可能具有不同特征空间和/或标签的不同数据集上训练。在句子表征领域，Subramanian等人（2018）研究了分别训练具有不同目标的弱相关任务与使用共享编码器和单独解码器联合训练任务的影响。研究的目标是跳跃思维向量，神经机器翻译，选区分析和自然语言推理。他们发现，同时学习多个目标会产生良好的泛化效果，并提高每个目标的准确性。5. 调查模型本节描述了这项工作中研究的深层模型。除了基本模型，我们还研究了三个两阶段模型和三个迁移学习模型。图2a显示了两阶段模型的一般结构。在这些模型中，第一阶段使用分类模型，该分类模型被训练为从输入的未变音符号化的诗句预测诗歌韵律，并且第二阶段使用变音符号化模型，该变音符号化模型从输入的诗句和预测的韵律预测变音符号。分类模型在大型数据集上进行训练，并以高精度预测仪表。第二阶段使用这个韵律信息来更好地预测给定输入诗句的变音符号。我们提出这些模型是因为我们期望变音阶段在知道韵文韵律的情况下能够更准确地预测变音符号;韵文变音符号与韵文韵律相关。有关这些模型的更多详细信息，请参见第5.2至5.4小节。图2b示出了迁移学习模型的一般结构。这些模型将预先训练的分类模型集成到新模型中，输入诗句的变音符号。分类模型由Abandah等人（2020）提出，与下文描述的基础模型相似（见图3）。分类模型与基础模型的不同之处在于其输出是表示米的缩放器（而不是变音符号序列），并且更窄（BiLSTM维度是64，而不是256）。迁移学习模型具有附加层，通常分两个阶段进行训练。在第一阶段，冻结图3.第三章。四个BiLSTM层和一个输出层的基本模型，用于预测16个变音符号类。而其他层是从头开始训练的。而在第二阶段，所有层都被重新训练，以微调整个模型。我们提出这些模型来利用在大型数据集上训练的分类模型，通过利用它学习提取的特征来更准确地预测变音符号。有关这些模型的更多详细信息，请参见第5.5至5.7小节。5.1. 基础模型研究的基础模型是Abandah和Abdel-Karim（2020）提出的模型。这与Abandah等人（2020）用于区分阿拉伯诗歌的模型相同，并得出结论，与阿拉伯散文相比，阿拉伯诗歌更难区分。如图3所示，该模型有一个字符级嵌入层，四个BiLSTM层，每个方向每层256个单元，以及一个具有softmax激活的16单元输出层。该模型一个阶段的模型，不包含任何迁移学习。然而，该模型在本研究中进一步调整，其输出经过改进的后处理阶段，如第6所述。5.2. 输出层带有仪表的两级模型（2S-Out）图图4a示出了第一个两级模型（2S-Out）的第二级，其中在输出处使用第一级的仪表输出。图二. (a)两阶段模型的一般结构;（b）迁移学习模型的一般结构。G.A. Abandah，A.E. Suyyagh和M.R.阿卜杜勒-马吉德沙特国王大学学报374900见图4。三个两阶段模型的第二阶段模型：（a）2S-Out模型，具有级联层，在输出层包括节拍，（b）2S-In模型，具有级联层，在输入端包括诗句和节拍，以及（c）2S-Init模型，使用节拍值作为BiLSTM层的初始状态第二阶段的层较低的嵌入层和BiLSTM层从输入诗句中提取特征然后，这些特征与仪表连接（独热编码），并作为复合输入提供给上层。这种模型通常被称为宽深模型，因为它的输入是宽的，并且一些输入通过深BiLSTM路径（Cheng等人，2016年）。提出这个模型的动机是使输出层能够更好地选择给定的诗句的韵律的字母变音符。请注意，此模型（与基础模型相比）在连接功能和输出层之间添加了32个单元的密集层。此层提供了对要素和仪表的附加处理，之所以采用此层，是因为它改进了变音准确度。5.3. 输入端带有仪表的两阶段模型（2S-In）图4b示出了第二个两级模型（2S-In）的第二级，其中第一级的仪表输出被用在第二级的输入处。嵌入后，输入的诗句和韵律被连接并提供给BiLSTM层。这种模型通常被称为多输入模型，因为它有多个不同类型的输入。提出这个模型的动机是使BiLSTM层能够提取更好的特征，将诗句5.4. 以仪表为初始状态的两阶段模型（2S-Init）图4c示出了第三个两阶段模型（2S-Init）的第二阶段，其中第一阶段的仪表输出用作BiLSTM层的初始密集层用于将米转换为BiLSTM初始状态的合适维度的向量。提出这个模型的动机也是为了使BiLSTM层能够在给定诗句的韵律作为初始状态的情况下提取更好的特征与前两个模型相比，这是对仪表信息的更干净的使用。这种方法使用节拍作为初始状态，并且不将其与时间序列数据（例如分别在2S-Out和2S-In中的诗句特征和诗句）混合。这种方法类似于Karpathy和Fei-Fei（2015）在从用作初始状态的图像特征生成图像描述时使用的方法密集层在这里将长度为16的米m转换为长度为256的初始状态s0，然后将s0作为四个BiLSTM层中的每一个的短期和长期状态的初始状态传递，如以下等式所指定密集层权重W和偏置b是可训练的参数，并且在训练过程期间被发现。s0¼Wm？-h！0¼！c0<$h <$$><$c <$s0<$2小时5.5. 在BiLSTM层之后使用计量器模型进行迁移学习（TL- Out）图图5a示出了具有两个层堆栈的第一迁移学习模型（TL-Out）。左边的栈是分类模型（预先训练以预测未变音诗的韵律），右边的栈是2S-Out模型的第二阶段。提出此模型的动机类似于2S-Out;以使输出层能够在给定诗句的分类分析的情况下更好地选择字母变音符号。然而，以这种方式集成分类模型提供了两个优点：（i）输出层从输入诗句的分类模型（不仅仅是最终的节拍类）中获得更丰富的特征序列，以及（ii）分类模型5.6. 在BiLSTM层之前使用计量器模型的迁移学习（TL- In）图5b示出了第二迁移学习模型（TL-In）。该模型类似于TL-Out，但分类模型的特征集成在正确的层堆栈的输入处。提出该模型的动机是使BiLSTM层能够G.A. Abandah，A.E. Suyyagh和M.R.阿卜杜勒-马吉德沙特国王大学学报3750≥图五、具有分类模型特征的三个迁移学习模型包括：（a）输出端的TL-Out，（b）输入端的TL-In，以及（c）每个BiLSTM层的TL-All提取出更好的特征，因为诗歌5.7. 在每个BiLSTM层使用计量器模型的迁移学习（TL-All）图5c示出了第三迁移学习模型（TL-All）。该模型通过在分类BiLSTM层和区分BiLSTM层之间进行更紧密的集成，进一步采用了前两个每个分类层提取的特征与相应的区分BiLSTM层的输入相连接。该模型的动机是为每个区分BiLSTM层提供由相应的分类模型层提取的特殊丰富的特征序列。该模型的框架代码见附录A。6. 实验装置在本节中，我们描述了我们的实验设置和基本的机器学习实验，以选择和调整合适的分类模型。6.1. 数据集这项工作中使用的主要数据集是第二版阿拉伯诗歌综合数据集（APCD 2）（Yousef等人，2019年）。该数据集用于训练分类模型，并已公开提供（Abandah，2020）。这是一个大型数据集，包含16个阿拉伯诗歌米的样本诗句和一些阿拉伯散文诗句。我们在这项工作中只使用诗歌诗句，表4显示了这个数据集中分割训练的诗歌诗句数量和测试集。该表还示出了从APCD 2提取的用于训练变音符号化模型的两个附加数据集的特征，并且在下面进一步描述。这个数据集有广泛的变音符号使用的诗歌诗句;有些诗句没有变音符号，有些是部分变音符号，有些是完全变音符号。因此，这些诗句有广泛的变音符号的字母比例。图 6绘制了这些比率的累积分布函数。大约18.5%的数据集诗句没有变音符号，平均一个字母有0.27个变音符号，极端的完全变音符号诗句有1.2个变音符号与字母的比例。只有经过变音符号化的诗句才可用于训练变音符号化模型，以将输入诗句字母（无变音符号）转录为输出诗句变音符号。因此，我们需要提取区分的APCD 2诗句，以获得合适的数据集进行区分训练。由于复杂的阿拉伯语发音规则，这种提取并不简单，例如。，长元音通常因此，我们转向变音符号与字母的比例来提取变音符号化的诗句。我们假设在这个训练中有用的诗句是那些变音符号与字母的比率高于某个阈值的诗句采用一个好的阈值是一个重要的权衡;太小的阈值承认没有完全变音的诗句和太大的阈值提供小的数据集。部分变音的诗句不适合训练精确的模型，而大型数据集则适合适用于训练具有高度通用性的模型。我们用两个阈值进行实验，以提取表4中总结的两个数据集; DS 1是包含变音符号与字母比率≥1/2的诗句的提取数据集，DS 2是比率为1/2的数据集。这两个阈值如图所示。 6产生DS1的368，617诗句和DS2的89，451诗句，表4APCD 2数据集和两个衍生数据集（诗句的训练和测试编号数据集变音符号与字母比率平均比率列车组测试集总分数APCD 2所有0.271,467,119161,2491,628,368100%的DS1DS2≥0.500≥0.6670.610.75313,32576,03455,29213,417368,61789,45122.6%百分之五点五G.A. Abandah，A.E. Suyyagh和M.R.阿卜杜勒-马吉德沙特国王大学学报3751¼¼见图6。APCD 2中韵文变音符号与韵文字母比率的累积分布。分别占APCD 2的22.6%和5.5%。为了在DS1和DS2之间具有不相交的训练集和测试集，从对应的DS1集中提取DS26.2. 实验环境表5总结了所使用的实验平台的规格，其中通过图形处理单元（GPU）加速变音符化训练和测试。所有程序都使用Python编程语言和TensorFlow机器学习库以及Keras高级神经网络应用程序编程接口（API）编写。6.3. 模型训练我们如（Abandahet al.，2020年）。对于变音符号化模型，我们训练它们从没有变音符号的输入韵文字符预测韵文变音符号。输出变音符号仅使用由Abandah和Abdel-Karim（2020）提出的一对一编码方案进行编码。该方案将8个基本阿拉伯语变音符号编码为16个类，如表6所示。我们使用16个类的八个diacritics保持一对一的关系，输入leters和他们各自的diacritics适应复合diacritics与Shaddadiacritic。如表4中所指定的，DS1和DS2数据集被分割成85%的训练子集和15%的测试子集，如直接先前工作的分割方案（Abandah等人，2020年）。在多达100个epoch的训练会话的训练过程中，仅使用训练子集。在每个epoch中，85%的训练子集用于训练网络，15%用于验证。在每个epoch结束时，评估网络预测验证集的变音符号的准确性。我们使用早期停止训练方案，当验证集的准确性在连续五个时期的耐心中没有提高时，训练停止。为了评估网络的性能，最佳历元的权重被用来预测测试集的变音符号表5实验平台的规格。外观规格CPU Intel Core i7- 9700KF@3.6 GHz，8核，12 MB高速缓存GPU Nvidia GeForce RTX 2080@2.1 GHz，2944 CUDA核心，8 GB内存内存32 GB DDR4-SDRAM@2666 MHz操作系统Ubuntu 20.04 LTS，64-bit图书馆Python 3.8.2、TensorFlow 2.2.0、Keras 2.3.0-tf我们使用小批量训练，每个训练步骤使用一批128节经文。我们通过实验选择了这个批量大小，因为与之前工作中使用的64节批量大小相比，它提供了更快的训练和更好的结果。在训练网络参数时，我们还试验了四种常用的优化器。自适应矩估计（Adam）优化器比随机梯度下降，Nesterov Adam和RMSProp优化器（Kingma和Ba，2014）提供更好的准确性。使用Adam optimizer，我们最初使用默认学习速率g¼0： 001和默认超参数b1/40： 9;b20：999;和e 10 - 7。然而，对于训练迁移学习模型的第二阶段，我们将学习率降低到g1/40： 0002。6.4. 输出后处理我们使用一个后处理步骤来纠正一些模型输出错误的基础上，阿拉伯变音符号的使用规则。与Abandah等人（2015）一样，我们使用Sukun校正和Fatha校正。在苏昆纠正，苏昆，因为它是指缺乏一个短元音，被删除，它的存在或缺乏不被视为错误。鉴于，对于Fatha更正，Alef、AlefMaktoung

下载后可阅读完整内容，剩余1页未读，立即下载