没有合适的资源?快使用搜索试试~ 我知道了~
深度递归神经网络分类阿拉伯诗歌
沙特国王大学学报使用深度递归神经网络对吉斯A.作者:Abandaha,Mohammed Z.穆罕默德?海德尔Abdel-Majeeda,Hamdi M Mansourb,Salma F Hulliela,Lara M Bisharataa约旦大学工程学院,安曼11942,约旦b约旦大学艺术学院,安曼11942,约旦阿提奇莱因福奥文章历史记录:2020年8月31日收到2020年11月20日修订2020年12月7日接受2020年12月13日在线提供保留字:阿拉伯诗歌自动变音双向递归神经网络长短时记忆深度学习A B S T R A C T诗歌在阿拉伯文学中有着重要的历史。古典阿拉伯诗歌有16米,在节奏和目标目的不同。朗诵一首诗需要知道诗的韵律,并获得一个变音版本的诗句(字母与他们的短元音刻有);变音符号往往不刻在阿拉伯语文本。这项工作提出了解决方案,将输入的阿拉伯语文本分类为16个诗歌米和散文。它还研究了阿拉伯诗歌的自动变音。我们采用机器学习方法,使用1657 k诗歌和散文的大数据集来开发神经网络来分类和区分阿拉伯诗歌。我们提出了深窄的循环神经网络与双向长短期记忆细胞来解决这些问题。该模型对输入文本进行分类的平均准确率为97.27%,明显高于以前的工作。我们还提出了一个解决方案,实现了一个准确度接近100%时,同一首诗的多个诗句是通过预测类从多个诗句的总概率由于诗人对短语的精心选择和对一些变音符规则的放松,变音符诗歌比变音符散文要难得多©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍阿拉伯诗歌是一种蓬勃发展的传统文学,其根源可以追溯到6世纪之前。阿拉伯人继续给予极大的关注,这种艺术和庆祝天才诗人。阿拉伯诗人写诗表达情感,记录事件,解释思想,给予智慧,激励,调情,赞扬和诽谤,骄傲和嘲笑(Zwettler,1978)。阿拉伯韵律学是一门研究诗歌的科学,自8世纪以来一直在研究诗歌的模式和韵律,并识别声音和破碎的诗歌诗句。阿拉伯古典诗歌有16种主要的格律,我们将在下一节介绍.这些米有不同的普及,并用于创作诗歌的各种目的。*通讯作者。电子邮件地址:abandah@ju.edu.jo(G.A. Abandah)。沙特国王大学负责同行审查Hazem al-Carthajini(d.公元684年)在13世纪将目的与节拍联系起来,并提出每个节拍都有适合某些目的的独特节奏(Al-Carthagini,1966)。诗歌的目的是多方面的,既有严肃与严肃,又有幽默与诙谐,既有辉煌与颂扬,又有贬抑与贬抑,因此诗歌的目的必须与适当的格律相匹配。如果诗人有意骄傲,这个目的就配上一种奢华、闪亮、清醒的韵律。如果诗人打算讽刺或愤世嫉俗或侮辱,这样的目的是匹配什么适合它从鲁莽的米小辉煌。最近,Al-Tayyib(1989年)还把诗歌的目的和米例如,他用“它有韧性,残酷和暴力适合战争阿拉伯语韵律学是一门有着复杂规则和技巧的科学。虽然有天赋的诗人能自然地写诗,但其他人需要运用这些规则和技巧来分析诗歌。当诗歌没有变音符号时,这项任务变得更加困难,变音符号是阿拉伯字母的重音,表示各种短元音。一首没有https://doi.org/10.1016/j.jksuci.2020.12.0021319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comG.A.阿旺达,M.Z. Khedher,M.R. Abdel-Majeed等人沙特国王大学学报3776变音符号的发音不明确。然而,一个熟练的读者往往可以推断出适当的发音给定的诗米和上下文。用于分析诗歌、识别韵律和自动区分诗句的精确解决方案这样的解决方案将是非常有价值的新手和经验丰富的诗人和任何人有兴趣促进作曲,吟唱和享受美好的诗歌。这项工作的主要目标是开发支持分析和阅读阿拉伯诗歌的解决方案。特别是,这项工作解决了如何准确区分诗歌和散文的问题,以及如何准确地从组成诗歌的字符序列中找到诗歌的格律。以前的工作提供了令人不满意的准确性,并没有区分诗歌和散文。这项工作也调查了我们以前的工作在变音诗的准确性。诗歌自动变音是从没有变音符号的诗歌字母序列中预测诗歌的变音符号的过程。这项调查是必要的,因为以前使用机器学习自动区分阿拉伯语文本的工作没有调查阿拉伯诗歌。深度学习方法的当代成功最近包括用于阿拉伯语处理的解决方案,例如语音识别和自动变音符号化(Al-Ayyoubet al.,2018年)。在这项工作中,我们使用了深度递归神经网络(RNN),该网络在阿拉伯诗歌和散文的大型数据集上进行了训练。我们仔细选择网络架构并调整这些网络以实现高分类精度。我们还研究了通过预测诗歌的组成诗句和预测未变音的诗句的变音来提高准确性。对于变音诗歌,我们在序列转录配置中使用深度RNN,其中未变音的诗句作为输入序列,预测的变音符号作为输出序列。这项工作有三个主要贡献:(i)我们采用,清理和分析了一个大型的阿拉伯诗歌数据集,并补充了散文样本和明确的分裂来训练和测试子集,从而为这一研究领域提出了一个基准。(ii)我们扩展了诗歌分类问题,以区分散文和诗歌,除了预测整个16诗米。我们实现的准确性显着优于以前的工作,我们建议在某些情况下提供100%准确度的解决方案。(iii)据我们所知,这是第一个使用深度学习来区分阿拉伯诗歌的作品。我们发现诗歌的变音准确率低于散文的变音准确率,这表明需要进一步的研究。本文共分九个部分。第2节给出了阿拉伯诗歌的基本背景,第3节概述了相关工作,第4节描述了这项工作中使用的神经网络,第5节描述和分析了所使用的数据集,第6节描述了这项工作的实验部分,第7节介绍了详细的结果,第8节讨论了主要结果并与相关工作进行了比较,第9节提供了结论并概述了未来的工作。2. 阿拉伯诗歌凭借阿拉伯语丰富的词汇,前伊斯兰时代的著名诗人渴望竞争并赢得将他们的诗歌挂在神圣清真寺(al-Ka当时的人们和后伊斯兰时代的第一个世纪的人们,能够直观地认识到这首诗的质量,它的节奏是否被接受为诗,以及它的深刻含义。后来,大量母语不是阿拉伯语的人开始学习阿拉伯语并说阿拉伯语,但语言掌握程度较低。这导致普通人的语言质量下降。伟大的语言学家之一,有一天,哈里尔·宾·阿马德·法尔·阿哈德勒(公元718该col-有选择的敲击声引起了他对与诗歌节奏相似性的注意。经过深入思考,他发现阿拉伯诗歌有节奏模式,可以分为15类。后来,他的一个学生,al-Akhfash发现并添加了第16类。 每个班级都有一个特定的节拍(Bar)。一段被称为qaıdah的诗歌由许多在大多数情况下都是相同的模式。每首诗由两个对联(sha ir)的长度大致相同第一个cou- plet被称为padadir和第二个是阿朱兹的结尾有相同的押韵(qa<$f<$$> yah),大多数是相同的字母或有时字母,在整个q a<$$><$dah(Atiq,198 7)。阿拉伯字母通常有变音符号。变音符号通常是不正确的,但是没有被打印出来。这些文字被称为harak at,其缺失被称为sukun,在某些情况下由(变音符号)标记。Harakah可以是fatha(),相当于短的相当于简写的 还有其他的变音符号,即在单词的结尾添加声音“n”的双字母和符号,无论是fathatan()、dammatan()还是kasratan()(Allen等人, 2012年)。阿拉伯语形态学中的单词形式通常基于动词模式fa'ala(阿拉伯语:fa' ala)的使用。这个句型的三个字母与额外的字母和变音符号组合在一起,以改变它的时态或形式,甚至将其转换为名词形式。 在计量诗中”张云飞也是如此。阿拉伯诗歌的节奏来自于字母的连续性,有没有哈-好吧。阿尔-法尔把一个节拍中的基本重复序列taf '<$l a <$t(脚)。 表1列出了16米(罗马字母和阿拉伯语)和它们的对联模式,作为两到四英尺的序列。的两副对联的图案通常是一样的。该表还列出一组相似的仪表组成的仪表圈。 然而,表中的仪表是按照频率排序的,而不是按循环排序的(见第5节)。在一些诗中,每一步都是完整的(tam),在该表给出了我们对完整和最短变体的诗句长度(两个对联)的字母数估计。我们在数据集准备中使用此估计(参见第5)。在上个世纪70年代,随着二进制数在数字计算机中的使用越来越多,El-Katib(1971)使用二进制数来分析阿拉伯诗歌。带sukun的字母系列haraka′t分别表示为二进制数字例如,在《古兰经》中,第一个音步有助记符taf '<$$>lahfa'u<$lun(阿拉伯语:taf'<$$>lahfa'u<$lun),它有两个sukun字母和三个haraka<$t字母。 在二进制中,这个脚被编码为10100,其中最低有效位映射到最右边的字母。请注意,长元音上的变音符号,如waw(1)通常省略阿拉伯诗人有一定的自由,在一个节拍的基本模式,允许的变化不会对诗歌的节奏产生不利影响的变化。其中一些变化可以在一些诗句和其他变化,当使用时,必须适用于所有的诗句。例如,听者的耳朵可以容忍省略一些苏昆音。省略一个sukun字母从脚起叫抱(qa b)。以米为单位,第五taf 'lahmaf a ilun(英语:taf' ilun)中的sukun100100韵律诗通常是在几个步骤的基础上进行诗句的发音方式,而不是他们是如何写的。图1显示了一个例子,计量的诗句由哈提姆al-a'G.A.阿旺达,M.Z. Khedher,M.R. Abdel-Majeed等人沙特国王大学学报3777表116首经典阿拉伯诗歌。号米巴尔圈对联图案整个长度最短变体(1阿瓜维尔َ◌ﻃِ◌ﻮﻳﻞ1َ◌ﻓُ◌ﻌﻮﻟْ◌ُ◌ﻦَ◌ﻣَ◌ﻔﺎِ◌ﻋﻴﻠْ◌ُ◌ﻦَ◌ﻓُ◌ﻌﻮﻟْ◌ُ◌ﻦَ◌ﻣَ◌ﻔﺎِ◌ﻋﻴﻠْ◌ُ◌ﻦ48442卡密َ◌ﻛﺎِ◌ﻣﻞ2ُ◌ﻣﺘَ◌َ◌ﻔﺎِ◌ﻋﻠْ◌ُ◌ﻦُ◌ﻣﺘَ◌ﻔﺎِ◌ﻋﻠْ◌ُ◌ﻦُ◌ﻣَ◌ﺘَ◌ﻔﺎِ◌ﻋﻠْ◌ُ◌ﻦ42283巴氏َ◌ﺑِ◌ﺴﻴﻂ1ُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋﻠْ◌ُ◌ﻦُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋﻠْ◌ُ◌ﻦ48344哈尔夫َ◌ﺧِ◌ﻔﻴﻒ4َ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦ42285瓦菲尔َ◌ﻭﺍِ◌ﻓﺮ2ُ◌ﻣَ◌ﻔﺎَ◌ﻋﻠَ◌ﺘْ◌ُ◌ﻦُ◌ﻣﻔﺎَ◌ﻋﻠَ◌ﺘْ◌ُ◌ﻦَ◌ﻓﻌﻮﻟْ◌ُ◌ﻦ38386拉贾兹َ◌ﺭَ◌ﺟﺰ3ُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦ42147Ramalَ◌ﺭَ◌ﻣﻞ3َ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋَ◌ﻼُ◌ﺗْ◌ﻦَ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦ42288穆塔克阿里布ُ◌ﻣﺘَ◌َ◌ﻘﺎِ◌ﺭﺏ5َ◌ﻓُ◌ﻌﻮﻟْ◌ُ◌ﻦَ◌ﻓُ◌ﻌﻮﻟْ◌ُ◌ﻦَ◌ﻓُ◌ﻌﻮﻟْ◌ُ◌ﻦَ◌ﻓُ◌ﻌﻮﻟْ◌ُ◌ﻦ40269萨若河َ◌ﺳِ◌ﺮﻳﻊ4ُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋﻠْ◌ُ◌ﻦ383610Munsariُ◌ﻣْ◌ﻨَ◌ﺴِ◌ﺮﺡ4ُ◌ﻣْ◌ﺴَ◌ﺘْ◌ﻔِ◌ﻌﻠُ◌ﻦَ◌ﻣْ◌ﻔُ◌ﻌﻮَ◌ﻻُ◌ﺕُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠُ◌ﻦ422811穆杰塔斯ُ◌ﻣْ◌ﺠﺘّ◌َ◌ﺚ4ُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦ282812马德َ◌ﻣِ◌ﺪﻳﺪ1َ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋﻠْ◌ُ◌ﻦَ◌ﻓﺎِ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦ383213哈扎伊َ◌ﻫَ◌ﺰﺝ3َ◌ﻣَ◌ﻔﺎِ◌ﻋﻴﻠْ◌ُ◌ﻦَ◌ﻣَ◌ﻔﺎِ◌ﻋﻴﻠْ◌ُ◌ﻦ282814穆塔德阿里克ُ◌ﻣﺘَ◌َ◌ﺪﺍِ◌ﺭﻙ5َ◌ﻓِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓِ◌ﻌﻠْ◌ُ◌ﻦَ◌ﻓِ◌ﻌﻠْ◌ُ◌ﻦ403015穆克塔吉阿卜ُ◌ﻣْ◌ﻘﺘَ◌َ◌ﻀّ◌ﺐ4َ◌ﻣْ◌ﻔُ◌ﻌﻮَ◌ﻻُ◌ﺕُ◌ﻣْ◌ﺴﺘْ◌َ◌ﻔِ◌ﻌﻠُ◌ﻦ282616穆阿日ُ◌ﻣَ◌ﻀﺎِ◌ﺭﻉ4َ◌ﻣَ◌ﻔﺎِ◌ﻋﻴﻠْ◌ُ◌ﻦَ◌ﻓﺎْ◌ﻋَ◌ﻼﺗْ◌ُ◌ﻦ2828taf在这种情况下,将显示(如第7行所示)。在这里,我们应该提到还有其他阿拉伯诗歌类型。在20世纪,出现了一种新的诗歌,被称为自由诗。这种诗歌不同于上文所述的阿拉伯古典诗歌,后者通常被称为垂直诗歌。自由诗有诗的韵律,但不遵循对联的结构,也不遵循固定的步数,没有一致的押韵(qa<$f<$ıyah)。 自由诗借用了其他语言的形式,与散文区别开来(巴达维,1975年)。图1.一、一首诗,一首诗。他的妻子,他的妻子。 这节经文显示在第一行,意思是:Mayah,金钱来了又去,金钱留下的是良好的声誉和纪念。第二行显示的诗句打破了两个对联和第三行这两幅对联的读音相同,这就是所谓的“阿如”字。这种写作有很多规则;我们在这里列出了本例第3行中使用的一些规则。1. 带shadda的字母被转换成两个字符:第一个是sukun,第二个是harakah;如妻子的名字2. 定冠词al()要么转换为()要么被删除下一个字母加倍,取决于这篇文章后面的字母;如在转换为和转换为中。3. 谭文变音符号转换为相关的harakah和let-“ter”“n”(名词);如在转换为“非正式”的“term”。4. 当诗句(有时是第一对)以harakah变音符号结束时,这个harakah通常被发音为长元音,所以在这个harakah之后添加一个相同声音的元音字母。. 皈依的人,就是皈依的人。然后,“a r u d "形式的一系列字母被转录为相应的扫描码。行4示出了使用上述二进制编码的韵文请注意,还有其他使用的扫描码。诗扫描码映射到核心-如第 5 行 所示 。例 如,扫描10100被映射到(),因为它代表三个haraka<$t字母和两个sukun字母,顺序与()相同。请注意,第6行显示了未识别的taf 'ıl类型的注释。 这里有五个taf 'ıl a't完好无损,一个被抓住了。最后,确定3. 文献综述在阿拉伯语的处理领域已经进行了许多研究工作。在下面的段落中,我们回顾了阿拉伯诗歌分类和阿拉伯语文本变音的相关工作。3.1. 阿拉伯诗歌韵律分类有几种方法被用来识别阿拉伯诗歌的格律这些方法可以大致分为基于规则的方法和机器学习方法。Ismail等人(2010)开发了一个基于规则的原型,称为专家系统和声测试(ESHT),用于测试和声和识别阿拉伯诗歌的韵律。作者利用专家知识设计了这个基于规则的系统,并在20首诗上进行了测试。 Alnagdawi等人(2013)制定了一个三阶段的程序,以找到诗米。首先,正则表达式和上下文-自由语法被用来将诗歌转换成“a r u d "形式。第二,分段用于将“a r u d”形式分为短音和长音。第三,对生成的音串进行比较对比诗歌韵律的模式来确定最佳匹配。该系统进行了测试,从不同的阿拉伯诗歌的128诗句和适度的分类准确率为75%。Abuata和Al-Omari(2018)遵循类似的程序对诗歌进行分类,但他们只考虑了诗句的双行诗。该算法在不同阿拉伯诗歌的417个诗句上进行了测试,准确率达到82.2%。在所有这些作品中,作者都依赖于基于规则的技术。这些技巧需要对诗歌韵律有深刻的理解,并需要一门科学来制定一套完整的规则来完成。分类准确。这种技术的性能在很大程度上依赖于开发和选择的规则的准确性。基于报告的准确性,在这个领域中的规则为基础的方法的有效性是不能令人满意的。G.A.阿旺达,M.Z. Khedher,M.R. Abdel-Majeed等人沙特国王大学学报3778不y不Yousef等人(2019)开发了使用深度递归神经网络(RNN)的机器学习模型来对阿拉伯语和英语诗歌进行分类。RNN被证明在提取每个类别的特征时是强大的,同时考虑到属于同一类别的样本之间的变化。因此,不需要手动手工提取特征。这种方法在从专业网站抓取的巨大数据集上进行了测试。 对于阿拉伯诗歌,该方法在11个类的修剪数据集上实现了96.38%的分类准确率,在整个16个类上实现了94.11%的分类准确率。Al-Talabani(2020)开发了一种基于语音的模型,而不是基于文本的模型来解决分类任务。作者从输入语音中产生一个由线性预测倒谱系数(LPCC)和梅尔倒谱系数(MFCC)组成的时间序列。然后将时间序列馈送到长短期记忆(LSTM)分类器以确定诗歌韵律。此外,他们通过计算每帧特征的平均值和标准差,将时间序列特征向量转换为非时间序列向量。然后将生成的向量馈送到SVM分类器。在评估中使用的数据集(230节)相对较小,只包括六米中的三米。对于说话人独立的情况,使用仅提供MFCC特征的LSTM分类器实现了88.89%的最佳分类准确率。Al-shaibani等人(2020)使用基于文本的深度RNN对阿拉伯诗歌进行分类。他们建议使用五个宽的双向递归层和GRU存储单元来代替LSTM单元。他们使用为此目的收集的数据集测试了他们的网络,该数据集包括55,440首诗歌,其中包括16首阿拉伯诗歌中的14虽然他们使用的数据集小于Yousef等人(2019)使用的数据集,但他们报告的准确率略高,为94.32%。在这项工作中,我们扩展了这些机器学习方法,通过提出有效的深度RNN架构和利用多个诗句的分类来我们还研究了变音符号对分类准确性的影响,并使用机器学习方法自动将变音符号添加到阿拉伯诗歌中,以促进诗歌的发音和分类。3.2. 变音符号化区分阿拉伯语文本对于印刷或书面文本的正确阅读和发音非常重要这种重要性对于诗歌来说更高,因为诗歌语言更加精炼和创新。变音的先前工作使用基于规则,统计和混合方法(Azmi和Almajed,2015)。我们在此介绍已经提出了自动向阿拉伯语单词序列添加变音符号的现有技术方法。Elshafei等人(2006年)和Hifny(2012年)使用统计模型,然后使用搜索算法找到最佳可能序列对于给定的未变音符号化的单词序列的变音符号化的单词。以往的研究者采用隐马尔可夫统计模型(HMM)进行建模,并采用维特比算法寻找最佳可能结果。另一方面,Hifny使用统计n-gram语言建模方法为可能的区分序列分配分数,并使用动态规划来搜索最佳可能结果。这些方法分别达到4.1%和3.4%的变音错误率。Azim等人(2012)使用基于语音的变音器来补充基于文本的变音器。基于文本的建模使用条件随机场,基于语音的模型使用HMM。这种混合方法将变音符号错误率降低到1.5%。随着深度机器学习方法的兴起,最近的工作是基于深度递归神经网络(RNN)模型来解决作为序列转录的变音符号化问题问题(Abandah等人,2015; Rashwan等人,2015; Mubarak等人,2019; Abandah和Abdel-Karim,2020)。Abandah等人(2015)使用双向LSTM网络来区分序列,而无需执行语法或形态预处理步骤。Mubarak等人(2019)使用具有注意力机制的编码器解码器RNN模型来提高准确性。Abandah和Abdel-Karim(2020)提出的最新工作对不同的编码策略进行了深入的评估,并调整了双向LSTM RNN的超参数和配置,并在速度和性能方面评估了所提出的系统。推荐的系统取得了显着的改善,最好的公布的结果。对于一般的序列转录,RNN通常用于编码器-解码器配置(Cho等人,2014年)。这些网络具有长序列的问题。现有技术的方法使用注意力机制和转换器来克服这些问题(Vaswani等人,2017; Devlin等人,2018年)。然而,这里不需要这些技术,因为我们在输入和输出序列之间有一对一的关系。目前,双向RNN网络在区分阿拉伯语文本方面表现最好。4. 序列分类和转录序列分类是寻找序列的类(类型)的过程,序列转录是将输入序列翻译成不同类型的相应靶序列的过程这些过程包括发现段落的情感,发现诗歌的韵律,语言翻译,语音识别和区分阿拉伯语文本。4.1. 递归神经网络递归神经 网络( RNN )通常 成功地用于解决 序列相关问题(Rumelhart等人,1986; Sutskever等人, 2014年)。 RNN的优势来自于它们的内部状态(存储单元),该状态在一次一步地处理序列期间被保持,并在下一步中使用该状态。给定一个输入序列,RNN基于一个隐藏的输入序列的计算,计算一个输出序列,通过从步骤t1/41到T迭代下面的等式来计算向量ht。ht<$fhht-1;xt1yfh2在分类中,最终输出yT用于找到输入序列的类(多对一),而整个输出序列y1;y2;···;yT用于序列转录(多对一)。对许多人)。这里描述的基本RNN在处理具有长依赖关系的序列。记忆单元倾向于获取序列的第一个输入。4.2. 长短期记忆细胞Hochreiter 和 Schmidhuber ( 1997 )提出了长短期记忆单元(LSTM),因为它具有更快的收敛速度以及检测和记忆长期依赖性的优势除了短期状态ht之外,LSTM单元还具有长期状态ct。这两种状态都是当前输入和先前状态的函数,细胞输出只是短期状态。ht<$fht-1;ct-1;xt3ct<$fcht-1;ct-1;xt4G.A.阿旺达,M.Z. Khedher,M.R. Abdel-Majeed等人沙特国王大学学报3779ð···Þð···Þð···Þ不¼.;ytht5当转录序列时,步骤t的RNN输出取决于“看到的输入包括的“看不见的”子序列xt1;xt2; ;xT,常规的单向RNN不能给出令人满意的输出。4.3. 双向RNNSchuster和Paliwal(1997)提出了双向RNN来解决需要在过去上下文之外利用未来上下文的问题。双向RNN层在每层中具有两个相邻的单向网络。前向网络通过在前向方向上呈现输入序列来训练,并且后向网络通过在后向方向上呈现输入序列来训练。输出是两个层的函数,并利用过去和未来的上下文。双向层的输出通常是其前向和后向网络的输出的级联。4.4. 深度RNN对于复杂的问题,如语言翻译或文本变音,需要多个RNN层来实现有效的解决方案。多个RNN层堆叠在彼此之上,形成深度网络,其中一个层的输出序列是下一个更高层的输入序列(Graves等人,2013年)。输入序列被呈现给最低的RNN层,最终输出通常通过一个或多个密集层从最高的RNN层导出。对于堆栈中的N个层,通过从层n1/4 1迭代到N以及从步骤t1/41到T;如等式2所示(6),其中h0¼ x。网络的最终输出yt根据方程计算。(七)、hnf n hnhn-16tht-1不ytfyhN7深度RNN的效率来自于将问题分解为多个阶段,其中较低层提取基本特征,这些特征被较高层用于提取更复杂的特征,这些特征反过来又用于预测最终输出。此外,使用双向层为检测特征提供了更好的上下文。在这项工作中,我们使用带有LSTM单元的深度双向RNN(BiLSTM)。5. 数据集Yousef等人(2018)收集了阿拉伯诗歌综合数据集(APCD)。他们从两个专门的网站收集了这个数据集:The Collection(2020)和The Poetry Encyclopedia(2020),旨在全面收集,保存和出版阿拉伯诗歌,并拥有数百万阿拉伯诗歌诗句。我们下载了APCD数据集,其中有1,831,770条诗歌记录:1,691,671条记录属于16种古典韵律,其余140,099条记录属于其他7种非古典韵律或未标记。每个记录都有八个字段:时代,诗人,收藏家-韵、韵、格、左对、右对,以及两副对联的全段,如图所示。 二、5.1. 数据集准备我们注意到在收集这个数据集时存在一些错误为了减少这些错误的影响,我们排除了具有以下三个问题之一的记录1. 左半部分或右半部分2. 太长的诗句:字母长度大于完整米长度的120%(见表1)3. 过短的诗句:长度小于最短韵律变体长度的80%(见表1)最后两个标准排除了与仪表标签不一致的韵文长度的记录使用这三个标准,我们排除了63,303条记录。我们称这个版本为APCD2,它有1,628,368条记录,总结在表2中。这个表显示了每米的样本诗句数量,以降序排列,以及我们对测试集和训练集的划分下一小节将详细阐述这一划分。请注意,这个数据集是倾斜的;有些米比其他米有更多的诗句。5.2. 测试/列车分流同一首诗的诗句在此数据集中连续列出。假设一首诗诗的长度中位数是5节,范围是1至2367节。我们将这些诗随机分为两组:10%的测试集和90%的训练测试。表2显示,该裂缝在16 m范围内通常分层良好。在诗句层面上,该表显示分裂不是完美的10-90分裂(特别是对于样本数量较少的米),因为每首诗的诗句数量不是恒定的我们发布了这个版本,其中有明确的测试/训练划分,希望这个数据集将成为相关研究的基准(Abandah,2020 a)。5.3. 数据集特征我们在这里提供一些关于APCD 2的统计数据来说明它的多样性。表3展示了这个数据集的三个方面:韵脚、时代和诗人。韵脚字母和时代根据各自的计数按降序排列。该表显示,所有29个阿拉伯字母都用作押韵。然而,前六个字母(Reh,Lam,Meem,Dal,Beh和Noon)是最受欢迎的押韵,约有70%的样本使用。该数据集将诗歌分为12个时代。大约40%的样本经文是现代时代的,其余的是更古老的,可以追溯到前伊斯兰教在第六和第七世纪初。样本中有3360位诗人的诗歌,其中50%来自现代、前伊斯兰和法蒂玛时代。假设APCD 2是阿拉伯诗歌的代表性样本,我们使用表4呈现节拍流行度随时间的变化。下表显示了12个年代中16米的分布情况从最古老的时代到现代的时代。例如,C1-C1-C1图二、APCD数据集的三个Sa rm计记录示例。G.A.阿旺达,M.Z. Khedher,M.R. Abdel-Majeed等人沙特国王大学学报表23780APCD 2数据集每米的诗句数量和测试/训练分割。号米保留的诗句测试集测试比率列车组列车比1阿瓜维尔395,63838,249百分之九点七357,389百分之九十点三2卡密358,46235,048百分之九点八323,414百分之九十点二3巴氏235,60623,939百分之十点二211,667百分之八十九点八4哈尔夫151,78413,6919.0%138,09391.0%5瓦菲尔130,91812,866百分之九点八118,052百分之九十点二6拉贾兹103,05912,196百分之十一点八90,863百分之八十八点二7Ramal71,5277,017百分之九点八64,510百分之九十点二8穆塔克阿里布62,3506,322百分之十点一56,028百分之八十九点九9萨若河56,2495,344百分之九点五50,905百分之九十点五10Munsari27,7082,815百分之十点二24,893百分之八十九点八11穆杰塔斯15,7181,72811.0%13,99089.0%12马德7418687百分之九点三6731百分之九十点七13哈扎伊6916915百分之十三点二6001百分之八十六点八14穆塔德阿里克42042947.0%3910百分之九十三15穆克塔吉阿卜70211917.0%58383.0%16穆阿日10919百分之十七点四90百分之八十二点六总1,628,368161,249百分之九点九1,467,119百分之九十点一表3APCD2的韵脚、年代和诗人分布。韵文诗句时代诗句诗人Rehﺭ256,197现代645,621691林ﻝ190,412阿拔斯228,288386Meemﻡ184,513马穆鲁克150,467132Dalﺩ183,843奥斯曼141,999174Behﺏ159,828法蒂玛121,705477中午ﻥ151,043阿尤比108,553101Ainﻉ65,935摩洛哥和安达卢西亚99,064285QAFﻕ64,092倭马亚61,518236哈姆扎ﺀ48,301经验丰富29,635167Tehﺕ45,405前伊斯兰教21,156523FEHﻑ41,921两国之间18,23842哈ﺡ39,574伊斯兰2124146呵ﻫـ35,257看到ﺱ33,150叶ﻱ28,044KAFﻙ25,013Jeemﺝ15,209爸爸ﺽ11,994Alefﺍ8088Tahﻁ7614Zainﺯ5162伤心ﺹ4721光泽ﺵ4676Wawﻭ4475Thehﺕ3945Thalﺫ2,691Khahﺥ2218Ghainﻍ2056扎希ﻅ1546Alef Maksuraﻯ1259总1,628,1821,628,3683360仪表普及率随着时间的推移而下降,在早期伊斯兰时代达到50.7%的峰值,在现代时代达到19.8%。另一方面,随着时间的推移,C2-K毫米波流量计阿尼斯(1952)指出,一些诗歌米流行,在某些时代衰落 他指出,自安达卢西亚和阿巴斯时代以来,C2-K amil和C3-Ba smil的流行程度有所增加,可能是由于许多原因和因素,包括-阿拉伯人在黎凡特、伊拉克和安达卢西亚开辟了不同于阿拉伯半岛沙漠G.A.阿旺达,M.Z. Khedher,M.R. Abdel-Majeed等人沙特国王大学学报表23781环境的新环境,以及阿拉伯人与其他非阿拉伯人,如黎凡特的波斯人、西阿拉伯地区的哥特人、Saqlabis人和柏柏尔人之间的文化交流。他还指出,在我们的现代,当诗人增加,文化融合,技术随着时间的推移,一些米逐渐消失,如C1-Ramawıl米,而另一些米则逐渐发展,如C7-Ramal米,它一直处于休眠状态,直到现代时代的到来,并为这种米带来了伟大的复兴。5.4. 变音符号的使用该示例具有广泛的变音符号用法。图3示出了APCD 2对的变音符号与字母比率的累积分布函数。大约18.5%的样本诗句有零变音符号,整个样本的平均比率是每字母0.27个变音符号,并且有一些诗句有重变音符号达到比率1.2。图4显示了三个变音符号与字母比率为零、平均和大的样本诗句。没有变音符号的样本很难G.A.阿旺达,M.Z. Khedher,M.R. Abdel-Majeed等人沙特国王大学学报3782表416米在12个时代的分布从最古老的到现代的时代。米前伊斯兰经验丰富伊斯兰倭马亚两国之间阿拔斯摩洛哥和安达卢西亚法蒂玛阿尤比马穆鲁克奥斯曼现代1. 阿瓜维尔百分之三十七点三42.2%百分之五十点七百分之四十七点五百分之二十三点六21.2%百分之三十二点五百分之二十四点八百分之二十六点三百分之二十四点七百分之二十五点五百分之十九点八2. 卡密百分之十五点一百分之十四点零11.0%百分之十三点二13.0%百分之十八点五百分之二十五点一百分之二十二点二百分之二十三点七21.7%百分之二十二点二24.2%3. 巴氏百分之十一点八百分之十二点七百分之九点六百分之十二点八11.1%百分之十一点七百分之十四点五百分之十三点七百分之十五点六百分之十六点八百分之十六点三百分之十四点九4. 哈尔夫4.4%百分之三点二2.6%4.5%7.6%百分之十点二4.3%百分之七点五5.8%百分之七点三百分之十点六百分之十一点九5. 瓦菲尔百分之十六点四百分之十三点八百分之十三点四13.0%百分之七点五8.8%5.8%百分之八点五6.5%百分之六点八百分之六点一8.0%6. 拉贾兹百分之一点五百分之一点二3.0%百分之一点一百分之十九点二7.6%二点一厘百分之六点八百分之五点四百分之九点九5.7%6.4%7. Ramal3.4%1.9%百分之五点六百分之一点三百分之三点五3.4%3.6%百分之一点八3.7%2.8%百分之四点九百分之六点二8. 穆塔克阿里布百分之四点二7.4%2.8%3.0%3.4%百分之五点五4.6%6.3%百分之三点五二点四厘百分之二点零百分之三点三9. 萨若河2.7%1.9%百分之零点一百分之一点零4.8%5.1%3.8%4.7%5.0%百分之三点九3.1%2.6%10. Munsari1.9%百分之一点三百分之零点八百分之一点八3.7%5.0%百分之一点三2.3%2.2%百分之一点六百分之一点三百分之零点五11. 穆杰塔斯百分之零点零百分之零点零百分之零点二百分之零点零百分之零点二百分之零点九百分之零点八百分之零点六百分之零点九百分之零点九百分之一点零百分之一点三12. 马德百分之零点七百分之零点二百分之零点二百分之零点五百分之零点一百分之零点六百分之零点七百分之零点三百分之零点六百分之零点五百分之零点八百分之零点三13. 哈扎伊百分之零点六百分之零点二百分之零点零百分之零点二2.2%百分之一点三百分之零点一百分之零点五百分之零点五百分之零点四百分之零点一百分之零点二14. 穆塔德阿里克百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点六百分之零点一百分之零点二百分之零点三百分之零点二百分之零点四15. 穆克塔吉阿卜百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点二百分之零点零百分之零点零百分之零点零百分之零点零百分之零点一16. 穆阿日百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零百分之零点零表5APCD 2中的散文样本(测试/序列号)。原始数据集序列选定序列总数选中的塔什凯拉2,500/52,500 695/14,748 15,443LDC ATB33,857/22,170 1,973/11,219共计2668/25,967 28,635图三.韵文变音符号与韵文字母比率的累积分布。图四、三个样本诗句没有,平均,和沉重的变音符号。只有流利的阿拉伯语使用者才能正确发音。当一些关键的变音符号出现时,发音变得容易得多,当所有的变音符号都出现时,发音变得简单。在阿拉伯语中,当(shaddadiacritic)出现时,变音符号的数量可以超过字母的数量,因为它的字母可以有另一个变音符号。Shaddadia-critic,事实上,表明原来的拼写有双字母折叠成一个.例如,“大师”(sayyidu)一词的来源是()。5.5. 散文样本为了构建能够区分诗歌和散文的机器学习模型,我们在APCD 2中添加了一些散文样本。我们选择这些样本来代表古典和现代标准阿拉伯语。经典样本来自Tashkeela数据集(Fadel et al.,2019),现代样本来自LDC ATB3数据集(Maamouri et al.,2004年)。这两个数据集经常用作阿拉伯语文本区分G.A.阿旺达,M.Z. Khedher,M.R. Abdel-Majeed等人沙特国王大学学报3783research.我们在两个数据集中添加了28,635个散文序列,这些序列的长度与诗歌的长度兼容。所选序列的长度在12到57个字母之间。由于这两个数据集是变音符号化的,我们从30%的选定序列中删除了变音符号,以减少变音符号存在对模型区分诗歌和散文的能力的影响。表5显示了测试和训练子集的所选散文序列的数量。图5总结了APCD 2中包含16个诗歌类和散文的样本诗句数量;总共1,657,003首诗歌和散文诗句。请注意,该图具有对数比例数据集是高度倾斜的。最频繁的类比最不频繁的类大三个数量级以上。这个数据集的倾斜反映了阿拉伯诗人更喜欢某些诗歌韵律的事实。6. 实验在本节中,我们描述了我们的实验设置和基本的机器学习实验,以选择和调整合适的分类模型和自动变音模型。6.1. 实验装置进行我们实验的平台的规格如表6所示。虽然计算机具有强大的GPU,但我们在CPU上进行了大部分实验,因为GPU没有提供更好的加速比。只有判别实验在GPU上得到了更好的性能。本工作中使用的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功