没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报AlKhalil Morpho Sys 2:一个强大的阿拉伯语形态句法分析器Mohamed Boudchichea, Azzeddine Mazrouia,Mohamed Ould Abdallahi Ould Bebahb,Abdelhak Lakhouaja,Abderrahim Boudlalca摩洛哥乌季达穆罕默德第一大学理学院数学和计算机科学系b阿拉伯研究和政策研究中心,卡塔尔c摩洛哥乌季达穆罕默德第一大学文学和人文科学学院。阿提奇莱因福奥文章历史记录:2016年1月21日收到2016年5月27日修订2016年5月31日接受2016年6月6日在线发布保留字:自然语言处理分析器引理形态句法分析器AlKhalil Morpho SysA B S T R A C TAlKhalil Morpho Sys是一个脱离上下文的标准阿拉伯语单词的形态句法分析器。该系统分析部分元音化的单词或完全元音化的单词。在本文中,我们提出了这个分析仪的第二个版本。第一个版本的数据库中的错误的纠正,并通过缺失数据丰富这个数据库,使我们能够开发一个更准确的版本,具有非常高的覆盖率,因为分析的单词的百分比超过99%。此外,我们还丰富了这个新版本提供的词的词元标签及其模式,这是非常有用的阿拉伯语语言处理的许多应用程序的形态特征。此外,随着该数据库的新组织及其源代码的改进,这个新版本产生了非常快速的分析。©2016作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍随着阿拉伯语文本在Web上的大量扩展,开发阿拉伯语语言处理(ALP)工具已成为一种必要。近年来进行了一些研究。这些研究既涉及词法分析器和语法分析器等工具,也涉及搜索引擎、机器翻译、文本分类和自动文摘等应用。这些应用程序的性能部分取决于其开发中使用的工具的准确性和效率形态分析器是这些工具中的佼佼者,因为一些ALP应用程序在分析过程中使用形态分析因此,开发一个能正确处理所有阿拉伯单词并提供最大形态信息的形态分析器对ALP来说是非常有意义的。值得注意的是,这一系统对研究人员来说仍然是一个挑战,*通讯作者。电子邮件地址:moha. gmail.com(M.Boudchiche),azze.maz-roui@gmail.com(A. Mazroui)。沙特国王大学负责同行审查尤其是由于阿拉伯语的丰富性和复杂性(Sawalha等人, 2013年)。在这项工作中,我们提出了Alkhalil 2,它是Alkhalil Morpho Sys分析仪1的改进版本(Boudlal等人,2010年)。这个版本旨在解决第一个版本的缺点事实上,对其数据库进行的校正及其缺失信息的丰富使我们能够开发出覆盖率非常高的更准确版本,此外,这个新版本提供的形态特征丰富了词的词元及其模式,这在ALP的许多应用中非常有用。新的源代码和对数据库结构的改进大大提高了分析速度。最后,为了使程序易于集成到其他应用程序中,提供了代码的API版本。22. 阿拉伯语特点阿拉伯语是一种融合语言,其中阿拉伯语单词在翻译成其他语言时可能是一个句子。 例如,单词<"我们将通知你“在英语中会变成一个句子。阿拉伯语单词可以分解成1https://sourceforge.net/projects/alkhalil/。2http://oujda-nlp-team.net/? p=1299& lang=en。[3]巴克沃尔特音译。http://dx.doi.org/10.1016/j.jksuci.2016.05.0021319-1578/©2016作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com142M. Boudchiche等人/Journal of King Saud University×proclitic,前缀,lemma,后缀和enclitic(Cohen,1970)(见图1)。①的人。因此,如果所有这些成分共同出现,我们可以拥有阿拉伯语单词的最复杂形式。屈折形式proclitic + stem+ 构成书面语的词汇核心。因此,在他们的学校里,单词附著词(英语:Clitics)(即proclitics和enclitics)是传达语法信息的词素。所以,在书面文字“”中,“at their schools”,enclitic“在他们的学校”是结构状态。附着体构成了一个有限集合,但在proclitics或enclitics之间可以发生一些组合,以给出一个额外的复合附着体列表。识别这些词汇单位(原词、词干和原词)需要执行在所有可能的词段中选择适当的词段的方法。然而,在书面文本中缺乏变音符号使得它们的分析复杂且模糊(Habash等人,2009年)。例如,非元音化的单词<“榆树”Elm >可以读作“榆树榆树”。和<''那是众所周知的''尤丽玛。 因此,一个没有变音符号的孤立词可以有多种解释,其适当的阅读和含义取决于其上下文。为了分析词干的每一个潜在的分割,阿拉伯语词典的各种分类,估计在6 1010个不同的词(Darwish和Oard,2002),可以考虑。我们采用基于派生词和非派生词的分类。在采用这种分类时,我们遵循了古典阿拉伯语形态学的传统,根据这种传统,派生词是通过结合词根和模式获得的。因此,这种分类与屈折词形和派生词形之间的区别是正交的,后者在理论形态学的正式方法中更为常见。派生词有词根和模式两个特征。例如,单词<“他们练习”是根据“他们练习”的模式从词根“他们练习”派生出来的。非派生类一方面包括专有名词和外来名词,另一方面包括限定词(冠词)、介词、副词和连词等助词。3. 文献复习近几十年来,阿拉伯语形态分析器的发展引起了几个研究团队的兴趣(Al-Sughaiyer和Al-Kharashi,2004; Farghaly和Shaalan,2009; Habash等人,2009; Soudi等人,2007年)。在这些分析仪的开发中所采用的方法已经由这些分析仪所开发的应用领域所制约。我们在下面回顾一些文献中引用最多的系统。BAMA(Buckwalter,2002):由Tim Buckwalter设计,该分析仪可从LDC4网站下载在BAMA中进行分析的文本应在任何处理之前音译为ASCII,结果应重新转换为阿拉伯语,以便理解。这个著名的分析器被设计为集成到机器翻译应用程序中。它在文献中被高度引用,其源代码可用。它包含阿拉伯语词干词典和前缀和后缀列表。也可以得到一个控制词干与词缀兼容性的规则列表图1. 一个阿拉伯语书面单词的分割。SAMA(Graff等人, 2010 )是BAMA的最新版本。SAMA 是BAMA以前版本的改进版本。此版本能够分析的单词集比旧版本更一致。此外,在分析一个单词之后提出的解决方案的数量显著增加(Shah等人, 2010年)。MORPH2(Kammoun等人,2010)基于基于知识的计算方法。在从词干和词缀上的单词的所有可能的分割中识别出所有有效的词根之后,执行基于单词的可能的元音化形式的研究的形态句法特征的提取步骤。ALKHALIL 1(Boudlal等人,2010年)是一个开源的分析器开发的阿拉伯语NLP团队在穆罕默德第一大学(摩洛哥),与ALECSO5和KACST合作。6对于一个给定的单词,分析器提供了该单词所有可能每一个元音化形式都伴随着若干个形态信息,如附音词、词干、词根和词性标记。MADAMIRA(Pasha等人, 2014)是在单词上下文中操作以为句子的每个单词分配形态标签的形态分析器。它是结合两种形态分析系统MADA(Habash等人,2013,2009)和AMIRA(Diab等人,2007年)。系统首先使用SAMA分析器分析句子中的单词。为了从第一阶段中获得的多个解中选择一个解,执行基于SVM和语言模型的使用的消歧步骤。4. Alkhalil 2的规格本节专门介绍我们开发的Alkha-lil 2分析仪的总体概念我们首先对词汇资源进行了描述然后,我们解释了所采用的方法来分割词的clitics和干。最后,我们提出了不同的形态句法标签,系统提供了每个元音化的形式的话的列表在这些步骤中的每一个使用的技术的概述。4https://www.ldc.upenn.edu/。5http://www.alecso.org/site/。6http://www.kacst.edu.sa/。●●●●●M. Boudchiche等人/Journal of King Saud University1434.1. 使用的技术工具至于第一个版本,Alkhalil 2分析仪是用面向对象的语言Java开发的。有几个原因可以解释这种选择。首先,这种语言是高度可移植的。此外,Java使用的Unicode允许处理阿拉伯字符。最后,一个大的社区使用这种语言。4.2. 语言资源语言数据库的建立和组织是词法分析器设计的主要任务之一。我们首先纠正了旧版本数据库中的错误。然后,通过在大型语料库上测试旧版本,我们确定了对分析器性能产生负面影响的缺失数据。因此,我们将其整合到数据库中。最后,我们重新组织了这个数据库,以优化搜索,从而使系统更快。我们将在这个新的XML版本中展示主要的数据库文件。4.2.1. 异常文件这个文件包含12个特殊的单词(单词“4.2.2. Clitic文件夹它由两个文件组成:Proclitic文件:它一方面包含简单proclitics的详尽列表该文件的67个proclitics随后被分解为三个子类:o标记为“C”的与所有单词兼容的倾向性分类的子类o标记为“N”的只能与名词连接的属性的子类o只能连接到动词上的倾向性动词的一个子类,标记为Enclitics 文件:它包含 68 个简单和复合enclitics 的列表这些enclitics也被分类,在proclitics的情况4.2.3. 非派生词此文件夹包括非派生词。它由两个文件组成专有名词文件,由20,603个专有名词组成。虚词文件,包含介词、指示代词、关系代词等418个虚词4.2.4. 派生词这个文件夹是专门用于派生词的。它由两个字母组成。第一个保留给动词,第二个保留给派生名词。verb文件夹包含五个文件:VoweledStemCanonicPatternVerb文件汇集了1,756个与动词词干相关的元音化模式。UnvoweledStemPatternVerb文件,通过消除前一个文件中的变音符号并仅保留未重复的模式而获得。此文件包含494个非元音化模式。VoweledLemmaCanonicPatternVerb文件,包含一组与动词词元相关的36个变音符号化方案。● RootVerb文件包含7502个根。每个根都是Accom-形态标签:词性和语气(指示性,虚拟语气和命令式)。同样,noun文件夹也包含五个文件:VoweledStemCanonicPatternNoun文件由8042个与名词词干相关的元音化模式组成。UnvoweledStemCanonicPatternNouns文件包含1617个与名词词干相关的非元音化模式。这些模式是通过消除前一个文件中的变音符号并仅保留不重复的模式而获得的VoweledLemmaCanonicPatternNoun文件,包含一组与名词词元相关的629个元音化方案。RootNoun文件包含7692个根。词根伴随着相应的元音化模式。此外,每对(词根,元音化模式)被分配了以下形态标签:词性和格(主格,格和属格)。其中一些模式是从开源阿拉伯语形态系统Sarf的数据库中获得的其他的都是我们团队的成员完成的。为了便于在这些文件中进行搜索,我们采用了一种分类方法,该方法同时考虑了单词长度(对于词根和词缀)和单词首字母的字母顺序值得注意的是,这些基础可以生成一组丰富的4,101,503个元音化词干(2,197,962个词干与名词有关,1,903,541个词干与动词有关)。4.3. 分析步骤形态句法分析分为以下五个步骤:4.3.1. 预处理为了方便后续步骤,我们的方法首先准备输入文本。该系统首先将文本分割成单词。此后,它通过删除kashida和变音符号来规范这些单词。此外,除阿拉伯语之外的任何字符串我们的分析方法在内存中存储输入单词的变音符号的完整副本(如果它们存在),以拒绝与这些变音符号不兼容的分析结果。4.3.2. 分割这一步处理的是经过预处理后得到的正字词.该系统将其视为一系列成分(亲核+核+核),旨在识别它们。因此,系统通过浏览第4.2.2节中定义的proclitic和enclitic列表来提出所有可能的分割。系统只保留与相关的proclitics和enclitics兼容的分割。4.3.3. 股骨柄由于没有区别符号,同一词干可能导致不同的解释。首先,它可以被解释为一个非派生词.第二种解释可能是指派生名词,第三种解释是指动词。因此,对于在前一步骤中确认的每个分割,系统执行词干的四步分析。4.3.3.1. 词干是一个特殊的词。系统检查词干是否属于定义与他们相应的元音化模式,couple(root,vowelized pattern)被指定为7http://sourceforge.net/projects/sarf/。●●●●●●●●●●●144M. Boudchiche等人/Journal of King Saud University●●●●●●●●●●●第4.2.1节在这种情况下,系统将异常单词分配否则,系统将执行剩余步骤。4.3.3.2. 词干是一个非派生词。通过检查词干是否属于在4.2.3节中定义的非派生类。如果茎的性质和阴蒂的性质之间的相容性的标准是有效的,则接受分割。对于有效的分割,系统将提供相应的形态特征。之后,系统继续进行下一步。4.3.3.3. 词干作为派生名词。系统检查词干是否可以是派生名词。它首先检查在分割过程中获得的proclitic和enclitic是否是名词兼容的,即。如果它们属于“N”类或“C”类(见第4.2.2节)。在这种情况下,系统按照以下步骤从词干识别可能的词根使用在4.2.4节中定义的UnvoweledStemPatternNoun文件,我们将具有词干长度的参考模式分配给词干;通过识别所选模式中的附加字母来提取可能的词根确保建议的根属于4.2.4中定义的RootNoun文件使用RootNoun文件,随后检查从模式获得的根是否接受后者作为可能的派生形式的模式;除了有效的配对(词根、模式)之外,还将相关的形态标签和可能的变音符标记分配给所研究的词干。通过使用RootNoun文件可以进行这种赋值。4.3.3.4. 词干作为动词。最 后,系统检查词干是否是动词词干。这种处理类似于前一种处理,不同之处在于这里使用了动词文件。请注意,为了加速分析过程,后面的三个步骤是使用多线程并行完成的4.3.4. 验证结果从先前分析中获得的结果将经过以下验证过程:1. 连词与输出句法特征的一致性:检查词干的最后一个字的词形标记与连词句法功能的一致性,例如:介词<<“”b>和“”k>只与所有格的名词。为了检查词性与enclitic的一致性,o例如:代词''格宾'hm >与被动动词不一致<。2. 建议解决方案中的hamza异体字(,或)与输入词之间的一致性,o例如:短元音dumma3. 建议解决方案的变音符号与输入单词中可能存在的变音符号之间的一致性4.3.5. 显示形态句法分析器的结果对于一个给定的单词,Alkhalil 2分析器使识别的可能的解决方案与他们的形态句法特征相关联的整个集合1. 对于名词,这些特征如下:(a) 对于非派生名词,系统给出:单词无论何时出现,POS标签:s专有名词s功能词(b) 对于派生词,系统通常会提出几种解决方案。对于这些解决方案中的每一个,系统输出:单词的元音化形式无论何时出现,词干的元音化形式及其模式,POS标记:不同的动词名词类型,s主动分词,s被动分词,时间和地点名词,s工具名词性别(男性或女性)s编号(单数、双数或复数)根,元音化形式lemma及其模式,名词2. 对于动词,系统确定:单词的元音化形式,无论何时,相关的前元音和后元音,词干的元音化形式及其模式,POS标签动词变化的时态:未完成,完成,祈使,主动动词或被动动词的三字或四边形动词,的增强和非增强动词,的及物动词或不及物动词,的人称变化。根,词元的元音化形式及其模式,动词的语气。3. 对于助词,系统确定以下特征:助词的元音化形式;粒子的性质(配位粒子、介词等)分析结果以CSV、HTML和XML格式提供5. 评价为了评估我们的分析仪Alkhalil 2的性能,我们将其与其他三种广泛用于ALP各种应用的分析仪进行了其中第一个是Alkhalil MorphoSys分析仪的第一版这种比较将使我们能够测量数据库丰富的贡献和对第一版Alkhalil 1源代码进行的修改。第二个分析器是开源分析器BAMA。SAMA分析仪是BAMA分析仪的改进型.●●●●●●●●●●●●●●●M. Boudchiche等人/Journal of King Saud University145为了进行这种比较,我们使用了超过7200万个变音词的大型语料库。后者包括Tashkeela 8语料库(6300万个变音词)、Nemlar语料库(50万个变音词)(Attiya等人,2005年)和RDI 9语料库的一部分与Tashkeela语料库(850万个变音词)无关。Tashkeela和RDI语料库由古老的经典书籍和一些现代文献的变音文本组成,这些文献涉及神学,语法,历史,经济学和地理学等学科。Nemlar语料库由埃及RDI为Nemlar财团制作和注释。它由现代标准阿拉伯文文本组成,涵盖政策和一般信息等几个主题。因此,我们分析了非元音化的形式,这个语料库使用的四个分析器。我们感兴趣的是四个分析器共享的三个共同输出:即单词的元音化形式,词干和词元(词元不是由Alkhalil提供的1)。使用几个准确度指标进行评价覆盖率:分析器分析的单词的百分比。速度:每秒分析的单词数。AN_Lemma:每个单词的平均建议词元数。AN_Stem:每个单词建议的词干的平均数量。AN_Diac:每个单词建议的元音化形式的平均数量(不包括最后一个字符的变音符号)。我们在表1中列出了每台分析仪的这些指标值。我们注意到使用Alkhalil 2获得了最佳结果。事实上,该分析器能够分析99.31%的单词,而SAMA分析器仅为90.18%,其他两种分析器的分析率较低。这证明了Alkhalil 1分析仪的巨大改进,这在很大程度上是由于其数据库的校正和丰富。此外,高价值用Alkhalil 2得到的AN_Lemma、AN_Stem和AN_Diac的平均值反映了其数据库的丰富性。最后,Alkhalil 2分析器达到了接近最快分析器的速度(每秒632字,而BAMA分析器为每秒685字)。而Alkhalil 2分析仪的速度-覆盖比在很大程度上更有利这是其数据库的丰富性和允许最佳搜索的新组织的结果最常用的指标,以评估这种分析器的准确性计算这些度量需要语料库的可用性,其中每个单词都伴随着其所有可能特征的集合(例如,对于词元标签,每个单词必须伴随着其所有可能的词元脱离上下文)。这样的语料库不存在作为开源,这是不可能的,我们来计算这些指标。然而,Nemlar语料库中的每个词都伴随着由词的上下文决定的三个因此,我们定义了以下指标:Rate_Lemma:在Nemlar语料库中,其相关词元属于分析器给出的建议词元集合的词的比率。Rate_Stem:Nemlar语料库中相关词干属于分析器提出的词干集的单词的比率。Rate_Diac:Nemlar语料库中相关元音化形式属于分析器给出的元音化形式集的单词的比率。8http://sourceforge.net/projects/tashkeela/。9http://www.rdi-eg.com/RDI/TrainingData/。表1每台分析仪的准确度指标值。巴马SAMA碱液1Alkhalil 2覆盖百分之八十点一三百分之九十点一八88.51%九十九点三一速度68533623632AN_引理2.52.47没有给4.71AN_股骨柄2.812.44.115.08AN_Diac2.916.518.078.05表2每个分析仪的指示器值。BAMA(%)SAMA(%)Alkhalil 1(%)Alkhalil 2(%)率_引理78.34 91.14未给出97.16比率_股骨柄79.65 91.36 81.31 96.76频率_Diac 79.98 91.50 86.79 97.21价格_满71.13 91.10 81.04 96.56Rate_Full:Nemlar语料库中三个相关特征(词目、词干和元音化形式)全部属于分析器给出的特征集的表2显示了这些指标的值,每个分析器上应用的非元音化形式的Nemlar语料库。用Alkhalil 2分析仪获得最佳结果事实上,由Nemlar语料库提供的上下文中的词的词元对于其他两个特征也可以作出相同的评论。我们还注意到,与其他两种分析仪相比,BAMA和Alkhalil 1分析仪获得的结果较低。最后,Alkhalil 2分析器提供的潜在结果列表包含Nemlar语料库中分配给单词的三个特征的96.56%这证明了我们分析仪的稳健性和准确性。6. 结论本文介绍了新研制的碱液分析仪的各个阶段我们介绍了其数据库,并重点介绍了我们对该数据库所做的更正和改进对一个有代表性的语料库进行的比较表明,对旧版本的Alkhalil的改进显着改善了这个新版本的性能。此外,与文献中引用最多的两种形态分析仪的比较表明了我们的分析仪的优越性分析仪还提供以下功能:能够搜索的根:当用户输入一个根,该计划显示所有的话在文本中与此根作为可能的根,除了位置的文字和它的上下文。索引:程序通过指定文本中的每个单词的出现频率和位置来为文本中的每个单词编制该分析器已用于多个形态学消歧系统。事实上,(Chennoufi和Mazroui,2016)使用Alkhalil 2分析器开发了一个阿拉伯语元音化系统。同样,(Ababou和Mazroui,2016)还在形态学阶段使用Alkhalil 2分析仪开发了阿拉伯语●●●●●●●●●●●146M. Boudchiche等人/Journal of King Saud University引用Ababou,N.,Mazroui,A.,2016.一个混合的阿拉伯语POS标记为简单和复合形态句法标记。Int. J. 语音技术19,289得双曲正切值. doi.org/10.1007/s10772-015-9302-8。Al-Sughaiyer,I.A.,Al-Kharashi,I.A.,2004.阿拉伯语形态分析技术:全面调查。J. Am.社会信息科学Technol. 55,189-213. http://dx.doi的网站。org/10.1002/asi.10368。Attiya,M.,Yaseen,M.,Choukri,K.,2005年在NEMLAR项目范围内制作的阿拉伯语书面语料库的规格。Boudlal,A.,Lakhouaja,A.,Mazroui,A.,Meziane,A.,Ould Abdallahi OuldBebah,M.,Shoul,M.,2010. Alkhalil Morpho SYS1:一个阿拉伯语文本的形态句法分析系统。参加:阿拉伯信息技术国际会议。Benghazi,Libya. 1比6Buckwalter , T. , 2002. 阿 拉 伯 语 词 法 分 析 器 1.0 版 。 语 言 学 家 数 据 伴 侣 编 号LDC2002L49。Chennoufi,A.,Mazroui,A.,2016年。形态分析的影响,训 练 语 料 对 阿 拉 伯 语 变 音 的 表 现 。 Int. J. Speech Technol.19 , 269-280.http://dx.doi.org/10.1007/s10772-015-9313-5网站。科恩,D.,1970.阿拉伯语的自动分析。阿拉伯语和科学语言研究。海牙,巴黎,pp. 49比78Darwish,K.,Oard,D.W.,2002.用于搜索印刷阿拉伯语的术语选择。第24届年会Int.ACM-SIGIRConf.(SIGIR2002),pp.261-268.http://dx.doi.org/10.1145/564422.564423。Diab,M.,Kadri,H.,丹尼尔,J.,2007.处理阿拉伯语文本的自动化方法:从标记化到基本短语组块。阿拉伯语计算形态学:基于知识和经验的 方法。Farghaly,A.,Shaalan,K.,2009.阿拉伯语自然语言处理:挑战与解决方案。ACM亚洲语言信息翻译过程。8,1-22。http://dx.doi.org/10.1145/1644879.1644881.Graff,D.,Maamouri,M.,Bougeli,B.,Krouna,S.,Kulick,S.,Buckwalter,T.,2010年。标准阿拉伯语形态分析器(SAMA)。Habash,N.,兰博岛,罗斯河,巴西-地2009. MADA + TOKAN:一个用于阿拉伯语标记化、变音符号化、形态消歧、POS标记、词干提取和词形化的工具包,Proc. SecondInt. Conf. 阿拉伯人,朗,雷苏尔。Tools,pp. 102比109Habash,N.,罗斯河,巴西-地兰博岛,埃斯坎德尔河,Tomeh,N.,2013.方言阿拉伯语的词法分析与消歧。Hlt-Naacl,426-432.Kammoun,N.,贝尔吉斯湖,Hamadou,A.,2010. MORPH2新版本:一个强大的阿拉伯 语 文 本 形 态 分 析 器 。 第 10 届 国 际 会 议 Journéesd'Analyse Staubique DesDonnées Textuelles。 Sapienza University罗马大学Pasha,A.,Al-badrashiny,M.,Diab,M.,Kholy,A.,埃尔埃斯坎德尔河,Habash,N.,Pooleery,M.,兰博岛,Roth,R.M.,2014年。 MADAMIRA:一个快速,全面的阿拉伯语形态分析和消歧工具。Proc. 9th Lang. 资源。Eval.确认,第1094-1101页。Sawalha,M.,Atwell,E.,A.A.M.,2013. SALMA:标准阿拉伯语形态分析。ICCSPA国 际 会 议 公 报 信 号 处 理 。 他 们 的 应 用 。 沙 迦 , 阿 联 酋 1-6 。http://dx.doi.org/10.1109/ICCSPA.2013.6487311。沙阿河,Dhillon,P.S.,Liberman,M.,福斯特,D.,Maamouri,M.,昂加尔湖,2010年。 一种新的阿拉伯语文本词汇消歧方法。10 Proc. 2010 Conf. Empir. 方法Nat.Lang. Process,pp. 725- 735Soudi,A.,Neumann,G.,Bosch,van den,A.,2007年阿拉伯语计算形态学:基于知识和经验的方法。阿拉伯语计算形态学Springer,Netherlands,Dordrecht.3-14. http://dx.doi.org/10.1007/978-1-4020-6046-5_1.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功