没有合适的资源?快使用搜索试试~ 我知道了~
一个基于semitic模型亚历克西斯·内梅引用此版本:亚历克西斯·尼姆基于闪语模型的计算形态学的阿拉伯语资源计算与语言[CS.CL]。巴黎东部大学,2020年。英语NNT:2020PESC 2013。电话:03038856HAL Id:tel-03038856https://theses.hal.science/tel-030388562020年12月3日提交HAL是一个多学科的开放获取档案馆,用于存放和传播科学研究文件,无论它们是否已这些文件可能来自法国或国外的教学和研究机构,或来自公共或私人研究中心。L’archive ouverte pluridisciplinaireMSTIC博士学校Mathématiques - Sciences et Techniques de博士论文信息专业亚历克西斯·阿米德·内梅一个基于闪米特模型一种基于相似模式的计算形态学的阿拉伯语言学资源在陪审团组成后,将于2020年7月1日举行Mourad AbbasTita KyriacopoulouEric Laporte导演Denis Maurel特别报告员Alexis Nasr特别报告员Laboratoire d’informatiqueUMR 80492简历我们将为阿拉伯传统形态学提供一种新的方法该方法允许使用Unitex进行形式化并简化形态学我们创造了一本字典,其中包含76000个词条,这些词条的辅助内容与一张灵活的桌子有关。这几张桌子上有几根手指,有六百万根手指。一般虚构文本的尾部有340个字节(UTF-8)。为了尽快进行研究,他在备忘录中记录了11个字节。如果资源在RAM中不收费,则资源的字典库高达99%,Cette resource a été utilisée afin de applications pour les technologies des langues.备注:自动语言训练,阿拉伯标准,语言分类,灵活分类,压缩算法,电子学习。摘要我们开发了一个原始的方法,阿拉伯语传统形态,涉及新概念的闪米特语词汇学,形态学和语法的标准书面阿拉伯语。这种处理丰富而复杂的闪族语言的新方法是基于使用Unitex(一种基于词典的语料库处理套件)的国家技术(FSA/FST)的良好实践。从头开始,我创建了76000个完全元音化的词元,每个词元都与一个屈折类相关联。这些词元通过使用这1000个FST而发生屈折变化,产生了具有超过600万种形式的完全屈折的词典。600万个表单的平面文件大小为340兆字节(UTF-16)。然后将其压缩为11 Mbytes,然后加载到内存中以进行快速检索。词汇覆盖率达99%以上。标记器速度为5000字/秒,如果资源预加载/驻留在RAM中,则超过200 000字/秒。此资源用于成功构建语言技术软件,如拼写检查和电子学习应用程序关键词:自然语言处理,现代标准阿拉伯语,闪族语言,分类学,有限状态转换器,算法压缩,电子学习。3内容Presentation 4出版物和应用5UNITEX平台上的阿拉伯文资源6阿拉伯语形态学的传统闪米特模式7计算形态学应该保留或放弃传统模型的哪些内容?............................................................................8阿拉伯语计算形态学的问题和解决方案9重新定义传统的阿拉伯语词法10分类方法10FST最佳做法:典型做法11UNITEX对闪米特形态的调整13A full account of diacriticsand variations 14未来的发展14观点16结论. 17主要出版物19其他出版物19参考书目20附录A:http://babelarab.univ-mlv.fr/上的阿拉伯语变位词................................................................22附录B:阿拉伯文拼写检查器http://babelarab.univ-mlv.fr/................................................................254呈现“需要融入语言知识是阿拉伯语数据驱动的MT(机器翻译)的一个主要挑战。最近尝试建立数据驱动的系统,从阿拉伯语翻译和翻译到阿拉伯语,已经表明,这种语言中单词和句法结构的复杂性促使需要整合一些语言知识,并以最小的成本,因为增加的语言资源量会影响计算复杂性和可移植性(Zbib,Soudi,2012:2)。我们确实同意这个报价。我们看到,最近在基于统计或基于规则的方法的阿拉伯语技术专用软件方面取得了进展;阿拉伯语知识的准确性提高将改善此类软件的产出。Zbib和Soudi表达的需求在论文、会议和演讲中定期重复,自2000年以来:“阿拉伯语拼写检查是一个活跃的研究领域,因为结果并不令人满意。(Shaalan Kh. 等,2003年)和国家的最先进的没有改善足够的根据作者(Shaalan Kh.例如,2012年)。Wintner(2008)也对希伯来语提出了类似的抱怨:应用于日耳曼语和罗曼语的统计方法比阿拉伯语产生更好的输出。因此,闪语的问题可能不在于软件开发,而在于其他地方,主要是对词汇资源的误解。仍然在2016年,阿拉伯语词典的主流项目基于多词干方法,更具体地说,基于BAMA(2002)词典或从中衍生的资源,如宾夕法尼亚州的阿拉伯语树库(Maamouri等人,2004年)或MADA+TOKAN的资源(Habash等人,2009年,在哥伦比亚大学。“任何不适应闪米特形态的正式表述都将被大多数阿拉伯语语言学家所拒绝。许多计算表示已经提出了基于闪族模型,其他人是新创建的。然而,当语言学家使用一个新创建的形式主义,他们继续与传统的根和模式表示,随后,他们展开了他们的描述,为一个特定的形式主义。(Neme,2011)。事实上,对于语言学家或计算机科学家来说,更新BAMA词典是非常具有挑战性的。实际上,许多软件依赖于BAMA形态标记(或SAMA,2004,其后继者),其在最好的情况下由2009年)。Habash在哥伦比亚大学的团队承诺在基于有限状态技术的MAGEAD(2005)项目中创建他们自己的阿拉伯语资源,但他们与这一尝试一致的最后一篇论文发表于2011年(Altantawy等人,2011年),同一团队的后续论文使用BAMA。BAMA(2002)的突破为阿拉伯语开辟了一系列可能的应用。从那时起,需要定期表示更好的形态分析标记,但没有一个团队能够提出一个更可行和可操作的1在所有指标方面,较新的MADAMIRA(2014)与MADA相比,准确性有所下降。5解决方案比BAMA和能够处理阿拉伯自然语言处理的要求,更特别的是实施闪米特模式。阿拉伯语形态学的一条自然之路在于采用或适应传统的闪族模型和有限状态技术。一方面,我们必须通过提出一个熟悉的形式主义来促进语言学家另一方面,计算机科学家通常将FST作为屈折变化的标准设备; FST在欧洲语言的屈折形态学中表现出了简单和有效性。然而,在使用这种技术实现该模型的过程中存在无数的复杂性这是由于阿拉伯语形态的丰富性和传统的根和模式模型的实际细节。事实上,为了词典编码器的缘故,忠实于闪族模型的本质的要求与遏制其传统版本的复杂性的必要性之间存在对立。然而,没有发现任何折衷。事实上,我们已经实现并从头开始创建了一个词汇资源,包含76,000个词形化条目,完全元音化并手动编码用于屈折形态,基于闪族形态并使用有限状态技术表示超过600万个屈折形式。我们的资源是全面的,直接的,准确的,易于更新的母语语言学家。这种阿拉伯语言资源3的可用性对于数据驱动或基于规则的应用程序来说是一个显著的优势。例如,用于模式匹配的常用工具通常将正则表达式应用于文本;我们的资源提供了更多的工具。我们能够用简单的模式来描述大类的形式:例如,一个特定形容词的词条可以找到它的所有变体,54个部分或全部元音化的形式,或者仅仅是女性复数形式。出版物和申请2011年,我们出版了2013年,我们将这个模型推广到动词的破复数,并发表了《模式和根的在2019年,我们发布了2甚至传统的根和模式模型中的编码也是有问题的:破碎复数的“混乱”和动词的较低水平(Neme和Laporte,2013)。3 我们的阿拉伯语资源不是公开的;但是,您可以从Unitex网站下载两个标记语料库作为样本:一个是专门用于定位破碎的复数(参见。Neme and Laporte,2013),包含三个文档,共计3,550个token(约10页);另一个文档致力于在以“the minister said”开头的句子中识别Minister_Portfolio>和Title_Name_Surname>的本地语法的原型附录)。6试图创建一个阿拉伯语的综合资源是不精确的,而我们的方法基于对闪米特模式的逆转(见下文,阿拉伯语形态的传统闪米特模式),成功地建立了全面的词汇资源,准确和易于更新。不同于传统,我们的模型排除派生形态从其表示,但类似于这种传统,它描述了独立于凝集,这是健全的母语者的直觉的变化。2014年,我们还在摩洛哥期刊上发表了注意到一个完全屈折的字典将对拼写检查应用程序有用,我们调整了Neme(2011)的资源,并于2014年在阿尔及利亚期刊上发表了我们还建立了一个网站,其中有阿拉伯语变位应用程序和阿拉伯语拼写检查程序(见附录,babelarab.univ-mlv.fr)。UNITEX平台为了考虑到阿拉伯语丰富的形态学的各个方面,我们已经确定了1,000个使用FST设备实现的屈折范式或类这些类别分为动词分类法、名词/形容词破复数分类法、声音复数分类法等。使用这1,000个FST对76,000个编码的词元进行词形变化,从而产生具有600万种形式的完全词形变化的词典。完全屈折的资源由粘合语法扩展,以识别由多达5个片段组成的单词,粘合在核心屈折的动词,名词,形容词或粒子周围。凝集语法将识别扩展到超过5亿个 有 效的 分 隔 词 形式 ( 英 语 :delivered word forms )。这些资源在 Neme 和Paumier(2019)中进行了描述。Paumier的贡献是在C/C++核心引擎Unitex中实现和调整工具,用于闪族词形变化,处理部分元音化的查找算法,以及闪族语压缩算法。包含600万个表单的编码和完全变形字典的平面文件大小为340兆字节(UTF-16)。然后将其压缩为10 Mb,然后加载到内存中以进行快速检索。在MacBook上,完整形式词典的生成、压缩和最小化只需不到一分钟。标记速度为5,000字/秒,没有针对阿拉伯语的任何特定优化。我们已经测试了我们的资源从标准阿拉伯语在线报纸中提取的无限制文本,词汇覆盖率超过99%。我们原来的方法揭示了阿拉伯语传统形态学的新观点,并在闪米特语词典学,词汇学和形态学带来了新的概念作为对计算的贡献,7形态学,我们提出了一种新的方法,以处理丰富和复杂的闪族语言的基础上,阿拉伯国家的良好做法。阿拉伯语词法到目前为止,还没有全面而准确的阿拉伯语计算形态学资源。自1990年以来,几个计算机科学家团队已经在自然语言处理(NLP)系统中实现了阿拉伯语词法的传统模型,而没有质疑其目标,假设或其关键概念的定义中世纪的语法学家和词典编纂者为人类的纸脑设计了阿拉伯语的形态学和词典学,而我们应该为配备了处理器和存储设备的人类设计阿拉伯语的计算形态学。这种技术转变需要调整阿拉伯语形态学的模式。8世纪语法先驱的目标是发现阿拉伯语的特征这些先驱者积累了语义学、句法学、形态学、音韵学和词典学方面的知识,为了使语言标准化,他们制作了大量的目录由于地理扩张,为母语和非母语人士教学可能很快成为一个紧迫的目标。语言教学一直注重词汇、词义和语篇理解。与其他闪米特语言一样,阿拉伯语的词法是围绕着词根的抽象概念建立的,三个辅音代表一个意义,无论是精确的还是模糊的。传统的基于词根模式模型的派生形态学主要研究辅音词根。在这个模型中,每个单词都由一个词根和一个模式的组合来表示,比如kitaAb=[ktb &1i2a A3]( kitaAb“book”书 的 名字 ) 。 p a tt e rn 是一个不连续的a f f ix(或transfix),由元音和非根辅音组成,插入根辅音的槽周围。 对于每一个模式,传统语法将形态类别和/或屈折变化特征和/或语义功能关联到such a sagent(kaAtib=[ktb &1aA 2 i3],“wr it e r“,بتاك),p a ti e nt (ma k otuwb =[k tb &ma1o2uw3],&&“letter“,بوتكم),instrument(makotab=[ktbma1o2a3],“officetable“,بتكم),place(makotabap=[ktbma1o2a3ap],“library“,ةبتكم),etc.这 种 形 式 化 被 传 统 语 法 用 来 描 述 派 生(“write”/“book”/“writer”/“letter”/“library”)和屈折(“write”/“written”/“written”)形态。出于教学目的,这种近似和“优雅”的形式化可以很好地描述单词的构成和相关含义。在计算表示中包含这样一个“优雅”的描述是诱人的,但不适合系统描述。假设我们有词根和模式的清单(大约5,000个词根和400个模式,根据Beesley,(2001),因此,词汇表中的一个词元由一个词根和一个模式定义。从理论上讲,我们可能有多达200万个引理,这显然是无法达到的最大值,并且无法预测给定根的适用模式的子集;即使模式存在,其含义也是不可预测和不规则的。因此,在词根和模式模型中,阿拉伯传统在其表示中包括了构词法,这是语言描述中复杂性的又一个层次,而这在欧洲语言的计算形式化中是不存在的。8接下来,我们分析传统模式中哪些概念需要改变/调整计算形态学应该保留或放弃传统模型的哪些内容?计算形态学的主要目标是形式化和管理形式,而不是意义。单词派生应该完全保持在计算形态学的范围之外(Neme和Laporte,2013),至少在其目前的发展阶段。当系统包括单词派生的部分实现时,这增加了不必要的复杂性。阿拉伯语计算形态学的第一个目标应该是屈折形态学和准确的屈折资源的生产,因为它是法语或英语。只有可靠的信息才能用于计算形态学。模型中的模式和词根概念应简化为可靠的语音和拼写表示:辅音和元音序列。传统上附加在词根和模式上的语义和句法信息一个模式应该是辅音和元音在根辅音槽周围一起出现的序列。词根应该是辅音的序列Neme和Laporte(2013)提出了阿拉伯语计算形态学的现代现实模型的目标和范围的界定拉波特的贡献是在文章的措辞合作。在现阶段,词的派生和语义不适合在一个可靠的,形式化的帐户的形式变化。因此,计算形态学应该只形式化拐点。由计算机科学家设计的阿拉伯语形态分析器通常在其形式化中包括对派生形态和单词语义的部分描述,这些描述直接来自语法传统。通过这样做,计算机科学家可能希望他们的系统的输出但是,这种额外的信息太不完整和混乱,无法用于信息技术。这些学者忽略了计算形态学形式变化的正式的、干净的、可更新的和准确的描述。将词根与模式相结合的概念已经被验证了12个多世纪,是闪语形态学的支柱;它直接适用于信息技术,应该在计算形态学中保留。此外,它同样适用于派生词,当'根'有4个辅音甚至更多:就屈折变化而言,破碎的复数味噌酱酱Akiyn(有了same plura lpa tte rnasEunoquwd- Ean aqiy d(cluster- cluste rs,),lthoughmisokiyon是一个派生词(在传统形态学中,来自3个字母的词根,[skn ma 1 o2 ii 3]),而Eunoquwd有4个字母的词根。由于模式比与词根相关的规则更具可利用性,因此阿拉伯语计算形态学的关键是首先将模式分配给单词,然后确定它们的词根。9因此,通过从单词中减去模式,从而扭转了传统的根和模式优先,有利于模式和根模型(Neme和Laporte,2013)。模式优先于根也有两个原因:模式比根少(至少10倍),因此定义了更大的类;弱根字母4受到交替,混淆了基于根的分类。事实上,传统的模式和词根优先成功地(几乎完全精确地)用于动词屈折变化的分类,通过根据词根(3或4个词根字母)和词根交替来定义基于模式和动词子类的动词类,从而作为例外处理(参见Ryding,2005:chap.22-33中专门描述它们的12章)。由此产生的分类的精确性和实用性让我深入了解了将相同的方法扩展到破复数,传统上使用根和模式优先级进行分类。除了罕见的情况,计算机科学家在论文和书籍中重申传统形态学的概念,而不质疑这一传统。Beesley(1990-2002)在一个包含派生形态学和屈折形态学的系统中再现了纸质词典的词典编纂传统和词根模式模式。与这种方法相反,Buckwalter Arabic MorphologicalAnalysis(BAMA,第一版:Buckwalter,2002),一个专门用于解析文本的词汇资源,通过从词汇条目的表示中提取单词派生来个性化每个条目。BAMA解析器现在是阿拉伯语NLP的标准,在Penn Arabic树库中广泛使用(Maamouri et al.,2004年)。但是,由于带有转置的词干直接在BAMA词典中指定,而不是通过转置获得,因此该系统没有利用闪米特表示法。更新词汇资源是困难的,由于这些冗余和兼容性表中的依赖关系,表达的发音,粘着和拼写的变化和约束。最后,BAMA算法忽略了部分元音化,这有助于过滤歧义(Neme和Paumier,2019)。阿拉伯语计算形态学我们的目标是制定一个全面和准确的阿拉伯语文本的形态句法注释过程。要做到这一点,我们需要为阿拉伯语创建一个具有广泛和精确的形式覆盖的屈折资源在这项任务中,阿拉伯计算机科学家和语言学家面临着以下问题,尽管他们在某种程度上没有意识到这些问题,或者故意忽略它们。在经典的数据库软件应用程序中,软件工程师通常会花费所需的时间,并非常重视关系数据库的形式化,通常在编写任何代码之前。通过将传统形态学的许多概念视为理所当然,计算机科学家在实现问题上走得太快,而忽视了重新思考,重新定义和重构闪米特形态学的基本概念的重要性。事实上,他们没有花必要的时间仔细和系统地审查阿拉伯语数据。挑战如下:a) 缺乏对基于现代语言学的传统形态学的实质性批判性审查,以及与计算形式主义的兼容性。例如,在闪族传统中,派生形态和派生形态之间的模糊界限必须变得更加明确4在阿拉伯语语法术语中,弱字母是[j],[w]和长[a]。10(Neme和Laporte,2013年)。b) 屈折形态的丰富性,有许多不规则、特异性、语音和拼写上的变化。c) 闪族形态的非连接部分,对计算形态的挑战(Neme和Laporte,2013; Neme和Paumier,2019)。d) 根据形式的屈折变化和正字法变化,形式化和实施附着凝集规则的难度(Neme,2011;Neme和Paumier,2019)。e) 在标准文本中省略元音和其他变音符号,特别是部分元音化(Neme和Paumier,2019)。在下文中,我们将总结我们对上述问题的新方法。重新定义传统的阿拉伯语词法我们对传统的阿拉伯语词法进行了一些修改,保留了定义明确的概念,删除了无用的概念,并对模糊的概念进行了重新定义。与传统相比,我们对计算屈折变化的形态学的看法保留了作为闪米特形态学的支柱的模式和根的概念以及将模式与根交错的操作,并且它包括在Neme和Laporte(2013)中彻底讨论的以下主要改进:就像欧洲语言的语法传统一样,我们重新定义了派生形态和屈折形态之间的明确界限,并将前者排除在我们的表达之外。我们将根与模式颠倒为模式与根的闪米特模式,在这个意义上,我们首先指定模式,然后指定根。屈折闪语范式根据独立应用于基于模式的类和基于根的子类的命名规则来命名。我们不使用词根来标记潜在的含义或概念。我们直接根据可观察到的形态音系变化来分配一个表层词根,我们排除了传统的/生成的“深层或潜在”词根的概念基于模式和根模型,我们将破复数的“混乱”分类简化分类方法在阿拉伯语国家的语法教科书中,孩子们应该记住动词的变化表,并根据性别,数量,定义来计算名词的所有变化11和案件。在学校里,根据词元的特征(它的模式和它的根辅音的性质)来学习干扰词;然后,根据句法上下文和可能存在的粘着代词,通过规范化的形式 在我们的计算形态学方法中,这种在学校学到的分层规则以明确,系统和直接的分类法展开。在我们的计算表示和工具中,我们拥抱这些习惯和教学方法,这些习惯和教学方法被阿拉伯语母语者广泛分享,因此也被阿拉伯语的大多数潜在描述符所分享此外,我们的引用形式或词形化条目与传统词典相似:动词的完美第三人称阳性单数,名词或形容词的阳性或阴性单数。我们已经调整了Unitex平台中的工具,以促进范式变化的编码。我们已经创建了两个闪米特语分类法相对于动词的变化和破碎的复数变化;每一个都分为两个大的子分类法根据根字母的数量:三字或四字,这是兼容的传统形态。最后,我们设计了1,000个基于模式和根模型和常规名词/形容词连接模型的屈折类。由于屈折类很多,我们的方法的主要挑战是在手动构建或更新字典时为每个词汇条目分配正确的模式类和根子类。该计划必须是智能和系统的,以便为每个条目,用户应该猜测相关联的类很快。主要的闪米特语分类是根据模式类和根子类定义的;常规名词/形容词和其他POS分类是基于后缀值的条目:一个简单的动词分类法,用于460类的动词变位模型(Neme,2011)。一个简单的破复数分类法,名词有300个类别,形容词有50个类别(Neme和Laporte,2013)。其余的类是名词和形容词与后缀复数和其他POS类。FST最佳做法:范例方法大量的研究表明,自动机的语言问题的描述性水平的形态学和音韵学的欧洲语言。这些语言的形态学在连接形态学中,FST将表面形式整齐地映射到其语素结构。在Unitex中,一个递归文法是基于递归转换网络(RTN)的语言现象的表示,RTN是一种与有限状态自动机密切相关的使用Unitex创建的语法通过使用可读的图形形式主义进一步实现了[5]在本节中,语法意味着语言理论上的计算工具。12对于阿拉伯语,我们利用这种形式主义的可读性,并将其扩展到涵盖闪族形态。我们使用屈折语法来表示每个范式中的变化。我们使用凝集语法来表示构成定界词形式的语素的允许组合。这些语法由图形表示,用户可以轻松地创建,更正和更新。与Beesley对阿拉伯语的XFST方法相比我们的FST是紧凑的,严格按字母顺序排列。更具体地说,我们的语法编码不包括抽象层次,如特征值对,6而XFST使用这样的层次:[POS]Noun[gender]Masc。我们的FST实现简单和可读的规则和FST是由一个图形直观地表示,而XFST使用复杂的和异构的规则来定义在同一时间的规则范围,形态交替和后缀,除了在语法注释中的替换。我们使用“盲”FST,即,上下文不敏感的FST,而XFST使用大量上下文敏感的FST。每个盲FST都有一个预定义的范围,通过在词典中标记不相交的集合来分隔,即词典指定哪个FST适用于哪个条目,而XFST使用词性范围,即每个规则在具有给定POS的所有条目上触发。不需要对规则进行排序,因为每个条目最多应用一个FST,而XFST需要有序的规则。对于模块化,FST规则是独立的,因为它们的作用域是不相交的,这在Beesley的规则池方法中不是这样的。我们对变形形式的标记遵循逐代分析的方法,生成和分析具有独立的阶段:首先,我们生成完全变形的资源,然后通过查找过程将其重新用于分析,而Beesley声称他的资源对于分析和生成是对称的或可逆的(但6这种用冗长的语言来表示词汇资源的做法在今天仍然很常见。在语言音乐的力量:通过模式的阿拉伯语词形还原(Attia等人,2016)在专门讨论词典的研讨会上,作者将模式形式化为655行,每行/模式中有11个属性(见下文),其中7,200个值中有3,100个图案:tafAEal singularPattern:unspectype:verbs_verbs_verbs_verbs类型:unspecvType:6isBrokenPlural:unspechasBrokenPlural:unspechasFem:unspecsubOf:unspe cexa mpl es:一个人的世界评论:re ciprocal- intr a n sitiv e.在我们的词典中,这种模式的编码是:V-taFaaEaL-123,其中123表示规则模式,即,不经历形态音系变化的人。因此,我们的编码更加紧凑,只使用3个属性,而不是上面列出的11个属性(带下划线的属性)。13他没有提供世代使用的证据)7.UNITEX对闪米特形态的我们的语言工具进行了调整,以考虑阿拉伯语的形态需求(Neme,2011; Neme和Paumier,2019):我们的音译工具避免了处理双向文本文件的麻烦:从右到左的阿拉伯语脚本和从左到右的语言注释。在Unitex中实现了阿拉伯语/拉丁语的音译,这主要是受到阿拉伯语Penn Treebank中使用的Buckwalter编码的启发Unitex中屈折FST的编译器被扩展为支持根与模式的交错(Neme,2011)。我们还创建了其他屈折运算符来支持范式的特定表面变化,使我们的屈折分类更加紧凑,类别更少(Neme和Paumier,2019)。对于凝集,语言学家可以通过定义允许的具有适当特征值的语素序列和具有强制性代词或no(+pro,+nopro)的正字法变体形式来这些语法是与查找过程的代码分离的可读资源。我们首先对阿拉伯语动词(Neme,2011)进行了重用,然后对名词进行了扩展,将查找过程扩展到具有预定义单词内部语法的形态分析,由Paumier在2006年为韩语实现(Paumier,Nam,2014)。阿拉伯语中的元音是可选的正字法符号,写在字母上面或下面的变音符号。对于部分变音符号化,由于我们的资源是完全元音化的,因此在完整形式的字典中的查找过程被调整为仅保留与脚本化的变音符号兼容的分析,这加快了过程。不需要像其他方法那样进行回溯或过滤(Neme et Paumier,2019)。[7]Beesley否认了两级形态学在实践中的可逆性:考虑到XFST规则设备的复杂性,我们认为很难调整Beesley14变音符号和变音符号我们的资源识别非元音化的单词以及部分或完全元音化的单词。在大多数阿拉伯语文本中,有些单词至少有一个元音:它们占单词的1%到15%,具体取决于作者,体裁和领域。我们的方法通过Neme和Paumier(2019)为书面文本定义的二十多个排版规则来考虑元音和变音符号的存在或省略。这些规则在UNITEX中预定义为配置文件。发音标准在一些元音变化方面比较宽松,主要是第一个辅音之后的第一这种差异似乎往往与方言和区域发音对该区域阿拉伯语标准变体为了解释第一元音的变化,我们记录了这种变化,并优先考虑正式表示,可读性和词汇紧凑性。因此,所有的屈折形式和相关的元音变化都被归类在同一个词项下(Neme et Paumier,2019)。未来发展我们的方法是更有效的词汇覆盖率比独家语料库的方法。在我们的词典中,每一个增加的词元都涵盖了动词形式的相当大的变化。例如,一个附加的动词可以总结出250多种屈折形式,10,000多种粘合形式和数百万种部分元音化形式。对于一个屈折变化非常丰富的语言来说,所收集的语料库不可能涵盖这样的形式变化。我们的分析者在识别一个词形时的失败往往是由于缺少一个词元,或者由于屈折变化规则或粘合语法中的缺陷。在我们的方法中,我们在语言资源开发的早期阶段发现了屈折类规则(和凝集语法)中的缺陷,并且这些缺陷在真实文本的开发,使用和测试过程中迅速消失,几乎完全消失,因为在我们的方法中发现和修复这些缺陷是直接和简单的。因此,在我们的方法中,不正确标记单词形式的主要剩余原因一些基于规则的词法分析器过度分析标记,包括由于规则序列的意外触发而导致的不正确分析在阿拉伯语中,它也可能是由于未能排除涉及脚本变音符号的分析例如,忽略字母上方或下方的哈姆萨符号的拼写规则,如在“媒体”中对比你说的是未知形式通常是专有名词或普通名词和形容词,需要回退过程来使用正确的特征值对其进行标记。对于动词形式,根据我们的动词形式测试集,包含从Nemlar语料库中提取的10,000个元音化(或不)和粘合(或不)的动词形式,我们对动词的词汇覆盖率为99.9%(Neme,2011),这使得未知动词的后备程序几乎无用。对于未知的形容词,我们已经确定了一个经常出现的形态模式,代表关系形容词,如IislaAm-iyG15Paumier,2019,第5.3.1节)。这种以-iyG结尾的形态派生是一种产生式。因此,我们制作了一个形态语法的关系形容词与结尾-yG,以解决这个差距,我们的词汇覆盖。我们为关系形容词构建了一个调用18个子图的图:9个阳性,9个阴性(单数,双数,复数;定,不定,附)。这种形态语法识别以-yG结尾的形容词形式,粘合或不粘合,完全或部分元音化。该图检查词干名词是否在词典中列出。当然,这个简化的图表没有考虑词干名词末尾的音位变化,需要补充。然而,它显示了形态语法在Unitex中的潜力。关系形容词的形态语法(NRel-yG):阳性单数定(D表示'definite')的子图(1/18){\fn黑体\fs2\bord1\shad0\3aHBE\4aH0\fscx67\fscy6\2cHF\3cH808080}NRel:fsiN.你知道吗?中文(简体)زارَ�1ٌ�ةدَ�مِ�سَ�أNRel:fsDG.،للاَ�خَ�ف你好,我是说,DET.,{ليّ�ِ�نلا/2ْ�عَ�َ�ولْ�اةِ�د请输入您的电子邮件地址:msDG.ايبِ�ّ�َ�طلDET.,,{دِ�امَ�سلا/تاّ�َ�يمّ�كص3قْ�َ�نتاَ�ثوّ�ِ�َ�ل我的意思是,我的意思是,我的意思是,但是我不知道,你知道吗,اهَ�تِ�اوَ�/يفِ�اعرَ�ثواهَ�ت4دُ�يعِ�َ�تسَ�تٍ�َ�ثيدِ�ترَ�شُ�نة{ةٍ�ّ�يمِ�لْ�ع,يملع}NRel:fsiG.ح5ارَ�ديءَ�اجامبسحاذَ�هةس/当然,这是一个危险的地方。 我不知道, ّ�َ�يتِ�ابَ�ّ�َ�نُ�لْ�ادِ�اوَ�تامَ�ئاهلاوةّ�َ�يوِ�ضع/6م你好,我是说。但是,DET.,新加坡中文(简体)7ْ�اَ�تلْ�دّ�َ�لا但是,我不知道你是否知道。جيردْ�{اّ�ّ�يجيردْ�َ�ت,تسحَ�تنُ�/كعضوَ�لْ�اَ�أدَ�8لِ�ذدَ�ع}N R e l:fsD A.ي但是,DET.,/{سملحاوَ�9我不知道你在说什么你好,我是说,你知道吗,DET.,ْ�إِ�ْ�ِ�سحنَ�مة/ينْ�وسارَ�دّ�ِ�لاكلْ�10كْ�نِ�我的意思是,我的意思是,我的意思是,ةِ�َ�لاح你好,你好,D ET.,كامَ�سس/تِ�ساُ�ةدَ�اعَ�لَ�ْ�ا11حوُ�لامَ�ك16我是说,我是说,我是说,我是说,你好,你好,سّ�َ�يعاَ�قْ�َ�لعتَ�ناكيَ�يَ�لْ�امَ�امَ�َ�أاه12中文(简体)اوَ�يَ�حو我的天啊 D ET.,لا{نيتِ�ورُ�/لانبلْ�اويّ�ِ�لكُ�13يتِ�ورُ�ُ�بل17通过将NRel-yG.grf图8与定位在Unitex。对于未知的专有名词或人名和姓氏,我们建立了一个形态语法,用前缀Ebdul-、Abu-或bu-表示模式;在阿尔及利亚,名字也经常使用前缀bel-、bin-(RiadhBel kebir,个人交流)。这样的名字语法需要用后缀来完成,比如-Allah(NasrAllah)和-Aldiyn(NasrAldiyn)等。这同样适用于前缀为kafar-、bayt-然而,并不是所有的专有名词都可以经历前缀或后缀的在这里,定量的方法将是更合适的和音译字符串的统计数据应该有很大的帮助。对收集的外国专有名词和阿拉伯语普通专有名词进行的字符N元语法计数可以确定一个单词是阿拉伯语单词还是来自外国语言的转录,通常是专有名词。对于未知的名词和形容词,可以根据统计方法制定后备程序,以猜测性,数,定性和格。回退过程可以基于从我们的全形式词典中提取形态特征(单词长度、前缀和后缀)这种方法的优点是资源是全面的,考虑到所有的语言事实。对于未来的应用程序,我们的紧凑符号在阿拉伯语闪米特形态学中有一个轻松的解释;因此,它促进了语言学家,计算语言学家和开发人员之间精确和快速的沟通。我们已经将简洁性与可读性协调起来了。我们的符号允许根据标准的传统模式对派生名词进行编码:例如,可以通过将标准模式IisotiFoEaaL与第三个根字母IisotiFoEaaL-12 n,9等的约束相结合来编码词根以“n”结尾的派生名词事实上,阿拉伯语闪米特语形态学的基础,即预定义的模式数量和一组形态-语音变化规则,自然地转化为正则表达式和FST。这种表示法使实现更容易维护和调试,因为它对开发团队的所有成员都更容易理解。观点词形句法标注是一种将由一个标签或一系列潜在标签指定的每个词的语法信息阿拉伯语中的一个词最多可以由五个语素组成因此,正确的分析应该达到预期的语素切分8本索引中的实施例7和10表示“沉积物”和“统计数据”。它们是阴性复数,但在词典的词条中它们必须是lemmata。语法不应该将这些事件与相应的规范单数形式相关联,但程序不能自动决定这一点。我们认为,单/复数形式的频率表和相关的索引应该是一个很大的帮助,以帮助语言学家在决定是否插入(或不)复数形式作为lemmata在词汇条目。9在Unitex中,我们用这个模式和这个约束创建了一个名为IisotiFoEaaL-12n.grf的图。该实现使用Unitex形态模式,图形可以匹配完全或部分元音化的表单。18并为每个片段分配正确的标签。在多候选标记中,通过候选列表中适当的语法标签的存在来定义段的适当标记。因此,不正确的标记是候选列表中缺少该正确的标签。多候选标记是好的,但它通常不足以应用程序。一般来说,阿拉伯语的形态句法歧义率高于法语,这是由于词素凝集,主要是由于变音符号的省略。我们认为采用混合方法,首先标记词素,然后应用基于监督学习的语言模型,将足够准确地从候选列表中选择正确的解决方案我们认为这种混合的单解标记方法将比纯定量方法提供更好的准确性,主要原因有两个:它利用了一个全面而准确的词典,减少了未知词的数量;通过这种统计分类要标记的单元是词素,而不是由凝集片段构成的词,这减少了由凝集引起的标记的数据稀疏性。结论我们的PRIM模型重新定义和简化了传统的阿拉伯语形态,我们已经进行了修订,保持良好的定义的概念,删除无用的和重新定义模糊的。与传统相比,我们对计算屈折变化的形态学的看法保留了作为闪米特形态学的支柱的模式和根的概念以及将模式与根交错的操作,并且它包括在Neme和Laporte(2013)中彻底讨论的以下主要改进:就像欧洲语言的语法传统一样,我们重新定义了派生形态和屈折形态之间的明确界限,并将前者排除在我们的表达之外。我们将根与模式颠倒为模式与根的闪米特模式,在这个意义上,我们首先指定模式,然后指定根。屈折闪语范式根据独立应用于基于模式的类和基于根的子类的命名规则来命名。词根是辅音的序列。我们不使用词根来标记潜在的含义或概念。同样,我们也不使用模式来标记POS。我们直接根据可观察到的形态音系变化来分配一个表层词根,我们排除了传统的/生成的“深层或潜在”词根的概念基于模式和根模型,我们将破复数的“混乱”分类简化对于未来的发展,我们的紧凑符号拥有在阿拉伯闪族的解释19形态学因此,它使语言学家,计算语言学家和开
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功