没有合适的资源?快使用搜索试试~ 我知道了~
Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com分析器的方言阿拉伯语形态Wael Sallouma,*, Nizar Habashba美国哥伦比亚大学计算学习系统中心b纽约大学阿布扎比分校,阿拉伯联合酋长国2014年10月2日在线发布摘要现代标准阿拉伯语(MSA)有很多资源,而阿拉伯方言,阿拉伯语的主要口语地方品种,在这方面是相当贫穷的。在本文中,我们提出了ADAM(分析器方言阿拉伯语形态)。亚当是穷人快速开发阿拉伯方言的形态分析器。ADAM的失词率大约是最先进的MSA分析仪的一半,其召回性能与埃及方言形态分析仪相当,后者需要花费数年时间和昂贵的资源才能构建。©2014作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/3.0/)。1. 介绍阿拉伯语方言,或主要使用的阿拉伯语地方变体,最近在自然语言处理(NLP)领域受到越来越多的关注。研究这些方言的一个重要挑战是创造形态分析器,或者说是一种工具,可以在上下文之外为一个特定的书面词提供所有可能的分析。虽然现代标准阿拉伯语(MSA)有许多这样的资源(Graff等人,2009年;Smrz,2007年; Habash,2007年),方言阿拉伯语(DA)相当贫乏(Habash等人,2012年b)。此外,MSA和方言有很大的不同形态学上:Habash等人,2012年b报告说,只有64%的埃及阿拉伯语单词可以使用MSA分析仪进行分析。因此,使用MSA资源来处理方言将具有有限的价值。*通讯作者。电子邮件地址:wael@ccls.columbia.edu(W.Salloum),nizar.habash@nyu.edu(N. Habash)。沙特国王大学负责同行审查制作和主办:Elsevierhttp://dx.doi.org/10.1016/j.jksuci.2014.06.010此外,对于任何语言或方言,开发良好的大规模覆盖词典和分析器可能需要大量的时间和精力。在这篇文章中,我们提出了ADAM(分析器方言阿拉伯语形态)。ADAM是一个穷人的解决方案,开发一个快速和肮脏的形态分析器,为日常阿拉伯语。ADAM可以按原样使用,也可以用作这是引导阿拉伯方言分析器的第一步。它涵盖了所有的词性(POS)标签,就像任何其他形态学分析器一样;然而,因为我们主要使用ADAM来处理文本,所以我们不对阿拉伯语方言之间的语音差异进行建模,也不评估语音差异。在这项工作中,我们应用ADAM扩展MSA clitics生成不同的阿拉伯语方言的proclitics和enclitics。这种技术也可以应用于词干生成方言词干;然而,这超出了这项工作的范围。在第2节中,我们回顾了处理阿拉伯语的一些挑战我们将在第3节讨论相关工作,并在第4节概述和详细介绍我们的方法。最后,在第5节中,我们使用各种指标进行了几次详细的评估,并与MSA和埃及阿拉伯语的最先进分析仪进行了比较。1319-1578© 2014作者。制作和主办由爱思唯尔B.V.代表沙特国王大学。这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/3.0/)。关键词阿拉伯语自然语言处理;阿拉伯方言;阿拉伯语词法;机器翻译阿拉伯语方言词法分析仪373------2. 阿拉伯语事实和挑战在本节中,我们将讨论处理一般阿拉伯语和方言阿拉伯语(DA)的挑战。2.1. 阿拉伯语挑战阿拉伯语对NLP来说是一个挑战。阿拉伯语是一种形态复杂的语言,包括丰富的语法形态,既有模板式的,也有附加式的,还有几类附加式的。 比如说,的阿拉伯语词ﻭﺳﻴﻜﺘﺒﻮﻧﻬﺎ(w+s+yKTBWN+hA 1,'andtheywillwriteit')有两个proclitics(+w+,'and,'and+s+,'will'),一个prefix(-y,'3rdperson'),一个suffix(后缀-wn,'阳性复数')和一个代词enclitics(后缀++hA,'it/her')。此外,阿拉伯语是书面与可选的变音符号,指定短元音,辅音加倍和nunation语素。 这些变音符号的缺失以及 语 言 丰 富 的 形 态 导 致 高 度 的 歧 义 : 例 如 ,Buckwalter 阿 拉 伯 语 形 态 分 析 器 ( BAMA )(Buckwalter,2004)平均每个单词产生12个分析。此外,一些阿拉伯字母的拼写经常不一致,这导致稀疏性(同一单词的多种形式)和歧义性(同一形式对应于多个单词),例如, Hamzated Alif的变体, 或者说,没有他们的Hamza(“)写的:A;和Alif-Maq(或无点的Ya),y '和常规的点Ya,y,经常在单词的最终位置互换使用(ElKholy和Habash,2010)。使用分析、消歧和标记化工具来处理阿拉伯语复杂形态和歧义(Habash和Rambow,2005; Diab等人,2007年)。在这篇文章中,我们关注的是形态分析的问题,这是关于识别所有的,只有可能的阅读(或分析)的一个词脱离上下文(哈巴什,2010)。2.2. 阿拉伯方言挑战当代阿拉伯语是一个品种的集合:MSA,它有一个标准的正字法,并在正式场合使用,和DA,这是常用的非正式和越来越多的出现在网络上,但没有标准的正字法。有几种主要在地理上不同的DA品种,例如,黎凡特阿拉伯语、埃及阿拉伯语等等(哈巴什,2010年)。DA与MSA在语音、形态上不同,在句法上也有一定程度的不同。MSA和DA之间的差异经常被比作拉丁语和罗曼语之间的差异(Habash,2006)。形态学上的差异最明显地表现在使用MSA中不存在的clitics和affixes。例如,上述MSA示例的黎凡特语和埃及阿拉伯语等价物是,(w + H+ y ktbw + hA,'他们会写')。[2]元音变音符号的可选性有助于隐藏元音变化所导致的一些差异;比较变音符号的形式:1阿拉伯语音译采用Habash-Soudi-Buckwalter方案(Habash等人,2007年)。2这个埃及阿拉伯语单词的拼写变体是w+h+y-ktb-w + hA。wHayuktubuwhA(黎凡特)、waHayiktibuwhA(埃及)和wasayaktubuwnahA ( MSA ) ( Salloum 和 Habash , 2011年)。值得注意的是,黎凡特语和埃及语在语音上有很大的不同,但省略短元音的正字法选择关于两种方言之间的差异的扩展讨论,我们请读者参阅以下书籍:奥马尔,1976年;阿卜杜勒-马西赫等人,1979; Cowell,1964. 在这项工作中,我们专注于处理文本,因此,我们不建模短元音。上述MSA的所有NLP挑战都是DA所共有的。然而,方言及其众多变体缺乏标准拼写法带来了新的挑战(Habashet al.,2012年a)。此外,DA在与MSA相同的可用工具和资源方面相当贫乏;例如,DA-英语平行语料库很少,MSA-DA平行语料库几乎没有。与MSA相比,DA的形态学分析和消除歧义工具的数量和复杂性非常有限(Duh和Kirchhoff , 2005; Habash 和 Rambow , 2006; Abo Bakr 等人,2008; Habash等人,2 0 1 2 年b)。MSA工具不能有效地用于处理DA:Habash和Rambow,2006年报道,使用MSA形态分析器可以分析不到三分之二的黎凡特动词,Habash等人,2012年b报告说,只有64%的埃及阿拉伯语单词可以使用MSA分析仪进行分析。Salloum和Habash(2011)报告说,方言语料库中26%的词汇外(OOV)术语具有MSA阅读或专有名词。其余的,74%,是方言词。他们将方言词分为两种类型:具有类似MSA的词干和方言词缀形态(af fixes/clitics)的词,以及具有方言词干和可能的方言形态的词。前一组占所有OOVs的近一半(49.7%)或所有方言OOVs的近三分之二。在这篇文章中,像Salloum和Habash,2011,我们只针对方言词缀形态的情况,因为它们是涉及方言现象的最大类,不需要扩展到词干词汇。3. 相关工作已经有大量关于阿拉伯语形态学分析的著作,重点是MSA(Beesley等人,1989;Kiraz,2000; Buckwalter,2004; Al-Sughaiyer和Al-Kharashi,2004; Attia,2008; Graff等人,2009; Altantawy等人,2011; Attia等人,2013年)。相比之下 , 只 有 少 数 努 力 针 对 DA 形 态 ( Kilany 等 人 ,2002;Habash 和 Rambow , 2006; Abo Bakr 等 人 , 2008 年 ;Salloum和Habash,2011年; Mohamed等人,2012; Habash等人,2012 b; Hamdi等人, 2013年)。阿拉伯语方言形态建模的努力一般分为两个阵营。第一种是专注于扩展MSA工具以覆盖DA现象的解决方案。例如,AboBakr等人,2008和Salloum和Habash,2011扩展了BAMA/SAMA 数 据 库 ( Buckwalter , 2004; Graff 等 人 ,2009)接受DA的预设和预设。这些努力感兴趣的DA文本映射到一些MSA的形式,因此,他们不建模DA语言现象。这些解决方案实施起来既快又便宜。第二个阵营对直接建模DA感兴趣。然而,这样做的尝试在一个方面或另一个方面缺乏覆盖面。最早的埃及研究374W. Salloum,N. 哈巴什我们知道的是埃及口语阿拉伯语词典(Kilany等人,2002年)。该资源是开发CALIMA 埃及形态分析仪的基础( Habash 等 人 , 2012 年 b , 2013 年 ) 。 另 一 项 工 作 是(Habash和Rambow,2006),它专注于使用通用多层有限状态机框架对DA和MSA进行建模。Mohamed等人,2012年注释了一组埃及语的词素边界,并使用这些数据开发了一个埃及语分词器。Eskander等人,2013b提出了一种方法,用于自动学习从形态学注释的corpora中的分类和相关引理。Hamdi等人,2013年利用MSA及其方言的紧密性,建立了从突尼斯阿拉伯语动词到MSA动词的翻译系统。与第一阵营提出的浅层技术相比,这种建模阿拉伯方言形态的方法通常会产生更好质量的形态分析器。然而,它们是昂贵的,需要更多的资源和努力。此外,它们更难扩展到新的方言,因为它们需要注释的训练数据和/或手写的规则。本文中介绍的工作更接近第一个阵营。我们超越了以前的工作,涵盖了更多的dia-lets,并提出了详细的评估覆盖率和召回对两个国家的最先进的系统:SAMA的MSA和CALIMA的埃及阿拉伯语。4. 方法在本节中,我们描述了我们的方法来开发ADAM,方言阿拉伯语形态分析仪4.1. 动机ADAM旨在用于方言阿拉伯语文本,以提高机器翻译(MT)的性能;因此,我们专注于正字法而不是音韵学。辅音和长元音在阿拉伯语中被写成字母,而短元音是字母上方或下方的可选变音符号。这导致人们在写作中忽略短元音,因为作品的解释可以从上下文中推断出来。即使当人们写短元音时,它们也是不一致的,由于视觉上的困难,短元音可能会出现在错误的字母之上或之下因此,对机器翻译的研究倾向于完全放弃短元音,因为ADAM是为了提高机器翻译的性能而构建的,所以我们选择从ADAM中删除短元音。不同阿拉伯语方言(至少是我们在本书中提到的阿拉伯语方言:黎凡特语、埃及语和伊拉克语)的词素通常具有相似的形态句法行为,如将来时助词、进行时助词、动词否定、代词、间接宾语代词和命题。此外,这些方言之间共享许多语素,特别是在丢弃短元音时。因此,将多种方言的字形统一在一个系统中是合理的。当查询ADAM时,用户可以选择指定查询词的方言,以排除其他方言4.2. 数据库ADAM建立在SAMA数据库之上(Graff等人,2009年)。SAMA数据库包含三个阿拉伯语词干、复杂前缀和复杂后缀以及三个附加表,这些附加表具有匹配它们的约束。我们将复杂前缀定义为可能出现在单词开头的前缀/proclitics的完整序列。复数后缀的定义类似。根据SAMA数据库,MSA有1208个复杂前缀和940个复杂后缀,分别对应于49个简单前缀和177个简单后缀。前置放大器的组合数量远大于后置放大器,这解释了复杂放大器与简单放大器的比例不同。ADAM遵循与ALMOR形态分析器/生成器(Habash,2007)相同的数据库格式,ALMOR形态分析器/生成器是用于阿拉伯语的形态分析和消歧的MADA系统的基于规则的组件(Habash和Rambow,2005; Roth等人,2008年)。因此,ADAM将分析结果输出为引理和特征值对,包括clitics。这使得在任何使用ALMOR的MSA NLP系统中用ADAM数据库替换ALMOR数据库变得更容易,从而将其扩展到ADAM处理的方言。然而,该模型必须在方言数据上重新训练。例如,MADA可以通过插入ADAM数据库代替ALMOR数据库并在Levantine TreeBank上训练MADA4.3. SADA规则我们通过一组规则扩展了SAMA数据库,这些规则将黎凡特语、埃及语和伊拉克方言的后缀和后缀添加到数据库中。我们称之为标准阿拉伯语到方言阿拉伯语映射技术SADA。3.要添加一个方言af fix(或clitic),我们首先寻找一个具有相同形态语法行为的现有MSA af fix,然后编写一个规则(正则表达式),捕获这个MSA af fix的所有实例(无论是它本身还是在复杂af fix中),并用新的方言affix替换它们。除了改变MSA af fix的表面形式外,我们还根据需要改变检索到的数据库条目中的任何特征,例如词性(POS),proclitics和enclitics,并在需要时添加新特征,例如“dia”,它给出了这个新方言af fix的方言。最后,将新更新的数据库条目添加到数据库中,同时保留原始条目以维护MSA词的分析。SADA规则是由其中一位作者创建的,他的母语是黎凡特阿拉伯语,对埃及语和伊拉克语有很好的了解。编写规则需要大约70小时的工作,不需要任何计算机科学知识。这项任务也不需要语言学家;任何对形态学(特别是POS)有基本理解的母语人士都可以编写这些规则。因此,使用众包,与其他方法(如MAGEAD 和CALIMA )相比,ADAM可以轻松廉价地扩展到其他方言或次方言,这些方法可能需要数月甚至数年才能覆盖一种新方言。此外,由于SADA规则可以应用于任何类似ALMOR的数据库,因此SADA可以扩展MAGEAD和CALIMA,以创建优于这些分析器的ADAM版本。我们用SADA扩展了CALIMA,并在第5节中对其进行了评估。为了创建规则列表,我们从2010 年从Raytheon BBNTechnologies获得的高频方言单词列表开始创建单词列表的过程3SAD A,阿拉伯语中的“回声”。阿拉伯语方言词法分析仪375通过提取GALE转录的音频数据(大约2000 h)中注释的非MSA 区域中的所有单词并将它们 与GALE 网络数据(Webtext)中的单词交叉来开始。通常情况下,这些词中有许多是MSA,它们必须被自动或手动排除,最终得到一个22,965种类型(821,700个标记)的列表,其中大部分是方言词。每个方言词在上述两个语料库中出现的频率不同。选择两个频率中的最大值作为词频,并根据该频率对列表进行排序。我们在这个列表中标注了方言和POS的前1000个单词,以研究我们正在处理的方言现象。类型,我们考虑方言未来前缀+H+这个前缀的行为与标准阿拉伯语未来小品词+s+类似。因此,扩展规则将创建MSA前缀的每次出现的副本,并将其替换为方言前缀。SADA使用此规则扩展SAMA数据库,并添加前缀Ha/ FUT_PART 和 许 多 其 他 涉 及 它 的 组 合 , 例 如 ,wa/PART + Ha/FUT_PART + ya/IV3MS,Ha/FUT_PART+ na/IV 1 P,等等。对于第二种类型,我们考虑黎凡特方言的指示前缀+我们分析了这些词的形态,以确定频率-名词 对 顶部 的 的 确定器 粒子+粒子Al+“the”。词素的数量类型及其拼写变化,以及方言之间的共同词素和共有的形态句法行为。这一分析导致了SADA规则第一版的创建。在获得更多的方言文本进行分析后,添加了新的规则。4.4. 示例我们讨论两个代表两种不同扩展类型的例子对于第一个因为这个小品词在MSA中没有等价物,我们有一个规则,扩展限定词+这个/这些这个+这个 ,允 许新的 小品词 附着在它上面,这就等价于在限定词允许出现的地方出现一个新的小品词+这个/这些这个。这些规则(总共1,021个)引入了16个新的方言前缀(加上拼写变体和组合)和235个方言后缀(再加上拼写变体和组合)。表1显示了SADA添加的新proclitics/enclitics的示例作为ADAM输出的一个例子,考虑图2中的第二组行。1,其中显示了单个分析。表1SADA添加的方言后缀示例列表。'L'代表黎凡特,'E'代表埃及,'I'代表伊拉克,'M'代表多种方言。PNG是Person-Number-Gender。方言POS评论PrefixBL、EPROG_PART一般现在MNLPROG_PART单纯现在时(n/IV 1 P)D我PROG_PART一般现在Em,EbLPROG_PART进行时HMFUT_PART未来粒子HEFUT_PART未来粒子RHLFUT_PART未来粒子mA,mM阴性_部件否定不LJUS_PART‘in order哈尔L我DEM_DET_PART‘this/these’E埃利亚L,IMMPREP_PARTPREP_DET_PART VOC_PART‘on/to/about’ ‘on/to/about呼格助词苏菲亚l+ [pronPGN]MPREP+ VSUFF_IO:[PGN ]间接宾语,例如,lw、lhA等。$E、L阴性_部件否定后缀$我PRON_2MS苏式代词J我PRON_2FS苏式代词KYLPRON_2FS前接长元音YKLPRON_2FS前加短元音WWLVSUFF_SUBJ:3P + VSUFF_DO:3MS主语是3P,宾语是3MS利未记英语等值词wmAHyktblw‘And he will not write to分析:Levantine:POS:英语:普罗克利蒂奇[引理特征]恩克利蒂奇w+conj+和+mA+阴性+ 非+H+fut+will+YKTB[katab IV subj:3MS voice:act]他写道+L+准备+至+W+pron3MS他图1一个例子说明了一个黎凡特阿拉伯语单词的ADAM分析输出376W. Salloum,N. 哈巴什~~~~5. 评价在 本 节 中 , 我 们 针 对 两 种 最 先 进 的 形 态 分 析 仪 评 估ADAM:SAMA(v 3.1)(Graff等人, 2009)对于MSA和CALIMA(v0.6)(Habash等人,2012年b),埃及阿拉伯语。我们将SADA扩展应用于SAMA和CALIMA,产生两个ADAM版本:ADAMsama和ADAMcalima。我们比较了四个分析器在两个指标上的性能:词汇外(OOV)率和上下文部分的语音召回。我们考虑从黎凡特和埃及阿拉伯语的数据收集。在这项工作中,我们不评估我们的系统在伊拉克阿拉伯语上的性能。最后,我们报告了ADAM在机器翻译(MT)任务中的贡献。5.1. 对覆盖面我们比较了上面列出的四个分析器在OOV率方面的性能:所有类型或标记中可分析类型或标记的百分比。此度量并不保证分析的正确性,只是保证分析可用。对于诸如无变音符号化之类的任务,在某些情况下这实际上可能是足够的。我们使用大约3.8 M未标记化单词的DA-英语平行语料库的方言侧,其由(Habash et al.,2013年)。2.7 M代币(以及315 K类型)埃及阿拉伯语,1.1 M代币(以及137 K类型)是黎凡特阿拉伯语。表2显示了四种形态分析仪在Levantine和Egyptian数据上在类型/标记OOV率方面的性能。ADAMsama和ADAMcalima改进了它们扩展的基本分析器(分别是SAMA和CALIMA)。对于SAMA,ADAMsama为Levantine的OOV费率降低了超过50%的类型费率和66%的虚拟币费率.埃及阿拉伯语类型和 标 记 的 相 应 值 为 29% 和 50% 。 ADAMsama 的 性 能 与CALIMA的性能相当有竞争力,CALIMA是一个花费多年时 间 和 大 量 资 源 开 发 的 系 统 。 在 埃 及 阿 拉 伯 语 上 ,ADAMsama和CALIMA的OOV率几乎相同,但ADAMsama在黎凡特阿拉伯语上的表现优于CALIMA,而CALIMA不是为黎凡特阿拉伯语设计的。此外,ADAMcalima比CALIMA提高了一个较小的百分比,这表明ADAM方法即使在开发良好的方言分析器上也是有用的。5.2. 语境中词性回忆我 们 评 估 了 上 述 四 个 分 析 器 的 上 下 文 中 的 POS 召 回(IPOSR)。IPOSR被定义为分析器在特定单词的分析集合中产生具有上下文中的正确POS的分析的时间百分比。为了计算IPOSR,我们需要手动注释的数据集:黎凡特阿拉伯树库(LATB)(Maamouri等人,2006)和埃及阿拉伯语(ARZ)树木银行(Eskander等人,2013年a)。我们在表3 中的四个分析器上报告了Levantine 和Egyptian 的IPOSR类型和标记。表2四种形态分析仪对地中海东部和埃及MT训练数据的覆盖率评估 类型和令牌的条款OOV率。数据集Levantine埃及字数类型令牌类型令牌137,2571,132,855315,8862,670,520系统度量类型(%)代币(%)类型(%)代币(%)SAMAOOV率35.516.147.214.0亚当·萨马OOV率16.15.533.47.0CalimaOOV率20.46.934.47.2亚当·卡利马OOV率15.65.332.36.6表3四种形态分析器在黎凡特和埃及树库上的正确性评估(类型和标记)。Type*是TreeBank中唯一单词-POS对的数量数据集黎凡特结核病埃及结核病字数类型*令牌类型*令牌420119,92565,064309,386系统度量类型*(%)代币(%)类型*(%)代币(%)SAMAOOV率17.19.820.38.4词性回忆68.364.660.075.1亚当·萨马OOV率2.81.27.62.0词性回忆86.779.775.591.4CalimaOOV率3.81.75.61.6词性回忆86.080.285.494.7亚当·卡利马OOV率2.51.05.21.4词性回忆87.880.785.594.7阿拉伯语方言词法分析仪377首先,我们观察到TreeBank数据中的OOV率远低于我们在上一节中使用的数据中的OOV率。使用方言分析仪(SAMA以外)的OOV率降低也更强烈。这可能是由于TreeBank数据通常比我们使用的一般语料库数据更干净,噪音更少。接下来,我们观察到SAMA 具有非常低的IPOSR率,这与上文引用的先前研究一致。ADAMsama将Levantine和Egyptian Arabic的总体IPOSR分别提高了大约27%和23%。ADAM和CALIMA在黎凡特阿拉伯语中的性能几乎不相上下,但CALIMA在埃及阿拉伯语中的性能优于ADAM,正如预期的那样。最后,ADAMcalima对黎凡特阿拉伯语的CALIMA进行了更多的改进,对埃及阿拉伯语的影响较小。所有这一切都表明,ADAM解决方案与最先进的分析仪相比具有相当的竞争力,因为它创建起来既方便又快速。ADAM可以为方言数据的注释或建立更精确的方言资源提供一个很好的自举方法。我们应该注意到,这种面向召回的评估忽略了可能的精度差异,这可能是由于ADAM方法倾向于比它扩展的原始分析器每个单词产生更多的分析。事实上,在埃及阿拉伯语的情况下,亚当sama产生21.8分析每个字相比,SAMA如果没有对所产生的分析进行全面、仔细和大规模的评估,就很难量化ADAM分析的正确性或可行性5.3. 机器翻译任务的评价我们设计了ADAM作为机器翻译工具和任务的一部分,以提高输出质量。在下面的小节中,我们总结了使用ADAM的MT工具和任务5.3.1. 艾丽莎与亚当ADAM被用作ELISSA(Salloum和Habash,2013)的一部分,这Salloum和Habash,2011年展示了如何使用ADAM作为预处理步骤,将方言阿拉伯语OOV单词标记为更小的单位(标记),以便更好地将其正确翻译为英语。这种方法比他们的36.16%BLEU4基线提高了0.34%BLEU,即使他们的目标是测试集的一小部分(大约占所有单词的0.6%他们还 在MT OOV 单词 的分 析/ 传输 /生成 方法 中使用 了ADAM , 这 使 得 BLEU 比 上 面 提 到 的 相 同 基 线 提 高 了0.45%。此外,Salloum和Habash在2011年扩展了需要处理的OOV单词的选择,以包括MT训练数据中的低频单词。他们使用ADAM将低频词分为三类,仅方言,仅MSA和方言+MSA,并根据经验决定每个类别的切割阈值。这种分类帮助他们的技术更好地选择转移到MSA的单词,并导致0.62%的改进4 BLEU(Papineni等人,2002)是MT系统的评估指标。5.3.2. 选择MT系统的方言识别当翻译混合方言输入(MSA和DA)时,ADAM用于机器翻译系统选择的语言级方言识别方法(Salloum等人,2014年)。我们获得了两组训练数据:DA到英语(500万单词)和MSA到英语(5700万单词)。我们从这些平行语料库中构建了四个MT系统:DA到英语SMT,MSA到英语SMT , DA+ MSA 到 英 语 SMT , 以 及 基 于 Salloum 和Habash,2013年提出的基于ELISA的MSA旋转的DA到英语混合MT系统。第四个MT系统是四个系统中最好的,BLEU得分为33.9%。为了利用这四个MT系统,我们提出了一种系统选择方法,以从优势中获益,同时避免弱点。为此,我们训练了一个高级四类分类器,该分类器针对输入的阿拉伯语句子预测应该基于从阿拉伯语句子中提取的语言特征翻译该句子的MT系统。本文中的一些特征是用ADAM从句子中提取出来的,以确定这句话的方言性。仅在这些特征上训练的四类分类器比最好的单个MT系统(即,第四个系统)。6. 结论和今后的工作在这项工作中,我们提出了一种廉价和简单的方法来开发方言阿拉伯语的形态分析器。我们的方法是通过一组手写规则来扩展MSA形态分析仪的数据库,以将方言词缀的新条目添加到数据库中。我们评估了亚当在黎凡特和埃及的表现。我们发现,ADAM的OOV率约为SAMA(MSA)的一半,其召回性能与CALIMA相当,CALIMA是一种埃及方言形态分析仪,需要多年的时间和昂贵的资源来构建。此外,ADAM已被证明有助于机器翻译任务。在未来,我们计划添加新类型的规则:通过复制和修改现有MSA词干来创建新方言词干我们还计划将我们的方法应用于其他阿拉伯语方言。致谢这项研究得到了美国国防部高级研究计划局(DARPA)GALE 计 划 ( 合 同 号 HR 0011 - 06-C-0022 ) 和 DARPABOLT计划(合同号HR 0011 -12-C-0014)的支持本文中表达的任何观点、发现、结论或我们要感谢John Makhoul和Spyros Matsoukas进行了有益的讨论和反馈,并为我们提供了用于方言现象初步分析的数据。引用Abdel-Massih,E.T.,Abdel-Malek,Z.N.,巴达维,E.S.M.,1979.埃及阿拉伯语的参考语法。北京大学出版社.Abo Bakr等人,2008年Abo Bakr,H.,Shaalan,K.,济丹岛2008.一种将书面埃及口语方言转换为变音阿拉伯语的混合方法。在第六届信息学与系统国际会议上,INFOS2008,开罗大学。378W. Salloum,N. 哈巴什苏盖尔岛哈拉希岛2004.阿拉伯语形态分析技术:全面调查。J.Am. Soc. Inform. Sci. Technol.55(3),189-213.Altantawy,M.,Habash,N.,兰博岛,2011.快速而丰富的形态分析。第九届国际研讨会论文集关于非线性状态方法和自然语言处理(FSMNLP 2011),法国布卢瓦。Attia,M.,2008.在LFG框架内处理阿拉伯语的形态和句法歧义,以实现机器翻译(博士论文)。英国曼彻斯特大学Attia,M.,Pecina,P.,Toral,A.,van Genabith,J.,2013.一个基于语料库的现代阿拉伯语有限状态形态工具包。J.逻辑计算, 070。Beesley,K.,Buckwalter,T.,牛顿,S.,1989.阿拉伯语形态学的两级有限状态分析。在阿拉伯语和英语双语计算研讨会的会议记录中,第n.p.页Buckwalter,T.,2004.巴克沃特阿拉伯语词法分析器2.0版。LDC目录号LDC 2004 L02,ISBN 1-58563- 324-0。考威尔, M.W., 1964. 一 参考 语法 叙利亚阿拉伯语。北京大学出版社.Diab,M.,Hacioglu,K.,Jurafsky,D.,2007.处理阿拉伯语文本的自动化方法:从标记化到基本短语组块。In :Van denSoudi,A.,Soudi,A.(编),阿拉伯语计算形态学:基于知识和经验的方法。Kluwer/Springer。当然,K.,Kirchhoff,K.,2005.阿拉伯方言的词性标注:一种最小监督方法。在ACL Semitic语言计算方法研讨会的会议记录中,Semitic '05,Ann Arbor,Michigan,pp。55比62ElKholy,A.,Habash,N.,2010.阿拉伯语形态去标记化和正字法 去 规 范 化 技 术 。 第 七 届 语 言 资 源 和 评 估 国 际 会 议(LREC),马耳他瓦莱塔。埃斯坎德尔河,Habash,N.,Bies,A.,Kulick,S.,Maamouri,M.,2013年a。形态学标注的自动校正和扩展。在第七届语言学注释研讨会和话语互操作性,索非亚,保加利亚。计算语言学协会,pp。1-10。埃斯坎德尔河,Habash,N.,兰博岛,2013年b。从词形标注语料库中自动抽取词形词典。2013年自然语言处理经验方法会议论文集,西雅图,华盛顿,美国。计算语言学协会,pp。1032-1043。Graff,D.,Maamouri,M.,Bougeli,B.,Krouna,S.,Kulick,S. , Buckwalter , T. , 2009. 标 准 阿 拉 伯 语 形 态 分 析 器(SAMA)版本3.1.语言数据联盟LDC2009E73。Habash , N. , 2006. 关 于 阿拉 伯 语 及其 方 言 。 多 语种 杂 志 17(81)。Habash,N.,2007.机器翻译的阿拉伯语形态表示。在:van denBosch,A.,Soudi,A.(编),阿拉伯语计算形态学:基于知识和经验的方法。斯普林格。Habash,N.,2010年。阿拉伯语自然语言处理简介。出版社:Morgan& Claypool PublishersHabash,N.,兰博岛,2005.一举实现阿拉伯语分词、词性标注和词法消歧。在计算语言学协会(ACL'05)第43届年会的会议记录中,Ann Arbor,Michigan,pp。573-580.Habash,N.,兰博岛,2006年。MAGEAD:阿拉伯语方言的形态在第21届计算语言学国际会议和第44届计算语言学协会年会,悉尼,澳大利亚,页。681-688Habash,N.,Soudi,A.,Buckwalter,T.,2007.关于阿拉伯文的音译。In:Van den Bosch,A.,Soudi,A.(编),阿拉伯语计算形态学:基于知识和经验的方法。斯普林格。Habash,N.,Diab,M.,Rabmow,O.,2012年a。阿拉伯方言的常规正交。语言资源和评估会议(LREC),伊斯坦布尔。Habash,N.,埃斯坎德尔河,Hawwari,A.,2012年b。埃及阿拉伯语的词法分析器在NAACL-HLT 2012年计算形态学和音系学研讨会一比九Habash,N.,罗斯河,巴西-地兰博岛,埃斯坎德尔河,Tomeh,N.,2013.方言阿拉伯语的词法分析与消歧。2013年计算语言学 协 会 北 美 分 会 会 议 论 文 集 : 人 类 语 言 技 术 ( NAACL-HLT),亚特兰大,GA。Hamdi,A.,Boujelbane河,Habash,N.,Nasr,A.,等,2013年。在双向突尼斯标准阿拉伯语机器翻译中因式分解根和模式映射的效果,MT Summit。Kilany , H. , Gadalla , H. , Arram , H. , Yacoub , A. , El-Habashi,A.,McLemore,C.,2002.埃及阿拉伯语口语词典。LDC目录号LDC99L22。基拉兹,佐治亚州,2000.使用多带有限自动机的多层非线性形态学:叙利亚语和阿拉伯语的案例研究。Comput. 语言学家26(1),77-105。Maamouri , M. , Bies , A. , Buckwalter , T. , Diab , M. ,Habash,N.,兰博岛,Tabessi,D.,2006.开发和使用阿拉伯方言树库试点。第五届语言资源与评估国际会议论文集,LRECMohamed,E.,Mohit,B.,O Escherazer,K.,2012.注释和学习埃及阿拉伯语口语的形态分割。在语言资源和评估会议(LREC)上,伊斯坦布尔。Omar,M.K.,1976.黎凡特和埃及阿拉伯语:比较研究。国务院。Papineni , K. , Roukos , S. , 沃 德 , T. , Zhu , W.- J. , 2002.BLEU:一种机器翻译的自动评估方法。在计算语言学协会第40届年会上,费城,PA,pp。311-318罗斯河,巴西-地兰博岛,Habash,N.,Diab,M.,Rudin,C.,2008. 使用词素模型和特征排序的阿拉伯语形态标记、变音符化和词形化。在ACL- 08的程序:HLT,短论文,哥伦布,俄亥俄州,页。117-120Salloum,W.,Habash,N.,2011.方言到标准阿拉伯语的释义,以提高阿拉伯语-英语统计机器翻译。在第一次研讨会上的算法和资源建模的方言和语言品种,爱丁堡,苏格兰,页。收到Salloum,W.,Habash,N.,2013年。方言阿拉伯语到英语机器翻译:通过现代标准阿拉伯语旋转。在计算语言学协会北美分会2013年会议的开幕式上:人类语言技术(NAACL-HLT),佐治亚州亚特兰大。Salloum,W.,埃尔法迪,H.,阿拉米尔-萨卢姆湖Habash,N.,Diab,M.,2014.用于机器翻译系统选择的句子级方言识别。在ACL-2014会议记录中,短文。Smrz,O.,2007. ElixirFM-实现阿拉伯语的功能形态学。在2007年Semitic语言计算方法研讨会的会议记录中:共同问题和资源,布拉格,捷克共和国,ACL,pp。1-8号。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- GO婚礼设计创业计划:技术驱动的婚庆服务
- 微信行业发展现状及未来发展趋势分析
- 信息技术在教育中的融合与应用策略
- 微信小程序设计规范:友好、清晰的用户体验指南
- 联鼎医疗:三级甲等医院全面容灾备份方案设计
- 构建数据指标体系:电商、社区、金融APP案例分析
- 信息技术:六年级学生制作多媒体配乐古诗教程
- 六年级学生PowerPoint音乐动画实战:制作配乐古诗演示
- 信息技术教学设计:特点与策略
- Word中制作课程表:信息技术教学设计
- Word教学:制作课程表,掌握表格基础知识
- 信息技术教研活动年度总结与成果
- 香格里拉旅游网设计解读:机遇与挑战并存
- 助理电子商务师模拟试题:设计与技术详解
- 计算机网络技术专业教学资源库建设与深圳IT产业结合
- 微信小程序开发:网络与媒体API详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功