没有合适的资源?快使用搜索试试~ 我知道了~
Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com基于规则的阿拉伯海湾方言词干Belal Abuata*,Asma Al-Omari1Yarmouk University,Irbid 21163,Jordan接收日期:2013年11月22日;修订日期:2014年3月12日;接受日期:2014年2015年3月24日在线发布摘要阿拉伯语方言从多年前就开始广泛使用,而不是现代标准阿拉伯语在许多领域。方言在任何语言中的存在都是一个巨大的挑战。方言增加了一个在某些领域,如自然语言处理,信息检索,甚至是不同阿拉伯人之间的阿拉伯语聊天,都有一系列新的变化维度。口语方言不像现代标准阿拉伯语那样有标准的形态、语音和词汇。因此,本文的目的是描述一种程序或算法,通过该程序或算法可以定义阿拉伯湾方言的词干。该算法是基于规则的。创建特殊规则来删除方言单词的后缀和前缀。此外,该算法应用与单词大小和相邻字母之间的关系相关的规则。该算法进行了测试的一些话,并给出了一个良好的正确的茎比。该算法还比较了两个现代标准阿拉伯语算法。结果表明,现代标准阿拉伯语词干与阿拉伯海湾方言表现不佳,我们的算法表现不佳时,应用于现代标准阿拉伯语单词。皇冠版权所有©2015生产和主办由爱思唯尔B.V.这是一个开放获取的文章下CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍如今,阿拉伯人喜欢在日常对话中使用他们的当地方言,只要他们不需要使用现代标准阿拉伯语(MSA)。最近,方 言 开 始 在 电 视 和 广 播 中 使 用 ( Almeman 和 Lee ,2013)。阿拉伯人在重要领域也使用方言而不是MSA*对应 作者所有 联系电话: +962 2 7211111; 传真:+962 2 27211128.电子邮件地址:belalabuata@yu.edu.jo(B.Abuata),yahoo.com(A.Al-Omari)。1电话:+962 2 7211111;传真:+962 2 7211128。沙特国王大学负责同行审查例如在线通信(聊天室、SMS、Facebook、Twitter等)。大多数关于阿拉伯语的研究都集中在MSA上(Duwairi等人 , 2007; Harrag 等 人 , 2011; AI-Shalabi 等 人 , 2003;Goweder等人,2008年)。目前,全世界有28个国家使用12种不同的阿拉伯语方言。虽然这些方言中的大多数都是特定地区特有的(例如,阿拉伯语方言的多样性很大程度上是由于这样一个事实,即随着阿拉伯语在新的地区传播和扎根,它经常采用它所取代的语言的痕迹。开发了数量有限的阿拉伯方言软件,发表了数量有限的研究论文(Al-Gaphari和Al-Yadoumi,2010年)。由于缺乏方言工具和注释文本,方言变体没有得到太多的关注。因此,由于许多原因,方言的工作很困难(Al-Shareef和Hain,2011)。首先,方言不被认为是一种书面语言,它通常用于http://dx.doi.org/10.1016/j.jksuci.2014.04.0031319-1578 Crown版权所有©2015制作和托管由Elsevier B. V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier关键词阿拉伯语方言词干;海湾方言;规则库词干分析;阿拉伯语NLP阿拉伯海湾方言105的方言形式存在口语形式和有限的文本资料,与MSA一致。另一个原因是方言仍然继承了MSA的复杂形态。此外,每种方言都非正式地引入了附加的词缀,从而增加了跨方言的差异。最后,没有标准的公约是商定的各种方言应如何转录。现代标准阿拉伯语(MSA)是阿拉伯语的一种形式,通常用于新闻媒体和正式演讲(Diab等人,2004年)。正如Mutahhar和Watson(2002)所述,没有母语为MSA的人。处理方言的重要性来自于这里:方言是阿拉伯语的主要形式,用于所有无脚本的口语类型:对话,脱口秀,访谈等。” 方言在新的书面媒体(新闻组、博客、在线聊天等 ) 中 得 到 广 泛 使 用 。 ‘‘Substantial Dialect-MSAdifferences impede direct application of MSA NLP tools研究领域,如阿拉伯语NLP,阿拉伯语翻译,阿拉伯语和跨语言检索以及其他相关的阿拉伯语研究领域,由于缺乏方言标准而缺乏资源,以及缺乏方言本身的书面资源,如Maamouri和Bies(2004)所示。可以说,方言非常受欢迎,大多数人在日常生活中使用它,他们也用它来交谈和在线聊天(Alghamdi等人,2008年)。不幸的是,这种方言不仅在写作中很少使用,而且也没有书面标准。它被认为是一种心灵和情感的语言,而MSA被认为是一种心灵的语 言 。 它 是 一 种 具 有 良好 书 面 标 准 的 正 式 语 言 ( Al-Gaphari和Al-Yadoumi,2010)。本文的结构安排如下:第二部分,我们对相关工作进行了概述。在第3节中,我们提出了我们的方法/算法,用于查找阿拉伯海湾国家使用的方言词的词干。在第4节中,我们讨论了评估结果及其分析。第五部分是结论和未来的工作.2. 背景和相关工作阿拉伯语属于闪米特语系,而英语属于印欧语系。阿拉伯语是世界上使用最广泛的语言,全世界有5%的人使用阿拉伯语(Kadri和Nie,2006年)。它是26个国家的官方语言,位于西亚到北非的阿拉伯世界阿拉伯语是伊斯兰教的语言,数亿穆斯林使用具有不同含义的单词。阿拉伯语是从右向左的,这与英语相反。阿拉伯语中有30个字母。处理阿拉伯语的困难不仅在于它的方向,而且还在于文字的语言变音符号化,元音可能包括也可能不包括在内,以及它复杂的形态分析。所有这些因素以及其他因素,如对性别、数字、格、程度和时态的敏感性,使得处理阿拉伯语非常困难(Abu-Salemet al., 1999年)。阿拉伯语分为三种变体:古典阿拉伯语,现代标准阿拉伯语(MSA)和口语或方言阿拉伯语。古典阿拉伯语是神圣古兰经的语言,从前伊斯兰阿拉伯到阿巴斯哈里发时期都在使用。然而,现代作家从未使用过古典阿拉伯语。他们使用一种被称为MSA的文学语言。MSA使用的是口语中没有的经典词汇。方言阿拉伯语指的是许多国家的变种,正式的日常口语在阿拉伯世界。它是不成文的,经常用于非正式的spo-ken媒体。它在语言表达的各个层面上都不同于MSA;最极端的差异是在语音和形态层面上。在下面的两个小节中,将介绍MSA和阿拉伯方言的概述。此外,还提到了一些与阿拉伯方言有关的作品。2.1. 现代标准阿拉伯语现代标准阿拉伯语(MSA)是阿拉伯语的一种形式,广泛用于新闻媒体和正式演讲(Diab等人,2004年)。正如Mutahhar和Watson(2002)所述,没有母语为MSA的人。阿拉伯语的语法系统是基于词根和模式结构,并被认为是一种基于词根的语言,词根不超过10,000个(Ali,1988)。在阿拉伯语中,词根是一种纯粹的动词形式,它可以是三边的,这是阿拉伯语单词的绝大多数 , 在 较 小 的 程 度 上 , 四 边 形 , pentaliteral 或hexaliteral,每一种都通过添加派生词缀来产生增加的动词形式和名词形式(Saliba和Al-Dannan,1990)。词干是词根和派生词素的组合,词根上可以加上后缀(或更多)(Gleason,1970)。然而,当将这个定义应用于阿拉伯语时,动词词根及其动词和名词派生词被认为是词干。阿拉伯语中的affixes是:前缀,后缀(或后缀)和词素(词素)。前缀附在单词的开头,后缀附在单词的结尾,而后缀位于单词的中间。比如说这是他们的宗教日常用途。阿拉伯语ﺍﻟﻄﺎﻟﺒﺎﺕ(altalibat)这意思是阿拉伯语字母表用于几种语言,如波斯语,马来语和乌尔都语(Al-Fedaghi和Al-Sadoun,1990)。阿拉伯字母由字母、数字、标点符号、空格和特殊符号(如数学符号)组成。它与英语的元音和变音符号不同。变音符号以上加下划线的形式与阿拉伯字母一起使用。然而,最近的阿拉伯语书面文本是不发音的。阿拉伯语被认为是自然语言的一个非常复杂的类别,具有非常丰富的形态。一般来说,它的丰富性归因于这样一个事实,即一个根可以产生数百个学生El-Sadany和Hashish(1988)将阿拉伯语动词中的阿拉伯语后缀的形成描述为以下规则的衍生:前缀1+前缀2+词干+后缀1+后缀2+后缀3表1词ﺍﻟﻄﺎﻟﺒﺎﺕ阿拉伯语aff fixes的例子。Prefixﺍﻝ苏菲亚ﺍﺕInfixﺍ根ﻃﻠﺐ前缀1:其中的元素像连词一样起作用,这样的元素的例子是,,和(Prefix2:与其元素相关的属性有助于部分确定时态和主语代词的特征。Prefix 2中的一个元素的例子是('yaa')。在这种情况下,时态是现在时(时态的完全确定),主语代词是第三人称(主语的数量和性别不确定)。如果前缀2不存在(nil),则不能确定时态(可能是过去式或祈使式)它的成分部分决定时态,完全决定主语代词的特征(人称、性、数)。Su xe1列表的一个例子是(Su x2和与其元素相关的属性,Su x3:确定第一个和第二个元素的特征宾语代词。这些列表中的一个例子是(词干:它是通过将词根的字符替换成某些形式而形成的,这些形式被称为度量或模板('awzan”)。三边措施的一个例子是:量根量茎量106个 Abuata,A. al-Omari其中上述规则中的前缀和后缀是有限长度的列表。上述规则的性质如下:图1前伊斯兰或前阿拉伯扩张2.2. 阿拉伯语方言阿拉伯方言是阿拉伯世界日常口语的总称。它与文学语言(MSA)截然不同阿拉伯语方言在近20多个国家有超过4亿人使用,是世界上使用最广泛的语言之一,也是世界上发展最快的语言之一(Cote,2009)。阿拉伯语方言主要是口头语言;书面材料几乎总是在MSA。因此,严重缺乏用于方言语音的语言模型(LM)训练材料(Alotaibi等人, 2009年)。每个国家都有自己的主要方言,这个主要方言可以分为一组子方言,例如沙特方言包括Najdi(中央)方言,Hejazi(西部)方言,南部方言(Almeman和Lee,2013)。区分方言的一个因素是与该地区以前所说的语言的差异。这通常提供了大量的新单词,并且在发音和词序上也有明显的差异。所有的方言最终都源于同一个古代阿拉伯语的源头,但在语法结构、词汇等方面都经历了变化。重音,它是标准语言的一个版本,具有不同的发音。阿拉伯语方言可以分为历史或流行(Zina Saadi,2013)。对于历史分类,方言可以是:前伊斯兰或前阿拉伯扩张(公元前6世纪至公元6世纪)如图。1.一、后伊斯兰或后阿拉伯扩张(自公元6世纪)如图。 二、至于大众分类,阿拉伯语方言可以分为各种,如图3所示。其中一些群体是:苏丹阿拉伯语黎凡特阿拉伯语海湾阿拉伯语Najdi阿拉伯语也门阿拉伯语伊拉克阿拉伯语Hijazi阿拉伯语-汉志地区。埃及阿拉伯语-这被认为是最广泛的spo- ken和理解''第二方言。”摩洛哥阿拉伯语突尼斯阿拉伯语- 主要在突尼斯使用Hassaniiya阿拉伯语安达卢西亚阿拉伯语历史马耳他阿拉伯语阿拉伯语方言的词干提取工作很少。这些作品大多研究一个国家使用的特定方言。这方面的例子有Al-Gaphari和Al-Yadoumi(2010年)以及Alamlahi和Ahmed(2007年)的著作。●●基于规则的阿拉伯海湾方言词干分析器107图2后伊斯兰后阿拉伯扩张他们的工作是基于与萨那尼方言以及MSA有关的形态规则。这些规则有助于将方言转换为相应的MSA。他们的方法将输入的方言文本标记化,并将每个标记分为两部分:词干和词缀。这种音频剪辑可以分为两类:方言音频剪辑和/或MSA音频剪辑。同时,词干可以是方言词干,也可以是MSA词干。因此,他们的方法通过使用简单的MSA词干分析器来实现;必须注意这样的情况。然后他们的方言词干 应用于剥离产生的标记并提取方言af fixes(Al-Gaphari和Al-Yadoumi,2010)。他们的工作使用方言词干作为一个系统,将萨那尼方言翻译MSA与地方方言之间存在着大量的语言差异。其中一些差异在书面形式中找不到,如果是短元音的话,阿拉伯语文本中的短元音无论如何都会被删除,其中一些主要差异是(Zaidan和Callison-Burch,2013年):在格、语气等方面,MSA的词法比方言丰富。 例如,MSA除了单数和复数形式外,还有双重形式,而方言大多缺乏对偶形式。此外,MSA有两个复数形式,一个阳性和一个阴性,而许多(虽然不是所有)方言往往没有这样的性别区分。方言缺乏语法格,而MSA有一个复杂的格系统。在MSA中,大多数情况下都是用很少明确写出来的变音符号来表达的,而变音符号是一个值得注意的例外,因为它除了使用变音符号(例如,宾语和副词)。词汇本身存在着词汇选择的差异表2给出了几个例子。请注意,这些差异不仅仅是缺乏拼写标准化。动词变位的差异,即使保留了三边词根。参见表2的下半部分,了解词根s-r-b(喝)的一些变化。表2显示了几个例子,说明了MSA和两种阿拉伯语方言之间的相似性和差异:黎凡特语和海湾语。即使一个单词在两个或多个变体中拼写相同,发音也可能由于短元音的不同而不同(没有拼写出来)。此外,由于缺乏正字法标准化,以及即使在单一方言中发音的差异,一些方言词可能有一个以上的拼写(例如。黎凡特可能是由S rb)。(表2使用例如, 2007年)。海湾阿拉伯语方言群包括科威特、巴林、卡塔尔、阿拉伯联合酋长国以及沙特阿拉伯东部部分地区和伊拉克南部部分地区。图3阿拉伯语方言群(http://www.importanceo Arabanguages.com/LearnArabic/tag/arabic-dialects-map)。●●●●108B. Abuata,A. al-Omari非阿拉伯语单词列表,因为这些单词不得分析。表3显示了这些单词的示例。此外,海湾方言包含许多停止词,并且这些词不得被分析,因此所提出的算法具有将该单词与停用词列表进行比较。一些示例 停用词有Meno你好 啊 。有时候,停用词包括affixes;这些在将其与停止词列表进行比较之前必须删除后缀,例如,Shloonkum 'How are you '你好吗?这个停用词包含一个必须首先删除的suf fix kum,所以它变成了Sh'How'。为了分析单词以提取词干,针对海湾方言阿拉伯语提出的算法将删除通常以MSA形式出现的所有Affixes,例如。阿勒夫-拉姆但是, Waw-Noon元音 (Alef你好, 是的, Waw)。 的表3非阿拉伯语方言词汇的例子。方言词Origen意思是一个字母移除结果Beshtek贝希特克票价Altegoree印度斗篷储物袜卷帘门卡芙·卡芙贝希特河泰戈里联系我们Dlagaat伊斯坦布尔Abajorat阿巴乔拉特法国阿勒夫·塔阿·阿勒夫阿勒夫·塔Dlag中国阿巴约德拉威尔英格兰车手必须承认的一件重要的事情是,阿拉伯语受到其他语言的影响。它借用了一些单词给其他语言,如波斯语,土耳其语,印地语和马来语。阿拉伯文学对欧洲文化的影响特别大,尤其是在数学、科学和哲学方面。此外,它还从其他语言,如希伯来语,希腊语和波斯语在早期几个世纪借用的话。在现代,它借用了英语,法语和土耳其语。3. 方法本研究的主要目标是推导出一种有效的算法来提取阿拉伯海湾国家(科威特、巴林、卡塔尔、阿联酋、沙特东部地区和伊拉克南部)使用的方言词的词干。这些话是从网上聊天和论坛上收集来的。这个列表不包括那些现在不使用的旧词(例如, sahed'fever '发烧,karfaia 'bed'床,包括一些新的单词添加到海湾方言(例如majase 'stubbed'断腿,ja ' as 'mean '卑鄙)。海湾方言词汇包括一些来自不同国家的非阿拉伯语词汇。有些来自印度和伊朗(票价),因为在发现石油之前,阿拉伯海湾的商人经常去这些国家。其他的词来自英国、法国和土耳其,因为在发现石油后,来自这些国家的欧洲商人来到了阿拉伯海湾国家。所提出的算法必须首先删除添加到这些单词中的AF,然后将其与所提出的算法假设词干的最小长度是三个字母,因为超过四分之三的MSA字具有大小为三的词根或词干。所提出的算法的主要步骤如下:读这个词检查单词的大小(<=3)。每次从单词中删除一个字母时,都会执行此控件。删除suf fixes和prefixes set➢ 如果找到,请删除以下前缀).(➢ 如果找到,请删除以下前缀(删除前缀)。ﺍﺕ،ﻭﻥ،ﻙ،ﻛﻢ،ﻭﻛﻢ،ﺗﻨﻲ،ﻭﻧﻪ،( suffixes following theDelete➢检查单词是否属于非阿拉伯语单词或停止词:➢ 如果是真的,那就停下来。prefix following the delete false,IfBulg).删除后的前缀为false,如果Bulg).如果第一个字母是(),第三个字母是(),则删除两者。如果第一个字母是“”,则删除它。检查单词中的每个字母,如果它是元音,然后删除它:➢ 如果我们有一个元音与非元音重叠,删除它。➢ 如果我们有两个连续的元音字母,那么我们必须按照以下顺序删除其中一个()然后()然后()。➢ 如果我们发现三个连续的元音,保留中间的一个,删除两个不连续的字母。删除元音字母后,如果我们得到两个类似的字母,然后删除其中一个。例如:删除我们得到的(单词)删除我们得到的单词。在这个伪代码中,在启动程序之前,必须首先创建一个非阿拉伯语单词文件和一个停止词文件表2MSA和两种阿拉伯语方言之间的相似性和差异示例。英语MSA LEV GLFBook ktAb ktAb ktAb ktAbYearn<$sn<$钱nqwd mSAry的新闻来啊!来啊!hyA!ylA!ylA!●●●●●●●●我想阿吕德BDYAbTy'现在阿安HLQAlHyn什么时候?你呢?是吗?你呢?- 你说什么?mAa?是吗?怎么了?我喝阿姆斯壮布BS-BRB阿斯布他喝伊斯雷尔布BS-BRB伊斯雷尔布基于规则的阿拉伯海湾方言词干分析器109如果L中的一个是元音,则删除优先级较低的元音如果L的两个相邻字母是元音,则删除优先级较ENDIF//扫描如果有两个连续的字母相同,则删除其中一个如果L的邻居=L则删除L的邻居或L如果字长=3则打印W作为词干并在ENDIF时ENDIF结束时打印W作为词干并退出,同时结束时,结束图4词干:我敦促你。在一些单词上应用该算法的示例示于图1和图2中。 四比六表4包含了一些例子,展示了算法如何处理在某些单词中发现的一些特殊规则(这些规则在伪代码中找到开始将WLF定义为要进行词干分析的单词列表文件,将FNAW定义为非阿拉伯语单词文件,将FSW定义为停用单词文件WHILEWLF不为空W=读取单个字()将wordLength设置为W如果wordLength<= 3,则停止并退出,ENDIFWHILE wordLength> 3如果W包含前缀(前缀),则从W如果wordLength<= 3则打印W作为词干并在ENDIF时ENDIF结束时WHILE wordLength> 3如果W包含前缀(前缀),则从W如果wordLength<= 3则打印W作为词干并在ENDIF时ENDIF结束时WHILE wordLength> 3ﺍﺕ،ﻭﻥ،ﻙ،ﻛﻢ،ﻭﻙ،ﺗﻨﻲ،ﻭﻧﻪ،ﻩ،ﺗﻪ،ﻫﻢ،ﻭﻧﻬﻢ،ﻱ(Suffixcontains W IF THEN)ﺕ،ﺗﻲ،ﻧﻲ،ﺍﻟﻜﻢ،ﺍﻟﻚ从W如果wordLength<= 3则打印W作为词干并在ENDIF时ENDIF结束时如果在FNAW中找到W,则打印W作为词干并在ENDIF时如果在FSW中找到W,则打印W作为词干并在ENDIF时WHILE wordLength> 3 doTHEN)前缀包含W IF前缀删除如果wordLength<= 3则打印W作为词干并在ENDIF时ENDIF结束时WHILE wordLength> 3如果W的第一个字母是(),W的第三个字母是(),则删除W中的两个字母如果wordLength<=3则打印W作为词干并在ENDIF时ENDIF结束时//检查单词中的每个字母是否是元音WHILE未扫描所有字母且wordLength >3将L设置为字母W//必须根据优先级(alef)删除连接元音,waw,Yaa如果L的两个字母不是元音,且L是元音然后删除LENDIF110B. Abuata,A. al-Omari图5:“你会看到的”的词干图6.黑木耳的去梗。4. 结果和分析用于测试算法的数据测试语料库是从许多与阿拉伯海湾方言相关的地方获得的。2 ,3 ,4 ,5我们浏览了不同的网站,以获得尽可能多的海湾词品种。初始数据库为15486。然后对语料进行分析和预处理,以去除重复词和MSA词。结果语料库由5436个不同的2http://www.alamuae.com/uaedic/index.html。3http://ar.mo3jam.com/。4http://www.7bna.com/vb/showthread.php? t=93153。5http://www.majma.org.jo/majma/index.php/2009-02-10-09-36-00/648-mag80-5.html。海湾方言词汇。表5和表6显示了测试语料库的一些特征。在阿拉伯语方言测试语料上应用该算法后,我们得到了表7中报告的结果。表4一些特殊规则的算法实例.无规则示例ﺍﻟﻌﻴﺎﻝ=ﻋﻴﺎﻝ)ﺍﻝ،ﻟﻞ،ﻭﺍﻝ،(... Prefix the Delete(1)这里的例子也很好,那么大小是4,所以我们采取伪代码中的最后一条规则,即位置2()的字母,关于采取扫描字母和元音,后面是其他元音(),所以保持()”(《易·系辞上》)“移”,“移”就是“移”。这个例子也显示了规则,如果我们有两个元音在伪代码第一个字母是If(2)第二个字母是we)第三个字母是and去除元音必须删除这与MSA相同,例如:ﺍﺭﺗﺤﻞ،ﻧﺮﺗﺤﻞ،ﻳﺮﺗﺤﻞ،ﺗﺮﺗﺤﻞ،ﻣﺮﺗﺤﻞ=ﺭﺣﻞﻭﺷﻌﻠﻮﻣﻚ=ﻋﻠﻮﻣﻚprefixes:some For(3)● 如果这个词是以()开头的,那么它的大小是五,所以我们有or(删除)we havetodelete把这个角色这里的例子也是好的位置3这是一个元音()的最后一个规则在伪所以删除和转移到正确的代码约采取扫描字母得到()与两去除元音邻居()所以根是()● 如果它以()开始,我们有=以除去● 如果我们有()、()或()● 如果我们有()或()(4) 对于一些sunix:● 如果它以()或()ﺍﻧﺨَ◌ﺶ=ﺧَ◌ﺶﺍﻧﺘﺮﺱ=ﺗﺮﺵﻣﺸﺨﺎﻝ=ﺷﺨﺎﻝa是which)( the removeThen)(root the get tovowel)=(for same theand==ﻣﻨﺤﺎﺵ=ﺣﺎﺵ例如:MSA。ﻳﻜﺘﺐ=ﻛﺘﺐ،ﻳﺮﺳﻢ=ﺭﺳﻢﻳﺘﻔﻜﺮ=ﻓﻜﺮ،ﻳﺘﺄﻣﻞ=ﺃﻣﻞﻳﻐﺮﺑﻠﻚ=ﻏﺮﺑﻞﻭﻫﻘﻜﻢ=ﻭﻫﻖ这也与MSA相同,例如:ﻛﺘﺎﺑﻚ=ﻛﺘﺐ،ﻛﺘﺎﺑﻜﻢ=ﻛﺘﺒﻜﺘﺎﺑﻚ=ﻛﺘﺐ،ﻛﺘﺎﺑﻜﻢ=ﻛﺘﺐﻳﺨَ◌ﺸﻮﻧﻪ=ﺧَ◌ﺶ)ﻭﻧﻬﻢ(or)ﻭﻧﻪ(),ﻭﻥ(haveweIf●ﻳﺨَ◌ﺸﻮﻧﻬﻢ=ﺧَ◌ﺶﻳﺨَ◌ﺸﻮﻥ=ﺧَ◌ﺶ这与MSA中的情况相同,例如:ﻳﻈﻬﺮﻭﻥ=ﻇﻬﺮﻳﻈﻬﺮﻭﻧﻪ=ﻇﻬﺮﻳﻈﻬﺮﻭﻧﻬﻢ=ﻇﻬﺮﻣﺎﺻﺨﺎﺕ=ﻣﺼﺦ如果●=这与MSA中的情况相同,例如:ﺟﻠﺴﺎﺕ=ﺟﻠﺲﻭﻣﻀﺎﺕ=ﻭﻣﺾ基于规则的阿拉伯海湾方言词干分析器111表7语料库词干名称阿拉伯海湾方言的三个词干分析结果准确度右侧 没有错话(%)根干根表8词干名称MSA语料库的三个词干提取器的结果总数 精度 权 没有错口水(%)根茎根霍贾543692501665355达尔维什茎杆5436764140314982新词干生成器54365228259821629表6不同词长的阿拉伯方言语料集示例。词阿拉伯语含义英语意思:Derivations Stemﺯﺣﻠﻖ你看,你看,游戏Slidingﻟﻌﺒﺔﺍﻟﺘﺰﺣﻠﻖﺯﺣﻼﻗﻴﺔﺩﻭﻥ你知道吗,霍尔门ﻣﻜﺎﻥﻟﺘﺠﻤﻊﺍﻟﺮﺟﺎﻝﺩﻳﻮﺍﻧﻴﺔﻛﻤﻜﻢﻳﺘﻜﻤﻜﻤﻮﻥ-ﺗﻜﻤﻜﻤﻮﺍ自己覆盖ﺗﻐﻄﺖﺗﻜﻤﻜﻤﺖﺷﻠﺦ你知道吗,你知道吗,谎言ﻛﺎﺫﺏﺑﻮﺷﻼﺥﺷﻠﻮﻥ你知道吗?如何ﻛﻴﻒﺍﺷﻠﻮﻥﺑﺮﻳﺞ你知道吗?水壶水ﺍﻧﺎﺀﺍﻟﻤﺎﺀ—ﺇﺑﺮﻳﻖﺍﺑﺮﻳﺞﺧﺶﺍﺗﺨﺸﻮﻥ-ﺧﺸﻴﺖ Hideﺍﺧﺘﺒﺄﺍﻧﺨﺶﺭﻛﺪﺭﻛﺪﻭﺍ—ﺗﺮﻛﺪﻭﻥ冷静ﺍﻫﺪﺃﺍﺭﻛﺪﺍﺑﻲ.ﺗﺒﻴﻦ想让贺ﻳﺮﻳﺪﻳﺒﻲﺑﺎﻕ-你好-你好偷他ﺳﺮﻕ你知道吗?珍珠白ﺍﻟﺆﻟﺆﺍﻻﺑﻴﺾﺣﺼﻪﺻﺞﺻﺠﻚ—ﺍﻟﺼﺞ真正ﺻﺪﻕﺻﺞ导致错误股骨柄的原因有:一些阿拉伯海湾国家将Jeem转换为Yaa,例如Mayhood'Effort '而不是Majhood。在这种情况下,算法必须删除Yaa,因为它是一个元音尝试词干名词● 一些非阿拉伯语单词的复数形式不符合标准有:Khoja我们选择这两个词干分析器,因为它们被认为是在阿拉伯语词干分析器中应用于MSA单词时的准确性水平。Khoja的词干是一个重词干,而Darwish的词干是一个轻词干。测试语料与用于测试新算法的语料相同,由5436个单词组成。表7显示了在方言列表上应用三个词干的结果:另一个测试是针对相同的三个词干分析器进行的,其中语料库被改变为从各种MSA阿拉伯语文本收集的MSA单词列表。表8显示了该测试的结果。根据以前的结果,我们发现:MSA词干与Dialect词干不同。这从MSA 词干分析器(Khoja和Darwish的词干分析器)和新词干分析器在海湾方言语料库和MSA语料库上获得的结果示出因此,方言阿拉伯语需要特殊的词干。所提出的词干分析器必须对所有单词进行词干分析,即使是非阿拉伯语单词,因为有时这些单词有一些后缀,例 如 , 单 词 Abajorat 这 些 类 型 的 单 词 不 是 Khoja 和Darwish词干的。● 错误的词根来自非阿拉伯语单词的词干,例如。形式,即以Alef Taa中午好 非阿拉伯语单词- 波斯语-Ebreej'Jug '伊布里杰是Abareej阿巴里杰。这里的问题是,算法只在检查单词是否是非阿拉伯语之前才搜索单词中的后缀和前缀。由于没有针对海湾方言单词的词干分析器,我们使用了两个阿拉伯语词干分析器来比较我们的词干分析器。在这里,我们要证明MSA词干不适用于阿拉伯语方言,他们的性能是低的。这些词干艾斯特卡纳的“一杯茶”,阿桑索的“电梯”,阿桑索的“电梯"。此外,它试图干一个停止词,因为他们是不一样的,在MSA语言,如Meno'谁',Sheno '什么'正确的词根来自于方言词,它们具有与MSA语言相同的后缀,Khoja词干合并器可以识别和删除,例如。Rekdo5. 结论和今后的工作MSA词干算法不适用于阿拉伯语方言。在这篇论文中,我们发现MSA词干分析器在应用于阿拉伯海湾方言和阿拉伯语●●●●表5阿拉伯语方言语料中基于词长的词频。字长词频单词比率7851.56%63055.61%5913百分之十六点八4187234.44%3221340.712480.88总数5436百分百●霍贾的543639212116841631海湾方言不能用于MSA单词。 没有stemmer处理阿拉伯海湾方言单词的词干提取算法。达尔维什的stemmer新54365436288815244784213201780652只有少数算法可以处理单一的阿拉伯语方言。在本文中,我们提出了一个新的规则,为海湾方言而建的方言词干分析器该算法stemmer建立了一套海湾方言的预定义规则。 这个新112B. Abuata,A. al-Omari词干提取器的准确性是可以接受的,并且与其他词干提取算法相比,它给出了更好的结果。该算法可以处理许多方言。该算法通过定义新的规则并将这些规则与当前使用的规则相结合,可以处理所有已知的阿拉伯语方言。改进我们的词干也可以添加到处理所有非阿拉伯语单词在阿拉伯语dia-lets。在阿拉伯语翻译和阿拉伯语情感分析中使用该算法还需要更多的测试。引用Abu-Salem,H.,Al-Omari,M.,Evens,M.W.,1999.阿拉伯语信息检索系统中单个查询词的词干提取方法。J. Am.社会信息科学50(6),524-529。Yahya Alamlahi,Fateh Ahmed,2007年。Sana科学部,Sana’a University, Sana’a,Al-Fedaghi,S.S.,Al-Sadoun,H.B.,1990.阿拉伯语文本的形态压缩。INF. 过程管理。 26(2),303-316。Al-Gaphari,G.H.,Al-Yadoumi,M.,2010.一种将萨那尼口音转换为现代标准阿拉伯语的方法,2010年。国际信息科学杂志管理。8(1),39-49.Alghamdi,M.,Alhargan,F.,Alkanhal,M.,Alkhairy,A.,Eldesouki,M.,Alenazi,A.,2008.沙特口音的阿拉伯语音银行 。 J. 沙 特 国 王 大 学 Comp. INF. Sci.20 ( 1 ) , 45 -62(Riyadh).Ali,N.,1988.计算机与阿拉伯语Al-Khat 出版社,埃及, Ta'reep。Almeman,K.,李,M.,2013.基于方言词引导的阿拉伯语多方言文 本 语 料 库 的 自 动 构 建 。 通 信 , 信 号 处 理 及 其 应 用(ICCSPA),第一届国际会议2月12日至14日1比6Alotaibi,Y.A.,Selouani,S.,Cicloviki,W.,2009.研究外国口音阿拉伯语中的辅音。J.沙特国王大学Comp. INF. Sci.21(1),13 -25(Riyadh).Al-Shalabi,R.,Kannan,G.,Al-Serhan,H.,2003.一种新的阿拉 伯 词 根 提 取 方 法 。 Proc. of 2003 International ArabconferenceonInformationTechnology ( ACIT'2003 ) ,Alexandria,pp. 42比59Al-Shareef,Sarah,Hain,Thomas,2011.阿拉伯语口语语音识别研究。在诉讼中:INTERSPEECH 2011年,第12届国际语音通信协会年会,意大利佛罗伦萨,8月27日至31日,页。2869-2872。罗伯特·科特2009年,为阿拉伯语世界选择一种方言:一个现状规划的困境,75亚利桑那州工作文件在SLA教学16,75Diab,M.,Habash,N.,2006.阿拉伯语方言处理。AMTA,博斯坦。Diab,M.,Hacioglu,K.,Jurafsky,D. 2004.阿拉伯语文本的自动标注:从行文本到基本短语块。第五次会议计算语言学/人类语言技术会议协会(HLTNAACL 04)北美分会,马萨诸塞州波士顿。杜韦里河Al-Refai,M.,Khasawneh,N.,2007.词干与轻词干作为阿拉伯文文本分类的特征选择技术。信息技术创新,IIT '07。第四届国际会议,11月18日446-450El-Sadany,T.A.,大麻文学硕士1988.阿拉伯语动词的半自动元音化。第10届全国计算机会议论文集,pp。45比56Gleason,H.A.,1970年 描述语言学导论,第三版,霍尔特。莱因哈特和温斯顿,纽约。Goweder,A.,Alhami,H.,拉希德,T.,Al-Musrati,A.,2008年一个混合的方法来提取阿拉伯语文本。第九届阿拉伯信息技术国际会议(ACIT 2008)(突尼斯,2008年)。Habash,N.,兰博岛,2005.一举实现阿拉伯语的标记化、形态分析和词性标注。计算语言学协会(ACL)Habash,N.,Soudi,A.,Buckwalter,T.,2007.关于阿拉伯文的音译。在:van den Bosch,A.,Soudi,A.(编),阿拉伯语计算形态学:基于知识和经验的方法。斯普林格。Harrag,F.,El-Qawasmah,E.,Al-Salman,A.M.S.,2011.词干作 为 阿 拉 伯 文 文 本 分 类 的 特 征 约 简 技 术 。 编 程 与 系 统(ISPS),第10届国际研讨会,4月25日至27日,页。128比133Kadri,Y.,Nie,J.Y.,2006.阿拉伯语信息检索的有效词干。阿拉伯语对NLP/MT会议的挑战。英国计算机协会。英国伦敦卡里姆·达尔维什,2002年。Al-stem:一种轻阿拉伯语词干处理器。[联机]。可通过以下网址获得:http://www.glue.umd.edu/~kareem/research。Khoja,S.,加赛德河1999.阿拉伯语的词干。计算机系,兰开斯特大 学 , 兰 开 斯 特 , 15 ( 2012 年 4 月 ) 。 Doi : http ://zeus.cs.pacificu.edu/shereen/research.htm。Maamouri,M.,Bies,A.,2004.开发阿拉伯树库:方法,准则,程序和工具。语言数据联盟(LDC)。Mutahhar,A.R.,沃森,J.,2002.也门流行文化中的社会问题。Yemeni–British project supported by the British Embassy, SocialFund for Development and Leigh Douglas Memorial Fund, Sana’a,Saliba,B.,Al-Dannan,A.,1990.阿拉伯语的自动形态分析:实词分析研究。科威特第一计算机公司确认,二三一至二四三Zaidan,O.F.,Callison-Burch,C.,2013年。阿拉伯语方言识别。Comput.语言学家1(1),1-36.Zina Saadi,一种语言,多种方言:阿拉伯语方言分析。计算语言学家中东语言专家。Basis Technology corp.在线查找(2013年3月访问)。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功