没有合适的资源?快使用搜索试试~ 我知道了~
埃及信息学杂志23(2022)363BPR算法:阿拉伯语词干分析器Hamood Alshalabia,b,Sabrina Tiuna,soul,Nazlia Omara,Elham abdulwahab Anaama,Yazid Saifca马来西亚Kebangsaan大学信息科学技术学院,43600 UKM,Bangi,Malaysiabc马来西亚敦胡先翁大学机械与制造工程学院,86400,柔佛,马来西亚阿提奇莱因福奥文章历史记录:2022年1月2日收到2022年2月2日修订2022年2月11日接受2022年2月22日在线提供保留字:基于阿拉伯语破复数阿拉伯根的人工智能阿拉伯根抽取阿拉伯语词法分析器阿拉伯语语料库阿拉伯文文本处理A B S T R A C T文本处理中最重要的阶段之一是词干提取,其目的是将单词中的所有阿拉伯语的形态结构比英语的形态结构更具挑战性;因此,阿拉伯语词干分析器需要更好的词干分析算法才能有效。其中一个挑战是不规则的破复数,这一直是阿拉伯语自然语言处理中的一个问题,影响了阿拉伯语信息检索和其他阿拉伯语工程应用程序的性能。一些研究试图开发解决不规则复数问题的方法,但挑战仍然存在,特别是在提取正确的阿拉伯语词根方面。本文提出了破复数规则(BPR)算法,以解决现有的基于根的方法不能通过使用他们提出的规则提取正确的根的问题。BPR算法引入了若干规则(主规则和子规则)来提取阿拉伯语不规则破复数词的正确词根为了评估BPR算法的有效性,我们从阿拉伯语标准数据集提取根,并将BPR算法作为基于根的阿拉伯语词干分析器ISRI的增强从两次评估中获得的结果显示了令人鼓舞的结果:(i)在大型阿拉伯语单词数据集上,只有少数不正确的词根(ii)增强的基于根的阿拉伯语词干,ISRI + BPR,表现出最好的性能相比,原来的ISRI词干和一个著名的阿拉伯语词干,ARLS 2。因此,提出的BPR算法解决了一些不规则的破复数问题,最终提高了基于根的阿拉伯语词干分析器的性能。©2022 The Bottoms.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系。 这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。1. 介绍在任何自然语言处理系统中,词干提取是一个常见的过程。开发一个称职的词干的重要性是派生从的事实的产生可以对使用它的任何应用程序的性能造成直接影响。由于其高度曲折和衍生结构,提取阿拉伯语术语是一项极具挑战性的任务[10,21,22,28,29,30,32]。*通讯作者。电子邮件地址:sabrinatiun@ukm.edu.my(新加坡)Tiun)。开罗大学计算机和信息系负责同行审查。除了光和根为基础的阿拉伯语词干的问题之外,破复数(复数的不规则性)在阿拉伯语词干中构成了挑战。这一挑战是由于标准阿拉伯语复数词的不规则模式,这导致难以提取词根。在阿拉伯语中(单数、对偶和复数),复数分为两类:规则复数和不规则复数。复数形式由适当的后缀构成,如英语:teacher:teachers(“教师”,“教师的教师”)。后缀阳性复数是在主格后缀('een','een')之后加上后缀('oun','oun')而形成的,处于从属格和属格的地位。阴性复数是通过将后缀(at ','')附加到单数上而形成的不规则的或间断的复数经常用于三字词根,并通过改变单数来形成,如英语:tooth:teeth('牙齿:牙齿','牙齿:牙齿')。许多名词和形容词都有破复数(Haywood et al.,1965年)。在所有状态中,单数都受到几种不同模式的影响,这些模式改变了辅音框架内或框架外的长元音,()和()[24]。https://doi.org/10.1016/j.eij.2022.02.0061110-8665/©2022 THE COURORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页:www.sciencedirect.comH. Alshalabi,S.Tiun,N.Omar等人埃及信息学杂志23(2022)363364~~本文通过引入新规则和子集规则算法,描述了新的破复数规则(BPR)算法预处理包括一个新的部分,即阿拉伯化去除。本研究的主要目的是结合阿拉伯语词干与一个新的破复数规则(BPR)算法支持适当的条款和条件。本文的其余部分安排如下:第2节涵盖了相关的工作,第3包含ISRI的工作,第4指出了本研究中使用的方法。第5节给出了实验来说明所提出的算法的有效性,第6节显示了我们提出的词干分析和比较与其他两个阿拉伯语词干。结论见第7。2. 相关作品阿拉伯语的术语选择包括四种类型的词干提取技术,即基于根的词干提取(重词干提取器)、统计和混合词干提取器、基于轻词干提取器和人工智能词干提取器。这些方法中的每一种都对应于分析量表上的一个点。基于词根的词干分析器通过形态分析提取阿拉伯语单词的词根。最著名的词根词干生成器是Khoja和Garside[28]的词干生成器,它删除了后缀、中缀和前缀。它通过模式匹配提取单词的词根;尽管如此,仍然存在一些缺陷和缺点,特别是对于一些表示“破碎复数”的单词Taghva等人[34]改进了Khoja和Garside[28]开发的算法,消除了字典提取根的必要性。ISRI词干分析器[34]被认为是阿拉伯语词干分析器的最佳算法之一,它包含在NLTK包中。Syarief等人[33]解决了ISRI词干分析器在理解两个字母的单词方面的弱点。Al-Kabi等人[6]通过引入额外的规则和模式对词干分析器进行了升级。基于模式的词根提取方法,不需要使用一个lex图标,最近已经创建[6,31]。停用词列表是文本中没有意义的单词的列表。这些词仅仅作为句法操作,与主题内容无关。它们对NLP有两个独特的影响[12]。多个应用包括信息检索IR[18],文本分类[9],本体构建[4]以及更多的NLP应用[14,13,3]。Al-Lahham等人[7]开发了一种新的阿拉伯语光词干分析器,以提高以前算法的精度。此外,Alshalabi et al.[11]建议包括一个后缀和前缀表,以根据单词大小区分阿拉伯语词干,而不是依赖于形态学单词模式。这种增强的算法被称为Dlight阿拉伯语词干分析器,它使用单词长度来根据词干分析的精确阶段(双词根、四词根或三词根)去除后缀。阿拉伯语有大量的词汇和形态多样性。对于给定的文本长度和类型,任何单词出现的频率都低于英语。根据这一假设,阿拉伯语数据集将比等效的英语数据集具有更大程度的内在稀疏性[23])。间断复数包括大型阿拉伯语语料库中10%的文本[23],14%的复数[20]。对于光词干算法,检测破复数是必不可少的。在现代标准阿拉伯语中,不规则(即,破碎的)复数识别是阿拉伯语词干分析器和语言工程应用所关心的问题。它们对IR性能的影响还有待研究。断开的复数是通过改变英语中的单数来形成的(例如,foot -词缀剥离,foot-词缀剥离词干提取);使用标准词缀剥离词干提取技术无法恢复单数单词[24]。在本节中,我们参考了最著名的基于词根的词干提取研究[19].要生成词干,轻度词干处理仅限于删除少量阿拉伯语前缀和后缀。除了提取正确的词根,重蒸汽,也被称为基于词根的词干,需要自动删除阿拉伯语前缀和后缀。大多数原始阿拉伯语单词都是从三字词根中获得的 处理阿拉 伯语 中的 不规 则复 数词 的问 题例 如, Kchaou 和Kanoun[27]开发了一个带有两个词典的阿拉伯语词干分析器,该词典将输入单词与一个用于词根的词典和另一个用于词干的词典相匹配,从而消除它们。Aljlayl和Frieder[10]开发了另一种词干分析器,它使用启发式规则来删除不必要的字母,例如,然后检查剩余的单词长度以寻找额外的为了在特定领域解决这个问题,已经提出了一些阿拉伯语词干分析器例如,Abuata和Al-Omari[2]为海湾方言提出了一种特殊的阿拉伯语词干。为了从输入单词中提取三字词干,他们使用了基于语义的规则。El-Beltagy和Rafea的另一项研究[22]提出了一个特定领域的轻阿拉伯语词干。作者首先从一个词中删除词缀,然后在领域语料库文本中查找剩余的此外,一些关于阿拉伯语词法的著作值得强调,例如Yousfi[35]和Fuad(2020)的工作。 Yousfi[35]介绍了一种新的系统,用于使用待分析单词的表面模式进行形态分析。这种方法需要在初始阶段使用这些模式的形态规则对所有阿拉伯语动词词根进行分类。第二阶段是建立共轭 曲 面 图 形 数 据 库 。 这 个 系 统 可 以 分 析 所 有 的 阿 拉 伯 语 动 词 的decomposing词的前缀,后缀和根。 这种方法已经在4000个动词的语料库上进行了测试,结果令人鼓舞。Iazzi等人[25]还介绍了一个阿拉伯语形态分析系统。该系统是基于阿拉伯语单词的表面模式。这项工作旨在处理阿拉伯语派生名词。它主要是基于这些名词的表面模式的数据库。为了处理阿拉伯语派生名词,本文还参考了Yousfi[35]对阿拉伯语动词的分析。这种方法进行了测试,对语料库的2400个阿拉伯语单词(400个动词和2000派生名词),并取得了显着的结果Fuad et al.(2020)评估了四种最先进的阿拉伯语形态分析仪,发现缺乏对破碎复数词的识别,特别是缺乏复数词。因此,Fuad etal.(2020)提出了Qillah(缺乏),这是一种形态扩展,建立在其他形态分析器之上,并使用基于规则和词典的混合方法来增强对缺乏复数的开发了两个版本的Qillah:一个基于FARASA形态分析仪(https:asa.qcri.org/POS/),另一个基于CALIMA Star分析仪(https://github.com/CAMeL-Lab/camel_tools)。例如,形容词和名词的不连续或不规则复数不会与它们的单一形式混淆[26]。过去时态动词与现在时态动词的区别在于内部的区别和词缀[16,5,17,15]。但没有一个人能说出自己的名字[1]。一个轻词干分析器错过了一个单词的正确词干和一个阿拉伯语中不存在的错误单词基于词根的词干分析器也无法对断开的复数形式进行词干分析,从而导致所提取的词根偏离原始词我们计划改进一个基于词根的词干提取器,通过使用一个新的基于规则的词干提取器来解决这个问题。H. Alshalabi,S.Tiun,N.Omar等人埃及信息学杂志23(2022)363365Fig. 1. ISRI算法的伪代码。3. ISRI词干分析器ISRI词干分析器引入了另一种语言处理模拟,类似于Khoja词干分析器[28,34]。它开始通过规范化输入单词,以及丢弃不相关的阿拉伯字符和变音符号。标准化步骤涉及将Hamza的各种形式统一为A(Alif),这与Khoja词干不同[28]。这一步之后是几个决定,从规范化的单词中省略具有三个或更多字符的前缀。之后,ISRI根据单词的长度将其映射到一组模式,但在不匹配的情况下丢弃潜在的后缀。词干提取过程在单词长度减少三个或更少的字符。Khoja和ISRI词干分析器之间的主要区别是,后者从不针对任何字典验证根。ISRI只从输入的单词中识别出一个最小的单词来应用于(IR)任务。由于没有字典的一些缺点是不正确的提取的词根和词根组成的难以理解的字符,禁用进一步处理的语言目的。图1列出了这些步骤。在步骤7中,较长的单词被修剪成具有单个字符的词缀。成功的尝试导致在所得到的较短术语和不同级别的一系列模式之间进行比较,以确定匹配模式并提取实际上极短的相关术语或所得到的单词作为可行的词干。Taghva et al.[34]如下:词缀的集合反映在(P3,P2,P1,S3,S2和S1)中,而(PR4,PR53,PR54,PR63和PR64)指的是阿拉伯语后缀和前缀的集合然后,Syarief et al.[33]改进了ISRI词干分析器在处理由两个字母组成的单词时的弱点从试验结果来看,这些改进使茎产量提高了7.3%。4. BPR算法:破复数的新规则本研究中使用的数据是标准数据集文本检索会议(TREC 2002)。预处理阶段包括文本规范化、停用词删除、阿拉伯化检测和提取以及定义文章删除,我们在之前的Dlight工作中已经详细介绍过[11]。以前的大多数研究[1,28,34,6,8,36]都没有关注包含两个字母的词根。例如,爱字在模式词的权重中,如果按照以往的方法,提取的词根会是“爱”,这是错误的词根。权图二. 阿拉伯语不规则破复数的BPR算法。H. Alshalabi,S.Tiun,N.Omar等人埃及信息学杂志23(2022)363366表1要删除的前缀(P1)和后缀(S1)列表。集合描述列表词干生成器,我们在表1中定义前缀(P1)和后缀(S1)的集合。算法的详细讨论提供了广泛的审查,P1长度1前缀S1长度1后缀,,词干提取器按以下顺序进行词干提取(更多详情见表3作为该算法的总结,在开始的规范化步骤中,通过拆分文本来对字母词根是,字。因此,我们建立子规则,并开发一个子规则算法来解决这些问题,找到正确的词根。此外,我们引入了新的解决方案,以解决现有的根为基础的(Khoja的)方法不能通过使用主规则和子规则提取正确的根的问题例如,在表5中,规则(6)中的过程len 5规定主规则是“如果单词以(字母)结尾,则三个子规则将应用第一子规则(如果第一个字符为”字母“,第四个字符为”字母“)。例如,对于单词('',''(,正确的词根是('','')。在第二子规则“if first char '' and fourth char(Not'')”中,例如“'如果第一个字符是'',第四个字符不是''”,那么这个单词的词根将是两个字母,新规则结果将是“'';否则,根=第一个字符+第二个字符+第三个字符作为第三子规则。例如,单词()的正确词根为(“,在这一部分中,我们使用Khoja的方法开发了更多的模式来提取正确的根新的模式也被添加到Khoja列表中;因此,我们可以访问阿拉伯语单词模式的全面阵列 本研究提出一个破复数规则的演算法,如图所示。 二、表2中列出了本研究预期的拟议新模式的样本列表。开始描述我们的从文档转换为单词;删除非字母、标点符号和变音符号;将“”、“”和“”替换为“”;将最后的“”替换为“”;将最后的“”替换为“”。我们使用Larkey等人建议的标准化步骤。[29]。下一步需要像[11]中那样去除停用词和阿拉伯化,因为这些词的功能仅仅是句法操作,与主题材料无关。这些停用词对NLP有不同的影响。第三步,将定义条款作为一个独立的阶段予以取消,并在[11]中引入新的概念。概念是我们将定义冠词与前缀分开,因为在大多数情况下,当定义冠词从单词中删除时,词干分析器将很可能直接产生正确的词根,从而避免导致错误词根的进一步单词处理。例如,在“我在玩”一词中,按照词根法剔除定义冠词"我在玩“,会导致词根错误,而”我在玩“一词将成为”我在玩“。相比之下,在我们的算法中定义文章删除,对于单词(),规则如下:如果长度(单词)>= 4并且单词以(或)开头,则删除(二)。在这种情况下,单词()将是()游戏,这是正确的根。不需要对后缀和前缀移除进行进一步处理。最后,根据输入单词的长度,我们在最后阶段插入一些规则作为主规则和子规则表2不同长度的图案。图案6ﻓﻌﺎﻟﻴﻞﻣﻔﺎﻋﻴﻞﺍﻓﺎﻋﻴﻞﻓﻌﻼﺋﻲﺍﻓﻌﺎﺋﻲﺍﻓﻌﻼﺀ图案5ﻓﻮﺍﻋﻞﻓﻌﺎﻟﻪﺗﻔﺎﻋﻞﻳﻔﺎﻋﻞﻣﻔﺎﻋﻞﻛﻔﺎﻋﻞﺑﻔﺎﻋﻞﻓﻌﺎﻟﻲﻓﻌﺎﺋﻞ图案4ﻓﻌﺎﻟﻞﻓﻌﻠﻪﺍﻓﻌﻼﺀﻓﻌﺎﻝﻓﻌﻼﺀﺍﻓﻌﻞﺍﻓﻌﺎﻝﻓﺎﻋﻮﻝﺍﻓﻌﻠﻪ表3程序实现断句复数单词len6.R-编号程序len6主要规则前缀中间后缀子规则例如1if(第五个字符是ﻣﻔﺎﻋﻴﻞﺍﻓﺎﻋﻴﻞﻓﻌﺎﻟﻴﻞ"“,"”"“,"”if(第一个字符是root =第二个字符、第三个字符和第六个字符ﺗﻘﺎﻃﻴﻊﻣﻘﺎﺗﻴﻞﻣﺸﺎﺭﻳﻊﻗﻄﻊﻗﺘﻞﺷﺮﻉ=2如果第一个字符是根=删除前缀’ﺍ’’ﺍﺀ’else根=第一个字符和第二个字符和第四个字符和第六个字符Root =删除前缀和后缀ﺻﻨﺎﺩﻳﻖ=ﺻﻨﺪﻕﺍﻧﺒﻴﺎﺀﺍﻭﻟﻴﺎﺀﺍﺻﻔﻴﺎﺀ=3如果第一个字符是后缀根=第三个字符和第五个字符‘ﻡ’“”,"“,”“chars根=第三个字符+第四个你好,我是说,ﻣﺘﻔﺎﺋﻞ=,ﻓﺎﻝ(第五个字符是(英文)字符和第六字符char + last char45if(第一个字符是“如果第三个字符是根=第二个字符、第三个字符和第六个字符根=第一个字符+第二个字符“”,"“,”““”,','ﻱ،ﺍﻥ根=第二个字符+第三个字符+最后一个字符ﻛﻔﻌﺎﺋﻞﺑﻔﻌﺎﺋﻞﻟﻔﻌﺎﺋﻞ:=ﻓﻌﻞﺷﻴﺎﻃﻴﻦﺭﻳﺎﺣﻴﻦ6和第六个字符“如果第一个字符‘char +第四个char+ ''+第六个char根=第二个字符+第四个字符ﺍﻱ،ﺍﺳﻼﻃﻴﻦ=ﺷﻴﻄﺎﻥﺭﻳﺤﺎﻥﺍﻓﺎﻋﻴﻠﻔﻌﻞ=7char如果第四个字符“字符+第六个字符ﺍﺍﺋﻲ如果是第一个字符,则不是ﻓﻌﻼﺋﻲﻋﻤﻼﺋﻲ=ﻋﻤﻴﻞchar +第二个char +''+第三个char如果第一个字符是新char +第三个char根2长度ﻋﺰH. Alshalabi,S.Tiun,N.Omar等人埃及信息学杂志23(2022)363367表4程序实现断词复数len5.R-编号程序/镜头5主要规则前缀的中间后缀子规则例如12如果有话。以('')结尾如果第三个字符为单词=删除前缀根=第一个ﺍﺍﻳﺔﺍﻏﻨﻴﺔﻏﻨﺎﻓﻮﺍﻋﻞ3如果第二个字符char + fourthchar + fifth charﺕ،ﻱ،ﻡ،ﻥﻭ،ﺍ如果第一个字符是“”你知道吗?char根=第二个字符+第四个字符+第五个字符ﻓﻮﺍﻋﻞﺟﻤﻊﺍﻟﺘﻜﺴﻴﺮ4如果第四个字符“ﻡﺍ،ﻭ،否则:根=第一个字符+第四个字符+第五个字符如果第二个字符ﻣﻮﺍﺋﺪcharchar +第三个char +第五个char如果第一个字符“ﻭ’根=第二个字符+第三个字符+第五个字符如果第一个字符不是“"且第二个字符不是!=”“第 五 ”ﻣﻜﺎﺋﺪﺣﻘﺎﺋﺐ5如果第三个字符为“ﻡ،ﺍﻩchar根=第一个字符+第二个字符+第六个字符如果第一个字符不是如果第一个字符“ﻗﺒﺎﺋﻞﻓﺼﺎﺋﻞﻗﺒﻴﻞﻣﺪﺍﻣﻊﻣﻨﺎﻓﻊ根=第二个字符+第四个字符+第五个字符,如果第一个字符不是根=第一个字符+第二个字符+第四个字符ﺣﻀﺎﺭﻱ6如果第四个字符如果第五个字符根=第二个字符+第三个字符+第四个字符else根=第一个字符+第二个字符+第四个字符+第五个字符如果第一个字符“ﻣﻌﺎﻧﻪﻣﻐﺎﺭﻩﺳﻨﺎﺑﻞ=ﺳﻨﺒﻞﺍﺑﺮﻳﺎﺀﺍﺳﻮﻳﺎﺀ’ﺀ’根=第二个字符+第三个字符+第四个字符,如果第一个字符是根=第二个字符+第三个字符ﺍﺟﻼﺀﺍﻃﺒﺎﺀﺍﻋﺰﺍﺀ7如果第四个字符根=秒ﺕﻱRoot =第一个char+第二个char+第三个charﺑﺨﻼﺀ=ﺑﺨﻞﺗﻔﻌﻴﻞﺗﺤﻮﻳﻞ8char如果第四个字符char + thirdchar + fifth char根= firstﻓﺎﻋﻮﻝchar + thirdchar + fifth char910如果第五个字符如果第四个字符根=秒ﻱ،ﻡ،ﺍ،،ﺕﻱ،ﻯ如果第一个字符(''或''根=删除后缀和前缀Else根=第一个字符+第二个字符+第四个字符ﻣﻌﺎﻟﻲﺗﻌﺎﻟﻰﻣﻘﺎﻟﻲﻳﻨﺎﺩﻱﺻﺤﺎﺭﻯ你知道吗?11’ﺍ’)如果第一个字符为“”char +第三个char +第五个char根=删除前缀ﺍﻩﺍﻣﺮﺍﺽﺍﻏﺼﺎﻥﺍﻓﻌﻠﻪﺍﺯﻣﻨﻪﺍﺭﻏﻔﻪ’ﻩ’ orﻩ’) and third char Not和后缀字符ﺍﺩﻣﻐﻪ5. BPR算法5.1. BPR算法在将BPR算法应用于我们提出的或任何阿拉伯语词干提取器之前,我们应该评估其有效性。因此,进行了两类调查。一种是通过发现错误的和正确的词干词的数量来评估BPR算法词干词的有效性。另一种是将BPR算法应用于著名的阿拉伯语词干提取器ISRI,通过比较原始ISRI词干提取器和改进的ISRI词干提取器(ISRI +BPR),评估BPR算法的有效性。以下是我们如何通过使用我们提出的BPR算法来应用ISRI词干分析器的详细说明,并期望ISRI的性能得到改善5.2. ISRI + BPR:使用BPR算法改进ISRI词干分析器ISRI词干提取器[34]提供了另一种与Khoja词干提取器[28]相当的语言过程模拟。它首先消除变音符号和无关的阿拉伯字符”[28]《说文解字》。然后将规范化的单词映射到在一系列判断之后根据其长度生成一组模式,以消除具有三个或更少字符的可能前缀如果没有找到匹配项,ISRI将在组的模式中查找可能的匹配项。当输入单词的剩余长度为三个或更少字符时ISRI不对任何形式的字典验证根,这是与Khoja词干分析器的另一个重要区别。ISRI更关心的是定位输入单词的最小可能表示来检索信息。没有词典会产生各种负面后果,例如提取的词根并不总是有效的;词根可能是一串无意义的字母。根对于后续的处理是不可信的,特别是在语言任务中。词干提取过程如图3所示,我们将新的词干提取器称为(ISRI + BPR)词干提取器。Khoja和ISRI词干生成器之间的主要差异在于后者从不针对任何字典验证根。ISRI词干分析器只从输入单词中识别出最少的单词,以应用于(IR)任务。由于没有字典而导致的一些缺点是提取的词根不正确,以及词根包含无法理解的字符,这些字符使进一步的处理无法进行。H. Alshalabi,S.Tiun,N.Omar等人埃及信息学杂志23(2022)363368图三. ISRI + BPR词干分析器开发图。确定BPR词干从表6中可以看出,BPR词干提取器对TREC 2002数据集上的单词进行了正确的词干提取,几乎占整个数据集的3/4,只有1/3是不正确的。这个结果表明,尽管给定数据集的大小很大,但BPR能够正确地处理单词。具体来说(表6),BPR从总共有42,127,701个单词的TREC2002数据集中产生了总共有5,661,488个词干是正确的(正确R),占总词干(所有词干)的73%;只有2,127,389个(或27%)是不正确的词干(不正确R)。根据结果(表6),BPR显示出高性能的词干提取能力。此外,通过将BPR算法应用于现有的、公知的阿拉伯语词干分析器来执行BPR算法的评估,即,ISRI词干分析器[34]。如果BPR算法能够增强原始ISRI词干分析器的性能,表6BPR词干分析器的输出结果。方法正确的RR不正确所有股骨柄BPR5,661,4882,127,3897,788,877表7使用两种算法的ISRI + BPR的正确R、不正确R、所有股骨柄和唯一股骨柄正确的RR不正确所有股骨柄联合国ARLS 223,325,31930,814,87842,454,078152,358ISRI38,552,18115,588,01645,281,18656,990ISRI + BPR41,276,39511,220,65141,282,10755,839语言目的。该方法在提取不规则复数词的词根时存在不足。为了解决这个问题,BPR算法是解决方案。也就是说,通过使用BPR算法对ISRI词干分析器的改进可以作为BPR算法是否真正有效的基准。图3显示了增强的ISRI(ISRI + BPR)茎聚合物的示意图。本节介绍我们使用新的BPR(ISRI + BPR)进行基于规则的开发。该算法需要许多步骤。预处理步骤包括标准化、停用词删除和阿拉伯化删除。下一步涉及删除定义文章和应用新的BPR,然后是ISRI词干提取器。5.3. 在阿拉伯语TREC数据集上评估BPR算法在这项研究中,一些具体的评估进行评估所提出的BPR算法。在这个评估中,词干指的是已经被算法处理过的单词。词干可以是正确的词根(正确的R)或不正确的词根(不正确的R)。'Un'指的是所有词干中唯一的词干,而非词干指的是算法尚未处理的单词。此外,所有词干表示算法能够处理或词干的所有单词。因此,为了预先评估BPR算法的有效性,进行了两种类型的调查。第一个是通过发现错误和正确的词干词的数量来评估BPR算法词干词的有效性。第二种是将BPR应用于ISRI词干提取器,并通过比较原始ISRI词干提取器和增强的ISRI(ISRI +BPR)来评估BPR算法的有效性。实验结果证明了BPR词干提取器的有效性 在第一个实验中,不正确和正确的词干词的数量由见图4。ISRI + BPR的性能与两个著名的阿拉伯语词干分析器的性能比较表8精确度、召回率和ICF比较知名阿拉伯语斯坦默斯ISRI + BPR。精密度(%)召回率(%)F测量值(%)ICF(%)ARLS 243675272ISRI71817689ISRI + BPR79858290H. Alshalabi,S.Tiun,N.Omar等人埃及信息学杂志23(2022)363369表5程序实现破复数单词len4。R-编号程序透镜4主要规则前缀的中间后缀子规则例如1如果第一个字符“根=删除前缀‘ﺍ’你知道吗?2如果第三个字符根=删除中间ﺍ你好,我是说,表9ISRI + BPR、ISRI和ARLS的词干提取示例2.图五. ISRI + BPR的性能与两个著名的阿拉伯语词干分析器的性能比较进一步证实了高性能词干提取的能力。表7中的结果显示了在提取正确的根方面的明显改进BPR算法在减少错误词根方面也取得了更好的效果,因为它可以分析最大数量的受到ISRI + BPR改进的单词,这使得算法能够提取更少数量的唯一查询。此外,如图4所示,ISRI + BPR比ARLS 2多增加了大约17,951,076个正确的根,比原始ISRI词干多增加了2,724,214个正确的根。F-测量结果也表明了显著的改善。结果见表8和Fig. 结果表明,ISRI + BPR算法比ARLS 2算法提高了36%,比原算法ISRI算法提高了08%。ISRI + BPR使茎F测量值比ARLS 2高约30%,比ISRI茎聚合物高约06%。6. 讨论一般来说,词干分析的目标是发现一个词的代表性索引形式。为了在阿拉伯语中进行有效的信息检索,这是一种严重曲折的语言,我们需要良好的词干。目前,还没有标准的阿拉伯语词干提取策略。然而,有两种广泛的方法可以用来提取阿拉伯语单词的词干:提取词根前一种首先,必须维护根字典,以确保新找到的单词得到适当的词干提取。第二,在某些情况下,它不能去除单词的词缀,因此不能提取词根。例如,基于词根的技术词干分析器将无法删除单词中的词缀,如表9所示;因此,当它们来自词根时,它不会对它们进行词干分析第三个也是最严重的问题是,从信息检索系统的角度来看,根提取词干分析器在阿拉伯语中是无用的。在许多情况下,它们的采用导致一个非常通用的新词,导致搜索效率低下。表9比较了使用不同词干分析器对不同阿拉伯语单词进行词干分析的方式。该表显示了由ISRI + BPR词干分析器对两个著名的阿拉伯语词干分析器的错误词干分析ARLS 2和ISRI。BPR增强了ISRI的方法,因为建议的规则的强度和灵活性;规则包含许多子选项(子规则),以正确地词干此外,BPR算法能够提取以前算法无法提取的单词的正确词根。例如,ISRI和ARLS 2错误地处理了单词“boxes”(盒子),但BPR正确地将其词干转换为单词“encase”(包裹)。BPR还可以提取包含两个字母的词根(如表4所示,在主规则6子规则2中,单词“”、“”、“”将具有两个字母的词根,即“”)。综上所述,BPR算法在求根方面具有更广泛的能力,因为它可以像以前任何算法一样提取五元组、7. 结论为了解决断句复数词的词干问题,针对基于词根的阿拉伯语词根提取方法的一个主要缺点,设计并开发了符合阿拉伯语语法的词干提取规则。第一部分描述了开发新BPR的拟议算法,新规则是通过克服其弱点和缺点来增强基于阿拉伯根的方法的最新贡献。通过将BPR算法应用于ISRI词干生成器,对ISRI方法进行了改进,命名为ISRI + BPR词干生成器。第一次研究的实验结果表明,BPR开发取得了显著的成功,在一个著名的阿拉伯语数据集上使用BPR算法正确提取的根数令人鼓舞。在第二次调查中,ISRI + BPR获得的结果与基准阿拉伯语词干分析器相比是最好的:原始ISRI词干分析器和ARLS 2。两个实验结果都表明,在精确度、回忆度、F-测量和ICF测量方面,正确词根的百分比明显增加,不正确词根的百分比明显减少。因此,我们可以得出结论,提出的BPR算法已经解决了一些不规则的破复数问题,这最终有助于提高基于根的阿拉伯语词干分析器的性能。在未来的工作中,我们将把这种方法扩展到所有的阿拉伯语派生名称。ISRI + BPRISRIARLS 2话ﺷﺮﻉﻣﺸﺎﺭﻳﻊﻣﺸﺎﺭﻳﻊﻣﺸﺎﺭﻳﻊﺻﻨﺪﻕﺻﻨﺎﺩﻳﻖﺻﻨﺎﺩﻳﻖﺻﻨﺎﺩﻳﻖﻧﺒﻲﺑﻲءﻧﺒﻲءﺍﻧﺒﻴﺎﺀﻭﻟﻲﻟﻲءﻭﻟﻲءﺍﻭﻟﻴﺎﺀﺻﻔﻲﺻﻔﻴﺎﺀﺻﻔﻲءﺍﺻﻔﻴﺎﺀﻧﻘﻲﻗﻲءﻧﻘﻲءﺍﻧﻘﻴﺎﺀﻓﺄﻝﻓﺎﺋﻞﻣﺘﻔﺎﺋﻞﻣﺘﻔﺎﺋﻞﻓﻌﻞﻛﻔﻌﺎﺋﻞﻛﻔﻌﺎﺋﻞﻛﻔﻌﺎﺋﻞﻓﻌﻞﺑﻔﻌﺎﺋﻞﺑﻔﻌﺎﺋﻞﻓﻌﻴﻞﻓﻌﻞﻓﻌﺎﺋﻞﻟﻔﻌﺎﺋﻞﺷﻴﻄﺎﻥﺷﻴﻂﺷﻴﺎﻁﺷﻴﺎﻃﻴﻦﺳﻠﻄﺎﻥﺳﻠﻂﺳﻼﻁﺳﻼﻃﻴﻦﻓﻌﻞﺍﻋﻞﺍﻓﻌﻴﻞﺍﻓﺎﻋﻴﻞﻓﻌﻴﻞﻋﻠﺊﻓﻌﻼﺉﻓﻌﻼﺋﻲﻋﻤﻴﻞﻋﻤﻼﺉﻋﻤﻼﺉﻋﻤﻼﺋﻲH. Alshalabi,S.Tiun,N.Omar等人埃及信息学杂志23(2022)363370利益冲突声明所有作者声明他们没有利益冲突确认这 项 研 究 由 马 来 西 亚 高 等 教 育 部 部 分 资 助 , 研 究 代 码 为 :FRGS/1/2020/ICT 02/ UKM/02/1。引用[1] Ababneh M,Al-Shalabi R,Kanaan G,Al-Nobani A.为阿拉伯语构建一个有效的基于规则的轻量级词干分析器以提高搜索效率。IntArab J Inf Technol(IAJIT)2012:9.[2] AbuataB,Al-Omari A. 阿拉伯海湾方言的基于规则的词干分析器 J King SaudUniv-Comput Inf Sci 2015;27(2):104-12.[3] AL-Aswadi FN,Chan HY,Gan KH.使用深度学习从科学出版物中提取语义概念和arXiv预印本arXiv:2009.00331。(2020年)。[4] AL-Aswadi FN,Chan HY,Gan KH.使用深度学习从科学出版物中提取语义概念和关系。Cham:SpringerInternational Publishing; 2021。p.374-83.[5] Al-Fuqaha A,Kountanis D,Cooke S,Elbes M,Zhang J.具有QoS要求的非自治移动ad-hoc网络中轨迹规划的遗传方法。2010年IEEE Globecom研讨会。IEEE; 2010年。p.1097-102.[6] Al-Kabi MN,Kazakzeh SA,Abu Ata BM,Al-Rababah SA,Alsmadi IM.一种新颖的基于词根的阿拉伯语词干分析器。J King Saud Univ-Comput Inf Sci 2015;27(2):94-103.[7] 放大图片作者:Al-Lahham YA,Matarneh K,Hasan M.条件阿拉伯语轻词干处理器:condlight。 Int Arab J Inf Technol 2018;15:559-64.[8] Al-OmariA,Abuata B,Al-Kabi M. 建立和基准新的重/轻阿拉伯语词干。2013年第四届信息与通信系统国际会议(ICICS 2013)。[9] 奥马尔·阿尔胡泰什基于k-近邻算法的阿拉伯语文本分类。 Int Arab J Inf Technol(IAJIT)2015;12:190-5.[10] 放大图片AljlaylM,Frieder O. 关于阿拉伯语搜索:通过轻词干方法提高检索效率。载于:第十一届信息和知识管理国际会议记录。p. 340- 7[11] Alshalabi H,Tiun S,Omar N,Al-Aswadi FN,Ali AK.使用新规则的阿拉伯语 基 于 光 的 词 干 沙 特 国 王 大 学 计 算 机 信 息 科 学 2021 。 doi :https://doi.org/10.1016/j.jksuci.2021.08.017。[12] Alshalabi H,Tiun S,Omar N,Albared M.在马来文文本自动分类中使用特征选择和机器学习方法的实验。Procedia Technol2013;11:748-54.[13] Alshalabi HA,Tiun S,Omar N.集成分类器和基本分类器在马来文文本分类中的性能比较研究。Asia-Pasific J Inf TechnolMultimedia 2017;06(02):53-64.[14] Altawaier MM,Tiun S.阿拉伯语推特情感分析的机器学习方法比较。 Int J AdvSci,Eng Inf Technol 2016;6:1067-73.[15] Al-Zu 'bi S,Hawashin B,EIBes M,Al-Ayyoub M.一种基于apriori算法的需求工程推荐系统。2018年第五届社交网络分析、管理和安全国际会议(SNAMS)。IEEE; 2018. p. 323- 7[16] AlZu'biS,JararwehY,Al-ZoubiH,ElbesM,KananT,GuptaB. 基于三维多分辨率分析的多方向几何医学体分割。多媒体工具应用2019;78(17):24223-48.[17] 放大图片作者:Al-Zubi S,Islam N,Abbod M.用于加速医学体积分割的增强隐马尔可夫模型。2011年IEEE GCC会议及展览会(GCC)IEEE; 2011年。p.287比90[18] 放大图片作者:J.增强的阿拉伯语信息检索:轻词干和停止词。在:人工智能技术国际多方会议。Springer; 2013. p.219比28[19] 李伟杰,李伟杰.智能系统与应用:2019年智能系统会议(IntelliSys)论文集。Springer Nature; 2019.[20] Boudelaa S,Gaskell MG.重新审视阿拉伯语复数的默认系统。语言认知过程2002;17(3):321-43.[21] Chen A,Gey F.为信息检索构建阿拉伯语词干。TREC。2002年:631[22] El-Beltagy SR,Rafea A.一个阿拉伯语文本的精确度增强的轻型词干分析器。ACM跨语音语言处理(TSLP)2010;7:1[23] Goweder A,De Roeck A.评估一个重要的阿拉伯语语料库,阿拉伯语NLP工作坊在ACL/EACL。(2001年)的第10页。[24] Goweder A,Poesio M,De Roeck A,Reynolds J. Identifying Broken PluralsinUnvowelised Arabic Tex. 2004年自然语言处理经验方法会议论文集。p.246比53[25] [10] Jiangsu M,Jiangsu M,Jiangsu M,Jiangsu M.使用表面模式的阿拉伯语单词形态分析器。 Int J Comput Sci Issues(IJCSI)2013;10:254.[26] [1] A,A,B,C. 阿拉伯语轻词干处理:p-stemmer、Khoja stemmer和light 10stemmer之间的比较研究。2019年第六届社交
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功