没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报使用新规则的[10]杨文,杨文.AL-Aswadic,d,Kamal Ali AlezabieaCAIT,马来西亚Kebangsaan大学信息科学技术学院,43600 UKM,Bangi,Malaysiabc也门荷台达荷台达大学计算机科学与工程学院。d马来西亚槟榔屿Gelugor 11800,马来西亚Sains大学计算机科学学院马来西亚吉隆坡UCSI大学计算机科学数字创新研究所(ICSDI)阿提奇莱因福奥文章历史记录:2021年5月1日收到2021年8月11日修订2021年8月18日接受2021年8月25日网上发售保留字:阿拉伯语词干分析器Arabic light stemmer阿拉伯语信息检索后缀和前缀剥离阿拉伯语语料库A B S T R A C T优秀的词干提取算法在许多自然语言处理(NLP)应用中有很大的帮助,例如信息检索。阿拉伯语轻型词干提取器是最重要的词干提取算法之一。然而,部分地由于阿拉伯语言形态结构的高度曲折和复杂性,大多数现有的基于阿拉伯光的词干提取算法在识别中缀模式以确定词根的过程中消除了少量后缀和前缀或两者。后缀和前缀的消除导致许多低效的结果。因此,本研究的目的是开发一种改进的基于光的算法的阿拉伯语词干,提出了一个适当的后缀和前缀列表,这是支持根据单词长度的规则(不使用词素或模式的干)。我们改进的Dlight阿拉伯语词干提取器着重于在多种长度词规则下确定和去除中缀模式,并根据词干提取阶段的特定顺序从长和短阿拉伯语词中提取双、三、四根词根。为了评估我们提出的基于光的阿拉伯语词干分析器,我们将我们的词干分析器与现有的阿拉伯语词干分析器进行了比较,即Light10,Condlight和ARLST。实验结果表明,本文提出的Dlight(Develop Arabic Light-Based Stemmer)具有最好的性能,其F-measure为68%,而其他三种阿拉伯语词干生成器的F-measure略低最后,建立一个适当的后缀和前缀列表,并版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY许可下的文章(http://creativecommons.org/licenses/by/4.0/)。1. 介绍词干分析的目标是将屈折词和派生词从通常的书面词形式减少到它们的基础(根或词干)Rad et al.(2018)。换句话说,词干提取是一个计算过程,去除一个词的所有后缀和前缀,以生成词干或词根Khoja和Garside(1999)Dawson(1974)Paice(1996)。此外,词干可以被定义为一个语素或一组连接的语素,可以接受*通讯作者。电 子 邮 件 地 址 : hmoud. siswa.ukm.edu.my ( H. Alshalabi ) , sabrinatiu-n@ukm.edu.my(S.Tiun),nazlia@ukm.edu.my(N.Omar),kamal@ucsiuniversity. edu.my(韩国)Ali Alezabi)。沙特国王大学负责同行审查词缀然而,在阿拉伯语中,去除前缀通常会改变单词Al-Sughaiyer和Al-Kharashi(2004)的含义。鉴于阿拉伯语主要依靠模式和词根来产生词汇,因此,有效的轻重词干提取必须在模式和词根相互作用的基础上进行Al Ameed et al. ( 2005年)。阿拉伯语词干算法可以根据所需的分析水平分为基于光或基于规则的算法Larkey et al.(2002),Khoja and Garside(1999)。也就是说,基于光的算法从阿拉伯语单词中删除前缀和后缀,而基于规则的算法将词干还原为词根Xuetal.(2002),Al-Sughaiyer andAl-Kharashi(2004)and Al Ameedet al. (2005年)。本研究的主要目的是通过添加额外的前缀和后缀来开发有效的派生词,并根据单词的长度施加一些规则,从而改进基于光的阿拉伯语词干提取器第二介绍了相关的工作,第三部分介绍了Dlight方法的实验数据集,第四部分介绍了Dlight方法的实验数据集,第五部分介绍了Dlight方法的实验数据集,第六部分介绍了Dlight方法的实验数据集,第七部分介绍了Dlight方法的实验数据集,第八部分介绍了Dlight方法的实验数据集,第九部分介绍了Dlight方法的实验数据集https://doi.org/10.1016/j.jksuci.2021.08.0171319-1578/©2021作者。由Elsevier B.V.代表沙特国王大学出版。这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comH. Alshalabi,S.Tiun,N.Omar等人沙特国王大学学报6636介绍了文本预处理阶段,第5节说明了基于light的词干分析器的拟议开发此外,第6节和第7节全面介绍了评价、实验和结果,而第8节提供了结果的讨论。最后,第九部分是本研究的结论。2. 相关工作阿拉伯语术语选择由四种类型的词干提取技术组成,包括:基于词根的词干提取(重词干提取)、统计词干提取和混合词干提取、基于词干提取的轻词干提取和人工智能词干提取方法。 这些技术中的每一种都代表了分析尺度中的一个级别。基于词根的词干分析器使用形态分析来提取给定阿拉伯单词的词根。其中最流行的词根词干词是Khoja和Garside(1999)的词干词,它去掉了后缀、中缀和前缀。它使用模式匹配来提取单词的词根;然而,这项工作包含一些缺点和缺陷,特别是对于某些表示“破碎的plu-rals”的单词。之后,Taghva等人(2005)改进了Khoja Garside1999的算法,消除了使用字典提取根的需要。而在Al-Kabi et al.(2015)中,词干分析器通过添加额外的规则和模式进行了改进。最近,已经开发了基于模式的词干词根提取技术,而不使用字典(Al-Kabi等人,2015;Nehar等人, 2016年)。Stemmer在阿拉伯语或任何其他语言中都很重要,因为它在许多应用中有多种用途,例如信息检索(IR)Atwan et al.(2013),文本分类 Alhutaish 和 Omar ( 2015 ) 和 本 体 构 建 ( AL-Aswadi et al.2021 ) ,以 及Altawaier 和 Tiun(2016 ) ; ( Abualigah 2019 ) 和Abualigah和Diabat(2021)中的许多其他NLP应用。基于规则的词干分析器应用条件来区分原始单词部分和添加的词缀。基于光的词干挖掘算法消除了后缀和前缀,产生了单词的原始词干,而不需要找到词根。本文重点介绍了基于光的词干提取,因此,本节的其余部分将进一步详细介绍阿拉伯语基于光的词干提取器的相关文献Larkey et al.(2002)提出了一种去除词缀的轻词干方法。词干分析器去掉一小部分后缀、前缀或两者,而不试图处理中缀或识别模式并找到词根。然后,作者改进了他们的基于阿拉伯光的词干分析器,并使用标准TREC数据评估了词干分析器对IR的有效性(Larkeyet al. 2007年)。Al Ameedet al.(2005)提出了两种主要的阿拉伯语词干提取方法。第一种方法涉及TREC预定义的前缀和后缀的可移除组,而第二种方法侧重于修改算法组件的执行顺序。 该数据集仅包含1,450个阿拉伯语单词。此外,Ghwanmeh等人(2009)提出,词干提取方法取决于一组可能的词缀,包含前缀和后缀。然而,该算法不能处理不正确的根,在研究中使用的语料库只包含242个摘要从沙特阿拉伯国家计算机会议。Al Hajjar等人(2010年)介绍了没有根字典的阿拉伯语轻型词干分析器方法,称为这种技术最初是为英语Chen和Gey(2002)设计的,然后被改编为阿拉伯语。在这项研究中,使用的数据集只包含2,000个阿拉伯语单词。Al-Lahham等人(2018)提出了一种基于条件光的词干分析器,即Condition Light,或简称为“CondLight”,作为Light10方法的增强。增强包含添加一组新的词缀,如果它们满足一个或多个建议的条件,则将被消除。这些条件是由从阿拉伯语的形态学本质上。Saad和Ashour(2010)通过将阿拉伯语形态分析工具实现并集成到高级开源机器学习中,提出并评估了当前关于光词干算法的阿拉伯语词干挖掘方法他们还介绍和评估了目前的阿拉伯语轻词干提取算法,通过实施阿拉伯语形态分析工具并将其纳入数据挖掘工具和先进的开源机器学习工具。Alnaied等人(2020)还提出了一种阿拉伯语词干的新技术。作者称这种技术为阿拉伯语形态信息检索(AMIR)。这种技术旨在通过应用一套关于阿拉伯字母之间关系的条件和规则来产生词干。然后,将各个单词的根形式用作阿拉伯文检索系统中的文本搜索的索引项Alhaj等人(2020)讨论了光词干技术对提取特征的影响,其中词频-逆文档频率(TF-IDF)和词袋(BoW)用于阿拉伯语文档分类。Jabbar等人(2020年)审查并分析了文本词干分析评估方法,以制定标准或准则来增强词干分析器性能的测量。针对乌尔都语这一资源稀缺的语言,讨论了词干分析器性能测量的不同方面,如关键特征、缺点和优点。为了确定解决方案,在以前的研究中提到的弱点阿拉伯光为基础的干,我们提出了新的后缀和前缀的列表这些列表将被提议的算法使用,该算法使用单词长度规则来从目标单词中删除后缀和前缀以下部分详细描述了我们提出的基于光的阿拉伯语词干分析器,也称为Dlight。(Abualigah 2019)提出了一种解决TD聚类问题的新方法。结果表明,与其他比较方法相比,所提出的方法和算法获得了最好的结果。Abualigah和Diabat(2021)提供了一个概述,其动机是正弦余弦算法(SCA)的三角函数,这是Mirjalili在2016年引入的一种基于群体的优化算法此外,(Abualigah Diabat 2021)调查了文献中一系列的计算实验的结果,以验证性能的SCA对类似的算法。3. 数据集标准数据集文本检索会议(TREC 2002)由法新社(AFP)阿拉伯语新闻网的文章组成。源材料使用TIPSTER风格SGML标记,并转码为Unicode(UTF-8)。数据以2 337个压缩阿拉伯文文本数据文件的形式提供。有209兆字节的压缩数据(869兆字节未压缩),383,872文档包含76万令牌超过约666,094个唯一字。与LDC语料库相关联的查询集是为TREC 2001和2002创建的,如在网站https://trec.nist中。gov/data/topics_noneng/.有25个主题与阿拉伯语、法语和英语中的相关判断、标题、描述和叙述字段Geyand Oard,2001; Al-Lahham etal. 2018; Larkey et al. 2007年)。正如文献中提到的,不使用标准数据集来比较结果是许多研究的主要弱点之一。在这项研究中,我们使用(TREC 2002)标准数据集 , 即 与( Al-Lahham et al. 2018; Larkey 等 人 2007; Abainia2019);本文的结果与这些研究的结果进行了比较,并使用相同的数据集H. Alshalabi,S.Tiun,N.Omar等人沙特国王大学学报6637步骤1阿拉伯语数据集步骤2停用词删除阿拉伯提取步骤3删除定义文章没有根是的基于算法2去除后缀No根是的基于算法3去除前缀是的没根删除算法2中S1上长度为1个字母的所有后缀结果(TREC2002)。Geyand Oard,2001;Al-Lahham et al. 2018;Larkeyet al. 2007年)。4. 文本预处理文本预处理是提高阿拉伯语词干提取效率的重要环节。这一步的主要目标是去除数据集中的噪声和无意义的单词。同时,预处理可以减少错误,提高词干提取的准确性,对整个语料库文件进行了如下处理:4.1. 文本规范化文本预处理是文本分类过程中的一个重要步骤。标准化步骤是通常在文本相关实验中执行的主要预处理步骤之一,其中之一是词干提取过程。在我们的文本归一化过程中,我们使用(Larkey et al. 2002)提出的归一化步骤。因此,在流发生之前,我们工作中的语料库和查询被标准化,如图1所示。Arabic标记化已经应用于各种解决方案,以解决歧义单词。例如,字符可以以不同的方式书写,如字符()Hamza,其可以以不同的方式组成(,,))。这种独特的书写方法导致了关于哈姆扎是否存在的更多的模糊性。因此,在任何时候,每个字母最多只能分配一个标记,如(Alnaied et al. 2020)。例如,给定一个单词(),字符()被替换为()),它将单词转换为()。4.2. 停用词和阿拉伯语单词删除停止词列表包含文本中没有什么意义的词。此外,这些词只充当句法过程,而不涉及主题。这些停用词对NLP有两种 不同的 影响。(2013年)。它们可以影响检索过程,因为它们具有相当高的频率,并且倾向于减少最终影响加权过程的不太常见的单词之间的频率变化的影响。删除停用词也会改变文档长度,从而影响称重过程。它们还影响文本处理的效率,这是由于它们的性质和它们没有意义的事实,这可能导致大量的非生产性处理Almusaddar (2014);Bouzoubaa et al.(2009年)。此外,阿拉伯化的单词是从另一种语言,如土耳其语,波斯语,英语和法语等借用的外来词阿拉伯语单词的这种用法的例子是汽车和品牌的名称,时尚现代和电子设备的名称,以及公历月份的名称。在这项研究中,我们根据Khoja和Garside(1999)的khoja列表删除停用词。5. 阿拉伯光基词干(Dlight)的研制阿拉伯语是基于一组根,所有的名词和动词都是从一组根产生的,大约包含将、、和替换为将最后的替换为将最后的替换为.Fig. 1. 基于(Larkey et al. 2002)11,347根。词根的集合大致分布如下:Marwan(2004):115个双字词根(这些词根没有从它们派生出来); 7,198个三字词根; 3,739个四字词根和295个五字词根。虽然给出了字符根的数量,但这些根的完整列表不可用。基于光的阿拉伯语词干分析器在获取单词的正确词干或词根时多次失败,如果它是一个新单词或单词在阿拉伯语中不存在。阿拉伯语基于光的词干分析器也无法处理破碎的复数形式,并将词根或词干的含义推到远离原始单词的地方。为了解决这个问题,我们的目标是改进阿拉伯语基于光的词干提取器,它可以通过有效地去除所有词缀来提取预期的词干,除了作为原始单词一部分的词缀。以下是我们提出的基于阿拉伯光的词干或“Dlight”是如何构建的整体图。如图2所示,构建所提出的基于阿拉伯语光的词干提取(Dlight)需要以下四个主要步骤:(i)预处理(归一化和停用词和阿拉伯化词去除),(ii)去除定义文章,以及(iii)使用新列表和单词长度规则去除后缀和前缀。以下部分进一步描述了每个提到的步骤。5.1. 删除定义文章一旦一个单词经过了预处理阶段,我们就根据单词的长度从单词的开头删除定冠词。在大多数先前的研究中,定义文章在前缀阶段Larkeyet al. (2002); (Kadri& Nie2006; Larkey et al. 2007; Saad andAshour,2010; Khalid et al.2016;Al-Lahham et al. 2018年)。图二. 建议的基于light的阿拉伯语词干分析器(Dlight)的示意图。H. Alshalabi,S.Tiun,N.Omar等人沙特国王大学学报6638在这项工作中,我们把它作为一个单独的阶段作为一个新的想法。我们的想法是,我们将定义文章放在与前缀分开的阶段,因为在大多数情况下,当定义文章从单词中删除时,词干分析器将很可能直接产生正确的词根,从而避免进一步处理导致错误词根的单词表1显示了根据其长度的单词的示例我们根据词的长度来确定去除定义冠词的规则,以避免去除词中的必要字母。有时,一旦定义文章已经从一个词中删除,人们可以立即获得正确的干字,而不需要执行其他操作。但是,如果删除了定义文章,然后删除了前缀或后缀,则输出将是错误的词干词。因此,为了解决这个问题,我们将词干分析器的输出与词汇列表根进行比较,以确保输出是否是词干。 在我们的工作中,我们使用算法1(见图3)来删除具有表1中的单词定义和输入单词的给定长度单词的定义文章。在该算法中,输入单词的长度仅在长度在7到4个字符之间时才应用于定义冠词删除。具体来说,从给定单词中删除的字符数取决于表1。例如,给定单词()的规范化输出,定义冠词()从列表中移除,并且输入:阿拉伯语单词输出:无定义的阿拉伯语单词条目1.如果length(word)>= 7,并且一个字以表(1)中的任意def4开始:从单词开头删除def42.如果长度(字)>=6,并且一个字以表中的任何def3开头。(1):从单词开头删除def33.if(length(word)>=5和def2表中以any开头的字。(1):从单词开头删除def24.如果长度(字)>=4,并且一个字以表中的任何定义1开始。(1):从单词开头删除def1图三. 基于单词长度的定义文章删除算法。表2要删除的前缀和后缀列表设置描述列表’P5“,”,四长前缀P4你好,你好,ﻣﺴﺖ,ﻭﻟﺖ,ﻓﻠﻲ,ﻓﻠﻦ,ﻓﻠﻞ,ﻓﺎﻥ,ﻳﺴﺖ,ﺗﺴﺖ,,ﺍﺳﺖ,ﻓﻠﻲ,,,,three length of prefixes3个P,,这个词变成了()。5.2. 去除后缀和前缀P 2长度两个前缀P 1长度1前缀S5长度5后缀ﺍﻭ,ﺃﻱ,ﺃﻥ,ﻓﻲ,ﻓﺐ,,,ﻓﺖ,ﻟﻲ,ﻓﻦ,ﻭﺏ,ﻓﺎ,ﻭﻝ,ﻭﻭ,ﺃﻑ,,,,,,阿拉伯语之光的过程要么源于剥离一组后缀、前缀或两者兼而有之的过程,要么甚至源于派生词,你好,我是说,你好,我是说,我好,我是说,我好,我是后缀四长度S4’ﻭﻧﻬﻢ,’’ﻳﺎﺗﻪ改变或改变这个词是一个不透明的任务。它有几个问题,如不正确的后缀和/或前缀删除。这一发现意味着从单词中删除必要的字母会导致单词变成另一个具有不同含义的单词。即使有了基于光线的词干提取方法,我们也没有遇到明确列出应该删除的词缀的作品。在这项工作中,我们试图删除字符串,可能会发现,因为词缀更经常被发现作为一个阿拉伯语单词的开头或其结束没有词缀。现有的基于light的词干提取算法在确定词根时,忽略了对中缀的识别,只去除了少量的后缀、前缀或两者,导致了很多低效的结果。在这项研究中,继几个版本的轻词干,我们提出了一个新的阿拉伯语词干,试图识别不同长度的阿拉伯语词缀(见表2),以消除这些词缀。在单词()的预处理阶段,当对单词应用后缀移除时,从单词的结尾移除后缀()图4中的算法(算法2)的主要目标是根据单词长度规则去除单词的后缀。然而,在许多情况下,字母被从单词中删除,并被认为是单词中的基本字母。例如,当把字母()从()中去掉时,它就变成了()。在这种情况下,原词的意义将被改变成另一种意义。因此,它只会在最后一个主算法中被删除。S3长度三个后缀S2长度两个后缀S1长度一个后缀你知道吗,你知道吗?ﻭﻫﻦ,ﺗﻬﺎ,ﺗﻬﻢ,ﻧﻜﻢ,ﻫﺎﺕ,ﺗﺎﻥ,ﺗﻬﻦ,ﻭﻛﻢ,ﻭﻧﻪ,ﻭﻧﻚ,ﺍﻧﻚ,,ﺍﺋﻚ,ﻳﻬﻢﺍﻥ،ﻳﻦ،ﻭﻥ,ﻧﺎ,ﺗﻢ,ﺗﺎ,ﻭﺍ,ﻭﻥ,ﺍﺕ,ﺍﻥ,ﻳﻦ,ﺗﻦ,ﻛﻢ,ﻫﻦ,ﻧﺎ,,,见图4。 提出的后缀删除算法。表1阿拉伯文定义条目。第5.2.1条。 前缀去除定义长度定义词在下图(图)中, 5),提出的算法3 pro..def4def3def2ﻓﺒﺎﻝ،ﻟﺒﺎﻝ،ﻭﺑﺎﻝﺑﺎﻝ،ﻓﺎﻝ،ﻭﺍﻝ،ﻛﺎﻝ،ﻭﻟﻞ،ﺍﻻ،ﻟﻞ،ﺍﻝ،ﺍﺍ،ﻟﻲ详细介绍了从单词中删除前缀的过程。如前所述,在我们的工作中去除前缀是基于单词长度规则,而不是阿拉伯语形态nat-定义1当然。因此,前缀通过遵循特定的单词长度而被移除算法2:后缀去除算法输入:阿拉伯语单词输出:无后缀的阿拉伯语单词1.如果长度(字)>= 8并且字以表(2)中的任何S5结束:从字结束处2.如果长度(字)>= 7并且字以表(2)中的任何S4结束:从字结束处3.如果长度(字)>= 6并且字以表(2)中的任何S3结束:从字结束处4.如果长度(字)>= 5并且字以表(2)中的任何S2结束:从字结束处如果长度(字)>= 4,则不删除后缀长度一个字符S1形式字H. Alshalabi,S.Tiun,N.Omar等人沙特国王大学学报6639¼¼-1/4N算法图五. 提出了前缀删除算法。和表2中的前缀列表。例如,后缀(后缀)是将被替换为原始案例。在步骤2中,删除了任何停用词或阿拉伯化词。在步骤3中,根据基于单词长度的规则删除定义然后,根据基于单词长度的规则去除前缀和后缀。最后,从单词中删除一个字母长度的后缀,以避免从单词中删除任何原始字母。然后,通过与其他阿拉伯语词干分析器进行比较,对我们的Dlight词干分析器的结果进行了以下部分详细描述了评估。6. 评价为了评估我们改进的基于光线的阿拉伯语词干提取器或D1ight,评估中使用的数据集是TREC2002集合。在评估中,我们使用精密度(公式(1)),回忆(Eq.2)和F-测度(Eq.3)。值得注意的是,这三个指 标 是NLP 应 用 程 序和 系 统 中 最 常 用的 评 估 指 标 ( Al-Kabi&Al-Mustafa 2006;Al-Aswadi et al. 2020;Jabbar et al. 2020年)。从这个词的结尾移走,这个词变成了()。在接下来的步骤(步骤三)中,前缀()从单词的开头被删除。最后,单词became(变成)被视为正确的词根(变成)),根据单词上正确的变音符号,它与副词(变成)不同。5.2.2. 基于光线的Stemmer(Dlight)算法总之,我们提出了一个基于光的阿拉伯语词干,精度正确正确的不正确的召回正确的非干F测度2ω精确ω召回产品展示ð1Þð2Þð3Þ提高衍生品的有效性通过添加需要删除的前缀和后缀的附加列表,可以提高单词派生词的有效性,如表2所示。我们也强加一些规则的基础上的长度的话,而不是对性质的形态阿拉伯语(见算法rithms 2和3)。所提出的基于光的阿拉伯语词干分析器或Dlight的整体算法在算法4中给出(见图4)。 6)。在图6中,用于预处理阶段的算法4中的步骤1、2和3的组合以及后缀和前缀去除改进了其中,(Correct)(Incorrect)是指词干后的词干通过算法的结果,如果词根正确或“不正确”。此外,“非词干”指的是没有被算法处理的词或算法不能处理它的词。“精度”是词干处理后正确词根和错误词根的数量之间的比率。“召回率”是正确词根和非词干词的数量之间的比率。此外,指数压缩因子(ICF)(公式10)(4))也被用作评价指标之一。光基阿拉伯语词干在第一步中,将收集的文本转换为单词列表。之后,字符,如字符()哈姆扎,这可以组成和书面ICF ¼ N-S4以不同的方式(,,),被转换为它的原始情况下表示它与一个字母(),减少了(和~)的歧义。此外,如果这个词以()结尾,它将被转移到它原来的情况,并以结尾的词算法4:见图6。 提出了基于光线的阿拉伯语词干提取算法(D1ight)。其中,N是词干提取之前的唯一单词的数量,S是词干提取后唯一词干的数量7. 实验结果该实验旨在比较D1 ight词干聚合物与三种选定的阿拉伯语词干聚合物:Condlight,Light 10和ARLS(Larkeyet al. 2007; Abainiaet al. 2017;Al-Lahham et al. 2018)的TREC 2002数据。当我们使用树阿拉伯语词干分析器对TREC2002数据集进行词干分析并将其与我们的D1ight词干分析器进行比较时,我们获得了如表3所示的计算输出。表3中的实验结果表明,D1 ight stem-mer可以有效地分析大型数据集。它将不正确的词根(不正确的R)数量减少到19,451,869,优于其他阿拉伯语词干生成器(其中大多数都有超过3000万的不正确词干)。它还将不正确的根的数量减少到接近40%对Condlight和Light10茎杆和近35%对ARLS茎杆。此外,D1 ight在从所有单词中提取词干方面取得了令人印象深刻的性能,因为它在其他阿拉伯语词干分析器中具有最高数量的“所有词干”(Larkey et al. 2007; Abainia et al. 2017; Al-Lahham et al.2018年)。这里的短语最高的H. Alshalabi,S.Tiun,N.Omar等人沙特国王大学学报表36640正确的R,不正确的R,四个阿拉伯语词干的所有词干和唯一词干(我们)正确的RR不正确所有股骨柄美国光1015,172,13138,968,06634,121,520145,764康德莱特15,788,08938,352,10840,188,976139,195的垫款18,546,89235,593,30541,043,699158,877D1ight29,143,37619,516,19741,090,813103,277提取的茎/根和最低的Us(唯一根),D1 ight进一步显示了其作为其他阿拉伯语词干提取器中最好的词干提取器的卓越能力表4中的实验结果表明,我们提出的阿拉伯语词干生成器D1 ight大约增加了词干F-度量增加为“ 连词”,则第二效果增加为“ 连词” ,而(连词)则增加连 词和 问 句, 仅 通 过一 个 词就 构 成了 意 义上 的 完整 短 语, 即“连词”。此外,阿拉伯语包含长单词,比Light Stemmer多34%,比Condlight前一个词的形式,如你知道吗,stemmer,比ARLST多25%。此外,在我们提出的阿拉伯语词干提取器中,D1ight将词干ICF提高了约7%,比Light10词干提取器高出6%,比Condlight词干提取器高出10%,比ARLS词干提取器高出10%。8. 讨论阿拉伯语被认为是世界上最难学的语言之一。在它的奇迹中,它的短语和字母的排列以及它的含义的格式比其他语言更独特。例如,“寻水求水”一词由15个字母和9个动作组成,其来源是动词“寻水求水”,而主语则加在上面成为“寻水求水”。此外,第一个动词“”是“”、“”、“值得注意的是,有些人甚至在阅读方面有一点困难,如表5至表9所示。我们提出的阿拉伯语词干提取算法,即D1ight,可以解决一个大前缀的问题,例如,由于字符(wow)不指复数;然而,它是一个动词的起源,而不是复数的wow。因此,它不是写在“长”之后此外,驳斥一些误解是必要的,在混合的根源和动词,如(穆斯塔法等。 2017年)。偶尔,该算法消除了 一些词缀,这 些词缀是单词的一 部分(称为 miss-stemming),例如在单词“school”(意思是:school)中表4针对D1ight的三种阿拉伯语词干分析器的精确度、召回率、F和ICF。精度召回F-测度ICF光10百分之二十八百分之四十三百分之三十四百分之七十四康德莱特百分之二十九百分之五十三百分之三十七百分之七十五的垫款百分之三十四百分之五十九百分之四十三百分之七十一D1ight百分之六十百分之七十九百分之六十八百分之八十一表5例如字符串'前缀'和'后缀'的'前缀'和'后缀'的'词。词合取代词过去动词前缀根代词代词ﻓﺎﺳﺘﻀﻌﻔﻨﺎﻫﻤﺎﻑﺃَ◌ﺍﺳﺖﺿﻌﻒﻧﺎﻫﻤﺎ表6例如字符串词合取代词过去动词前缀根代词代词ﻓﺎﺳﺘﻨﺴﺨﻨﺎﻫﻤﺎﻑﺃَ◌ﺍﺳﺖﻧﺴﺦﻧﺎﻫﻤﺎ表7例如字符串词定义文章过去动词前缀根代词ﺍﻟﻤﺴﺘﺼﻐﺮﻭﻥﺍﻝﻣﺴﺖﺻﻐﺮﻭﻥ表8例如字符串词合取代词根代词代词代词ﻓﺎﺳﻘﻴﻨﺎﻛﻤﻮﻫﺎﻑﺃَ◌ﺳﻘﻲﻧﺎُ◌ﻛُ◌ﻤﻮَ◌ﻫﺎH. Alshalabi,S.Tiun,N.Omar等人沙特国王大学学报6641表9字符串“prefixes”和“suffixes”到“前缀”和“后缀”的示例词问题特征合取过去动词前缀根代词代词代词ﺃﻓﺎﺳﺘﺴﻘﻴﻨﺎﻛﻤﻮﻫﺎﺃَ◌ﻑﺍﺳﺖﺳﻘﻲﻧﺎُ◌ﻛُ◌ﻤﻮَ◌ﻫﺎ表10D1ight词干分析器和其他三个阿拉伯语词干分析器的词干分析示例。话光10康德莱特的垫款德莱特ﻓﺎﺳﺘﻨﺴﺨﻨﺎﻫﻤﺎﻓﺎﺳﺘﻨﺴﺨﻨﺎﻫﻤﺎﻓﺎﺳﺘﻨﺴﺨﻨﺎﻫﻤﺎﻓﺎﺳﺘﻨﺴﺦﻧﺴﺦﻓﺎﺳﺘﻀﻌﻔﻨﺎﻫﻤﺎﻓﺎﺳﺘﻀﻌﻔﻨﺎﻫﻤﺎﻓﺎﺳﺘﻀﻌﻔﻨﺎﻫﻤﺎﻓﺎﺳﺘﻀﻌﻒﺿﻌﻒﺍﻟﻤﺴﺘﺼﻐﺮﻭﻥﻣﺴﺘﺼﻐﺮﻣﺴﺘﺼﻐﺮﻣﺴﺘﺼﻐﺮﺻﻐﺮﺍﻓﺎﺳﺘﺴﻘﻴﻨﺎﻛﻤﻮﻫﺎﺍﻓﺎﺳﺘﺴﻘﻴﻨﺎﻛﻤﻮﺍﻓﺎﺳﺘﺴﻘﻴﻨﺎﻛﻤﻮﺍﻓﺴﺘﺴﻘﻴﻨﺎﻛﻤﻮﺳﻘﻲﻭﻟﻴﺘﻠﻄﻒﻟﻴﺘﻠﻄﻒﻟﻴﺘﻠﻄﻒﻟﻴﺘﻠﻄﻒﻟﻄﻒ学习过去式( 许多词根与字母中的动词非常相似;例如,单词“studied”(研究)是过去式动词,根是'错误的错误的错误'一个教训。此外,单词(job)表10显示了由D1ight ','''','''词根和正确的变音符号构成的单词例如:词根但是“这个词是动词。”此外,单词“”、“”、“”和“‘我们的根提取算法(Dlight)的输出结果表明,它已经取得了最好的结果相比,其他三个阿拉伯语词干:ARLS,Condlight和Light10词干-mers。这一发现可以通过以下事实来定义:评估Dlightstemmer的结果需要使用字典根,这使得它依赖于语言,并且它使用了一些关于语言的信息我们的结论是,轻词干有一个积极的影响,阿拉伯语词干。然而,主要的缺点是基于光线的词干分析会导致一些错误。此外,删除后缀和前缀会导致额外的歧义。因此,词缀列表的词干提取规则对于仔细检查后缀和前缀列表以确定结果是否是已知的词根非常重要因此,通过构建一组更好的规则和一个用于删除的后缀和词缀列表,可以开发一个改进的基于light的词干分析器,例如D1ight。9. 结论目前的研究提出了一个改进的基于光的阿拉伯语词干称为Dlight,提出了适当的后缀和前缀列表。后缀和前缀的列表由根据“单词”长度的规则支持(不使用词素或词干上的模式)。我们改进的基于轻型的阿拉伯语词干提取器的重点是在许多长度词的规则下找到并去除中缀模式,并根据词干提取阶段的特定顺序从单词中去除后缀和前缀。为了评估我们提出的基于光的阿拉伯语词干分析器,我们将我们的词干分析器与现有的 阿 拉 伯 语 词 干 分 析 器 进 行 了 比 较 , 即 Light10 , Condlight 和ARLST。根据实验结果,我们提出的基于轻型的阿拉伯语词干提取器取得了显着的效果,在提取长词根和更高的F-措施比三个阿拉伯语词干。总之,通过建立适当的后缀和前缀列表以及单词长度规则来提取阿拉伯语单词,可以提高基于轻型阿拉伯语词干提取器的性能。本文提出的Dlight算法能够从长和短阿拉伯语中提取阿拉伯语根(duo、triple和quadruple),阿拉伯语短词的词根提取,但由于阿拉伯语词根提取只依赖于基于Arabic Light的词干提取器,因此无法提取需要根据阿拉伯语模式从中间删除并处理部分字母的阿拉伯语词根。竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。引用Abainia,K.,Ouamour,S.,Sayoud,H.,2017.一种新颖的健壮的阿拉伯光词干分析器。J. Exp. Theor.第内特尔29(3),557-573。阿布阿里加湖Diabat,A.,2021.正弦余弦算法的进展:综合评述。第内特尔Rev. 54(4),2567-2608。Abualigah,L.M.Q.,2019.文本文档的特征选择与增强型krill herd算法。斯 普林格。Al-Aswadi,F.N.,Chan,H.Y.,Gan,K.H.,2020.从文本自动构建本体:从浅到深学习趋势的回顾。第内特尔Rev. 53(6),3901-3928中所述。Al-Aswadi,F. N.,H. Y.陈凯H. Gan 2021.使用深度学习从科学出版物中提取语义概念和关系。查姆pp. 374-383.Al-Kabi,M.,Al-Mustafa,R. 2006.阿拉伯语词根词干分析器信息技术,约旦。Al-Kabi,Mohammed N.,Kazakzeh,Saif A.,Abu Ata,Belal M.,Al-Rababah,SaifA.,Alsmadi,Izzat M.,2015.一种新颖的基于词根的阿拉伯语词干分析器。J. KingSaudUnivers. Comput. 信息格式。Sci. 27(2),94-103。Al-Lahham , Y.A. ,Matarneh ,K. ,哈 桑, M. , 2018. 条件 阿拉伯 光词干分 析器:condlight。Int. 阿拉伯河 INF. Technol. 15(3A),559-564.Al-Nabali,A.,2018. 应用语法。出版社:GulfPublishing House.Al-Sughaiyer,Imad A.,Al-Kharashi,Ibrahim A.,2004.阿拉伯语形态分析技术:全面调查。J. Am. Soc. Inform. Sci. Technol.55(3),189-213.Al Ameed,H.,S. Al Ketbi,A.Al Kaabi,K.Al Shebli,N.Al Shamsi,N.努艾米湾AlMuhairi 2005. Arabic Light Stemmer:A New Enhanced Approach.第二届信息技术创新国际会议(IIT'05)。pp. 1-9.Al Hajjar,A. E.美国,M.哈贾尔湾Zreik 2010.阿拉伯语根提取方法的评估系统。Internetand Web Applications and Services(ICIW),2010年第五届国际会议,第100页。506-512Alhaj,Y.一、M. A. Al-qaness,A.Dahou,M.Abd Elaziz,D.赵杰翔2020年。光词干对阿拉伯文文档分类特征提取和选择的影响。DLM。(pnyt.)。NLP的最新进展:阿拉伯语的案例59-79. 斯普林格。阿尔胡泰什河奥马尔,N.,2015.基于k-近邻算法的阿拉伯语文本分类。Int. 阿拉伯河 INF.Technol. (IAJIT)12,190-195。阿尔穆海姆2020年。阿尔穆海姆阿尔穆海姆2020年。Almusaddar,M.,2014.信息检索系统中阿拉伯语光词干的改进。MSC论文工程、研究和研究生事务学院计算机工程系。巴勒斯坦加沙伊斯兰大学。Alnaied,Ali,Elbendak,Mosa,Bulbul,Abdullah,2020年。智能使用词干分析和形态分析进行阿拉伯语信息检索。埃及信息格式。J. 21(4),209-217.H. Alshalabi,S.Tiun,N.Omar等人沙特国王大学学报6642Alshalabi,H.,Tiun,S.,奥马尔,N.,Albared,M.,2013年。马来文文本自动分类中使用特征选择与机器学习方法的实验。Procedia Technol.11(1),748-754。Altawaier,M.M.,Tiun,S.,2016.阿拉伯语推特情感分析的机器学习方法比较。国际先进科学杂志,工程信息Technol.6(6),1067-1073.Atwan,J.,M.莫哈末湾Kanaan 2013年。增强的阿拉伯语信息检索:轻词干和停止词。国际人工智能技术多方会议。pp. 219-228Bouzoubaa,K.,Baidouri,H.,Loukili,T.,El Yazidi,T.,2009.阿拉伯语停用词:走向泛化和标准化。第13届国际商业信息管理协会会议IBIM
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功