阿拉伯语词干工具的评估和比较

132 浏览量更新于2024-01-14 收藏 684KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报利用资源和基准工具Younes Jaafara，R.S.，Driss Namlya，Karim Bouzoubaaa，Abdellah YousfibaMohammadia工程师学院，Mohammed Vth大学bFSJES，穆罕默德第五大学阿提奇莱因福奥文章历史记录：2016年4月16日收到2016年11月4日修订2016年11月21日接受2016年12月2日保留字：阿拉伯语词干评测基准评测语料库A B S T R A C T许多方法和解决方案已被提出用于开发阿拉伯光词干提取器。这些stem-mer通常用于面向应用的项目中，特别是在开发信息检索（IR）系统时。然而，阿拉伯语光词干，作为剥离一组前缀和/或后缀的过程，是一个盲目的任务，遭受的问题，如不正确的删除，发音模糊，单一的解决方案等，此外，每个研究人员声称，他/她的词干达到了相当高的强度和准确性的水平。然而，在大多数情况下，这些词干分析器是黑盒子，既不能访问它们的源代码来验证它们的有效性，也不能访问用于声称这种准确性的评估语料库由于这些词干分析器对研究人员非常重要，因此它们的兼容性和评估对于促进在给定项目中使用的词干分析器的选择至关重要。在本文中，我们提出了一个新的阿拉伯语词干，给出了解决上述缺点。此外，我们提出了一个自动的方法，阿拉伯语词干分析器的评估和比较，考虑到相关的指标，结果的准确性，以及词干分析器的执行时间。©2016作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍词干提取器是用于许多需要文本预处理的任务的基本工具，例如文本分类系统、文本汇总系统、信息提取系统等。词干提取过程包括从派生词或变形词中识别和去除词缀，并将它们还原为它们的词干/词根。对于英语、法语、土耳其语和汉语等多种语言，已经提出了不同的词干提取方法。关于阿拉伯语，有两种主要的词干提取方法（Otair，2013年）：基于词根的方法和轻词干提取方法。阿拉伯语是闪族语言之一，它不同于英语、法语、德语等.因此，我们建议，*通讯作者。电子邮件地址：jayounes@yahoo.fr（ Y.Jaafar ），namly_driss@yahoo.fr （ D.Namly ）， karim. emi.ac.ma （ K.Bouzoubaa ），yousfi240ma@yahoo.fr（A.Yousfi）。沙特国王大学负责同行审查一些阿拉伯语词干分析器将阿拉伯语单词还原到它们的词根而不是词干（Al-Kabi和Al-Mustafa，2006年）。在本文中，我们提出了第三种词干提取方法，它使用词典资源对词干进行更深入的验证。词干提取过程对研究人员很重要，因为它根据词汇语义相似性将单词汇集在一起。例如：“他写的”，“他们写的”，“他会写的”，“你写了吗？”与”写作的概念”（他写道）具有相同的词汇语义内容。因此，代替处理四个单词，阿拉伯语自然语言处理（ANLP）系统可以在将单词列表减少到相同词干之后处理因此，IR系统中的查询或文档可以使用词干或词根来表示，而不是使用完整的原始单词。这种操作大大减少了红外系统索引的大小，从而节省了存储空间和处理时间。然而，阿拉伯光作为剥离一组前缀和/或后缀的过程不正确的删除：以类似于前缀的字符串开头，或以类似于后缀的字符串结尾的单词将被错误地截断。例如，对”他的“一词的分析http://dx.doi.org/10.1016/j.jksuci.2016.11.0101319-1578/©2016作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com●Y. Jaafar等人/Journal of King Saud University165father”）与Light10词干分析器（Larkey等人， 2007）给出了词干“”，认为“”是前缀，“”是后缀，而删除“”是不正确的选择，因为它是词干的一部分。发音歧义：从词干提取输出中删除变音符号可能会导致单词含义模糊。例如，对单词“”的分析给出了词干“” ，将“” 作为前缀并且将“” 作为后缀，但是词干"作者），“作家的书”（book），. 等单一解决方案：大多数可用的阿拉伯语词干分析器在词干分析输出中提供一种解决方案，但根据阿拉伯语词法，一个单词允许一个或多个不同的词干。例如，单词“”（对他们来说）必须返回：动词修正此外，重要的是，研究人员在更大的项目背景下选择词干时为了帮助研究人员做出这样的选择，有必要提出工具和方法来评估和比较阿拉伯语词干。文献表明，研究人员将用于评估词干提取器的指标分为两类：（1）与“强度”相关的指标，其描述了为了产生词干而对单词进行的更改，即更强的词干提取器旨在通过删除字符对单词进行更多更改以产生词干，（2）与准确性相关的指标，其描述了然而，数字世界中的阿拉伯语内容据我们所知，没有研究考虑到执行时间评估阿拉伯语词干。因此，我们在本文中的目标是双重的：提出一个新的阿拉伯语词干分析器：SAFAR-Stemmer。这个新的词干分析器是一个基于词干的分析器，具有使用词汇资源的词干验证过程。SAFAR-Stemmer通过“多解决方案”概念解决了上述缺点。通过提供多种可能的词干，它解决了上述三个问题.首先，为了纠正“不正确的删除”缺陷，SAFAR-Stemmer提出了一个包含所有可能替代方案的茎集合。其次，为了满足“发音模糊”，SAFAR-Stemmer提供了一个区分的输出。第三，根据词干词的构成特点，结合词缀聚合的形态特点，提出了几种可能的解决方案，解决了词缀聚合的“单一解决方案”问题。应该注意的是，在词干连贯的文本中，一个词总是可以被分配一个唯一的词干，因为上下文提供了消除歧义所需的线索。然而，还有许多其他情况下，研究人员需要从上下文中提取单词。这就是为什么我们认为阿拉伯语词干分析器应该返回给定单词的所有可能的词干。我们还要提到的是，这两个方面（多个解决方案和发声）都没有考虑到，而在这篇文章中评估stem-mer。这是因为所有其他词干分析器都不提供此信息，在这种情况下执行基准测试是不公平的。也就是说，在这种特殊的求值情况下，如果词干分析器返回一个或多个解决方案，则没有附加值。仅基于所有词干分析器的输出的共同形式提出一个新的可重用的通用解决方案，比较阿拉伯语词干分析器。这是使用专门用于此目的的评价语料库来实现的我们还提出了一个新的评价指标，结合相关的指标，词干分析器的准确性和执行时间。这个新的指标将允许研究人员做出最佳选择，即使stemmer返回的指标不成比例。为了给出我们的评估的具体示例，我们选择了三个光词干提取器，即：2007 ）、 Motaz stemmer （ Saad 和 Ashour ， 2010 ）、Tashaphyne（Zerrouki，2016），以便与我们的新stemmer（SAFAR-Stemmer）进行比较。应该注意的是，我们的基准测试解决方案也可以处理基于根的词干分析器本文的其余部分组织如下。下一节将介绍一些词干提取方法和算法。在第3节中，我们提出了新的阿拉伯语词干提取器的方法。在第4节中，我们提出了一些作品，处理评估和基准测试阿拉伯语词干。我们还提出了评价语料库和一些常见的指标。然后，我们提出了我们的新的度量评估词干。实验和结果见第5节。最后，我们在第6节中提出了结论和未来的工作。2. 相关作品在本文中，我们关注的是阿拉伯语的光词干生成器，而不是基于根的词干生成器。事实上，研究已经表明，与基于根的方法相比，轻茎聚体给出更好的结果（Larkey等人，2002年）。因此，把重点放在更有希望的办法上更为适当。已经提出了几种阿拉伯光词干提取器方法和算法它们包括从单词中去除最常见的词缀和产生词干。下面是一些阿拉伯语的光词干生成器的例子。Larkey等人（2007）提出了几种阿拉伯语光词干提取器，并使用标准TREC数据评估了它们在信息检索中的有效性。Light StemmerLight10的性能优于其他方法。它已被广泛用于阿拉伯语信息检索（Larkey et al.， 2007年）。Aljlayl和Frieder（2002年）研究了词干提取对改进阿拉伯语信息检索系统的影响。为此，他们提出了两种词干生成器：基于Khoja工作的根算法和轻词干（LS）算法。作者确认LS算法在IR中的性能明显优于根算法。但是，他们没有提供对两个词干生成器本身的评估。Chen和Gey（2002）也提出了两种用于信息检索的阿拉伯语词干分析器：基于机器翻译（MT）的词干分析器和轻型词干分析器。测试表明，光词干提取器在IR中的表现优于基于MT的词干提取器，但没有对两种词干提取器在其词干提取结果的准确性方面进行比较。Rogati等人（2003）提出了一种用于构建阿拉伯语轻词干提取器的无监督学习方法。作者将他们的词干分析器的结果与GOLD进行比较，GOLD是一种使用规则，词缀列表和人类注释文本构建的专有阿拉伯语词干分析器。他们声称他们的方法与GOLD的一致率为87.5%。Saad和Ashour（2010）提出了一种轻量级的阿拉伯语词干提取算法来解决文本预处理对阿拉伯语文本分类的影响。该系统被集成到WEKA中（Hall等人，2009）和RapidMiner（Hofmann and Klinkenberg，2013）平台。我们选择了三个光词干分析器：Light10，Motaz词干分析器和Tashaphyne，以便将它们的结果与我们的词干分析器进行比较，并给出使用我们的基准测试系统的具体例子。应该注意的是，我们在本文中只关注词干分析器，而不是形态分析器（其他地方已经对阿拉伯语形态分析器进行了基准测试（Jaafar●●●●166Y. Jaafar等人/Journal of King Saud University例如， 2016年）。此外，我们选择了免费的词干提取器，以便将它们集成到 SAFAR 框架中。在文献中，发现了 Al-Kabi 等人（2011）、Majdi和Atwell（2008）、Al-Shawakfa等人（2010）的其他论文，但仅以方法的形式呈现，但没有提出相应的下载程序。3. 介绍我们的阿拉伯语词干分析器为了在开发SAFAR-Stemmer时获得更大的灵活性，我们决定将其集成到 SAFAR （阿拉伯语处理软件架构）框架（ Souteh 和Bouzoubaa，2011; Jaafar和Bouzoubaa，2015）中，这是一个专用于ANLP的集成框架SAFAR有几个层次：(1)工具层包括一组技术服务，（2）资源层提供查询语言资源（如lexica）的服务，（3）基础层包括三个常规层（形态、语法和语义），（4）应用层包含使用上面列出的层的高级应用，（5）最后是客户端应用程序层，它与所有其他层进行交互，为用户提供Web应用程序，Web服务等。1应该注意的是，SAFAR-Stemmer是我们在SAFAR框架的形态学层中包含的一个新的阿拉伯语词干分析器。在分析一个单词时，SAFAR-Stemmer通过查询SAFAR框架的“clitics”API来生成所有可能的clitics组合，该API返回一个在第二步中，通过移除重复和无效组合来过滤所获得的clitics列表然后，生成可能的词干列表。例如，“”这个词有两个可能的词干。第一个词干是第二个词干是'missing'，其中单词'missing'中的第一个字符是词干的一部分。在此步骤之后，词汇资源“词干词典”的作用开始发挥，它充当所获得的词干列表的验证器，以给出两个子列表：”在词典中找到的“已检查词干列表和”在词典中未找到的“未检查词干列表。这些步骤在图1所示的示例中进行了总结。1.一、关于由资源服务、基本服务和应用程序组成的SAFAR分层架构Jaafar和Bouzoubaa（2015），SAFAR-Stemmer属于基本服务层，其过程由上图中解释的四个步骤组成。终端用户利用专用应用程序查询服务。出于说明的目的，我们假设用户键入”“和他的书”作为词干输入。在第一步中，词干分析器从clitics资源层提取clitics的所有可能的组合的列表（[- ]“the空的附着词”，[-]'' 连接词'然后'和代词'他的'“、[ -连接词]”theconjunction“then”和“kaf”of comparison“等），然后词干分析器作为Basic层的一部分，过滤此列表在第二步中，通过删除重复和变音符号，（[ -] []）并在第三步中提取可能的词干列表（“和他的书”，“他的书”，“tAbh”，“一本书”，“”放弃”，“和一本书”）。这是SAFAR-Stemmer提供的特殊功能，而其他只提供单一解决方案的stemmer忽略了这一功能。SAFAR-Stemmer中的第四步再次调用资源服务层以检查在词干词典中所获得的词干的存在，以最终向应用层提供已检查词干的列表（已检查词干“a book”和已检查词干“forsake”）和未检查词干的列表（已检查词干“and hisbook”、已检查词干“his book”、已检查词干“tAbh”、已检查词干“and a book”）。第1页 http://arabic.emi.ac.ma/safar/? q=出版物。图1. SAFAR-Stemmer步骤工作流程。4. Stemmer评估和基准测试阿拉伯语词干分析器广泛应用于文本分类、信息抽取、文本摘要和搜索引擎索引等文本处理任务中。因此，对这些词干分析器进行评估和基准测试对于研究人员在给定的上下文中选择适合他们需求的最佳词干分析器至关重要。此外，作者通常应该将他们的词干分析器与其他作品进行比较，以证明他们的贡献和增强。也就是说，ANLP社区应该有共同的工具和资源来对词干分析器进行公平的评估。然而，在大多数情况下，作者展示了他们的词干分析器，并提供了一些基于他们自己的评估语料库的评估统计数据，而没有提供任何开源工具或资源来验证他们的词干分析器的准确性和强度。他们中的大多数人声称他们的词干分析器达到了很高的准确率。然而，由于缺乏公平的共同评价，我们不能确定这种说法在所有情况下都是正确的，独立于所使用的评价语料库。鉴于这种情况，一些研究人员试图提出几个词干生成器的评估和基准。Majdi和Atwell（2008）提出了三种基于词根的阿拉伯语词干提取算法的评估，即：Khoja词干提取器，Buckwalter形态分析器和三字词根提取算法。实验是通过运行三个词干对古兰经“Sourat Al-Ankaboot”的第29章和从当代阿拉伯语语料库中获取的报纸文本进行的结果表明，Khoja词根提取算法的准确率最高，三字词根提取算法次之，Buckwalter形态分析器最低。应该注意的是，作者在他们的实验中只使用了与结果准确性相关的度量：错误率、故障率和准确性。Al-Kabi等人（2011年）提出了一项关于基准测试和评估四种基于词根的阿拉伯语词干生成器性能的工作，即：Al-Mustafa词干生成器、Al-Sairabah词干生成器、Rabab用于此基准测试的语料库是从互联网上收集的15个阿拉伯语文档集合中随机收集的。实验表明，词干生成器的排序从好到弱依次为：Rabab在这项研究中，作者使用了与结果准确性相关的指标，以及与词干分析器的“强度”（更强的词干分析器）相关的指标意图对单词进行更多的修改以产生词干）。Al-Shawakfa 等人（2010年）提出了一项比较研究，阿拉伯语根为基础的词干分析算法。作者通过建立一个由3823个三字词根组成的语料库来统一测试过程，这些词根是通过将73个三字词根模式与18个词缀结合起来获得的，产生了大约2760万个单词。评价结果低于6个股骨柄的作者报告的结果。比较表明，最好的算法是Ghwan-meh等人，准确率为39%，其次是Y. Jaafar等人/Journal of King Saud University167¼¼¼Khoja 和 Garside （ 34% ）， Al-Shalabi （ 32% ）， Sonbol 等人（24%），Taghva等人（20%），最后是Al-Shalabi等人。（14%）。Maabid等人（2015年）提出了阿拉伯语形态分析仪和词干分析仪的基准评估标准。在这项研究中，作者没有提出任何评估词干分析器的方法或工具，他们只是试图总结一些评估标准来衡量词干分析器的准确性和强度。这些研究给出了所选词干的评价，并提供了公平的比较新的语料库的基础上。然而，他们没有提供任何可重用的和通用的解决方案基准阿拉伯语词干;他们提出的例子，评估一些已知的词干没有任何可能性的扩展他们的解决方案，以评估其他词干，甚至改变评估语料库。因此，他们应该提供新的解决方案，或者在每次必须评估新的词干分析器时改变自己的解决方案，这不适合这种基准测试。此外，他们都忽略了词干分析器的执行时间时，评估他们。他们只关注与stemmer的准确性和“强度”相关的指标。然而，随着数字阿拉伯语内容的增长，作者应该优化其词干分析器的执行时间，以便在更短的时间内处理更多的数据。因此，开发一个新的自动的，灵活的和可重用的评估系统，考虑到相关的准确性和4.1. 评价语料库为了执行评估和基准测试过程，阿拉伯语词干分析器返回的结果应该与用诸如词干或词根之类的一些形态信息注释的评估语料库的结果进行比较该语料库应由语言学家手动验证，以最大限度地提高其准确性并为其内容提供然而，建立这类语料库是耗时的，需要专家在阿拉伯语的语言知识。现在人们已经意识到，建立这样的语料库所需的努力可能会大大超过建立使用这些语料库的工具所需的努力。这就说明为什么没有一个黄金标准来衡量不同的阿拉伯语工具。鉴于这种情况下，我们重用其他作品，以提出一个评估语料库基准的根为基础的和轻阿拉伯语词干。出于这个原因，我们使用古兰经阿拉伯语Cor-pus（杜克斯和哈巴什，2010）。后者是一个在线注释语言资源，具有多层注释，包括形态分割，词性标记，使用依赖语法的句法分析。它由根据上下文注释的古兰经组成。该语料库返回的主要形态学信息是茎、根、外稃，图2. 用于比较阿拉伯语词干分析器的评估语料库示例。stemmers。对于我们的基准测试解决方案，我们使用两种类型的指标：准确性（Flores和Moreira，2016）：词干分析器返回的结果的准确性表达了这些结果的正确性。与经典的查准率和查全率得分不同，只有当词干分析器返回所有单词的所有正确词干时，准确率才等于100%，除此之外，它不会返回额外的不正确词干。如果准确度等于100%，这意味着词干分析器是完美的。在词干分析器的情况下，准确度可以计算如下：精度TP公司简介其中TP是正确词干的总数，FP是不正确词干的总数，FN是词干分析器未返回的正确词干的总数。每个合并类的单词数量（WCC）（Galvez等人，（2005年）：它是匹配同一词干的平均单词数。例如，如果单词“每个合并类的单词数量的值反映了词干分析器的强度该值越高WCC度量计算如下：WCCCS其中C指的是在词干提取之前不同语料库单词的总数，或单词类型的数量。同样，S表示词干分析器返回的不同词干的数量。索引压缩因子（ICF）（Frakes和Fox，2003）：它表示通过词干提取过程实现的索引大小的平均减少。例如，一个包含100，000个单词和80，000个词干的语料库的索引压缩因子为20%。更强的词干将倾向于具有更高的ICF值。计算如下：词性，前缀和后缀。我们处理了这个语料库，以便只保留词干和词根。新的语料库（Fig. 2）是XML格式的，可用于评估阿拉伯语词干-ICF¼ C-SCmers。可以从我们的团队网站下载。2例如，单词«他们相信“这个分析有三个标签：词根“4.2. 用于评估词干分析器的通用性能指标在文献中，作者将用于评估词干分析器的指标分为两大类，即：与结果准确性相关的指标和与“强度”相关的指标2http://arabic.emi.ac.ma/ibtikarat/? q=资源。其中C是指语料库词类型的总数，S是指设置为词干分析器返回的唯一词干的数量单词变化平均值（WCA）（Al-Kabi等人， 2011年）：词干分析器经常保持单词不变。例如，词干分析器可能不会改变动词“他写的”（“hewrote”），因为它已经是一个词根。为了获得正确的词根/词干，较强的词干分析器会比较弱的词干分析器更频繁地改变单词。该指标计算如下：WCAC-UC其中C是指语料库单词类型的总数，U是指在词干提取过程之后没有改变的唯一单词的数量。168Y. Jaafar等人/Journal of King Saud UniversityPwGS-分数¼P词干提取后去除的字符的平均数（ ARC ）（ Al-Kabi 等人，2011）：更强的词干分析器倾向于从单词中删除更多的字符以形成词干。例如，如果以下单词“图书馆图书馆”（”library”）、“他们写的”（“they write”）、“书籍”（“book”）和“办公室”（“office”）的词干都是相同的词根“图书馆"，则ARC值为（2 + 3 + 1 + 1）/4 = 1.75个4.3. 评估阿拉伯语词干分析器在评估词干分析器时，研究人员经常使用上面介绍的常用指标。然而，数字世界中的阿拉伯数据已经变得如此庞大，以至于无法忽视工具的执行时间。例如，为互联网上大量可用的数据编制索引以用于信息检索是耗时的。因此，研究人员不仅要考虑与词干分析器的准确性和强度相关的指标，还要考虑它们的执行时间。为了解决这个问题，我们的基准测试解决方案计算所有上述指标以及每个词干分析器的执行时间。应该注意的是，我们之前已经开发了一种类似的工具，用于对阿拉伯语形态分析器进行基准测试（Jaafar等人，2016年）。因此，研究人员将知道词干提取器需要多长时间才能完成其词干提取过程。然而，返回单独的指标使得研究人员难以选择最佳词干分析器事实上，结果的准确性和执行时间是两个不同的度量标准。在我们有两个返回不对称度量的词干分析器的情况下，这会导致比较问题。因此，为了在评估词干生成器时引入执行时间，并克服度量不成比例变化的问题，我们提出了一种称为Gs-Score（全局词干生成分数）的新的全局度量，其可以计算如下：a： Tb：准确度w其中Tw是词干分析器提取单词“W”所花费的时间Accuracyw是词干分析器为单词参数a和b用于调整执行时间和准确性的权重。研究人员可以改变他们的价值观，以使一个元素比另一个更重要。例如，如果精度对研究人员来说更重要，他/她可以将a设置为低值，b设置为高值。在我们的实验中，我们将a和b都设置为1。实际上，执行时间和准确性是反映词干分析器的真实性能及其结果相关性的两个指标。具有高准确率和减少执行时间的词干分析器与此相反，每个合并类（WCC）和高索引压缩因子（ICF）的词干分析器不一定是好的词干分析器，因为这些类型的度量仅描述了为了产生词干而对单词进行了多少更改（添加/删除字符的数量），并且不反映准确性。这就是为什么我们认为在评估阿拉伯语词干分析器时，应该考虑执行时间和准确性。一个快速而准确的词干分析器比一个快速而不准确的词干分析器更好如果两个词干提取器具有相同的提取时间，那么它们的精度将决定哪一个是最好的。如果两个词干分析器具有相同的精度，那么它们的执行时间将决定哪一个是最好的也就是说，在比较和基准测试词干分析器时，应该同时考虑准确性和执行时间。应该注意的是，我们的Gs-Score指标在其值趋于0时被认为更好，反之亦然。因此，这个新的met-图3. 要评估的输入词干提取结果的示例。4.4. 介绍我们的基准测试解决方案我们的基准测试解决方案集成在SAFAR框架的实用程序层中。该解决方案可以在任何其他项目中轻松调用和重用，无需任何修改（只需要将新的词干分析器集成到基准测试应该指出的是，SAFAR提出了一个阿拉伯语词干生成器层，其中包含几个模型和实用程序，以促进在框架内开发或集成新的阿拉伯语词干生成器。本文中介绍的选定词干分析器集成在SAFAR中，以便在对它们进行基准测试时获得更大的灵活性。这些词干分析器上的基准可以直接运行，因为系统已经考虑了它们。对于评估和基准测试新的词干分析器，研究人员有两种可能性：（1）将新的词干分析器集成到SAFAR形态层中并受益于其灵活性，然后可以像往常一样调用基准测试系统而无需任何修改，（2）如果出于任何原因，研究人员不愿意将他/她的词干分析器集成到SAFAR中，他/她可以简单地提供包含词干分析器结果的文本文件（图3），基准测试系统然后将其与其他词干分析器结果进行比较。自定义词干分析器结果的每一行都涉及一个单词。例如，在第1行中，单词因此，每个词干分析器都可以通过将其集成到SAFAR中或在单独的文件中提供其结果来进行评估和基准测试在基准系统方面没有要做的更改。此外，任何其他注释的语料库都可以用于评估阿拉伯语词干分析器。研究人员只需根据图4中的XML文件规范化他们的corpora。因此，研究人员将有大量的阿拉伯语词干分析器来比较和评估语料库，而不必在每次评估新词干分析器时改变基准系统。此外，研究人员有可能使用网络应用程序运行基准系统这个解决方案可以由开发人员或语言学家使用，而无需编写任何代码。图5给出了所提出的基准测试解决方案及其不同步骤的概述。在图5的步骤1中，所有词干分析器处理评估语料库的输入文本。然后在步骤2中检索每个词干分析器的结果作为内存对象。在步骤3中，实用程序将每个词干分析器的结果与评估注释语料库的结果进行比较，以计算每个词干分析器的准确性5. 实验和结果为了给出使用我们的基准解决方案的具体例子，我们选择了三个光词干分析器（Light 10，Motaz词干分析器和Tashaphyne），并将它们的结果与我们的SAFAR-Stemmer进行了比较。我们选择这些词干分析器是因为它们可供下载，并且是开源的。这些评价是ric将帮助研究人员做出最佳选择，即使met-stemmer返回的rics不成比例。3http://arabic.emi.ac.ma:8080/SafarWeb_V2/BenchmarkController。：Y. Jaafar等人/Journal of King Saud University169步骤2：获取词干提取结果词干结果注释评价语料库步骤3：使用评价语料库基准测试结果图4. 自定义XML评估语料库的示例。图5. Stemmers基准测试步骤。使用古兰经阿拉伯语语料库（杜克斯和哈巴什，2010年），其中包含18，350个独特的单词。虽然SAFAR-Stemmer为一个单词输出几个可能的词干，但我们修改了词干分析器，使其仅为每个单词形式输出一个词干。这使得它可以与只返回一个词干的词干分析器进行基准测试然而，我们鼓励研究人员在他们的工作中也考虑多茎解决方案。实验在具有以下特征的计算机上进行：CPU = Core 2 Duo@2.13GHZ，RAM = 4 GB，Operat- ing System = Win7，64位。下表概述了结果。表1给出了使用古兰经阿拉伯语语料库作为评估语料库比较四种轻词干的结果。结果表明，SAFAR-Stemmer的准确率最高，为33.7%，其次是 Motaz Stemmer ，为 18.59% ， Light 10 为 14.96% ，最后是Tashaphyne Stemmer，为10.95%。对于执行时间，Motaz stemmer花费的时间较少，为0.36 s，其次是Light 10，为1.77 s，SAFAR-Stemmer，3.73 s，最后是Tashaphyne茎尖突变体5.69 s。应该注意的是，由于词典资源验证，我们的词干分析器比Motaz词干分析器和Light10花费更多的时间，这增加了准确性和执行时间。否则，我们可以像其他词干分析器一样减少执行时间。考虑到将准确度与提取时间相结合的Gs-Score指标，Motaz stemmer以0.02排在第一位，其次是SAFAR-Stemmer，0.1，Light 10，0.11，最后是Tashaphyne stemmer，0.52。鉴于这些结果，我们可以建议在面向应用程序的任务中使用Light10和Motaz词干分析器，例如信息检索，其中执行时间比结果的准确性更重要关于SAFAR-stemmer，它将更适合用于词性标注、解析等任务以提高其性能，因为这些系统的准确性取决于词干处理的准确性。6. 结论在本文中，我们提出了一种新的阿拉伯语词干分析器，它使用词汇资源来提高结果的准确性。事实上，阿拉伯语的光源于从一个派生词或屈折词中剥离一组前缀和/或后缀的过程，一个盲目的任务遭受的问题，如不正确的删除，发音模糊，单一的解决方案等，我们使用的SAFAR框架资源API，以剥离所有可能的前缀/后缀从一个词，其余的茎，然后验证根据词汇资源包含181 k字与他们的茎和变音符号。实验表明，该验证方法提高了结果的准确性。另一方面，我们提出了一个自动化的解决方案，基准轻阿拉伯语词干。我们提出了一些评估，以比较一些特定的词干。在这些评估中，作者仅提供了一些已知stemmer的比较评估示例，但他们没有提供将其解决方案扩展到评估其他stemmer的可能性。我们的基准测试解决方案通过提供可重用和灵活的系统克服了这一点。值得注意的是，研究人员表1使用古兰经阿拉伯语语料库比较四个阿拉伯语词干的结果度量光10Motaz塔莎菲涅SAFAR-Stemmer正确的股骨柄（TP）4777575536229252股骨柄不正确（FP）13,5731259514,7289098独特的股骨柄（S）89761173555159500未更改的单词（U）3513838423436872删除字符289441182037,17420,471精度百分之十四点九六18.59%百分之十点九五33.70%每个合并类的单词数（WCC）2.041.563.321.93折射率压缩因子51.0836.0469.9448.22平均换词率（WCA）80.8554.3187.2362.55平均删除字符数（ARC）1.570.642.021.11执行时间（秒）1.770.365.693.7Gs-评分0.110.020.520.10准确性和Gs-分数指标的最佳分数以粗体显示。输入评价语料库步骤1：在评价语料库萨法尔stemmer塔沙姬鲷莫塔兹斯特默Light10词干提取器170Y. Jaafar等人/Journal of King Saud University在评估词干分析器时使用两类指标：与准确性相关的指标和与强度相关的指标。然而，他们忽略了执行时间，这是一个重要的因素，因为现在有大量的可用数据。为了解决这个问题，我们提出了一个新的度量标准，称为Gs-Score（Global Stemming Score），它将执行时间与stem-mers的准确性相结合。这个新的度量标准将允许研究人员在他们的项目中尽可能地选择词干分析器。我们选择了三个光词干分析器，以比较他们的结果与我们的词干分析器，并给出一个具体的例子，我们的基准系统。结果表明，我们的词干处理器实现了最高的准确率，为33.7%，在Gs-Score度量方面排名第二，为0.1。应该注意的是，大多数词干分析器是为信息检索系统设计的，在这些系统中，执行时间比结果的准确性更重要。然后，将测量词干分析器执行其任务的准确性的内在评估与测量词干分析器的输出对于特定NLP任务有多有用的外在评估区分开来将是有用的。尽管我们的词干分析器比其他系统更准确，但目前它并不打算用于IR等系统。然而，它将增强其他NLP任务的结果，这些任务的准确性很重要，例如词性标注，解析等，因为这些系统的准确性取决于词干分析过程的准确性。还必须强调的是，《古兰经》是一个非常特殊的文本，我们在使用和推广其成果时必须谨慎。也就是说，本文所做的实验可以通过使用其他评估语料库来丰富，以提供扩展的基准测试结果。我们应该在这方面多下功夫。在未来，我们计划用新的词汇来丰富我们的词汇资源，以覆盖更多的词干，提高结果。我们还计划评估新的词干生成器，以呈现大多数可用的阿拉伯语词干生成器的弱点和优势，以便研究人员可以确定在他们的项目中使用哪些词干生成器。此外，我们计划进一步优化词干提取过程，以缩短时间，并在我们的研究小组网站上在线发布引用Aljlayl，M.，Frieder，O.，2002.关于阿拉伯语搜索：通过轻词干方法提高检索效率。第十一届信息和知识管理国际会议论文集，弗吉尼亚州麦克莱恩Al-Kabi，M.N.，Al-Mustafa，R.S.，2006.阿拉伯语词根词干分析器载于：国际阿拉伯信息技术会议记录。约旦，ACIT。Al-Kabi，M.N.，Al-Radaideh，Q.A.，Akkawi，K.W.， 2011. 对阿拉伯语词干分析器的性能进行基准测试和评估。J. 告知。Sci. 37（2），111-119。Al-Shawakfa，E.，Al-Badarneh，A.，Shatnawi，S.，Al-Rabab'ah，K.，Bani-Ismail，B.，2010.几种阿拉伯文求根算法的比较研究。J. Am. Soc. Inform. Sci. Technol.61（5），1015-1024.Chen，A.，盖伊，F.C.，2002.为信息检索构建阿拉伯语词干。第11届文本检索会议（TREC）。杜克斯，K.，Habash，N.，2010.古兰经阿拉伯语的形态注释。载于：语言资源和评估国际会议论文集，LREC 2010，马耳他瓦莱塔，2010年。杜克斯，K.，Habash，N.，2010.古兰经阿拉伯语的形态注释。在：语言资源和评估会议（LREC），马耳他。弗洛雷斯，F.N.，莫雷拉副总统2016.评估词干提取准确性对信息检索的影响。INF. 过程管理。 52（5），840-854。弗雷克斯，W.B.，福克斯，C.J.，2003.词缀去除词干提取算法的强度和相似性。ACMSIGIR Forum 37（1），26-30.加尔维斯角，de Moya-Avión，F.，索拉纳，V.H.，2005.信息检索中的术语合并方法：非语言学与语言学方法。J.文件。61（4），520-547。霍尔，M.，弗兰克，E.，霍姆斯，G.，Pfahringer，B.，P.，Witten，I.H.，2009年WEKA数据挖掘软件：更新。ACM SIGKDD Explorer. Newslett. 11（1），10-18.霍夫曼，M.，克林肯贝格河，2013. RapidMiner：数据挖掘用例和商业分析应用。Press.Jaafar，Y.，Bouzoubaa，K.，2015.从软件工程到复杂流水线的阿拉伯语自然语言处理。在：第一届阿拉伯计算语言学国际会议（ACLing），埃及，开罗，2015年。Jaafar，Y.，Bouzoubaa，K.，Yousfi，A.，Tajmout河，Khamar，H.，2016.改进阿拉伯语形态分析器基准。Int. J. Speech Technol. 19（2），259-267.L.S.的Larkey，巴列斯特罗斯湖康奈尔法医2002.改进阿拉伯语信息检索的词干提取：轻词干提取和共现分析。在：第25届年度国际ACM SIGIR会议的研究和发展信息检索，坦佩雷，芬兰。L.S.的Larkey，巴列斯特罗斯湖康奈尔法医2007.用于阿拉伯语信息检索的光词干。在：阿拉伯计算形态学：基于知识和经验的方法. Springer，Netherlands，pp. 221- 243Maabid，A.M.，Elghazaly，T.，Ghaith，M.，2015.一个增强的

下载后可阅读完整内容，剩余1页未读，立即下载