改进的阿拉伯语光型词干提取算法及其性能评估

PDF格式 | 809KB | 更新于2025-01-16 | 26 浏览量 | 举报

"这篇学术论文主要探讨了阿拉伯语光型词干提取器的改进方法及其性能评估。研究人员提出了一种新的策略，旨在解决现有算法在处理阿拉伯语词缀（后缀和前缀）时的局限性，从而提高词干提取的效率。他们开发的改进版Dlight阿拉伯语词干提取器关注不同长度词汇的中缀模式识别和去除，并在词根提取过程中考虑了特定的顺序。通过对比实验，Dlight在F-measure上表现出优于其他已知的阿拉伯语词干提取器，如Light10、Condlight和ARLST。该研究强调了词干分析在自然语言处理中的关键作用，尤其是对于信息检索等应用。文章还指出，该研究的成果是一个适配不同词长规则的后缀和前缀列表，有助于进一步提升阿拉伯语的词干提取效果。" 文章的详细内容涵盖了以下几个方面： 1. 背景与目的：研究指出，阿拉伯语的形态学特性使得词干提取变得复杂，许多现有的轻型词干提取器在处理中缀模式时存在不足。因此，研究的主要目标是改进阿拉伯语光型词干提取器，以更精确地识别和去除词缀，提高词干提取的准确性。 2. 方法：研究人员开发了Dlight算法，它专注于不同长度的词，制定了一套规则来确定和移除中缀模式。这种方法不依赖于词素或特定的模式，而是依据单词的长度来操作。 3. 评估与比较：为了验证Dlight的有效性，论文将其与其他知名词干提取器（Light10、Condlight和ARLST）进行了比较。实验结果显示，Dlight在F-measure上取得了最佳成绩，表明其在词干提取的准确性和召回率上表现优秀。 4. 贡献与影响：提出的Dlight算法不仅提高了阿拉伯语词干提取的性能，还提供了一个适用于不同词长的后缀和前缀列表，这将对未来的阿拉伯语自然语言处理研究和应用产生积极影响。 5. 版权与发布信息：该研究发表在沙特国王大学学报上，遵循开放获取协议，允许在CC BY许可下使用和分享。这篇论文通过改进的Dlight算法，为阿拉伯语的词干提取提供了一个更为有效的方法，为自然语言处理领域特别是阿拉伯语处理的研究做出了重要贡献。

沙特国王大学学报

使用新规则的

[10]杨文，

杨

文.AL-Aswadi

，

，Kamal Ali Alezabi

CAIT

，马来西亚

Kebangsaan

大学信息科学技术学院，

43600 UKM

，

Bangi

，

Malaysia

也门荷台达荷台达大学计算机科学与工程学院。

马来西亚槟榔屿

Gelugor 11800

，马来西亚

Sains

大学计算机科学学院

马来西亚吉隆坡

UCSI

大学计算机科学数字创新研究所（

ICSDI

）

阿提奇莱因福奥

文章历史记录：

2021年5月1日收到

2021年8月11日修订

2021

年

月

日接受

2021年8月25日网上发售

保留字：

阿拉伯语词干分析器

Arabic light stemmer

阿拉伯语信息检索后缀和前缀

剥离阿拉伯语语料库

A B S T R A C T

优秀的词干提取算法在许多自然语言处理（NLP）应用中有很大的帮助，例如信息检索。阿拉伯语轻型词干提

取器是最重要的词干提取算法之一。然而，部分地由于阿拉伯语言形态结构的高度曲折和复杂性，大多数现有

的基于阿拉伯光的词干提取算法在识别中缀模式以确定词根的过程中消除了少量后缀和前缀或两者。后缀和前

缀的消除导致许多低效的结果。因此，本研究的目的是开发一种改进的基于光的算法的阿拉伯语词干，提出了

一个适当的后缀和前缀列表，这是支持根据单词长度的规则（不使用词素或模式的干）。我们改进的Dlight阿

拉伯语词干提取器着重于在多种长度词规则下确定和去除中缀模式，并根据词干提取阶段的特定顺序从长和短

阿拉伯语词中提取双、三、四根词根。为了评估我们提出的基于光的阿拉伯语词干分析器，我们将我们的词干

分析器与现有的阿拉伯语词干分析器进行了比较，即Light10，Condlight和ARLST。实验结果表明，本文提

出的Dlight（Develop Arabic Light-Based Stemmer）具有最好的性能，其F-measure为68%，而其他三种阿

拉伯语词干生成器的F-measure略低最后，建立一个适当的后缀和前缀列表，并

CC BY许可下的文章（http://creativecommons.org/licenses/by/4.0/）。

介绍

词干分析的目标是将屈折词和派生词从通常的书面词形式减少到

它们的基础（根或词干）

Rad et al.

（

2018

）。换句话说，词干提取

是一个计算过程，去除一个词的所有后缀和前缀，以生成词干或词

根

Khoja

和

Garside

（

1999

）

Dawson

（

1974

）

Paice

（

1996

）。此

外，词干可以被定义为一个语素或一组连接的语素，可以接受

通讯作者。

电子邮件地址：

hmoud. siswa.ukm.edu.my

（

H. Alshalabi

），

sabrinatiu-

n@ukm.edu.my

（

S. Tiun

），

nazlia@ukm.edu.my

（

N.Omar

），

kamal@ucsiuniversity. edu.my

（韩国）

Ali Alezabi

）。

沙特国王大学负责同行审查

词缀然而，在阿拉伯语中，去除前缀通常会改变单词Al-Sughaiyer和

Al-Kharashi（2004）的含义。鉴于阿拉伯语主要依靠模式和词根来产

生词汇，因此，有效的轻重词干提取必须在模式和词根相互作用的基础

上进行 Al Ameed et al. （ 2005年）。

阿拉伯语词干算法可以根据所需的分析水平分为基于光或基于规则

的算法Larkey et al.（2002），Khoja and Garside（1999）。也就是

说，基于光的算法从阿拉伯语单词中删除前缀和后缀，而基于规则的算

法将词干还原为词根Xuetal.（2002），Al-Sughaiyer andAl-Kharashi

（2004）and Al Ameedet al. （2005年）。

本研究的主要目的是通过添加额外的前缀和后缀来开发有效的派

生词，并根据单词的长度施加一些规则，从而改进基于光的阿拉伯语

词干提取器第二介绍了相关的工作，第三部分介绍了

Dlight

方法的实

验数据集，第四部分介绍了

Dlight

方法的实验数据集，第五部分介绍

了

Dlight

方法的实验数据集，第六部分介绍了

Dlight

方法的实验数据

集，第七部分介绍了

Dlight

方法的实验数据集，第八部分介绍了

Dlight

方法的实验数据集，第九部分介绍了

Dlight

方法的实验数据集

https://doi.org/10.1016/j.jksuci.2021.08.017

作者。由

Elsevier B.V.

代表沙特国王大学出版。这是

CC BY

许可下的开放获取文章

（

http://creativecommons.org/licenses/by/4.0/

）。

制作和主办：Elsevier

可在ScienceDirect上获得目录列表

沙特国王大学学报

杂志首页：

www.sciencedirect.com

下载后可阅读完整内容，剩余7页未读，立即下载

cpongm

粉丝: 6

改进的阿拉伯语光型词干提取算法及其性能评估

改进的词法分析器

stem词干提取

文字的词干提取

阿拉伯语词干提取器评估与对比研究

阿拉伯语新词干提取器：性能评估与对比

camel_tools：由纽约阿布扎比大学的CAMeL实验室开发的一套阿拉伯自然语言处理工具

阿拉伯语破复数词根提取BPR算法研究

阿拉伯语字幕分析：机器学习分类英语电影体裁

vue.js v2.5.17

DM8-SQL语言详解及其数据管理和查询操作指南

最新资源