
埃及信息学杂志
21
(
2020
)
73
基于改进PageRank算法的阿拉伯语文本摘要抽取
Reda Elbarougy
a
,Gamal Behery
a
,Akram El Khatib
b
,
a
埃及新达米埃塔,达米埃塔大学计算机和信息科学学院计算机科学系
b
埃及新达米埃塔大学理学院数学
-
计算机科学系
阿提奇莱 因福奥
文章历史记录:
收到2019年
2019
年
10
月
16
日修订
2019年11月6日接受
在线预订2019年
保留字:
提取阿拉伯语文本摘要
PageRank
基于图形的形态分析器
A B S T R A C T
提出了一种阿拉伯语文本自动摘要方法文本自动摘要是自然语言处理的一个阿拉伯语具有复杂的形态结构,这
使得提取名词用作摘要过程的特征非常困难因此,本文采用Al-Khalil词法分析器来解决名词的提取问题。所提
出的方法是一个基于图的系统,它将文 档 表示为一个图,图的顶点是句子。 一个修改的PageRank算法被应
用,每个节点的初始分数是这个句子中名词的数量。句子中的名词越多意味着信息越多,所以这里使用的名词
作为句子的初始等级。句子之间的边是句子之间的余弦相似度,以获得包含更多信息且彼此连接良好的句子的
最终摘要。文本摘要的生成过程分为三个主要阶段:预处理阶段、特征提取阶段和图的构建阶段,最后应用改
进的PageRank算法和摘要提取。Modified PageRank算法使用不同的迭代次数来寻找返回最佳摘要结果的次
数,而提取的摘要取决于压缩比,考虑到去除冗余取决于句子之间的重叠。为了评估这种方法的性能,EASC
语料库被用作标准。将LexRank和TextRank算法用于相同的情况下,与其他阿拉伯语文本摘要技术相比,该
方法具有更好的效果。所提出的方法在迭代次数为10,000的情况下有效地执行。
©2019 Elsevier B.V.制作和托管代表开罗计算机和信息学院
大学这是一篇CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/
licenses/by-nc-nd/4.0/
)。
1.
介绍
由于自互联网发明以来的二十年中每天在互联网上写入的大量数
据,因此对自动文本摘要化以从文档中提取最重要信息的需求加剧。一
个好的文本摘要系统
*
通讯作者。
电子 邮 件 地址 :
elbarougy@du.edu.eg( R. Elbarougy) , gbehery@du.edu.eg
(
G.Behery
),
akram_elkhatib@hotmail.com
(
A.
哈提卜)。
开罗大学计算机和信息系负责同行审查。
用户
文本摘要是减少文本的数量,从原始文本中提取最重要的部分并提
供给用户的过程。自动文本摘要自动执行摘要过程。英语是一种结构和
语法都比较简单的语言,而阿拉伯语的结构和词法比较复杂,因此对英
语文本摘要的研究很多。全世界有超过3.5亿人说阿拉伯语[2],因此,
阿拉伯语文本摘要被广泛要求。
根据用于比较的因素,文本摘要可以分为多个类别。根据文档的数
量,文本摘要可以分为单文档摘要和多文档摘要。另一方面,根据检索
到的句子类型,
https://doi.org/10.1016/j.eij.2019.11.001
1110-8665/©2019
制作和主办由
Elsevier B. V.
代表开罗大学计算机和信息学院这是一篇基于
CC BY-NC-ND
许可证的开放获取文章
(
http://creativecommons.org/licenses/by-nc-nd/4.0/
)。
可在ScienceDirect上获得目录列表
埃及信息学杂志
杂志 主页:
www.sciencedirect.com