没有合适的资源?快使用搜索试试~ 我知道了~
埃及信息学杂志21(2020)73基于改进PageRank算法的阿拉伯语文本摘要抽取Reda Elbarougya,Gamal Beherya,Akram El Khatibb,a埃及新达米埃塔,达米埃塔大学计算机和信息科学学院计算机科学系b埃及新达米埃塔大学理学院数学-计算机科学系阿提奇莱因福奥文章历史记录:收到2019年2019年10月16日修订2019年11月6日接受在线预订2019年保留字:提取阿拉伯语文本摘要PageRank基于图形的形态分析器A B S T R A C T提出了一种阿拉伯语文本自动摘要方法文本自动摘要是自然语言处理的一个阿拉伯语具有复杂的形态结构,这使得提取名词用作摘要过程的特征非常困难因此,本文采用Al-Khalil词法分析器来解决名词的提取问题。所提出的方法是一个基于图的系统,它将文档表示为一个图,图的顶点是句子。一个修改的PageRank算法被应用,每个节点的初始分数是这个句子中名词的数量。句子中的名词越多意味着信息越多,所以这里使用的名词作为句子的初始等级。句子之间的边是句子之间的余弦相似度,以获得包含更多信息且彼此连接良好的句子的最终摘要。文本摘要的生成过程分为三个主要阶段:预处理阶段、特征提取阶段和图的构建阶段,最后应用改进的PageRank算法和摘要提取。Modified PageRank算法使用不同的迭代次数来寻找返回最佳摘要结果的次数,而提取的摘要取决于压缩比,考虑到去除冗余取决于句子之间的重叠。为了评估这种方法的性能,EASC语料库被用作标准。将LexRank和TextRank算法用于相同的情况下,与其他阿拉伯语文本摘要技术相比,该方法具有更好的效果。所提出的方法在迭代次数为10,000的情况下有效地执行。©2019 Elsevier B.V.制作和托管代表开罗计算机和信息学院大学这是一篇CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍由于自互联网发明以来的二十年中每天在互联网上写入的大量数据,因此对自动文本摘要化以从文档中提取最重要信息的需求加剧。一个好的文本摘要系统*通讯作者。电子邮件地址:elbarougy@du.edu.eg(R.Elbarougy),gbehery@du.edu.eg(G.Behery),akram_elkhatib@hotmail.com(A.哈提卜)。开罗大学计算机和信息系负责同行审查。用户文本摘要是减少文本的数量,从原始文本中提取最重要的部分并提供给用户的过程。自动文本摘要自动执行摘要过程。英语是一种结构和语法都比较简单的语言,而阿拉伯语的结构和词法比较复杂,因此对英语文本摘要的研究很多。全世界有超过3.5亿人说阿拉伯语[2],因此,阿拉伯语文本摘要被广泛要求。根据用于比较的因素,文本摘要可以分为多个类别。根据文档的数量,文本摘要可以分为单文档摘要和多文档摘要。另一方面,根据检索到的句子类型,https://doi.org/10.1016/j.eij.2019.11.0011110-8665/©2019制作和主办由Elsevier B. V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页:www.sciencedirect.com74R. Elbarougy et al./ Egyptian Informatics Journal 21(2020)73摘要可分为抽取式摘要和抽象式摘要,前者是从原文中选取句子而不改变句子结构,后者是提取句子的意义而不依赖句子结构。此外,它还可以分为一般性或基于查询的摘要。一般摘要返回的句子不考虑任何问题或与标题的关系。然而,基于查询的摘要由于摘要与所问问题之间的关系或句子与文档标题之间的关系而返回[1]。阿拉伯语文本摘要仍然受到低性能和缺乏在自然语言处理的这一应用中所做的研究的影响[3]。此外,这些技术并不包括使用名词的权力[4]在他们的作品,因此,这是重要的是开发一种新的方法,基于名词信息。名词直接影响句子的重要性[5]。句子中的名词越多,句子就越重要。根据阿拉伯语的复杂性,使用Al-Khalil词法分析器对阿拉伯语句子进行分析,然后从文献[6]中的每个句子中提取名词。本文提出了一种基于图论和句子中名词计数相结合的阿拉伯语文本摘要提取方法。该方法首先应用以下预处理技术:规范化、标记化、词干提取、停用词去除和形态分析技术。然后提取所需的特征,建立图,然后应用改进的PageRank算法(MPR),最后提取摘要并去除冗余。在最后阶段,应用Modified PageRank算法[7],然后根据其最终得分对句子进行排序,然后提取摘要并删除冗余句子。当使用10,000次迭代时,总结的平均性能在F度量指标中得到67.98。本文后面的相关工作将在第2节中讨论。 第三节陈述的动机和问题。第4节中的文本总结中的图表。PageRank算法在第5节中讨论。第6节讨论了改进的PageRank算法。在第7中讨论了拟议的方法。然后分别在第8、9节中对结果和结论进行了讨论。2. 相关作品许多研究是在阿拉伯语文本摘要中进行的。这些研究人员使用了不同的技术和算法,如以下小节所示。2.1. 基于符号和符号的方法在这一类别中,研究人员根据文本不同部分之间的修辞关系建立他们的方法[8]。该方法依赖于修辞的方法,它经历了几个阶段,从确定文本单位的基础上提示短语。然后,根据这些短语生成修辞关系,建立RS树,最后选择最佳RS树生成摘要。这种方法需要用户手动识别提示词以馈送算法,这是一项艰巨的任务,特别是对于大量的文本。2.2. 基于统计的方法这种方法依赖于句子的统计特征,如:词频,句子位置和许多其他特征。Alami等人[9]是一种提取方法,取决于基于统计。这种方法使用三种类型的词干分析器Khoja。Light10和Alkhalil对生成的文本摘要进行分析。[9]的缺点之一是他们没有使用标准的语料库进行比较,他们从互联网上收集了42篇文章,并要求阿拉伯语专家创建比较摘要,这是不准确的,因为我们知道人类生成的摘要因人而异。El-Harby等人[10],是另一个提出了一个自动系统,该系统能够使用一元基线模型和二元隐藏马尔可夫模型(HMM)来恢复非变音古兰经单词的变音符号(元音)。结果发现,HALGOR是有用的工具,在阿拉伯语的变音符号恢复的任务 Alami等人[11]提出了一种基于单文档图的摘要提取方法,该方法采用混合方法生成阿拉伯语文档摘要,该方法使用EASC语料库进行评价。2.3. 混合方法是一种使用修辞和统计特征来构建方法的方法。Ibrahim等人[12],提出了一个提取阿拉伯语文本摘要系统,该系统依赖于结合修辞结构理论(Rectorical Structure Theory,简称Rectoric)和向量空间模型(Vector Space Model,简称VSM)作为一个混合系统来摘要阿拉伯语文本。[13]提出了一个类似的系统,使用频率与“位置”,“标题关键词”和“数值”特征。该系统将SVM和SVM相结合,证明了混合方法比单纯SVM提高了性能2.4. 机器学习方法机器学习方法依赖于机器学习算法中的一种或多种算法,如遗传算法或粒子群算法等。Al-Abdallah和Al-Taani[14]提出了一种基于粒子群优化算法的单文档提取阿拉伯语文本摘要方法。该方法结合信息评分和语义评分来提高文摘过程的性能。2.5. 基于图的方法这种方法使用图论原理。在这种方法中,文档被表示为图,句子被表示为图的顶点。Belkebir和Guessoum[12]提出了一种方法,该方法使用依赖于数论和概率的由不同度量表示的多图来计算文本分区的重要性。[15]《古兰经》和《古兰经》是另一种基于图论的阿拉伯语文本摘要提取方法,在该方法中,PageRank算法与单词、词干和n-gram等多个基本单元一起使用来决定每个句子的最终得分在[15]中,在算法的初始排名中没有使用名词。另一方面,他们使用EASC语料库作为标准数据集和以下性能指标:精确度,召回率和f-测量。 Alami等人[16]是另一种基于图的阿拉伯语文本摘要的研究,它将文档构建为一个顶点为句子的图,两个顶点之间的边是这些句子之间的余弦相似度,如果两个节点之间的相似度小于某个阈值,则假设这两个句子是不连接的,使用Khoja词干分析器作为词干分析算法。在评估过程中,作者从互联网上收集了25份文件,摘要是由阿拉伯语专家手工制作的,这使得比较困难和不公平,因为没有标准的语料库。在[16]中,1被指定为图中所有句子的初始排名,然后,在图上开始迭代,直到新排名和旧排名之间的差异为0.001。R. Elbarougy等人/Egyptian Informatics Journal 21(2020)7375←←N.ΣN-1所有节点[16]使用TF-IDF、句子位置和指示性表达作为特征,没有使用词性来增强使用名词的能力的性能。Malallah和Ali[17]提出了一种基于线性判别分析(LDA)和改进的PageRank的文本摘要方法,该方法适用于包含阿拉伯语和英语的多语言文档,该方法首先应用LDA分类器根据指定的阈值将句子分类为重要和不重要,然后对重要句子的类别TAC-2011被用作数据集是入度(出度);这是到这个顶点的入站(出站)链接的数量[21]。给定页面的入站是页面重要性或质量的指标。PageRank算法[7]就是利用这种思想对搜索结果中出现的页面进行PageRank并不认为所有来自页面的入站链接都是平等的,链接将根据来自它的页面的重要性而具有额外的重要性算法1. PageRank算法[6]在培训和测试过程中。[18]第十八话提出了一种基于单文档图的方法,使用Fire-fly算法提取摘要。3. 陈述的动机与问题阿拉伯语摘要系统仍然有低性能,根据语言的复杂性和缺乏在这门学科进行的研究。句子中的名词增加了它的重要性;更多的名词意味着更多的信息。许多研究者在进行阿拉伯语文本摘要时,都使用了基于图的PageRank算法.本研究使用了一种改进的PageRank算法,将边的权重作为方程的一部分,并将句子中名词的个数作为句子的初始排序。但在阿拉伯语中,没有像英语那样简单的方法来检查一个词是否是名词,因为没有像英语那样的字母“”或“”;此外,现代作家在书面文本中不包括dia- critics。因此,从文本中提取名词需要形态学解决方案。 此外,本研究尝试应用不同的迭代次数与修改PageRank,以获得最佳的性能。4. 文本摘要图G(V,E)是用于表示图G(V,E)的数学结构输入:加权图G。输出:评分图。1配置N = G中的节点数。2Current_Rank Double[N]3Temp_Rank Double[N]4对于n=1至N5Current_Rank[n] = 1/N6对于i = 1:Number_of_Iterations7Foreach nd:G.Nodes8Temp_Rank[nd.index] = Calc_Page_Rank(nd)9当前等级=温度等级网页u的PageRank算法[7],用PR(u)表示,如公式(1)所示,其中d是阻尼因子,0.85,N:是节点总数。算法1展示了PageRank算法的工作原理;它首先将每个节点的秩初始化为1/N,其中N是图中节点的数量。然后,算法迭代并根据公式(1)计算节点的新秩。在计算所有节点的新等级之后,等级被更新。根据迭代次数重复此过程。这里的迭代用于更新每个句子的排名,以获得最佳和最稳定的排名,因为句子的顺序与关联句子的顺序直接关联,每次应用算法时都会发生变化对象之间的成对关系该图有两个主要项V:顶点和E:边。顶点表示被表示系统的基本项,边表示关系的性质在两个顶点之间。 要使用图模型构建任何解决方案,PRPPR1-dωXi¼1PRvi努夫伊奇ð1Þ你需要明确三个主要问题:(1)什么是基本单位在文本摘要中可能是单词,或短语,或句子,甚至段落。(2)在文本摘要中计算边的权重的节点之间的关系类型可能是余弦相似度或句子重叠等。(3)对图中顶点进行排序的算法。在文本摘要中,有许多方法,如LexRank[19],TextRank[20]或PageRank算法[7]。TextRank 是 一 种 基 于 图 形 的 单 文 档 排 名 方 法 , 源 自 GooglePageRank算法[7]。TextRank是一个不规则的连通图,它将句子表示为节点,并将它们之间的相似度表示为边的权重。TextRank用于提取句子和关键词。应用TextRank后,句子根据其得分进行排序,并选择排名最高的句子作为摘要。LexRank是一个基于图的多文档摘要系统,所有句子都用图表示。如果两个句子在构建图表之后,选择最中心的句子作为摘要。5. PageRank算法6. 改进的PageRank算法阿拉伯语中的名词具有特殊的重要性;即。一个句子的名词越多,它就越重要。因此,本研究采用了一种新的技术,即使用每个句子中的名词数量来修改原始的PageRank算法来提取阿拉伯语摘要。一种Modified PageRank主要是基于PageRank算法的方面,其区别在于:(1)页面被替换为文档的句子,(2)节点之间的边的权重由余弦相似度计算,而在原始PageRank中没有边的(3)每个句子的初始排名是这个句子中的名词数量,不像原始的PageRank,它给初始排名相等,所有节点等于1/N,其中N是文档中句子的数量。(4)如式(2)中那样修改PR(vi)。式其中PR(vi)是句子(vi)的当前秩,E(g,vi)是边连接词es(g)和(vi)的权重,也是它们之间的余弦相似度。这两个句子,最后将总和除以文档中剩余句子的数量N-1,即文档D中排除当前句子的句子数量,以获得句子的新排名(g)。NMPR图1-d图dωXPR图vi图ωE图g;vi图1/1ð2Þ互联网是一个非常复杂的网络。页面之间的关系可以表示为图形。任何顶点的重要性76R. Elbarougy et al./ Egyptian Informatics Journal 21(2020)733表1修改PageRank演示(句子初始排名).句子#S1 S2 S3S4初始排名(名词数量)3 8 5 6表2修改PageRank演示(边缘权重)。S1S2S3S4S1-341S23-65S346-3S4153-表3修改了PageRank演示(迭代#1后句话S1S2S3S4迭代#114.3119.722.2516.58假设我们有一个包含4个句子的文档D,每个句子中的名词数量如表1所示,余弦相似度或边权重如表2所示。然后,表3显示了通过考虑阻尼因子的值来计算句子的新秩的第一次迭代。这里的d是0.85作为最佳实践[7]。图1示出了包含4个句子的文档的示例,节点表示文档的句子,并且边的权重是连接的节点之间的余弦相似度。每个节点有两个秩:初始秩和应用第一次迭代后的新秩。因此,(S1)的修改后的PageRank计算如下:MPRS1PRS2ωES1 ; S 2 PRS3ωES1;S3 PRS4ωES1;S4MPRX线片1 ×=(8 * 3 + 5*4 + 6 * 1)/3 =(24 + 20 + 6)/3 = 50/3= 16.67迭代#1后的新秩1- dmpddωMPRs 1迭代#1后的新等级1- 0:85更新 0: 85ω 16: 67迭代#1 ¼14: 31表3显示了在一次迭代中应用Modified PageRank后句子的新排名。7. 所提出的方法本节将讨论拟议的方法。图2显示了所提出的方法的流程图,其中包含三个主要阶段。第一阶段首先从文档中抽取文本,然后进行预处理:规范化、分词、去除停用词、词干提取和形态分析。在第二阶段中,提取所需的特征,然后将文档建模为图。最后,在第三阶段对PageRank算法进行改进,提取摘要,然后对性能进行分析进行评估。拟议办法7.1. 第一阶段:预处理在这个阶段,文档被输入,然后被分析以准备特征提取。7.1.1. 输入单个文档。从阿拉伯语编写的单个文档中提取文本,并以utf-8编码。7.1.2. 正常化。在该步骤中,标点符号和数字从句子中被消除,而没有字母从句子中被去除。此外,一些字符,如每个单词中的第一个ALEF,7.1.3. 代币化。在这个步骤中,文档被分成段落,然后段落被分成句子,最后句子被分成单词。7.1.4. 删除停止词。删除停用词会将文本减少为更有用的词。并且不去除影响加权过程的效率7.1.5. 词干。在这个过程中Khoja[22],词干分析器用于提取句子中每个单词的词根。此过程用于减少文档中不同单词的数量,以便更好地计算词频。7.1.6. 形态分析。在该步骤中,Alkhalil形态学[6]用作形态学分析仪,因为其准确度超过98%[6]。在这个过程中,句子中的每个单词都有一个标记,代表它在句子中的词性(POS)位置[21]。单词的位置可以是名词、动词、介词、停用词、冠词等。这个过程用于确定每个句子中名词表4显示了Fig. 1. 四句话的演示文档。R. Elbarougy等人/Egyptian Informatics Journal 21(2020)7377图二. 拟议办法。图三. 阿拉伯文单一文档的示例。表4Part of Speech Tagging的例子ﻭﻳﺠﺘﺎﺯﻫﺬﺍﺍﻟﻨﻬﺮﺍﻟﻤﺴﺘﻨﻘﻌﺎﺕﻭﻳﺸﻜﻞﺑﺤﻴﺮﺓﺍﻟﺤﻮﻟﺔﺛﻢﺑﺤﻴﺮﺓﻃﺒﺮﻳﺎﻃﺒﺮﻳﺎﺑﺤﻴﺮﺓﺛﻢﺍﻟﺤﻮﻟﺔﺑﺤﻴﺮﺓﻳﺸﻜﻞﻭﺍﻟﻤﺴﺘﻨﻘﻌﺎﺕﺍﻟﻨﻬﺮﻫﺬﺍﻳﺠﺘﺎﺯﻭ名词名词停止词名词名词动词停止词名词名词代词动词停止词78R. Elbarougy et al./ Egyptian Informatics Journal 21(2020)73.ΣðÞ ¼ðÞ←←余弦相似度←←Pikωjk←X←词法分析和词性标注。从表4中,句子包含6个名词,1个代词,2个动词和3个停用词。此分析应用于文档中的所有句子,以计算每个句子中的名词。7.2. 阶段2:特征提取和构建图在这个阶段中,提取所需的特征,然后将文档建模为图。7.2.1. 特征提取。在这个阶段,提取两种类型的特征。在这个步骤中,term等于单词的根● 两个句子余弦相似度如公式(7)中计算。如公式(3)、(4)和(5)中计算句子[23]中的项(词)的TF-IDF。其中以色列国防军用来界定这一术语所提供的信息量IDF等于出现此术语的句子数量的对数除以文档中所有句子的数量。句子的TF-IDF是该句子中每个单词的TF-IDF的总和,如公式(6)所示。公式(7)用于计算句子(Si)和(Sj)之间的余弦相似度。其中TF-IDF(tik):是(Si)中的相互列表中的项编号"k“的TF-IDF,TF-IDF(t jk):是(Sj)中的相互列表中的项编号”换句话说,为了计算句子(Si)和(Sj)之间的余弦相似度,我们执行以下步骤:(1)根据公式(5)计算两个句子中每个单个术语的TF-IDF。(2)求出两个句子之间的互词列表,这个列表的长度为(3)我们7.3. 阶段3:应用修改的PageRank和摘要提取在这个阶段中,应用改进的PageRank算法,然后提取摘要。7.3.1. 应用修改的PageRank。在这一步中,应用了改进的PageRank算法,每个句子的初始排名等于其自己的名词计数。PageRank应用于不同的迭代次数10,100,1000,100,000,100,000,1000,000。这些不同的迭代次数用于获得达到最佳性能的最佳7.3.2. 简单提取。在此步骤中,节点根据其最终排名进行排序。句子被一个接一个地提取并添加到摘要中,直到达到压缩比。如果所选句子与摘要中的任何其他句子之间的重叠非常高,则忽略该句子以防止冗余。7.3.3.删除冗余。在该步骤中,在提取摘要之后,从摘要中去除冗余句子。根据句子重叠的特点识别冗余句子。当句子之间的重叠大于90%时,从概要中移除最后一个句子7.3.4. 选择和比较预先生成的摘要文件。在该步骤中,从语料库中选择预先生成的摘要以评估摘要的性能。语料库中有五个预先生成的摘要。将所得摘要与它们进行比较。算法2示出了所提出的方法的伪代码,该方法从读取文档开始,然后应用预处理、特征提取和图构建、PageRank、摘要提取和去除冗余阶段。算法2.建议的进场算法在相互列表上,并应用公式(5)。联系我们术语t在文档文档中所有术语的总数3输入:整个单个文档。输出:输出文档。1配置/设置中的最大句子数IDFt测井文件中所有句子的数量4包含术语tTF-IDFtTF-IDF3-2- 3 - 4 - 5- 6-7 -8 - 10 - 1mTF-IDFtTF-IDFtqPmTF-IDFTIk2ωqPm TF-IDFTjk2总结文档中的句子总数2形态分析仪(Alkhalil)3Graph新建Graph()4Foreach Sentence:文档.句子5Normalization()6Tokenization()7StopWordsRemoval()8词干9S_TF-IDF←计算句子TF-IDF()k¼1k¼1ð7Þ10S_Noun_List应用形态分析器Get名词列表()11新节点命名GraphNode(S_TF-IDF,S_Noun_List)12Graph.add(New_Node)计算由形态分析步骤产生的名词,每个句子此功能用作每个句子的初始排名表4示出了形态分析步骤中的示例,即如何从句子中提取名词,这导致每个句子中的名词的数量。7.2.2.构建图表和加权。文档被建模为图1中的图形。句子代表顶点。每两个顶点与边连接,边具有等于公式(7)中的余弦相似度的权重。13Foreach节点:图形节点14如果(Node> New_Node)15Cosin_Similarity Cosine_Smilarity(Node,New_Node)16名词_度量名词_计算(节点)17Graph. RightEdge(Node,New_Node,Cosine_Similarity)18Foreach_sentence_set_the_number_of_its_nouns_as_initial_rank()19Apply_Page_Rank()摘要←Extract_Summary(Compression_Ratio)摘要←Removing_Reduandancy(Summary)20输出←摘要●R. Elbarougy等人/Egyptian Informatics Journal 21(2020)7379¼¼¼8. 实验和结果8.1. 数据集(语料库)为了评估所提出的方法,使用Essex Arabic Summaries Corpus(EASC)作为标准语料库,该语料库包含153个文档,每个文档有5个摘要,总共有765个使用Mechani- cal Turk(Mturk)生成的阿拉伯语人工摘要[24]。EASC包括艺术、音乐、环境、政治、体育、健康、金融、科技、旅游、宗教和教育等10个学科系统提取六个和-根据迭代次数,包括10、102、103、104、105和106次迭代,对每个文档进行三原色。8.2. 评估指标该评估是相对于精度,召回率和F-措施计算。精确召回率和F-测量值将分别按公式(8)、公式(9)和公式(10)计算。精度:度量系统返回的正确文本大小。精密度提取摘要\提供摘要摘要ð8Þ召回:度量覆盖系统反映了提取的相关句子的比率。召回提取摘要\提供摘要提供摘要ð9ÞF-measure:在查全率和查准率之间建立平衡关系。见图4。 图与初始排名。F-测度2ω查准率ω查全率精确度和召回率ð10Þ图五. 应用Modified PageRank算法后的图。8.3. 实验装置本小节展示了如何修改PageRank的工作原理。图4示出了被建模为图的文档,图中的每个节点采用其初始排名。 图 3显示了一个阿拉伯语单文档句子的示例,这些句子已编号并在表中列出。图5示出了在应用具有10,000次迭代的修改的PageRank算法之后的图,图中的每个节点具有其新的权重。应用改进的PageRank算法后。图6示出了图节点的最终排名,根据图,代表句子01、03、09的节点返回最高排名,因此其8.4. 结果讨论和分析本节讨论了系统的结果,并比较了这种方法和其他方法的结果。表5见图6。 绩效评价与其他研究的比较。●●●80R. Elbarougy et al./ Egyptian Informatics Journal 21(2020)73显示了多次迭代的算法结果。根据表中列出的结果,当迭代次数增加到10,000次迭代时,算法在PageRank算法中,每个顶点(句子)都有一个新的计算权重,该权重取决于节点及其连接节点的初始排名在每次迭代中,最重要的节点权重比其他节点增加得更快,因此,在提取摘要的步骤中,这些节点优先。图6示出了不同迭代次数的性能度量,根据该图,当迭代次数为10,000或更高时,性能达到其最大值并稳定。表6和图7显示了当前研究结果与其他研究结果之间的比较。该表包含来自我们的工作的三个结果,这些工作使用三种不同的算法ModifiedPageRank、LexRank[19]和TextRank[20]来应用。结果进行了比较,与其他两项研究,使用相同的数据集,在这项研究中使用的是EASC。比较研究的题目如下:研究(1)语义和分析在自动测试系统中的应用[11]本研究使用EASC作为数据集。研究3使用了基于图的阿拉伯语文本摘要方法和PageRank[15],该方法也使用EASC作为数据集。表5多次迭代算法的评价结果迭代次数精度召回F-measure1062.9067.5161.9110062.7667.4361.76100064.6070.2764.1210,00068.7572.9367.98100,00068.7572.9367.981,000,00068.7572.9367.98表6与其他作品比较。方法精度召回F-measureLexRank51.0356.550.6TextRank50.8856.2249.81统计和语义分析[11]57.6258.8058.20[15]第十五话544751这个建议的方法68.7572.9467.99比 较 结 果 表 明 , 改 进 后 的 PageRank 算 法 返 回 的 结 果 优 于PageRank、LexRank和TextRank算法。当迭代次数改变时,性能得到增强,直到迭代次数达到10,000,之后性能稳定。此外,由于使用Alkhalil形态分析器,返回最好的名词分析,因此性能得到了提高。9. 结论阿拉伯语在句子中找名词的问题,因为阿拉伯语没有大写字母和小写字母,而且书面文本中没有变音符号。因此,使用了形态分析器。本研究尝试利用修正PageRank演算法来提升摘要的效能。采用Al-Khalil形态分析器克服阿拉伯语结构复杂的问题,提取名词作为初始排序用于图的构建过程,并采用余弦相似度对句子间的边进行加权。在摘要提取中,为了防止冗余,如果所选句子与摘要中的任何其他句子之间的重叠很高,则忽略该句子。摘要的提取采用了一种改进的PageRank算法,该算法将句子的初始排序作为句子中名词的个数,边的权值是连接节点之间的余弦相似度。在相同的条件下,使用LexRank、TextRank和Modified PageRank三种方法提取摘要,并对系统的性能进行评价。摘要的过程开始于阅读文档,然后规范化数据,去除停用词,词干,形态分析器,最后应用图并得到摘要。在测试阶段,EASC被用作标 准 语 料 库 。 根 据 结 果 , 当 迭 代 次 数 等 于 10000 时 , ModifiedPageRank返回更好的结果。根据以往的研究,本研究的结果比其他研究的结果更好,本研究的最终绩效为67.98的F-测量。竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。见图7。 绩效评价与其他研究的比较。R. Elbarougy等人/Egyptian Informatics Journal 21(2020)7381引用[1] 略雷特湾基于人类语言技术的文本摘要及其应用。J Nat Lang Process 2011;48:119-22.[2] Al-Saleh AB,Menai MEB.阿拉伯语文本自动摘要:综述。ArtifIntell Rev 2016;45(2):203-34.[3] Al Qassem LM,Wang D,Al Mahmoud Z,Barada H,Al-Rubaie A,AlmoosaNI. 自动阿拉伯语摘要:方法和系统的调查。Proc Comput Sci 2017;117:10-8.[4] Al-ShalabiR , Kanaan G , Al-Sarayreh B , Khanfar K , Al-Ghonmein A ,Talhouni H,et al. Proper noun extracting algorithm for arabic language. 在:国际会议上的IT庆祝S。Charmonman的72岁生日 p. 1- 28[5] Al-RadaidehQ,Afif M. 使用聚合相似度的阿拉伯语文本摘要阿拉伯信息技术国际会议(ACIT 2009),2009年。[6] Boudlal A,Lakhouaja A,Mazroui A,Meziane A,Bebah M. O. A.哦,Shoul M.Alkhalil morpho sys 1:一个阿拉伯语文本的形态句法分析系统。阿拉伯信息技术国际会议。Benghazi Libya,2010; p.1比6[7] Page L,Brin S,Motwani R,Winograd T. PageRank引文排名:为网络带来秩序。 斯坦福信息实验室; 1999年。[8] AlSanie W,Touir A,Mathkour H.使用修辞结构理论建立阿拉伯语文本摘要的基础设施。利雅得:沙特国王大学; 2005年。[9] [10] Alami N,Meknassi M,Ouatik SA,Ennahnahi N.词干提取对阿拉伯语文本摘 要 的 影 响 。 信 息 科 学 与 技 术 ( CIST ) 。 In : 20164th IEEE InternationalColloquium on. p. 338比43[10] El-Harby AA,El-Shehawey MA,El-Barogy R.一种统计方法用于古兰经元音恢复。ICGST-AIML J 2008;8(3):9-16。[11] Alami N,El Adlouni Y,En-nahnahi N,Meknassi M.使用统计和语义分析进行阿拉伯语文本摘要。信息技术和通信系统国际会议。Cham:Springer;2017. p.35比50[12] 放大图片Ibrahim A,Elghazaly T,Gheith M.基于修辞结构理论和向量空间模型的阿拉伯语文本摘要模型。Int J ComputLinguist Nat Lang Proces 2013;2(8):480-5.[13] AzmiAM , Al-Thanyyan S. 阿 拉 伯 语 的 文 本 摘 要 器Comput SpeechLang2012;26(4):260-73.[14] Al-Abdallah RZ,Al-Taani AT.基于粒子群优化算法的阿拉伯语单文档摘要。Proc Comput Sci2017;117:30-7.[15] Al-Taani AT,Al-Omour M.一种基于抽取图的阿拉伯语文本摘要方法。2014年阿拉伯信息技术国际会议。[16] [10] Alami N,Meknassi M,Ouatik SA,Ennahnahi N.基于图论的阿拉伯语文本摘要。2015年IEEE/ACS第12届计算机系统与应用国际会议(AICCSA)。IEEE;2015年。p. 一比八[17] Malallah S,Ali ZH.基于LDA和改进PageRank的多语言文本摘要。伊拉克信息技术杂志2019;9(3):139-60。[18] Al-Abdallah RZ,Al-Taani AT.使用萤火虫算法的阿拉伯语文本摘要。2019年Amity人工智能国际会议(AICAI)- IEEE 2019:61-5。[19] Erkan G,Radev DR. Lexrank:基于图的词汇中心性作为文本摘要的显着性。JArtificial Intell Res 2004;22:457-79.[20] MihalceaR,Tarau P. Textrank:将顺序带入文本。2004年自然语言处理经验方法会议论文集。p. 404- 11[21] 放大图片作者:John R,John S.无标度网络的结构特性。 图和网络手册,2003年。[22] KhojaS , GarsideR. 阿 拉 伯 语 的 词 干 。 Lancaster , UK :ComputingDepartment,Lancaster University; 1999.[23] 阿布-埃鲁布河使用TF、IDF和卡方测量的阿拉伯语文本分类算法。Int J ComputApp IJCA 2014;93(6):40-5.[24] 放大图片El-Haj M,Kruschwitz U,Fox C.使用机械土耳其语创建阿拉伯语摘要语料库。在:语言资源和评估会议(LREC),5月17日至23日。p. 36比9
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功