没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于萤火虫算法的多文档抽取式文本摘要Minakshi Tomera,b,Manoj Kumarca印度德里Guru Gobind Singh Indraprastha大学信息通信技术学院b印度德里Maharaja Surajmal理工学院信息技术系cNetaji Subhas University of Technology,East Campus(Formly Ambedkar Institute of Advanced Communication Technologies and Research)Delhi,India阿提奇莱因福奥文章历史记录:2021年1月22日收到2021年3月23日修订2021年4月12日接受2021年4月24日在线提供保留字:多文档文本摘要元启发式方法抽取式文本摘要适应度函数DUC数据集和ROUGEA B S T R A C T从大量数据中提取相关信息是一项具有挑战性的任务。自动文本摘要是获取这些信息的一个潜在的解决方案。提出了一种基于自然界群体智能的多文档文本摘要算法-萤火虫算法。采用了一种新的适应度函数,该函数由主题关联因子、内聚因子和可读性因子三个特征组成。实验在文档理解会议的数据集上进行,即DUC-2002,DUC-2003和DUC-2004。该算法的性能已评估使用ROUGE评分。该算法的性能与其他一些自然启发的,如粒子群优化(PSO)和遗传算法(GA)进行了比较该算法的性能优于其他采用的。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍万维网上的信息正以指数速度增长(Amini等人,2005; Khan等人,2015年)。因此,有必要以简洁的形式提供所需信息,同时又不失其重要性。因此,减少阅读时间是一个理想的前景,因为它可以大大减少人类的努力,并有助于找到任何文档或文档语料库中最重要的部分(Lloret和Palomar,2012)。自动文本摘要(ATS)是一个成功的解决方案,用于生成输入文档的较短版本,而不会丢失其主要内容。ATS可以根据其输出进行分类,作为提取和抽象的文本摘要(Lloret和Palomar,2012;Gambhir和Gupta,2017)。抽取方法通过从文档中提取最重要的句子来生成摘要,而抽象方法生成摘要*通讯作者:印度德里Guru Gobind Singh Indraprastha大学信息通信技术电 子 邮件 地 址 : tomer. gmail.com ( M.Tomer ) , J. kumar@nsut. ac.in ( M.Kumar)。沙特国王大学负责同行审查制作和主办:Elsevier由 一 些 新 单 词 , 新 短 语 或 新 句 子 组 成 ( Gambhir 和 Gupta ,2017 ) 。 ATS 也 可 以 根 据 输 入 分 为 单 文 档 摘 要 和 多 文 档 摘 要(Lloret和Palomar,2012; Gambhir和Gupta,2017)。与单文档摘要相比,多文档摘要具有更多的挑战(Goldstein等人,2000年)。它包括具有冗余信息的多个文档、多个文档的压缩以及句子选择及其提取的速度等问题(Verma和Om,2019)。使用统计工具和优化技术解决了这些问题(Rautray和Balabantaray,2017)。在总结文档时,保持相关性和冗余性是任何自动摘要器的重要任务(Verma和Om,2019)。许多生物启发的算法,例如果蝇优化(FOA)(Peng等人,2020)、高级回溯搜索算法(ABSO)(Wang等人,2020)和差分进化算法(DE)(Civicioglu和Besdok,2021)用于解决复杂问题。这些元启发式优化方法中很少有像遗传算法(GA)(Gordon,1988;Kogilavani和Balasubramanie,2010 )、和声 搜索算法(HSA)(Shareghi和Hassanabadi,2008)、粒子群优化(PSO)(Alguliev等人,2011; Asgari等人,2014)、猫群优化(CSO)(Rautray和Balabantaray,2017)、布谷鸟搜索(Rautray和Balabantaray,2018)、萤火虫算法(FA)和鲨鱼群优化(SSO)(Abedinia等人,2016)已实现https://doi.org/10.1016/j.jksuci.2021.04.0041319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comM. Tomer和M. Kumar沙特国王大学学报6058在单文档或多文档摘要的文本摘要领域取得成功(Verma和Om,2019)。这些现有的方法主要集中在最大的覆盖率与最小的冗余。萤火虫算法被认为是一种非常有效的算法(Gandomi等人,2011; Yang,2009; Yang,2010; Yang,2013)。最近发表了许多关于萤火虫算法的 综 述 论 文 ( Yang , 2014; Fister et al. , 2014; Ali 等 人 ,2014;Abdelaziz等人,2015; Ariyaratne等人,2015年)。对萤火虫算法进行了少量修改以提高其性能(Tilahun等人,2019年)的报告。有许多研究论文表明萤火虫如何成功地应用于不同领域,如工程应用、医学应用和经济应用等(Pan et al.,2013; Sekhar,2014; Tilahun和Ong,2013;Alweshah,2014;Kwiecien'和Filipowicz,2012;Poursalehi等人, 2013年)。提出了一种基于优化技术的多文档自动文摘算法。在所提出的算法中,基于萤火虫算法利用主题关系因子(TRF)、内聚因子(CF)和可读性因子(RF)作为适应度函数(Qazvinian等人,2008年)。该算法与其他方法不同之处在于,它采用了新的适应度函数来评价特征,而不是简单的余弦函数。这是为了改善简单余弦函数的结果。这些因素有助于生成其中句子与主题高度相关的摘要(Silla等人,2004; Salton和Buckley,1988),并且每个句子涉及相同的信息(Mitra等人, 1997年),同时保持摘要的流动。用于测试该算法的数据库是(文档理解会议)DUC-2002、DUC-2003和DUC-2004。用于测量性能的指标是(用于Gisting评估的召回导向的替代研究)(Lin,2004)DUC-2002上的Rouge-1、Rouge-2、Rouge-L和Rouge-SU 4以及DUC-2003、DUC-2004上的Rouge-1、Rouge-2。其他指标,如召回率,精度和f-措施也计算所提出的算法。所提出的算法产生的系统摘要与许多人类生成的参考摘要进行比较,并计算它们的平均值。本文的其余部分组织如下:文献综述文本摘要使用元启发式方法是presentd在第2节。第3节详细解释了所提出的算法,随后是第4节中提出的实验结果。最后,第5节给出了结论和未来的工作。2. 文献调查在文献中,许多技术已成功应用于文本摘要领域,包括语法方法,话语方法,主题方法,基于图的方法,机器学习(Lloret和Palomar,2012)和元启发式方法(Verma和Om,2019)。另一种摘要技术是结合提取和抽象方法的集成方法(Tomer和Kumar,2020; Sharma等人,2020年)。本节介绍了使用元启发式方法进行多文档摘要的概况。遗传算法是第一个应用于多文档文本摘要以检索最重要句子的元启发式算法(He et al.,2006年)。Qazvinian等人(2008年)提出了一种利用遗传算法的句子选择方法。采用遗传算法生成摘要,并采用基于主题相关性因子、可读性因子和内聚性因子的适应度函数对摘要进行评价。文档使用DAG(有向无环图)表示,其中每个句子表示为顶点。的边的权重表示句子之间的相似性,并使用TF-IDF(词频-逆文档频率)加权系统来表示句子。Lee等人提出了一种新的文本聚类技术-集成聚类方法。(2017年)。将遗传算法和粒子群优化算法相结合,得到了优化结果。使用标准化google距离计算句子的相似度。自动种群划分采用GA + PSO(遗传算法+粒子群优化)进行句子聚类。粒子群算法适用于具有高适应值的全局最优候选。遗传算法应用于个体具有较小的可能性,实现良好的适应度评价。从每个聚类中选择排名最高的句子,然后进行排序。Rautray和Balabantaray(2017)提出了一种用于多文档求和的猫群优化算法。将该模型与基于谐波搜索算法的摘要器和基于粒子群的摘要器进行了比较。计算句子信息量来表示句子的权重,而余弦相似 度 用 于 生 成 句 子 间 相 似 度 。 另 一 种 算 法 ( Rautray 和Balabantaray,2018)提出了用于多个文档的文本摘要的布谷鸟搜索算法。在DUC数据集上对基于布谷鸟搜索的摘要器与PSO和蚁群优化算法进行了多文档的比较。Ali和Malallah(2017)提出了一种基于模糊萤火虫算法(FA)的单文档和多文档自动文本摘要(ATS)模型。在总结语篇时主要考虑两个因素:关联和冗余。该模型由四个步骤组成:第一步是预处理,其中进行标记和词干提取,然后在第二步中进行特征提取,计算每个句子的分数模糊逻辑应用于第三步,通过将得分标记为高、中、低。在最后一步中,关联规则挖掘使用萤火虫算法。使用的数据库为TAC-2011,并使用胭脂作为评价指标。萤火虫算法(FA)也用于阿拉伯语文本摘要(Al-Abdallah和Al-Taani,2019)。与遗传算法和和声搜索算法相比,该方法获得了更好的胭脂分数。对各种文本摘要方法的调查,特别关注群体智能,特别关注蚁群优化(ACO)。(2019年)进行。蚁群优化算法具有较高的精度、较好的收敛性和稳定性,值得推荐研究了单文档、多文档和短文本摘要。Jaccard相似度和余弦相似度用于适应度函数。Verma和Om(2019)提出了一种基于多文档摘要的鲨鱼气味优化方法。重点关注的主要功能是覆盖率、非冗余性和相关性,以生成更好的摘要。词嵌入和基于谷歌距离的相似性方法的线性组合被用于识别特征。实验在六个基准数据集上进行,并与十二个基准数据集进行比较其他方法。3. 拟议框架在文献调查中,已经观察到元启发式方法经常被用来提高多文档文本摘要的性能。受这些方法的启发,本文提出了一种以主题关联度、内聚度和可读性为适应度函数的多文档自动文摘算法。该算法结合了特征(文本文档中可观察到的属性),M. Tomer和M. Kumar沙特国王大学学报6059帮助生成与主题相关、具有流动性、在句子之间具有高度相关性并且高度可读的摘要。它由以下步骤组成:(i)预处理,(ii)文档表示,(iii)摘要评分/适应度函数和(iv)萤火虫算法的利用。所提出的自动文本摘要的流程图如图1所示。3.1. 预处理它是一个将文档转换为适合有效执行文本摘要的格式的过程。这包括大小写转换、标记化、停用词删除和词干提取。Fig. 1. 拟议的ATS框架。M. Tomer和M. Kumar沙特国王大学学报6060S¼2¼X¼3.1.1. 大小写转换文档D中的所有字符都被更改为TR¼Psjssummarysimsj;qð4Þ大写或小写以实现一致性。3.1.2. 令牌化将每个句子分解为连续的标记流,T=t1;t2;t3.......... tn,其中标记t1;t2,..............tn表示单个标记在文献D.它还标识句子的开始和结束。这里,sj是摘要中的第j个句子,q是标题,S是摘要中的句子总数。这个值可以通过将其除以为所有生成的摘要计算的最大TR值来归一化。(五):令牌化为以下两个步骤准备文档即,通过使得更容易分析和执行对文本的操作来去除停止词和词干。3.1.3. 停止词去除TRFTR最多8个汇总TR3.3.2. 内聚因子(CF)ð5Þ在这个过程中,停止词可以被删除,因为它们3.1.4. 产生它是一个过程,其中来自同一个词根或基本或词干的单词被识别并被该单词替换。例如,单词3.2. 文档表示TF-IDF代表词频-逆文档频率,这是一种将文本转换为有意义的数字表示的常用方法。术语频率(TF)是指衔接因子(CF)决定了摘要中的句子是否在谈论同一个主题。为了计算每对句子之间的相似度,句子集合被表示为图。它还确定摘要是否有意义,因为仅计算CFi;j值,其中句子j按时间顺序出现在原始文档中的句子i因此,在Eq中有两个假设。(6)和(7)。8iN:simsi;si06<8i;jN:simsj;si如果si出现在文档中的sj
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功