改进的中文网页新闻正文抽取算法：提高准确性和效率

需积分: 0 15 浏览量更新于2024-08-05 收藏 189KB PDF 举报

本文主要探讨了"改进的中文静态网页新闻正文自动抽取算法"这一主题，由何春辉和王孟然两位作者在2018年发表于东莞理工学院学报。网页新闻正文自动抽取是信息抽取领域的核心问题，特别是对于短文本段落的处理，现有的基于行块分布的方法效果不理想。针对这一问题，研究人员提出了创新的算法。首先，作者改进了行块分割策略，设计了一种更有效的行块分布函数，这有助于更好地理解和组织网页内容。他们认识到在新闻正文中找到合适的起始和结束行块对于准确抽取至关重要，因此引入了最长公共子序列作为判别标准，这种方法可以快速定位正文内容，提高定位精度。实验部分在1000个新闻网站上进行了详尽的评估，结果显示新算法具有显著的优势。平均抽取准确率达到了95.0%，这意味着算法在抽取新闻正文中表现出极高的识别能力；平均召回率高达96.54%，意味着算法能有效找到大部分的新闻正文；正文平均遗失率仅有1.6%，表明算法对文本内容的完整性把握良好。此外，单个网页的平均抽取耗时仅为0.13秒，体现出算法在大规模网页抽取任务中的高效性。这种改进的算法对解决网页新闻正文自动抽取的效率和准确性问题做出了显著贡献，对于信息检索、文本挖掘以及敏感信息监测等应用场景具有重要的实际价值。尽管基于模式匹配和DOM树的方法有各自的优点，但它们在复杂性和通用性上存在局限，而新算法通过优化策略和算法设计，克服了这些问题，使得网页新闻正文抽取更加智能和自动化。这无疑为相关领域的研究和实践提供了新的思路和解决方案。

第

卷

第

期

2018

年

月

东莞理工学院学报

JOUＲNAL OF DONGGUAN UNIVEＲSITY OF TECHNOLOGY

Vol． 25 No． 5

Oct． 2018

收

稿日期

： 2018 － 04 － 25

作者简介

：

何春辉

（ 1991—）

，

男

，

湖

南永州人

，

工程师

，

硕士

，

主要从事文本信息挖掘研究

。Email： xtuhch@ 163. com。

改进的中文静态网页新闻正文自动抽取算法

何

春辉王孟然

（

湘

潭大学工程训练中心

，

湖南湘潭

411105）

摘要

：

网页新闻正文自动抽取属于信息抽取领域中的重要研究问题

，

现有基于行块分布进行新闻正文自

动抽取的方法对短文本段落的新闻正文抽取效果较差

。

为了改善这种现状

，

提出了一种改进的中文静态网页

新闻正文自动抽取算法

。

该方法给出了较好的行块分割策略来构建行块分布函数

，

并提出使用最长公共子序

列作为新闻正文内容起始行块和结束行块的快速定位方法的判别准则

。

最后在

1 000

个新闻网页上对算法的

性能进行了实验验证

，

得出新算法的平均抽取准确率为

95. 0% ，

平均召回率为

96. 54% ，

正文平均遗失率为

1. 6% ，

抽取单个网页的平均耗时为

0. 13 s。

实验结果充分说明了新算法能适应大规模的网页新闻正文自动抽

取任务

。

关键词

：

行块分布

；

自动抽取

；

快速定位

；

最长公共子序列

中图分类号

： TP391. 1

文献标志码

： A

文章编号

： 1009 － 0312 （ 2018） 05 － 0046 － 05

对信息检索和文本挖掘及敏感信息监测等领域而言

，

网页新闻正文的自动抽取是原始数据获取的一

个

关键环节

。

利用信息抽取技术得到的新闻正文内容质量高低会直接影响上层应用

。

因此

，

如何能准确

高效的自动抽取网页新闻正文成为了学术界和工业界关注的热点问题

。

目前最流行的新闻正文抽取方式大致归结为以下几类

： 1）

基于模式匹配

［1］

来抽取网页新闻正文

。

该方式的优势是抽取准确性较高

，

但劣势也很明显

，

它在复杂网页的抽取上代价太大

，

需要对特定类型

的网页制定大量抽取规则

，

这

些规则需要大量人力来跟踪维护且无法适应大规模网页通用性抽取的要

求

。2）

基于

DOM

树

［2 － 4］

来抽取网页新闻内容

，

根

据网页的结构信息构建

DOM

树

，

然后利用树的节点

信息来抽取新闻正文

。

该方式的优势是准确性可靠

，

但缺点是

DOM

树的构建对网页结构的完整性依赖

很高且树的构建和遍历过程需要的空间复杂度较高

。3）

基于文本密度统计

［5 － 7］

和

行块

［8 － 10］

分

布来抽取

网页新闻正文

。

该方法的优势是无需制定规则

，

特别适合进行大规模网页的抽取

，

但缺点是算法需要启

发式的计算行块的骤升和骤降点

。4）

基于机器学习方法

［11］

来抽取新闻内容

。

该方法的优势

是可以通过

提取重要特征来准确识别新闻正文

，

但缺点是需要事先标注大量的网页新闻样本来训练模型

。

通过上述方法对比分析

，

发现它们都各有优缺点

，

但皆无法很好的适应大规模网页新闻正文的自动

抽取任务

。

为了较好的改善这种现状

，

提出了一种改进的中文静态网页新闻正文自动抽取算法

，

它借助

了行块分布的优势来进行网页新闻正文的抽取

，

无需人工制定相关抽取规则

，

同时利用改进的行块分割

策略和起始行块与结束行块定位方法对新闻正文进行抽取

。

这种方法既能高效准确的抽取新闻正文内

容

，

又具有很好的通用性

，

适用于大规模中文网页新闻正文的自动抽取任务

。

改进的中文静态网页新闻正文自动抽取算法流程

国内最初是由哈尔滨工业大学的陈鑫提出基于行块分布函数进行网页正文抽取

，

他给出了两个核心

指

标

： 1）

正文区域的密度

； 2）

行块的长度

。

通过结合这两个指标可以较好的实现新闻正文抽取任务

。

这种方法的难点是给出行块分布函数后

，

首先需要遍历所有行块

，

求出长度最大的行块

；

然后以长度最

大的行块为中心

，

使用启发式的方法对剩下的行块进行遍历

，

根据设定的阈值来得到文本内容长度出现

骤升和骤降的行块位置

；

接下来将得到的骤升行块和骤降行块之间的内容按原文出现顺序进行合并

；

最

DOI:10.16002/j.cnki.10090312.2018.05.009

下载后可阅读完整内容，剩余4页未读，立即下载

RandyRhoads

粉丝: 635
资源: 296

改进的中文网页新闻正文抽取算法：提高准确性和效率

一种基于文本相似度的网页新闻标题自动抽取算法_何春辉1

改进的TextRank双层单文档摘要提取算法_何春辉1

基于描述文本和实体标签的网络视频分类算法_何春辉1

基于深度学习的中文至拼音首字母自动转化方法_何春辉1

专利引文分析应用研究综述_何春辉1

一种基于常识的图片验证码设计方法_何春辉1

基于双层Bi_LSTM_CRF模型的糖尿病领域命名实体识别_何春辉1

基于关键短语和LDA模型的军事舆情热点话题发现及推荐方法_何春辉1

大数据促进教育变革_冯春辉.pdf

qy_克隆人的伦理困境与角色认同_李春辉.caj

最新资源