没有合适的资源?快使用搜索试试~ 我知道了~
首页改进的中文网页新闻正文抽取算法:提高准确性和效率
改进的中文网页新闻正文抽取算法:提高准确性和效率
需积分: 0 0 下载量 181 浏览量
更新于2024-08-05
收藏 189KB PDF 举报
本文主要探讨了"改进的中文静态网页新闻正文自动抽取算法"这一主题,由何春辉和王孟然两位作者在2018年发表于东莞理工学院学报。网页新闻正文自动抽取是信息抽取领域的核心问题,特别是对于短文本段落的处理,现有的基于行块分布的方法效果不理想。针对这一问题,研究人员提出了创新的算法。 首先,作者改进了行块分割策略,设计了一种更有效的行块分布函数,这有助于更好地理解和组织网页内容。他们认识到在新闻正文中找到合适的起始和结束行块对于准确抽取至关重要,因此引入了最长公共子序列作为判别标准,这种方法可以快速定位正文内容,提高定位精度。 实验部分在1000个新闻网站上进行了详尽的评估,结果显示新算法具有显著的优势。平均抽取准确率达到了95.0%,这意味着算法在抽取新闻正文中表现出极高的识别能力;平均召回率高达96.54%,意味着算法能有效找到大部分的新闻正文;正文平均遗失率仅有1.6%,表明算法对文本内容的完整性把握良好。此外,单个网页的平均抽取耗时仅为0.13秒,体现出算法在大规模网页抽取任务中的高效性。 这种改进的算法对解决网页新闻正文自动抽取的效率和准确性问题做出了显著贡献,对于信息检索、文本挖掘以及敏感信息监测等应用场景具有重要的实际价值。尽管基于模式匹配和DOM树的方法有各自的优点,但它们在复杂性和通用性上存在局限,而新算法通过优化策略和算法设计,克服了这些问题,使得网页新闻正文抽取更加智能和自动化。这无疑为相关领域的研究和实践提供了新的思路和解决方案。
资源详情
资源推荐
第
25
卷
第
5
期
2018
年
10
月
东莞理工学院学报
JOURNAL OF DONGGUAN UNIVERSITY OF TECHNOLOGY
Vol. 25 No. 5
Oct. 2018
收
稿日期
: 2018 - 04 - 25
作者简介
:
何春辉
( 1991—)
,
男
,
湖
南永州人
,
工程师
,
硕士
,
主要从事文本信息挖掘研究
。Email: xtuhch@ 163. com。
改进的中文静态网页新闻正文自动抽取算法
何
春辉 王孟然
(
湘
潭大学 工程训练中心
,
湖南湘潭
411105)
摘要
:
网页新闻正文自动抽取属于信息抽取领域中的重要研究问题
,
现有基于行块分布进行新闻正文自
动抽取的方法对短文本段落的新闻正文抽取效果较差
。
为了改善这种现状
,
提出了一种改进的中文静态网页
新闻正文自动抽取算法
。
该方法给出了较好的行块分割策略来构建行块分布函数
,
并提出使用最长公共子序
列作为新闻正文内容起始行块和结束行块的快速定位方法的判别准则
。
最后在
1 000
个新闻网页上对算法的
性能进行了实验验证
,
得出新算法的平均抽取准确率为
95. 0% ,
平均召回率为
96. 54% ,
正文平均遗失率为
1. 6% ,
抽取单个网页的平均耗时为
0. 13 s。
实验结果充分说明了新算法能适应大规模的网页新闻正文自动抽
取任务
。
关键词
:
行块分布
;
自动抽取
;
快速定位
;
最长公共子序列
中图分类号
: TP391. 1
文献标志码
: A
文章编号
: 1009 - 0312 ( 2018) 05 - 0046 - 05
对信息检索和文本挖掘及敏感信息监测等领域而言
,
网页新闻正文的自动抽取是原始数据获取的一
个
关键环节
。
利用信息抽取技术得到的新闻正文内容质量高低会直接影响上层应用
。
因此
,
如何能准确
高效的自动抽取网页新闻正文成为了学术界和工业界关注的热点问题
。
目前最流行的新闻正文抽取方式大致归结为以下几类
: 1)
基于模式匹配
[1]
来抽取网页新闻正文
。
该方式的优势是抽取准确性较高
,
但劣势也很明显
,
它在复杂网页的抽取上代价太大
,
需要对特定类型
的网页制定大量抽取规则
,
这
些规则需要大量人力来跟踪维护且无法适应大规模网页通用性抽取的要
求
。2)
基于
DOM
树
[2 - 4]
来抽取网页新闻内容
,
根
据网页的结构信息构建
DOM
树
,
然后利用树的节点
信息来抽取新闻正文
。
该方式的优势是准确性可靠
,
但缺点是
DOM
树的构建对网页结构的完整性依赖
很高且树的构建和遍历过程需要的空间复杂度较高
。3)
基于文本密度统计
[5 - 7]
和
行块
[8 - 10]
分
布来抽取
网页新闻正文
。
该方法的优势是无需制定规则
,
特别适合进行大规模网页的抽取
,
但缺点是算法需要启
发式的计算行块的骤升和骤降点
。4)
基于机器学习方法
[11]
来抽取新闻内容
。
该方法的优势
是可以通过
提取重要特征来准确识别新闻正文
,
但缺点是需要事先标注大量的网页新闻样本来训练模型
。
通过上述方法对比分析
,
发现它们都各有优缺点
,
但皆无法很好的适应大规模网页新闻正文的自动
抽取任务
。
为了较好的改善这种现状
,
提出了一种改进的中文静态网页新闻正文自动抽取算法
,
它借助
了行块分布的优势来进行网页新闻正文的抽取
,
无需人工制定相关抽取规则
,
同时利用改进的行块分割
策略和起始行块与结束行块定位方法对新闻正文进行抽取
。
这种方法既能高效准确的抽取新闻正文内
容
,
又具有很好的通用性
,
适用于大规模中文网页新闻正文的自动抽取任务
。
1
改进的中文静态网页新闻正文自动抽取算法流程
国内最初是由哈尔滨工业大学的陈鑫提出基于行块分布函数进行网页正文抽取
,
他给出了两个核心
指
标
: 1)
正文区域的密度
; 2)
行块的长度
。
通过结合这两个指标可以较好的实现新闻正文抽取任务
。
这种方法的难点是给出行块分布函数后
,
首先需要遍历所有行块
,
求出长度最大的行块
;
然后以长度最
大的行块为中心
,
使用启发式的方法对剩下的行块进行遍历
,
根据设定的阈值来得到文本内容长度出现
骤升和骤降的行块位置
;
接下来将得到的骤升行块和骤降行块之间的内容按原文出现顺序进行合并
;
最
DOI:10.16002/j.cnki.10090312.2018.05.009
下载后可阅读完整内容,剩余4页未读,立即下载
RandyRhoads
- 粉丝: 327
- 资源: 296
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 最优条件下三次B样条小波边缘检测算子研究
- 深入解析:wav文件格式结构
- JIRA系统配置指南:代理与SSL设置
- 入门必备:电阻电容识别全解析
- U盘制作启动盘:详细教程解决无光驱装系统难题
- Eclipse快捷键大全:提升开发效率的必备秘籍
- C++ Primer Plus中文版:深入学习C++编程必备
- Eclipse常用快捷键汇总与操作指南
- JavaScript作用域解析与面向对象基础
- 软通动力Java笔试题解析
- 自定义标签配置与使用指南
- Android Intent深度解析:组件通信与广播机制
- 增强MyEclipse代码提示功能设置教程
- x86下VMware环境中Openwrt编译与LuCI集成指南
- S3C2440A嵌入式终端电源管理系统设计探讨
- Intel DTCP-IP技术在数字家庭中的内容保护
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功