利用正则表达式高效抽取旅游突发事件信息——2015年案例
需积分: 8 100 浏览量
更新于2024-08-13
收藏 891KB PDF 举报
本文主要探讨了正则表达式在旅游突发事件信息抽取中的应用,发表于2015年的《软件》杂志,卷36,第11期。论文由熊志斌、朱剑锋和尹成国三位作者共同完成,他们分别来自琼州学院创意与设计学院,其中熊志斌是副教授,研究方向为人工智能,朱剑锋是教授,专注于计算机网络通信,而尹成国是讲师,专攻软件工程。
论文的核心思想是针对HTML语言的语义特点,提出了一种无需构建DOM树的网页信息抽取方法。DOM树是一种用于解析XML或HTML文档的数据结构,而这种方法直接利用正则表达式的强大功能,如匹配和替换,来去除网页源代码中那些与正文内容无关的标记符号和其他非文本元素。这样可以生成一个原始文档,该文档只包含正文内容,便于后续的信息提取工作。
作者注意到,由于原始文档中的正文内容通常具有密集出现的特点,他们利用这个特性来确定正文的起始和结束位置,通过正则表达式的精确匹配,有效地定位和提取出旅游突发事件的相关信息。这种方法的优点在于效率高,能够快速准确地从海量网页中抓取目标信息。
关键词包括中文信息处理、信息抽取、正则表达式以及旅游突发事件,这些关键词反映了论文的主要研究内容和技术手段。论文的中图分类号为TP181,文献标识码为A,DOI为10.3969/j.issn.1003-6970.2015.11.005,标准的学术引用格式为作者姓名加文章标题等信息。
这篇文章是一项实用的技术研究,对于在旅游领域进行突发事件信息实时监控和处理具有重要的实践价值,展示了正则表达式在简化网页信息处理流程,提高信息提取效率方面的潜力。
2012-04-13 上传
2010-07-27 上传
2014-08-04 上传
2010-12-20 上传
506 浏览量
2024-08-22 上传
186 浏览量
weixin_38653602
- 粉丝: 6
- 资源: 937
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库