武汉理工大硕士论文:基于XML的Web信息抽取系统与算法

需积分: 0 2 下载量 177 浏览量 更新于2024-07-31 收藏 3.85MB PDF 举报
本文主要探讨的是"基于XML的Web信息抽取研究与实现"这一主题,针对互联网的快速发展和Web数据的爆炸性增长,作者轩艳艳针对如何从海量网页中高效、准确地提取所需信息这一问题,提出了创新性的解决方案。XML(可扩展标记语言)技术在这个背景下展现出其在Web信息抽取中的巨大潜力。 论文首先介绍了Web信息抽取的概念,即通过编程工具(包装器)自动从网页中抓取预定义的信息,这需要编写有效的抽取规则。传统的包装器构造方法存在局限性,而作者将焦点转向了XML,因为其结构化和扩展性强的特点使其在信息抽取中具有优势。 作者的主要贡献包括: 1. 设计并实现了一个通用的Web信息抽取系统,允许用户根据需求定制包装器,从HTML页面中抽取感兴趣的信息,并使用XML格式存储,提升了系统的通用性和灵活性。 2. 提出了一种基于XML的Web数据转化算法,将HTML文档转换为XHTML(XML的超文本标记语言版本),简化了数据清洗过程,为抽取工作提供了关键技术支撑。 3. 发展了一种基于DOM的XPath生成算法,有效解决了在XHTML文档中定位信息点并生成XPath路径的问题,提高了信息定位的效率。 4. 应用了XSLT(可扩展样式表语言)作为抽取规则的描述语言,结合XPath进行信息定位,实现了单信息块抽取的自动化,并通过合并抽取模板优化多信息块抽取规则,提升了规则的统一性和准确性。 论文的核心思想是利用XML的特性优化Web信息抽取过程,显著提高了系统的召回率和准确率。这不仅解决了Web信息抽取的实际问题,也为相关领域的研究者提供了一种实用且高效的方法论。本文在XML技术与Web信息抽取领域的结合上取得了重要的理论突破和实践成果。