领域本体驱动的Web表格信息抽取提升准确性

需积分: 9 162 浏览量更新于2024-08-26 收藏 1.13MB PDF 举报

本篇文章探讨了"基于本体的Web表格信息抽取技术的研究"这一主题，发表于2010年的《青岛大学学报（自然科学版）》第二十三卷第二期。作者袁鸿雁来自沈阳职业技术学院计算机系，研究的核心是将本体理论与Web信息抽取技术紧密结合，特别关注特定领域的信息处理。在当前互联网环境中，大约52%的网页包含表格，这使得从Web表格中有效地提取信息成为一个挑战。传统的HTML标记仅关注数据展示，而非数据的语义描述，导致理解表格结构的复杂性增加。BUY研究小组将表格信息抽取过程细分为表格理解、数据整合和信息抽取三个步骤，强调了理解表格结构在这一过程中的关键作用。 H. Chen等人提出了表格定位、结构识别和"属性-值"对提取的框架，虽然算法相对简单，但缺乏实验验证。Tengli等人的工作则引入了自动抽取系统，通过样本表格学习属性词汇信息，并运用模糊匹配技术来定位属性单元格。然而，这种方式对领域知识的依赖度较高。王放等人提出了基于本体的Web表格信息抽取方法，借助本体的学习和积累，为表格结构识别提供了更精准的指导。文章创新地采用了领域本体，这种方法能够在元素级别和实例级别上进行模式匹配，减少了对网页结构的依赖。这种方法的优势在于其高度定制化，只要预先构建的领域本体足够强大，就能够对相应领域的表格文本进行高效的信息抽取。值得注意的是，作者强调了限定领域的重要性，这意味着通过专注于特定领域，可以显著提高信息抽取的准确性和效率。这种方法不仅能够解决Web表格理解的难题，而且对于大规模、多样化的Web信息抽取任务具有广泛的应用前景。这篇文章深入研究了如何通过本体理论优化Web表格信息抽取的技术，为该领域的研究和发展提供了新的视角和方法。

第２３卷第２期

　２０１０年６月

青岛大学学报（自然科学版）

ＪＯＵＲＮＡＬＯＦＱＩＮＧＤＡＯＵＮＩＶＥＲＳＩＴＹ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）

Ｖｏｌ．２３Ｎｏ．２

Ｊｕｎ．２０１０

文章编号：１００６１０３７（２０１０）０２００４７０５

　　ｄｏｉ：１０．３９６９／

ｊ

．ｉｓｓｎ．１００６１０３７．２０１０．０２．０１２

基于本体的Ｗｅｂ表格信息抽取技术的研究

磁

袁鸿雁

（沈阳职业技术学院计算机系，沈阳１１００４５）

摘要：将本体与和Ｗｅｂ信息抽取技术相结合，将信息抽取的重点放在特定的领域，利用

表格属性定位、识别表格结构生成启发式规则，可以大大提高信息抽取的准确率。

关键词：Ｗｅｂ表格；本体；表格定位；表格结构识别

中图分类号：ＴＰ３９１．１３文献标志码：Ａ

据统计，互联网上约有５２％的Ｗｅｂ页面包含表格

［１］

。Ｗｅｂ表格主要基于ＨＴＭＬ，由于ＨＴＭＬ只描述

数据怎样显示而缺乏对数据本身的描述，再加上Ｗｅｂ表格表现形式的复杂多样性，因此理解Ｗｅｂ表格结构

从中抽取出有效的信息就变得非常的困难，从Ｗｅｂ表格中抽取信息也就成为Ｗｅｂ信息抽取领域重要且有

价值的研究课题之一。ＢＵＹ研究小组将表格的信息抽取划分为表格理解、数据整合、信息抽取三个部分

［２］

。

通过理解表格结构，可以识别表格里的属性和取值。Ｈ．Ｃｈｅｎ等

［３］

首次提出Ｗｅｂ表格分析的过程分为表格

定位、表格结构识别和“属性–值”对的提取，该文提出的算法相对较简单，但未给出实验结果。Ｔｅｎｇｌｉ等

［４］

提出了一个Ｗｅｂ表格信息自动抽取系统的构造方法。在表格结构识别中，该系统通过样本表格学习属性的

词汇信息，然后通过向量空间模型对待抽取表格的单元格进行模糊匹配，从而识别属性单元格所在位置，达

到定位属性和值的目的。这种方式的表格结构识别对领域知识依赖过强。王放等

［５］

提出了一种基于本体的

Ｗｅｂ表格信息抽取技术，该方法通过对本体的学习和积累，对表格的结构识别提供指导。本文提出了一种

新的基于领域本体

［６］

的Ｗｅｂ表格信息抽取方法。该方法可实现元素级别和实例级别的模式匹配并且对网

页结构依赖很少，只要事先创建的应用领域ｏｎｔｏｌｏｇｙ足够强大，系统就可以对该应用领域中的表格文本实

现信息抽取，其中限定领域的思想提高了数据抽取的准确率。

１　Ｗｅｂ表格信息抽取系统结构

系统结构如图１所示。本系统对Ｗｅｂ表格数据抽取工作分为

图１　系统总体结构图

３步进行：表格定位、表格结构识别、表格信息抽取。其工作过程为：

待处理的包含表格的ＨＴＭＬ文档首先进入表格定位模块，在此模

块中滤除非数据表格和非用户感兴趣的数据表格等额外的信息，识

别出满足要求的数据表格，然后进入表格结构识别模块，在该模块

中识别出表格的展开方式和表格属性行（列）、数据单元格所在的位

置，最后按照抽取规则完成表格的属性与本体中概念的映射，抽取

出所需要的数据，存入数据库中。由于ＨＴＭＬ文档的获取以及本

体的建立不是本文研究的内容，因此在本文中未涉及。

磁

收稿日期：２００９１００３

作者简介：袁鸿雁（１９７３），女，硕士，讲师，主要从事数据库系统及数据挖掘技术的研究。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38743372

粉丝: 5
资源: 920

领域本体驱动的Web表格信息抽取提升准确性

基于Web的信息抽取技术现状与发展

基于本体的Web分类技术研究

基于本体的信息整合关键技术研究 (2007年)

基于蚂蚁算法的Deep Web页面信息抽取方法研究

基于本体关系匹配的信息抽取 (2007年)

基于领域本体的Deep Web内容获取技术研究 (2011年)

开发技术-Web开发基于Web信息抽取的专业知识获取方法研究.zip

基于本体论及语义Web的产品信息模型研究 (2004年)

基于本体的信息本体模型研究

基于本体的Web Services构件库的研究 (2009年)

最新资源