XML技术在网页信息抽取中的应用

2星需积分: 4 59 浏览量更新于2024-08-02 收藏 1.06MB PDF 举报

“基于XML的网页信息抽取.pdf是关于利用XML技术进行网页信息抽取的研究论文，由周津撰写，属于中国科学技术大学模式识别与智能系统专业。文中探讨了如何利用标准的XML和XSLT技术创建高效、健壮和通用的抽取规则，以及自动归纳网页模板和记录模板的方法。” 在当前互联网环境中，信息过载现象日益严重，信息抽取成为了解决这一问题的关键手段。网页信息抽取，即Wrapper，旨在自动从网页中提取用户所需的信息。传统的Wrapper构建方法往往需要大量人工参与，且难以应对网页结构的变化。因此，研究自动化的、强健的和通用的Wrapper生成方法至关重要。 XML（Extensible Markup Language）作为一种结构化数据表示语言，为网页信息抽取提供了标准化的基础。XML的结构化特性使得数据具有自我描述性，便于机器解析和处理。XSLT（eXtensible Stylesheet Language Transformations）作为XML的转换语言，其强大的功能和灵活性可以用于编写复杂的抽取规则，简化信息抽取过程。论文中提出了一种创新方法，通过自动归纳网页模板和记录模板，能够更有效地抽取网页主要内容和列表数据。网页模板对于信息检索、网页聚类和分类等应用至关重要，而记录模板则适用于抽取结构化的列表信息。此外，由于使用XSLT，抽取模式的可读性和可维护性得到了显著提高。为了快速构建抽取规则，作者开发了一个信息抽取平台，该平台支持不仅手工编写规则，还支持自动归纳和生成规则。此外，论文还讨论了多网页信息抽取框架，这对于需要处理多个网页的实际情况非常有用。通过这个平台，可以快速构建出适应网页变化、通用性强的网页信息抽取系统。总结起来，这篇论文的核心贡献在于使用XML和XSLT技术优化了网页信息抽取的过程，提出了自动归纳模板和规则的方法，增强了抽取规则的效率、健壮性和通用性，对于Web信息处理领域具有重要的理论和实践价值。关键词包括信息抽取、互联网、XML。

2 相关研究

自己设计的抽取模式语言一般都比较简单，与特定的系统绑定到一起。缺乏维护和更新，

容易过时。ANDES 使用标准的 XML 和 XSLT 技术来进行信息抽取。XML 和 XSLT 是被广

泛支持的标准语言，功能强大。利用标准技术不仅可以快速的构造抽取规则，而且还可以编

写更加健壮的抽取规则。因此本文也采用 XSLT 作为抽取规则语言。

ANDES 仅仅提出了一种简单的构造健壮抽取规则的方法。本文不仅提供了一个帮助构

造 XSLT 的图形用户界面，还提出了几种其他的构造健壮抽取规则的方法，同时，还开发了

一个通用的独立与具体网站的链接组提取方法。

2.6 完全自动化的方法

完全自动化的方法不需要人为标记样本，也不需要人为编写抽取规则。这种方法根据网

页的相似性结构自动找到网页中的数据并归纳出抽取规则。用户只需要最后对数据模式进行

标记。

2.6.1 IEPAD

IEPAD[CL01]通过构造 PAT 树来发现频繁出现的连续标记来定位和抽取数据。这种方法

只适用于有限的数据模式：不包含嵌套结构的记录。比如它们的实验对象：搜索引擎。由于

并不是所有重复出现的模式都包含有用的数据，IEPAD 使用了各种启发式来进行标识。

2.6.2 RoadRunner

RoadRunner[CM03]通过比较相似的网页归纳出网页的模版，模版使用正则表达式描述。

归纳出来的模版就是抽取规则。这种方法主要适用于由数据库查询生成的页面，这种页面包

含有类型相同的数据，网页是由同一个模板所生成。

RoadRunner 将信息抽取模式生成等同为正则表达式归纳问题。而正则表达式归纳是到

目前都解决得不好的一个问题。RoadRunner 做了很多假定，假定标记都是模板的一部分，

假定不存在或模式的数据，假定数据是上下文无关的，而这些假定往往是不成立的。除此之

外，RoadRunner 为了归纳出正则表达式，使用了大量的复杂的启发式搜索算法。这使得

RoadRunner 的算法特别敏感，归纳时很容易失败。

2.6.3 小结

自动化的方法通过网页的相似性来发现网页中的数据并归纳相应的抽取规则。这种方法

是完全自动的。但是，另一方面，这种方法并不适用于定制的信息抽取任务，比如抽取某个

网页中某一块的信息，因为很多任务并不是简单的获取所有网页中变化的数据或者频繁出现

的结构中的数据。

2.7 方法总结和本文的工作

为了方便有效的进行信息抽取，各种各样的方法被提出来。信息抽取的核心实际上是抽

取模式。各种方法都致力于抽取模式的自动构造。抽取模式并不统一，几乎每种系统都有各

自的一套抽取语言。大部分的抽取语言都难以用于手工编写模式，因此需要人为标记样本来

学习抽取模式。基于 HTML 结构的抽取语言是基于 HTML 文档的树结构，通过树路径定位

数据简单、直观、而且精确，因此适用于人为定制抽取规则。而且基于 HTML 的抽取语言

可以抽取复杂的数据结构，这对于实际的应用是很有效的。XSLT 本来是用于转换 XML 文

2 相关研究

档的，它定义了强大而且灵活的一套数据定位语言（XPath）以及抽取指令，可以进行各种

复杂的抽取和变换。由于 HTML 可以看作 XML 的子集，因此完全可以利用 XSLT 作为抽取

语言。使用 XSLT 不仅具有强大灵活的语法，易于理解和修改的结构，而且还具有众多的工

具支持。因此使用 XSLT 是最为理想和实用的方法。

在 HTML 树结构中寻找数据以及获取路径并不是一件容易的事，本文开发了一个图形

用户界面方便这两步工作。使这两项工作都极为简单。

网页的易变性给信息抽取带来新的问题。Ontology 的方法最为健壮和通用，因为与网页

结构无关。但是代价是很多情况下很难找出通用的模式，因此并不实用。实际上，使用 XSLT

也能构造健壮而且通用的抽取规则，本文就这方面进行了研究。

各种各样的方法都希望最大最大程度减少人为的参与，完全自动化的方法在这方面达到

了极致。这种方法根据相似的网页结构自动寻找数据并归纳抽取模式。用户所要做的工作仅

仅是对结果进行标记。虽然这种方法达到了最大程度的自动化，但是，由于缺乏人为的参与，

这种方法无法准确了解用户的需求，因而生成的抽取规则往往并不是有用的，一般需要一定

程度的修改以满足实际的应用要求。

本文也进行了这方面的研究。本文将网页模板和记录模板分离开来。网页模板用于分离

网页框架，获取网页主要内容。这种任务不要求复杂数据的精确定位，归纳出来的模版不需

要修改和对数据进行标记，而只要求不需要任何人为参与的将冗余信息去除掉。自动归纳网

页模板针对这种任务是有效的。相反，记录模板归纳的目标是精确定位每一项数据。实际上，

如前面所说的，这种方法对实际应用来说不一定有效，因为算法根本不知道用户具体要什

么？只是假定频繁出现的模式中的数据就是用户想要的，实际上并非如此。因此，生成的抽

取规则还需要一定的修改才能满足实际需要。本文的抽取规则是基于 XSLT 的，因此，修改

和维护都很方便。

最后，到目前为止所有的方法都是针对单网页信息抽取的，而实际应用中往往需要抽取

多个网页中的数据。本文进行了这方面的研究，并开发了一个通用的多网页信息抽取框架。

使用本文的平台，已经实现简单、快速、有效构造健壮的信息抽取。

3 相关标准

比如，b 标记中的内容显示为粗体。Title 标记中的内容为文档标题。

尽管 HTML 在展示数据方面十分成功，但是，对于机器来说，一个 HTML 文档是很难

理解的。因为，HTML 着重于数据的表现而不是数据的描述。比如，根据<b><i>这样的标

记根本无法获得它们所包含文本究竟是什么内容。着重于数据描述的一个新的语言是 XML。

3.2 XML

XML[XML]的全名是可扩展标记语言（eXtensible Markup Language）。它允许开发人员

制定自己的标记，从而使得文档具备自描述性。

3.2.1 XML 的产生

首先，让我们来了解一下可扩展标记语言 XML 的发展简史。

XML 有两个先驱--SGML 和 HTML，这两个语言都是非常成功的标记语言，但是它们

都在某些方面存在着与生俱来的缺陷。SGML（Standard Generalized Markup Language）的全

称是标准通用标记语言，它为语法标记提供了异常强大的工具，同时具有极好的扩展性，因

此在分类和索引数据中非常有用。但是，SGML 非常复杂，并且价格昂贵，几个主要的浏览

器厂商都明确拒绝支持 SGML，使 SGML 在网上传播遇到了很大障碍。

相反，超文本标记语言 HTML（HyperText Markup Language）免费、简单，在世界范围

内得到了广泛的应用。它侧重于主页表现形式的描述，大大丰富了主页的视觉、听觉效果，

为推动 WWW 的蓬勃发展、推动信息和知识的网上交流发挥了不可取代的作用。可是，HTML

也有如下几个致命的弱点，这些弱点逐渐成为 HTML 继续发展应用的障碍。

Ø HTML 是专门为描述主页的表现形式而设计的，它疏于对信息语义及其内部结构

的描述，不能适应日益增多的信息检索要求和存档要求。

Ø HTML 对表现形式的描述能力实际上也还非常不够，它无法描述矢量图形、科技

符号和一些其他的特殊显示效果。

Ø HTML 标记集变得日益臃肿，而其松散的语法要求使得文档结构混乱而缺乏条理，

导致浏览器的设计越来越复杂，降低了浏览的时间效率与空间效率。

正因为如此，1996 年人们开始致力于描述一个标记语言，它既具有 SGML 的强大功能

和可扩展性，同时又具有 HTML 的简单性。XML 就是这样诞生的。

正象SGML 和 HTML 一样，可扩展标记语言 XML 也是一种标记语言，它通过在数据

中加入附加信息的方式来描述结构化数据。不过，XML 并非象 HTML 那样，只提供一组事

先已经定义好的标记。准确地说，它是一种元标记语言，允许程序开发人员根据它所提供的

规则，制定各种各样的标记语言。

3.2.2 XML 语法

XML 的语法规则很简单而且非常严格。正因如此，开发读取和操纵 XML 的软件很简

单。

3.2.2.1 XML 文档

下面是一个简单的 XML 文档：

剩余79页未读，继续阅读

ideem

粉丝: 18
资源: 72

XML技术在网页信息抽取中的应用

自定义主题信息抽取模型：基于块位置的算法

基于Web的PDF到XML转换器解析与应用

网络数据抽取工具的简明调研报告

基于JerichoHTMLParser的html信息抽取.pdf

基于XML的网页数据挖掘.pdf

一种基于XML的Web信息抽取方法.pdf

一种支持KDD处理的基于XML的中间件语言.pdf

基于Web数据挖掘中XML的应用研究.pdf

论文研究-基于关系数据库分裂存储的XML文档片段重构.pdf

人工智能-数据挖掘-基于数据挖掘技术的XML频繁模式发掘.pdf

最新资源