Web信息抽取：自动浏览导航与数据集成研究

需积分: 5 75 浏览量更新于2024-07-09 收藏 628KB PDF 举报

“Web信息抽取网页自动浏览导航与集成规则研究* (2014年)” 本文主要探讨了Web信息抽取领域的一个重要课题，即如何有效地进行网页自动浏览导航和数据集成处理。传统的Web信息抽取技术往往侧重于数据的提取，而忽略了网页自动浏览和集成这两个关键步骤。作者为了解决这个问题，提出了一个全新的三阶段Web信息抽取处理模型，该模型包含了浏览导航、数据抽取以及集成三个阶段，以实现更全面的信息获取。首先，作者在模型的第一阶段，即浏览导航阶段，提出了自动浏览导航模型。这个模型旨在模拟人类用户的行为，自动地遍历和解析Web页面，寻找目标信息。为了实现这一目标，他们设计并实现了一种网页自动浏览导航规则语言，使得系统能根据预定义的规则有效地导航到含有目标信息的页面。其次，进入第二阶段，数据抽取阶段。在这个阶段，研究者利用各种信息抽取技术，如正则表达式、模板匹配、机器学习等方法，从导航得到的页面中提取出有价值的数据。这些技术有助于提高数据抽取的准确性和效率。然后，第三阶段是数据集成（ETI，Extraction-Transformation-Integration）阶段。研究者提出了ETI模型，将抽取的数据进行清洗、转换和整合，以适应不同的存储或分析需求。这一步骤对于确保抽取数据的一致性和完整性至关重要。此外，该研究还提到了背后的技术支持，包括国家自然科学基金项目和江苏省科技支撑计划项目的资助。论文详细阐述了研究背景、方法、实现及可能的应用场景，为Web信息抽取技术提供了新的理论依据和实践指导。这项工作对Web信息抽取领域作出了重要贡献，通过构建包含自动浏览导航和集成规则的完整流程，提高了信息抽取的效率和质量，对于大数据时代的Web数据挖掘具有深远的影响。未来的研究可以在此基础上，进一步优化导航策略，提升数据转换的灵活性，以及开发更加智能化的集成规则，以应对不断变化的Web环境和需求。

Journal of Frontiers of Computer Science and Technolo gy 计算机科学与探索 2014, 8(9)

涉及到的页面控件采用 XML 元素进行表示，由元素

的属性来刻画页面控件，并且提供动态参数化。此

外，不同于 Lixto 系统的流程控制，本文采用脚本式控

制语言来实现灵活的流程控制。

3 Web信息抽取模型

3.1 全过程 Web信息抽取模型

从信息处理的抽象层面看，一个完整的 Web 信

息抽取过程应当包括自动浏览导航、数据抽取和集

成后处理 3 个主要阶段（如图 1）。

（1）浏览导航阶段：一个完整的 Web 信息抽取系

统首先需要能模仿用户在浏览器中人工的网页交互

和浏览导航动作，以便系统自动访问和获取所需要

的网页。为此，需要抽象并提供一种浏览导航模型，

并提供浏览导航规则语言以描述和刻画浏览导航动

作，然后在 Web 信息抽取处理过程中，执行该规则语

言，以便回放浏览导航动作，完成网页的自动访问和

获取。

（2）网页数据抽取阶段：获得数据网页后，需要

为每个数据网页定制数据抽取规则，以便从网页上

抽取出特定区域中的数据。网页数据抽取是 Web 信

息抽取中另一个较大的问题，需要较大的篇幅进行

叙述，而本文重点讨论网页浏览导航涉及的集成模

型和规则，因此不对网页抽取阶段涉及的模型和规

则展开讨论。

（3）数据集成处理阶段：抽取出来的网页数据元

素或数据记录需要按照所定义的目标信息实体结构进

行转换、过滤和集成处理，生成一组目标数据记录。

为此需要提供有效的数据集成模型和数据转换规则

语言，以便用户刻画出各种数据转换和集成逻辑。

因此，一个完整的 Web 信息抽取系统必须基于

以上的三阶段完整模型来进行设计，提供从网页自

动获取到网页数据抽取和集成处理的综合规则体系

和规则语言，并提供一定程度的流程控制能力，最终

得到完整和一体化的执行和处理。

3.2 网页浏览导航模型

Web 应用常常采用 Session 技术维护网页间的事

务数据状态，这种特点以及 Web 页面的复杂性、交互

性和数据动态性通常使得难以通过简单的 URL 链接

来获取 Web 页面。因此，为了刻画 Web 信息抽取过

程中的网页自动浏览导航逻辑，本文首先对用户的

网页交互和浏览导航的行为动作进行抽象，然后建

立抽象模型，并进一步定义浏览导航规则语言，以描

述和刻画出准确的浏览导航逻辑。

如图 2（a）所示，为了刻画网页间的一个链接跳

转，首先定义一个“导航链接模型”，该模型主要刻画

完成一个导航链接所包含的一系列交互操作。本文

将执行 Web 浏览导航的每个交互动作称为浏览导航

动作。

一个导航链接 L 包含一组浏览导航动作序列

（action s equence，AS），本文用 L（AS）来表示这个导

航链接。从抽象层面看，一个完整的 Web 数据抽取

任务将由一系列导航链接组合而成。

每个浏览导航动作实际上是对某个网页控件进

行的某种交互操作，通常包含一个或多个具体的控

件设置动作，如填写、点击等。每个浏览导航动作包

括以下几部分内容。

（1）控件描述和定位：描述控件的类型和 DOM

位置。

（2）动作描述：定义浏览导航时在该控件上要执

行的具体动作。

目标数据集成

目标数据记录结构

网页数据抽取

网页浏览导航

目

标

数

据

记

录

数据

网页

…

Fig.1 Three phases of Web infor mation extraction

图 1 Web信息抽取的 3个阶段

1052

剩余17页未读，继续阅读

weixin_38748718

粉丝: 6
资源: 912

Web信息抽取：自动浏览导航与数据集成研究

基于Web的信息抽取技术现状与发展

规则抽取 csdn sklearn

kettle抽取web数据

文档信息抽取在审计中的应用

kettle抽取html网页数据抽取

2022/2023多模态信息抽取multimodal

半自动构建本体研究现状

通用信息抽取 UIE

基于规则抽取关系 准确率为1

以学术论文的风格，写一下实体关系抽取课题研究背景和意义，1000字

最新资源

基于规则抽取关系准确率为1