Web对象抽取：基于页面实体空间关系的新方法

需积分: 5 50 浏览量更新于2024-08-12 收藏 331KB PDF 举报

"基于页面实体空间关系的Web对象抽取 (2010年)，作者：郝敬敏、廖乐健、何迪，发表于《北京理工大学学报》2010年第2期，主要讨论了一种新的Web对象抽取方法，利用Web页面中实体间的空间位置关系来识别和抽取对象，具有较高的准确性和对不同结构页面的良好适应性。" 在Web信息检索领域，Web对象抽取是一项关键任务，旨在从网页中识别和提取有意义的信息单元，如表格、段落或链接等。传统的抽取方法通常依赖于特定的标记语言结构或者内容模式，这在处理结构各异的网页时往往受限。然而，"基于页面实体空间关系的Web对象抽取"方法提出了一种新颖的思路，它利用了网页中对象内部信息组件之间的空间距离作为判断同一对象的标准。论文指出，同一Web对象内部的元素通常在视觉布局上更紧密，它们之间的空间距离小于不同对象之间的距离。这一观察为识别网页对象提供了一个新的视角。通过解析Web页面的文档对象模型（DOM），可以获取页面上各个信息组件的位置信息。DOM是一种结构化的表示方式，能反映HTML或XML文档的元素层级和位置关系。利用DOM，算法可以分析元素间的相对位置，从而判断它们是否属于同一个逻辑对象。该方法的优点在于其对Web文档表示的独立性，这意味着它能够有效地处理各种结构的网页，包括那些设计规则明确且包含多个数据对象的页面。实验结果显示，这种方法在多个领域的Web文档中表现出了良好的适应性，对于特定类型的设计结构规则的页面，其抽取结果的准确率可高达100%。这表明该方法对于提升信息抽取的精确度和普适性具有重要意义。关键词：信息检索，Web对象，对象抽取，空间关系。这项工作不仅提供了理论上的贡献，还为实际的Web数据挖掘和信息提取应用提供了实用的工具和技术。通过考虑网页布局特性，该方法有助于更准确地理解网页内容，从而提高搜索引擎和信息提取系统的性能。

第

卷第

期

2010

年

月

北京理工大学学报

Vol.

No.2

Feb.

2010

Transactions of Beijing Institute of Technology

于页面实体空间关系的

Web

对象抽取

郝敬敏，

廖乐健，

何迪

(北京理工大学计算机学院智能信息技术北京市重点实验室，北京

10008

摘

要:针对

Web

同一对象内部信息组件之间的空间距离小于不同对象之间信息组件之间的距离这一显示特征.

提出一种新的

Web

对象抽取方法.通过分析给定页面中不同实体间的空间位置关系来判断哪些信息成分属于同

一对象，与

Web

文档的表示无关.通过

Web

页的文档对象模型

CDOM)

获得不同信息成分之间的位置关系，进而判

断这些信息组件是否属于同一对象.实验结果表明，该方法对于多个领域中不同结构的

l5文档具有很好的适应

性.对于设计结构规则，含有多个数据对象的页面，抽取结果的准确率可以达到

100%.

关键词:信息检索;

Web

对象;对象抽取;空间关系

中图分类号:

TP39

文献标志码

文章编号:

1001-0645 (2010) 02-0188-05

Object

Extraction

ßased

Spatial-Relation

Entities

from

the

World

Wide Web

HAO

Jing-min

LIAO

Le-jian

(Beij ing

bora tory of Intelligent Informa tion Technology, School of Computer Science and Technology,

Beijing Institute of Technology, Beijing 100081, China)

Abstract:

The

spatial

distance

between

components

within

one

object

always

less

than

that

between

different

objects

Web

pages.

novel

method

object

extraction

from

the

World

Wide

Web

reported.

This

proposed

method

considers

mainly

the

layout

characteristic

Web

contents

and

independent

underlying

documentation

representation

such

HTML

code.

The

method

based

document

object

model

(DOM)

obtain

the

bounding-box

various

kinds

Web

information

such

image

text

link.

Then

the

distance

adjacent

components

computed

get

the

spatial

relation.

Finally

all

the

Web

information

components

the

same

object

can

integrated.

Experiments

showed

that

the

proposed

method

could

work

well

even

when

the

HTML

structure

was

far

different

from

layout

structure

and

the

experimental

results

are

encouragmg.

Key

words:

information

巳

tri

巳

val;

Web

object;

obj 巳

extraction;

spatial

configuration

Web

文档绝大部分都是为人类阅读设计的.有

代表性的文档结构是:文档由包含信息内容的主体

部分和几个附加部分构成，主体部分和其他部分之

间用不同色彩或分隔符分隔开.

Web

上的大量信息

包含在有规则的结构化对象中.当一个

Web

页呈

现在用户面前时，空间和视觉线索会帮助用户把

收稿日期

:2009-01-15

基金项目:国家自然科学基金资助项目

(60873237)

Web

页划分成几个语义部分.从人类感知的角度来

看，网页总是被看成由多个不同的语义对象，而不是

一个对象构成.这里的对象

(object)

是指与某一实

体相关的信息组合，对象称为记录

(record)

[叫或信

息块

(informa

tion

block)

[5}.

作者将从人类浏览网

页的经验出发来划分和抽取

Web

对象.

作者简介:郝敬敏

0972

一)

，女，博士生，

E-mail:

haojingmin@bit.

edu.

，廖乐健

(1962

一)

.男，教授，博士生导师.

E-mail:

liaolj@

edu.

cn.

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38663443

粉丝: 7
资源: 977

Web对象抽取：基于页面实体空间关系的新方法

基于聚类的旅游实体空间关系抽取研究

基于三支决策的实体关系抽取研究

基于句法语义特征的中文实体关系抽取方法研究

基于信息增益的Web人物关系抽取 (2016年)

基于GlobalPointer的实体关系事件抽取.zip

基于深度学习的实体和关系的联合抽取研究.pdf

基于模板流程配置的Web信息抽取 (2008年)

基于BERT的实体关系抽取技术研究

opennre 中文关系抽取_基于bert的中文实体关系识别（实体关系抽取）项目开源

实体识别 关系抽取 属性抽取的顺序

最新资源

实体识别关系抽取属性抽取的顺序