第
30
卷第
2
期
2010
年
2
月
北京理工大学学报
Vol.
30
No.2
Feb.
2010
Transactions of Beijing Institute of Technology
于页面实体空间关系的
Web
对象抽取
郝敬敏,
廖乐健,
何迪
(北京理工大学计算机学院智能信息技术北京市重点实验室,北京
10008
1)
摘
要:针对
Web
同一对象内部信息组件之间的空间距离小于不同对象之间信息组件之间的距离这一显示特征.
提出一种新的
Web
对象抽取方法.通过分析给定页面中不同实体间的空间位置关系来判断哪些信息成分属于同
一对象,与
Web
文档的表示无关.通过
Web
页的文档对象模型
CDOM)
获得不同信息成分之间的位置关系,进而判
断这些信息组件是否属于同一对象.实验结果表明,该方法对于多个领域中不同结构的
We
l5文档具有很好的适应
性.对于设计结构规则,含有多个数据对象的页面,抽取结果的准确率可以达到
100%.
关键词:信息检索;
Web
对象;对象抽取;空间关系
中图分类号:
TP39
1.
3
文献标志码
:A
文章编号:
1001-0645 (2010) 02-0188-05
Object
Extraction
ßased
on
Spatial-Relation
of
Entities
from
the
World
Wide Web
HAO
Jing-min
,
LIAO
Le-jian
,
HE
Di
(Beij ing
La
bora tory of Intelligent Informa tion Technology, School of Computer Science and Technology,
Beijing Institute of Technology, Beijing 100081, China)
Abstract:
The
spatial
distance
between
components
within
one
object
is
always
less
than
that
between
different
objects
in
Web
pages.
A
novel
method
of
object
extraction
from
the
World
Wide
Web
is
reported.
This
proposed
method
considers
mainly
the
layout
characteristic
of
Web
contents
and
is
independent
of
underlying
documentation
representation
such
as
HTML
code.
The
method
is
based
on
document
object
model
(DOM)
to
obtain
the
bounding-box
of
various
kinds
of
Web
information
such
as
image
,
text
or
link.
Then
the
distance
of
adjacent
components
is
computed
to
get
the
spatial
relation.
Finally
,
all
the
Web
information
components
of
the
same
object
can
be
integrated.
Experiments
showed
that
the
proposed
method
could
work
well
even
when
the
HTML
structure
was
far
different
from
layout
structure
,
and
the
experimental
results
are
q
Ul
te
encouragmg.
Key
words:
information
r
巳
tri
巳
val;
Web
object;
obj 巳
ct
extraction;
spatial
configuration
Web
文档绝大部分都是为人类阅读设计的.有
代表性的文档结构是:文档由包含信息内容的主体
部分和几个附加部分构成,主体部分和其他部分之
间用不同色彩或分隔符分隔开.
Web
上的大量信息
包含在有规则的结构化对象中.当一个
Web
页呈
现在用户面前时,空间和视觉线索会帮助用户把
收稿日期
:2009-01-15
基金项目:国家自然科学基金资助项目
(60873237)
Web
页划分成几个语义部分.从人类感知的角度来
看,网页总是被看成由多个不同的语义对象,而不是
一个对象构成.这里的对象
(object)
是指与某一实
体相关的信息组合,对象称为记录
(record)
[叫或信
息块
(informa
tion
block)
[5}.
作者将从人类浏览网
页的经验出发来划分和抽取
Web
对象.
作者简介:郝敬敏
0972
一)
,女,博士生,
E-mail:
haojingmin@bit.
edu.
cn
,廖乐健
(1962
一)
.男,教授,博士生导师.
E-mail:
liaolj@
bi
t.
edu.
cn.