扩展DOM树在Web数据自动抽取中的应用

需积分: 10 73 浏览量更新于2024-08-11 1 收藏 168KB PDF 举报

"一种基于扩展DOM树的Web数据自动抽取方法是2009年发表的一篇关于工程技术的论文，作者陈远斌。该方法针对Web数据抽取的挑战，提出了利用扩展DOM树来提高抽取效率和准确性。通过添加视觉特征和链接特征到DOM树，计算节点和子树的新颖度，识别并抽取对象数据，最终将数据保存为XML文档。实验证明此方法具有较好的抽取效果。" 在这篇论文中，作者主要探讨了Web数据抽取这一研究领域的热点问题。传统的Web数据抽取方法面临的一大挑战是缺乏统一且高效的方法。针对这一问题，作者提出了一种基于扩展DOM树的新型抽取策略。 DOM（Document Object Model）树是网页内容的一种结构化表示，它将HTML或XML文档解析为一个节点层次结构。在本文的研究中，作者首先对Web页面的DOM树进行了扩展。这里的扩展不仅仅限于HTML元素，还包括了视觉特征（如布局、样式信息等）和链接特征（如超链接的关系）。这样做的目的是使DOM树能更好地反映页面的实际内容和结构，增加抽取的语义信息。接下来，论文的重点在于如何利用扩展后的DOM树进行数据抽取。作者计算了相似Web页面中扩展DOM树节点和子树的新颖度。新颖度是一种衡量节点独特性的指标，用于区分不同页面中的相似数据项。通过对新颖度的分析，可以识别出具有代表性的数据对象，这些对象可能是目标抽取的数据。在识别出对象数据后，论文进一步阐述了根据数据项的角色来抽取信息的步骤。数据项的角色可能包括标题、内容、日期等，这些角色有助于确定数据的含义和用途。通过这种方法，可以更精确地抽取所需的数据，并将其组织成结构化的XML文档，便于后续的分析和处理。实验结果证明了该方法的有效性，表明其在自动抽取Web数据方面具有较好的性能。这为Web数据抽取领域提供了一个新的研究方向，特别是在处理大量相似但又存在细微差别的网页时，该方法能提高抽取的准确性和覆盖率。这篇论文提出的基于扩展DOM树的Web数据自动抽取方法结合了页面的视觉和链接特性，通过计算新颖度识别关键数据，并以XML格式保存，为Web数据抽取提供了新的思路和技术支持。这对于信息检索、数据挖掘以及Web服务等领域有着重要的理论和实践价值。

第  卷第  期

应用科技

Ｖｏｌ 

 年  月ＡｐｐｌｉｅｄＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙＡｕｇ

ｄｏｉ ｊｉｓｓｎ Ｘ

一种基于扩展ＤＯＭ树的Ｗｅｂ数据自动抽取方法

陈远斌

哈尔滨工程大学网络信息中心黑龙江哈尔滨 

摘要Ｗｅｂ数据抽取是当前的一个研究热点目前还没有统一有效的抽取方法在此提出一种研究思路首先

将Ｗｅｂ页面的ＤＯＭ树进行扩展添加视觉特征和链接特征然后计算多个相似页面的扩展ＤＯＭ树中节点和

子树的新颖度接着由新颖度识别对象数据并且依据数据项角色抽取出数据最后将对象数据保存为ＸＭＬ文

档通过实验分析验证了这个方法具有较好的抽取效果

关键词Ｗｅｂ数据抽取扩展ＤＯＭ树新颖度

中图分类号ＴＮ文献标识码Ａ文章编号     

ＡｕｔｏｍａｔｉｃａｌｌｙｅｘｔｒａｃｔｉｎｇｗｅｂｄａｔａｂａｓｅｄｏｎｅｘｐａｎｄｅｄＤＯＭｔｒｅｅ

ＣＨＥＮＹｕａｎｂｉｎ

Ｎｅｔｗｏｒｋ＆ＩｎｆｏｒｍａｔｉｏｎＣｅｎｔｅｒ ＨａｒｂｉｎＥｎｇｉｎｅｅｒｉｎｇＵｎｉｖｅｒｓｉｔｙ Ｈａｒｂｉｎ  Ｃｈｉｎａ

Ａｂｓｔｒａｃｔ Ｗｅｂｄａｔａｅｘｔｒａｃｔｉｏｎｉｓａｈｏｔｓｐｏｔｏｆｒｅｓｅａｒｃｈｎｏｗａｄａｙｓ ｈｏｗｅｖｅｒ ｔｈｅｒｅｉｓｎｏｕｎｉｆｏｒｍａｎｄｅｆｆｅｃｔｉｖｅｅｘ

ｔｒａｃｔｉｏｎｍｅｔｈｏｄｕｐｔｏｎｏｗＴｈｉｓｐａｐｅｒｐｒｅｓｅｎｔｓａｒｅｓｅａｒｃｈｉｄｅａＡｔｆｉｒｓｔ ＷｅｂｐａｇｅＤＯＭｄｏｃｕｍｅｎｔｏｂｊｅｃｔｍｏｄｅｌ

ｔｒｅｅｗａｓｅｘｐａｎｄｅｄａｎｄａｄｄｅｄｗｉｔｈｖｉｓｕａｌｆｅａｔｕｒｅｓａｎｄｌｉｎｋｓｆｅａｔｕｒｅｓ ｔｈｅｎｔｈｅｎｏｄｅｓａｎｄｓｕｂｔｒｅｅｓ ｎｏｖｅｌｔｙｄｅｇｒｅｅ

ｏｆｓｏｍｅｓｉｍｉｌａｒｐａｇｅｓ ｅｘｐａｎｄｅｄＤＯＭｔｒｅｅｗｅｒｅｃａｌｃｕｌａｔｅｄ ａｎｄｔｈｅｎｔｈｅｏｂｊｅｃｔｄａｔａｗｅｒｅｉｄｅｎｔｉｆｉｅｄｉｎｔｈｅｌｉｇｈｔｏｆ

ｓｕｂｔｒｅｅｓ ｎｏｖｅｌｔｙａｎｄｄａｔａｗｅｒｅｅｘｔｒａｃｔｅｄａｃｃｏｒｄｉｎｇｔｏｔｈｅｒｏｌｅｏｆｄａｔａ ｆｉｎａｌｌｙｔｈｅｏｂｊｅｃｔｄａｔａｗｅｒｅｓａｖｅｄａｓＸＭＬ

ｄｏｃｕｍｅｎｔｓＴｈｅｅｘｐｅｒｉｍｅｎｔａｌａｎａｌｙｓｉｓｖａｌｉｄａｔｅｓｔｈａｔｔｈｉｓｍｅｔｈｏｄｈａｓｂｅｔｔｅｒｅｆｆｅｃｔｏｆｄａｔａｅｘｔｒａｃｔｉｏｎ

ＫｅｙｗｏｒｄｓＷｅｂｄａｔａｅｘｔｒａｃｔｉｏｎｅｘｐｅｎｄｅｄＤＯＭｔｒｅｅ  ｎｏｖｅｌｔｙｄｅｇｒｅｅ

收稿日期

作者简介陈远斌 男研究实习员主要研究方向数据库与知识库Ｅｍａｉｌｙｕａｎｂｉｎｈｒｂｅｕｅｄｕｃｎ

Ｗｅｂ数据抽取技术己经在数据库领域信息检

索领域引起广泛关注大部分的研究工作致力于

Ｗｅｂ页面搜索算法的研究ＨＴＭＬ包装器Ｗｒａｐｐｅｒ

的设计等

一些研究者基于ＸＭＬ结构化的特点提出将

ＨＴＭＬ转化为ＸＭＬ数据然后在ＸＭＬ数据中推导

数据抽取规则通常由包装器来完成从ＨＴＭＬ到

ＸＭＬ的转换 如ＷＦ



 Ｘｗｒａｐ



 ＲｏａｄＲｕｎｎｅｒ



等

许多研究者致力于面向网页内容的主题提取研

究目标是提取主题内容或兴趣区域Ｆｉｎｎ



将ＨＴ

ＭＬ文档用字符和标签表示在字符集中提取文字

Ｋａａｓｉｎｅｎ



提出ＤｅｓｋＣａｒｄ模型将网页分为多个

Ｃａｒｄ减少Ｃａｒｄ得到主题Ｂｕｙｕｋｋｏｋｔｅｎ



提出语义

块模型ＳＴＵ同样采用了网页分块的思想进行主

题发现

利用树结构来推导抽取规则是一种常用的办

法 例如基于树结构的Ｗｅｂ数据抽取方法

 

是将

一个页面按照语义块来构造树基于标记树的Ｗｅｂ

信息抽取技术



建立一种ＨＴＭＬ标记树然后映射

到一个半结构化语法树 通过归纳学习得到公共路

径这些方法研究对象格式固定且在推导时需要人

工指导当遇到页面结构发生变化时就显得能力不

足

提出基于树结构的Ｗｅｂ对象数据自动检测及

抽取通过自动化的计算树结构中节点和子树出现

频率进行数据抽取提高抽取的自动化程度抽取结

果输出为ＸＭＬ文档

基于扩展ＤＯＭ树的Ｗｅｂ数据抽取

网页特征分析

网页的结构特征包括标签特征视觉特征和链

接信息特征标签特征主要体现ＨＴＭＬ代码中分块

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38637764

粉丝: 9
资源: 953

扩展DOM树在Web数据自动抽取中的应用

基于DOM的Web信息自动抽取

基于DOM的WEB信息抽取方法研究

基于单DOM树特征预分类的自适应Web信息抽取方法

基于网页DOM树节点路径相似度的正文抽取

基于DOM树和视觉特征的网页信息自动抽取.txt

一种基于模板的快速网页文本自动抽取算法* (2009年)

一种基于XML的Web信息抽取方法.pdf

一种基于知识工程的DeepWeb信息抽取方法.pdf

基于树结构的Web信息自动抽取技术研究

基于DOM树与视觉特征的网页信息高效抽取方法

最新资源