DOM树与MapReduce在海量Web信息抽取中的应用

70 浏览量更新于2024-08-29 收藏 531KB PDF 举报

"该文提出了一种基于节点属性与正文内容的海量Web信息抽取方法，通过将Web页面转化为DOM树，应用剪枝与融合算法简化DOM树，利用节点密度和视觉属性预处理页面内容，并结合MapReduce实现并行化抽取，以适应大数据场景的需求。实验表明，这种方法具有高性能和良好的系统可扩展性。" 在大数据背景下，从海量Web页面中有效地抽取有价值的信息是一项挑战。本文介绍的方法创新性地结合了DOM树结构和Web页面内容的分析，以提高信息抽取的效率和准确性。首先，将Web页面解析为DOM树模型，DOM树是一种表示HTML或XML文档的树状结构，每个节点代表页面的一个部分，如元素、文本或属性。这种方法允许通过对DOM树的遍历来抽取特定信息。接着，为了减少无效信息，文章提出了剪枝与融合算法。剪枝过程主要是去除DOM树中非内容相关的节点，如广告、导航条等，这有助于聚焦于主要内容。而融合算法可能涉及到合并相似节点，进一步提炼信息。这些步骤有助于减少处理数据的复杂性和提高抽取速度。然后，定义了DOM树节点的密度和视觉属性。节点密度可能指的是节点内的文本内容量相对于其所在区域的比例，而视觉属性则可能包括字体大小、颜色、位置等，这些特征可以帮助识别正文内容和非正文元素。通过对这些属性的分析，可以更准确地定位和预处理有价值的信息。最后，文章引入了MapReduce计算框架，这是一种分布式计算模型，特别适合处理大规模数据。通过MapReduce，Web信息抽取任务可以被拆分为多个子任务，分别在不同的计算节点上并行执行，从而显著提高处理速度，增强了系统的可扩展性。实验结果验证了这种方法在处理大数据量时的优越性能和可扩展性。这种基于节点属性与正文内容的海量Web信息抽取方法为大数据环境下的信息提取提供了一种有效策略，对于搜索引擎优化、数据挖掘和智能推荐等领域具有重要应用价值。

2016 年 10 月 Journal on Communications October 2016

2016190-1

第 37 卷第 10 期通信学报 Vol.37

No.10

基于节点属性与正文内容的海量 Web 信息抽取方法

王海艳

1,2

，曹攀

（1. 南京邮电大学计算机学院，江苏南京 210023；2. 江苏省无线传感网高技术研究重点实验室，江苏南京 210003）

摘要：为解决大数据场景下从海量 Web 页面中抽取有价值的信息，提出了一种基于节点属性与正文内容的海量

Web 信息抽取方法。将 Web 页面转化为 DOM 树表示，并提出剪枝与融合算法，对 DOM 树进行简化；定义 DOM

树节点的密度和视觉属性，根据属性值对 Web 页面内容进行预处理；引入 MapReduce 计算框架，实现海量 Web

信息的并行化抽取。仿真实验结果表明，提出的海量 Web 信息抽取方法不仅具有更好的性能，还具备较好的系统

可扩展性。

关键词：Web 信息；抽取；MapReduce；DOM 树

中图分类号：TP393.07 文献标识码：A

Information extraction from massive Web pages

based on node property and text content

WANG Hai-yan

1,2

, CAO Pan

(1. School of Computer Science and Technology, Nanjing University of Posts and Telecommunications, Nanjing 210023, China;

2. Jiangsu High Technology Research Key Laboratory for Wireless Sensor Networks, Nanjing 210003, China)

Abstract: To address the problem of extracting valuable information from massive Web pages in big data environ-

ments, a novel information extraction method based on node property and text content for massive Web pages was put

forward. Web pages were converted into a document object model (DOM) tree, and a pruning and fusion algorithm

was introduced to simplify the DOM tree. For each node in the DOM tree, both density property and vision property

was defined and Web pages were pretreated based on these property values. A MapReduce framework was employed

to realize parallel information extraction from massive Web pages. Simulation and experimental results demonstrate

that the proposed extraction method can not only achieve better performance but also have higher scalability compared

with other methods.

Key words: Web information, extraction, MapReduce, DOM tree

1 引言

Proteus 工程创建者 Grishman 将信息抽取描述

为

“从文本中选择出的信息创建一个结构化的表现

形式”

[1]

。作为数据挖掘的重要组成部分，信息抽

取受到了众多学者的广泛关注并出现了一些相应

的解决方法，如李蕾等

[2]

在全信息论的基础上提出

的中文信息抽取系统，黄诗琳等

[3]

提出的从文本中

抽取命名实体的方法，秦兵

[4]

、李天颍

[5]

等提出的

关系信息抽取算法。近年来，随着互联网技术的普

及，作为信息抽取的重要分支，Web 信息抽取技术

也得到了极大的发展，出现了诸多的抽取算法，主

要有如下几类。

基于视觉分块抽取方法最早由微软亚洲研究

院的 Cai 等

[6]

提出的，该方法主要通过页面分块的

视觉特征量对页面内容进行分类来抽取正文信息，

收稿日期：2015-11-16；修回日期：2016-05-24

基金项目：国家自然科学基金资助项目（No.61201163, No.61672297）；“六大人才高峰”基金资助项目（No.2013-JY-022）；

江苏省“333 高层次人才培养工程”基金资助项目

Foundation Items: The National Natural Science Foundation of China (No.61201163,

o.61672297), Six Talent Peaks Project in

Jiangsu Province (No.2013-JY-022), 333 High Level Personnel Training Project in Jiangsu Province

doi:10.11959/j.issn.1000-436x.2016190

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38617001

粉丝: 5
资源: 902

DOM树与MapReduce在海量Web信息抽取中的应用

改进的Web信息抽取：基于页面分类与正则表达式的高效方法

基于CSS选择器的Web信息抽取技术研究

动态Web信息抽取：基于网页聚类与DOM分析

Web分布式空间数据仓库体系结构设计.pdf

搜索引擎中的web数据挖掘（27页）.pdf

HtmlParser提取网页信息的设计与实现

植物领域知识图谱构建中本体非分类关系提取方法

知识图谱与流程

DOM-Based WEB主题信息抽取技术及其实验验证

知识图谱在信息抽取中的应用与构建

最新资源