面向对象与结构分析的网页信息抽取技术

4星 · 超过85%的资源需积分: 11 165 浏览量更新于2024-07-24 收藏 2.34MB PDF 举报

“网页解析器设计与实现，包括基于模板和基于结构分析的两种信息抽取方案，探讨了各自的优缺点，并提出了改进方案。” 网页解析是互联网数据挖掘中的关键步骤，特别是对于搜索引擎开发而言，网页信息的解析与抽取是提升搜索效率和准确性的核心。HTML解析器的主要任务是从HTML文档中提取出有价值的信息，比如正文内容和特定目标信息，而这个过程通常涉及到去除HTML标签，只保留纯文本内容。传统的网页解析方法依赖于基于模板的技术。这种方法的基本思路是为每个类型的网页或特定网站设计模板，模板定义了信息的位置和结构。尽管这种方法实现起来较为简单，但其局限性也显而易见。模板依赖性强，一旦网页结构发生变化，可能需要重新设计模板，这导致系统的可移植性和自适应性较差。针对这些问题，本文提出了两种新的网页解析方案。第一种是基于面向对象设计理念的模板抽取方案，通过抽象网页元素，创建更灵活的对象模型来适应网页结构的变化。这种方式旨在提高模板的通用性和适应性，减少对模板的频繁修改。第二种方案则是基于网页结构分析的信息抽取。这种方法不依赖于预定义的模板，而是通过分析HTML结构，利用网页元素的层次关系和语义特性来定位和提取信息。这种方法更注重动态分析，能更好地应对网页结构的复杂性和多变性，但可能需要更复杂的解析算法。文中详细讨论了这两种方案的实现算法，分析了它们的优缺点。基于模板的方案在实现上简便，但在处理网页变化时显得乏力；而基于结构分析的方案虽然能较好地适应变化，但可能需要更高级的解析技巧和计算资源。为了提高算法的实际应用价值，设计时倾向于选择简单易行且效果理想的策略，避免过于复杂和高深的算法。系统采用C#语言在Visual Studio 2005平台上实现，经过对腾讯、新浪、凤凰、搜狐等国内主要新闻网站的测试，取得了满意的结果。最后，文章还对未来可能的发展方向和改进方案进行了展望，包括算法优化、智能学习方法的应用，以及如何结合深度学习等先进技术来进一步提升网页解析的效率和准确性。这些设想将有助于推动网页解析领域的进步，为信息抽取和搜索引擎的未来发展提供新的思路和技术支持。

北京邮电大学本科毕业设计（论文）

7



之为语义块；而每个块内，各条记录格式基本相同，叫做记录条。所谓网页信息解析，

就是指从网页 C 中发现隐含的模式 p，如果将 C 看作输入，将 p 看作输出，那么网页信

息解析的过程就是从输入到输出的一个映射ζ：C->p;其中，p 主要就是页面内的不同语

义块及每个块内不同的记录条。

大多数 Web 网页都是采用 HTML 语言书写而成的，这些网页由普通文本和 HTML 标记

组成。宏观上，可以简单地将页面看成一个线性的字符串；微观上，这个字符串包含着

很多互相嵌套的标记，标记决定了页面的结构属性，包括：页面的视觉特征（颜色、字

体大小、字体粗细等）和页面的版式特征（段落的长短、标题的位置、段落之间的距离

等）；并且，各个标记的级别是不一样的，标记的分步有一定的规律，在使用习惯上也

存在着差异。这些都是网页信息解析可以利用的重要特征。

由于 HTML 标记的嵌套特性，一般采用 DOM(Document Object Model)树来表示 HTML

文档的内部结构。基于 DOM 树，针对不同的页面结构类型，可以采取不同的技术手段。

2.4.1 利用 HTML 标记分布规律进行解析

网页中 HTML 标记有一定的使用习惯和规则，尤其是在各条记录的边界处。各条记

录和记录边界处出现的标记往往呈现一定的规律，这些规律可以帮助确定出记录的边界。

为此，人们利用这种信息，从格式较为简单的诸如“腾讯新闻--国内评论”类网页

中抽取各个记录的条目。这种网页一般具有以下特征：1)网页中只有一个板块，含有多

条记录；2)每个记录间至少有一个分隔符。针对网页的特点，可采用简单的启发式规则

来做。

例如：文献[7]采用了五个启发式规则：1)把出现次数最多的“候选”分隔符作为

记录的边界；2)把从训练集中学习到的边界分隔符作为记录的边界；3)把所夹字符数标

准偏差小的“候选”分隔符作为记录边界；4)把同现次数多的两个或多个标记处作为记

录的边界。5)根据所处理问题本体内的关键字段来确立记录的边界。文献[8]在处理这

类多记录网页时，仅采用一条启发知识：每条记录的格式是基本相同的。然后，利用这

条启发知识从网页中分析出记录的格式，进而确定出记录的边界。

单纯利用 HTML 标记的分布规律对页面进行解析，在处理格式简单的诸如“论文网

页”时比较有效；然而，由于基本启发知识的限制，在应对格式复杂或缺少共同表示特

征的 Web 网页中就显得力不从心。

2.4.2 利用 HTML 标记间的关系进行解析

北京邮电大学本科毕业设计（论文）

8



HTML 语言中的标记不是独立的，它们之间存在着一定的层次地位关系；而且，每个

标记对页面产生的作用也不同：有的只对视觉特征起作用；有的只对结构层次化显示起

作用；还有的二者兼有之。一般地，根据标记是否对 HTML 文件的结构化产生作用，可

以把标记分成两类。图 2-1 列举了对结构化显示产生作用的标记，并给出了标记间的优

先级排序。

图 2-1 中，符号“>>”左边的标记在结构层次上的重要度比右边的标记大。文献[9]

就利用 HTML 标记间的这种关系，只分析图 2-1 中列举的这些标记，力图通过一系列具

体的整合规则，把这些标记构成的结构树变换整合为语义树的形式。

如果单纯利用 HTML 标记间的关系对 HTML 文档进行解析，对于特定领域的结构简单

规范的网页来说，会用比较好的效果；然而现今流行的网页结构往往是复杂而不规则的，

基于精细分析 HTML 标记的方法就显得很脆弱，无法正确整合文档的结构。因此，这种

思想适合与其他方法结合起来使用。

2.4.3 利用页面的视觉特征进行解析

在 HTML 文件中，很多标记的使用不仅是为了内容的组织，还可以用来表示页面的

外观，例如“table”、“P”等。为了对页面进行解析，页面显示的外观提供了大量的线

索。这些视觉特征包括不同的行、空白区域、字体不同的大小和颜色、段落的长短等。

所以，页面的视觉特征会对页面的解析有很大的帮助。文献[10]提出了一种基于视觉特

征的解析方法，并把它应用在了 TREC2003 的评测中，取得了较好的效果。

利用视觉特征对页面进行解析，能在一定的程度上满足复杂页面对算法的要求。但

由于视觉特征的复杂性，运用的启发知识往往较为模糊，需要人工来不断地总结调整规

则，需要的规则往往非常多，一条规则的加入会对已经成功分析的网页产生影响，因此，

如何保证规则集的一致性是一大难点。

2.4.4 利用 TABLE 标记的布局特性进行解析

随着互联网的深入发展，网页的格式越来越复杂，共同的特征越来越少。现在，每

图 2-1 对结构化产生作用的标记

北京邮电大学本科毕业设计（论文）

9



和广告信息栏。然而，由于标记“table”有良好的布局特性，格式复杂的页面往往都

采用“table”标记来进行页面的格式布局。因此可利用“table”

标记对页面进行解析。

如图 2-2 所示，整个页面用一个大的 table A 来布局，它的每

一个表单项 “td” 里边又嵌套不同的 table。这样不断地嵌套，

直至最底层的 table 里面包含着具体的记录项。文献[11]就利用标

记“table”来对页面进行解析，把页面分割成不同的块。

虽然思路简单，但用 table 标记进行挖掘，对网页开发工具制作出来的格式特别复

杂的页面来说，是比较有效的，它往往能胜任其他方法所应付不了的复杂网页。所以，

在处理门户网站中的网页时，这种思想是比较可取的。

2.5 网页规范化

HTML 用一对预定义的标记来描述包含在其间的文本的表示方式，要求标记成对出

现。事实上，有许多 HTML 文档中的标记不符合 HTML 语法要求，比如缺乏结束标记等。

这些错误影响对 HTML 文档的正确解析，因此，为了便于解析，首先要对 HTML 文档进行

整理，将其转换成 XHTML 文档，XHTML 严格建立在 XML 基础之上，并且明确定义了格式

良好的文档规则。

对 HTML 文档的整理主要是以下四个方面：

① 在除了网页标记 tag 外的地方出现的“<”和“>”用<和>代换。

② 所有标记的属性值放在引号中，如<a href=“http://www.bupt.edu.cn”>。

③ 所有标记都是匹配的，即每个开始标记均对应着一个结束标记，如

④ 所有标记都是正确嵌套的，如<a>…<b>…</b>…</a>。

2.6 一个简单的网页正文提取方案

对于源码复杂度小、页面结构简单即页面内容几乎全部是目标内容或正文内容的网

页，可将网页源码看成是一个字符串，用处理字符串的基本函数去除格式化标签，提取

正文内容。

基本思路如下：

①先把注释去掉。

②对标签的处理分为两类：

图 2-2 页面格式布局

剩余68页未读，继续阅读

南平163

粉丝: 0
资源: 4

面向对象与结构分析的网页信息抽取技术

html 解析器（网页源代码分析）

HTTP/http解析器

HTML网页内容解析器源码

mfc 简易网页解析器

redparser:网页解析器

htmlparser_Java网页解析器

Python网页解析器使用实例详解

网页解析器，用于网络爬虫解析页面, 不懂网页解析也能写爬虫.zip

北京邮电大学毕业设计，新闻网页解析器

互联网爬虫，蜘蛛，数据采集器，网页解析器的汇总，因新技术不断发展，新框架

最新资源