基于中文标点和HTML树的新网页正文抽取方法

需积分: 9 107 浏览量更新于2024-08-11 收藏 261KB PDF 举报

本文档探讨了网页正文信息抽取的新方法，针对早期基于包装器的信息抽取技术存在的局限性，如只能处理特定类型的数据源、对网页结构高度依赖且规则维护困难等问题。研究者提出了一种创新的网页分析策略，该方法利用中文标点符号和HTML树结构作为关键特征。首先，方法利用中文标点符号作为识别网页正文内容的重要线索。在网页中，正文通常会包含更多的标点符号，而噪声内容如广告和链接则相对较少。通过统计网页中的标点符号分布，可以初步确定一部分正文区域。这种方法具有一定的通用性，因为它不依赖于特定的网页模板，而是利用自然语言的规律来识别。其次，结合HTML树结构分析，该方法进一步通过比较不同正文信息在结构上的相似性来确定正文内容。HTML树模型能够反映出网页元素之间的层次关系，正文通常会遵循一定的结构布局，如文章标题、段落、列表等。通过比较这些结构特征，可以更加准确地定位和提取正文，同时减少对网页布局变化的敏感度。实验结果显示，这种方法能有效去除网页中的噪声信息，如导航条和广告，从而提取出高质量的正文内容。它的优点在于规则的生成和维护成本较低，规则的适应性更强，能够应对网页结构的动态变化，提高了系统的可扩展性和准确性。因此，这种方法对于基于Web的信息抽取和处理任务具有很高的实用价值，尤其是在大规模的网页数据处理中，能够显著提升处理效率和结果质量。这项研究针对网页正文信息抽取提出了一个新颖且实用的方法，不仅提升了处理的效率和准确性，还降低了对网页结构的依赖，为网页信息的高效获取和处理提供了新的思路和技术支持。

第

卷第

期

2009

年

月

大连理工大学学报

Journal of Dalian University of Technology

Vol.

NO.4

July

2 0 0 9

文章编号:

1000-8608(2009)04-0594-04

网页正文信息抽取新方法

宋明秋祷，张瑞雪，吴新涛，李文立

(大连理工大学系统工程研究所，辽宁大连

116024 )

摘要:基于包装器的信息抽取方法只能处理一种特定的信息'源，而且对网页结构的依赖性

强.基于此提出了一种将中文标点符号和

HTML

树结构作为识别网页正文内容重要特征的

网页分析方法，通过统计中文标点符号确定部分正文信息，然后根据正文信息在结构上的相

似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文，

具有较好的通用性和较高的准确性.

关键词:包装器

;HTML

树

网页信息提取

中图分类号:

TP391

文献标志码

。引言

随着互联网的飞速发展

.Web

上的网页数目

正以指数级的爆炸性趋势增长.面对如此巨大的

资源，在

Web

上检索及发现有价值的信息已成为

一项重要的任务.基于

Web

的研究涉及信息检

索、信息过滤、信息抽取、搜索引擎、网页分类等，

它们研究处理的主要对象就是网页信息.在网页

中除了表达主题的正文内容外，还有与主题内容

无关的导航条、广告信息、版权信息以及相关链接

等噪音内容.有效地清除网页噪音并抽取网页正

文是提高基于

Web

的应用程序处理结果准确性

的一项关键技术，已成为基于

Web

的信息系统预

处理环节中一项必不可少的工作.

在较早的时候，一般都使用包装器来对网页

进行正文抽取，其基本思想就是针对特定的网站

来书写或者抽取相应的规则，因为同一类型数据

源的网页结构都是类似的.该方法只能处理一种

特定的数据源，而且对网页结构的依赖性强，这种

方法最大的缺点就是规则抽取的工作量大，规则

维护的代价高，无法适应网页结构的变化，可扩展

性差

、

此外，有大量研究是针对网页内容本身进行

分析的.文献

、

提出了一种基于网页结构化信

息的正文抽取方法，该方法先将网页表示成一棵

收稿日期:

2007-08-03;

修回日期:

2009-05-1

基金项目

国家自然科学基金资助项目

(70671016).

作者简介.宋明秋.

0967-)

，女，博士，副教授.

树，然后通过遍历这棵树的<

table>

结点来获取网

页正文，不过如何去衡量正文并没有一个准确的

方法，并且阔值也很难确定.文献

[5J

提出了一种

根据网页的视觉化特征来提取网页正文的方法，

主要利用字体的大小、布局信息、背景颜色等一些

视觉信息，根据一定的规则将页面划分成视觉块.

这种方法很好地模拟了人们观察网页的习惯，当

人去观察一个网页时，因为正文比较突出、醒目，

并且通常在网页的正中间，所以可以很轻松地找

到.不过，由于视觉特征的复杂性，很难找到一个

通用的规则集.文献【

、

提出了一种将网页中字

符个数与超链接个数的比值作为权值衡量正文内

容的方法.文献

[8J

提出了一种基于统计的网页正

文抽取方法，将中文文字个数作为衡量正文内容

的标准，它首先假设中文字符在网页正文中出现

的次数要比在其他部分出现的次数多得多.可是

在实际过程中，这种方法错误率太高，无法作为一

种通用的方法.

本文在研究已有网页信息提取方法的基础

上，针对中文网页布局的特点，提出一种新的网页

分析方法.该方法先将网页内容结构化表示，即将

HTML

文件规范化以构造

HTML

树，并提取结

构树中的文字内容及其链路结构;然后根据中文

句号的出现频率来确定一部分正文内容;最后根据

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38545923

粉丝: 4
资源: 933

基于中文标点和HTML树的新网页正文抽取方法

一种基于扩展DOM树的Web数据自动抽取方法 (2009年)

idea中快捷键抽取方法

kettle抽取html网页数据抽取

idea将代码抽取成方法

有条件的随机抽取随机抽取方法

通用信息抽取 UIE

idea抽取方法 快捷键

关系抽取方法 nlp

PaddleNLP开源的通用信息抽取模型UIE为什么支持零样本抽取

idea抽取公共方法快捷键

最新资源

idea抽取方法快捷键