通用网页正文抽取：行块分布函数的创新算法

下载需积分: 0 | PDF格式 | 1.15MB | 更新于2024-08-05 | 175 浏览量 | 举报

本文档探讨的是"基于行块分布函数的通用网页正文抽取算法"，作者陈鑫来自哈尔滨工业大学社会计算与信息检索研究中心（HIT-SCIR）。网页正文抽取在Web信息检索中扮演关键角色，尤其对于大规模、多样化的HTML结构，传统的正则表达式方法往往难以应对。该研究旨在解决如何高效、准确地从网页中抽取正文，同时保持系统的通用性，避免了复杂的DOM树构建和病态HTML带来的问题。作者创新性地将网页正文抽取问题视为寻找页面的行块分布函数，这种方法不依赖于HTML标签，而是通过构建线性时间复杂度的行块分布函数图，从而实现快速、精确的定位。这种方法强调了简洁性和效率，算法实现仅需不足百行代码，体现了"大道至简"的理念。系统设计有在线和离线两种模式。在线模式下，用户可以通过输入包含待抽取正文URL的文本文件来进行操作。正文抽取有助于提升信息检索系统的性能，如提高用户查询结果的相关性，减少去重、分类和摘要的误差，因为在信息检索过程中，正文内容是核心，去除无关的噪声信息（如导航、广告和脚本）能更好地满足用户需求。文章的核心技术包括： 1. 行块分布函数转换：将正文抽取转化为数学上的行块分布函数，使得处理过程更为抽象和精准。 2. 非标签依赖抽取：避免了对HTML标签的直接依赖，提高了处理复杂HTML结构的灵活性。 3. 统计与规则结合：利用统计方法增强系统的通用性，确保在多种情况下都能准确识别正文。 4. 高效算法设计：算法实现简洁，通过线性时间复杂度，提升了整体的执行速度。这篇论文提供了一种新颖的策略，将复杂的网页正文抽取任务简化，适用于不同类型的网页，对于提高Web信息检索系统的实用性和效率具有重要意义。

基于行块分布函数的通用网页正文抽取

陈鑫 (Xin Chen)

哈尔滨工业大学社会计算与信息检索研究中心（HIT-SCIR） http://ir.hit.edu.cn/

Google Code 开源网址址: http://code.google.com/p/cx-extractor/

新浪微博: http://weibo.com/cx3180 腾讯微博: http://t.qq.com/cx3180

欢迎意见和建议: xchen@ir.hit.edu.cn

前言

对于 Web 信息检索来说，网页正文抽取是后续处理的关键。虽然使用正则表

达式可以准确的抽取某一固定格式的页面，但面对形形色色的 HTML，使用规则

处理难免捉襟见肘。

能不能高效、准确的将一个页面的正文抽取出来，并做到在大规模网页范围

内通用，这是一个直接关系上层应用的难题。

采用建 DOM 树的方法虽然直观也有效，但建树和搜索是多项式时间，且饱

受病态 HTML 的痛苦；采用机器学习或数据挖掘的方法未免有些小题大做。

本算法首次将网页正文抽取问题转化为求页面的行块分布函数，并完全脱离

HTML 标签。通过线性时间建立行块分布函数图，由此图可以直接高效、准确的

定位网页正文。同时采用统计与规则相结合的方法来解决系统的通用性问题。

本系统的设计与实现只为践行“简单的事情总应该用最简单的办法来解决”这

一亘古不变的道理。整个算法实现不足百行代码。我却相信：量不在多，在法。

一、选题背景

正文抽取在信息检索系统中有重要的作用。大多数网页中除了包含有用信

息（正文）外还包含许多噪声信息，例如网站的导航信息、相关链接和广告以及

一些脚本语言等。如果一个信息检索系统是基于网页正文内容进行的，那么当用

户输入查询关键词后，系统只是查找出正文部分和用户查询匹配的网页返回给用

户，这样使得检索出的网页与用户需要更加匹配，从而使用户可以更快地找到自

己所需的内容。另外，基于正文的网页去重、分类聚类以及文摘等的结果都会更

加准确。

如果把完成一个完整通用的信息检索系统类比为烹制一顿美味佳肴，分词

看做是切菜，那么正文提取则是切菜前必需的原料级加工——择菜。因为再出色

的厨师也无法将带有黄叶和泥巴的菜做成佳肴，所以正文提取的任务就是把菜择

好。

二、系统功能

本系统分在线和离线两种运行方式。

在线状态下，输入是一文本文件，里面包含要进行正文抽取的 URL，每个 URL

单独一行；离线状态下，输入是一文件夹，里面包含了所有要进行正文抽取的

HTML 源文件。

下载后可阅读完整内容，剩余8页未读，立即下载

乔木Leo

粉丝: 32

通用网页正文抽取：行块分布函数的创新算法

C#实现基于行块分布函数的网页正文抽取技术

行块分布函数实现的网页正文抽取算法研究

通用网页正文抽取：行块分布函数驱动的高效解决方案

基于行块分布函数的通用网页正文抽取算法

extractor:算法实现：基于行块分布函数的通用网页正文抽取算法

Python实现基于行块分布函数的通用网页正文抽取算法优化.zip

基于行块分布函数的通用网页正文抽取算法优化，Python实现+源代码+文档说明

基于行块分布函数的通用网页正文抽取

易语言实现通用网页正文抽取算法源码解析

改进的中文静态网页新闻正文自动抽取算法_何春辉1

最新资源