DOM树节点路径相似度：高效网页正文抽取技术

91 浏览量更新于2024-09-02 收藏 198KB PDF 举报

"基于网页DOM树节点路径相似度的正文抽取" 网页正文抽取是信息提取领域的一个关键任务，其目的是从杂乱无章的HTML网页中提取出主要的文本内容，以便进行后续的数据处理和分析。本文提出的正文抽取方法是基于DOM（Document Object Model）树节点路径的相似度。DOM是一种标准的表示XML和HTML文档结构的模型，它将网页内容转化为一棵树形结构，每个节点代表页面中的一个元素，如标题、段落、链接等。在该方法中，首先利用同网站下网页结构的一致性来去除噪声，也就是非正文的元素，如广告、导航栏和侧边栏。这些元素通常在DOM树中具有固定的结构和位置。通过分析DOM树中正文内容通常所在的位置和路径特征，可以识别出这些节点，并排除它们。接着，利用节点路径的相似度来判断哪些节点更可能是正文内容。正文节点在DOM树中的路径通常具有一定的规律性，例如位于深层的节点可能更可能是正文内容，因为它们通常远离页面的框架元素。为了验证该方法的有效性，作者进行了大规模的实验，选取了1000个不同类型的中文新闻网站的网页进行测试。实验结果显示，这种方法对于97.6%的网页都能有效地去除大部分噪声，保留了正文内容的完整性。在评估指标上，该方法获得了93.30%的准确率和95.59%的召回率，这表明在大多数情况下，它能正确地识别并抽取正文。更重要的是，这种方法具有良好的泛化能力，能够适应不同类型的网页，这对于实际应用来说是非常重要的，因为互联网上的网页结构千差万别。关键词：DOM树；正文抽取；信息提取；数据挖掘 0引言部分提到，随着互联网的迅速发展，网页已成为信息获取的主要渠道，但海量信息的处理需要自动化手段。现有的正文抽取方法各有优缺点，如基于布局和视觉的方法易受页面样式影响，基于语义单元和机器学习的方法虽准确性高但复杂，而基于统计的方法则通用性好但精确度不足。本文提出的DOM树节点路径相似度方法旨在结合这些方法的优点，提供一种更高效、适应性更强的正文抽取方案。基于DOM树节点路径相似度的正文抽取方法通过利用网页结构的共性和节点路径的特性，实现了高精度和高召回率的正文抽取。这种方法不仅减少了人工干预的需求，提高了信息提取的效率，还能够适应不同类型的网页，对于互联网数据挖掘和处理具有重要价值。未来的研究可以进一步优化节点路径的相似度计算策略，以提高抽取效果，并可扩展到其他语言和更复杂的网页结构。

基于网页基于网页DOM树节点路径相似度的正文抽取树节点路径相似度的正文抽取

由于人工抽取网页信息效率低、成本高，因此根据对大量网页结构的观察，提出基于网页文档对象模型DOM树

节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容，然

后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实

验，结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性，正文抽取结果有

93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。

　　潘心宇1，陈长福2，刘蓉1，王美清1

　　（1.福州大学数学与计算机科学学院，福建福州 350108;2.福建库易信息科技有限责任公司，福建福州 350000）

摘要：摘要：由于人工抽取网页信息效率低、成本高，因此根据对大量网页结构的观察，提出基于网页文档对象模型

　　关键词：关键词：DOM树；

0引言引言

　　随着互联网技术的快速发展，网页成为人们获取信息的重要来源之一。然而，网页上的数据是海量的，单纯依靠人工手段

获取网页信息效率较低，因此需要借助软件对网页信息进行全部或部分地自动过滤和分类。目前常用的自动网页信息获取方法

是正文内容抽取，该类方法是一种被广泛应用于互联网数据挖掘的技术，它的目标是从互联网庞大的数据中提取有意义的和有

价值的信息，可以用于信息搜索、Web文档分类、数据挖掘、机器翻译、文本摘要等。

　　常用的正文抽取方法可以分为以下4类：（1）传统的归纳总结正文抽取方法：根据一些信息模式，从特定的信息源中提

取相关内容［1］。此方法效率较低、需要较多的手动操作，独立性以及适应性较差。（2）基于网页布局［2］和视觉［3-

4］的正文抽取：该方法很大程度上依赖于网页的风格或者结构。当涉及到有更复杂的嵌套关系的网页时会出现偏差。（3）

基于语义单元［5］或者数据挖掘、机器学习［6］的正文抽取：通过使用分词和文本分类，虽然准确率有所提高，但是解决

方案比较复杂。（4）基于统计的正文抽取［7］：该方法简单而且具有更好的通用性，但是较低的精确度限制了它的进一步

应用。此外，它不能处理短文本、表格文本以及有较长评论的文本。

　　FINN A等［8］提出正文抽取(Body Text Extrac tion,BTE) 算法，将网页中的文字和标签作为序列，抽取序列中文字最多

和标签最少的连续的内容。PINTO D等［9］提出文档斜率曲线(Document Slope Curves,DSC) 算法，在FINN的方法的基础

上使用窗口方法实现多正文抽取。MANTRATZIS C等［10］提出链接定额过滤(Link Quota Filters,LQE) 算法，通过网页结构

分析，分离正文和导航目录等超链接。DEBNATH S等［11］提出特征提取器(Feature Extractor,FE)算法，选择包含有一定特

征的文本、图像而且重复出现次数较少的内容块。GOTTRON T等［12］提出正文代码模糊(Content Code Blurring,CCB)算

法，选择相同格式的长文本作为网页的正文。刘利等［13］提出基于多特征融合的网页正文信息抽取，从网页的多个特征和

设计习惯入手定位正文位置。王利等［14］提出基于内容相似度的正文抽取，根据树节点中文本内容与各级标题的相似度判

定小块文本信息的有效性，由此进行网页清洗和正文抽取。

　　分析网页信息会发现，网页中包含大量与网页主题无关的噪声内容，如广告链接、导航栏、版权信息等。在正文抽取过程

中，这些网页噪声会影响抽取效果，因此需要通过去噪方式对网页进行预处理。常用的网页去噪方法有：

　　YI L等［15］提出用风格树（Style Tree,ST）来表达网页的结构和内容特征，出现相同特征次数多的部分更有可能是噪声

数据。GIBSON D等［16］提出Shingle和模板Hash方法。这两种算法的缺点是计算量较大。WANG J Y等［17］提出的主题

数据提取(Datarich Section Extraction,DSE)算法，该算法通过从上到下比较两棵相同模板的文档对象模型 (Document Object

Model,DOM)树，去除树中相同的部分，剩下的部分作为网页的主题内容。

　　根据对现有方法的总结以及对网页特征的分析，本文提出基于DOM树节点路径相似度的正文抽取方法，对于不同结构的

网页都有较好的适应性，对来源于新浪、网易、搜狐、腾讯等大型门户网站以及多家各类型网站的1 000个网页进行了抽取实

验，实验结果表明本文方法有较好的抽取准确度。

1网页去噪网页去噪

　　目前，大部分网页的源代码是以超文本标记语言 (Hyper Text Markup Language，HTML)的形式存在的。对于同一网站下

的不同网页，它们由同一个模板生成，因此这些网页具有相似的结构，而这些网页中相同的部分就是噪声内容，它们与网页所

要表达的主题没有关系。本文在DSE算法的基础上，首先将与网页无关的标签及相关代码删除，然后通过将某个网页与同一

网站下的2个或多个网页进行对比去除相同部分，从而达到去除噪声的目的。

　　1.1删除无关的标签删除无关的标签

　　网页源代码包含了以不同的标签括起来的各段代码。例如，网页标题和一些修饰性代码主要嵌在标签<head>和</head>

的内部，网页主题内容包含在<body>和</body>标签之间，客户端脚本则包含在<script>和</script>标签之间。通过对大量

HTML文本的研究和分析，发现以下几类标签与网页主题内容的相关性很低，在对比网页之前可以将这部分内容过滤掉以提高

后续的对比速度。

　　<head>与</head>标签以及它们之间的内容。

　　<script></script>标签。该标签中内容的主要功能是定义客户端脚本，与网页所要表达的内容关系不大，也可以将其删

除，类似地，<noScript></noScript>也可删除。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38673694

粉丝: 3
资源: 949

DOM树节点路径相似度：高效网页正文抽取技术

BBS评论信息抽取：基于网页分块与深度加权DOM树相似度

XML文档的DOM解析，可以提取文档的特征值

基于路径下标树的自动化网页数据抽取方法研究

动态Web信息抽取：基于网页聚类与DOM分析

PHP语言基础知识详解及常见功能应用.docx

公司金融课程期末考试题目

适用于 Python 应用程序的 Prometheus 检测库.zip

DFC力控系统维护及使用

Spring Data的书籍项目，含多数据库相关内容.zip

2019-2023GESP,CSP,NOIP真题.zip

最新资源