视觉特征驱动的网页正文高效提取方法

4星 · 超过85%的资源需积分: 10 26 浏览量更新于2024-09-16 收藏 377KB PDF 举报

随着互联网的飞速发展，信息爆炸的时代使得用户面临海量网页内容的挑战。为了高效获取所需信息，基于视觉特征的网页正文提取方法的研究显得尤为重要。本文由安增文和徐杰锋两位作者，来自中国石油大学(华东)计算机与通信工程学院，他们针对这一问题提出了一种创新性的解决方案。该研究的核心步骤包括以下几个方面： 1. **网页分块**：首先，作者利用网页的视觉特征，如颜色、布局、字体大小等，结合DOM树（Document Object Model）的结构特性，将整个网页划分为若干个块。视觉特征有助于识别文本区域与其他非文本元素之间的区别，例如广告、图片、侧边栏等。 2. **噪音块剔除**：通过逐层分块的方式，作者采用一种递归策略，逐层分析每个块的视觉特征，判断其是否与正文相关。如果某个块与正文关联性弱或不相关，如链接、广告等，就将其从待处理的块列表中删除，直至无法再找到可以删除的块为止。 3. **语义块提取**：保留下来的块被认为是与正文内容更紧密相关的。作者运用VIPS算法（Visual Information Processing System）进一步处理这些块，以获得具有完整语义的块。VIPS算法可能是一种专门针对视觉信息处理的技术，它能够更精确地定位和识别正文区域。 4. **正文内容提取**：最后，通过对语义块的进一步处理，如去除HTML标签，提取纯文本内容，从而得到最终的正文信息。这种方法确保了提取出的内容与用户查询意图更加匹配，提高了信息检索的效率和质量。试验结果表明，这种基于视觉特征的网页正文提取方法是切实可行的。它不仅能够有效减少无关噪音，提高信息提取的准确性，而且适应于互联网信息的快速变化，对于大规模网页信息处理具有重要意义。关键词“页面分块”、“信息提取”和“视觉特征”揭示了研究的核心关注点，对于那些寻求提高信息检索技术的人来说，这是一种有价值的研究成果。

基于视觉特征的网页正文提取方法研究

安增文。徐杰锋

（中国石油大学（华东）计算机与通信工程学院，山东东营２５７０００）

摘

要：利用网页的视觉特征和ＤＯＭ树的结构特性对网页进行分块。并采用逐层分块逐层删减

的方法将与正文无关的噪音块删除，从而得到正文块。对得到的正文块运用ＶＩＰＳ算法得到完整的语

义块，最后在语义决的基础上提取正文内容。试验表明。这种方法是切实可行的。

关键词：页面分块；信息提取；视觉特征

中图分类号：ＴＰ３９１

文献标识码：Ａ

Ｔｈｅ

ｒｅｓｅａｒｃｈ

ｏｎ

ｖｉｓｉｏｎ．——ｂａｓｅｄ

Ｗｅｂ

ｐａｇｅ

ｉｎｆｏｒｍａｔｉｏｎ

ｅｘｔｒａｃｔｉｏｎ

ａｌｇｏｒｉｔｈｍ

ＡＮ

Ｚｅｎｇ

Ｗｅｎ，ＸＵ

Ｊｉｅ

Ｆｅｎｇ

（Ｃｏｌｌｅｇｅ

ｏｆ

Ｃｏｍｐｕｔｅｒ＆Ｃｏｍｍｕｎｉｃａｔｉｏｎ

Ｅｎｇｉｎｅｅｒｉｎｇ，Ｃｈｉｎａ

Ｕｎｉｖｅｒｓｉｔｙ

ｏｆ

Ｐｅｔｒｏｌｅｕｍ，Ｄｏｎｇｙｉｎｇ

２５７０００，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｏ

ｇｅｔ

ｔｈｅ

ｕｓｅｆｕｌ

ｉｎｆｏｒｍａｔｉｏｎ

ｂｌｏｃｋｓ，ｔｈｉｓ

ｐａｐｅｒ

ｆｉｒｓｔ

ｓｅｇｍｅｎｔｅｄ

ｔｈｅ

Ｗｅｂ

ｐａｇｅ

ｉｎｔｏ

ｂｌｏｃｋｓ

ｗｉｔｈ

ｉｔｓ

ｖｉｓｕａｌ

ｆｅａｍｍｓ

ａｎｄ

ｉｔｓ

ＤＯＭ

ｔｒｅｅ’ｓ

ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ，ａｎｄ

ｔｈｅｎ

ｄｅｌｅｔｅｄ

ｔｈｅ

ｎｏｉｓｅ

ｂｌｏｃｋｓ．Ｔｈｉｓ

ｉｓ

ａ

ｍｅｕｒｓｉｖｅ

ｐｒｏｃｅｓｓ

ｕｎｔｉｌ

ｎｏ

ｂｌｏｃｋ

ｃａｌｌ

ｂｅ

ｄｅｌｅｔｅｄ．

Ｔｈｅｎ

ｈａｎｄｌｅｄ

ｔｈｅ

ｒｅｓｅｒｖｅｄ

ｂｌｏｃｋｓ

ｗｉｔｈ

ｔｈｅ

ＶＩＰＳ

ａｌｇｏｒｉｔｈｍ

ｔｏ

ｇｅｔ

ｔｈｅ

ｓｅｍａｎｔｉｃ

ｂｌｏｃｋｓ．Ａｔ

ｌａｓｔ，ｇｏｔ

ｔｈｅ

ｔｅｘｔ

ｃｏｎｔｅｎｔ

ｂｙ

ｈａｎｄｌｉｎｇ

ｔｈｅ

ｓｅｍａｎｔｉｃ

ｂｌｏｃｋｓ．Ｅｘｐｅｒｉｍｅｎｔ

ｓｈｏｗｓ

ｔｈａｔ

ｔｈｉｓ

ｍｅｔｈｏｄ

ｉｓ

ｆｅａｓｉｂｌｅ．

Ｋｅｙ

ｗｏｒｄｓ：ｐａｇｅ

ｓｅｇｍｅｎｔａｔｉｏｎ；ｉｎｆｏｒｍａｔｉｏｎ

ｅｘｔｒａｃｔｉｏｎ；ｖｉｓｕａｌ

ｆｅａｔｕｒｅｓ

随着互联网的迅速发展。互联网上的信息量以几何

级数倍增。人们需要在海量的信息库中查找自己需要的

信息。虽然搜索引擎能帮助人们快速地搜索到想要的信

息，但每个网页除了正文内容外还掺杂了很多用户不需

要的信息。例如，为了方便用户浏览而加入的导航链接、

出于商业利益而加入的广告链接、版权信息以及相关主

题阅读推荐链接等。这些信息掺杂在网页中，影响了用

户对主题内容的浏览。因此，如何从包含大量噪音内容

的网页中将正文信息准确、完整地提取出来成为众多研

究者研究的课题。

１相关工作

在Ｗｅｂ信息抽取领域，已经有大量的研究工作，包

括ＨＴＭＬ结构分析方法（如ＸＷＲＡＰ和Ｌｉｘｔ０１、基于自然

语言处理的方法（如ＳＲＶ和ＷＨＩＳＫ）、机器学习方法等。

但是这些方法都是针对特定网站或特定格式的，不具有

通用性，并且不能完成自动抽取。众多的Ｗｅｂ网页正文

信息提取方法都有各自的优缺点。

参考文献【１１采用机器学习的方法提取网页正文信

３８

息。此方法通过对网页集的学习，不断生成新的模板，从

而建立模板库。提取信息时，查找对应的模板，利用模板

中主题结点信息．直接定位主题信息块，快速提取主题

信息。虽然此方法采用自动抽取的方式，其智能化程度

也在一定程度上方便了用户的使用，但对于一个新的网

页。若找不到匹配的模板，此方法就不适用了。而且随着

模板数量的增加，模板库的维护工作也变得越来越复杂。

从页面视觉特征的角度对网页结构进行挖掘也是

很有效的途径。典型的代表就是微软亚洲研究院提出的

ＶＩＰＳｆＶｉｓｉｏｎ—ｂａｓｅｄ

Ｐａｇｅ

Ｓｅｇｍｅｎｔａｔｉｏｎ）算法１２１。它利用背

景颜色、字体颜色和大小、边框、逻辑块和逻辑块之间的

间距等视觉特征，通过制定相应的规则把页面分成了各

个视觉信息块。这能在一定程度上满足复杂页面对算法

的要求，但由于视觉特征的复杂性，运用的启发知识往

往较为模糊，需要人工不断地总结调整规则，因此如何

保证规则集的一致性是一大难点。

有许多研究者考虑使用ＨＴＭＬ标签信息来划分页

面。其中，中科院计算所软件研究室提出利用ＴＡＢＬＥ标

《微型机与应用》２０１０年第３期

　万方数据

下载后可阅读完整内容，剩余4页未读，立即下载

小熊仙仙

粉丝: 15
资源: 8

视觉特征驱动的网页正文高效提取方法

基于分块的网页正文信息提取算法研究

基于HTML语义分析的网页正文提取.pdf

基于统计的网页正文信息抽取

基于元搜索的网页消重方法研究.pdf

论文研究-面向分类的网页主题特征提取.pdf

基于DOM树与视觉特征的网页信息高效抽取方法

网页正文提取：基于文本与符号密度的高效算法

网页正文提取技术：现状与展望

网页视觉质量评估：基于计算美学的方法

局部特征提取算法在网页色情图像识别中的比较研究

最新资源