没有合适的资源?快使用搜索试试~ 我知道了~
可视化网页结构比较技术及其实现
理论计算机科学电子笔记235(2009)3-18www.elsevier.com/locate/entcs一种可视化的网页比较丹尼尔·罗梅罗1,2瓦伦西亚技术大学Camino de Veras/n,Apdo 22012,46071瓦伦西亚,西班牙。摘要尽管WWW呈指数级增长,语义Web也取得了成功,但目前对处理Web上发现的信息的支持有限。在这种情况下,支持有效信息检索的技术和工具变得越来越重要。 本文提出了一种识别和比较Web页面视觉结构信息的技术,该技术基于HTML标记集的分类,并以每个标记在整个结构中的视觉效果为指导的页面。这使我们能够将网页转换为规范化的形式,其中html标签组被映射到一个共同的规范。 计算两个不同页面之间距离的度量为还介绍然后,通过压缩过程,我们也能够降低识别相似结构的复杂性以及比较两个网页之间的差异时的处理时间。最后,我们简要介绍了我们的工具的原型实现,以及几个例子,证明了我们的方法的可行性保留字:网页比较,视觉结构,网页压缩.1介绍HTML的目的是以一种人类可以理解的方式将结构和信息内容可视化。使用HTML的主要问题是它的语义内容,页面结构和布局的混合[9]。今天的万维网是一个巨大的信息库。 典型的情况下,一个合适的概念的相似性的网页是可取的包括:搜索引擎,测试工具,文档包装,检测重复的网页,和Web数据挖掘。给定用于从web检索一条信息的查询,对该信息的搜索通常涉及三个方面:1这项工作得到了欧盟(FEDER)和西班牙MEC TIN 2007 -68093-C 02 -02项目、UPV PAID-06-07项目和Generalitat Valenciana GV 06/285的部分支持。丹尼尔·罗梅罗还得到了FPI-MEC赠款BES-2008-004860的支持2电邮地址:{alpuente,dromero}@ dsic.upv.es1571-0661/© 2009 Elsevier B. V.根据CC BY-NC-ND许可证开放访问。doi:10.1016/j.entcs.2009.03.0024M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235(2009)3网页、页面结构布局和查询模式。然而,当前工具几乎没有考虑的一个额外因素是两个不同的代码片段是否可以表达相同的视觉感受。这种视觉相似性的量化可能导致使用文档模式作为查询来查询文档数据库。 这个查询的答案可以是数据库中最(视觉上)相似的文档,也可以是预定义集合中最相似的文档。最后一种类型的答案可以用作分类方法[5]。此外,从搜索引擎优化的角度来看,网页的视觉特征的重要性正在增加当我们查看网页时,我们并不知道底层的HTML代码,但只能区分由分组、列、行和数据给出的视觉结构。这向我们提出了一个想法,即将“网页的视觉结构”定义为在这项工作中,我们开发了一种技术,网页比较,认为它的视觉结构。 首先,我们提供了一个HTML代码的翻译,由一些HTML标记给出的Web页面的可见结构。 然后,我们正式化的两个压缩转换的网页。水平压缩将那些代表重复结构的子项压缩在一起。垂直压缩缩小了那些在视觉上不影响感知结果的标签链。在应用网页压缩后,我们得到一个不可约的术语,表示“本质”的网页有关其视觉方面。最后,由于Web页面具有树状结构,我们定义了一个基于两棵树之间的“编辑距离”的两个页面相似性的定量度量。相关工作。虽然最近有其他的研究来定义比较网页的新技术[3,8,11,13,17],但只有少数研究涉及识别其视觉结构信息。给定一个从web上检索一条信息的查询,对该信息的搜索通常涉及三个方面:Web页面中的文本信息、页面结构布局和查询的模式。关于这三个因素如何影响网页相似度的研究在[13]中提出。关于页面结构,作者定义了用于对标签进行分组的类,然后比较基于计算给定页面中每个类的元素数量。然而,每个元素的视觉方面都没有在工作中考虑。在[8]中,Web页面被转换为称为“HTML-string”的标签序列。然后,两个字符串之间的距离测量确定两个页面的相似度。这种比较是按在[11]中,提出了一种视觉比较的方法。 该方法基于图像处理技术,将页面图像分割成若干区域,并将分割结果以图形的形式表示。然后通过图匹配算法计算相似度。与我们不同的是,基于标签的结构不被考虑。最后,一种用于M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235(2009)35的]|≥[|≡T ∈ T ∈ T不识别结构在[3]中给出。该方法是基于自动构建一个合适的包装,包括检测重复序列的标签,并检测重复模式的字符串。与我们更密切相关的工作是[17],它基于检测页面内部标签的视觉相似性来分析页面的结构。与我们自己的工作的主要区别在于如何执行标签的分析。我们的方法是自[17]标签的分析是自下而上执行的纸的计划。本文的结构如下。第2节回顾了一些标准的概念,并介绍了网页描述。在第3节中,我们介绍了HTML代码的转换,使我们能够获得Web页面的清晰视觉结构。第4节形式化的Web页面的压缩技术。这种技术将那些代表重复结构的子项打包在一起,并缩小那些在视觉上不连贯的标签链。在第5节中,我们基于树编辑距离算法定义了两个网页之间的相似性度量[7,18]。第6节描述了我们的原型实现的主要特性。第7节总结并讨论了未来的工作。2预赛在本节中,我们简要回顾了本文中使用的基本概念和术语。我们把一组有限的符号称为字母表。表示一组函数符号(也称为运算符)或签名。我们考虑如在[4]中的变元签名(即,其中的符号没有固定的元数)。术语通常被看作是有标签的树。τ(τ)表示建立在τ上的项代数。表示对象之间的语法相等。我们还需要max(x,y)和n,max(x,y)=if(x,y)x,elsey;n是大于或等于n的最小整数。2.1网页描述在这项工作中,Web页面是XML [14]或XHTML [15]文档,我们假设它们是格式良好的,因为有很多程序和在线服务可以用来验证XHTML/XML语法并执行链接检查(例如[10,16])。让我们考虑两个字母T和ag。我们用ext表示集合T。 一个对象标签被称为标签元素,而一个元素wext被称为文本元素。 由于Web页面具有树状结构,因此它们可以直接转换为术语代数τ(TextTag)的普通术语。请注意,XML/XHTML标记属性可以被视为公共标记元素,因此以相同的方式进行翻译6M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235(2009)3 body>(一)(b)第(1)款<表边框=“0”><中文(简体) b>我最喜欢的作家/font><联系我们<中文(简体)<表边框=“0”><中文(简体)<联系我们Jos'eHernandez
<联系我们 Miguel de Cervantes
<联系我们豪尔赫·路易斯· 博尔赫斯
<联系我们Paulo Coelho br/><联系我们<联系我们<联系我们由ELP集团提供技术支持<联系我们我最喜欢的书/h2>
),而图1(b)使用列表(标签
<联系我们 Miguel de Cervantes
<联系我们豪尔赫·路易斯· 博尔赫斯
<联系我们Paulo Coelho br/><联系我们<联系我们<联系我们由ELP集团提供技术支持<联系我们