可视化网页结构比较技术及其实现

187 浏览量更新于2023-12-12 收藏 760KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

理论计算机科学电子笔记235（2009）3-18www.elsevier.com/locate/entcs一种可视化的网页比较丹尼尔·罗梅罗1，2瓦伦西亚技术大学Camino de Veras/n，Apdo 22012，46071瓦伦西亚，西班牙。摘要尽管WWW呈指数级增长，语义Web也取得了成功，但目前对处理Web上发现的信息的支持有限。在这种情况下，支持有效信息检索的技术和工具变得越来越重要。本文提出了一种识别和比较Web页面视觉结构信息的技术，该技术基于HTML标记集的分类，并以每个标记在整个结构中的视觉效果为指导的页面。这使我们能够将网页转换为规范化的形式，其中html标签组被映射到一个共同的规范。计算两个不同页面之间距离的度量为还介绍然后，通过压缩过程，我们也能够降低识别相似结构的复杂性以及比较两个网页之间的差异时的处理时间。最后，我们简要介绍了我们的工具的原型实现，以及几个例子，证明了我们的方法的可行性保留字：网页比较，视觉结构，网页压缩.1介绍HTML的目的是以一种人类可以理解的方式将结构和信息内容可视化。使用HTML的主要问题是它的语义内容，页面结构和布局的混合[9]。今天的万维网是一个巨大的信息库。典型的情况下，一个合适的概念的相似性的网页是可取的包括：搜索引擎，测试工具，文档包装，检测重复的网页，和Web数据挖掘。给定用于从web检索一条信息的查询，对该信息的搜索通常涉及三个方面：1这项工作得到了欧盟（FEDER）和西班牙MEC TIN 2007 -68093-C 02 -02项目、UPV PAID-06-07项目和Generalitat Valenciana GV 06/285的部分支持。丹尼尔·罗梅罗还得到了FPI-MEC赠款BES-2008-004860的支持2电邮地址：{alpuente，dromero}@ dsic.upv.es1571-0661/© 2009 Elsevier B. V.根据CC BY-NC-ND许可证开放访问。doi：10.1016/j.entcs.2009.03.0024M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）3网页、页面结构布局和查询模式。然而，当前工具几乎没有考虑的一个额外因素是两个不同的代码片段是否可以表达相同的视觉感受。这种视觉相似性的量化可能导致使用文档模式作为查询来查询文档数据库。这个查询的答案可以是数据库中最（视觉上）相似的文档，也可以是预定义集合中最相似的文档。最后一种类型的答案可以用作分类方法[5]。此外，从搜索引擎优化的角度来看，网页的视觉特征的重要性正在增加当我们查看网页时，我们并不知道底层的HTML代码，但只能区分由分组、列、行和数据给出的视觉结构。这向我们提出了一个想法，即将“网页的视觉结构”定义为在这项工作中，我们开发了一种技术，网页比较，认为它的视觉结构。首先，我们提供了一个HTML代码的翻译，由一些HTML标记给出的Web页面的可见结构。然后，我们正式化的两个压缩转换的网页。水平压缩将那些代表重复结构的子项压缩在一起。垂直压缩缩小了那些在视觉上不影响感知结果的标签链。在应用网页压缩后，我们得到一个不可约的术语，表示“本质”的网页有关其视觉方面。最后，由于Web页面具有树状结构，我们定义了一个基于两棵树之间的“编辑距离”的两个页面相似性的定量度量。相关工作。虽然最近有其他的研究来定义比较网页的新技术[3，8，11，13，17]，但只有少数研究涉及识别其视觉结构信息。给定一个从web上检索一条信息的查询，对该信息的搜索通常涉及三个方面：Web页面中的文本信息、页面结构布局和查询的模式。关于这三个因素如何影响网页相似度的研究在[13]中提出。关于页面结构，作者定义了用于对标签进行分组的类，然后比较基于计算给定页面中每个类的元素数量。然而，每个元素的视觉方面都没有在工作中考虑。在[8]中，Web页面被转换为称为“HTML-string”的标签序列。然后，两个字符串之间的距离测量确定两个页面的相似度。这种比较是按在[11]中，提出了一种视觉比较的方法。该方法基于图像处理技术，将页面图像分割成若干区域，并将分割结果以图形的形式表示。然后通过图匹配算法计算相似度。与我们不同的是，基于标签的结构不被考虑。最后，一种用于M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）35的]|≥[|≡T ∈ T ∈ T不识别结构在[3]中给出。该方法是基于自动构建一个合适的包装，包括检测重复序列的标签，并检测重复模式的字符串。与我们更密切相关的工作是[17]，它基于检测页面内部标签的视觉相似性来分析页面的结构。与我们自己的工作的主要区别在于如何执行标签的分析。我们的方法是自[17]标签的分析是自下而上执行的纸的计划。本文的结构如下。第2节回顾了一些标准的概念，并介绍了网页描述。在第3节中，我们介绍了HTML代码的转换，使我们能够获得Web页面的清晰视觉结构。第4节形式化的Web页面的压缩技术。这种技术将那些代表重复结构的子项打包在一起，并缩小那些在视觉上不连贯的标签链。在第5节中，我们基于树编辑距离算法定义了两个网页之间的相似性度量[7，18]。第6节描述了我们的原型实现的主要特性。第7节总结并讨论了未来的工作。2预赛在本节中，我们简要回顾了本文中使用的基本概念和术语。我们把一组有限的符号称为字母表。表示一组函数符号（也称为运算符）或签名。我们考虑如在[4]中的变元签名（即，其中的符号没有固定的元数）。术语通常被看作是有标签的树。τ（τ）表示建立在τ上的项代数。表示对象之间的语法相等。我们还需要max（x，y）和n，max（x，y）=if（x，y）x，elsey;n是大于或等于n的最小整数。2.1网页描述在这项工作中，Web页面是XML [14]或XHTML [15]文档，我们假设它们是格式良好的，因为有很多程序和在线服务可以用来验证XHTML/XML语法并执行链接检查（例如[10，16]）。让我们考虑两个字母T和ag。我们用ext表示集合T。一个对象标签被称为标签元素，而一个元素wext被称为文本元素。由于Web页面具有树状结构，因此它们可以直接转换为术语代数τ（TextTag）的普通术语。请注意，XML/XHTML标记属性可以被视为公共标记元素，因此以相同的方式进行翻译6M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）3 body>（一）（b）第（1）款<表边框=“0”><中文（简体） b>我最喜欢的作家/font><联系我们<中文（简体）<表边框=“0”><中文（简体）<联系我们Jos'eHernandez
<联系我们 Miguel de Cervantes
<联系我们豪尔赫·路易斯· 博尔赫斯
<联系我们Paulo Coelho br/><联系我们<联系我们<联系我们由ELP集团提供技术支持<联系我们

我最喜欢的书/h2>
El Martin Fierro/li>
Don Quijote delaMancha/li>
Ficciones/li>
El Alquimista/li>
<联系我们（d）其他事项（c）第（1）款Fig. 1. 类似网页的例子3网页视觉结构当我们查看网页时，我们不会意识到下划线HTML代码，但只能分辨出它的视觉结构。然而，两段不同的HTML代码可以表达相同的视觉感受。让我们通过以下方式来说明这一点：一个相当直观的例子。例3.1考虑图1（a）和图1（b）中的网页。乍一看，这两个页面具有相似的外观，但是定义其结构的相应HTML代码非常不同。图1（a）使用表格（标签）定义M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）37），而图1（b）使用列表（标签
），分别参见图1（c）和图1（d）。例3.1说明了，为了在页面之间提供适当的比较，应该考虑每个HTML标记的视觉效果。在下面我们给出一个网页的抽象，它根据每个网页的视觉结构将其转换为一个规范的代表8M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）3--⎧∈ T <$TT T→trn（f（t，.，t））= α（f）n = 0∈ T<$T⎩3.1翻译翻译的基本思想是从页面中的HTML标记推断页面的视觉结构。在表1中，我们根据HTML标签产生的视觉效果对它们进行了分类。元素grp、col和row描述了Web页面图形结构的基本属性：grp对应于一个将其他元素分组的元素，col是一个划分为列的元素，row是一个划分为行的元素最后，元素文本表示Web页面中包含的具体数据请注意，在表1中，每个在视觉上不影响页面外观的文本或标签都被定义为文本。标签列表并不详尽，只是作为可视（类）标记HTML标记grptable，ul，html，body，tbody，div，p行tr、li、h1、h2、hr科尔TD文本否则表1 HTML标签让grp=grp，col，row，text作为抽象（可视）HTML标记的签名，其中grp，col，row和text中的每一个都可以被看作是根据表1中给出的分类的许多不同的具体HTML标记的将Web页面转换为代数τ（τV）的普通术语是很简单的。这是通过函数trn来实现的。定义 3.2 （translate）设f（t1，.， t n）τ（extag）是网页。translationtrn函数定义为：trn：：τ（TextTag）→τ（V）1Nα（f）（trn（t1），...， trn（t n）），否则其中，α：：（ext ag）V根据表1中给出的分类，将具体的HTML标记替换为相应的可视（类）标记。让我们通过一个例子来说明定义3.2例3.3设pageτ（extag）为描述图1（d）中HTML代码的项。翻译后的页面如图2所示。3我们使用一些最常见的HTML标签，这些标签通常在网页中找到，可以定义其结构。M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）39trn（page）=grp（grp（row（text），grp（row（text），row（ text ），row（ text ），row（text））））图二、图1（d）的网页翻译示例4网页压缩第3.1节中给出的翻译允许我们识别不同的HTML标签，从而获得一个清晰的（和简单的处理）Web页面的视觉结构。此外，翻译揭示了网页中出现的重复结构和那些在视觉上不影响页面视觉方面的标签链。在我们的方法中，网页的比较不依赖于给定类的子元素的具体数量，例如行，只要其中一些存在于文档中。在所考虑的文档包含单个列的情况下，我们通过“用完”其中一个标签来简化HTML代码在本节中，我们将为表示Web页面的术语提供两个压缩函数，它们可以显著减小每个单个页面的大小。水平压缩（hrz）将那些代表重复结构的子项打包在一起。垂直压缩（vrt）缩小了那些在视觉上不影响结果的标签链。首先，让我们介绍有标记项的概念，这将在下面的章节中使用4.1标记项为了避免在压缩网页后丢失信息，我们需要在应用压缩之前记录节点的数量。在下文中，我们考虑标记项代数τ（[N]<$V）的项，其中例如，考虑图3（a）的项。相应的标记项如图3（b）所示。子项请注意，水平压缩不是可交换的，因此（在图3（a）中）第一个子项行（文本）不能与最后两行打包在一起。当没有混淆时，我们只写[1]grp（[2]row（[1]text））=grp（[2]row（text））。在下文中，我们说两个标记项相等，如果对应GRPGRP行GRP文本行行行行文本文本文本文本10M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）3GRP行行文本文本文本文本文本文本文本GRP行行[2]第五章：GRP[2]行[7]正文GRP行Col行行文本文本文本文本[1]GRP[1]行[1]列[2]行[1]text [1]text [1]text(a)（b）第（1）款图三. 标记代数（未标记）项相等。符号中[r1]fv[r2]gifg两棵标记树之间的相等性定义如下。令t= f（t1，...，t n），s=g（v1，.，v n）∈τ（[N]<$V）是两棵标记树。然后tV sifV g和 t iV vi，1≤i≤n函数符号之间的等价性是由标签是否由相同的视觉标签抽象的事实给出的（见3.1节）。给定函数符号f和g，f<$$>Vgi <$α（f）<$α（g）。4.2水平压缩为了使Web文档具有统一的风格，在实践中很常见来重复一些代码重复结构的另一个常见用法是表示元素列表（例如，“一个图书列表”）。在这些情况下，重复的结构通常会降低对网页的视觉相似性的比较的分析速度。在下文中，我们提出了一个项的压缩函数，它允许我们克服这两个缺点。让我们举一个例子。例4.1给定图4（a）中的项，图4（b）中显示了相关的标记项。(a)(b)（c）第（1）款图四、N项压缩M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）311≡ˆˆˆjoin：：τ（[N]V）×τ（[N]V）×N×N×N→τ（[N]V）的]|然而，进一步压缩将是可能的，如图4（c）所示。为了在不丢失有关页面结构的有意义的信息的情况下将一些子术语打包在一起，我们可以区分几种替代方案。(i) 子项的总数：grp（[2]row（[7]text））或grp（[2]row（[2]text，[5]text））。(ii) 仅对叶的数量求和：grp（row（[7]text））。(iii) 求出根的个数和叶的近似个数之和grp（[2]row（[4]text））。让我们分析一下上面的每一个选项，考虑到原始术语中的节点数量（见图4（a））：1个grp节点，2个行节点和7个文本节点。(i) 这个简单的解决方案并不保留原来的节点数。在这个例子中，我们将得到：1个grp节点，2个行节点和14个文本节点（每行7个）（见图4（c））。(ii) 在这种情况下，压缩不考虑页面的视觉结构，该结构最初由两行组成(iii) 这是一种更保守的压缩，以及节点的近似数量。在这个例子中，我们get：1个grp节点，2个行节点，8个文本节点（每行4个）。这可以被看作是原始节点数的更精确的定义 4.2 （连接项）设 t=[r1] f （ t1 ， ... ， t n ）， s=[r2] f （ v1 ， . ， v n ） ∈τ（[N]<$V）是两项使得t<$Vs。然后，t和s之间的连接定义如下：join：：τ（[N]<$V）×τ（[N]<$V）→τ（[N]<$V）join（t，s）=join（t，s，1，1，1）其中辅助函数join由y给出join（t，s，k1，k2，p）=join⎪⎩[m]f n= 0（1）[m] f（join（t1，v1，r1，r2，m），.，n> 0（2）join（t n，v n，r1，r2，m））其中m =[（r1<$k1+r2<$k2）/p|请注意，为了获得最大的重复次数，我们使用整数除法并向上舍入。粗略地说，定义4.2计算标记，即，通过使用其父节点的新值和旧值，让我们通过一个例子来说明这一点12M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）3≥∈⎧⎪⎪⎩≡h rz（t）=h rz（f（t1， . . . ti−1，s，tj+1， . . . . tn））（（1≤i≤j≤n）和[3]GRP[4]行[8]列[5]GRP[2]行[6]列[8]GRP[3]行[7]列例4.3考虑图5中的项。然后，图5（a）和图5（b）中的项之间的连接产生图5（c）的项(a)(b)（c）第（1）款图五. 术语的连接定义4.2可以用显而易见的方式推广到n符号中join （ f1 ， ... ， f n ） =加入（ . （ join （ f1 ，f2），.. . ），fn）现在，我们准备定义水平压缩函数。定义4.4（水平压缩）设t= f（t1，...，t n）τ（[N]V）是一个术语（网页）。标记项上的水平压缩函数hrz定义为：hrz：：τ（[N]mV）→τ（[N]mV）t n=0（1）其中s= join（t i，...， t j）（t i） t i+1. t j−1V （2）⎪1），.， hrz（t n））否则（3）在上面的定义中，第二个递归方程确保了输入项的一般结构被保留。也就是说，等于模V的连续项被打包在一起。粗略地说，定义4.4指出，所有与w.r.t.相等的参数。在同一个层次上发生的，都被打包在一起。然后，压缩递归地进行到级别（i+1）。4.3垂直压缩XML/XHTML是一种用于包含半结构化信息的文档的标记语言。在XHTML中，所有元素必须正确地相互嵌套，如下所示 i>此文本为粗体和斜体/i>/b>考虑到3.1节中给出的翻译，这种结构化信息有利于形成标签链，而这些标签链不会影响页面的整体结构。在下文中，我们描述如何在保持整体结构的同时收缩标签链。M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）313∈∈∈让我们首先描述垂直压缩所需的条件。我们让root（t）表示出现在t的顶部位置的函数符号。定义4.5（安全垂直压缩）设t=[r] f（[r1] t1，.，[r n] t n）∈τ（[N]<$V）是一个项，令grp，text<$V. 满足以下要求时，t满足安全竖向压缩条件：r=1（1）n=1（2）<$（fgrproot（t1）/grp）（3）（保留页面结构root（t1）/删除text（4）（保留页面中的信息在定义4.5中，第一个条件确保没有重复被忽略。第二个条件确保t由标签链组成（只有一个子标签）。第三个条件是grouping（grp）比其他元素具有更高的地位，因此不应该被压缩。最后一个条件允许我们保留术语的信息。也注意到重复[r1]. 不考虑t的子项[rn定义4.6（收缩）设t=[r] f（[m] g（t 1，.，t n））τ（[N]<$V）服从安全垂直条件的项。然后，t的收缩被定义为：shr：：τ（[N]V）→τ（[N]V）shr（[r] f（[m] g（t 1，.，tn）=[r] f（t 1，.， t n）m = 1微克/千克（1）n[m] g（t 1，.， t n）否则（2）定义4.6背后的思想是尽可能地保持术语的外部结构。请注意，与前面的定义一样，分组（grp）具有比其他元素更高的地位现在，我们已经准备好形式化垂直压缩转换。定义4.7（垂直压缩）设t = [r] f（t1，...， t n）τ（[N] V）是一个网页。那么垂直压缩vrt被定义为：vrt：：τ（[N]V）→τ（[N]V）vrt（t）=⎪⎩t n=0（1）VRT（SHR（t））t服从安全垂直条件（2）[R] f（VRT（t1），...， vrt（t n））否则（3）14M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）3粗略地说，定义4.7将树中最内层的节点移动到尽可能让我们通过一个例子来说明这个定义M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）315∈→GRPGRPCol行行行[2]colGRP[2]text文本Col文本GRPCol[2]colGRP[2]text文本Col文本例4.8设tτ（[N]<$V）为对应于图6（a）的项。t的垂直压缩如图6（b）所示。(a)（b）第（1）款见图6。垂直压缩4.4收缩和连接在4.2节和4.3节中给出的算子允许我们计算一项的水平和垂直压缩。这是通过收缩链和连接子项来完成的。为了形式化一个项的整体压缩，我们定义了以下算子。定义4.9（compress）设f∈τ（[N]<$V）是一个网页。设hrz，vrt：：τ（[N] V）τ（[N]V）为定义4.4和4.7中给出的两个压缩函数（分别为水平和垂直）。然后，压缩运算符被定义为：compress：：τ（[N]<$V）→τ（[N]<$V）compress（f）=hrz（vrt（f））粗略地说，我们首先删除属于标签链的标签，这些标签不影响结果页面的外观，然后加入子项。由于垂直变换和水平变换都是连续的，并通过重复应用此运算而终止，因此我们在任意步数后得到一个不可约项。给定一项f，我们说结果项fzip是f的不可约项。例4.10再次考虑例4.8中的t项。然后，我们得到图7中的不可约项。16M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）3GRP[3]colGRP文本Col文本见图7。不可约项本节中给出的压缩技术为如上所述的原始页面的视觉内容生成代表性术语。从这个术语开始，在下面的部分中，我们将制定一种方法来比较基于其视觉结构的Web页面。5基于视觉结构在我们的上下文中，比较Web页面的问题本质上归结为比较树。在文献中，用于比较树的最广泛使用的方法包括计算两棵树之间的“编辑距离”，即，将一棵树转换成另一棵树的编辑操作（节点插入，节点删除和标签更改）的最小成本序列（参见[7，18]）。参见[1]对树编辑距离问题的深入讨论。5.1树编辑距离树编辑距离问题假设存在定义在每个编辑操作上的成本函数。在下文中，我们遵循[1]的方法并定义节点对上的度量成本函数首先，让我们定义编辑操作。令λ表示表示空标记项的新常数符号，即，[001 pdf 1st-31 files]对于任何t项，设nd1，nd2∈[N]<$V是两棵标记树.然后，每个编辑操作表示为：（nd1→nd2）∈（[N]<$V×[N]<$V）\（λ，λ）我们说，（nd1→nd2）是一个重新标记，如果nd1/λ和nd2/λ，删除，如果nd2<$λ，如果nd1<$λ，则插入。定义5.1（度量成本函数）设nd1= [r1]f，nd2= [r2]g∈[N]V为M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）317⎧⎩Σ∈→nd）=r2nd1Vλ（插入）γ（nd2两个明显的术语。然后，编辑操作的度量成本函数定义为：γ：：（[N]<$V×[N]<$V）\（λ，λ）→R第10集第1集第2集r第1个第2个第3个第4个第5个Rmax（r1，r2）否则（重新标记）请注意，度量成本函数分配相同的成本以及插入，删除以及重新标记转换。粗略地说，定义5.1指出，两个节点之间的编辑操作的成本由节点的最大重复还要注意，γ是距离度量4。序列S=s1，...，s n的编辑操作由γ（S）=ni=1 γ（s i）。两棵树t1和t2之间的编辑距离δ（t1，t2）形式上为定义为：δ（t1，t2）= min{γ（S）|S是一个将t1转换为t2的操作序列}由于γ是距离度量，δ也是距离度量5.2网页比较编辑距离δ允许我们计算两棵树（网页）之间的距离t1和t2，这取决于将t1转换为t2所需的编辑操作。为了度量两个网页之间的相似性，我们赋予编辑距离的概念与网页的节点数。更正式地说，网页比较定义如下。定义5.2（网页比较）设t，sτ（[N] v）是两个网页。设t_zip和s_zip分别是t和s的两个不可约视觉表示。t和s之间的比较公式为：cmp：：τ（[N] V）× τ（[N] V）→ [0. [1]δ（tzip，szip）cmp（t，s）= 1−|不zip|S|szip|定义5.2指定了一个定量度量，一个介于0和1之间的实数，表示两个页面的相似性。请注意，树编辑距离算法（以及我们的比较）中的一个中心问题是如何选择单个操作的成本值。在这项工作中，我们选择自然（和直观）的措施，分配相同的成本插入和删除以及重新标记4集合X上的距离度量是满足以下条件的函数d：：X×X→Rx，y，z∈X. d（x，x）= 0，d（x，y）≥0，d（x，y）=d（y，x），并且d（x，z）≤d（x，y）+d（x，z）。18M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）3GRPGRP文本行GRP文本行[8]正文GRP行GRP文本[4]行文本(see定义5.1）。在[12]中讨论了关于编辑操作的成本模型的特定研究。例5.3再次考虑例3.1中的两个网页。设t，s∈τ（[N]v）是对应于两个不同网页的两个标记项。不可约的视觉代表tzip和szip分别在图8（a）和8（b）中显示。(a)（b）第（1）款图八、两个不同页面的视觉代表还考虑定义5.1中给出的成本函数。然后|= 15和|szip |= 12|= 12δ（tzip，szip）= 2cmp（t，s）= 0。92∼我们说t和s之间的相似度是92%。6执行这里介绍的比较技术已经在 Maude [2] 中实现该实验系统可在www.example.com 上公开获得 http://www.dsic.upv.es/~dromero/cmp.html 。Maude编程语言实现了重写逻辑的语义和逻辑框架，提供了具有竞争搜索）（见[6]）。我们的工具的主要特点是：• 该实现由大约560行用Maude编写的源代码组成。它包括从[2]中提取的树和列表处理模块M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）319• 用于半结构化表达式（即XML/XHTML文档）的在线解析器它也是用Java写的。Java类也提供了一个单一的访问点，它对每个可能的用户隐藏了技术细节• 该工具包括一个配置文件，用于配置某些参数的初始设置，例如，网页和输出文件夹的位置我们的工具的初步实验表明，该系统的工作非常令人满意的几个实验，包括本文中的所有例子。我们目前正在将该系统与一个网络界面结合起来，目的是使我们的工具能够为每一个互联网用户所用。7结论HTML被设计为以人类可理解的方式可视化结构和信息。其主要问题是语义内容、页面结构和布局的混合。网页比较是一个开放性的问题，其重要性从搜索引擎扩展到Web数据挖掘。在本文中，我们提出了一个自顶向下的技术比较网页。我们的方法背后的关键思想是，两个不同的代码片段可以表达相同的视觉感受。首先，定义了网页的转换，它根据每个网页的视觉结构来翻译每个网页。通过两个压缩函数，我们获得了原始网页的视觉代表。然后，我们定义了一个基于树编辑距离算法的两个Web页面之间的相似性度量。我们已经开发了一个原型实现，证明了我们的方法的可行性。作为未来的工作，我们还打算通过考虑样式表来扩展我们的分析。引用[1] P. Bille.树编辑距离及其相关问题综述。Theor. Comput. Sci. ，337（1-3）：217-239，2005.[2] M. Cl avel，F.Dur'an ，S. E ker，P. Lincoln ， N. Mar t's-Oliet，J. Meseguer 和C. 我是T. AlcottAllAboutMaude ： A High-Performance Logical Framework ， LNCS 的第 4350 卷。 Springer-Verlag ，2007.[3] W. W.科恩利用相似性查询识别网页结构。在AAAI[4] N. Dershowitz和D.伪装。重写。自动推理手册，1：535[5] V.Eglin和S.布雷斯基于布局视觉显著性的文档页面相似性：在查询中的应用通过实例和文档分类。在第七届国际文件分析和识别会议（ICDAR 03）上，第1208页。IEEE计算机学会，2003年。[6] A. Farzan，F. Chen，J. Meseguer，and G. 罗苏JavaFAN中Java程序的形式化分析。在CAV，第501-505页[7] P. N.克莱恩计算无根有序树之间的编辑距离。在ESA施普林格出版社。[8] G. A. Di Lucca，M. Di Penta和A. R.法索利诺一种识别重复网页的方法。在COMPSACIEEE计算机协会。20M. 阿尔蓬特湾罗梅罗/理论计算机科学电子笔记235（2009）3[9] D. 西格尔互联网被破坏了，我毁了它。World Wide Web Journal，2（4）：13[10] AI互联网解决方案。CSE HTML验证器，2008年。可在http://www.htmlvalidator.com/上查阅。[11] Y. Takama和N.三桥网页检索中的视觉相似性比较。在WIIEEE计算机协会。[12] 特克尔河Chbeir和K.耶通农基于语义和结构的XML相似性：一种集成方法。2006年在印度新德里举行的第13届数据管理国际会议上。[13] A. Tombros和Z.阿里影响网页相似度的因素。在Advances in Information Retrieval，27th EuropeanConference on IR Research ， ECIR 2005 ， Santiago de Compostela ， Spain ， March 21-23 ，2005，Volume 3408 ofLNCS，pages 487[14] 万维网联盟（W3C ）。可扩展标记语言（XML ）1.0 ，第二版，1999 年。可在以下网址获得：http://www.w3.org。[15] 万维网联盟（ W3C ）。可扩展超文本标记语言（ XHTML ）， 2000 年。可在以下网址获得：http://www.w3.org。[16] 万维网联盟（W3C）。Markup Validation Service，2005年。可用网址：http：//validator.w3.org/网站。[17] Y. Yang和H.张某基于视觉线索的HTML页面分析。ICDAR'01：第六届文件分析和识别国际会议论文集，第859页，美国华盛顿特区，2001年IEEE计算机协会。[18] K. Zhang和D.莎莎树间距离编辑的简单快速算法及相关问题。SIAM J. Comput. ，18（6）：1245

下载后可阅读完整内容，剩余1页未读，立即下载

基于可视块的网页相似度计算技术研究

衡量网页相似度是Web内容检测和分类的核心问题之一。在本文中，我们首先给出网页可视块的定义。然后我们提出了一种使用可视块来测量网页相似度的方法。实验表明，该方法可以有效地测量不同类型网页之间的相似度。

vue+d3v6实现动态知识图谱可视化展示（包含2D和3D图谱展示）.zip

知识图谱是一种结构化的知识表达形式，它以图形的方式组织和存储了大量实体（如人、地点、事件等）及其相互关系。在知识图谱中，实体作为节点，实体之间的各种语义关联则通过边进行连接，形成了一个庞大的数据网络。...

python数据可视化网页

你可以使用Python中的许多数据可视化库来创建交互式的数据可视化网页。以下是一些常用的库： 1. Bokeh：它是一个交互式的数据可视化库，可以创建漂亮的网页图表。 2. Plotly：它是一个交互式的数据可视化库，可以...

web网页可视化模板代码

在网页可视化模板中，HTML用于定义网页的结构和内容，CSS用于设置页面的样式和布局，而JavaScript则用于实现页面的交互和动态效果。在使用网页可视化模板时，开发者可以根据自己的需求进行定制化，以展现不同类型...

“c++数据结构自设计算法可视化的实现”实验项目源代码

“c 数据结构自设计算法可视化的实现”实验项目源代码是一个基于C语言的项目，旨在通过自行设计数据结构和算法，并将其可视化呈现出来。该项目的源代码涉及了很多方面，包括数据结构的构建、算法的实现以及可视化...

如何实现数据结构命令式算法的可视化

要实现数据结构命令式算法的可视化，可以采取以下步骤： 1. 选择合适的可视化工具：可以选择一些常见的可视化工具，例如D3.js、Canvas、HTML5等，也可以选择一些具有特定功能的可视化工具，例如VisuAlgo、Data ...

网页信息爬取与数据化可视化

网页信息爬取与数据化可视化是一种很常见的数据获取和处理方式，主要包括以下两个过程： 1. 网页信息爬取：通过编写爬虫程序，自动化地获取互联网上的数据。爬虫程序可以模拟浏览器行为，自动化地访问网页、抓取...

结合目前的可视化技术，说明一下可视化的发展趋势

未来，可视化技术将会更加注重利用人工智能技术，实现更加智能、更加自动化的数据分析和可视化。 5. 3D 可视化：未来，可视化技术将会更加注重 3D 可视化技术的发展，提供更加逼真、更加直观的数据可视化方式。这将...

模型的解释：模型预测的可视化。可以使用可视化技术来理解模型内部的运作方式，以便更好地优化和调整模型。如何实现模型的可视化

模型的可视化可以通过不同的方法实现，以下是其中几种常见的方法： 1. 特征可视化：可以使用可视化工具来显示模型中每个特征的重要性和影响。这可以让我们理解哪些特征对模型的预测有重要影响，以及哪些特征可以被...

数据可视化网页大屏展示怎么做

要做一个数据可视化网页大屏展示，可以按照以下步骤进行： 1. 确定展示内容：根据展示的主题和目的，确定展示的内容和形式，如数据指标、图表、地图等。 2. 选择合适的数据可视化工具：根据展示的内容和形式，选择...

Echarts怎么实现可视化

它提供了丰富的图表类型和交互方式，可以轻松地在网页中实现各种可视化效果。下面是ECharts实现可视化的基本步骤： 1. 引入ECharts库和数据：在HTML文件中引入ECharts库，并准备好需要展示的数据。 2. 创建容器：...

tensorborad 可视化网络结构

您可以使用TensorBoard来可视化网络结构。首先，您需要使用TensorFlow或其他深度学习框架构建您的神经网络模型。然后，您可以使用TensorBoard来可视化该模型的网络结构。以下是一些步骤来使用TensorBoard可视化...

数据可视化大屏的内容及实现

数据可视化大屏是一种将数据通过图表、地图、文字、动画等形式展示在大屏幕上的数据展示方式。其目的是为了让数据更直观、更易于...综上所述，实现数据可视化大屏需要掌握多种技术，需要有较强的技术实力和项目经验。

大数据可视化分析技术研究现状

4. 可视化结果的交互性：大数据可视化分析技术不再只是静态的图表，而是可以实现交互式的可视化分析，用户可以通过交互操作，探索数据之间的关系，挖掘出更深层次的信息。总之，大数据可视化分析技术正在快速发展...

h5 可视化和vue 可视化的区别

H5可视化是通过HTML5技术实现的，主要是通过canvas、svg等元素来完成图表的绘制，同时也可以通过CSS3、JavaScript等技术来实现交互和动画效果。H5可视化的优点是可以实现复杂的图表，同时也可以在移动端上有很好的...

帮我写一个数据可视化网页

好的，我可以为您提供一些基本的步骤和建议，以便您能够开始编写您的数据可视化网页。步骤： 1. 确定您要展示的数据类型和格式。 2. 确定您要使用的数据可视化工具和库。 3. 编写代码来获取和处理数据。 4. 编写...

基于flask的疫情信息可视化系统如何实现可视化展示

基于 Flask 的疫情信息可视化系统如何实现可视化展示，一般可以通过以下步骤实现： 1. 数据可视化：通过数据可视化工具，如 Matplotlib、Seaborn、Plotly 等，对获取的疫情数据进行可视化处理，生成各种图表和地图...

基于Python爬虫技术对B站视频信息数据可视化分析系统的设计与实现请给出多条方案

针对基于Python爬虫技术对B站视频信息数据可视化分析系统的设计与实现，我可以提供以下方案： 1. 使用Python爬虫框架Scrapy爬取B站视频信息，并将数据存储到数据库中。使用Python数据分析库Pandas对数据进行清洗和...

天气数据可视化的关键技术

天气数据可视化的关键技术主要...总的来说，天气数据可视化的关键技术涉及到数据采集、预处理、可视化、交互设计、数据分析和挖掘、数据安全和云计算等方面，需要综合运用多种技术手段才能实现天气数据的可视化展示。

如何制作一个可视化数据网页

要制作一个可视化数据网页，你可以按照以下步骤进行操作： 1. 收集数据：首先，你...实际上，制作一个可视化数据网页可能涉及到更多的细节和技术。因此，根据你的具体需求和技术水平，可能需要进一步的学习和探索。

cpongm

粉丝: 4

资源: 2万+

上传资源快速赚钱

我的内容管理收起

我的资源快来上传第一个资源

我的收益
登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

会员权益专享

图片转文字  PDF转文字  PDF转Word PDF加水印
全年可省5，000元立即开通

最新资源

VMP技术解析：Handle块优化与壳模板初始化
C++ Primer 第四版更新：现代编程风格与标准库
计算机系统基础实验：缓冲区溢出攻击(Lab3)
中国结算网上业务平台：证券登记操作详解与常见问题
FPGA驱动的五子棋博弈系统：加速与创新娱乐体验
多旋翼飞行器定点位置控制器设计实验
基于流量预测与潮汐效应的动态载频优化策略
SQL练习：查询分析与高级操作
海底数据中心散热优化：从MATLAB到动态模拟
移动应用作业：MyDiaryBook - Google Material Design 日记APP
Linux提权技术详解：从内核漏洞到Sudo配置错误
93分钟快速入门 LaTeX：从入门到实践
5G测试新挑战与罗德与施瓦茨解决方案
EAS系统性能优化与故障诊断指南
Java并发编程：JUC核心概念解析与应用
数据结构实验报告：基于不同存储结构的线性表和树实现

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

安全验证

文档复制为VIP权益，开通VIP直接复制

信息提交成功