没有合适的资源?快使用搜索试试~ 我知道了~
Web文档的最新性管理与语义链接
理论计算机科学电子笔记157(2006)147-166www.elsevier.com/locate/entcs一个Web文档有多新?Bo Hu1 Florian Lauck2 Jan Sche Scheczyk3UniversitéatderBundeswehrMünchen,Munich,Germany摘要Web文档最重要的方面之一是它的最新性或新近性。最新性与Web文档特别相关,因为它们通常包含来自不同来源并在不同日期刷新的内容。Web文档是否与读者相关取决于其内容的历史和所谓的外部因素,即,语义相关文档的最新性。在本文中,我们的方法是由一个以XML为中心的Web内容管理系统管理的最新的Web文档的自动管理。首先,计算单个文档的新鲜度,同时考虑其更改历史。 文档度量估计文档的不同版本之间的距离。其次,一个文档的最新性是根据它自身的历史和语义相关文档的历史演变来确定的。关键词:网站管理,最新,内容管理系统,文档度量,语义链接1介绍万维网从一开始就是为动态信息而设计的[1]。最新性4是Web文档最重要的特征之一,因为一个Web站点通常包含许多来自不同来源并以不同速度发展的Web页面。与传统图书馆中的书籍不同,网页即使在作者最初发布后也会继续变化[2]。在本文中,我们区分新鲜度,1电子邮件:www.example.combo.hu @ unibw.de2电子邮件:florian. unibw.de3电子邮件:jan. unibw.de4 也被称为1571-0661 © 2006 Elsevier B. V.在CC BY-NC-ND许可下开放访问。doi:10.1016/j.entcs.2005.12.052148B. Hu等人/理论计算机科学电子笔记157(2006)147其取决于单个文档的历史,以及最新性,其还考虑语义相关的文档。许多作品都探索了Web文档的措施已经发现,通常Web文档的变化很小,或者只在其标记中变化[5]。另一方面,包含“突发新闻”的新闻页面经常大幅改变其内容。这种更新异构性严重影响了Web内容管理系统(WCMS),而WCMS本应减轻Web文档的持续维护。通常情况下,WCMS假装一个网页的“新鲜度”增加,只是逐渐改变。更糟糕的是,这种新鲜度的概念不是特定于应用程序的。变化可能是句法或语义性质的。语法变化可以反映编辑错误或提高可读性(尽管语义没有变化)。语义变化可以增加文档与特定目的的相关性。 我们在文本分类、检索和摘要中找到了语义方法的相关领域[19,13,9,17,7]。由于“最后修改”的日期w.r.t.手头的应用程序由于Web站点的重要性以及日益复杂和协作的Web发布过程,Web文档的版本控制是WCMS的一个基本功能。由于每个文档的历史在这样的系统中是可用的如果文档的新鲜度应该被自动估计,或者一些版本应该被清空以释放空间,这个度量是必不可少的[4]。在本文中,我们提出了一种方法来自动计算新鲜度的文件的基础上,其历史。一个重要的参数是文档度量,它度量文档被更改的程度。该度量可以是语法或语义性质的,并且可以针对特定应用进行调整。通过我们的语法度量,不仅可以比较纯文本信息,还可以比较标记。通过这种方式,可以反映Web文档的真实人力资源使用情况。我们的语义度量采用了在通用文本解析器(GTP)中实现的潜在语义分析(LSA)[7]。这样,我们就可以分析Web文档的内容发生了多大的变化,而不管呈现风格的修改。我们已经在WCMS [10]中实现了我们的方法,其中XML结构表示整个Web站点,其中每个叶子代表一个Web页面,包含更多的XHTML标记。由于涉及到预处理和后处理,文档度量可以很容易地适应创建和更新文档的特殊情况。特别是,我们已经应用了我们的B. Hu等人/理论计算机科学电子笔记157(2006)147149图案改变频率变化幅度改变内容使用新闻页面小时大text/ markup商业主页每月/每年小text/ markup私人板分钟/小时大文本私人网店分钟/小时大文本商业企业站点每月/每年小text/ markup商业WCMS分钟/小时介质文本私有/通信表1更改Web文档中文Web文档。Web文档是否与读者相关不仅取决于文档自身的历史,还取决于所谓的外部因素,即,语义相关文档的历史演变。这证明是有用的,例如,对于经常变化的新闻页面。在我们的设置中,文档之间的语义关系[8,14]涵盖了“是翻译”,“提供背景信息”,“是重要部分”或“推荐阅读”等方面。因此,我们还计算了最新的文件w.r.t.语义相关文档的历史演变。我们的方法的目的是提供一个语言和主题独立的算法,确定真正的最新的文件在WCMS。此外,文档的旧版本对当前版本(或将来的任何版本)的更新没有重大贡献,可能会被清空以释放空间。本文的贡献是一个灵活的方法来计算最新的文件,根据自己的历史和历史的语义相关的文件。主要的促成因素是版本控制和明确的语义链接。最重要的参数是文档度量,可以根据特定应用进行调整从这里,我们继续如下。在第2节中,我们介绍了本文的运行示例,通过该示例说明了我们的方法。我们在第3节中讨论了单一文件的新鲜度。第4节描述了我们的方法在以XML为中心的WCMS中的实现。在第5节中,我们接近最新的文件w.r.t.语义相关的文档。我们总结了本文,并勾画了未来的研究方向。六、2新闻版面-对最新信息在我们的实验中,我们发现了关于Web文档修改的典型模式(见Tab。①的人。对于本文,我们选择新闻页面模式,这是特别合适的,因为它的特点是每小时的变化150B. Hu等人/理论计算机科学电子笔记157(2006)147第一版:乌克兰人投票选举总统基辅,乌克兰--周日,竞争对手尤先科和亚努科维奇在一场由欺诈性的竞选投票和大规模抗议活动引发的重复选举中面临惨败,这场抗议活动导致乌克兰总统竞选出现了前所未有的第三轮. . .第六版:乌克兰举行第三次总统选举乌克兰基辅--周日,竞争对手尤先科(Vik- tor Yushchenko)和亚努科维奇(Viktor Yanukovych)面临再次选举,各方都希望这将解决乌克兰. . .第二版:乌克兰总统选举在Runo举行基辅,乌克兰--周日,竞争对手尤先科和亚努科维奇在一场由欺诈性的竞选投票和大规模抗议活动引发的重复选举中面临惨败,这场抗议活动导致乌克兰总统竞选出现了前所未有的第三轮. . .第七版:出口民意调查给尤先科总统的身份基辅,乌克兰--在周日的总统大选第二场角逐中,三项出口民调显示,乌克兰反对派领导人尤先科以压倒性优势战胜了总理亚努科维奇。. . .Fig. 1. 关于乌克兰总统选举的文章的版本历史加上大量的文字改动。此外,新闻页面显示出广泛的语义相关性。然而,我们的方法的使用不仅限于新闻页面。任何处于版本控制下的文件的最新性都可以估计。在协作创作环境中,甚至还可以计算每个作者对文档部分的部分贡献。我们的运行例子是从实践中采取的,因此揭示了很大的现实:2004年12月26日乌克兰总统的投票。这一天,全世界范围内,都有大量的突发新闻,有预测,有结果,有背景,有观点。每小时从欧 洲 中 部 时 间 12 : 00 至 21 : 00 , 五 个 不 同 新 闻 页 面 ( CNN.com 、MSNBC.com 、YahooNews.com 、USAToday.com 、derstandard.at)的来源被下载并保存到数据库中,以便稍后应用我们的方法。每次下载都代表一个新闻页面的不同版本图1显示了Ya-www.example.com关于乌克兰总统投票的突发新闻网页第一hooNews.com5版本之间的变化范围从纠正错别字或改变布局到内容的戏剧性变化。例如,我们看到版本1和版本2之间的细微变化,而版本6和版本7之间的文章几乎完全重写。 显然,这篇新闻的新鲜度应该5 URL story.news.yahoo.com/news? 2004年12月26日,乌克兰总统选举在乌克兰首都基辅举行。B. Hu等人/理论计算机科学电子笔记157(2006)147151代表这些事实。3单个文档一个文档的最新性取决于两个方面:文档本身的新鲜度和语义相关文档的历史演变。 在本节中,我们只处理单个文档的新鲜度,可以将其视为一种基于历史发展的文献属性。最新w.r.t.语义相关的文档在第5节中处理。3.1接近新鲜对于只有一个版本的文档,新鲜度由保存文档的时间t1如果一个文件有多个版本1,...,n,则其新鲜度t可以表示为所有版本的加权平均时间戳:Pnti·citi=1PnCii=1其中ci,即版本i对最终版本n的贡献,仍有待确定。一个常见的和平凡的方式是设置cn= 1,并且对于所有以前的版本,ci= 0(i n)。这样,我们就有了为了考虑所有版本的贡献,我们必须知道文档从一个版本到另一个版本的变化程度,我们称之为文档版本i和版本j之间的距离Di,j由于所有的网页都在我们的WCMS版本控制下,文档度量可以很容易地用于计算这样的距离。回想一下,我们的方法在文档度量D中是参数化的。例如,我们可以通过分析XML节点的修改来计算XML文档的两个版本之间的语法距离,方法是使用XML数据库实现,如MicrosoftXMLDi [15]。通过简单地将Di,j定义为将版本i的内容更改为版本j的内容的XML节点修改的数量,我们已经成功地测量了学生的编辑效率另一方面,语义度量,例如,基于LSA,反映真实内容的变化。例如,语义度量可以用于指示新闻文章是否值得再次阅读我们使用LSA,因为在文献中,已经表明LSA优于其他语义相似性度量[12]。见第4.2关于我们的实施的更多细节。基于度量D,我们发现给定版本对文档当前版本的贡献的两种可能定义基本思想如图所示。2,其中节点表示Web文档的版本152B. Hu等人/理论计算机科学电子笔记157(2006)147D−DDnullD0.33D0.1D1.3D2.312D1,2图二. 文档不同版本之间的距离边代表距离。第一个版本所源自的空文档表示为null。例如,版本2的贡献可以定义为D1,3−D2,3或或者,贡献可以定义为D1,2或请注意,某些版本的贡献可能在第一种情况下是消极的。在第一个例子中,我们有一个i:=Di−1,n−Di,n,其中D0,i是空文档到版本i之间的一个nce。然后,具有n个版本的文档的有效新鲜度由下式给出(由于Dn,n= 0):Pn ti(Di−1,n−Di,n)Pnt1·Pn(Di−1,n−Di,n)+(ti−t1)·(Di−1,n−Di,n)t<$n=i=1为i=1i=1Pn (Di−1,n−Di,n)PnPnDi−1,n−Di,ni=1Pnt1D 0,n+tiDi−1,n−nP−1 ti·Di,n−tnDn,ni=1Pni=1Di−1,n−D=i=2i=1=t1+0,n n,n(ti−t1)·i,n0,nI=2如果一个文档只有一个版本(n= 1),则有效的新鲜度是t1,正如预期的那样。每一个额外的版本可能会增加有效的新鲜度,这取决于新版本和第一个版本之间的时间差异,以及与所有过去的版本相比,内容已经改变了多少。当一个新版本的Web文档被添加到WCMS中时,使用这个算法,必须与每个过去的版本进行比较在这段时间内,我们有一个veci:=Di−1,i。具有n个版本的文档的增加值由下式给出Pnti(Di−1,i)tnDn−1,n+nP−1 tiDi−1,itnDn−1,n+t<$n −1nP−1 Di−1,itn=1=1=1PnDi=1i−1,iDn−1,n+nP−1i=1 Di−1,iDn−1,n+nP−1i=1 Di−1,i请注意,tncn可以通过使用tn−1和a cumulatednP−1Di−1,i来进行计算。如果一个副本只有一个版本(n=1),则增量为零-i=1如预期的那样,ness产生t1每增加一个版本,新鲜度,取决于新版本和B. Hu等人/理论计算机科学电子笔记157(2006)147153第一个版本,并取决于有多少内容已经改变了与以前的版本。只需要与以前的版本进行比较,这大大降低了计算复杂性。正如[3]所指出的:“。. .相似性不是传递性的,...例如,一篇论文的连续版本可能“大致相同”,但版本100可能与版本1截然不同。”或者在相反的情况下:如果对一个版本所做的大量更改在下一个版本中被完全撤销,则不会实现真正的新鲜度增加,而连续版本之间的比较可能会假装有显著差异。增加一个字。在此之前,我们希望在数据计算的过程中,一个可分离的存储器比一个存储器更好。在实践中,可以使用近似算法来降低计算复杂度,因为可以忽略某些变量对计算的贡献。对于一个nyj(1jn),Ntichatncanals obexressdt<$=tP−1+(t-t)·Di−1,n−Di,nn 1i1I=2D0,n++(t -t)·Dj−1,n−Dj,n+(t-t)·Dj,n−Dj+1,n+j1D0,nj+1 1D0,nPn+(ti−t 1)·Di−1,n−Di,nD0,ni=j+2如果未检测到发生故障,则可估计为˛|Δ t<$|= n(t-t)·Dj-1,n-Dj,n+(t−t)·Dj,n−Dj+1,n−(t˛−t)·Dj−1,n−Dj+1,nnj1D0,nj+11D0,nj+11D0,n=(t-t)·|Dj−1,n−Dj,n|j+1 jD0,n≤(t-t)·Dj−1,jj+1 jD0,n注意到|Dj−1,n−Dj,n|≤Dj−1,jbeca us eDj−1,n,Dj,n,andndDj−1,j在版本图中形成三角形(见图2)。换句话说:如果Δt<$n的精度小于h,则在j(1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功