沙特大学构建上下文信息门户的断链修复系统

97 浏览量更新于2024-01-14 收藏 850KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一种构建上下文信息门户的断链修复系统沙里克·巴希尔计算机和信息科学学院，信息管理系，伊玛目穆罕默德·伊本·沙特大学，沙特阿拉伯阿提奇莱因福奥文章历史记录：2017年7月14日收到2017年12月6日修订2017年12月24日接受2017年12月28日在线发布保留字：信息检索机器学习断链学习排名间歇性网络的上下文信息门户A B S T R A C T网络是一个非常强大的资源，有潜力改善教育和健康。它可以进入新的市场。然而，在新兴区域，上网存在根本性问题。主要问题是互联网连接没有跟上网络的复杂性和大小。最近，一种创新的技术被开发出来的上下文信息门户（CIP）的形式，以减轻低连接的影响。CIP提供离线可搜索和可浏览的信息端口。CIP中的信息由互联网上关于特定主题的垂直切片组成。CIP是发展中地区互联网接入有限的理想工具。它可以用于学校和大学，以加强课程计划和教育材料。虽然，作为一个独立的门户网站CIP提供了一个交互式的搜索和浏览界面，使一个类似网络的经验，但是，一个根本的问题，用户面临的是破碎的链接。这是因为抓取网页以构建CIP集合只能提供一部分网页，而不是所有可能的文档。这会创建多个断开的链接。为了解决这个问题，我们开发了一个断开的链接修复系统（brLinkRepair），用于修复断开的链接。brLinkRepair在用户尝试通过链接在页面之间导航时非常有用，并且CIP中缺少指向的链接页面我们提供了一个信息检索系统，用于修复断开的链接。对于每个断开的链接，我们的系统会推荐与指向的页面相似的相关页面。为了进一步提高系统的有效性，我们结合所有的信息源使用学习排名的方法。我们的研究结果表明，学习排名（通过结合信息源）提高了效率。©2017作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.导言. 1482.相关工作。........................................................................................................................................................................................................................................................ 1492.1.使新兴区域能够上网1492.2.修复损坏的链接1493.上下文信息门户（CIP）1503.1.CIP爬行器1513.2.断链修复系统1514.用于修复断开的链接的自动查询重构1514.1.要素（资料来源）1514.2.使用术语频率（tf）和文档频率（df）............................................................................................................................................................ 从元素中选择术语1525.实验152沙特国王大学负责同行审查电子邮件地址：sbbashir@imamu.edu.sahttps://doi.org/10.1016/j.jksuci.2017.12.0131319-1578/©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com148S. 巴希尔/沙特国王大学学报5.1.收集、查询和相关性判断1525.2.链接分类1525.3.有效措施1535.4.来源的有效性分析6.使用项邻近度构造断开链接修复查询1547.使用学习组合源来排名1577.1.训练数据集和适应度函数1577.2.有效性1578.结论158参考文献1591. 介绍互联网连接在任何国家的整体发展中发挥着重要作用。它提供了一种从各个研究领域获取知识的方法，并使人们能够与世界上的现状保持联系，而无需亲自了解他们或长途旅行然而，不同区域之间的连通性机会在很大程度上是不平等的（Mishra等人，2005; Du等人，2006; Li 和Chen，2013; Zaki等人，2014;Marentes 等人，2014; Arour等人，2015; Bouramoul，2016）。高收入国家拥有持续丰富的互联网，当地图书馆的内容也很全面。这两种资源对研究和教育都非常有用然而，发展中国家的地方图书馆大多过时，互联网接入不可靠，价格昂贵，而且大多只有城市地区才能使用。发展中国家的人们购买力较低，往往需要支付巨额费用才能获得良好的互联网连接缓慢和间歇性的网间连接是一个严重的问题（Saif等人，2007; Johnson等人，2010; Ihm等人，2010; Pejovic等人，2012年）。卫星连接速度很慢，大多数只提供几百kbps或1 Mbps的带宽电力经常是断断续续的。网络要么远程管理，要么由缺乏培训的当地工作人员管理。在学校和大学中，大量学生、工作人员和教职员工共享单个互联网连接，导致页面下载总体缓慢（Pentland等人，2004年）。虽然这只是一个问题，但另一方面，网页的质量和大小在过去几年中有了显著的进步这会导致在慢速互联网连接上页面渲染时间显著增加。信息和通信技术（信通技术）可提供发展中国家的重大机遇。有证据表明，信息和通信技术可以帮助发展中地区为了在发展中地区提供连通性，最近开发了一种称为上下文信息门户（CIP）的创新ICT技术，用于将网络扩展到发展中地区（Chen例如，2010年、2011年）。CIP是一种提供离线搜索和浏览信息门户的系统CIP的主题是从课程大纲中产生的，这些课程大纲被认为是现有当地图书馆无法充分覆盖的。主题的网页是通过爬取与主题相关的网页而获得的。然后，抓取的网页被索引，在本地重新排名，并在大型存储介质（例如硬盘，DVD或USB棒）上运送到目的地。虽然作为一个独立的门户网站，CIP提供了一个类似于万维网的交互式搜索和浏览界面，涵盖的主题。然而，为了使信息搜索成为可能，CIP必须从单纯的文件存储库转变为活的集合。开发创新的解决方案，用于搜索和探索（类似于常规的网络检索）。CIP提供网络浏览器，使搜索功能用户通过查询。在一个典型的会话中，用户向CIP提交一个全文查询，CIP返回包含以下内容的结果列表与查询匹配的前n个页面的列表。每个结果都包含页面标题。然后用户点击结果来查看并在网页中导航，类似于他/她在万维网的情况下所做的那样。然而，如果我们将CIP与常规网站进行比较，那么在CIP的情况下，页面之间的导航是有限的，因为用户经常会遇到许多断开的链接，即断开的链接是指向集合中缺少的页面的链接。这是因为为了构建CIP而对Web进行爬行只能使一部分网页可用，而不是所有可能的页面。在这种情况下，如果用户到达一个链接，这显然是非常有用和有趣的，但打破了，他/她然后回到搜索引擎修改查询检索相关信息。这造成了沮丧和无聊，因为在修改查询期间，用户经常失去他/她在包含断开链接的页面上可用的丰富信息。主要贡献：这项工作的目的是通过检索集合中类似于断开链接的指向页面的相关页面来修复断开的对于每个断开的链接，我们应用信息检索技术检索相关的网页。对于每一个断开的链接，我们的系统自动构造断开的链接修复查询检索相关页面。构造搜索查询是一项繁琐的任务，我们希望自动执行可能的信息来源是锚文本，锚文本的周围文本，URL和包含缺失链接的页面的全文。以前的修复工作主要使用锚文本和URL（Martinez-Romo和Araujo，2012）。以前的工作也研究了其他来源，但没有取得很好的效果，因为该技术只依赖于词频（tf）和文档频率（df）从源中提取术语当一个页面包含许多断开的链接时，他们的技术会返回类似的查询词这不适合CIP，因为CIP中的网页包含许多断开的链接。在这项工作中，我们研究了使用锚文本，URL，URL周围的上下文和网页的全文提取相关术语之间的术语接近（位置）关系。这不仅为不同的断开链接返回不同的查询词，而且还增加了有效性，因为彼此接近的词揭示了更多的相关性。此外，由于单个信息源所代表的信息是互补的，因此，我们研究了是否将所有信息源组合起来会提高有效性，并为此使用学习排序方法来组合信息源。我们的研究结果表明，学习排名（通过结合信息源）提高了效率。本文件其余部分的结构如下。第2节审查了有关使新兴区域能够上网的工作。本节还回顾了修复断开链接的相关工作。在第3节中，我们首先展示了CIP的体系结构，然后我们S. 巴希尔/沙特国王大学学报149描述断开的链接修复任务。在第4节中，我们描述了一个信息检索系统，用于修复断开的链接。在第5节中，我们描述了收集和实验设置，然后在第5节和第6节中，我们展示了所提出的系统的有效性在第7节中，我们结合使用学习排名修复断开的链接的信息源，并将其有效性与单独的信息源进行比较。最后，第8节简要总结了我们工作的主要结果。2. 相关工作我们将相关工作分为两部分。在第一部分中，我们强调了为新兴地区提供网络访问的主要工作，并激发了开发CIP的需求。在第二部分中，我们重点介绍了修复断开链接的相关工作。2.1. 为新兴区域在为发达区域设计有效的网络搜索系统方面做了大量工作;然而，在发展中区域，这一研究领域基本上被忽视。近年来，研究方向已经调查。我们将文献综述分为以下四类。异步Web访问，低带宽连通性：近年来，开发了离线搜索引擎以解决低带宽连通性的问题。GetWeb、1www 4- mail2和Web2 Mail3是通过电子邮件提供互联网访问的系统。用户通过电子邮件向这些系统发出查询，这些系统返回相关的URL列表。谷歌电子邮件警报是此类类别的另一个例子，它提供定制的新闻，以响应用户的查询。TEK（LibbyLevison and Amarasinghe，2002）是麻省理工学院开发的另一种应用。它是一个基于客户端-服务器的系统，提供对互联网的离线访问。TEK提供了一种非交互式的搜索机制，用户通过简单邮件传输协议（SMTP）发出查询，搜索结果通过电子邮件异步发送给用户。DAKNet（Pentland等人，2004）通过诸如公共汽车和货车的物理交通链路提供web访问。DAKNet使用安装在实际交通线路（使用公共汽车和货车）上的MAP（移动接入点），定期穿越村庄以传输所需信息。这些物理运输链路配备了全向天线和具有全向或定向天线的信息亭。Web缓存：在网络缓存的背景下，已经提出了几种优化方法来增加网络对发展中地区的访问（Michel等人，1998;Rabinovich和Spatschek ， 2002; Du 等人， 2006; Isaacman 和 Martonosi ，2008; Chen和Subramanian，2013）。Du等人的工作，2006）分析了柬埔寨的网络访问痕迹，以分析发展中地区网络缓存策略的有效性。（Isaacman和Martonosi，2008）在他们的工作中展示了协作缓存和完善页面技术对发展中地区的好处他们的结果表明，提前完善页面可以提高基于本地缓存的搜索的效率这些改进技术可以与CIP一起使用，以增强局部搜索机制。针对低带宽的内容自适应：内容自适应是针对低带宽区域进行探索的另一个领域。有一些相关的作品可用于过滤1GetWeb：通过电子邮件搜索网页，www.hrea.org/getweb.html。和压缩。我们无法提供该领域的全面文献综述，因为这超出了本文的范围Fox和Brewer（1996）在他们的工作中提供了降低图像分辨率和颜色深度的技术，以适应低带宽用户。Fred Douglis等人（1998）在他们的工作中分析了网页缓存的网页之间的相关性，以优化带宽。Loband4是另一个为低带宽环境开发的系统，使用户能够查看过滤后的纯文本版本的网页。上下文信息门户（CIP）：上面回顾的大多数方法修改搜索结果的内容，以便在有限的互联网连接下向用户提供网络数据 CIP不修改网页的内容，而是利用代理以应用特定的方式处理网络的不透明性（Chen等人，2010年、2011年）。CIP提供离线搜索和浏览功能。CIP中的信息是从与主题相关的Web上抓取的。CIP主要是为那些连接性非常差或根本不可用的区域和环境设计的（Saif等人，2007; Johnson等人， 2010; Ihm等人， 2010; Pejovic等人， 2012年）。对于这些区域，标准的本地搜索缓存有几个问题。例如，在这些区域设置中频繁的缓存未命中导致页面下载和渲染非常缓慢此外，本地缓存仅以是或否的形式返回有限的二进制答案，即网页在缓存中这是不合适的，因为有可能特定网页不存在于高速缓存中，但高速缓存可能包含与错过的网页同样相似的许多其他网页2.2. 修复断开的链接修复断开链接的相关工作可以分为两类：（a）通过应用信息标注修复断开链接，（b）使用信息检索修复断开链接我们突出这两个类别的主要作品。Nakamizo等人（2005）开发了一种使用信息注释技术修复损坏的URL的工具。他们的工具对于修复网页从其位置移动时损坏的URL非常有用。他们的工具输出一个列表的网页排序的可能性是链接当局。他们的工具首先使用一个收集链接的链接作者服务器，然后根据链接的可访问性对链接进行排序。这种可扩展性基于一组关于链接和目录之间关系的属性。Klein和Nelson（2008）利用文档相似性来检索未来消失的网页。为了实现这一点，他们的系统首先从文档的内容中提取一小部分术语（他们称之为词汇签名），用于定义接下来，他们的系统利用这些词汇签名来检索相关网页。Harrison和Nelson（2006年）还在数字保存的背景下使用网页的词汇签名来定位丢失的网页。类似于Klein和Nelson（2008）的系统，他们的系统首先从页面中提取与我们的研究工作最接近的是马丁内斯-罗莫和阿劳霍（2012），其中应用信息检索技术来修复断开的链接。他们的工作使用了信息检索技术，通过使用包含断开链接的页面中可用的信息源来检索相关页面他们使用的来源是锚文本，URL，锚文本的上下文和包含断开链接的页面的全文他们的系统首先使用这些2通过电子邮件进行网络导航和数据库检索，http://www4mail.org。3Web2Mail，http://www.web2mail.com。4http://www.loband.org。●●●●150S. 巴希尔/沙特国王大学学报源作为查询，然后他们的系统通过信息检索方法来处理查询，以检索相关的网页。他们的实验表明，锚文本是相当有用的检索相关的网页。已知项目搜索：在数字图书馆的背景下，最近进行了一些检索已知项目的尝试（Azzopardi例如，2007年）。检索已知项的任务类似于修复断开的链接，因为这两个任务的目的都是从集合中检索最相关的项。已知项目搜索假设用户知道集合中的项目（文档），他/她认为该项目与他/她的需求相关，并且他/她已经在集合中看到了该文档。现在出现了某种需求，用户希望检索该项目。为了检索该项目，他/她试图回忆该项目的不同术语，以构建搜索引擎的查询，这可能有助于检索该项目。Azzopardi等人（2007年）在他们的工作中开发了一个用户模型，用于识别用户可以回忆起的检索已知项目的相关术语。他们的模型识别出在所需项目中最具歧视性或更受欢迎的术语。虽然这两种检索任务有很大的相似性，但在这个意义上有所不同，即已知项搜索假设用户从相关项的内容中知道一些信息，他/她使用这些信息来检索该项目。然而，在修复断开的链接的情况下，这些信息可以以URL和锚文本的形式将文档链接到百科全书知识：此任务的目的是自动识别来自网页的内容是潜在的有用的候选链接，然后自动丰富这些链接与最相关的网页（Mihalcea和Csomai，2007年）。在这个研究领域的大多数研究使用维基百科来分析他们的方法的准确性，这比常规的网络收集更有条理。Milne和Witten（2008）应用机器学习来识别维基百科页面中的重要术语，然后他们的技术通过链接到适当的维基百科文章来丰富这些术语。为了实现这一点，他们的方法首先从候选词段中定义特征，然后他们的方法利用这些特征来训练链接分类器。他们定义的特征基于：（a）术语与其周围上下文的共性（先验概率），（b）术语与其周围上下文的相关性，以及（c）上下文质量。虽然这两个任务有密切的相似之处，在这个意义上，这两个任务的目标是检索相关的网页链接，但是，在修复损坏的链接的情况下，我们的集合是比维基百科更非结构化，我们希望利用其他来源，可在页面中包含破碎，如锚文本，URL，上下文周围的URL和页面内容。3. 上下文信息门户（CIP）我们将通过首先解释CIP的体系结构来解释断开链接修复系统。图1展示了CIP爬虫的架构。图2示出了断链修复系统的架构。CIP有以下两个主要组成部分：图1.一、CIP Crawler的体系结构和CIP Crawler的不同组件图二.断链修复系统的体系结构。S. 巴希尔/沙特国王大学学报151（CIP Crawler）：该组件为CIP抓取和构造集合。（断开链接修复系统）：CIP集合可能有许多网页中的URL被破坏。该组件使用信息检索技术修复这些断开的链接3.1. CIP爬虫CIP爬虫的目的是抓取网页，并只索引那些与主题相关的页面。对于一个单一的主题，比如 CIP 爬虫通过集中爬行实现了这一点（Chakrabarti等人，1999; Arasu等人，2001; Aggarwal等人，2001年）。对于每个主题，通过提供相关和不相关网页的子集来训练聚焦爬虫。对于训练分类器，我们首先从流行的搜索引擎（谷歌）下载一组前N名的结果，使用主题作为查询。我们将搜索引擎的前N个结果标记为相关页面。然后，我们再次查询搜索引擎与一个不相关的查询，例如接下来，我们在这些相关/不相关的页面上训练一个文档分类器，以进行集中抓取。训练后，我们开始与训练有素的重点爬虫的帮助下爬行。我们通过提供主题的相关网页作为种子链接来引导爬虫。3.2. 断链修复系统CIP 体系结构的第三个重要组成部分是断链修复系统（brLinkRepair）。当用户试图通过链接在页面中导航时，该组件非常有用，并且 CIP 中缺少指向链接的页面（ Martinez-Romo 和Araujo，2012）。brLinkRepair通过使用信息检索技术检索相关页面来修复这些断开的链接在该体系结构中，断开链接和包含断开链接的网页提供了可能与检索相关网页相关的术语。brLinkRepair的一个重要功能是查询生成。查询生成的任务是从包含Broken链接的页面中的信息源中搜索最相关的术语图图2示出了断链修复系统的体系结构。在这种方法中，必须非常仔细地选择相关的术语，否则不相关的术语将结果漂移到嘈杂的网页。为了实现这一点，我们探索了几个来源（如锚文本，URL的上下文，URL和包含断开链接的页面的全文我们还应用术语邻近技术来确定术语与锚文本和URL的邻近关系最后，将生成的查询提交给检索系统，检索排名靠前的网页，并向用户推荐位于顶部位置的页面brLinkRepair中另一个重要的子组件是链接类。fier。链路分类器的目的是对可修链路和不可修链路进行分类。这对于识别哪些链接可以推荐，哪些链接不可以推荐（通过使用CIP收集的网页）非常有用这是因为，在高度专业化的CIP收集的情况下，网络是在一个有重点的爬虫的帮助下爬行的，可能有许多链接，使用给定的CIP收集的建议是不可能的。例如，那些指向网站主页的链接及其指向的主页由于与CIP主题无关而丢失，或者指向大学/教室方向的链接，或者指向常见问题的页面，或者作者反馈等。虽然brLinkRe- pair可以为所有类型的链接提供推荐，但是，由于这些链接与CIP集合无关，因此检索到的网页很有可能是不相关的。这可能会造成挫折;因此，在链接分类器的帮助下从CIP集合中删除不可修复的链接是很有用的。4. 用于修复断开链接我们修复断开链接的任务类似于 Martinez-Romo 和 Araujo（2012）在万维网环境中修复断开链接的任务然而，以往的研究工作只关注于如何利用不同的信息源来生成查询，而忽略了如何将各种信息源结合起来以提高故障修复系统的效率此外，在以前的工作中使用的查询生成技术有一个局限性，它检索多个断开的链接时，源页面有许多断开的链接相似的页面。这是因为它只依赖于术语统计信息，如术语频率（tf）和文档频率（df）来识别查询的相关术语这项研究的目的是探索这些来源以及其他来源的帮助下，术语proximity和尝试结合所有信息源使用机器学习（学习排名）。为了设计有效的源组合，我们需要考虑几个因素：例如元素（在哪里提取查询词），权重（如何计算查询页面的相关性），接近度（是否关心术语的接近度）。对于元素，我们考虑四个信息来源，断开链接的锚文本、断开链接的URL、URL周围的上下文以及包含断开链接的页面的全文。对于权重，我们使用术语的低级特征，例如术语频率（tf）、文档频率（df），以及这些权重的组合，这些权重形成高级特征，例如tfxidf、bm25（Robertson和Walker，1994）和LM 2000（Zhai，2002）。除此之外，我们还利用锚文本和URL与URL周围的上下文和源页面的全文之间的接近关系。4.1. 要素（资料来源）Martinez-Romo和Araujo（2008）在他们的方法中调查了几个信息源，用于识别生成断开链接修复查询的相关术语在我们的方法中，我们也UTI-missing这些来源，并通过从这些来源中提取术语来生成查询。锚文本：锚文本通常提供更可靠的信息，由网页设计师给出的有关指向页面的内容。如果我们将其与指向页面的URL进行比较，则URL表面上是由目标网页的作者以外的人创建的，因此锚文本可能包括指向页面内容的摘要和替代表示。由于这些锚文本通常很短并且描述性类似于查询，因此商业搜索引擎广泛地将其用作对文档进行排名的重要部分（Eiron和McCurley，2003; Dang和Croft，2010）。URL（URL）提供的信息：除了锚文本，URL中的术语是链接直接提供的唯一信息URL的术语也为指向的页面提供有用的信息与锚文本类似，商业搜索引擎利用URL来确定页面是否与查询相关（Pant，2003; Benczúr等人，2006年;Chauhan和Sharma，2007年）。包含断开链接的源页面（SourcePage）提供的信息：Martinez-Romo和Araujo（2012）发现源页面的常用术语有助于修复断开的链接。●●●●●152S. 巴希尔/沙特国王大学学报ω¼URL（URLCon- text）周围的上下文提供的信息：源页面的全文可能包含许多与指向页面内容无关的术语。这就影响了检索的有效性。更可靠的来源是使用那些靠近URL位置的术语。我们通过在URL位置之前取20个术语和在URL位置之后取20个术语来生成URL周围的4.2. 使用词频（tf）和文档频率（df）锚文本和URL是短文本段。我们通过选择文档频率低于总体CIP收集40%的所有术语，从这些元素中生成查询。然而，源页面和URL周围的上下文通常有很长的文本段。对于这些元素，我们首先使用tf权重对元素中的所有术语进行排序，然后选择具有高tf权重的前15个5. 实验5.1. 收集、查询和相关性判断我们使用信息检索来修复断开的链接。我们的系统生成查询每个断开的链接和排名收集的网页检索相关页面。为了分析我们的系统的有效性，我们需要收集和一组断开的链接及其指向的网页（作为伪相关性判断），我们的系统可以执行排名，然后我们可以分析系统的有效性。集合：为了创建一个测试集合，我们使用焦点爬虫抓取互联网并下载与主题相关的网页。为了实现这一目标，我们首先从课程大纲中为“计算机导论”和“农业”定义了一套140个子主题的手册我们要构建两个CIP集合，一个用于“计算机入门”主题，另表1显示了几个子主题的示例列表。接下来，对于每个查询（通过假设每个子主题作为查询），我们训练一个聚焦的爬虫来抓取万维网以构建（特定主题）收集（Chakrabarti等人， 1999年）。为了获得相关和不相关的样本，我们通过假设主题术语作为查询来查询流行的搜索引擎（Google），并下载前20个结果并将其标记为相关样本。然后，我们再次查询搜索引擎使用不相关的查询接下来，我们使用LibSVM（Chang和Lin，2011）并在这些样本上训练聚焦爬虫训练后，我们只使用每个子主题的相关样本我们使用 Fish- Search 方法（Hersovici等人， 1998），并在它为每个主题下载500个文档时停止它。这个结果变成了140500每个CIP收集70;链接和相关性判断：对于断开的链接查询，我们需要一组指向集合中缺失的链接我们从CIP收集中搜索这些断开的链接。我们注意到我们的收藏包含三类链接。第一类包含那些没有被打破的链接，并指出与主题相关的网页第二类包括那些被破坏的链接，包含与主题无关的指向网页这些是我们的系统无法执行检索的链接第三类包含那些断开的链接，但是，这些链接与主题有很强的相关性。对于这些链接，CIP爬虫无法关闭-表1“计算机导论“和”农业“系列主题的样本列表CIP Crawler使用这些主题进行重点抓取。计算机入门农业农作物生产计算机的分类水土保持稳定的电源计算机羽衣甘蓝或卷心菜键盘布局农业销售中央处理器CPU供水和灌溉计算机处理器列出基本植物营养素计算机处理器速度描述各种类型的商店多任务操作系统水源计算机文件土壤采样程序图形用户界面GUI农场规划和预算由于分类器的错误分类或爬行限制（因为我们每个主题只下载500个文档），加载他们指向的页面。理想情况下，对于此检索任务，我们可以使用这些链接因为查询和我们的系统可以从集合中检索相关网页。然而，如果我们使用这些链接作为查询，那么为了执行有效性分析（即，检索到的网页是否与断开的链接相关），我们需要一组人类评估者，他们可以阅读集合的网页并为每个断开的链接推荐我们相关的网页。尽管这为有效性分析提供了更现实的测试平台，然而，这种方法需要时间和人力，因为人类必须为每个断开的链接阅读来自两个集合的大量网页。作为一种替代方案，我们可以使用第一类的完整链接作为查询，并将其指向的网页作为相关性判断。这种方法对于执行有效性分析也是有意义的，因为网页作者已经正确地提供了这些链接的指向网页。这给了我们一个廉价的测试-床，以分析断链修复系统的有效性。其次，以链接作为查询词，以链接指向的网页作为相关性判断，检索的任务是将这些网页排在最前面。我们使用这种方法并搜索集合，随机选择1000个链接作为伪断开链接。表2和表3显示了"计算机导论“和”农业“集合的伪断开链接列表5.2. 链接分类由于我们通过进行重点抓取来构建CIP集合，因此，CIP集合可能包含大量断开的链接，但我们的（断开链接修复）系统无法修复这些链接，因为它们指向的页面的内容与CIP主题没有任何相关性如果我们保留这些链接，因为它是在收集，然后在浏览过程中，用户可以点击这些链接，我们的系统将推荐不相关的网页给用户。我们希望在将其内容加载到Web浏览器之前从网页中删除这些链接。为了实现这一点，我们需要一个分类系统，可以帮助我们分类可修复和不可修复的断开的链接。为了实现这一点，首先，我们从我们的集合中随机收集链接的子集，并在阅读它们的锚文本、URL和指向页面的全文接下来，我们利用锚文本，URL和上下文URL和定义一组功能的基础上，条款tf和df统计分类这些链接到可修复和不可修复的catego-rizes。我们使用以下统计特征来训练链接分类器。avg_df_local：此功能计算使用集合中所有网页的链接项的平均df（文档频率）这有助于确定链接的术语是通用的还是特定于主题的。一些不相关的链接，如这些点-●●S. 巴希尔/沙特国王大学学报153表2“Introduction to computers“集合的伪断开链接示例伪断开链接#1（计算机简介）URL=http://en.m.wikipedia.org//wiki/Clock_rate锚文本=时钟速率URL = ed和/wiki/Wikipedia：Verifiability#Burden_of_evidence Wikipedia：Verifiability移除。（2009年9月）兆赫神话，或不太常见的千兆赫神话，指的是只使用... ./wiki/Clock_rate时钟速率时钟速率（例如以/wiki/Hertz#SI_multiplies Hertz megahertz或/ wiki/Hertz#SI_multiplies Hertz gigahertz为单位测量），用于比较不同/wiki/Microproc伪断开链接#2（计算机简介）URL=http://www.jegsworks.com/Lessons/lesson1-2/lesson1-1.htm锚文本=计算机类型围绕URL =（已知）的上下文以及您希望如何使用该空间（教学方法，多用途等）。设计服务是没有成本和义务。................................................................. 电脑桌-fseries.asp FI系列电脑桌flipIT液晶电脑桌fpseries.asp FP系列电脑桌半凹式液晶电脑桌fpseries.asp电脑桌srseries. asp SR系列电脑桌半嵌入式CRT电脑桌computer-desks-dtseries.asp表3“农业“集合的伪断开链接假断链#1（农业收藏）URL=http://www.government.nl//issues/agriculture-and-livestock/animals/animal-welfare锚文本=动物福利Context around URL =善待动物。这些规则可能是关于照顾家养宠物或对虐待动物采取更强硬的立场，但也可能同样涉及防止传染性动物疾病爆发的措施。issues/agriculture-and-livestock/animals/animal-welfare动物福利/issues/agriculture-and-livestock/animals/prevention-and-control-of-animal-diseases动物疾病的预防和控制假断链#2（农业收藏）URL=http://smallfarm.about.com//od/landpreparation/a/Fall-Soil-Amendments.htm锚文本=秋季土壤修正将讨论URL =从传统方法到免耕方法再到少耕方法的背景。无论你有一个宅基地，一个小型的业余农场或一个小规模的农场，你会在这里找到正确的耕作方法。od/landscapeation/a/Fall-Soil-Amendments.htm秋季土壤改良秋季是一个很好的时间来美化你的土壤覆盖农作物、堆肥和其他改良物。od/landpreparation/a/Why-Test-Your-Soil.htm进入带有"主页“、”常见问题解答“、”反馈“或"页面顶部“标签的主页时我们计算所有源（锚文本，URL，URL周围的上下文）的avg_d-f_local。这个结果分为三个子特征。avg_cf_local：此功能类似于avg_df_local。唯一的区别是我们使用术语在集合中的频率而不是文档频率。avg_df_global：此功能计算所有术语的平均文档频率（df）。然而，对于此功能，我们从全局源“web IT 5-gram Version 1”（来自语言数据联盟（LDC）5的数据集）中确定术语的df，与avg_df_local类似，我们计算所有源的avg_df_globalavg_tf：这个特性计算源页面中如果一个链接的内容与CIP相关，那么它在源页面中的术语可能会有很高的tf分数我们只计算锚文本和URL的avg_tf这导致两个子特征。鉴于上述特征，我们使用LibSVM（Chang和Lin，2011）训练分类器，并发现它实现了约80%的分类准确度，用于分类可修复和不可修复的链路。接下来，对于检索，我们只使用那些被分类为可修复的链接。5.3. 有效性度量我们使用三种信息检索的有效性指标来测试断链修复系统的有效性。查全率：查全率是指检索到的相关文档数相对于集合中需要检索的文档总数的比率。对于这个评估测试，我们计算-5https://www.ldc.upenn.edu/。在等级位置1（R@1）、等级位置3（R@3）和等级位置10（R@10）检索结果的后期回忆。平均倒数排名（MRR）：回忆对相关网页的排名位置不敏感（即，它不提供相对于相关网页的排名位置的评估结果）。平均倒数排名通过计算正确网页的排名位置的乘法逆来关注这个因素（Voorhees，2001）。一个系统，检索相关网页的断裂链接在顶部的位置提供了高的MRR分数。余弦相似度：上述两种评估方法都只使用相关性判断（判断网页）来评估系统的有效性这些措施不能计算，晚的有效性时，相关性判断没有检索到的最高职位。然而，在查询处理过程中，我们的系统显示了几种情况下，当相关性判断不能检索到的顶部位置，但在顶部位置的网页内容几乎相同的判断网页。理想情况下，这种检索结果也显示出高效率。为此，我们采用向量空间模型对检索到的网页进行相似性分析，将检索到的网页转化为词向量，计算其与相关性判断内容的余弦相似距离我们计算了检索结果在位置1（Sim@1）和秩位置3（Sim@3）的余弦相似度5.4. 来源的有效性分析表4和表5显示了我们用于查询生成的所有信息源的有效性根据所得到的结果，取得高有效性的源是包含断开链接的源页面的内容。这表明源页面包含有用的术语，这可以增加检索结果的有效性。在其他来源中，URL也表现出比锚文本和上下文周围更好的效果●●●154S. 巴希尔/沙特国王大学学报表4信息源（URL、锚文本、URL周围的上下文和源页面）对“计算机介绍”主题收集的有效性查询源检索召回MRR余弦相似度模型R@1时R@3R@10时MRRSim@1Sim@3锚Anchor_tf0.090.140.210.120.29 0.36Anchor_df0.060.090.180.080.31 0.33锚点_tfxidf0.100.170.250.140.29 0.35锚_bm250.160.220.320.180.29 0.37锚_LM20000.180.260.310.210.29 0.37URLURL_tf0.150.220.360.180.58 0.61URL_df0.180.250.390.210.59 0.66网址_tfxidf0.200.240.390.220.62 0.68网址_bm250.320.370.510.360.61 0.73网址_LM20000.290.360.500.320.54 0.66URLContextURLContext_tf0.130.220.330.160.57 0.61URLContext_df0.140.230.360.180.59 0.64URLContext_tfxidf0.130.240.360.170.61 0.64URLContext_bm250.160.240.350.200.62 0.70URLContext_L

下载后可阅读完整内容，剩余1页未读，立即下载