动态阈值聚类的网页导航预测模型的研究

107 浏览量更新于2024-01-16 收藏 883KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于动态阈值聚类的网页导航预测Honey Jindal，Neetu Sardana印度诺伊达Jaypee信息技术学院计算机科学与工程系阿提奇莱因福奥文章历史记录：收到2019年2020年2月22日修订2020年3月4日接受在线预订2020年关键词：马尔可夫网络KMMM阈值几何分支因子动态预测A B S T R A C T随着网络用户的不断增长，Web导航预测是一个热门的研究领域。捕捉用户过去已经开发了几种导航模型。大多数模型依赖于固定阈值机制进行预测，这是不够的，因为它们需要多个计算步骤，不一定能给出最佳可能值。为了解决这个问题，我们提出了两种基于动态阈值的模型：基于几何阈值的全K次修正马尔可夫模型（KMMMG）和（b）基于分支因子阈值的全K次修正马尔可夫模型（KMMMBF）。我们的实验表明，较长的导航是罕见的，是高度相关的。然而，较小的导航更多且更少相关。与固定阈值模型相比，动态阈值模型产生更优的预测KMMMBF在CTI、MSWEB和BMS数据集上表现最好，预测准确率分别为78.53%、91.32%和61.37%。©2022由Elsevier B.V.代表沙特国王大学出版。这是一篇开放获取的文章，CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍随着网络博客中丰富的网页导航模式的出现，如何获取有用的导航模式成为研究者关注的焦点。基于用户过去浏览过的网页预测用户未来的浏览行为是研究的重点之一。这个过程通常被称为Web导航预测（WNP）。WNP可以为企业提供巨大的好处，因为网站上的网络用户的导航行为可以支持改进网站结构（Carmona等人，2012）、web缓存性能（Dimopoulos等人，2010 ）、网页检索（Abrishami等人，2012）和个性化浏览体验（Amazon Personalize）。流行的电子商务网站之一 Amazon 使用类似用户的浏览模式进行推荐（ AmazonPersonalize，xxxx; Ben等人，xxxx）。在该网站上，用户的建议书使用的短语， “ 客户谁买了这个项目也买了 ” 。另一个常用的网站youtube.com使用影响搜索*通讯作者。电子邮件地址：neetu. jiit.ac.in（N. Sardana）。沙特国王大学负责同行审查根据这些结果提出建议。建议在主页上以应用内通知和建议视频的形式给出。Similarweb.com，一个网站挖掘用户导航模式，并提供各种网站流量统计数据，如整体访问，时间，每次访问的页面浏览量和跳出率等。这些统计数据可以帮助重组和改进网站设计。导航预测模型的主要关注点是向用户呈现最相关的信息。然而，问题是，“应该提供多少相关信息？”仍然没有答案。这个问题可以通过确定最佳预测阈值来解决。Elizabeth等人（2008）发现阈值的选择会对模型性能产生显著影响。阈值创建了一个决策边界，将相关和不相关的信息隔离开来。决定用于导航预测的阈值是一项重要的任务，因为高阈值可能给出稀疏的结果并且可能排除重要的建议。类似地，低阈值将提供过多的琐碎建议并且将导致信息过载。因此，必须找到使模型达到最佳性能的最佳阈值。在过去的研究中，开发人员已经执行了几种尝试方法来设置阈值。首先，在Web导航预测中，固定阈值已被广泛使用。固定阈值根据实例的百分比（50%标准）或实例的数量（前k个值，其中k是高可能网页的数量）来设置。Chen等人https://doi.org/10.1016/j.jksuci.2020.03.0041319-1578/©2022由Elsevier B. V.出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comH. Jindal，N.Sardana/ Journal of King Saud University2821（2006）使用50%的标准将导航模式分类为预定义的类别。50%标准通常用于二元类的情况 Elizabeth等人（ 2008）指出，0.5（50%）阈值是不可靠的，有时会导致预测精度低，并可能对预测决策产生不利影响。由于Web导航有大量的类，所以这个标准并不可取。在Top-k准则中，k的值通常由开发者固定。在过去的研究中，几个蛮力的方法来寻找最佳值的k。确定k的值通常是一项具有挑战性的任务，因为它需要进行详尽的实验或尝试，这些实验可能不一定会给出k的最佳可能值。在过去的研究中（Awad和Khan，2007; Awad和Khalil，2012），导航预测的结果已经显示在不同的k值上。Top-k标准不考虑网站导航模式，而只关注准确性。在现实世界中，每个网站都是不同的，所以它的导航模式。每个网站导航模式在网页的数量、网络链接、导航长度等方面不同。由于网站的不同特征，希望计算对应于每个网站的阈值。为了进行相关性和质量预测，本文提出了两种动态阈值计算方法：几何阈值（TG）和分支因子阈值（TBF），它们利用了网站的导航结构。信任基于两个因素--支持和信任.支持度表示频繁的导航模式，而置信度表示导航模式的强度。支持和信心使用重要的网站导航结构特征，如一些状态（网络日志会话），一些外链接和它们的转移概率。外链接的强度依赖于国家之间的相关性和相应的外链接。导航预报模型一旦建立，一般就采用等待控制过去已经开发了几种导航预测模型，用于揭示驻留在网络日志中的用户导航的模式。为了发现未来的导航模式，马尔可夫模型及其变体是流行的选择，现有技术（Awad和Khan，2007; Awad和Khalil，2012; Deshpande和Karypis，2004）。Jindal和Sardana（2016）进行了一项实证研究，比较了最先进的基于马尔可夫模型的状态，发现全K修改的马尔可夫模型（KMMM）在网络导航预测方面表现最好。他们发现KMMM是导航场景的紧凑表示，并且在准确性和覆盖范围方面更好。因此，我们使用KMMM作为基线模型。本文提出了两种新的动态阈值模型：基于几何阈值的全K次修正马尔可夫模型（KMMMG）和基于分支因子阈值的全K次修正马尔可夫模型（KMMMBF）。所提出的模型的性能进行了验证，使用覆盖率和准确性的措施。实验在CTI、MSWEB和BMS三个真实数据集上进行。在不同的会话长度下，评估了基于动态阈值的模型相对于基于固定阈值的模型的有效性。已经观察到，与基于固定阈值的模型相比，基于动态阈值的模型以更少的计算工作量提高了模型性能。这项工作的研究贡献总结为如下所示：提出了两种基于动态阈值的网页导航预测模型：基于几何阈值的全K次修正马尔可夫模型（KMMMG）和基于分支因子阈值的全K次修正马尔可夫模型（KMMMBF）。在CTI、BMS和MSWEB三个真实标准数据集上对模型进行了评价.动态阈值的影响已经分析了不同的N-克，其中N从1到6变化此外，所提出的模型的性能进行了比较，与Web导航预测模型，使用固定的阈值，Top-1 Top-5。我们得到了N元文法上的几何阈值和分支因子阈值之间的关系。本文的结构如下。第2节介绍了初步情况。第3节介绍了提出的方法。计算步骤和实验结果见第4节和5，分别。第6节概述了相关工作给出了第7章结束工作2. 预赛本节介绍了Web导航预测的框架为了解释这些术语，我们考虑一个用户导航会话的例子，如图1所示。 2.1. 这个例子将在整个文件中用于说明模型的建立和评估过程。2.1. Web导航预测Web导航预测是根据用户过去浏览过的网页来发现用户未来的导航行为的过程。本文提出了一个Web导航预测的框架，该框架包括五个阶段：Web日志数据收集、数据预处理、模型建立、阈值计算和模式发现。图 1阐述了Web导航预测的基本框架。最初在数据收集阶段，用户的导航历史记录从Web服务器中提取并存储在Web日志文件中。网络日志中的每个条目包括诸如推荐人和发布人的IP地址、访问的时间和日期、访问的URL和引用的URL等信息在预处理阶段，这些文件被清理以生成有意义的会话（Facca和Lanzi，2005）。在预处理过程中，离群值或不相关的数据（如图像、音频或视频）被删除，并形成会话。会话表示用户导航的网页序列，用于构建模型。一旦模型被开发出来，就使用阈值对其进行评估，然后获得预测在本文中，我们专注于阈值计算阶段。所提出的基于阈值的模型KMMMG和KMMMBF利用决策边界来改进预测。2.2. Web导航预测在本节中，我们将介绍与Web导航预测密切相关的重要术语。我们将用图2.1所示的例子来解释这些术语。该示例显示了用户导航的各种会话。● Web日志会话在预处理阶段，从Web日志文件中识别会话。Web日志会话是用户单击流导航的时间戳序列。用户导航操作，如搜索所需信息或点击Web结果，记录在weblog文件中。会话是由用户导航的一组网页（Pi）。会话S表示为●●●2822H. Jindal，N.Sardana/ Journal of King Saud University·········P1P5P4PP预处理模型构建PP2PPP6P2P4PPSWeb日志文件预测阈值计算Fig. 1. Web导航预测框架。用户会话用户会话ID ID1 1 P9 P2 P5P41 2 P9 P3 P5 P4 P62 3 P3 P2 P4 P63 4 P3 P2 P53 5 P3 P2 P5 P64 6 P4 P9 P3 P52.1用户导航会话2.2一阶MMM2.3二阶MMM图二. 从用户导航会话生成的修改的马尔可夫模型（MMM）。{P1;P2;：Pn}其中n是会话长度。每个会话都分配有一个唯一的会话ID。Web用户还被分配了一个唯一的用户ID。用户可以遍历一个或多个会话。图2.1显示了四个用户浏览的网页序列。可以清楚地观察到，用户1和3已经导航了两个会话，而用户2和4仅导航了单个会话。● 国状态是weblog文件中存在的唯一导航会话我们使用N-gram滑动窗口的概念来生成状态其中使用固定长度的网页对形成会话N-gram也被称为模型的阶数图图2.2显示了一阶模型，其中每个状态的长度为1。在一阶MMM中形成的状态数是六个，在二阶模型中是十个（图2.2&）。 2.3）。● 链路链路是两个状态之间的连接路径。链接根据其目的地进行分类。从一个状态连接到当前状态的链路称为in-link。的链路H. Jindal，N.Sardana/ Journal of King Saud University2823ð ！Þ¼ð Þ技术支持.P不将当前状态连接到其他状态称为out-link。从图2.2到图2.3，一阶模型和二阶模型中形成的链接总数为10。2.3. Web导航预测模型在本节中，我们将讨论基于阈值的Web导航预测所需的各种流行的基于马尔可夫的本文介绍了传统的马尔可夫模型及其变体，修正的马尔可夫模型和全K次修正的马尔可夫模型。● 马尔可夫模型过去已经开发了几种WNP模型来发现未来的导航模式;其中马尔可夫模型及其变体是流行的选择（Awad和Khan，2007;Awad和Khalil，2012; Deshpande和Karypis，2004; Jindal和Sardana，2016）。马尔可夫模型是一个随机过程。它们通常用于模拟不同状态序列的概率以及它们之间的转换速率。这里，在针对给定web会话的web导航预测中，每个状态表示一个web页面，状态之间的转移概率表示web页面之间的链接。转移概率是网页出现的可能性，假定先前导航的网页集合被处理，其可以被给出为，3. 基于动态阈值的Web导航预测本节介绍了两种基于动态阈值的Web导航预测模型。动态阈值可以根据会话长度设置不同的阈值。它们考虑各种网络参数：会话长度、状态和外链。本文中使用的动态阈值是几何阈值（ TG）（Borges和Levene，2000; Borges和Levene，2004）和分支因子阈值（TBF）（Borges和Levene，2000;Borges和Levene，2004）。几何阈值使用网络属性，而分支因子阈值使用网络属性和分支因子（网络的宽度）。一旦定义了阈值，就执行模型预测。利用动态阈值的优点，我们提出了两个模型： KMMMG 和KMMMBF.KMMMG是基于几何阈值的模型，KMMMBF是基于分支因子阈值的模型。生成KMMMG和KMMMBF的详细过程分别在第3.1节和第3.2节中说明。3.1. 型号1：KMMMG为了开发KMMMG ，我们使用了基线马尔可夫模型 KMMM 。KMMM是一种嵌套模型，其中所有K阶MMM以分层方式组织。在预测期间，从高阶到低阶MMM进行搜索。最后的预-PABlAlAð1Þ词集可能具有不相关的信息。因此，设置阈值以找到相关的预测集。开发此模型的想法是利用其中m表示频率，l<$A;B<$是web页面A、B一起出现，lA是网页A出现● 修正马尔可夫模型改进的马尔可夫模型（MMM）是马尔可夫模型的一种变体，用于对用户的导航行为进行建模。该模型通过将一组相似的网页组合为单个状态来压缩训练数据。一阶和二阶MMM模型的图形表示，其中关联状态与转移概率相关，如图所示。图2.2和图2.3。MMM提供了对网页的成对关系的洞察，其中每个链接都被分配了基于状态的频率及其对应的链接。因为，MMM是一个紧凑的模型，每个状态对应更多的外链。外链的增加使预测覆盖范围更广，预测精度更高。● 全K阶修正马尔可夫模型（KMMM）KMMM是一种嵌套模型，它包括嵌入在高阶MMM内的低阶MMM。这里，K表示模型的阶数。例如，在二阶MMM（K = 2）中，嵌入一阶模型。KMMM的预测过程是模型，如状态、外链、总会话、会话长度和转换概率。在该模型中，几何阈值（TG）计算为每个K阶，并用于作出预测。在K阶MMM中触发对长度为K的输入会话S的搜索，并且使用K阶几何阈值TGK进行预测。如果状态在K阶模型中不可用，则模型在其下一个较低阶（K-1）中搜索会话。对于（K-1）阶模型，通过（K- 1）阶几何阈值TGwk K-1 k进行预测。如果模型没有做出任何预测，则搜索将在其低阶模型中继续，并使用相应的几何阈值进行预测。这个过程一直持续到做出预测或者模型没有得到任何预测。获得几何阈值所需的计算在以下部分中描述。3.1.1.几何阈值（TG）几何阈值使用网络的几何属性，即，状态、外链、总会话和用于固定阈值的会话长度。这些属性用于计算支持度和置信度。支持阈值过滤不频繁或罕见的会话。置信度阈值修剪具有低转移概率的状态。支持度和置信度值计算为，不同于基本的MMM。例如，假设一个测试会话是P6，P2>。搜索将从二阶MMM开始。由于测试集在二阶训练模型中不可用;因此，1不1/ 1FSið2Þ将剥离测试会话的第一个网页，然后将开始搜索一阶MMM中的会话P2>届会以来在一阶MMM中找到，相应的预测其中FS =1;如果l>AFS且0;否则PT1lSi可以得到在下面的部分中，我们提出了两个建议模型其将基于网络属性生成预测。该模型使用动态特性，产生不同的，平均频繁状态这里，T是状态的总数，T1/ 1lSi 总的来说，不同的会话长度有不同的阈值。状态频率。FS是表示会话是否是否频繁。2824H. Jindal，N.Sardana/ Journal of King Saud University信心不足。Pn←¼←ð1/ 1¼不不1/ 1OSi！ð3Þ3.2.1. 分支因子阈值（TBF）分支因子阈值对结果进行二分。它提供了使用几何和分支属性的预测限制，其中PTOSi是对应于每个状态网络，即，状态、外链、会话总数、会话长度和分支。此阈值利用支持几何阈值（TG）是受会话长度n影响的支持度（h）和置信度（d）度量的乘积，由下式给出：TG¼hd400和置信度测量以及分支因子（网络的宽度）。分支因子很重要，因为它描述了每个状态的预期外链数量。分支因子（BF）被计算为唯一外链的总数与唯一状态的总数的比率。3.1.2. KMMMG算法所提出的算法1示出了获得预处理所需的步骤。模型分支因子Outlinks的数量ð5Þ使用KMMMG.培训课程（TS）和课程长度(K) 作为模型的输入在步骤2-然后，在步骤5-9中m阶MMM。在步骤12中，生成的模型将预测webÞ¼国家数量使用等式（2）、（3）和（5）分支因子阈值（TBF）被计算为，（hdn使用该层的几何阈值为每个测试会话创建一个或多个页面如果m阶模型的预测集非空（即，PSimTBF¼BFn- 1;如果n-1≥ 1，干扰素1/40ð6Þ低阶，m-1。如果第m阶模型的预测集非空，则第i个测试会话不需要进一步搜索，因此m变为0。对于每个测试会话i，搜索将继续，直到做出预测或模型无法生成预测。算法1KMMMG输入：TS是训练会话的总数，T是状态的总数，n是会话的长度，K是模型输出：PS ={Pi;Pj;················Pc}，其中PS是预测集拥有模特程序KMMMG（TS，K）1. PS {}2. 对于每个K3.从TS4. 端5. 对于每个m← 1到K6.计算支持，hm使用等式（二）7.使用公式计算置信度dm（三）8.计算几何阈值，使用等式（四）9. 端10. ForEachi← 1 to h // h是测试会话11.对于每个m← K到1 // m是MMM12.PSIM ¼使用TG模型进行13If（PSim14.PSi PSim15.打破16.端17. 端18. 返回PS3.2. 推荐型号2：KMMMBF所提出的模型KMMMBF利用几何特性3.2.2. KMMMBF算法提出的算法2描述了使用KMMMBF生成预测所需的步骤。首先，给出训练会话（TS）和会话长度（K）作为输入，以构建所有订单的模型，如步骤2-4所示。一旦为所有阶次形成模型，就为每个阶次计算支持度、置信度、分支因子和分支因子阈值m，如步骤6-9所示。在步骤13中，模型使用第m层的分支因子阈值来预测每个测试会话的网页步骤14，检查m阶模型是否PSim-如果模型在第m阶进行预测，则对于测试集i将不继续搜索这种搜索将在每个测试会话中继续，直到做出预测或模型无法生成预测。算法2KMMMBF输入：TS是会话总数，T是状态总数，n是会话长度，K是模型阶数输出：PS ={Pi;Pj;················Pc}，其中PS是预测集拥有模特程序KMMMBF（TS，K）1. PS {}2. 对于每个K3.从TS4. 端5. 对于每个m← 1到K // m是MMM6.计算支持，hm使用等式（二）7.使用公式计算置信度dm（三）8.使用等式计算分支因子BFm（五）9.使用等式计算分支因子阈值，TBFm）（六）10. 端11. ForEachi← 1 to h // h是测试会话12. 对于每个m← K到1 // m是MMM13.PSIM ¼使用TBF公式进行网络的附加信息，如用于阈值计算的分支因子分支因子决定了网络中每个状态对应的外链平均数KMMMBF以与KMMMG类似的方式工作，但唯一的区别是KMMMG在每层中使用几何阈值TGk进行预测，而KMMMBF通过分支因子阈值TBFk14If（PSim15.PSi PSim16.打破17.端18. 端19. 返回PSH. Jindal，N.Sardana/ Journal of King Saud University2825PlI¼XTO185PSi不秒速时时彩4. 建议算法的计算步骤：KMMMG KMMMBF在本节中，我们将演示为不同的会话长度推导阈值所需的详细计算步骤。在图中应用N-gram滑动窗口。 1（a）中，分别在表1和2中呈现了1克和2克的所得唯一会话。示例1：在该示例中，示出了1元TG和TBF计算。从训练会话（图2.1）中，总共形成了六个独特的网页，例如P2，P3，P4，P5，P6，P9。在此，总的唯一web状态等同于网页的总数（即，T =6）。每个状态的频率是Pi，m>，其中Pi是会话中的第i个网页，并且m是与网页Pi相对应的频率。频率计算如下：、P3，5>、P4，3>、P5，3>、P6，0>和P9，3>（如图10所示）。表1）。由于P6没有外链，因此它不会对预测做出贡献。表2长度为2的Web会话。Web会话状态频率外链频率？ P5< P9，P2>？ 11？ P4< P2，P5>？ 21？ P5< P9，P3>？ 22？ P4< P3，P5>？ 11？ P6< P5，P4>？ 11？ P4< P3，P2>？ 31？ P6< P2，P4>？ 11？ P3< P4，P9>？ 11？ -< P4，P6>？ 00？ -< P4，P9>？ 00和P4，P9>没有外链，我们从计算中丢弃这样的状态。状态总数T = 8T8第10节因此，我们在计算中丢弃P6。现在总数剩余状态的数量为5（T = 5）。状态的总频率s;l¼XlSi¼XlSi1/11/1T5¼122 11311状态的总频率s;l¼XlSi¼XlSi1/11/1¼12¼ ð4þ 5þ 3þ 3þ 3Þ¼ 18不平均频繁状态数AFS1/2/1Si121： 5平均频繁状态PT1lSi不18三分之三：六电话：+86-21 - 88888888X高于平均数的州数1/ 11FSi¼ 21支持h11¼20：33PPT1/ 1我FSi3使用，Eq. （2）、信心指数。PT5002019 -01- 2700：00：00状态数5.T！8硅使用，Eq. （4），分支因子外链路数2自信满满TO1/ 12019- 09- 2800使用，Eq.（3）、几何阈值0： 5ω0：2771¼ 0： 1385分支因子BF外链数量101 25使用，Eq. （5）、分支因子阈值Þ¼国数目 ¼8¼：HDn沪ICP备15015050号-11997年-1999年12月2019-01- 22示例2：这里，详细说明了用于构建2元语法TG和TBF计算的计算步骤从训练GeometricholdTGh dn0：33ω0：8820：255在图2.1中给出的会话中，总共形成了十个独特的2元语法状态，例如P9，P2，P2，P5，P9，P3，P3，P5，P4，P3，分支因子HDnn- 1¼0： 33ω 0：882¼2比 1P2>、、、和。 2.3. 在此，状态的总数（即，T = 10）。每个状态的频率由（Pi;Pj>，m）给出，其中Pi;Pj>是表示针对-联系我们2019 -04 -2400：00：002019 - 01-25从网页Pi到网页Pj的方向导航。计算每个状态的频率为（P9，P2>，1）、（P2，P5>，2）、（P9，P3>，2）、（P3，P5>，1）、（P5，P4>，1）、（P3，P2>，3）、（P2，P4>，1）、（P4，P9>，1）、（P4，P6>，0）和（P4，P9>，0）。由于状态P4，P6>表1长度为1的Web会话。Web会话国家频率外链频率P9？ P2P9？ 31P2？ P5P2？ 43P5？ P4P5？ 32P9？ P3–2P3？ P5P3？ 52P4？ P6P4？ 32P3？ P2–3P2？ P4–1P5？ P6–1P5？ P6–1Þ¼高于平均数的州数;不1/ 1FSi¼ 3使用，Eq.（1）、支持服务1/ 12826H. Jindal，N.Sardana/ Journal of King Saud University阈值随会话长度而异。因此，我们进一步研究了会话长度对图3中阈值的影响。对于长度为1的会话，“几何阈值”和“分支因子”的值相同。长度为2的会话的分支因子是几何阈值与分支因子的比率由此，我们可以推断TG等于或大于TBF.对于长度为N的会话，分支因子阈值被导出为几何阈值与分支因子阈值N-1的比率。由此我们得出结论：TG的值总是大于TBF。只有当BF = 1时它们才相等，即，当网络具有对应于每个状态的一个外链路时。5. 实验结果为了证明我们提出的模型的有效性，我们比较了基于动态阈值的模型与基于Top-k固定阈值的模型的性能H. Jindal，N.Sardana/ Journal of King Saud University2827公司简介1/1不表3数据集统计。数据集源年届会议个不同的页面Avg.会话长度CTIwww.cs.depaul.edu200213,7456835.00MSWEBwww.microsoft.com199838,0002943.00BMSwww.gazelle.com200059,6014972.42图三. 会话长度对阈值的影响。5.1. 实验装置我们使用N-Gram滑动窗口概念来形成会话。我们实现了导航预测模型considering会话长度范围在2和10之间。数据集被分为两组：训练（70%）和测试（30%）.我们使用以下数据集评估所提出的模型的性能CTI数据集：德保罗CTI大学网络服务器的博客记录了2002年4月期间的两周。数据包含不同长度的用户导航历史。过滤过程用于删除大小为1的会话。过滤后，有13,745个会话和683页。每个网页有16个类别，从1到16。的平均长度5.2. 评价参数我们使用了两个参数来评估所提出的模型的性能：覆盖率和预测精度。覆盖率衡量预测的可能数量预测准确性衡量预测的相关性或正确性。这些参数对于衡量模型预测的数量和相关性非常重要。a) 覆盖率：覆盖率定义了给定测试数据集可能的预测的平均数量覆盖率可以表示为每个测试会话可能的总预测与数据集中测试会话总数的比率。PTOi不过滤的会话数为5。MSWEB数据集：此数据集是从Microsoft日志中收集的。该数据集包括1998年2月38 000名随机用户的记录。每一行都表示为用户访问的网站区域（Vroot）的序列在一个星期内。每个用户都由序号标记。例如，用户1400。有294个独特的Vroot通过其标题和URL进行标识。其中Oi是对应于第i个测试会话的可能外链的数量，T是测试会话的总数。b) 预测精度：预测精度定义模型做出的正确预测。预测准确度可以表示为正确预测的总数与数据集中测试会话的总数之比PTCi● BMS WebView 1数据集：该数据集收集自预测精度1/1ð8Þ电子商务网站服务器日志。数据集被用作从Gazelle.com获得的2000年KDD杯比赛的一部分。它包含59，601个项目序列，并包含497个不同的项目。这些数据集的详细特征见表3。对于每个数据集，都提到了来源、年份、会话数、不同页面数和平均会话长度其中Ci是对应于第i个的正确预测的数量测试会话，T是测试会话的总数5.3. 结果为了验证基于动态阈值的网页导航预测模型的性能CTI、MSWEB和BMS三个真实数据集动态阈值●●ð7Þ2828H. Jindal，N.Sardana/ Journal of King Saud University基于所提出的模型KMMMG和KMMMBF已经与KMMM1和KMMM5相一致，将固定阈值视为Top 1和Top 5。表4显示了对应于不同会话长度（N-Gram）的不同阈值从表4中可以看出，对较长会话的支持较少，这意味着较长会话的频率较低我们还注意到，对于所有数据集，较长会话的置信度都很高，这表明较长会话的相关性更高几何阈值和分支因子阈值是基于支持度和置信度的Web导航预测方法。阈值随着时间的推移而下降，因为模型中缺乏较长的训练示例。模型的预测能力可以用覆盖度量来衡量覆盖率定义了已经做出的预测的大小;换句话说，推荐给用户的网页数量。使用基于动态和固定阈值的模型的网络导航预测的覆盖范围如表5所示。在CTI数据集中（表5（A）），KMMM5的覆盖率略好于KMMM1。通过比较动态门限模型，KMMMBF在较小的会话数下具有较高的覆盖率表5涵盖拟议模型和现有模型。N-GramKMMM1KMMM5KMMMGKMMMBFA）CTI数据集14.567.9811.4311.4325.227.6312.8531.7936.217.0211.3415.7446.006.1814.686.8454.925.7117.446.5765.286.0120.947.25B）MSWEB数据集11.005.469.871.4621.166.379.3121.2431.315.114.927.1141.354.064.145.0851.323.553.744.5061.253.513.734.35C）BMS数据集11.017.047.0414.4021.275.685.718.0833.504.114.204.5841.233.874.234.4751.133.704.064.281.16 3.56 3.99 4.14长度（2-硫酸盐（4-6克）。我们也注意到，KMMMG和KMMMBF高于基于固定阈值的模型。在MSWEB数据集中（表5（B）），KMMM1的覆盖率相对低于其他模型。KMMM5在覆盖率上显示出超过KMMM1 的显著改进。比较动态阈值模型，KMMMBF是高于KMMMG在所有的会话长度，除了1克。同样，在BMS数据集中（表5（C）），KMMMBF的覆盖率高于所有其他模型。评估预测质量的另一个重要指标是预测准确性。表6示出了所提出的模型和现有的固定阈值模型在不同会话长度（N-Gram）上的预测准确度。图4是表6的条形图表示。从图4（a-c）可以看出，当会话长度较小时，所有模型都能给出更好的预测。KMMM1具有非常低的预测精度，因为它具有较小的预测大小。KMMM5给出了比KMMM1更好的结果。比较基于动态阈值的模型，KMMMBF在所有数据集上的表现优于KMMMG，因为 KMMMBF的覆盖率和预测精度高于其他模型。下一节解释了与本文所述工作密切相关的阈值计算文献6. 相关工作设置阈值是提高WNP算法性能的重要步骤之一。可以设置阈值来评估模型的性能。表7列出了过去的研究，总结了用于模型评价的各种基于阈值的技术。在文献中，存在几种固定阈值设置技术，其使用实例的数量或实例的百分比来判断模型的性能通常，机器学习模型使用0.5作为阈值。 Chen等人（2006）观察到，默认阈值0.5保持了灵敏度和特异性之间的平衡。用于开发机器学习分类器的预测工具（Scikit-Learn，xxxx（Lichtenwalter，2012）强调，0.5表4对应于不同会话长度的阈值N-Gram支持信心几何阈值（TG）分支因子阈值（TBF）A）CTI数据集10.1020.1270.0130.01320.1110.4150.0190.00830.1250.6180.0290.01840.2240.3740.0040.00150.0750.9180.0480.06860.0310.9690.0250.024B）MSWEB数据集10.1600.0470.0070.00720.1450.3100.0140.00430.1550.6280.0380.00940.1360.8340.0660.03950.0610.9380.0440.03660.0240.9770.0210.020C）BMS数据集10.2800.0370.0100.01020.1890.4370.0360.01530.1680.7870.0820.05040.0620.9310.0470.03850.0250.9790.0220.02060.0110.9930.0100.010H. Jindal，N.Sardana/ Journal of King Saud University2829表6不同会话长度下的建议模型和现有模型的预测精度N-GramKMMM1KMMM5KMMMGKMMMBFA）CTI数据集126.3967.2178.5378.53230.3349.5253.7869.80326.8243.8942.2054.54433.2739.4340.3841.48532.6440.0741.0742.45619.0537.7138.7540.21B）MSWEB数据集135.6973.8591.3291.32237.9974.5679.3583.61338.3863.0963.6065.66437.1154.9855.2156.36535.1349.8750.1051.17633.4347.8347.8448.99C）BMS数据集125.4754.0661.3761.37226.8244.6044.6946.38337.0740.1639.9240.54426.9439.4539.8040.09526.7539.7340.0040.3524.73 36.08 36.76 37.03（2012）已经使用前1到前8个等级值来分析他们提出的模型的性能，这意味着预测模型已经被执行八次以进行评估。Shi等人（2019）使用了top-k（k = 5和10）阈值进行位置预测。Wagh和Patil（2017）将网络视为无向图，其中深度优先搜索算法已用于网络导航预测。他们使用了两个固定的阈值：边缘阈值和聚类阈值。他们进行了11次实验，以找到最佳的边缘阈值和聚类阈值.基于模型性能，选择最佳排名值。固定阈值技术遵循穷举搜索标准。这些技术重复多次，以获得模型性能最佳的最佳秩值。这个重复的过程需要更多的实验，并且随着每次重复计算步骤呈指数增长。或者，存在一些动态阈值，可以设置为优化模型的准确性，通过几个性能指标进行验证：灵敏度，特异性和受试者工作曲线（ROC）。菲尔丁和贝尔（1997）定义了一个阈值，其中灵敏度等于灵敏度。他们的目标是设定一个阈值，在这个阈值中，积极和消极的结果对类的变化是相等的。作为一个正确的预测。 Hernandez等2006年：最大化阈值选择的灵敏度和特异性之和。另一值非常适合于其中类是平衡的二进制分类。有时研究人员将该值改变为0.3（Robertson等人，2001）和0.05（Cumming，2000）。这些变化是任意的，没有普遍的基础。从表1可以看出，固定阈值主要用于WNP。其中最流行的是基于排名的方法，即Top-k标准（Awad和Khan ， 2007; Awad 和 Khalil ， 2012; Jindal 和 Sardana ， 2016 ，2018，2019; Michalis等人，2008; Borges和Levene，2007），其中k表示预测大小，其范围为1，2，.. ，k。Awad和Khan（2007）以及Awad和Khalil一种方法是选择一个阈值，将满足业务需求的deliberately。菲尔丁和贝尔（1997）讨论了预先确定灵敏度或特异性的必要性然而，为了实现业务目标，确定预测中的最小可接受误差为15%，灵敏度至少为0.85。类似地，ROC图也用于文献中用于选择阈值。使用“理想点”选择阈值在医学上，Greineret al. （2000）已经使用ROC图通过灵敏度和特异性之间的距离最小化来分析诊断测试。90807060504030201001 2 3 4 56N-Gram（一）504030201001009080706050403020100KMM1 KMM5 KMMMG KMMMBF1 2 3 4 5 6N-Gram（b）第（1）款1 2 3 4 5N-Gram（c）第（1）款图四、基于动态和固定阈值的模型在不同会话长度（N-Gram）上的预测精度（a）气候技术倡议数据集。（b）MSWEB数据集。（c）房舍管理处数据集。KMM1 KMM5 KMMMG KMMMBF预测精度KMM1 KMM5 KMMMG KMMMBF预测精度预测精度2830H. Jindal，N.Sardana/ Journal

下载后可阅读完整内容，剩余1页未读，立即下载