没有合适的资源?快使用搜索试试~ 我知道了~
埃及信息学杂志20(2019)117基于加权随机索引的数据挖掘分类器增强贪婪Web代理缓存Julian Benadit Pernabasa,Sagayraj Francis Fideleb,Krishna Kumar Vaithinathanca印度卡纳塔克邦班加罗尔Kanmanike Kengeri校区CHRIST(被认为是大学)工程学院计算机科学与工程系,邮编560074。b计算机科学与工程系,本地治里工程学院,ECR,Pillaichavady,本地治里605014,印度c印度Karaikal-609609 Varichikudy Karaikal Polytechnic College计算机工程系阿提奇莱因福奥文章历史记录:2017年3月8日收到2018年12月7日修订2019年1月7日接受在线提供2019年1月14日关键词:GDSGDSF全球司 *随机索引聚类代理数据挖掘A B S T R A C TWeb代理缓存系统是Web用户和服务器之间的中介,它试图通过缓存特定的Web对象来减轻源服务器上的负载,并充当服务器的代理并为向服务器发出的请求提供服务。在本文中,一个代理系统的性能是衡量在代理的点击次数在代理服务器的命中率较高,反映了代理系统的有效性命中数由代理系统选择的替换策略决定基于时间和大小的传统替换策略是被动的,并且不考虑将来可能发生的事件。通过采用基于Web用户聚类和加权随机索引的数据挖掘分类器模型,提高了Web代理缓存系统的性能。本文的结果是积极主动的战略,增加了传统的更换政策,如GDS,GDSF,GD*,它使用数据挖掘技术。©2019 Elsevier B.V.制作和托管代表开罗计算机和信息学院大学这是一篇CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍万维网及其使用正在快速增长,这导致了Web服务器过载、网络拥塞以及响应时间差。正在不断地采取多种方法来克服这些挑战。“Web缓存”是可以增强Web的性能[1]。Web缓存是最有可能在不久的将来被频繁请求的Web对象的缓冲存储库。万维网的一般结构如图1所示。由客户端用户、代理服务器和源服务器组成。每当客户端请求Web对象时,可以立即从代理服务器检索,也可以从源服务器检索在那里-*通讯作者。电子邮件地址:benaditjulian@gmail.com(J.B.Pernabas),fsfrancis@pec.edu(S.F. Fidele),vkichu77@gmail.com(K.K.Vaithinathan)。开罗大学计算机和信息系负责同行审查。制作和主办:Elsevier因此,每当用户的请求得到满足,从代理服务器,它最大限度地减少响应时间,通常,Web缓存可以位于[1]在源服务器缓存、代理服务器缓存或代理服务器缓存。研究工作的总体目标是在随机索引方法和权重分配策略机制的基础上,通过增强Web用户聚类和数据挖掘分类器模型,提高贪婪Web代理缓存算法的性能。第二部分介绍了传统的贪婪Web代理缓存算法和基于数据挖掘的Web缓存方法。第3节详细介绍了Web代理缓存系统的总体工作模型。第4节介绍了聚类和分类第五节提出了基于数据挖掘分类器模型的Web代理缓存算法的通用模型,第六节详细阐述了Web代理缓存替换算法的性能指标。2. 相关工作Web缓存的方法可以分为两类。第一类方法是传统贪婪方法,因为它们使用计算简单的参数进行缓存https://doi.org/10.1016/j.eij.2019.01.0011110-8665/©2019制作和主办由Elsevier B. V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页:www.sciencedirect.com1118J.B. Pernabas et al./Egyptian Informatics Journal 20(2019)117-130Fig. 1. 万维网架构。更换.第二类的方法结合了数据挖掘技术与传统的方法来增强Web缓存系统。2.1. 传统Web代理缓存算法本节基于关键参数和表1总结了传统的贪婪Web代理缓存算法[2,3]。总结了传统替换策略(如贪婪双大小(GDS)、贪婪双大小频率(GDSF)和贪婪双长度(GD <$)[3])的驱逐关键因素及其限制。2.2. 基于数据挖掘的Web缓存方法在文献中已经提出了几种策略,用于用数据挖掘技术增强传统的Web缓存方法。在本节中,基于数据挖掘的Web缓存方法大致分类如下:2.2.1. 基于回归的Web缓存方法逻辑回归(LR)模型[4]被应用于自适应Web缓存,其中模型预测未来可能被请求的Web对象,LR策略用最低的重新访问值替换Web对象。多项逻辑回归(MLR)技术也被用作Web缓存对象的早期内容分类方案[5],并且易于实现,但导致低分类准确度和降低的高速缓存性能。使用具有轻量级机器学习技术的半智能Web缓存系统进行代理缓存替换[6]。它使用了一种新的缓存方案,称为东值得2.2.2. 基于分类的Web缓存方法KORA(Khalid Obaidat Replacement Algorithm)用于增强Web缓存性能[7],它使用神经网络来识别瞬时和影子缓存行。临时行是到达缓存的新Web对象,而阴影行是最近从缓存中替换的Web对象的到达,以支持其他行。与传统算法相比,KORA算法具有更低的未命中率。自适应Web缓存访问预测器技术[8]使用反向传播神经网络(BPNN)通过预测最有可能重新访问的对象来提高Web缓存的性能。使用对象特征的非线性模型[9]分析了多层感知器(MLP)网络的Web缓存优化,并根据HTML文档的语法特征预测对象的值。神经网络代理缓存替换(NNPCR)[10]使用反向传播来调整网络中的权重因子。在这里,基于由反向传播神经网络(BPNN)返回的评级来选择用于替换的对象。表1传统Web代理缓存算法综述目标成本Cp。膨胀值L时间相关性测量B。未老化参考文献Fp的数量。Kp¼ LCp × Fp =Spb。S.no算法参数驱逐限制1.GDS物体大小Sp.目标成本Cp。通货膨胀具有Key值的最低价值对象Kp¼LC p=S p:它不考虑Web对象的频率值2.GDSF物体大小Sp.具有Key值的最低值对象它不考虑Web对象的访问时间目标成本Cp。通货膨胀-数值L。Kp¼LC p×F p=S p3.全球司 *未老化参考文献Fp的数量。物体大小Sp.具有Key值的最低值对象固定成本模式下的低命中率。J.B. Pernabas等人 /Egyptian Informatics Journal 20(2019)117-130119模糊规则[11]也被用来识别从缓存中删除的网页。描述每个网页的变量首先被模糊化,然后输出被去模糊化以替换网页。人工神经网络算法(ANN)结合粒子群优化算法(PSO)[12]用于改善神经网络性能。神经模糊系统是分区的客户端Web Cache,它使用自适应神经模糊推理系统(ANFIS)方法进行二进制分类,并将Web对象分类为可缓存或不可缓存的对象。在这里,训练好的神经模糊已被用于LRU算法在缓存替换决策中。智能朴素贝叶斯方法[13]也用于识别Web对象是否可以在未来重新访问。在[14,15,16]中,各种分类算法使用树增强朴素贝叶斯方法,然后使用非常快速的决策树算法和朴素期望最大化来贝叶斯分类器用于提高Web代理缓存采用滑动窗口机制和数据挖掘分类性能。该方法结合了GDS、GDSF和GD/等贪婪替换算法,这些算法考虑了成本、大小、频率等多个因素,形成了一种新颖的Web缓存。2.2.3. 基于聚类的Web缓存方法在Web缓存上使用一种基于缓存的预取方案来划分相关Web页面的集群,以识别用户访问模式[17]。在此方法中,当用户请求Web对象时,代理服务器将检索与所请求的对象位于同一集群中的所有对象。在这种方法中,代理残基表示使用导航图算法。此外,由于算法复杂性,该方法在估计聚类数时存在一定的局限性,导致性能不高。图二. 基于数据挖掘分类器模型的Web代理缓存总体工作模型。图三. Web代理数据集的过滤阶段。120J.B. Pernabas et al./Egyptian Informatics Journal 20(2019)117-1302.2.4. 基于进化的Web缓存方法Web缓存的进化技术将遗传算法(GA)应用于缓存替换决策[18]。在这里,每个Web对象的“强度”是由与对象的陈旧性、访问频率和检索成本相关的特定属性决定的。有限状态机(FSM)与进化算法相结合,显示出良好的网络预测率[19]。基于GA的缓存替换策略也已用于用户端缓存替换[20]。在这个过程中,算法使用适应度函数,替换策略考虑下载时间和对Web对象的引用数量以及其大小。3. 基于数据挖掘分类器模型的Web代理缓存工作原理聚类是一种广泛应用于学习系统的数据挖掘技术。本章提出的战略通过对Web用户进行聚类,并将其与基于加权随机索引和权重分配策略的分类器模型相结合,对传统的Web代理缓存进行了扩展。如图2所示,整个工作流程模型由不同阶段组成。 这些工作方法分类如下:3.1. Web代理服务器数据集收集在本节中,用于Web代理缓存模拟的Web日志文件来自国家应用网络研究实验室(NLANR)[21]。每个数据集表示位于特定位置的代理服务器。3.2. 数据预处理在该方法中,对数据集进行预处理,并将其转换为结构化格式,以减少仿真时间。的图五.会话识别算法。/*用户识别算法*/输入:Web代理日志输出:U{u1,u2,u3uk}1.开始2.最初,数据集基于时间戳和IP地址进行排序3.开始4.对于每个IP地址标识,每个用户代理被认为是不同的用户。5.对于在步骤2中识别的每个用户,应用所收集的路径信息并确定该行为是否更可能是两个或更多个用户的结果。6.结束;7.最后,从步骤2到步骤5,使用可用的cookie和注册信息识别每个用户8. 结束;/*识别会话标识的算法*/输入:Web代理服务器日志(代理服务器日志中属于某个用户的第i条记录的t i个时间戳)输出:用户会话集S{s1,s2,sn}1.开始2.对于所标识的每个用户uk,分配会话ID。3.开始4.设置最长时间限制 t30 mins。5.对于每个用户uk,递归地重复步骤5到步骤7。6.计算网页请求之间的时间差,即ti1我不是7.如果时间差大于最大限制,即ti1ti t,则创建新的会话ID。8.最后根据会话ID对条目进行排序9.结束;10. 结束;J.B. Pernabas等人 /Egyptian Informatics Journal 20(2019)117-130121这些技术经历了很少的预处理步骤来删除不相关的请求,并提取有用的信息。数据预处理涉及的步骤是代理服务器过滤、数据清理和数据抽象。3.2.1. 代理日志过滤在该技术中,从NLANR获得的记录的代理日志文件已经经历了基本的过滤过程,以减少日志数据集的大小以及模拟的运行时间。因此,只有三个代理日志数据集被考虑用于过滤过程[23],如图3所示。该过滤模块基于诸如基于延迟的方法、基于大小的方法、基于动态的方法、基于内容的方法的方法。Fig. 3.说明了各种过滤方法[23]中涉及的步骤,其细节如下所述。在这些过滤之后,代理日志文件的大小被减小以具有在过滤阶段之后获得的一些唯一请求,即,823649用于UC数据集、674352 NY数据集和2406556 SD数据集,如表2所示。从获得的过滤结果中,URL约定和所需的HTTP请求基于时间戳进行排序现在,来自UC、NY、SD的输入跟踪文件已经准备好进行一定的数据预处理步骤,以模拟数据挖掘分类器。3.2.2. 数据清洗数据清理是删除代理日志文件中不相关条目的过程[22]。这里只考虑相关的HTML文件,并丢弃通过请求图形、声音和其他多媒体文件等记录的所有其他不相关的日志条目。3.3. 数据抽象数据抽象是基于用户和会话标识对日志条目进行抽象的过程。表2跟踪文件的统计信息。跟踪文件唯一请求独特的服务器平均对象大小(字节)中值对象大小(字节)波士顿125,505258013,2802070硅935,63027,6745,8222238UC823,64947,21041,6512814NY674,35259,13917,440209SD2,406,55677,09253,312652见图4。 用户识别算法。见图6。K-Means聚类算法ð Þ¼1/4fgðÞ1/4fgðÞ12MX122J.B. Pernabas et al./Egyptian Informatics Journal 20(2019)117-1303.3.1. 用户标识用户识别的目标[24]是识别代理数据集中的每个用户。这种方法可以很容易地执行,如果用户Web对象p的频率[25]的公式在等式中给出。(一)浏览器访问的次数提供其注册信息。有几种方法标识从代理服务器收集的代理数据集中的各个用户。 用户识别算法一个人XWebPage2VisitedWebPages访问次数ð1Þ识别如图所示。 四、3.3.2. 会话识别类似地,Web对象p的Duration[25]由当量(2)如下所示p总持续时间p=大小p2会话标识的目标是将每个用户划分为不同的会话组。根据用户XMax WebPage2访问过的网页TotalDurationp=大小psion。会话识别方法通过最大时间限制来识别用户当Web页面的时间差异大于访问时间的阈值限制时,或者如果在同一会话中花费的时间从这两个度量,我们可以获得高兴趣Web对象集,并且基于等式将该高兴趣对象集值(3)如下:超过了最大限度。根据经验发现,我们的模拟试验的最大时间限制设定为30分钟[24]vp2×ap×bpapbpð3Þlation. 会话识别的算法如图所示。 五、在对代理数据集进行预处理后,进一步分析了分析了Web用户聚类的共性一旦高兴趣Web对象p从URL,P/fURL;URL;.. . URLg导航模式配置文件是通用的-3.4. 基于加权随机索引基于加权随机索引的用户建模方法主要包括高兴趣页面集、URL分段、基于权重的随机索引、权重函数和用户导航集等方法。3.4.1. 高兴趣页面集一旦数据集已经被预处理,它被分割以基于这两个度量找出高兴趣的Web对象,即,频率和持续时间[25]。 设P是Web对象P的集合p1;p2;p3. 代理服务器日志中用户访问的pn。在这里,会话被转换为权重被指定为S/fw/p1;s/p2;s/p。 . 其中,w pi;s是分配给在会话中访问的第i个网页pS.获取高兴趣Web对象[25]所涉及的参数如表3所示。Web对象的频率p由Web对象p被访问的次数计算。表3高兴趣Web对象的参数。高兴趣Web对象的Symbols参数pWeb对象。aWeb对象p的频率。bWeb对象p的持续时间。大小Web对象的大小p。k高兴趣的Web对象p.ated从一设置的的个人用户,这是给出UU1;U2;... . 并且这些给定的URL基于用户兴趣对象集合p被分段。3.4.2. URL的分割从URL获得的高兴趣网页p基于网站的层次结构被分割。URL由不同的级别组成,根据在代理日志中获得的顺序,以0 = 0进行分段。3.4.3. 加权随机索引随机索引在数据量较小的情况下性能良好,但当数据量增加时,性能会下降。因此,为了克服这一限制,随机索引方法被修改为权重函数[26],以提高其性能。在随机索引中,使用基于每个术语及其上下文的频率的统计信息来生成权重在这种情况下,上下文中的每个索引向量都乘以生成的上下文向量。因此,每个项t的上下文向量被计算,如等式(1)所示。(四)Ct<$Rr;t0:称tt;r;t04r;t0其中,Rr;t0是上下文tr;t0的索引向量权重t;r;t0是项t0及其上下文的权重函数/* 算法K-Means(k,Z)*/1. 开始2.最初,数据点k被生成为质心。3.开始4.重复5.对于每个数据点y Z,6.计算y到每个质心的距离7.将y指定给最近的质心8.结束;9.endrepeat;/* 使用当前聚类重新计算质心,直到满足条件。* */10.结束;11. 结束;见图7。 KNN分类器算法ð Þ¼ð Þ¼公司简介J.B. Pernabas等人 /Egyptian Informatics Journal 20(2019)117-130123在这个缓存过程中,获得Web文档的列表,并且在每个Web文档中,2 + 2的上下文窗口大小用于其使用该公式,生成每个单词的权重该权重用于生成索引向量。生成后,将权重函数应用于它以确定上 下 文 向 量, 并将 其 迭 代 应 用 于 文 档中 的 每 个 单 词 。 例 如 ,Christuniversity.in/studentlogin.html/C S433 ,我们可以使用'/' 分割URL使用这些不同的分段部分,索引向量可以用于为每个用户确定个性化的高兴趣页面,其中导航路径可以在n×d维矩阵中解释表4混淆矩阵。实际(班级)分类器(Classifiers)实际正实际负实际阳性实际阴性真阳性(TP)假阳性(FP)假阴性(FN)真阴性(TN)表5数据挖掘分类器中使用的性能测试。指标描述公式3.5. Web用户聚类Web用户聚类[26,27]的主要目标是创建用户访问行为的共同模式和分组。因此,聚类系统将对Web文档进行分组并组织根据用户的兴趣。一旦随机索引精密度(p)定义为检索到的相关网页数量和检索到的网页总数召回率(Recall,r)是指检索到的相关网页数量与相关网页总数的比率。精密度pTP公司简介召回rTPTPFN过程生成时,使用称为K-Means算法的高效聚类算法。它是一种最流行的基于划分的聚类算法,被广泛使用。K-Means算法是一种著名的无监督聚类算法。数据到k个集群。每个集群都有一个集群中心,称为正确分类率(CCR)表6正确分类 比值(CCR)是评价分类器性能的一个很好的指标.CCRTP TNTN聚类质心质心通常用于表示聚类中所有数据点的平均值,这给出了算法的名称,即,因为有K个聚类,所以称之为K-均值。图中给出了K-Means聚类的算法。第六章3.6. 数据挖掘分类K-Nearest Neighbor Classifier[28]是用于各种应用的监督机器学习算法之一。K-最近邻分类器是在距离测量的原理下工作的。KNN算法不仅训练数据集,还训练每个训练示例的分类。这表明在KNN算法中,训练样本用于建立分类器。数据预处理数据集的统计。S.生成的属性没有价值观1.用户访问的条目总数1,248,675.2.筛选的访问条目数。116,2003.不同访问用户的数量。12,931.4最大用户数(考虑用于模拟)。100.5.用户6.会话持续时间时间限制30分钟7.网页的持续时间10分钟8.网页的最低访问频率为10次。9.访问的网页总数。800.10.使用频率600访问的网页的数量。P10倍。11.已识别会话的总数24,000.fication模型在KNN分类器中,学习过程发生在测试样本需要分类时。图中给出了KNN分类器的算法。 74. 聚类和分类中的性能评价12.识别的会话数和会话持续时间(30分钟)。13.已识别的会话数和页面持续时间(10分钟)。4.1. 实验结果与讨论12,000.12,500.精度和召回率[29]是适合许多机器学习应用的性能这两个参数可以根据从混淆矩阵获得的结果进行测量,如表4所示。该混淆矩阵根据分类器分类的正确或不正确的网页进行了表5所示的性能指标主要用于找出最佳的数据挖掘分类器模型,以增强Web代理缓存策略。以下措施分类如下:本节中的实验结果分类如下:4.1.1. 数据预处理结果在预处理过程中,原始的Web代理数据集被清理、格式化并分组到用户该实验模拟由Web Utilization Miner工具(WUM)进行[30]。表6给出了实验数据集的一些统计数据。从表6中可以看出,116,200/* 算法K-NN(D,d,k)*/1.开始2.计算d与D中每个例子之间的距离,选择D中最接近d的k个例子,用(P D)表示集合。3.指定P中最频繁的类d4.结束;图八、精确召回的结果和聚类中的命中p× ÷fg124J.B. Pernabas et al./Egyptian Informatics Journal 20(2019)117-130提取干净的条目。其中,800个网页被访问,600个被访问超过10次。此外,总会话被识别为24,000,从该总会话识别的会话减少了12,000,其中会话持续时间阈值限制为30分钟。类似地,会话的寻呼持续时间被识别为12,500,其中寻呼持续时间阈值限制设置为10分钟。4.1.2. 聚类结果加权随机索引实验中使用的参数具有一些指定值,即,+ 1,-1,在索引向量中表示为e,并且上下文窗口大小表示为l。d作为索引向量的维度。因此,在这里,e被设置为e¼10,如建议的那样[26],l/1,因为URL是用于K均值聚类的短k值。聚类数的最大值kmax,并被选为n(n是数据大小)。从上面的表7中,表7加权随机索引方法的参数。参数值L1D(3 0 0)e10K2至10表8群集中使用的性能测试结果参数,并使用模拟工具文本矩阵生成器工具(TMG)进行实验[31]。因此,在对预处理的代理数据集进行数据预处理和随机索引之后,获得包含97个请求URL的网页的高兴趣页面集合P这些URL被“/”分割类似地,RI中的索引向量的维度被选择为300。最后,100300矩阵被构造为XX1;X2;. . X100的单用户模式矩阵,并将其作为K均值聚类算法的输入。K-Means聚类算法生成公共用户的请求,并基于加权随机索引方法将这100个用户分组在不同的聚类器在获得普通用户从该表8中,识别每个用户所需的Pre-URL的数量,并且将为每个集群创建公共导航模式简档参数精确度和召回率评估聚类的性能。根据得到的聚类结果,精度被定义为命中率与缓存的URL数量的比率类似地,召回率是命中率与请求的URL数量的比率 图 8表示基于性能度量的聚类结果。S. 没有集群数量Pre-URLsAvg. 精密度%Avg. 召回率%11883.958.4221093.345.933378.828.1441462.551.855391.760.366363.624.977582.543.188910045.399969.063.0见图10。 使用DMCM算法的Web代理缓存替换算法的通用模型。图10使用DMCM算法的过程数据挖掘分类器模型((DMCM))代理缓存条目t,t_fresh;int Hits = 0,Byte.Hits = 0;int CacheMax_SizeN1. 开始2.System. out. println();3.4.5.第六章7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.开始永久循环开始做从代理缓存t获取请求Web对象p。if(Proxycache(t).Contains_fresh_copy(网页p)开始点击数=点/* 缓存命中字节。命中=字节。点击+t。字节检索到客户端。缓存更新(t,(DMCM))结束;开始缓存删去(t)。/* 缓存未命中从源服务器S复制Web对象p的新副本。缓存推力(t,DMCM)While(代理缓存(t).Size>Max_size(N)Cache.Pop(t); */删除键最低的Web对象*/Switch()案例1:“DMCM-GDS”。案例2:“DMCM-GDSF”。案例3:结束;While(条件);结束;29.DMCM。return();30. 结束;J.B. Pernabas等人 /Egyptian Informatics Journal 20(2019)117-1301254.1.3. 分类器结果数据挖掘分类(KNN),旨在评估分类的实验结果[25]。分类的评价是关于网页是否属于普通用户导航模式类。此导航模式配置文件是根据会话持续时间、高兴趣页面、访问频率、Web页面持续时间生成的。不同的分类器训练这些值,无论所请求的Web页面是否属于公共用户导航模式配置文件。 因此,如果请求的Web页面属于公共用户配置文件模式,则将其分配为类1,否则为0。因此,如果Web页的类值为1,则表示该Web页将来可能会请求,并且该类型的Web页被视为可缓存请求。在本节中,不同的分类器[25],如支持向量机(SVM),决策树(J48),朴素贝叶斯(NB)分类器和K最近分类器(KNN),用于分类目的。因此,在不同的分类器中,KNN分类器具有更好的分类精度,如图9所示5. 基于数据挖掘分类器模型在本节中,介绍了一个与数据挖掘分类器模型集成的该算法为通用Web代理缓存算法集成图第九章数据挖掘分类器精度比较见图11。基于权值分配策略和DMCM的GDS替换算法。126J.B. Pernabas et al./Egyptian Informatics Journal 20(2019)117-130数据挖掘分类器模型,如图所示。 10. 在(第1行)中,初始数据挖掘分类器模型(KNN)建立在历史Weblog上。对于从包含网页p的代理高速缓存t请求的每个网页p,然后将网页p返回到Web客户端。关于这个性能,测量(第7一旦数据被传送回客户端,代理缓存就由数据挖掘分类器模型(KNN)基于权重分配策略(网页的类值,即,是否可以在未来重新访问的网页p)。相反,如果所请求的网页p不表9权重分配策略的参数。参数描述L膨胀因子,以避免代理缓存中的缓存污染。fp代理缓存t中Web对象p的先前访问频率。Fp代理缓存t中Web对象p的当前访问频率。Kn-1p代理缓存t中Web对象p的前一个键值。DTtp代理缓存t中Web对象p的当前请求和先前请求之间的时间差。Ctp代理缓存t中Web对象p的当前引用时间。 LtpWeb对象p在代理缓存t中的最后引用时间。SpWeb对象p的大小。KnpWeb对象p的当前键值。在代理高速缓存t中可用或者它是陈旧的,则发生高速缓存未命中即,从高速缓存中删除网页q(行16),在这种情况下,代理服务器将请求转发到原始服务器S(行17),并且从原始服务器S检索网页p的新副本并将其推入代理高速缓存t(行18)。推送方法包括由数据挖掘分类器模型(KNN)基于权重分配策略分配网页p的类值。此外,如果缓存空间t超过最大缓存大小N(行19),则根据基于数据挖掘分类器模型(KNN)的权重分配策略分配的类和最低键值,从缓存中弹出来自缓存的网页q这种方法被称为权重分配高速缓存替换策略(第21-24行),即,每次当缓存溢出时。最后,数据挖掘分类器模型定期更新保存在代理缓存t中的剩余网页的键值。当缓存性能下降时,此过程会迭代地继续。另外,请注意,数据挖掘分类器模型的更新(第28行)与Web页面的在线缓存分离,并且可以并行执行。5.1. 缓存替换的权重分配策略代理高速缓存t中的Web对象p的权重分配策略[32]表示为等式:(5)、参数显示基于权值分配策略和DMCM的GDS替换/* 算法1. 开始2.对于用户请求的每个网页p,3.4.五、6.7.8.9.开始如果网页p位于代理缓存t中,则开始更新DMCM的信息。p= KNN分类器的类如果网页类别p= 1,则/* 缓存命中将网页p推入缓存的顶部并更新键Tt(p)F(p) C(p)Kn1(p)10.K(p)nLCt(p)Lt(p)S(p(11.12.13岁14个。15.16.17.18.19.20.结束;否则开始如果网页p在代理缓存t中不可用,则/*缓存未命中*/将网页p从源服务器S带入代理缓存t当代理缓存中没有足够的可用空间时,删除最小值 k(q)|Q从代理缓存tClass ofq= 0end While;p= KNN分类器的类。网页类p=1。将网页p推到缓存的顶部并更新键Tt(p)F(p) C(p)Kn1(p)22.23.K(p)nLCt(p)Lt(p)S(p(结24.结束;见图12。基于权值分配策略和DMCM的GDSF替换算法。ð Þð ÞJ.B. Pernabas等人 /Egyptian Informatics Journal 20(2019)117-130127在表9中。从上述策略出发,将缓存系统中使用的键值应用到贪婪族替换算法(KNN)和缓存系统的权重分配策略,即,Fp×CpKn 1000万美元。DTtp Σ(GDS,GDSF,GD/)和算法的关键因素KnpL-SpCtp-Ltp:同样,如果网页p是根据Eq. (5)如下图所示。F p k n1p x。DTt在代理缓存中不可用,则缓存未命中错误,从源服务器S检索的网页p,并且如果没有Kn p L-SpCtp-Ltpð5Þ代理缓存t中的空间,网页q必须基于对DMCM(KNN)和最低键值分配权重因此,只要发生缓存替换,替换算法就会根据权重分配策略使用的键值替换Web对象。从上面的策略来看,缓存系统中使用的键值项被应用于贪婪族替换算法(GDS,缓存系统的分配策略,即网页q与min-缓存中的最大键值(min q2cach efkqjqg)是在代理缓存t中驻留的其他网页中选择的。随后,将值减小Kmin,并且网页的键值Fp×CpKn 1000万美元。DTtp ΣGDSF,GD/)[2],替换算法的关键因素是p更新为Knpl-SpCtp-Ltp它被推到根据上面所示的公式进行修改因此,我们认为,每当发生高速缓存替换时,替换算法基于权重分配策略所使用的键值来替换网页。5.2. GDS替换与数据挖掘分类器模型的集成当需要替换缓存时,GDS策略[2]与数据挖掘分类器模型相适应该算法结合数据挖掘分类器模型,给出了GDS缓存替换算法.在该方法中,GDS将值键值K p与缓存中的每个网页p相关联。当在代理缓存t中请求网页p时。并且它已经在代理高速缓存t中可用,则发生高速缓存命中,并且网页p被推到高速缓存的顶部。此外,键值基于DMCM到缓存的顶部数据挖掘分类器模型更新其余的网页。基于权重分配策略和DMCM的GDS替换算法如图所示。 十一岁5.3. GDSF替换与数据挖掘分类器模型的集成GDSF策略[2]在需要缓存替换时与数据挖掘分类器模型相适应。该算法以数据挖掘分类器模型为例说明了GDSF缓存替换。在这种方法中,GDSF考虑的可变性的成本和大小的网页p通过选择受害者之间的比率的基础上的成本和大小的文件。GDSF将值键值k p与缓存中的每个网页p相关联。当在代理缓存t中请求网页p时,并且该网页已经在/* 基于权重分配策略和DMCM模型的GDSF替换算法 */1. 开始2.对于用户请求的每个网页p,3.4.5.6.7.8.9.开始如果 网页p驻留在代理缓存t中,则开始通过DMCM更新p的信息。p= KNN分类器的类如果网页类别p= 1,则将网页p推到缓存的顶部并更新键Tt(p)/*缓存命中*/10.11.12个。13岁14个。15.16.17.K(p)Ln(F(p))(f(p)) C(p)Kn1(p)S(p)Ct(p)Lt(p)(end;else开始如果网页p在代理缓存t中不可用,则/*缓存未命中*/将网页p从源服务器S带入代理缓存t当代理缓存中没有足够的可用空间时,删除最小值k(q)|Q 从代理缓存t&&Class ofq = 0end While;p= KNN分类器的类如果网页类别p= 1。将网页p推到缓存的顶部并更新键Tt(p)22.23岁24.25. 结K(p)Ln(F(p))(f(p)) C(p)Kn1(p)S(p)Ct(p)Lt(p)(结结图十三.基于权值分配策略和DMCM的GD* 替换算法。ð Þð Þ×ð Þð Þ×Fn-1个ptCtp-LtpB128J.B. Pernabas et al./Egyptian Informatics Journal 20(2019)117-130代理缓存t,然后发生缓存命中,并且网页p被推到缓存的顶部,并且基于缓存系统的DMCM(KNN)和权重分配策略来更新键值F 1000万美元。DTtp Σ网页中的相关性 GD/将值键值kp与缓存中的每个网页p相关联。当在代理高速缓存t中请求网页p并且它已经在代理高速缓存t中时,则发生高速缓存命中,并且网页p被推送到代理高速缓存t中。tem即克鲁普是设置到KnpL-SpC tp-L tp。在缓存的顶部,键值也会根据DMCM进行更新类似地,如果网页p在代理缓存t中不可用然后缓存未命中t和从原始服务器S检索的网页p,并且如果在代理缓存t中没有空间,网页q必须基于DMCM被替换,并且最低(KNN)和缓存系统k p的权值分配策略是设置为i.e.二、DT pΣ31缓存系统,即具有最小键值和类的网页p中驻留的所有其他网页中选择值为0的代理缓存t.随后,委员会注意到,这些值减少Knpl4Sp5,并且网页p的键值被更新为F 1000万美元。DTtp Σ类似地,如果网页p在代理缓存t中不可用,则发生缓存未命中,从源服务器检索到的网页pKn p L-SpCtp-Ltp它被推到了顶端verS,并且如果代理缓存t中没有空间,则网页q具有的缓存。 此外,数据挖掘分类器模型还更新剩余网页。基于权重分配策略和DMCM的GDSF替换算法如图所示。12个。5.4. 数据挖掘分类器模型与G/D元素的集成根据加权分配策略进行替换,DMCM,即在代理高速缓存t中驻留的所有其他网页中选择高速缓存中具有类值0的具有最小键值minq2的网页q。随后,将这些值减少kmin,并将网页p的键值更新为二、Σ31FpDTtpCtp-Ltpn-1个GD策略[2,3]适用于数据挖掘分类器Knpl4Sp5、它被推到当需要缓存替换时,使用一个模型 该算法用数据挖掘分类器模型来说明G D<$cache算法。在这种方法中,GD/捕获流行度和时间缓存的顶部。此外,其余网页的更新,分类器模型。基于权重分配策略和DMCM的GD* 替换算法如图所示。 13/* 基于权重分配策略和DMCM的GD替换算法1. 开始2.对于用户请求的每个网页p,3.四、5.6.7.八开始如果网页p位于代理缓存测试中, 然后开始通过DMCM更新p的信息。p= KNN分类器的类如果网页类别p= 1,则/*缓存命中*/将网页p推到缓存的顶部并更新键1Tt(p)10.(F(p))(f(p))C(p)Kn1(p)K(p)LnCt(p)Lt(p)S(p)(11.12.13.14.15.16.17.18.19.20.21.结束;否则开始如果网页p在代理缓存t中不可用,则/*缓存未命中*/将网页p从源服务器S带入代理缓存t代理缓存中没有足够的可用空间t.取min k(q)|q来自代理缓存t &&Class of q = 0。end While;p= KNN分类器的类如果网页类别p= 1。将网页p推到缓存的顶部并更新键22.K(p)LnCt(p)Lt(p)S(p)(F(p))(f(p))C(p)Kn1(p)(23岁结24.结束;的权重分配策略分配的键值B图15个。GDS(p)、GDSF(p)、GD*(p)与基于DMCM的替换的总体字节命中率的比较J.B. Pernabas等人 /Egyptian Informatics Journal 20(2019)117-1301296. Web代理缓存模拟的实验设置对于Web代理缓存算法的仿真,采用基于窗口的缓存仿真器集成数据挖掘分类器模型(KNN)。从分类器获得的结果作为Web代理缓存模拟器的输入[33]。实验设置是根据以下参数进行的,如跟踪文件名,缓存大小,替换方案,使用的内容类型。跟踪文件名包括以下属性时间戳、URL-ID、对象大小等。这些实验中使用的缓存大小可能在5%到45%(缓存内容的最大容量)之间变化,使用的替换方案为GDS、GDSF、GD*。6.1. Web代理缓存模拟在本节中,将基
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功