沙特国王大学学报：ACVPR算法——个性化Meta搜索页面排名系统的实现及性能评估

85 浏览量更新于2024-01-18 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报IMSS-P：个性化Meta搜索页面排名系统DheerajMalhotra，O.P.Rishi计算机科学与信息学系，科塔大学，Kota，Rajasthan 324 005，印度阿提奇莱因福奥文章历史记录：接收日期：2018年2018年10月19日修订2018年11月26日接受在线发售2018年保留字：Meta搜索工具个性化页面排名ACVPR算法大数据分析A B S T R A C T拟议的研究工作旨在讨论和探索传统的网页搜索和排名系统的各种限制，主要是在目前的大数据。主要目的是通过考虑用户先前在网络上搜索时的品味和浏览历史，呈现最个性化的网页排名作为对用户的搜索查询的响应，来方便网络用户本研究旨在设计和开发一种基于机器学习的下一代网页排序算法，高级聚类向量页面排名算法（ACVPR）。该ACVPR算法以智能Mata搜索系统-个性化工具的形式实现，以评估算法的性能。ACVPR算法为用户提供了一个强大的元搜索工具，通过提供网页排序来方便用户快速满足个性化需求，特别是当搜索查询错误或不完整时。广泛的数学和实验评估通过使用R统计工具计算和比较各种评价指标，如特异性、敏感性、精确度、召回率，显示了与其他流行搜索引擎相比，改进的逻辑回归模型的效率。©2018作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍在当前的大数据时代，由于网络资源的大量增长，搜索过程发生了很大的变化。由于互联网服务提供商（ISP）的方便，现代用户更喜欢通过搜索引擎搜索特定的信息在像印度这样的国家，互联网服务提供商之间的激烈竞争导致了负担得起的互联网租金，因此在过去两年的一段时间内，互联网用户人数出现了意外增长。然而，搜索和列出相关网站以快速满足用户的个性化需求并不容易，因为网络用户大多依赖于像Bing、Yahoo、Google这样的通用搜索引擎来在第一页上的前三到五个链接中列出最相关的网站（Ahmad等人，2017; Bouadjenek等人，2016年;Chawla，*通讯作者。电子邮件地址：dheerajmalhotra4@gmail.com（D. Malhotra）。沙特国王大学负责的同行审查2018年）。此外，大多数流行的搜索引擎都有偏见，倾向于在搜索结果的顶部显示付费链接，而不管它们与用户查询的相关性如何。例如，印度反垄断监管机构在2018年2月对谷歌处以2117万美元的罚款印度竞争委员会（CCI）发现谷歌滥用其主导地位，利用搜索偏见伤害网络用户和其他竞争对手。早些时候，欧盟还对谷歌处以30亿美元的罚款，原因是谷歌的搜索输出存在偏见，以诋毁竞争对手的产品（www.reuters.com）。Gomez-Nieto等人（2014）强调，当不同的用户输入相同的搜索查询时，流行和高级版本的搜索引擎在结果中获取相同的链接。高级搜索引擎返回的搜索结果不考虑用户的个性化偏好。此外，如Malhotra和Verma（2013）所讨论的，如果搜索查询部分不完整或模糊，则大多数现代搜索引擎倾向于通过解释查询的所有可能含义来返回结果例如，如果我们考虑2018年6月两个不同的网络用户在Google搜索引擎上的部分或模糊搜索查询“侏罗纪世界”。该搜索引擎显示了最新上映的电影《侏罗纪世界：堕落王国》的顶级网络链接。很有可能其中一个网络https://doi.org/10.1016/j.jksuci.2018.11.0131319-1578/©2018作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comD. Malhotra，O.P.Rishi/ Journal of King Saud University249用户对网页感兴趣以阅读评论或购买最新电影的电影票。然而，这不一定适用于另一用户，该另一用户可能对访问具有类似名称的主题水上乐园感兴趣。这个问题可以通过使用基于逻辑回归的机器学习模型和基于Hadoop 2的高级大数据分析平台设计和开发的智能元搜索系统来解决（ Malhotra ， 2014; Malhotra 和 Rishi ， 2016;Malhotra和Rishi，2017;Malhotra等人，2017年）。个性化搜索系统将从用户获取查询，并且将首先基于如在他/她的简档中提及的用户偏好来修改搜索查询还可以从短期浏览历史中检索个人化偏好，例如，通常预订主题公园门票的用户将被示出与主题水上公园相关的网页，该网页包括在他/她的搜索查询中使用的关键字，即，侏罗纪世界在搜索结果的顶部，而不是上面讨论的电影链接个性化搜索系统不仅意味着搜索与查询相关的网络，而且还与搜索查询的个人相关（ Ferretti 等人， 2016; Gupta 等人， 2017;Salonen 和Karjaluoto，2016; Zhou等人，2018; Wang和Tao，2018）。网络上海量的在线数据积累，通常被称为速度、多样性、价值和准确性。大数据被定义为数据集和来源的广泛集合，这些数据集和来源超出了传统搜索和页面排名系统有效和高效处理的能力。各种大数据分析和云部署平台的详细排名比较证明了Hadoop 2是部署智能元搜索系统的最佳分析平台。Hadoop 2通过引入两个新模块来提升Hadoop 1的功能，即，Yarn和HDFS联盟。Yarn模块支持将资源管理职责与处理引擎分离与Hadoop 1中的单个节点相比，HDFS联邦允许创建多个名称节点。这些进步有助于构建更可靠和更强大的系统架构如Verma和Singh（2017a，b）所讨论的那样，有效的大数据分析。可以使用R统计工具来开发基于逻辑回归的机器学习模型，以预先确定网页满足用户的个性化搜索需求的适合性该学习模型将确定最合适的网页排名顺序为一个特定的Web用户的各种参数，如网页加载速度，响应时间，安全浏览网页和个性化的相关性。通过混淆矩阵的计算、特异性、灵敏度等方面的科学评价，很容易地验证了该模型对所提出系统的适用性。本文的主要贡献是提出了ACVPR算法和元搜索工具。与文献中讨论的各种网页搜索和排名方法相比，IMSS-P有(i) 提出的元搜索工具可以很容易地预测用户的偏好与准确性，采用逻辑回归基于机器学习模型(ii) 所提出的元搜索工具具有下一代大数据分析工具的特征，并且能够执行弹性伸缩、基础设施卸载、实时处理搜索负载峰值和具有高可靠性的资源管理。(iii) 所提出的元搜索工具不依赖于明确的用户反馈，特别是在智能模式下，并且可以自动地从他/她的浏览历史中确定用户的个性化偏好。2. 特定类别文献综述在机器学习技术和下一代大数据分析的支持下，元搜索系统可以用于有效和高效的个性化检索和网页排名。本研究工作进行了详细的类别特定的文献综述，以快速找到研究人员提出的各种搜索系统之间的研究差距时，在literature。文献中讨论的常规搜索系统如下：2.1. 基于超链接的网页排序系统综述基于超链接的个性化搜索系统可以很好地帮助Web用户在Web上搜索信息资源。通常假设给出类似的显式/隐式反馈的客户在互联网上搜索时具有相同的品味，因此基于具有与当前用户类似的简档的先前用户对网页的响应向用户Alam和Sadaf（2015）建议，现代搜索引擎检索大量不相关和难以管理的网页以响应查询，特别是当查询不完整或错误时，因为大多数搜索引擎倾向于返回与用户查询的所有可能含义相对应的结果然而，聚类可以用于在搜索引擎输出中总结大量文档每个聚类的正确标记对于定义聚类的内容和帮助用户选择相关聚类是必要的他们应用启发式搜索方法来找到集群中的所有页面文档的标题是确定文档内容的适当来源。每个聚类的标签由共享超链接的文档标题中使用的关键字定义他们通过在谷歌上搜索捷豹查询获得了前100名的点击率。他们应用支持度为2的Apriori算法来寻找频繁的2项集，并找到了汽车，运动和动物的标签。所提出的方法的主要优点是，大量的计算时间可以节省，因为只有那些共享超链接的文档被认为是标记过程。然而，所提出的方法可以通过考虑Meta标签中的文本进行标记过程来改进。 Aoki等（2015）解释了个性化搜索系统的系统架构，即，Web索引系统使用包含一对关键字和相应URL的Web索引文件所提出的方法可以执行Attach操作，以将关键字关联到对应URL的超链接。附加操作包括以下子步骤：（i）单击书签链接（ii）请求服务器(iii)词典匹配（iv）超链接生成（v）接收响应和显示页面。WIX系统的主要限制是相关性计算需要更多的时间。2.2. 基于内容的网页排名系统综述Kuppusamy和Aghila（2014）讨论了个性化模型的架构，以检测网页中的结构和内容变化。所提出的模型，即，CaSePer使用哈希技术来识别用于减少搜索空间的片段，从而快速检测网页内容的变化变化检测过程包括两个步骤：（i）将网页分割成较小的组件（ii）在较小组件上计算哈希值然而，可以通过使用先进的机器学习和大数据分析来改进所提出的模型。 Sugiyama等人（2004）讨论了几种使搜索结果适应Web用户不断变化的需求的技术。他们进行了几个实验来验证各种可能方法的有效性，例如（i）基于协同过滤的250D. Malhotra，O.P.Rishi/ Journal of King Saud University（ii）隐式相关反馈（iii）基于浏览历史的用户分析。然而，最高的准确性是通过使用协作分析实现的，因为它更适合用户的个性化需求。然而，所提出的方法可以通过使用用户的长期浏览历史来改进。2.3. 基于推荐推荐系统利用网络用户的个人资料、浏览历史等信息来预测特定网络链接与网络用户的相关性。他们提出建议，以满足用户的个性化需求因此，推荐系统可以被用作实现个性化搜索系统（如所提出的智能Meta搜索系统）的关键模块Cacheda等人（2011）对各种协同过滤技术进行了详细的比较，提到了它们的优势和局限性。他们提出了两个新的指标，即，GIM和GPIM使用预测精度来确定协作算法的有效性。这两个指标可以通过利用离线可用的数据集来简化评估它们可以快速检测出预测精度内的任何偏差。Wasid 和Kant（2015）提出了一种基于模糊和粒子群优化的协作过滤方法所讨论的方法可以用于快速学习用户的偏好，从而向web用户提供个性化推荐。然而，所提出的系统缺乏进一步提高个性化推荐的准确性的概念Adamopoulos（2014）讨论了改进协作过滤方法，以提高用户和企业的预测准确性。意想不到的想法也是为了满足用户的期望。然而，建议的推荐系统在研究在线用户的行为的有效性还有待验证。2.4. 基于上下文知识上下文知识通过提供用户兴趣的提示，对搜索工具进行个性化搜索至关重要。Xiang等人（2010）讨论了在对网页进行排名时使用上下文知识的重要性。他们进一步解释了各种原则和学习排名方法，以支持网页的上下文排名。他们提出了一个实证的方法来解决两个主要问题（i）如何受益于网页排名使用上下文？（ii）如何将网页排序模型与上下文知识相结合。然而，建议的方法将是令人满意的，主要是处理Meta页面排名在今天的大数据时代还有待验证。Tanapaisankit等人（2012）提出了一种使用上下文知识进行搜索查询扩展的方法。他们使用用户的个人资料的知识，使查询更加个性化。实验结果表明，该方法能够提高网页排序的查全率和查准率.然而，所提出的方法可以通过将语义和概念元组的知识进一步增强。Limbu等人（2006）提出了一种方法来修改搜索查询，以正确地反映个性化的口味的网络用户通过利用隐式和显式的信息，如用户他们使用同义词库来消除查询歧义，从而提高了精度。此外，他们还添加了Meta keywords用于改进web搜索和页面排名的查全率参数。然而，查询增强的过程可以通过使用布尔方法来进一步增强。2.5. 基于智能技术的网页排序系统综述Malhotra和Rishi（2018）讨论了交易页面排名系统的各种限制。他们强调，搜索和页面排名系统还没有发展到足以在电子商务环境中有效地工作。他们提出了使用云技术并基于第二代大数据分析的相关向量页面排名算法。他们实施了IMSS-AE工具，特别适用于对电子商务网站进行排名，以满足客户的个性化需求该系统设计包括搜索查询预处理，以增强查询的附加关键字使用语义技术。实验图形分析比较了推荐工具和流行的搜索引擎，如谷歌，雅虎，狗堆的响应时间，页面新鲜度和个性化的相关性的基础上的页面排名精度然而，由于缺少机器学习模块，所提出的工作在预测用户兴趣方面缺乏准确性在目前的研究工作中，所提出的方法和ACVPR算法是RV页面排名算法的增强，由于纳入了机器学习模型。 Verma等人（2015）展示了使用语义网和神经网络等智能技术来正确排名电子商务网站的页面。他们提出了五个模块（i）模块的网页预处理后的网页词典实施（ii）模块，以确定其文本内容的基础上的网页的优先级（iii）模块，以确定优先级的网页上花费的时间由以前的用户（iv）模块基于语义的建议（v）模块，以确定优先级的网页使用反向传播神经网络。Malhotra等人（2015）讨论了Meta页面排名工具的实现，以证明所提出的CPR算法的有效性和效率。该工具的拟议接口如图所示。1.一、该工具可以使用四个后台搜索引擎中的任何一个或全部，即， Yahoo 、Google、Ask和Bing。该工具将排名由这些搜索引擎返回的各种链接的响应时间和安全协议所使用的候选人网页。然而，该系统并没有结合个性化的页面排名功能，以满足用户的特定需求。3. Google云平台用于大数据分析大数据分析对于元搜索工具（如所提出的IMSS-P工具）来说是至关重要的，以生成最相关的页面排名顺序以向用户显示，从而最好地满足搜索工具用户的个性化需求当部署在云平台（如Google CloudPlatform）上时，可以使用基于Hadoop-MapReduce的分析轻松分析各种后台搜索引擎返回的链接形式的大数据Google Cloud Plat-form（GCP）用于基于Hadoop的多节点集群设置，以实现所提出的智能Meta搜索系统应用程序。Google云平台是探索各种云服务的理想平台。计算引擎模块允许我们创建和使用虚拟机（VM），虚拟机是操作系统服务器（如Linux服务器、Windows服务器等）的虚拟副本，并允许开发人员选择在CPU核心、内存和操作系统映像方面具有小到大配置的VM，以最好地满足Meta搜索项目要求，如所提出的IMSS-P工具的要求IMSS-P工具采用多模集群设置，共有三个虚拟机实例，其中一个实例充当名称节点，其余两个实例充当数据节点，以有效收集、存储和分析后台搜索引擎返回的网页链接数量，从而生成最个性化的网页排名顺序。4. 系统设计拟议的元搜索工具的系统设计有三个子阶段。每个阶段和简化框图的详细描述如图所示。 2D. Malhotra，O.P.Rishi/ Journal of King Saud University251第一阶段：第二阶段：查询网页搜索使用网页第三阶段：搜索Web消歧处理网页检索查询IMSS工具和ACVPR算法使用机器学习模型进行个性化页面个性化简档客户的图1.一、页面排名工具界面Malhotra等人。（2015年）。图二、IMSS- P工具的系统设计4.1. 阶段1：查询消歧和网页检索在当今的大数据时代，即使是最先进的搜索引擎也会在顶部获取可能与用户无关的输出链接。此外，如果搜索查询是模糊的或不完整的，则即使是流行的搜索引擎也不可能产生相关的结果。如下图所示。 3，首先处理网络搜索查询以去除停用词和词干词，以避免它们在确定预期网页的相关性时的参与。检索用户例如，在搜索工具上搜索“Canon DSLR”的查询后，如果用户输入部分不完整的查询，如“Sony”，则不是通过电视或Sony Vaio笔记本该工具应当自动地将搜索查询扩展为个性化的并且更有意义的搜索查询，即，“索尼数码单反相机”从用户的不完整的查询，即，索尼。类似地，可以从用户的旧浏览历史中检索长期偏好，推荐引擎模块可以用于使用语义网技术来构建用户扩展的个性化查询进一步传递给我们Meta搜索引擎中的后台搜索引擎数量，搜索工具。由于该工具的后台涉及了大量的搜索引擎，因此该工具具有很好的查全率然而，如已经讨论的，所检索的搜索页面因此，来自每个后台搜索引擎的前几个链接被传递到阶段2。4.2. 第二阶段：使用ACVPR算法和IMSS-P工具进行网页搜索本文的研究工作旨在设计ACVPR算法并以IMSS-P工具的形式实现，以确定所提出方法的有效性和效率。ACVPR算法和IMSS-P工具讨论如下：4.2.1. 高级聚类向量页面排名算法高级聚类向量页面排序算法是对Malhotra等人提出的RV算法的改进。（2018年）。ACVPR是RV算法的高级版本，主要有两个原因：（i）ACVPR是一种通用搜索算法，而RV算法仅适用于电子商务网站的搜索;（ii）ACVPR算法与RV算法不同，252D. Malhotra，O.P.Rishi/ Journal of King Saud University用户最近浏览的网页链接用户档案数据库本体和词汇数据库来自用户的Web搜索推荐引擎基于语义的Web搜索查询扩展Web搜索查询中停止词干词的去除将Web搜索查询扩展到后台搜索引擎从后台引擎到阶段2图3.第三章。阶段1：查询消歧网页检索Meta搜索工具。回归模型来预测网页对于特定用户的相关性。ACVPR算法是逐步讨论如下：开始接受来自用户的Web搜索查询从查询中删除停止词和词干词以确定关键字整合基于语义的消歧和个性化扩展使用map（）和reduce（）函数，通过使用个性化配置文件数据库来确定每个关键字的权重通过使用glm（）函数检查零偏差、剩余偏差、Fisher评分和可能的错误，如多重共线性和过度分散，以确定模型在确定预期网页反馈方面的有效性从模型满足以下任一条件的聚类中删除所有这些网页1. 剩余偏差大于零偏差2. Fisher评分迭代次数超过8次3. 搜索参数具有相当大的标准误差值4. 方差膨胀因子，vif（）大于55. 过分散指标大于0.05使用由共享超链接的网页组成的聚类ID标记每个相关聚类，以计算各种相关向量，例如TSV[]，FCV[]等。通过参考feedback.txt文件并通过计算/分配特定用户在具有诸如页面加载速度等的搜索预测因子的类似值的另一网站上花费的平均时间，来计算候选网页相对于时间花费向量TSV[P]的相关性TSV[P n] = avg（TSV[P] 1至n-1）通过如下计算用于可查询网页的个性化搜索查询的每个关键字的频率的平均加权贡献来计算关于频率计数向量FCV[P]的相关性：FCV½P]¼W1ωK1W2ωK2：：WnωKn=n排名（网页（P））：= FCV *b1+ TSV *b2，其中b1和b2系数确定关于特定用户的频率计数和花费时间统计的影响的个性化偏好，如从他/她的注册简档和浏览历史中显而易见的。高级聚类向量页面排名算法被设计为确定从阶段1和2到元搜索工具的后台搜索引擎的数量返回的各种网页的正确排名顺序。需要从搜索查询中去除停用词和词干词，以结合基于语义的消歧和查询扩展。然后通过参考用户的个性化简档数据库来对个性化查询的关键字进行加权。各种关键字的权重存储在W1、W2、…、Wn内。个性化查询然后在不同的背景搜索引擎/搜索目录上搜索以获取网页。然后，基于零偏差和剩余偏差的比较值、Fisher评分迭代、多重共线性和过度分散指标的值，这些网页被列入然后，在该过程之后，用携带源搜索引擎信息的唯一ID来标记每个网页集群，并且每个网页集群由具有到彼此的超链接的那些网页组成需要计算两个相关性向量TSV被计算为特定用户在过去具有类似搜索参数值的各种网页上花费的平均时间。频率计数向量FCV由候选网页的每个关键字的平均加权贡献确定。候选网页的排名是通过个性化偏好系数的帮助来确定的，即，B1 和 B2 。最后，针对当前排名顺序获得的反馈用于更新feedback.txt文件和个性化系数。4.2.2. 智能Meta搜索系统IMSS-P工具部署在Google云平台上，使用Python编程和R统计工具进行编码，●●●●●●●●●●●●●●D. Malhotra，O.P.Rishi/ Journal of King Saud University253所提出的ACVPR算法的效率和有效性IMSS-P是Malhotra等人提出的IMSS-AE工具的高级版本。（2018）在这个意义上，IMSS-P采用机器学习逻辑回归来预测网络用户的个性化搜索，从而提高搜索精度。IMSS-P与移动电话接口兼容，并且还支持生物特征登录，即，指纹扫描仪此外，IMSS-P是通用的元搜索工具，并不局限于与IMSS-AE类似的电子商务搜索元搜索系统旨在搜索关于多个后台搜索引擎的查询，并且利用各种数据挖掘技术来对所获得的结果进行排序和合并（Sethi等人，2016; Gollub等人，2018年）。IMSS-P还在其界面上提供高级信息，如从中获取特定URL的搜索引擎信息和搜索精确度统计数据。如图 4. IMSS-P支助两种搜索模式（i）智能元搜索和（ii）高级元搜索。高级模式适用于技术用户，允许用户选择工具界面上显示的各种选项卡。这些选项卡包括选择后台搜索引擎的选项由Meta搜索工具使用，即，用户可以自由地选择一个或谷歌必应和Kartoo这三个搜索引擎此外，向用户提供选项以选择搜索预测器来在高级模式中确定排名顺序，即，网站响应时间、网页加载速度和浏览安全性。用户可以选择这些参数中的任何一个来计算搜索工具输出中的个性化页面排名顺序。例如，图4示出了关于页面加载速度的输出排名顺序。该工具的其他特征包括搜索字符串的个性化扩展，例如，用户输入部分搜索查询，即，侏罗然而，学习模式智能Meta搜索系统-个性化注册指纹扫描仪登录智能Meta搜索高级Meta搜索Google BingKartoo网站响应时间网页加载速度浏览安全输入Web搜索字符串：继续阅读侏罗纪世界：堕落王国Jurassic World：Fallen Kingdom Movie建议另一搜索网页排名输出取消网站排名URL（搜索引擎初始）页面加载速度正确排名？https://en.wikipedia.org/wiki/Jurassi1c_World：_Fallen_Kingdom（G）00：00：00：25mshttp://www.jurassicworld.com/films/2《堕落王国》（Fallen-Kingdom）https：//www.cnet.com/news/jurassic-更正错误更正错正确3（G，B，K）00：00：00：59ms错搜索精度参数精密度：0.95召回：0.18见图4。 IMSS-P工具的接口。254D. Malhotra，O.P.Rishi/ Journal of King Saud University~检查用户的浏览历史，发现用户通常喜欢从feedback.txt文件中预订电影票，因此建议最新发布的电影，即，侏罗纪世界：堕落王国电影。这种不完整或模糊搜索查询的个性化扩展导致在各种后台搜索引擎的输出中列出适当的web链接。然后按照用户对搜索参数的偏好的顺序对这些web链接进行排名，即，页面加载速度和最低页面加载速度的网页链接列在顶部。此外，还提供括号内的搜索引擎信息以显示URL的来源。例如，最后一行中的（G，B，K）表示该URL在所有三个搜索引擎的输出中列出，即，Google、Bing、Kartoo用户可以提供关于网络链接的排名相关性的反馈，以进一步提高用户在未来搜索中的个性化搜索精度。此外，还提供了有关页面加载速度，搜索精度和搜索召回的输出详细的数字统计。然而，智能元搜索模式的实现，以提供个性化的搜索体验，以协助非技术用户在网上搜索。智能模式不需要用户指定后台搜索引擎和页面排名参数。智能模式将自动使用所有三个搜索引擎，并使用feedback.txt中的信息来确定用户过去进行的各种搜索中最喜欢的页面排名参数。而且，智能模式不需要用户在界面上提供明确的反馈，可以自动确定最合适的页面排名顺序，满足用户个性化的搜索需求。智能和高级模式都实现了所提出的ACVPR算法并计算相关向量，即，时间花费向量（TSV）和频率计数向量（FCV）以及排名顺序参数，例如用于确定个性化网页排名的页面加载速度，如图11所示。四、4.3. 阶段3：使用机器学习模型进行为了预测用户对特定网页的偏好，我们在这里开发了一个基于逻辑回归的机器学习模型。这里，要预测的响应变量是用户关于元搜索工具的输出中的排名的网络链接的相关性的反馈所提出的元搜索工具使用的回归是二项式逻辑回归作为响应变量，反馈是二元变量。考虑用户的最新浏览历史以预测用户对新网络链接的偏好数据要求为R统计工具要求的.csv格式文件将包含有关以下五个变量的数据：反馈表示用户对他的浏览历史中的前一个web链接的相关性响应，并且可以采用两个值，即，是或不是加载表示用户的网页加载体验，并且可以取两个值中的任一个，即，好或坏。响应表示用户的响应时间体验，并且可以取两个值中的任一个，即，好或坏。安全性表示由候选网页提供的安全协议特征，并且可以取两个值中的任一个，即，是或不是个性化表示功能的使用，即，用户对查询的个性化扩展在工具界面上可用，并且可以采用两个是或不是作为我们的响应变量，即，反馈是二项的，所以我们将使用家庭=二项（链接=搜索模型该语法可以用数学术语容易地理解，如下所述：比值比的自然对数可以表示为ln赔率比 ln 1/2P=101-P101]其中，P =成功概率或响应概率，即，反馈=是logitP<$ln½PFeedback <$$>Yes=PFeedback<$No]¼C0 C1 x加载C2 x响应C3 x安全C2C4 xPersonalized C2C为了提高响应变量的预测精度，即，通过预测比值比的自然对数来预测网络用户的反馈响应，在所提出的模型中准确预测网络用户的反馈响应的概率可以计算如下：真实反馈的概率/预测比值比=×100%预测优势比100%4.3.1. 生成和测试机器学习模型读取feedback. txt文件检索检索数据使用各种搜索参数生成模型绘制生成模型通过移除非显著搜索参数来重铸模型原始模型和重铸模型之间的偏差计算测试多重共线性和过度离差以确定预测● 绘制重铸模型的诊断曲线● 正在读取feedback.txt文件生成基于逻辑回归的机器学习模型，以预测Web用户个性化搜索偏好，从而为特定的Web链接提供反馈。我们首先需要考虑他/她以前的搜索和相应的反馈数据，以确定他的偏好。此反馈数据保存在.csv格式的文本文件中。可以使用read.csv（）函数读取反馈文件，如下所述：feedback_data- read.csv如上所示，read.csv（）函数接受三个参数，即，(i)包含关于工具上的先前搜索的用户反馈数据的文件的路径，（ii）标题信息，即在反馈文件中是否存在标题或列标题，以及（iii）分隔符信息，在.csv文件的情况下是逗号。feed-back.txt信息存储在feedback_data中，可以对其进行汇总，以显示反馈文件中各个列的合并详细信息。● 使用各种搜索参数为了生成预期Web链接反馈预测的回归模型，我们使用了Rstatistical tool中的glm（）函数，语法如下：feedback_model = glm（反馈加载+响应+安全+个性化，数据=feedback_data，family =二项式（link =表1和表2所示的生成模型的总结表示关于每个参数的参考值、估计贡献、标准误差和Pr的信息，即，使用glm（）函数计算的可预测性值。这里，glm（）函数的第一个参数是响应变量，即，反馈，并且需要关于剩余参数进行预测，即，加载、响应、安全和个性化。的●●●●●●●●●●●D. Malhotra，O.P.Rishi/ Journal of King Saud University255表1通过广义线性模型计算的各种搜索参数的统计。响应时间良好-0.0823 0.2643-0.311 0.755470安全是个性化查询是1. 0193 0. 2714 3. 755 0. 000173表2模型偏差统计。价格偏差373.93剩余偏差331.17自由度269（零偏差）和265（残差偏差）Fisher评分迭代4估计捐款，标准捐款误差和Z值如表1所示。如果特定参数的Pr> 0.05，则该特定参数不被认为是显著的，例如，如上所述，响应变量具有Pr =0.755470。因此，响应变量不显著。此外，关于零偏差、残差偏差和Fisher评分迭代的信息也可在模型总结一个小的残差值偏差与非偏差的比较显示了一个很好的模型。此外，少于八次迭代的Fisher评分（这里是四次迭代）也加强了以下事实：生成的模型是良好的模型，并且可以有效且正确地预测用户● 为生成的模型生成的模型feedback_model绘制了四条诊断曲线，如图1和图2所示。五比八。在将feedback_model重铸为feedback_model2之后，将讨论各种诊断图的详细解释图五、反馈_模型诊断图合身。见图6。反馈_模型诊断图-搜索参数参考值估计STD. 误差Z值可预测性值页面加载好-0.81360.2781-2.9250.003441256D. Malhotra，O.P.Rishi/ Journal of King Saud University~见图7。Feedback_Model诊断图-图8.第八条。反馈_模型诊断图杠杆● 通过去除非显著搜索参数的从生成模型的总结曲线和诊断曲线可以看出，我们可以通过重铸进一步改进广义线性模型。可以通过消除具有大于0.05的P值的搜索参数来改进新模型在移除响应参数之后。生成不带响应参数的新feedback_model2的命令如下：feedback_model2 = glm（反馈加载+安全性+个性化，数据=feedback_data，系列=二项式（链接=在重铸模型后，为各种参数生成的统计数据如表3和表4所示。表3重铸广义线性模型各种搜索参数的统计。表4重铸模型的模型偏差统计。电子邮件373.93剩余偏差331.26自由度269（零偏差）和266（剩余偏差）Fisher评分迭代4● 原始模型和重铸模型之间的偏差计算原始模型和重铸模型之间的偏差可以使用anova（）函数计算，如下所示：ANOVA （feedback_model，feedback_model2，''PChiSq“）anova（）的前两个参数将是使用PChisq检验进行比较的两个广义模型。在计算残差偏差时，两个模型的自由度之间的差异为1。计算的偏差为-0.096992。两个模型之间的小偏差差异表示响应参数对广义线性模型的影响● 多重共线性和过度分散测试，以确定搜索参数参考值估计标准误差Z值可预测性值预测精度页面加载良好-0.081460.2779-两千九百三十一0.003383安全是-4.3891.14e- 05个性化是1. 0205 0. 27123.762 0.000168查询为了检查生成的模型是否存在多重共线性或过度色散，我们需要首先在R studio中安装DAAG库。为了检查重铸中的多重共线性，模型我们将使用vif（）函数和feedback_model作为D. Malhotra，O.P.Rishi/ Journal of King Saud University257表5生成模型时使用的各种搜索参数的Vif值。搜索参数Vif值加载1.0986安全1.0924个性化1.0063论点表5给出了使用vif获得的各种搜索参数的统计数据。VIF是Variance Inflation Factor的缩写。如上所示，各种搜索参数的vif值小于5。因此，该模型不受多重共线性的影响。用于计算和测试重铸个性化搜索模型的过度分散的命令是overdisp_indicator-feedback_model2$residuals/feedback_model2$df.residual根据R计算，过度分散指标值小于0.5，因此我们的模型没有过度分散。所以生成的模型可以准确预测用户● 绘制重铸feedback_model2的诊断曲线在进行回归分析之后，我们绘制了重铸机器学习模型之前和之后的几个诊断图，以四种不同的方式显示和比较残差，如图1和2所示。图5 至图 8中的feedback_model 和图feedback_model2 为9 到12。每个模型的四条诊断曲线如下：(i) Resistance vs.拟合值图(ii) 正态QQ图-标准电阻率与理论电阻率(iii) 比例-(iv) 标准恢复力与杠杆率图第一个情节，即，拟合值显示响应变量和预测变量之间的非线性关系。图9.第九条。Feedback_Model2诊断图合身。见图10。Feedback _Model2诊断图-258D. Malhotra，O.P.Rishi/ Journal of King Saud University见图11。Feedback_Model2诊断图-图12个。Feedback_Model2诊断图杠杆位于拟合线上的点，即，y = 0处的虚线表示零残差，而位于拟合线上方的点表示正残差，位于拟合线下方的点表示负残差。平滑的红色非线性曲线表示原始feedback_model和重铸feedback_model2的良好拟合模型。第二个情节，即，QQ图显示残差是否遵循线性正态分布。在这两种情况下，点都被因此，feedback_model和feedback_model2都通过了正态分布测试。第三个情节，即，比例位置图有时也称为扩展位置图，因为它表示预测值范围内的扩展点模式。理想的尺度-位置曲线是水平的并且表示同方差性，即，在预期范围内点的均匀变化。然而，在我们的例子中，中间点的曲线是同方差的，而初始点和最终点的曲线本质上是异方差的。这条红色曲线表示，所提出的模型将适用于中间数量的搜索预测变量，而不是非常小或大量的预测变量，同样适用于生成的模型的中间数据观测，即， feedback-model 和feedback_model2.第四个情节，即，Resistance/s杠杆有助于找到可能确定回归线的观察结果大多数观察结果可以被纳入或排除，而不会影响分析结果。然而，一些观察结果可能会对回归线产生巨大影响，并可能改变分析结果。当观测值具有较高的Cook距离分数值在y = 0线附近显示的点代表所有具有高Cook距离评分值的反馈数据观察结果5. 实验和图形分析为了评估机器学习模型的有效性，使用R studio中的各种命令将feedback.txt文件中的元搜索工具数据集细分为训练和测试数据，如下所述：D. Malhotra，O.P.Rishi/ Journal of King Saud University259feedback_data_partition-数据分区（feedback_data$feedback，p =0.80，list = false）反馈训练_数据<-feedback_data[feedback_data_partition，]反馈测试_数据<-feedback_data[-feedback_data_partition，]在这里，我们将用户特定的先前搜索feedback_data （最初在feedback.csv中提供，总共有270个观察结果）分为两部分，即，feedback_training_data 由 80% （ 0.80 ）的观

下载后可阅读完整内容，剩余1页未读，立即下载