没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报使用下一代大数据分析DheerajMalhotra,Omprakash Rishi计算机科学与信息学系,科塔大学,Kota,Rajasthan 324 005,印度阿提奇莱因福奥文章历史记录:2017年10月18日收到2018年2月22日修订2018年2月28日接受在线发售2018年保留字:电子商务网站排名IMSS- AE工具RV页面排序算法第二代大数据分析Hadoop-MapReduce个性化页面排名A B S T R A C T本研究工作的目的是探讨传统的搜索和网页排名系统在电子商务环境中的各种局限性其主要目的是通过分析客户的偏好和浏览行为,提供个性化的电子商务网页链接的页面排名顺序,以响应电子商务查询,帮助客户在网上购买本研究首先采用文献回顾的方法进行分类整理研究结果表明,传统的搜索系统还没有发展到支持现代电子商务环境所需的大数据分析。本文的工作旨在开发和实现基于第二代HDFS- MapReduce的网页排序算法,即:相关向量(RV)算法。这项研究为客户提供了一个强大的元数据分析工具,即IMSS-AE可轻松了解客户的个性化搜索需求和购买所提出的方法可以很好地满足所有关键参数,如可扩展性,部分故障支持,可扩展性预期从下一代大数据处理系统。一个广泛而全面的实验评估表明,建议RV网页排名算法和IMSS-AE工具的效率和有效性超过其他流行的搜索引擎。©2018作者制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍在这个现代大数据时代,由于在线购物网站(也称为电子裁缝)的巨大增长,购物活动发生了很大变化。新时代的客户更喜欢通过这些在线门户网站购物,因为印度等国家的各种吸引力,如互联网的简单和廉价的可用性。主要原因是电信公司之间的激烈竞争,例如,RelianceJioPrime会员为其所有用户提供三个月的免费无限互联网数据使用,象征性收费。其他一些原因包括利润丰厚的现金返还和轻松退货,而无需扣除PayTm等门户网站的运费,Flipkart,亚马逊和其他电子裁缝等电子商务网站的货到付款类型的常规功能。此外,寻找一个合适的电子商务网站,以最适合客户的购买要求是不那么容易,因为客户是*通讯作者。电子邮件地址:dheerajmalhotra4@gmail.com(D. Malhotra)。沙特国王大学负责同行审查主要依靠传统的搜索引擎,如谷歌,必应找到一个合适的电子商务网站。然而,当不同的用户搜索相同的电子商务查询时,即使是最先进和最流行的搜索引擎 也会检索到相同的结果,如Gomez-Nieto等人(2014)所讨论的。因此,无论客户提交查询的背景和个性化口味如何,大多数现代搜索引擎都倾向于通过以各种可能的方式解释电子商务查询来返回结果。此外,如果查询是模糊的或不完整的,那么情况会变得更糟,如Malhotra和Verma(2013)所讨论的那样。例如,对于不完整的电子商务搜索查询因此,迫切需要个性化的电子商务搜索系统。个人化系统可以通过在一段时间内通过维护他/她的简档、通过浏览历史的搜索偏好等来跟踪客户的偏好,并以正确的排序顺序返回结果来修改电子商务搜索查询,其中客户的相关输出链接在顶部以最佳地适合客户要求(参见图11)。①的人。电子商务数据在Tera的规模上呈爆炸性增长由于连续的,每天从1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000https://doi.org/10.1016/j.jksuci.2018.02.0151319-1578/©2018作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com184D. 马尔霍特拉岛Rishi/ Journal of King Saud UniversityFig. 1. Verma等人的网站优先级确定工具,(2015年)。增加WWW流量。例如,为了在网络上购买物品,客户可以探索许多网站以进行满意的电子商务交易,这不仅提供高质量的品牌产品,而且还提供最好的折扣价格或最大的钱包现金返还。因此,许多在线购物门户网站每天都在获取大数据,例如亚马逊或PayTm Mall基于Android的电子商务门户网站,它们定期处理大约一百万个客户交易日志,导致每天产生大量TB的数据。这种过多的在线生成的数据通常被称为价值、速度、多样性、准确性和数量。大数据可以被定义为大量数据集的集合,处理前传入数据的速度、处理后传出数据的速度以及数据源的范围都超出了传统关系数据库系统的处理和管理能力。Verma和Singh(2017a,b)提出,这些模式对电子商务网站很有帮助。电子零售商可以利用这样的模式进行购物篮分析,从而通过提取客户最喜欢的采购模式来增加销售,通过从诸如社交媒体趋势分析的各种来源识别特定产品的显著购买趋势来进行有效且容易的库存管理以避免像积压或缺货的情况。在线商品卖家可以使用大数据分析工具来分析Instagram,Facebook等社交媒体上的多个帖子。最近最受欢迎/最喜欢的流行名人的图像,以确定服装材料的最新时尚,因此可以订购更多类似服装的库存,以快速满足市场增加的需求。使用大数据分析对电子商务网站进行排名的购物篮分析可以通过使用-RV- Map-Reduce框架轻松完成,该框架是健壮的和可扩展的,并且是用于有效处理基于电子商务的大数据的开源平台。Hadoop集群的特点是一些并行的机器可以很容易地存储和处理大数据集,大量的客户端可以很容易地从不同的位置提交他们的进程到分布式Hadoop集群。Map-Reduce是一种简化的编程模型,可用于在Hadoop集群中处理大数据,并借助称为Map和Reduce的主要功能以(Key,Value)对格式处理大数据。Hadoop和Map-基于Reduce的云计算框架可以用于基于大数据的高级电子商务网站排名系统的有效部署。这项研究工作的总体目标是帮助客户在容易搜索和正确排名的电子商务网站购买真正的价格正宗的产品,以及帮助电子裁缝在优化其网站的结构,以利用竞争对手。2. 文献综述高级自适应电子商务搜索是利用语义网、神经网络等智能技术对相关电子商务网站进行检索和排序的个性化个性化搜索机制需要大数据分析来从社交媒体上可用的文本、图像或视频格式的数据以及各种客户的购买历史中检索有用的关联规则,以有效地检索客户特定的电子商务网站排名模式如文献中所讨论的,存在不同类型的传统2.1. 基于超链接的自适应搜索方法综述通常,电子商务应用程序采用超链接个性化来通过推荐更相关的电子商务网站来帮助客户,所述更相关的电子商务网站由通过他/她的购买历史和显式或隐式评级获得的反馈确定。假设对相关产品给出类似评级的消费者具有类似偏好,并且因此算法将各种网站链接推荐给在由先前消费者确定的类似类别中最受欢迎的用户电子商务门户网站/网站,如Paytm商城,Myntra使用超链接个性化,以帮助他们的客户在搜索,排名和pur-chasing适当的产品。Aoki等人,(2015)讨论了用于超链接生成的Web索引(WIX)系统的架构,该系统可用于根据客户的选择通过替换关键字来插入网页链接。这反过来又会减少他/她的负担,通过搜索引擎结果中产生的所有网络链接然而,如果多个网络链接可以与一个关键字相关联Alam和Sadaf(2015)讨论了从WWW获取重要信息的难度。现代搜索引擎可能会返回相当D. 马尔霍特拉岛Rishi/ Journal of King Saud University185响应于用户的查询而产生大量的网页他们讨论了启发式搜索机制,以提取一组页面,以帮助用户毫不费力地找到她/他所需的信息利用Apriori算法,从共享相似超链接的文档标题中提取出有意义的聚类标签然而,所提出的方法的有用性,仅使用标题信息是不保证异构数据集。 Verma等人,(2015)基于人工神经网络和语义网等各种智能技术开发了SNEC页面排名算法。在本文中,我们讨论了网站优先级工具,以方便评估电子商务搜索查询,并获得电子商务网站的相关排名。建议的工具可以用来得到电子商务网站正确的排名,涉及- ing其竞争对手的网站有效。然而,在本文的未来工作中所讨论的,我们将在我们目前提出的IMSS-AE工具,如页面加载速度,基于图像的搜索,安全性比较排名的电子商务网站所需的现代客户的各种功能。因此,本研究工作中提出的算法和工具是对先前发表的SNEC算法和网站优先级确定工具的改进2.2. 基于内容个性化的搜索方法综述WWW上的内容个性化是指在同一门户/网站上向不同客户展示不同内容的过程。 Sugiyama等人,(2004)解释说,像雅虎这样的网站向用户发送了他们可能更感兴趣的相关信息。用户/客户可以在这样的网站上指定他/她选择的标签,这些网站可以包括宝莱坞/好莱坞电影、新闻、时尚更新、预测太阳标志/天气。用户可以根据自己的需求在内容个性化门户上构建自己喜欢的页面轮廓。然而,这样的系统通常遭受各种限制,如来自用户的持续努力是必需的,因为这样的系统直接依赖于用户输入。此外,这些门户不能自动适应用户不 断 变 化 的 需 求 , 除 非 他 / 她 明 确 修 改 他 以 前 注 册 的 偏 好 。Kuppusamy和Aghila(2014)提出了通用的CaSePer,这是一种自适应的网站变化检测架构,可以帮助经常浏览特定网站的用户了解最新的变化,而不是考虑重复访问网站的完整内容。这种模式需要作为一个定制的个人搜索系统进行调整此外,这种搜索系统的实验效率需要进行评估。2.3. 基于推荐系统在当前的大数据时代,出现了对推荐系统的需求,以处理网络上的信息爆炸Wasid和Kant(2015)讨论了推荐系统可以通过推荐游戏等娱乐材料来帮助用户,购物交易可以有效地利用他们在网络上的通常搜索时间他们提出了一种称为粒子群优化的技术来确定各种用户的优先级,并相应地为特定用户提供个性化的推荐他们还提出了可由推荐系统使用的不同过滤技术,即,人口统计过滤、协作过滤、基于内容的过滤和用于基于web的个性化的混合过滤技术。Adamopoulos(2014)提出了概率邻域方法来克服K近邻方法发展的常规问题他们讨论了流行的推荐系统中的意外概念,容易满足用户的需求。Cacheda等人,(2011)提出了一种基于客户和产品之间的差异而不是基于其相似性的有效协同过滤方法。他们提出了最新的度量标准GPIM和GIM来计算网络个性化预测的准确性他们对各种协同过滤算法进行了详细的比较,以区分它们在不同条件下的优势和劣势。Guy等人,(2010)建议推荐系统可以合并到搜索引擎中以实现个性化搜索。他们还讨论了用户体验比推荐系统的性能更重要。Jung等人,(2004),讨论了为大学图书馆开发的SERF原型。该系统向用户学习与搜索查询相对应的文档相关性它激励客户输入有意义的和无歧义的查询,然后要求搜索结果的明确评级,以衡量系统满足用户需求的程度。然而,所提出的系统的成功取决于它可以多么容易地迫使用户提供评级。因此,需要广泛的研究推荐系统利用作为一个个性化的搜索系统。2.4. 基于上下文相关反馈情境系统利用用户的隐式和显式数据,通过收集不同的客户情境档案来 Limbu等人,(2006)建议修改/扩展查询,以适当地揭示用户的兴趣,从而获得上下文个性化的搜索结果。该方法通过使用叙词表方法对不完整/歧义查询进行适当扩展,并在搜索查询中添加Meta关键词,有效地提高了查全率和查准率等搜索Tanapaisankit等人,(2012)提出了一种个性化的搜索模型,即上下文查询(QIC),它通过包括用户偏好来改进搜索查询,从而对具有上下文丰富性的搜索结果进行排名,以减少上下文不准确的搜索结果的数量。所提出的模型可以通过允许具有多个含义的搜索查询词向正确的上下文加权来实现Vinay等人,(2005)采用目标测试方法比较了三种不同类型的基于上下文相关性的反馈算法,并通过实验证明贝叶斯算法比RSJ和Rocchio算法更有效。他们还发现,现代搜索引擎不提供相关性反馈选项,因此用户通常对返回的结果不满意,需要手动修改其查询以获得相关结果。2.5. 基于智能技术的搜索方法Singh和Vélez(2014)讨论了搜索引擎Simha的模型他们还回顾了在索引大数据时精心设计的过程(如提取,转换和加载)的重要性Malhotra(2014)探讨了网络和SEO干扰的巨大规模导致难以通过搜索引擎从互联网上检索有价值的信息然而,人工神经网络可以通过实施监督学习来有效地训练以提供更好的搜索结果 Zhang等人,(2012)讨论了基于云的语义++搜索框架,以提供来自社交网络的结果。他们探讨了通用搜索引擎在通过各种社交网络门户(如Facebook,Instagram,Twitter)建立对象,人和网页之间的关系方面的失败。 Wang等人,(2011年)186D. 马尔霍特拉岛Rishi/ Journal of King Saud University提出了一种基于客户反馈的搜索引擎优化方法3. 动机网络上庞大的数据库可以被称为大数据。在目前的情况下,它有时变得相当困难的客户搜索相关的电子商务网站在互联网上很容易。一个普遍遵循的临时措施是使用流行的搜索引擎,如谷歌。然而,正如文献中所讨论的,没有一个搜索引擎可以完全解决检索问题,因为没有一个搜索引擎可以索引网络上可用的全部信息。Bo和Yang-Mei(2014)讨论了大多数传统搜索引擎都存在各种局限性,例如索引不完整,精度低,SEO操纵的页面排名,召回率低。此外,传统的搜索引擎呈现相同查询的相同输出结果,尽管如Rasekh(2015)所讨论的提交查询的客户的当前要求或个性化偏好。这种方法不适合有不同要求的客户。让我们举一个例子,一个女性或男性客户在传统的搜索引擎上搜索“在线购买皮带”。客户将获得相同的排名的各种列出的网页链接的输出没有任何考虑的事实,其中一个客户通常使查询的产品意味着为女士和另一个为男性。因此,理想情况下,搜索查询应该中间扩展到“男士腰带的在线购买”或“女士腰带的在线购买”,以使输出更加个性化和与电子商务客户相关。一些现代搜索引擎提供了个性化搜索的选项。然而,正如Wang和Wong(2014)所讨论的那样,他们通常无法适应客户不断变化的需求。此外,用户经常需要修改他们的电子商务搜索查询次数,以按照Verma等人所讨论的正确排名顺序检索相关的web链接,(2015年)元数据库引擎可以解决传统搜索引擎在一定程度上。它们建立在一些搜索引擎之上,它们在所有支持搜索引擎上搜索查询,然后对从每个搜索引擎检索到的输出链接进行整合和排名,以显示结果,从而提高召回率和精度。然而,元数据引擎方法有其自身的一组限制。每个支持搜索引擎在电子商务查询输出中返回的通常数量的网络链接都是超大的。Youssif等人,(2011)讨论的搜索查询是模糊的,结果中的输出链接变得更加庞大,因为传统的搜索引擎试图检索与查询的所有可能含义相对应的网络链接,因此,整合和正确排名大量的电子商务网站需要大量的努力。此外,使用传统数据挖掘技术的电子商务网站排名效率不高,正如Verma和Singh(2017a,b)所讨论的那样,需要处理许多问题,例如:高排名的电子商务网站在搜索引擎输出的可信度似乎已经下降,因为客户通常无法以合理的价格找到合适的正品。例如,一些电子商务网站在没有获得产品制造商的预先授权的情况下以不合理的价格销售商品,导致客户在向制造商申请保证/保修服务时遇到各种困难。此外,E-Tailer也发现在这个竞争激烈的现代社会中,要恰当地构建他们的电子商务网站是很复杂的。传统的网站排名系统不关注大数据管理系统所需的基本特征。这些特征包括部分故障支持、基础设施和应用程序可扩展性、组件恢复、数据可恢复性以及如Tsai等人所讨论的现代Meta搜索系统或搜索引擎在当今大数据时代搜索所需的实时响应能力,(2015年)。传统的搜索引擎通常执行语义较少的页面排名过程中的关键字的频率计数,候选网站和电子商务查询之间的接近度。可以在各种上下文中解释的查询可能会产生意想不到的结果,用户最终要么得到很多网站链接,有时甚至没有一个链接的输出。拟议的研究工作重点是解决上述问题所面临的各种利益相关者,即电子裁缝,最终用户和搜索引擎开发商。研究的问题可以总结为开发一个个性化的元数据引擎,为所有利益相关者的利益。此外,所提出的方法将克服传统的数据挖掘方法的限制,提取有用的电子商务网站链接从大数据库的各种搜索引擎,通过提供第二代大数据系统的基本功能,如部分故障支持,可扩展性,实时响应。4. 大数据分析平台比较为了适当地选择Web搜索和排名应用程序的部署框架,我们需要比较各个方面,例如部分故障支持,容错,扩展,实时处理和迭代执行效率的能力。在这里,我们在第4.1,4.2和4.3节中比较了各种现有的部署范例,以解释用于部署电子商务网站搜索和排名系统的不同基于云的平台的一些特征。4.1. 部署平台各 种 现 有 的 基 于 云 的 部 署 平 台 解 释 如 下 ( Khurana 2014;Malhotra等人,2017年a、b)在一种类型中,集群利用blob存储空间作为主存储空间,例如Azure blob store,S3。这里实现了临时聚类,它们只存在于工作流执行期间。Blob存储充当工作流的源和这里,虚拟机可以被认为是任务执行容器。在另一种类型中,第一代HDFS(Hadoop分布式文件系统)用作主存储空间。相比之下,在这里,持久性集群用于长期存储。此外,虚拟机是持久的,它们可以执行执行以及数据存储。这种类型甚至可以使用blob存储进行循环备份,并将数据提供给HDFS。这种云部署平台适用于SLA批处理工作负载、Ad Hoc Interactive和Ad HocBatch类型的工作负载。例如,交互式SLA工作负载通常部署在HDFS上,因为虚拟机需要作为服务器,而Blob存储需要作为备份。●●●●●D. 马尔霍特拉岛Rishi/ Journal of King Saud University187资源调度-关键区段数据存储空间处理全局内存调度HDFSHDFS数据存储空间第一代HDFS部署第二代HDFS部署4.2. 第二代HDFS随着最近的技术转变,第二代大数据处理系统需要支持对不同数据类型的多种分析方法,以及实时响应的能力 Malhotra和Rishi(2017)讨论了第一代HDFS的基本特征,如部分故障支持,通过数据流的可扩展性和全局内存调度也需要由第二代HDFS继续,如图所示。二、基于第二代HDFS的大数据搜索和排名系统有两个显著的趋势(Gebara等人,2015;Malhotra和Rishi,2016)与硬盘带宽相比,网络带宽增长迅速。内存计算模型(如Spark)的开发允许将中间结果保存在内存中,从而减少迭代分析第二代HDFS是一种长期存储,Web应用程序从其中读取其初始数据并写回其最终结果。数据层被细分为不同的段以实现稳定的存储,并单独为中间对象提供存储。然而,HDFS的局限性之一在于有效地运行迭代算法。Map函数要求在迭代开始时读取数据,并在迭代结束时将结果写回磁盘。这种对磁盘的频繁访问是以写的方式进行的而读取数据是导致性能和效率下降的原因,如Singh和Reddy(2015)所讨论的。4.3. 现有和拟议部署平台的排名比较表1显示了各种可能的大数据部署框架在不同特征(如扩展、容错)上的排名比较。在这里,Rank-1显示最佳选项,Rank- 5是所有上市平台中最差的选择。值得注意的是,该排名表提供了关于各种平台的优势和劣势的总体思路,并且主要取决于具体的应用/目的。一般来说,大数据应用程序在缩放和实时处理能力之间存在权衡。例如,在网络搜索应用中,索引过程需要高度可扩展的平台来处理由一些支持搜索引擎返回的数十亿个网页。这一指数包含-通过HDFS和Spark实现的是Web搜索应用程序的最佳选择,如Shou等人所讨论的,(2014),并且因此这些是用于电子商务网站搜索和排名应用的优选和提议的部署框架。各种部署平台之间的详细排名比较如表1所示。在我们提出的IMSS-AE工具的实现中,我们选择了HDFS平台,因为它的高伸缩性和容错等级,这是电子商务环境中最重要的两个我们优先考虑HDFS而不是SPARK平台,因为HDFS- Mapreduce环境的硬件和软件相关基础设施要求易于获得和适应性,因此可以提高零售商使用率和普及率的可能性。5. 系统设计这项研究工作解决了上述电子商务网站搜索和排名问题,如第3节所讨论的,使用基于智能技术的个性化大数据分析。该系统的简化模块框图如图所示。3.第三章。5.1. 阶段1:使用语义分析进行所提出的电子商务网站排名系统可以容易地跟踪客户偏好,即,通过建立客户的个人资料来确定短期和长期偏好该系统可以密切监视客户在这里,长期偏好可以使用客户的过去浏览历史和注册的偏好检索,而短期偏好将仅使用最近两天的浏览历史检索。该阶段可以通过获取Meta关键字并因此通过开发客户的简档来从浏览历史中提取搜索查询和访问的web链接,客户的简档可以进一步用于建立客户的上下文数据库。这些Meta关键字可以用于利用基于本体的数据库来选择概念。通过选定的想法,这些Meta关键字将用于消除搜索查询的歧义,从而将简单的关键字查询扩展为更有意义的客户个性化查询,以通过后端搜索引擎改善搜索结果,如Malhotra和Rishi(2017)所讨论的。通过使用最长公共子序列(LCS)来确定语义相关向量(SRV),大数据大数据大数据编程Map Reduce数据数据分析分析分析模型处理仓库流发动机1发动机2发动机3基于(Key、价值)图二、第二代HDFS V/S第一代HDFS(Malhotra和Rishi,2017)。●●188D. 马尔霍特拉岛Rishi/ Journal of King Saud University客户的购买历史Meta关键词基于电子商务的广告和客户浏览的Web链接电商搜索查询阶段1:查询预处理语义l消除歧义查询排序客户的Web链接客户阶段2:使用基于RV算法的MapReduce进行网页排名词 汇 和 本体数据库客户电子商务搜索查询表1现有和提议的部署平台的排名比较。平台缩放等级(类型)容错等级实时处理等级迭代任务等级HDFS1(水平)144火花1(水平)143对等1(水平)554HPC群集3(垂直)232多核4(垂直)232GPU4(垂直)212FPGA5(垂直)212图三. 简化系统设计。与客户需求相关的网页相似度和上下文相似度。该步骤的详细概念流程如图所示。 四、5.2. 阶段2:使用基于map reduce的RV页面排名算法进行本文采用基于Hadoop-RV- Map Reduce的大数据挖掘和分析框架,通过实现高级电子商务智能Meta搜索系统,简化电子商务网站的个性化搜索和排名过程。IMSS-AE工具是建立在一些其他流行的搜索目录,如雅虎,Meta搜索引擎,如Dogpile和搜索引擎,如谷歌的顶部。本文的研究工作是在公有云的中间层实现的服务水平协议。这个阶段接受在最后一步中生成的预处理的消歧查询。在这一步中,我们将首先在每个后端搜索引擎上搜索用户指定的查询,并为从1到n的每个检索到的网页集群分配一个唯一的ID。然后将这些聚类与用户规范(例如隐私/安全性、响应时间和可访问性的容易性)进行比较,以找到相关的聚类列表L,其应当被进一步处理以用于排名目的。可以通过执行参数匹配来执行聚类的短列表。第一个标准是确定可访问性,可以是公共云、私有云或社区云。第二个标准与安全性有关,可以通过https确定:传输能力或SSL可用性,其次是响应时间的第三个标准,该标准应小于客户指定的值。排名的第一阶段将是客户的轮廓图四、系统设计-查询预处理。基于语义的查询增强--附加关键字从查询个性化扩展电子商务查询D. 马尔霍特拉岛Rishi/ Journal of King Saud University189通过在称为Map和Reduce的两阶段编程模型中确定内容相关性来实现,在所提出的算法中使用的Map和Reduce代码如下:5.3. 相关向量(RV)页面排序算法相关向量,页面排序算法是Malhotra等人早期发表的CPR算法的扩展算法,(2017年a,b)。RV算法是对CPR算法Map(SEngine_ID:String,Web_Log:String)//Web日志集群处理{List String> TL:= Tokenize(Web_Log)// TL-令牌列表While(TL中的Web_Token){Insert((String)KL,(String)1)// KL-关键字列表}}Reduce(KL:String,count:List){频率= 0,同时(KL){Freq = Freq + 1}Insert((String)Web_Token,(String)Freq)}在这里,Map方法将接受一个关键字作为搜索引擎ID,用于从各种后台搜索引擎检索到的每个Web链接集群,第二个参数是weblog,用于标记weblog中的每个链接条目的条目,以计算每个关键字在电子商务搜索查询中的频率。Insert()方法用于在列表中生成元素,方法是在每个关键字出现时插入一个对应的数字作为我们的标记。然而,Reduce方法实现了对每个关键字的所有出现进行累积.这是通过插入数字1(一)来确定关键字在每个web文档中的频率,从而得出从各种搜索引擎检索到的web文档的内容相关向量来实现的。第二阶段的排名得出结论的时间相关性向量(TRV)为每个网页使用其最后一次更新的网络上,以及通过考虑以前的客户时间花费统计与类似的电子商务搜索查询。排名的第三阶段包括反馈相关向量(FRV),其可以包括过去客户的显式和隐式反馈。先前的一些研究结果表明,以在线评论形式提供的产品/电子商务网站的明确反馈可以显著影响客户的购买决策。Liu等人,(2017)讨论了客户很难轻松地查看大量在线评论。因此,迫切需要开发一种基于情感分析的电子商务网站排名方法。在线评论通常以句子形式表达,因此本研究使用基于词典的语义分析来确定中性、负面或正面评论。在步骤1中已经确定了语义相关向量(SRV)。最后,所有这些向量与客户提到的加权贡献有助于确定每个网页集群的排名,如建议RV页面排名算法中所讨论的。在确定电子商务网站的排名中涉及的各种评价指标是语义 相 关 向 量 ( SRV ) 、 反 馈 相 关 向 量 ( FRV ) 、 内 容 相 关 向 量(CRV)、隐私向量(PV)和可访问性向量(AV)。第二阶段的系统设计中,各种评价指标的逐步计算及其在确定电子商务网站的总体排名和个性化搜索精度中的作用如图所示。 五、由于两个主要原因(i)RV算法被设计为利用云技术(ii)RV算法与CPR算法不同,是专门为电子商务网站排名定制的。RV算法详细讨论如下:开始接受来自客户的电子商务查询使用客户档案数据库和语义增强来个性化搜索查询。将查询拆分为各种关键字W 1、W 2、. . . .. . ,Wn,并从查询中移除词干。确定每个关键字的最小和最大长度如下设置min = strlen(W1),max =strlen(W1)设置c = 2While(c n)do如果MIN > Wc,则MIN = strlen(Wc)EndIf如果MAX Wc,则MAX = strlen(Wc)EndIfEndWhile在各种后端搜索引擎上执行电子商务查询,并将ID分配给检索到的网站,确定客户导航会话。这个过程可以通过将客户的查询与过去的电子商务中的每一个进行比较来完成,并且使用LCS将客户简档数据库中存在的其他搜索查询进行比较。LCS,即,最长公共子序列用于确定网站和客户偏好之间的接近度,并将其存储在SRV[ID]中,以表示由ID标识的特定电子商务网站的语义排名。● 计算创建的时间戳TS和过去客户花费的平均时间TP,以计算时间相关向量TRV[ID]=(Ts + Tp)/2//计算CRV [ID]对于x = 1到n,// n是指网站o 使用网络词典计算每个关键字的频率o 消除所有那些网站的频率找到关键字-字少于没有找到关键字o 调用映射(WebPage_ID,WebPage_Content)o 呼叫减少(Web_Link,Count)o 计算单个关键词的平均频率o 在CRV中存储平均频率[ID] EndFor对于x = 1至r,请参考最后一步- 计算隐私向量,PV[ID] = 0;如果(linkprivacy = privacy(w ebsite(ID)),则设置PV[ID] = 1●●●●●●●●●190D. 马尔霍特拉岛Rishi/ Journal of King Saud UniversityPhase1使用搜索引擎检索的电子商务语义词典数据库-WordNet、HowNet等。以前的客户时间花费数据库客户输入电子商务网站在正确的排名顺序相对于客户客户简档D B确定网站显示的排名顺序的显式和隐式反馈,更新客户资料数据库,以便将来获得使用关系确定候选电子商务网站的排名:排名(网站(ID)):= AV [ID]*((SRV [ID]*W1+CRV [ID]*W2 + TRV [ID]*W3 + FRV [ID]*W4+PV [ID]*W5+ RTV [ID]*W6)接受对可选参数的要求,即隐私向量(即PV[ID])、响应时间向量(即RTV [ID])、可访问性向量(即AV [ID]),以1到5确定语义相关性向量,即SRV [ID],用于使用Web本体语言和LCS正确识别客户导航会话,并确定网站与客户需求确定时间花费相关性,即,使用语义相似的电子商务查询的使用Web字典Map()、Reduce()方法确定语义方向,即通过抓取并将在线评论分类为与替代网站相关的正面、负面评论,确定网站的FRV[ID]分配网络链接ID到每个检索到的电子商务网站.通过只存储长度在MIN和MAX之间的候选网页中的单词来实现网页相关性词典从第一阶段得到的语义扩展搜索查询中提取关键词,并确定电子商务查询的每个关键词的MIN和MAX长度图五、网站排名采用基于Map Reduce的 RV页面排名算法。- 计算可访问性向量,AV[ID] = 0;如果(云=公共),则设置AV[ID]= 1- 计算回复时间向量,设置RTV[ID]= 0- If(linkresponse > ReplyTime(website(ID))thenRTV [ID] = strresponse - ReplyTime(website(ID))EndFor删除RTV[ID] = 0、PV [ID] = 0或AV[ID] = 0确定反馈相关向量,即FRV[ID]使用语义词典分析在线评论,并将其分类为负面、正面和中性评论,并计算FRV如下:设置计数= 0如果(评论是正面的),那么//过去客户计数=计数+2否则,如果(评价为否定),则//过去客户的不满意体验计数=计数-2否则,如果(审查为中性)//犹豫或困惑的过去客户计数=计数EndIF设置FRV [ID]=计数●●D. 马尔霍特拉岛Rishi/ Journal of King Saud University191●⁄ ⁄⁄●● 计算排名(网站(ID)):=AV[ID]<$((SRV[ID]<$W1+CRV[ID]<$W2+TRV[ID]<$W3+FRV [ID] W4 + PV [ID] W5 + RTV [ID] W6)接受客户对所示排名顺序的反馈,并更新客户资料数据库。RV页面排名算法使用各种相关性向量(诸如内容相关性向量、语义相关性向量、回复时间向量、反馈相关性向量、隐私向量)的计算来确定电子商务网站对于特定客户的相关性。该算法从搜索查询的个性化扩展开始,如第5.1节所述。从查询中删除词干(即a、the、an)后。RV算法将计算搜索字符串中每个关键字的最小和最大长度。使用最长公共子序列来确定SRV。CRV使用Map和Reduce函数确定。此外,该算法将从最终输出中删除所有回复时间向量= 0,可访问性向量= 0或隐私向量= 0的电子商务网站。在此基础上,根据过去客户的经验计算反馈相关向量。最后,通过对各个相关度向量的加权求和来计算网站的排名。5.4. 高级电子商务智能Meta搜索系统-IMSS-AE工具IMSS-AE工具使用第二代HDFS,在ASP.NET框架中实现用于大数据分析的Map-Reduce框架,以协助客户进行电子商务交易。此工具还用于确定性能RV页面排名算法IMSS-AE工具的界面如下图6所示。注册/登录/注册后,验证工具的界面将允许客户选择几个或所有提到的元搜索引擎/搜索引擎/搜索目录,即,Dogpile,Yahoo和Google分别用于电子商务网站的后台检索。在这里,IMSS-AE工具将充当元搜索引擎;客户可以在IMSS界面上的搜索框中指定搜索字符串-AE工具。该工具将首先扩展搜索查询,以更有意义的个性化搜索查询。该工具将进一步分配排名的一些顶级的网页链接检索从后端搜索引擎的基础上计算各种排名向量,如AV,FRV,SRV,CRV,RTV,TRV与适当的权重年龄确定从客户指定的参数。有关排序向量和加权贡献的计算的详细讨论将在第5.2节中讨论。该工具将输出智能Meta搜索系统-高级电子商务注册/新客户用户ID:DM@UOK密码:*个性化搜索高级标准搜索雅虎谷歌DOGPILE页面加载速度交易安全响应时间输入搜索字符串:在线皮带采购极速前进>>IMSS-AE的个性化扩展搜索字符串女性在线腰带购买建议另一个继续取消排名框秩Web链接响应时间反馈1www.amazon.in/clothing/women00:00:00:15msYES没有2www.myntra.com/women-belts00:00:00:36ms是的没有3m.jabong.com/women/accessories时间00:00:49是的没有见图6。 IMSS-AE工具的接口。192D. 马尔霍特拉岛Rishi/ Journal of King Saud UniversityP电子商务网站链接的排序顺序,他们的排名以及各种统计数据,由客户选择的高级搜索标准,如页面加载速度,响应时间,trans-action安全以及后台搜索引擎。但是,个性化搜索选项卡将不允许选择任何搜索标准,并将通过引用客户注册的过去偏好直接给出结果。此工具将建议个性化的扩展搜索字符串通过使用浏览历史记录。此外,在输出中,该工具将使用客户偏好的搜索标准以及所选统计的细节对各种链接进行排名6. 实验和图形分析对于给定的产品查询,电子商务网站与特定客户的个性化相关性取决于其在搜索结果输出中的位置。为了将IMSS-SE工具与其他流行的搜索工具进行比较,考虑在X度量下的搜索精度,其在这里由P(X)示出。本研究中用于比较的各种搜索工具有元搜索引擎、搜索引擎和搜索目录,即,Dogpile,谷歌,雅虎和IMSS-SE工具由Malhotra等人,(2017年a,b)。对于给定的电子商务查询,P(X)报告结果中有多少输出链接的分数,标记为在前X个结果中显示显著性。这里,假设排名靠前的网络链接与客户更相关。然后将工具排名与人类志愿者的判断进行比较评估所提出的RV算法和IMSS-AE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功