没有合适的资源?快使用搜索试试~ 我知道了~
大数据环境下的推荐系统性能优化
沙特国王大学学报大数据环境下提高推荐系统性能的改进隐行为模式挖掘方法P. Shanmuga Sundaria,M.苏巴吉湾a计算机科学与工程学院,Vellore理工学院,Vellore 632014,印度bIIIP,Vellore Institute of Technogy,Vellore 632014,India阿提奇莱因福奥文章历史记录:收到2020年2020年9月11日修订2020年9月18日接受2020年10月14日网上发售保留字:隐藏行为分析大数据FP-growth关联规则挖掘A B S T R A C T所提出的工作旨在解决推荐系统中的数据稀疏性问题。它处理两级预处理技术,以减少项目级的数据大小。添加其他资源,如项目类型,标签和时间,以深入学习和分析用户偏好的行为。该方法的优点是根据用户的兴趣模式进行推荐,避免了过时的推荐。用户信息基于相似的项目类型和标签特征进行分组。这有效地处理了存在于项目类型上的重叠条件进一步,基于时间分析了用户的非静态兴趣。总体而言,它减少了维度,这是准备数据,分析隐藏模式的初始方式为了提高性能,所提出的方法利用Apache为了减少FP-Growth中构造树的计算量,候选数据集以矩阵形式存储。实验使用MovieLens数据集进行。观察结果表明,该方法实现了4%的精度提高时,与早期的方法相比。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍网络技术的快速发展导致信息过载。从这个超载的环境中找到相关的和精炼的信息是一个很大的挑战,在线用户。推荐系统在向用户推荐此类信息方面发挥着至关重要的作用(Kumar和Thakur,2018)。各种各样的网络应用,如在线新闻、电子商务、在线音乐、Netflix、You-Tube、Facebook和科学研究,利用推荐系统进行更好的决策过程。基于内容的过滤方法和协同过滤方法处理推荐系统中出现的问题(Lu等人,2015年)。一些研究人员将这些方法组合以形成混合过滤方法以实现更好的推荐(Manogaran等人, 2018年)。基于内容的方法纯粹基于项目特征的相似性工作,并且它需要关于项目的详细信息。基于相似性,它对项目进行排名并向用户建议前N个项目(Isinkaye等人, 2015年)。协同过滤方法仅适用于星级,即用户偏好得分。评级或用户首选项是一个数字*通讯作者。电子邮件地址:vit.ac.in(P.S. Sundari)。由用户针对项目给出的范围从1到5的标度值。如果用户不太满意或对特定项目不感兴趣,那么他们将其评为 类似地,如果评级分数为“五”,则表明用户对该项目更感兴趣或更满意(Bobadilla等人,2013年)。协同过滤方法进一步分为基于记忆的和基于模型的(Bobadilla等人,2013年)。基于记忆的方法也被称为最近邻方法。它计算用户和项目之间的相似性距离,以提供推荐。基于模型的推荐系统广泛应用于机器学习算法和数学模型中。由于用户数量的增加和评分矩阵中项目的稀疏性,协同过滤方法的推荐效果较差。为了克服这个问题,有必要结合其他功能来学习隐式用户偏好。这提供了关于用户对项目的偏好的附加信息和证据聚类、分类和奇异值分解等数据挖掘技术主要用于解决推荐系统中的稀疏性问题。这些方法训练预测模型的计算成本很高,并且由于数据稀疏问题,分析用户感兴趣项目之间的隐藏相关性有助于理解用户兴趣行为或模式。这种兴趣模式行为有助于增强https://doi.org/10.1016/j.jksuci.2020.09.0101319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comP. Shanmuga Sundari和M. 苏巴吉沙特国王大学学报8391建议的准确性。以关联规则的形式挖掘兴趣模式是数据挖掘领域中一项非常重要的技术。它涉及到频繁项集的发现和频繁项之间的条件关系规则。这些规则有助于发现隐藏的模式,促进了许多商业决策过程的卓越性,如购物篮分析,目录设计和交叉营销。提出了一种基于用户偏好项和用户偏好特征的隐藏行为分析的多标记项和项间相关性的处理方法。利用模式挖掘方法对隐藏行为进行了分析。模式挖掘是一种基本的数据挖掘技术,用来发现数据集中隐藏的相关性,检测频繁项集。规则提供了频繁项集之间的if-then模式。所提出的工作的主要目标是处理两个级别的预处理技术,以减少在项目级的数据大小。为了获得改进的用户简档,使用诸如项目类型、标签和时间的附加资源来对项目进行分类以用于行为分析。在初始级别,基于相似的项目类型、标签特征和其他用户信息对项目进行分组。它有效地处理存在于电影类型上的重叠条件,因为它具有多个类型。基于时间,它分析了最近的用户兴趣,因为他们的兴趣不是静态的。它使用聚类技术在项目级上进行降维,这是为关联规则挖掘准备数据的初步方法。基于关联规则挖掘算法产生的规则,对用户偏好进行分类和预测,以达到更好的推荐效果本研究的主要贡献总结如下:如下所提出的研究的新颖性是解决协同过滤方法中的数据稀疏问题首先,在聚类技术的帮助下处理项目级数据约简用户最近的偏好是计算与其他功能,如时间和项目进行分类,根据他们的兴趣。为了提高推荐系统的性能,采用了并行分布式的FP-Growth算法。FP-Growth算法中的频繁项以矩阵的形式存储,而不是存储事务数据库,从而减少了构造FP-Tree时的内存消耗。它减少了候选数据集中的扫描次数。选择购物篮分析的意义在于发现隐藏的偏好模式,这些模式可以用于购物篮分析,决策系统,推荐系统,医疗等。在推荐系统中采用这种模式挖掘方法,可以提供特定的推荐或促销信息,诱导顾客选择商品。模式挖掘方法从事务数据库中学习和检查最重要的隐藏关联或项的相关性。从发现的模式,用户隐式偏好被很好地识别。关联规则挖掘类似于基于项目的推荐系统。当产品或项目一起出现或频繁出现在购物篮中时,用户偏好级别较高。关联规则挖掘预测隐藏的相关性的基础上,经常首选的项目,从最近的兴趣篮交互式协同过滤方法根据用户过去偏好项的潜在特征来分析用户通过分析用户偏好矩阵中隐藏的模式,提高了推荐的准确率。利用关联规则挖掘方法对同一模式进行了其余的文件被组织为第2节,第3节,第4节,第5节和第7节。2. 文献综述许多在线应用(包括但不限于在线商务、在线新闻、在线音乐和医疗保健系统)基于用户需求和兴趣利用推荐系统来个性化服务和产品。用户对高质量产品的需求和需求的增加已经成为推荐系统的一大挑战为了提高推荐系统的效率和解决推荐系统中存在的问题,研究者们提出了一系列的算法和分析隐藏知识可以通过频繁模式挖掘(FPM),序列模式挖掘(SPM)和高效用项目集挖掘(HUIM)来实现 频繁模式挖掘方法在从数据中提取隐藏的数据模式方面起着重要作用(Luna等人, 2019年)。技术的进步催生了许多算法,如顺序模式挖掘,多线程模式挖掘,分布式和并行模式挖掘方法,以获得更好的性能。该研究指出,它在事务数据库中的项目或对象集之间发现频繁模式(FP)、关联、相关性或非正式结构。它支持Apriori,FP-Tree和Fuzzy FP-Tree等算法。最近Apache与Apriori算法相比,FP-Growth减少了事务数据库中的数字扫描。该算法忽略了不频繁的数据。通过结合 聚 类 和 关 联 规 则 挖 掘 技 术 来 解 决 数 据 稀 疏 问 题 的 混 合 方 法(Najafabadi等人,2017年)。根据用户的个人资料和物品的个人资料,在物品级上减少了维度空间。关联规则挖掘是对用户兴趣模式进行分析,以获取用户的偏好。该方法采用辅助数据源如标签,以提高偏好准确性水平。关联规则挖掘消除了相关性,从而提高了精度。规则生成当处理大数据集时,它会很高,并且增加了预测的复杂度。LAC是一个新的Java关联分类库,其中包括许多分类算法。 它提供了开源框架来评估分类问题(Padilloet al.,2020年)。模式挖掘方法,适用于小规模的twitter标签推荐它涉及两个阶段的过程(Belhadi等人,2020年a)。在第一阶段中,收集的twit数据被组织并转换为事务数据库,以发现隐藏的模式。在第二阶段,识别并推荐最相关的主题标签“分布式模式挖掘的分解转换(DT-DBM)”是一种分布式模式挖掘方法,用于发现具有不同架构的大数据处理的事务数据库之间的隐藏相关性(Belhadi等人,2020年b)。这种DT-SVM方法首先将事务数据库分解为不同的簇。 然后使用不同的架构(如单CPU,多CPU和MapReduce框架)对集群进行评估。与其他模式挖掘方法,如WIM,UIM,HUIM和SPM相比,DT-SVM取得了更好的结果。提出了一种基于聚类的模式挖掘方法,发现事务数据库中事务之间的相关性。高度相关的交易使用k-means算法进行分组应用模式挖掘方法来找到相关的隐藏模式(Djenouri等人, 2019年)。基于Apriori算法的混合 频 繁 项 集 挖 掘 ( Hybrid Frequent Item Set Mining , 简 称HMF)是一种大数据挖掘方法,它减少了候选项集生成过程中的扫描次数它实现了良好的可扩展性,因为数据存储在Hadoop分布式文件系统中(Sethi和Ramesh,2017)。关联规则挖掘在推荐中的应用●●●●P. Shanmuga Sundari和M. 苏巴吉沙特国王大学学报8392v1/4fg系统提供更准确的结果。在关联规则挖掘方法中,支持度和置信度是影响挖掘精度的两个它的计算成本变得很高,但它产生大量的规则。由于只挖掘与规则相关的特定项目,因此计算成本降低使用顺序数据处理发现大数据集的频繁模式挖掘是复杂的,因为它需要长的执行时间和高的内存消耗。并行频繁模式挖掘在多个系统中分布数据和处理时提高了性能(Miao等人,2019年)。用于频繁模式挖掘方法的并行改进的Apriori算法(Yang et al.,2015),其引入了称为“键值”对的新数据结构,其减少了传统Apriori算法中的扫描次数。与事务数据库相比,它占用的内存更少。“Apriori-Growth”是一种将Apriori算法与FP树相结合的高效的频繁模式挖掘方法(Wuetal., 2008年)。这最终降低了计算成本。MR-Apriori算法是一种基于映射约简的关联规则挖 掘 算 法 , 解 决 了 关 联 规 则 挖 掘 的 可 扩展 性 和 效 率 问 题 基 于MapReduce框架的关联规则发现提高了效率(Lin,2014)。3. 该方法所提出的方法基于可用的数据源来识别用户偏好,例如1.用户简档,2.项目简介,3.标签,4。获得同样的评级它检查用户和项目矩阵中的隐藏模式,该矩阵集成了通过采用关联规则挖掘,减少了数据稀疏问题.所提出的方法分三个阶段进行,如图所示。1.一、在预处理的初始阶段,去除不完整的数据,并对项目进行聚合,以降低项目空间的维数。在这个阶段,定义簇大小的数量是一个具有挑战性的任务。与类型相关联的项的特征有助于对电影进行分类。因此,所提出的方法最初认为数字类型作为集群大小,并与DB索引(Maulik和Bandyopadhyay,2002年)进行了验证。第二阶段是发现用户偏好行为或感兴趣项目中的隐藏模式Fp-Growth从事务数据库中找到频繁项集,这些频繁项集对于生成彼此强相关的频繁项集是必不可少的频繁模式挖掘的输出作为关联规则挖掘的输入,建立强if-then关联规则。该方法根据关联规则生成的规则预测未知用户为了提高准确性,最强的规则选择应用修剪。最后一个阶段是推荐,其中关联分类器在训练数据集的帮助下构建。前件表示特征,后件表示类标签。该模型使用测试数据进行测试,并生成topN建议。3.1. 预处理预处理是组织数据进行预测的初始阶段。根据电影的类型,数据被分类。由于每部电影都有多个类型,这就导致了重叠的情况。因此,不可能将电影归类为单一类型。例如,名为“Jumanji”的电影属于以下类型:冒险,儿童和幻想。因此,将电影归类为适当的标签是一个挑战。为了处理这种重叠的条件-基于用户组,建议用于社区检测的时间加权链接。采用特征权重有助于解决重叠条件(Moradi等人,2016年)。因此,该方法采用基于最近邻的方法。在该方法中,相似的用户偏好项被分组。3.1.1. 二分KMeans聚类Bisecting KMeans聚类是一种可扩展的层次聚类算法。Sparkmllib支持这种用于对项目进行分组的聚类聚类是基于项目的相似性形成的 簇大小是一个重要的参数,它是通过实验学习的,并与DB索引进行了验证,如图所示。 二、最低DB索引值是最佳聚类大小的指示 从图 2集群大小固定为10。集群是根据集群中出现频率最高的类型每个聚类再次基于显示用户最近兴趣的时间特征进行分组根据集群内的时间特征,用户被分为三个类别,即最近、中等和旧为了实现这种分类,根据起始年份和当前年份之间的差异计算项目阈值基于时间差的平均值固定如果项目如果项目当条件为中性时用户偏好可能会随着时间的推移而变化,并且聚合项根据时间进行排名。‘‘Recent”preferred product will get a higher 由于评级在MovieLens数据中以数字形式表示,因此将基于偏好水平,使用等式将项目分类为“高”、“低”和“中”。(一).这些分类有助于丰富用户配置文件和减少项目空间,以增强关联规则挖掘过程。数据的分组和分类有助于简化关联规则挖掘过程。在预处理之后,丰富的用户简档的示例在表1中示出。优先级Le El第1组中项目的评级来自用户配置文件的3.2. 生成关联规则预处理后的下一个阶段是预测用户的隐藏偏好。发现隐藏模式有两个阶段1. 查找频繁项集2. 生成关联规则3.2.1. 频繁项集设II1;I2;I3;. I n是一组项目。D是的事务性数据库这是表示为D¼ fT1;T2;T3.............. Tmg;其中Tjj21用户偏好是一个用户偏好-一个包含I中项目集合的交易(与市场篮子分析中的交易相同)。支持度是模式P在D中出现的度量。如果P的支持度不小于最小支持度阈值,则P是频繁项集3.2.2. 改进的FP-Growth算法FP-Growth算法是一种高效、可扩展的方法。它的工作原理是分而治之的方法。它会扫描数据库两次。在第一次扫描期间,频繁项集被检查并以降序在第二次扫描中,构造FP树来存储频繁模式的数据提出的增强FP-Growth算法将频繁项P. Shanmuga Sundari和M. 苏巴吉沙特国王大学学报8393Fig. 1. 建议的架构。图二. DB索引。表1生成的用户配置文件(预处理后)。用户项目评级组偏好级别分类数据11003冒险/最近0.6中间11085浪漫/中等1高11205幻想/旧1高21603儿童/最近1中间219011动画/旧0.33低形成矩阵形式。例如,考虑以下事务表2。3.2.3. 频繁项集频繁模式挖掘是对整个数据进行扫描,寻找满足最小支持度阈值的频繁项集。选择最佳阈值可以提高关联规则的准确性,这将在4.2节中解释。增强的FP增长方法在小交易的帮助下进行了解释表2。在数据库中,存在事务的集合,其被表示为T i d ^ft 1; t 2;. 其中,T i d是表2样本数据集。Tid原始项目集T1面包,黄油,果酱,饼干,啤酒,甜甜圈,酱汁,牛奶黄油,鸡蛋,果酱,面包,苏打,沙司,油T3鸡蛋,面包,尿布,可乐,油t4鸡蛋,果酱,饼干,肥皂,牛奶T5黄油,面包,果酱,甜甜圈,沙司,坚果交易标识符。最小支持计数阈值对于此示例数据集,固定为3频繁项集是P. Shanmuga Sundari和M. 苏巴吉沙特国王大学学报8394××ðÞ按支持次数递减排列。因此,频繁项集被存储在称为Frequent_list =[(bread :4),(jam:4),(butter:3 ),(eggs:3),(sauce:3),(milk:3)]的列表中。该列表由项及其支持计数组成。根据Frequent_list更新数据集因此,不满足支持计数阈值的其他项目为了提高该方法的效率,更新的数据集转换为矩阵的形式。上表3中的数据集包含五个事务,而Frequent_list包含六个元素。因此,矩阵构造为5 6维,并表示为M。首先,创建具有q r的零矩阵M。其中,矩阵M从Frequent_list中获取条目。所提出的方法将数据库转换成矩阵形式,而不是更新事务数据库。例如,交易T1在比较Frequent_list中的项目时以矩阵形式进行转换从Frequent_list中,将每个项目与交易表进行比较,如果列表中存在该条目,则相应的行和列填充对于数据库D中的所有事务,可以重复相同的操作表3中的矩阵形式减少了内存利用率。3.2.4. Fp_tree的优势一旦从事务数据库D中创建的频繁模式集很大,而它需要定期访问模式,则可以将频繁模式集压缩成较小的频繁模式集。为了更容易地得到频繁模式,对一些模式进行了精简,以提高性能.给定一组频繁模式FP1/ffp1:s1;fp2:s2;.:fp n:s ng其中fp i是频繁模式,而si是支持计数。如果有两个频繁的模式fpm:spm和fpn:snn其中spm=snn和fpm=fpn,则可以去除模式fpm只有当两个频率模式相同且其支持数相同时,才可以应用消除当支持度相同且频繁项集是另一个置信度较高的频繁项集的子集时,也可以采用该方法从表2中,频繁模式{(面包酱:3),(面包酱:3)}。频繁模式bread;butter从数据集中移除,因为模式3.2.5. 构造FP树一旦频繁项被转换并压缩成频繁模式,下一步就是构建FP-Tree。矩阵M的第q行第r列的元素是Mqr。在特定位置,值为1,表示事务数据库中的第q个事务和Frequent_list中的第r列。如果矩阵元素为零,则不考虑构造树。矩阵一旦构建,就不需要初始交易数据库进行进一步处理。因此,它被从降低存储消耗水平的存储器中擦除。图3中描绘了样本简化构造的FP树。为了简化树遍历,在头表中构造一个元素。项通过一个头节点链接服从于它在树中的存在。同一链接中的项在树中表示为节点链接。该项目的条件模式库是参照这些网络路径构造的。这一过程对整个数据集继续进行。最后对所有频繁项集进行检验。一旦物品如果识别出,则再次利用具有Frequent_list的对应条目来解码。3.2.6. Apache并行增强的FP-Growth有助于在分布式环境中构建FP-tree,quent项集。基于所构造的条件模式树,生成关联规则。FP树由一个表示为null的根节点组成。一个项前缀子树的集合是根的子树,一个头表表示为频繁项。前缀子树包含三个部分,即项目名称,计数和节点链接。项目名称表示项目的名称的节点。计数表示为路径中的事务数,节点链接表示FP树的下一个节点链接。从父节点到子节点用实线表示它们之间的关系。FP-Growth开始挖掘支持计数大于或等于阈值的每个项目上的FP-tree,以构建如图3所示的条件FP-tree。虽然spark可以处理缓存中的数据,但它比MapReduce提高了性能。它提供了可扩展和高效的数据结构,如RDD,它描述了一组并行操作的不可变元素。将RDD存储在高速缓存中,提高了系统的性能,这些关联规则有助于发现隐藏模式。示例规则如图4所示。使用Map-Reduce框架解决大规模数据问题。但是它需要大量的I/O来执行每个操作。这就增加了在每个节点上访问数据的计算开销3.3. 关联分类关联分类利用关联规则挖掘方法,通过检查高度有用的规则来发现规则,可以简化训练数据集。与其他分类技术相比,关联分类提供了更好的结果。为了建立预测模型,使用了关联规则挖掘和分类模块。3.4. 利用关联规则挖掘进行预测用户未知偏好分为规则发现、强规则选择和分类三个过程。3.4.1. 规则发现基于关联规则,从训练数据集中发现规则。这些关联规则称为类关联规则。3.4.2. 选择最强规则基于规则的支持度和置信度选择最强的规则,这给出了分类器的准确性。不满足支持度阈值的规则被淘汰,不考虑分类。3.4.3. 分类数据分为训练数据和测试数据。从训练数据中生成关联规则。规则根据置信度值按降序排列。从这些训练数据中选择最强的规则进行分类。在预测过程中,测试数据以最高置信度的项集进行组织.这些项集存在于测试数据中,被选择用于分类。基于类别标签计算预测精度。4. 实验分析著名的基准数据集用于MovieLens 10 M1项目的实验使用Apache的Spark的致敬机器每个节点构造FP-树单独和最终被合并以得到全局fre-tree。1www.grouplens.org。P. Shanmuga Sundari和M. 苏巴吉沙特国王大学学报8395¼¼表3矩阵形式。常见问题列表TiD111011111111100100010101111011图三. FP-树构造。见图4。 生成的规则。4.1. 数据集这里提供Movielens10M数据集的描述对数据集的研究表明,有15,220个独特的标签。一个标签正在被至少4000个用户使用每个用户的评级约为142个电影与10个独特的标签。作为一个整体,数据集包括1000万个评级,100,000个标签应用于10,000部电影大数据集中最频繁的项目集。给出了各种值以测试结果和规则生成的准确性,如图1和图2所示。5和6.根据几项试验,将参数固定为0.8和0.7。最优支持数消除了重复规则和不必要的规则。最佳置信度值提高了方法的精度。72,000名用户。4.2. 学习参数支持度和置信度是衡量关联规则挖掘精度的重要参数基于精度数量 相关的推荐项目建议项目召回数量 相关的推荐项目总数 相关项目ð2Þð3Þ在置信度上,从一般规则中选择最强的规则F评分2×精确度×召回率4已删除列表当规则的支持度很低时,其规则生成较高,反之亦然。选择最佳值有助于找到-1/4精确度和召回率P. Shanmuga Sundari和M. 苏巴吉沙特国王大学学报8396¼-图五. 选择支持计数。见图6。 选择信心。SparsityLevel1评分数数量 用户数×项目数4.3. 评估指标ð5Þ给出了精确度和召回率的平均值,如等式中所示。(四)、这些度量的值越大,准确性级别越高。采用支持度、置信度和提升度等评价指标对关联规则进行评价。但为了与其他传统方法进行比较,计算了准确率、召回率和F-Score。数据稀疏水平使用等式计算(5)它是关联规则挖掘的主要目的是从事务数据库中提取频繁项集。在某些情况下,低支持度的重要项目集被从该方法中删除在关联规则挖掘中引入了支持度和置信度度量。但为了评估所提出的方法的性能,其他指标,如准确率,召回率和f-score也被考虑在内。数据分为训练(80%)和测试(20%)。该方法使用80%的训练数据集进行训练,并为训练数据集生成规则利用测试数据对模型进行现在有必要比较测试和训练产生的规则 使用精确度和召回度量分数来确定项目是否相关或不相关(Lu等人, 2015年)。 另一方面,它确定建议或不建议(Yang et al., 2014年)。这些分数是使用方程计算的。(2)和(3)。精确度分数表示方法正确选择推荐项的有效性,召回率值表示这些项中有多少是相关的。这两个度量都是反比例的,以导出最佳度量(Bobadilla等人,2013),建议F-评分来解决这些值之间的权衡。所以f-得分借助于图7中的热图示出(Huang等人,2016年)。考虑到实验的目的,稀疏水平范围从0-5. 结果和讨论与图8所示的基本协同过滤(CF)方法相比,从所提出的方法获得的结果显示出更高的准确性。稀疏度的增加降低了基本CF方法的性能从观察,它揭示了穷人的邻里形成导致穷人的建议。因此,基本CF方法遭受稀疏性问题。所提出的技术解决了数据稀疏性问题。MovieLens数据集中不准确的邻居选择带来了徒劳的建议,因为偏好预测会产生不准确的结果。从表4中可以非常清楚地看出,所提出的方法在各种稀疏度水平下都显示出更高的性能。此外,在应用关联规则挖掘分析用户电影观看模式时,P. Shanmuga Sundari和M. 苏巴吉沙特国王大学学报8397见图7。 数据稀疏级别。见图8。 与基本CF方法的比较。表4现有方法的比较。不同的模型不同的稀疏水平(%)10-2020–4040–6060–8080–100PCA + KMeans(Wang等人, 2014年度)精度0.75250.75250.74220.70220.6556召回0.76220.76220.75340.70890.7001F-score0.75730.75730.74780.70550.6771TriFac(Bao等人, 2012年)精度0.72140.71890.69780.65780.6078召回0.71230.70330.69330.67330.6833F-score0.71680.71100.69550.66550.6433该方法精度0.81770.81770.80770.78870.7787召回0.80890.80890.79890.77020.7602F-score0.80990.80990.80320.77930.7693模式、用户已向项目发布的标签数据以及基于时间的最近用户兴趣。它不仅预测偏好得分,而且还分析用户行为。为了分析用户表现出兴趣的电影的流行度和模式,并评估来自用户和项目评级矩阵的隐藏模式,数据被视为相等。因此,在比较了关联规则挖掘和关联规则挖掘的优缺点后,认为关联规则挖掘是最佳的选择其他传统方法。关联规则挖掘有助于发现在用户和项目矩阵中经常一起出现的项目集。它的主要目标是识别彼此高度相关或相对于某些目标变量高度相关的项目组。它的工作原理类似于特征选择方法。5.1. 实验1(执行时间)图9(a)示出了所提出的FP-Growth与顺序FP-Growth和Apriori算法的比较。用传统的Apriori算法在不同的支持度下测试了该方法的性能。占6%到1%。值得注意的是,当与其他方法。当支持度较低时,该方法产生的频繁项目集和关联规则的数量较多。 Apriori算法产生大量的候选项集。因此,通过巨大的候选集搜索模式变得非常昂贵。提出的方法所需的时间更少P. Shanmuga Sundari和M. 苏巴吉沙特国王大学学报8398见图9。 (a)执行时间(b)数据结构(c)内存利用率。见图10。 (a1)执行时间(b1)数据结构(c1)内存利用率。与其他方法相比,它具有更好的性能。5.2. 实验2(不同的数据结构)关联规则挖掘的效率用各种数据结构进行测试,即基于分区、基于散列和基于事务的方法(Han等人,2011年)。出于实验目的,使用基于分区和基于散列的方法进行分析。在基于散列的方法,将项集散列成相应的块集,减少了候选项集生成的大小(Park等人, 1995年)。Apriori与散列是一个额外的技术,提高了Apriori算法的性能。基于分区的方法允许并行处理(Chung和Luo,2008)。该算法降低了关联规则挖掘的计算量,提高了挖掘效率.Apriori算法是基于事务的方法的一个测试是基于各种支持计数度量和每个度量的执行时间P. Shanmuga Sundari和M. 苏巴吉沙特国王大学学报8399ð Þ算法被观察到。图中所示的汇总结果。9(b)公开了所提出的FP-Growth实现了比具有散列的Apriori和具有基于分区的方法的Apriori更好的此外,进行测试以观察相对于不同支持计数生成的频繁项的数量在第一次扫描后,观察频繁项目集的数量与执行时间和内存利用率的关系。基本的基于Apriori的方法产生巨大的候选集。在散列技术中,重复的候选项集生成被减少到合理的数量。基于散列的方法适用于小数据集,但当处理非常大的数据集时然而,所提出的FP增长的总体不同数据结构的内存消耗如图9(c)所示,表明所提出的FP-增长在与其他方法比较时需要更少的时间。5.3. 时间复杂度分析假设交易包含n个项目。它需要n× k次来安排项目。搜索时间为k,时间是k×k,然后的复杂性时间是Onk×kOk2。对于Apriori算法,被计算为O2i,其中i是指事务数据库中不同项的数量。6. 与现有方法的从文献调查中选取了两种方法来评估所提出的方法。从实验中获得的结果表明,所提出的方法在精确度、召回率和F分数方面提高了推荐准确率,分别如图10(a)、(b)和(c)所示该方法与其他基于CF的方法是兼容的。对PCA + K均值方法的现有研究使用诸如PCA的降维技术解决了数据稀疏性问题,并使用K均值聚类方法预测未知偏好(Wang等人, 2014年)。这种方法在处理大数据量时存在一定的信息损失,计算量大但该方法通过两级聚类技术解决了数据稀疏性问题。该算法通过关联规则分析隐藏模式来预测用户未知的偏好TriFac(Bao等人,2012)模型在概率矩阵分解方法的原理下工作,并发现用户、项目、评分和标签之间的潜在特征强调关联。此方法无法处理与一个项关联的标记超过两个的重叠情况。但该方法有效地处理了重叠条件和多个标签与项目相关联。与其他方法相比,它提高了5%的精度值召回值表示相关的推荐项目的数量。结果表明,该方法提高了计算精度。实验结果表明,该算法在不同的数据稀疏度下都能很好地 图图10(c)示出了从F分数获得的结果,F分数是表4中列出的精确度和召回率值的平均值。研究结果表明,用户偏好不仅要基于评分,还需要对隐藏模式知识进行深入分析因此,用户偏好的分析行为提高了推荐准确性。7. 结论应用关联规则分析用户兴趣、隐藏模式和偏好项之间的相关性,并以MovieLens数据集为基准数据集进行了验证。提出的模式挖掘方法减少了执行时间,通过以矩阵形式存储频繁项来降低并行处理和计算成本实验结果表明,该方法在数据稀疏度较高的情况下,仍能产生推荐结果,优于不同数据测试结果与其他CF为基础的方法进行了比较。实验结果表明,与传统的CF方法相比,该方法的查准率平均提高了5%,查全率平均提高了3%所提出的方法的显着好处是丰富的用户配置文件分组项目的功能,如项目标签信息,项目类别和新颖的对象的基础上的时间。该方法进一步从项目偏好中获取隐含知识,以预测未知的项目偏好.所提出的方法的优点是分析最频繁出现的项目,揭示隐藏的相关性,关联和模式背后的首选项目。该方法不推荐热门项目,而是分析用户的潜在兴趣,根据用户先前的兴趣模式进行项目推荐由于用户的兴趣是动态的,该方法根据用户最近的兴趣进行分析和排序从实验观察的结果显示,83%的用户喜欢竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。引用鲍,T.,Ge,Y.,Chen,E.,熊,H.,田,J.,2012.使用用户评级和标签进行协同过滤。第一届国际上下文发现和数据挖掘研讨会论文集。^Margaret,p. 1.一、Belhadi,A.,Djenouri,Y.,Lin,J.C.- W.,卡诺,A.,2020年a。一种数据驱动的twitter标签推荐方法。 IEEE Access 8,79182-79191。Belhadi,A.,Djenouri,Y.,Lin,J.C.-W.,卡诺,A.,2020年b。一个通用的分布式模式挖掘系统。应用情报1- 16Bobadilla,J.,Ortega,F.,Hernando,A.,Gutiérrez,A.,2013.推荐系统调查。Knowledge-Based Systems 46,109-132.Chung,S.M.,Luo,C.,(1995 - 1996),中国地质大学,2008.在工作站集群上从数据库中高效地挖掘最大频繁项集。 知识和信息系统16(3),359-391。Djenouri,Y.,Lin,J.C.- W.,Nørvåg,K.,Ramampiaro,H.,2019.基于事务分解的高效模式挖掘。2019年IEEE第35届数据工程国际会议(ICDE)。IEEE,pp. 1646-1649年。汉,J., Pei,J., Kamber,M.,2011. 数据挖掘:概念与技术。爱思唯尔Huang,T.C.- K.,陈玉- L.,陈文C.的方法,2016.一种新的基于google相似度的推荐模型。 决策支持系统89,17-27。Isinkaye ,F. ,Folajimi , Y. ,Ojokoh ,B. ,2015. 推荐系 统:原则 、方法和 评价。Egyptian Informatics Journal 16(3),261-273.库马尔,S.,Mohbey,K.K.,基于大数据的并行分布式模式挖掘方法综述。沙特国王大学学报-计算机与信息科学。库马尔,P.,Thakur,R.S.,2018.推荐系统技术及相关问题综述。InternationalJournal of Information Technology 10(4),495- 501.林,X.,2014. Mr-apriori:基于mapreduce的关联规则算法。2014年IEEE第五届软件工程和服务科学国际会议,IEEE,2014年,第101页。141-144卢,J,吴,D.,Mao,M.,王伟,Zhang,G.,中国农业科学院,2015.推荐系统应用发展综述。 决策支持系统74,12-32。卢娜,J.M.,Fournier-Viger,P.,Ventura,S.,2019年。 频繁项集挖掘:25年回顾Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery9(6).e1329。Manogaran,G.,Varatharajan河,Priyan,M.,2018年基于多核学习与自适应神经模糊推理系统的心脏病诊断混合推荐系统。多媒体工具和应用77(4),4379-4399。莫里克,美国,Bandyopadhyay,S.,2002.若干聚类算法的性能评价及有效性指标。IEEE Transactions on Pattern Analysis andMachine Intelligence 24 ( 12 ) ,1650-1654.P. Shanmuga Sundari和M. 苏巴吉沙特国王大学学报8400Miao,Y.,林,J.,徐,N.,2019.一种改进的基于spark的并行fp-growth算法及其应用。在:2019中国控制会议(CCC),IEEE,pp. 3793-3797.Moradi,P.,Rezaimehr,F.,Ahmadian,S.,Jalili,M.,2016.基于用户重叠社区结构的信任感知推荐算法。2016年第十六届新兴地区ICT进步国际会议(ICTer)。IEEE,pp. 162比167Najafabadi,M.K.,Mahrin,M.N.,Chuprat,S.,Sarkan,H.M.,2017.利用隐式数据聚类和关联规则挖掘提高协同过滤推荐的准确性。计算机在人类行为67,113-128。Padillo,F.,卢娜,J.M.,Ventura,S.,2020年。Lac:用于关联分类的库193.第一百九十三章 105432。Park,J.S.,陈文美国,余,附,1995.一种有效的基于哈希的关联规则挖掘算法。 AcmSigmod记录24(2),175-186。Sethi,K.K.,Ramesh,D.,2017年。Hfim:一种面向大数据处理的基于spark的混合频繁项集挖掘算法。 The Journal of Supercomputing 73(8),3652- 3668.Solanki,S.K.,帕特尔J.T. 2015.关联规则挖掘综述。2015年第五届先进计算通信技术国际会议&。IEEE,pp. 212-216Tyagi,S
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功