基于属性的混合推荐系统：遗传算法与多维信息模型

171 浏览量更新于2023-12-10 收藏 924KB PDF 举报

原创文章

混合推荐系统

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Egyptian Informatics Journal（2013）14，67开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com原创文章基于属性的混合推荐系统使用遗传算法和多维信息模型Mojtaba Salehia，*，Mohammad Pourzaferanib，Seyed Amir Razavica伊朗德黑兰Tarbiat Modares大学工业工程系b伊朗伊斯法罕伊斯法罕大学计算机工程系c伊朗德黑兰埃米尔卡比尔理工大学计算机工程和信息技术系接收日期：2012年5月6日;修订日期：2012年12月6日;接受日期：2012年2013年1月3日在线提供摘要近年来，基于网络的教育系统中学习材料的爆炸式增长，导致了为学习者定位合适的学习材料的困难。个性化推荐是克服新的学习环境中信息过载的一种使能机制，它能为学习者提供合适的学习材料。针对用户根据项目的特定属性表达意见的特点，提出了一种基于属性的学习资料混合推荐系统，以提高推荐的准确性和质量。该系统包括两个主要模块：显式属性推荐和隐式属性推荐。在第一个模块中，将学习者学习材料的隐含或潜在属性的权重作为遗传算法中的染色体，然后根据历史评分对权重进行优化。然后，使用最优权向量隐式属性，代表学习者的意见，最近邻算法（NNA）产生推荐。第二种是偏好矩阵（PM），它可以在多维信息模型中根据学习材料的显式属性对学习者的兴趣进行建模。然后，一个新的相似性度量之间的PM和NNA产生的建议。实验结果表明，我们提出的方法优于现有的算法的准确性措施，并可以减轻一些问题，如冷启动和稀疏。©2012计算机和信息学院，开罗大学。由爱思唯尔公司制作和主持All rights reserved.*通讯作者。联系电话/传真：+98 2182884323。电子邮件地址：m_salehi61@yahoo.com，mojtaba.salehi@modares。ac.ir（M. Salehi）。开罗大学计算机和信息系负责同行审查。制作和主办：Elsevier1. 介绍近年来，随着教育机构技术的发展，基于网络的学习环境变得非常流行。可通过移动设备访问的典型电子学习（e-learning）环境（如Moodle和Blackboard）包括课程内容交付工具、同步1110-8665© 2012计算机和信息学院，开罗大学。制作和主办Elsevier B.V.保留所有权利。http://dx.doi.org/10.1016/j.eij.2012.12.001关键词协作过滤;稀疏;个性化推荐;学习材料;遗传算法68M. Salehi等人和异步会议系统、论坛、测验模块、共享材料、白板等。[1，2]。推荐系统是新的学习环境的重要组成部分之一。在线学习环境中的推荐系统这个建议可以是一个在线活动，如做练习，阅读会议系统上发布的消息，或运行一个在线模拟，或者可以只是一个网络材料[3]。推荐系统在学习环境中最重要的应用之一是材料推荐。RS使用用户社区的意见来帮助个人更有效地从潜在的压倒性选择中识别感兴趣的材料和内容[4]。通过在学习环境中使用材料推荐系统，我们可以解决两个问题，个性化和信息过载。在这种情况下，推荐系统提供学习者接下来应该学习哪些学习对象[5]，或者提供学习对象以有助于学习者当推荐系统算法试图解决信息过载和个性化问题时，随着现有用户和项目数量的急剧增长，这些算法将面临严重的可扩展性和稀疏性问题。此外，传统的推荐算法大多是针对电子商务应用开发的，不能满足学习环境的一些必要要求。这些缺点之一是，它们通常只考虑用户但是，考虑学习者和学习材料的属性，如主题和出版商，是一个好的推荐的必要要求。因此，有必要考虑学习者和学习材料的属性，以提高学习环境中推荐的质量和准确性。另一方面，我们可以考虑学习材料的两组属性，包括显式属性和隐式（潜在）属性。显式属性是已知的，例如学习材料的主题和出版商，并且可以由专家来解释，但是隐式属性是潜在的，可以通过学习者的历史评级来推断。一些研究尝试将用户或项目的属性（特征）与历史评分相结合进行推荐。Robin[7]回顾了几种混合推荐方法，这些方法结合了外部（我们称之为显式）特征和历史评分数据，以提高预测精度。实验结果表明，特征和历史评分对推荐预测函数的估计有很大的参考价值。为了生成更高质量和准确度的推荐，并缓解现有推荐算法中存在的学习环境稀疏性等问题，本文在统一模型中融合了学习者和材料的显式和隐式属性。该模型有两个模块。在基于隐属性的模块中，采用遗传算法从历史评分中提取学习者的隐属性，并以权向量的形式表示。在显式属性模块中，引入了偏好矩阵（preference matrix，PM），它可以在多维空间中基于学习材料的显式属性来建模学习者的兴趣。本文的主要贡献是提高了质量，通过遗传算法和多维信息模型将学习者的隐式和显式属性结合在统一模型中，以提高推荐的准确性和解决稀疏性问题。使用这个推荐系统，教师可以提高教学过程的性能，学习者可以找到合适的在线材料。本文的其余部分组织如下：在第二节中，以前的相关工作的电子学习材料推荐系统进行了讨论。第三节介绍了整个系统的框架，并逐步描述了所提出的机制。实验部分应用所提出的算法，一个数据集来评估和分析方法的性能。最后，结论部分提供了结论性意见。2. 文献综述推荐系统已经在真正的电子商务应用程序中实现，例如Amazon[8]和CDNow[7]，它们用于向在线购物者推荐他们可能永远不会自己发现的产品和服务。也有一些开创性的研究系统原型，如 Syskill 和 Webert[9] ， Fab[10] 和GroupLens[11]。在电影、音乐、新闻、商业和医学等领域，已经开发了许多推荐系统，但在教育领域却很少。随着e-learning的出现，学习材料（学习内容或学习资源）推荐是推荐系统中的一个新课题。大多数推荐系统都是基于内容过滤或协作过滤设计的。这两种类型的系统都有固有的优势和劣势，其中基于内容的方法直接利用产品信息，而协作过滤方法利用特定的用户评级信息。此外，为了产生准确有效的推荐，研究人员提出了几种不同的算法，其中一些算法来自数据挖掘的成果。一些推荐算法是基于用户的协同过滤[13]、基于项目的协同过滤[10]、基于聚类的协同过滤[14]、基于降维的协同过滤[15]、Horting图论协同过滤[16]和基于贝叶斯网络的推荐[17]。在这一部分的下面，我们解释了一些关于推荐系统在电子学习领域的研究分为四类。协作过滤：大多数研究人员使用基于协作过滤（CF）的推荐系统[18基于具有类似过去行为的用户具有类似兴趣的假设，CF系统推荐具有类似兴趣的其他用户喜欢的项目。协作过滤方法完全独立于被评级或推荐项目的内在属性。CF被Soonthornphisaj等人用于预测最适合学习者的材料。首先，通过Pearson相关性计算所有用户和主动学习者之间的权重。然后，选择与主动学习者具有最高相似性的n个用户作为邻域。最后，使用从邻域获得的权重组合，计算评级预测。该策略只考虑学习者基于属性的混合学习材料69.Σ材料和其他上下文信息。Bobadilla等人[23]通过一个新的CF方程将学习者的分数（从测试中获得）纳入计算中，用于材料预测。他们的实验表明，该方法获得了较高的项目预测精度。然而，CF方法没有考虑项目和用户的属性。基于内容的过滤：仅根据用户过去评估的对象内容分析基于内容的RS主要用于推荐文档、网页、出版物、笑话或新闻。赫里比等人[24]使用学习者数据挖掘：数据挖掘技术使用收集的关于学习者行为的信息，例如导航历史，来产生建议。这些技术适合于推荐学习材料的顺序（即，而不是学习材料本身。例如，Romero等人[25]开发了一个特定的Web挖掘工具，用于在推荐引擎中发现合适的规则。他们的目标是能够向学生推荐最合适的链接/网页，以便下一步访问。该策略不考虑学习材料的内容，以提高推荐的准确性。聚类由Hammouda和Kamel[26]提出，根据主题和相似性对学习文档进行分组。数据挖掘技术，如关联规则挖掘，会话间和会话内频繁模式挖掘，由Zaiane应用[3]。Sunita和Lobo对从Moodle数据库中选择的数据使用分类算法对数据进行分类，然后他们使用Apriori关联规则算法进行推荐[27]。混合：每种推荐策略都有自己的优点和缺点。因此，结合几种推荐策略有望提供比单独使用任一策略更好的结果[28，29]。大多数混合算法通过结合几个输入数据源或几个推荐策略来工作。Liang等人[30]实现了基于内容的过滤和协作过滤的组合，为课件选择模块提供个性化推荐。刘和施[31]设计了基于关联规则挖掘和协同过滤的素材推荐系统。由于用户的浏览量是预先确定的（从Web使用挖掘的结果），系统能够减少开发系统作为搜索引擎所需的工作量。Khribi等人[32]提出了两个模块：一个离线模块，用于对数据进行预处理，以建立学习者和内容模型;以及一个在线模块，用于在线使用这些模型来识别学生的需求和目标，并预测推荐列表。Li等人[33]发现了内容相关的项目集CF，然后将项目集应用于序列模式挖掘，并为学习者生成序列模式建议。一些研究人员还尝试使用语义信息进行推荐[34]。如前所述，一些研究将项目或用户的属性（特征）与历史评分相结合，以获得更好的推荐。这些研究实际上只结合了明确的属性。Claypool和Gokhale[35]引入了一个简单的直线，来自不同推荐者的推荐分数的组合。Robin[7]回顾了使用这种方法的一些主要方法。综上所述，为了提高学习材料推荐的效率，并缓解稀疏性等问题，本研究开发了一种结合材料多维属性和学习者评分信息的统一模型。此外，本研究还引入了隐含属性，并利用遗传算法对这些属性进行了优化提取。3. 拟议的建议办法在本节中，首先介绍了系统框架，然后逐步描述了所提出的推荐机制。3.1. 推荐框架在大多数推荐算法中，用户偏好建模都是采用向量空间模型.这些向量是用户对项目的评级。在这些方法中，根据向量之间的相似性或用户评分之间的相似性，最相关的项目推荐给用户。但这些方法对于学习环境的准确性不够，因为材料通常具有多种属性，且属性值不同，不同的学习者对这些属性的重视程度也不同。例如，材料具有主题、子主题和出版商作为属性，并且每个属性都具有值，例如，对于主题，我们具有实际上，一个用户对一个商品的评价，代表了该商品不同属性值的综合评价值。因此，对于特定项目具有相似总体评分值的两个用户可能会对其属性放置不同的重点。因此，为了在电子学习推荐系统中具有良好的个性化，有必要考虑材料的不同属性[36]。学习材料通常有几种属性。因此，为了准确地考虑学习者由于评级取决于学习者的需求和属性以及材料的属性函数可以表示为uM;！U;！我M是一个预测从历史评级数据中学习的模型。！你和！我是学习者和学习材料的属性。基于这种观点，推荐系统的目标是在用户的空间属性和项目之间找到一个合适的关系不幸的是，在大多数情况下，我们不能使用上述模型。因为在CF问题中为学习者和材料选择所有合适的属性几乎是一项不可能的任务。即使选择了属性集，由于某些数据涉及到人的隐私或某些属性无法进行形式化描述和编码，因此几乎不可能收集到相应的数据。这导致预测的准确性较低，因为它仅基于有限的观测属性[37，38]。然而，我们可以使用用户-项目矩阵中的历史评分数据来发现学习者和学习材料的一些有价值的属性，这些属性被称为反映学习材料和学习者特征的隐含属性。70M. Salehi等人Pj1¼因此，我们可以使用基于观察到的属性或显式属性加上潜在属性或隐式属性构建的预测模型来改进推荐过程，以获得更高的预测精度[36]。在这项研究中，显式属性使用PM建模，并使用遗传算法来寻找每个学习者的整体评分和潜在的隐式属性权重向量之间的关系。更具体地说，给定学习者的评级数据，GA根据隐式属性权重计算他/她的偏好模型。图1示出了所提出的推荐系统的框架。拟议的框架有两个方面。在基于多维信息模型的学习者推荐系统中，收集了一定时间段内学习者的服务器使用日志。然后，使用这些信息和评级信息，PM为每个学习者建立。然后，根据学习者之间的新的相似性，评级是预先确定的。口述。在基于遗传算法的推荐模块中，后代每个候选解都由一个称为染色体的数字序列表示。在这项研究中，字符串中的每个元素（基因）代表一个隐式的属性权重。一个明智选择的染色体组被称为种群，在给定时间的种群是一代。种群规模在各代之间保持固定，对GA的性能有重大影响。这个大小由用户根据字符串中元素的数量和问题的复杂性来指定。在本研究中，该参数是通过试验和错误来选择的。一组随机生成的字符串构成初始种群。初始种群的优化由GA完成，使用适当定义的适应度函数。在本节的下文中，我们将逐步描述GA过程编码策略：令w i=（w i1，w i2，. ，wiK）和ei =（ei1，ei 2，.. . ，e，K）指示用户的属性权重向量i项i，其中K是已定义属性的数量，使用遗传算法计算每个学习者的隐式属性Kj1 wij¼1;PKe i j¼1。在这项研究中，每个重量矢量-算法所提出的遗传算法可以计算学习者对学习材料的每一个属性的兴趣。在联机模式下，活动的tor将由以下0和1的字符串表示：b9.. . b1b0b9.. . b1b0. B9... B1b0b9.. . b1b0学习者从服务器日志文件中提取，从1 1 12 2 2K-1K-1K-1K K K学习者连接到电子学习系统的时间，直到她/他要求推荐。最后，将两个推荐系统的结果进行了综合。在本节的下文中，将介绍详细步骤由于每个权重的值是连续的，并且在0和1，我们将每个属性权重的精度设为1/1000，每个属性权重为10位。这些10位二进制数通过应用以下等式被转换为范围从0到1的十进制浮点数：3.2. 基于遗传的推荐系统x0x210- 1ð1Þ随着学习环境中用户和项目数量的急剧增长，推荐算法的可扩展性问题日益突出，计算量超出了实际或可接受的水平。因此，本文采用遗传算法作为属性权重优化的元启发式算法.3.2.1. 隐式属性优化GA通过将解决方案结构中最适合的生存与结构化但随机的信息交换相结合来模仿自然进化的过程，其中x是每个属性权重的二进制代码的十进制数。两个矩阵属性重量W U=（W1，W1，. ，w N）T和W I=（el，el，.. . ，eM）T分别表示N个用户和M个项目的属性权重向量，成为优化目标。它的初始解可以是一些离线处理得到的随机值。在初始种群的基础上，对每次迭代产生的新个体用拟合函数进行评价。适应度函数：适应度是分析个体属性权重并判断其预测性历史学习者历史学习者偏好矩阵构建（显式属性建模）基于遗传算法的隐式属性线下在线建议基于加权混合方法的最终评分预测和推荐生成主动学习者日志图1所提出的素材推荐系统的系统框架基于属性的混合学习材料71XP1/1j2 NIAB LaIAB一J派·比PsimpleL;L精度当单个wi被应用于生成建议时，对于用户i的修正KwwsimIABLa;LbqPKqPKw2·w2ð4Þ预测精度这是适应性的基础。所以，指控-1/1AI1/1bi函数的定义如下：使用im-1的La对学习材料i的预测评级基于显式属性的方法是PIAB（La，i），它是由NfWU关于我们XNXMi. XK联系我们.wik·e jk-r ij.ð2ÞLa邻域的评级，NIAB（La），其之前评级i。计算公式如下：其中，Rij是用户i对项目j的实际评级，分别用于用户i和项目j的属性kMi是用户i评定的项目数。当f（WU，WI）为PIABLa;iIABRLaPj2NIAB选择操作：选择操作符的选择是遗传算法的重要组成部分。该部分独立于遗传算法中的其他部分，与问题本身以及遗传算法中使用的适应度函数、交叉算子和变异算子没有直接关系[39]。在这项研究中，概率选择是根据个人的适应性进行的，这样更好的个人被选中的机会就增加了。这里，采用通用抽样方法来选择好的字符串，并且通过下式计算选择每个字符串的其中RLa和RLj表示学习材料的评级平均值分别由主动学习者La和Lj评定，并且simIAB（La，Lj）是主动学习者La和Lj之间的相似性，是NIAB（La）的成员。然而，如果一个学习器没有足够的相似学习器，传统的算法会产生大量的不相似学习器，这必然会降低主动学习器的预测精度。因此，为了提高计算效率，学习者集应初步填充-通过设置相似性匹配阈值S来进行排序。只有当两个学习器之间的相似度至少为s时，两个学习器才是有效的相似邻居.pW;W1-fcWU; WIð3ÞcU IPSfcWU;WIC13.3. 基于多维信息模型的推荐系统在本节中，学习者的兴趣被建模为一个多维的，其中fc（WU，WI）表示染色体c的拟合函数值，PS是群体中的个体数或群体大小，pc（WU，WI）表示选择染色体c的概率。由于群体中的拟合度之和是恒定的，拟合度较低（预测准确度较高）的个体被选中的概率较大。我们发现，通用抽样方法方案产生了一个很好的个人被选择为下一个种群的繁殖。我们希望这将有助于提高我们的算法的效率。交叉和变异操作：交叉是一个采用多个父解决方案并从它们产生子解决方案的过程交叉算子选择两个染色体，并尝试将它们配对，为下一代生成个体。在这项工作中，一点交叉被用来产生后代。随机选择双亲字符串上的单个交叉点。在任一染色体串中超过该点的所有基因在两个亲本染色体之间交换。变异算子用来考察搜索空间中的一些未知点，同时也避免了某些超染色体引起的整个可行空间的早熟收敛。此操作符对字符串的一个或多个元素进行随机更改。突变是以一个很小的概率完成的，称为突变概率或突变率。根据变异率，随机选取个体的某些元素，改变其值，得到新的个体。它是一种保持种群多样性的局部随机搜索方法根据学习材料的显式属性来定义数据结构。然后，为了生成推荐，基于多维数据结构之间的相似性计算学习者之间的相似性。3.3.1. 多维信息模型对具有某些外显属性值的材料的评级表明这些外显属性值对学习者的重要性;它可以被认为是学习者外显属性加权的基础。因此，为了准确地考虑学习者的偏好，应该考虑学习材料的属性。因此，材料属性可以被已定义作为一向量 C=

下载后可阅读完整内容，剩余1页未读，立即下载