协同过滤优化:稀疏性与冷启动问题研究

需积分: 32 30 下载量 99 浏览量 更新于2024-08-09 收藏 3.27MB PDF 举报
"这篇博士学位论文探讨了协同过滤系统在应对数据稀疏性和冷启动问题时的挑战,并提出了相应的解决方案。作者孙小华在计算机科学与技术领域,由孔繁胜教授指导,研究了如何在缺乏项目内容信息和用户个人信息的情况下提高预测准确性。论文中提到了两种方法,即PearAfter_SVD和LCMSTI,以及两种解决冷启动问题的策略,基于统计的众数法和信息熵法。" 协同过滤系统是一种广泛应用于个性化推荐的技术,它通过分析用户的历史行为,预测他们可能对未接触过的项目感兴趣的程度。然而,这类系统面临的主要问题是数据稀疏性,即用户与项目之间的交互记录往往是不完全的,导致推荐的准确性下降。此外,冷启动问题也是一大挑战,包括新用户加入时的推荐难题(新用户问题)和新项目引入时的推荐困境(新项目问题)。 论文中介绍的PearAfter_SVD方法结合了奇异值分解(SVD)和基于邻居的Pearson算法。首先,SVD用于处理稀疏数据,预测用户可能的评分,然后根据这些预测评分确定相似用户(邻居),最后利用Pearson相关性计算预测值。这种方法能够有效地利用有限的数据来提升预测精度。 LCMSTI方法则是一种转换型策略,根据系统状态在不同推荐方法之间切换,特别是基于潜在分类模型的Pearson算法和STINl算法。潜在分类模型利用期望最大化(EM)算法捕捉用户与项目间的隐藏关系,而STI Non personalized(STINl)方法则是对协同过滤的改进,具有尺度与平移不变性。LCMSTI通过设置阈值动态调整推荐策略,以适应数据稀疏情况。 对于冷启动问题,论文提出基于统计的众数法和信息熵法。前者利用社会心理学中的从众效应,新用户对项目的评分预测基于所有用户对该项目的平均评分(众数),而新项目则用用户已评分项目的众数来预测。后者信息熵法则引入信息理论,利用信息熵衡量不确定性,帮助选择有代表性的用户或项目来缓解冷启动问题。 通过在三个公开数据集上的实验,这些方法显示出了优于传统协同过滤算法的性能,尤其是在处理数据稀疏和冷启动问题时。这为构建更有效的推荐系统提供了理论支持和实践指导。