协同过滤算法在稀疏数据与冷启动问题中的改进研究

需积分: 32 30 下载量 2 浏览量 更新于2024-08-09 收藏 3.27MB PDF 举报
"这篇博士学位论文探讨了协同过滤系统在应对数据稀疏性和冷启动问题时的挑战,并提出了一种名为PearAfter_SVD的方法和一种转换型方法LCMSTI,旨在提升预测准确性。论文在EachMovie、MovieLens和Jester三个公开数据集上进行了实验,显示了这些方法相对于传统算法的优势。同时,论文还介绍了利用统计众数法和信息熵法解决冷启动问题的策略。" 在协同过滤系统中,数据稀疏性是个关键问题,因为用户通常只对极少数项目给出评分,导致矩阵极度稀疏,这影响了预测的准确性。为了解决这一问题,论文提出了一种特征递增型的PearAfter_SVD方法。该方法首先运用奇异值分解(SVD)来预测评分,然后基于预测结果找到相似用户作为邻居,最后利用Pearson相关系数计算最终的预测值。此外,转换型的LCMSTI方法则根据系统状态动态选择在不同推荐策略之间切换,例如在基于潜在分类模型的Pearson算法和STIN1算法间转换,通过设置阈值来确定最佳策略。 针对冷启动问题,论文提出了两种策略。新用户问题被处理为利用所有用户对某一项目评分的众数来预测新用户对该项目的评分。而新项目问题,则用活动用户已评分项目评分的众数预测其对新项目可能的评分。另一种策略是信息熵法,它利用信息熵来衡量用户评分的不确定性,帮助选择合适的初始预测。 实验结果显示,PearAfter_SVD和LCMSTI在数据稀疏的条件下能显著提高预测的准确性,而统计众数法和信息熵法对于新用户和新项目的问题也展现出一定的解决方案效果。这些研究成果为协同过滤系统的优化提供了新的思路,特别是在没有项目内容信息和用户个人信息的情况下,增强了推荐系统的实用性。