协同过滤中的相似性度量方法:余弦相似性与相关相似性

需积分: 32 30 下载量 51 浏览量 更新于2024-08-09 收藏 3.27MB PDF 举报
"这篇博士学位论文主要探讨了协同过滤系统在应对数据稀疏性和冷启动问题上的策略。作者孙小华在计算机科学与技术领域,由孔繁胜教授指导,提出了一些在缺乏项目内容信息和用户个人信息情况下的解决方案,以提高预测准确性。研究涉及了余弦相似性、相关相似性等传统相似性度量方法,并介绍了两种改进方法——PearAfter_SVD和LCMSTI,以及使用统计众数法和信息熵法处理冷启动问题。" 协同过滤系统是一种广泛应用于个性化推荐的技术,它通过分析用户的历史评分来预测其对未评分项目的喜好,从而实现信息过滤。然而,这类系统面临的主要挑战包括精确性、数据稀疏性和冷启动问题。 1. 数据稀疏性:在大规模的推荐系统中,用户和项目之间的评分数据往往极其稀疏,这影响了相似性度量的准确性。余弦相似性和相关相似性是两种常见的度量方法。余弦相似性通过计算用户评分向量的夹角余弦来度量相似性,但假设未评分项为0可能导致误差。相关相似性则使用Pearson相关系数,度量用户对共同评分项目的一致性,适用于衡量线性关系。 2. 冷启动问题:新用户或新项目无法获取足够的历史数据来生成有效的推荐。统计众数法利用用户评分的集中趋势(众数)来预测新用户或新项目的评分,而信息熵方法则通过信息熵来选择有代表性的用户群体,以提供初始的推荐依据。 为了改善数据稀疏性带来的影响,论文提出了特征递增型的PearAfter_SVD方法和转换型的LCMSTI方法。PearAfter_SVD首先使用奇异值分解预估评分,然后确定邻居用户,最后应用Pearson算法。LCMSTI算法则动态切换不同推荐策略,通过阈值决定在基于潜在分类模型的Pearson算法和STIN算法之间转换。 这篇论文深入研究了协同过滤系统中的关键问题,并提出了创新的解决方案,旨在提高推荐系统的预测准确性和适应性,尤其在数据稀疏和冷启动场景下。这些方法对于优化推荐系统性能具有重要的理论和实践价值。