协同过滤推荐系统中的相似性度量:综合评析与实验对比

0 下载量 108 浏览量 更新于2024-06-17 收藏 3.08MB PDF 举报
本文主要探讨了基于协同过滤的推荐系统的相似性度量,特别是针对用户和项目之间的依赖强度的量化方法。该研究发表在沙特国王大学学报上,由Fethi Fkih,来自计算机科学系和计算机学院的作者共同完成,同时涵盖了Qassim大学和MARS研究实验室的参与。 协同过滤(CF)是一种广泛应用在推荐系统中的技术,它依据用户的历史行为和偏好来预测他们可能感兴趣的新项目。推荐系统的核心在于构建用户之间的相似性,因为相似用户的行为模式可以作为预测新兴趣的基础。因此,选取合适的相似性度量至关重要,本文对此进行了深入的综合评述和实验比较。 首先,文章分为两大部分:基于用户的协同过滤(User-based CF)和基于项目的协同过滤(Item-based CF)。在用户级的CF中,研究了邻居选择策略,即如何确定与目标用户最相似的一组用户,以及评分预测,即如何利用这些相似用户的评分来估计目标用户对未知项目的喜好。在项目级的CF中,相似性计算则聚焦于项目间的相似性,如使用余弦相似度,这是一种常见的向量空间模型,通过计算两个项目特征向量的夹角来衡量它们的相似度。 接下来,文章详细介绍了几种常用的相似性度量方法,包括但不限于: 1. **余弦相似度**:这是一种基于角度的度量,它反映了两个用户或项目向量的线性相关性,值域通常在-1到1之间,越接近1表示越相似。 2. **ITR(Item-to-User Similarity)**:一种针对项目到用户的度量,可能是通过对项目特征的加权平均来计算用户之间的相似性。 3. **IPWR(Item-to-Project Weighted Rating)**:针对项目间的相似性度量,可能考虑了用户对不同项目的评价权重。 4. **AMI(Average Mutual Information)**:一种信息论方法,衡量的是两个项目被同一用户评价时的相互信息。 实验部分在MovieLens100k、MovieLens1M和Jester三个标准数据集上进行了评估,结果显示ITR和IPWR在用户级推荐中表现较好,特别是ITR在MovieLens100k和1M数据集上的均方误差(MAE)分别为0.786和0.731,而在项目级推荐中,AMI表现出最佳性能,MAE分别为0.745、0.724和3.281在Jester数据集上。 值得注意的是,该研究使用了CCBY-NC-ND许可证,意味着作者和爱思唯尔公司已经同意将文章开放获取,允许他人在遵循特定条件下复制、修改和分享内容。这篇文章为理解和优化基于协同过滤的推荐系统提供了有价值的参考,特别是在相似性度量的选择和评估上。