分步预测算法改进协同过滤：缓解数据稀疏提升推荐精度

需积分: 10 160 浏览量更新于2024-08-13 收藏 1.31MB PDF 举报

本文档探讨了分步预测的协同过滤算法，针对传统协同过滤推荐算法在数据稀疏性问题上的局限性。该算法由两位作者肖明波和郑鑫炜在杭州电子科技大学通信工程学院提出。协同过滤是一种基于用户行为或物品特征的推荐系统，但当评分矩阵中存在大量缺失值时，会导致推荐精度下降，因为算法难以捕捉用户的偏好。首先，该算法对评分矩阵进行了预处理，通过重新排列元素位置，将评分数据集中在矩阵的左上角。这种策略旨在利用已有的评分信息，减少数据稀疏性的影响。对于那些评分过少的用户，算法会采取部分填充的方式，通过相似用户的行为来推测他们的喜好。其次，算法进一步提取了一个数据密度较高的子系统，这个子系统内的信息更为密集，能够提供更准确的推荐。在这个子系统中，作者引入了基于信任的算法来填充缺失值。信任度考虑了用户之间的历史交互和评价的一致性，从而提高填充的准确性。最后，分步预测的关键在于逐步扩展子系统。新用户和新项目的加入使得算法能够逐渐积累更多的数据，从而在推荐过程中实现逐步精细化和精确化。这种分步预测的方法有助于避免一次性处理所有数据带来的复杂性和计算负担，提高了推荐效率。通过在MovieLens数据集上的实验，作者验证了新算法的有效性。结果显示，分步预测协同过滤算法显著地缓解了数据稀疏性问题，提升了推荐系统的精度。此外，文章还引用了国家自然科学基金和杭州电子科技大学的资助，强调了研究的学术背景和支持。这篇论文提供了针对数据稀疏性问题的一种创新解决方案，对于理解和改进协同过滤推荐系统具有重要的理论和实践价值。通过细致的算法设计和实证分析，作者展示了如何通过分步预测和信任度计算来提升推荐系统在实际应用中的性能。

　　收稿日期：２０１４０７２４；修回日期：２０１４０９０１　　基金项目：国家自然科学基金资助项目（３０９００３２８）；杭州电子科技大学启动基金项目

（

ＫＹＳ０８５６１２００６）

　　作者简介：肖明波（１９７１），男，湖南沅江人，教授，主要研究方向为无线网络资源管理与优化、无线网络跨层设计、ＱｏＳ技术等；郑鑫炜（１９８８），

男，浙江绍兴人，硕士，主要研究方向为个性化推荐系统（１８０６９７７２４７７＠１６３．ｃｏｍ）．

分步预测的协同过滤算法



肖明波，郑鑫炜

（杭州电子科技大学通信工程学院，杭州３１００１８）

摘　要：针对数据稀疏性问题，对协同过滤推荐算法作了改进，提出分步预测的算法。算法先对评分矩阵作预

处理，重新排列矩阵元素的位置，使评分数据集中到矩阵左上角，并对评分数过少的用户进行部分填充；然后再

提取一个数据密度较高的子系统，用基于信任的算法填充其缺失值；最后通过不断向子系统里添加新用户、新项

目的方法实现分步预测的目的。通过在ＭｏｖｉｅＬｅｎｓ数据集上的实验结果表明，新算法可以有效地缓解数据稀疏

性问题，提高系统的推荐精度。

关键词：数据稀疏性；协同过滤；分步预测；准确度

中图分类号：ＴＰ３９１；ＴＰ３０１．６　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１５）１１３２５６０３

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１５．１１．０１２

Ｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｗｉｔｈｓｔｅｐｗｉｓｅｐｒｅｄｉｃｔｉｏｎ

ＸｉａｏＭｉｎｇｂｏ，ＺｈｅｎｇＸｉｎｗｅｉ

（ＣｏｌｌｅｇｅｏｆＣｏｍｍｕｎｉｃａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＨａｎｇｚｈｏｕＤｉａｎｚｉＵｎｉｖｅｒｓｉｔｙ，Ｈａｎｇｚｈｏｕ３１００１８，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｈｅｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇｒｅｃｏｍｍｅｎｄａｔｉｏｎａｌｇｏｒｉｔｈｍｈａｓｔｈｅｐｒｏｂｌｅｍｏｆｄａｔａｓｐａｒｓｅｎｅｓｓ．Ｉｎｏｒｄｅｒｔｏｓｏｌｖｅｔｈｉｓ

ｐｒｏｂｌｅｍ

，ｔｈｉｓｐａｐｅｒｐｕｔｆｏｒｗａｒｄａｎｅｗａｌｇｏｒｉｔｈｍｗｉｔｈｓｔｅｐｗｉｓｅｐｒｅｄｉｃｔｉｏｎ．Ｉｔｆｉｒｓｔｌｙｐｒｅｐｒｏｃｅｓｓｅｄｔｈｅｓｃｏｒｉｎｇｍａｔｒｉｘ：ｒｅａｒｒａｎｇｅｄ

ｔｈｅｌｏｃａｔｉｏｎｏｆｔｈｅｍａｔｒｉｘｅｌｅｍｅｎｔｓｔｏｃｏｎｃｅｎｔｒａｔｅｔｈｅｖａｌｕｅｓｔｏｔｈｅｌｅｆｔｕｐｐｅｒｃｏｒｎｅｒａｎｄｆｉｌｌｅｄｐａｒｔｏｆｕｓｅｒ’ｓｍｉｓｓｉｎｇｄａｔａｗｈｅｎ

ｉｔｓｃｏｒｅｄｔｏｏｌｅｓｓｐｒｏｊｅｃｔｓ．Ｔｈｅｎｉｔｅｘｔｒａｃｔｅｄａｓｕｂｓｙｓｔｅｍｗｉｔｈｈｉｇｈｄａｔａｄｅｎｓｉｔｙｆｒｏｍｓｃｏｒｉｎｇｍａｔｒｉｘａｎｄｆｉｌｌｅｄｔｈｅｍｉｓｓｉｎｇｖａ

ｌｕｅｓｂｙｔｒｕｓｔｂａｓｅｄｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ．Ｆｉｎａｌｌｙｉｔａｃｈｉｅｖｅｄｓｔｅｐｗｉｓｅｐｒｅｄｉｃｔｉｏｎｂｙｃｏｎｓｔａｎｔｌｙａｄｄｉｎｇｎｅｗｕｓｅｒｏｒ

ｎｅｗｐｒｏｊｅｃｔ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｎＭｏｖｉｅＬｅｎｓｄｅｍｏｎｓｔｒａｔｅｔｈａｔｔｈｅｎｅｗａｌｇｏｒｉｔｈｍｃａｎｅｆｆｅｃｔｉｖｅｌｙａｌｌｅｖｉａｔｅｔｈｅｄａｔａ

ｓｐａｒｓｅｎｅｓｓｐｒｏｂｌｅｍａｎｄｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙ．

Ｋｅｙｗｏｒｄｓ：ｄａｔａｓｐａｒｓｅｎｅｓｓ；ｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇ；ｓｔｅｐｗｉｓｅｐｒｅｄｉｃｔｉｏｎ；ａｃｃｕｒａｃｙ

　引言

随着计算机技术的迅猛发展，信息化时代已经到来。现在

互联网上充斥着海量的数据，人们可以通过电脑获得各种各样

的信息，但同时也出现了信息过载和暗信息的现象

［１］

。面对

纷繁杂乱的信息，人们往往无从下手，陷于信息迷航的困境。

个性化推荐是解决该问题行之有效的手段。它通过分析用户

网上的历史信息，如购买经历、浏览记录等，来预测用户可能感

兴趣的内容，并把这些内容推荐给他。这样不仅可以减少用户

搜索的时间，还可以推荐用户潜在的兴趣。个性化推荐系统已

经在互联网中得到了广泛的应用，并取得了良好的效果。在众

多的推荐系统中，协同过滤推荐系统可以推荐无法进行内容分

析的产品，研究最早，应用最广泛，性能也较优越。但是协同过

滤推荐系统也存在诸多瓶颈问题，其中最主要的是数据的稀疏

性

［２，３］

。现在一般采用数据填充

［４，５］

和降维

［６～８］

等方法来缓

解数据的稀疏性问题。

夏建勋等人

［４］

直接将用户评分的平均数、中位数和众数

填充未知评分，提高评分矩阵的数据密度，然后再通过协同过

滤算法进行评分预测。上述三种方法在同一用户的未知评分

处填充的数值都是相同的，虽然操作简单、容易实现，但并不符

合实际情况，因为用户不可能对所有项目打同样的分数。所以

这种填充方法虽然增加了许多购买信息，但这些信息非常不准

确，由此得到的预测评分其精度也不是很高。张玉芳等人

［９］

提出，首先只将相似度和共同评分过的项目数达到一定阈值的

用户作为目标用户的最近邻居，并通过协同过滤算法填充一部

分的未知评分，这样评分矩阵的数据密度就可以有所提高；然

后在此基础上重新计算相似度并填充剩下的缺失值。这种方

法补充的信息量十分有限，只在一定程度上缓解了数据稀疏性

的问题，而且对于购买记录较少的用户根本找不到共同评分过

的项目数以达到阈值的近邻。

Ｋａｒａｔｚｏｇｌｏｕ等人

［７］

采用张量分解技术，方耀宁等人

［１０］

通

过奇异值分解技术，周子亮

［１１］

采用非负矩阵分技术都实现了

矩阵降维的目的。降维后的评分矩阵在形式上显得较稠密，因

此可以找到更多的近邻。但是矩阵降维不仅没有增加新的信

息，反而不可避免地会造成信息的损失，这会影响相似度计算

的准确性。Ｗａｎｇ等人

［１２］

采用Ｋｍｅａｎｓ聚类的方法，使同一聚

类中的用户具有较高的相似度。但是采用聚类的算法本质上

只是将相似度较小的用户分割开来，缩小了近邻搜索的范围。

它也没能增加额外的信息，反而减少了近邻的数量；而且基于

聚类的算法只能推荐同类的商品，存在很大的局限性。

第３２卷第１１期

２０１５年１１月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３２Ｎｏ．１１

Ｎｏｖ．２０１５

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38745434

粉丝: 14
资源: 922

分步预测算法改进协同过滤：缓解数据稀疏提升推荐精度

分步预测算法改进的协同过滤：解决数据稀疏性提升推荐精度

分步填充算法：缓解协同过滤中的数据稀疏问题

用户特征驱动的分步协同推荐算法提升精度

论文研究-分步预测的协同过滤算法.pdf

分步式基于物品的协同过滤算法进行实现.zip

断层破碎带岩巷分步联合支护技术 (2015年)

基于控制体的分步有限元算法及其在非正交网格上的应用 (2015年)

大断面硐室底鼓分步控制研究 (2015年)

基于对称分步傅立叶算法的光孤子仿真

论文研究-中继OFDMA系统混合业务的分步跨层调度算法.pdf

最新资源