标签分类协同过滤：提升推荐算法准确性

协同过滤

矩阵分解

需积分: 33 23 浏览量更新于2024-08-13 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

“基于标签分类的协同过滤推荐算法”是一种改进的推荐系统算法，旨在解决传统协同过滤算法在大规模用户数据下的稀疏性和推荐质量不高的问题。通过将数据样本根据标签进行分类，然后利用矩阵分解和迭代投影寻踪技术来提高推荐准确性。协同过滤是推荐系统中的核心算法，它依赖于用户的历史行为来预测他们可能感兴趣的新物品。然而，随着用户基数的增长，可用的交互数据相对较少，导致数据稀疏，这会影响推荐的精度。为了应对这个问题，该算法引入了标签分类的概念。首先，对用户-物品交互矩阵中的不完整数据进行分类，依据用户的兴趣标签将数据分到不同的类别中。这样做使得矩阵分解更加依赖于特定类别，而非全局的用户-物品关系。接着，算法采用迭代投影寻踪的方法来求解类依赖矩阵的线性组合和相应的权重。这是一种优化技术，用于寻找最佳的矩阵近似，以减少插补误差。在保持分类准确性的前提下，这种方法能有效地降低推荐误差，从而提高推荐的质量和用户体验。在实验部分，该方法在开放数据集上进行了验证，结果显示平均插补误差下降了35.23%，明显优于传统的协同过滤算法。此外，该研究还提到了算法背后的理论基础，包括矩阵分解（如奇异值分解或主成分分析等）和交替最小二乘法，这些都是优化矩阵分解和解决非负矩阵因子化问题的常见技术。关键词强调了本文的核心概念，包括协同过滤、矩阵分解、交替最小二乘法、迭代投影寻踪以及监督学习。这些技术在推荐系统、数据挖掘和机器学习领域都具有重要的应用价值。论文的作者来自南京邮电大学计算机与软件学院，他们的工作得到了国家自然科学基金、国家“973”计划和江苏省高校优势学科建设项目的资助，进一步证明了该研究的学术价值和实际意义。基于标签分类的协同过滤推荐算法是为了解决大规模数据下的推荐问题而设计的，通过巧妙地结合用户标签信息和优化技术，提高了推荐系统的性能。这种方法不仅在理论上具有创新性，而且在实际应用中也有望提升推荐系统的推荐质量和用户满意度。

资源详情

资源推荐

收稿日期：２０１８０１２０；修回日期：２０１８０３２３　　基金项目：国家自然科学基金资助项目（６１２０２３５３）；国家 “９７３”计划资助项目

（２０１１ＣＢ３０２９０３）；江苏省高校优势学科建设工程资助项目（ｙｘ００２００１）

作者简介：朱峥宇（１９９３），男，江苏连云港人，硕士，主要研究方向为推荐系统（１８６５１７１０９５１＠１６３．ｃｏｍ）；曹晓梅（１９７４），女，副教授，博士，主

要研究方向为网络与信息安全．

基于标签分类的协同过滤推荐算法



朱峥宇，曹晓梅

（南京邮电大学计算机与软件学院，南京２１００００）

摘　要：传统的协同过滤根据用户的行为去预测可能喜欢的产品，是当前应用最广泛的推荐算法之一。但随着

用户规模的急剧扩大，有价值的信息占比较少，存在稀疏性等问题，导致推荐质量不高。针对这一问题，提出了

一种基于标签分类的协同过滤推荐算法。将不完整的数据样本根据标签进行分类，使分解的矩阵依赖于类，随

后使用迭代投影寻踪的方法计算类依赖矩阵的线性组合及其对应的权重。开放数据集实验表明，该方法在保持

一定分类准确率的前提下，平均降低了３５．２３％的插补误差，优于传统协同过滤推荐算法。

关键词：协同过滤；矩阵分解；交替最小二乘法；迭代投影寻踪；监督学习

中图分类号：ＴＰ３０１．６　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１９）０８０１１２２９４０３

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１８．０１．００６５

Ｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇｒｅｃｏｍｍｅｎｄａｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ

ＺｈｕＺｈｅｎｇｙｕ，ＣａｏＸｉａｏｍｅｉ

（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒ＆Ｓｏｆｔｗａｒｅ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓ＆Ｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｎａｎｊｉｎｇ２１００００，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｒａｄｉｔｉｏｎａｌｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇｉｓｏｎｅｏｆｔｈｅｍｏｓｔｗｉｄｅｌｙｕｓｅｄｒｅｃｏｍｍｅｎｄａｔｉｏｎａｌｇｏｒｉｔｈｍｓｂａｓｅｄｏｎｔｈｅｕｓｅｒｂｅ

ｈａｖｉｏｒ．Ｈｏｗｅｖｅｒ，ｗｉｔｈｔｈｅｒａｐｉｄｅｘｐａｎｓｉｏｎｏｆｔｈｅｕｓｅｒｓｃａｌｅ，ｔｈｅｒｅａｒｅｆｅｗｅｒｖａｌｕａｂｌｅｉｎｆｏｒｍａｔｉｏｎｓｏｔｈａｔｉｔｌｅａｄｓｔｏｂａｄｒｅｃｏｍ

ｍｅｎｄａｔｉｏｎｑｕａｌｉｔｙｂｅｃａｕｓｅｏｆｍａｔｒｉｘｓｐａｒｓｉｔｙ．Ｔｏｓｏｌｖｅｔｈｉｓｐｒｏｂｌｅｍ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇｒｅｃｏｍｍｅｎｄａ

ｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｉｎｃｏｍｐｌｅｔｅｄａｔａｓａｍｐｌｅｓｗｅｒｅｃａｔｅｇｏｒｉｚｅｄａｃｃｏｒｄｉｎｇｔｏｔｈｅｌａｂｅｌｓｓｏｔｈａｔｔｈｅｄｅ

ｃｏｍｐｏｓｅｄｍａｔｒｉｘｃｏｕｌｄｄｅｐｅｎｄｏｎｔｈｅｃｌａｓｓ．Ｔｈｅｎｉｔｃａｌｃｕｌａｔｅｄｔｈｅｌｉｎｅａｒｃｏｍｂｉｎａｔｉｏｎｏｆｃｌａｓｓｄｅｐｅｎｄｅｎｔｍａｔｒｉｃｅｓａｎｄｉｔｓｃｏｒ

ｒｅｓｐｏｎｄｉｎｇｗｅｉｇｈｔｓｂｙｕｓｉｎｇｉｔｅｒａｔｉｖｅｐｒｏｊｅｃｔｉｏｎｐｕｒｓｕｉｔ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｓｏｆｏｐｅｎｄａｔａｓｅｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｒｅ

ｄｕｃｅｓｔｈｅａｖｅｒａｇｅｉｎｔｅｒｐｏｌａｔｉｏｎｅｒｒｏｒｂｙ３５．２３％ｗｈｉｌｅｍａｉｎｔａｉｎｉｎｇｃｅｒｔａｉｎｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙ．Ｔｈｉｓｍｅｔｈｏｄｉｓｂｅｔｔｅｒｔｈａｎ

ｔｈｅｔｒａｄｉｔｉｏｎａｌｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇｒｅｃｏｍｍｅｎｄａｔｉｏｎａｌｇｏｒｉｔｈｍ．

Ｋｅｙｗｏｒｄｓ：ｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇ（ＣＦ）；ｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎ；ａｌｔｅｒｎａｔｉｎｇｌｅａｓｔｓｑｕａｒｅｓ（ＡＬＳ）；ｉｔｅｒａｔｉｏｎｐｒｏｊｅｃｔｉｏｎｐｕｒｓｕｉｔ；

ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ

０　引言

互联网的出现与发展使得人们生产、复制、传播信息的能

力大大增强，人们正在面临着前所未有的信息过载问题。在此

背景下，推荐系统应运而生。具体而言，推荐系统就是通过收

集和分析用户的各种数据来学习用户的兴趣和行为模式，从而

为用户在庞大的信息中推荐他所需要的信息或者服务

［１］

。目

前互联网的几大支柱产业包括电子商务和社交网络等，都不同

程度地使用了推荐系统技术

［２］

。

目前，在众多的推荐算法中，协同过滤（

ｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅ

ｒｉｎｇ，ＣＦ）算法是应用最广泛的推荐算法之一，它根据用户—项

目评分数据，计算用户（或项目）之间的相似度进行推荐。协

同过滤推荐算法主要包括基于邻域和基于模型两类。基于邻

域的协同过滤算法是根据用户的历史信息计算用户（产品）之

间的相似性，然后根据其偏好推荐相似的用户（产品）。基于

模型的协同过滤算法主要通过用户对产品的评分信息训练出

相应的模型，利用模型再进行未知数据的预测。由于其良好的

扩展性和可实践性，被广泛地使用，并且获得了巨大的成功。

但是随着用户和项目数量的急剧增加，基于协同过滤的推荐系

统面临用户—评分矩阵稀疏性的问题。

针对这个问题，传统方法主要是降维和基于聚类的方法，

国内外研究者提出了多种解决方案。文献［３］采用主成分分

析（

ＰＣＡ）方法对用户项目评分矩阵进行降维处理，缓解了输入

数据的稀疏性问题。文献［

４］提出了一种基于聚类平滑联合

来减少数据稀疏的不良影响，但是这种方法丢失了部分用户评

价的数据。文献［５］提出的聚类方法不能反映用户之间的兴

趣差异，因此推荐结果的准确性并没有明显提高。文献［６］在

弱关系的社交网络中采用基于用户聚类的方法，提出两阶段聚

类的推荐算法，将图摘要方法与基于内容相似度的算法结合，

实现基于用户兴趣的主题推荐，有效缓解了矩阵稀疏性和冷启

动的问题。

交替最小二乘法（ａｌｔｅｒｎａｔｉｎｇｌｅａｓｔｓｑｕａｒｅｓ，ＡＬＳ）由Ｚｈｏｕ等

人

［７］

在２００８年提出。这种方法经常用于基于矩阵分解的协同

过滤推荐算法，属于基于模型的协同过滤。例如，用户评分矩

阵被分解成两个矩阵，一个是用户对商品的隐含特性的偏好矩

阵，另一个是隐含在商品中的特征矩阵。通过降维对缺失数据

进行插补，从而进行推荐

［８］

。

由于在推荐系统的应用场景中存在大量的缺失项，传统的

奇异值分解等矩阵分解算法在处理数据稀疏性时存在严重的

数据拟合化问题

［８］

，而ＡＬＳ可以很好地解决这个问题。为了

防止ＡＬＳ模型的过度分析，相关研究在进行矩阵分解时执行

了正则化。Ｐａｔｅｒｅｋ

［９］

通过在ｃｏｓｔ函数上附加额外的误差来研

究ＡＬＳ模型，同时建立矩阵因子。Ｚｈｏｕ等人提出了加权的

ＡＬＳ模型，其中两个岭参数在矩阵分解过程中分别施加于矩阵

因子

［１０］

。这样的做法与岭回归（ｒｉｄｇｅｒｅｇｒｅｓｓｉｏｎ）类似。岭回

归在１９６２年由Ｈｅｅｒ首先提出，１９７０年进一步发展了该方

第３６卷第８期

２０１９年８月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３６Ｎｏ８

Ａｕｇ．２０１９

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38635975

粉丝: 4
资源: 924

标签分类协同过滤：提升推荐算法准确性

基于标签的协同过滤算法优化

基于标签的协同过滤算法在推荐系统中的应用

基于内容的协同过滤算法及其特点

"基于深度学习的可扩展协同过滤推荐系统

基于深度学习的协同过滤算法技术演进

基于协同过滤推荐算法和基于内容推荐算法的区别

javaweb推荐算法的实现

python音乐推荐系统_Python+Django+Mysql实现在线音乐推荐系统 基于用户、项目、兴趣标签协同过滤推荐系统...

生成一篇2000字的基于知识图谱的推荐算法的研究现状

图书推荐系统国内外研究现状

协同过滤算法与knn研究过程图

基于djando的图书推荐系统

java 基于多个标签推荐功能怎么实现

基于idea的新闻推荐系统代码

android新闻app新闻推荐算法

抖音的实时曝光的算法

csdn 快手的算法

我想要维护用户标签，以及标签权重，分为长期标签和短期标签，技术上如何实现

movielens数据集如何计算电影相似度

基于python的图书推荐系统设计

最新资源

python音乐推荐系统_Python+Django+Mysql实现在线音乐推荐系统基于用户、项目、兴趣标签协同过滤推荐系统...