收稿日期:20180120;修 回 日 期:20180323 基 金 项 目: 国 家 自 然 科 学 基 金 资 助 项 目 (61202353);国 家 “973”计 划 资 助 项 目
(2011CB302903);江苏省高校优势学科建设工程资助项目(yx002001)
作者简介:朱峥宇(1993),男,江苏连云港人,硕士,主要研究方向为推荐系统(18651710951@163.com);曹晓梅(1974),女,副教授,博士,主
要研究方向为网络与信息安全.
基于标签分类的协同过滤推荐算法
朱峥宇,曹晓梅
(南京邮电大学 计算机与软件学院,南京 210000)
摘 要:传统的协同过滤根据用户的行为去预测可能喜欢的产品,是当前应用最广泛的推荐算法之一。但随着
用户规模的急剧扩大,有价值的信息占比较少,存在稀疏性等问题,导致推荐质量不高。针对这一问题,提出了
一种基于标签分类的协同过滤推荐算法。将不完整的数据样本根据标签进行分类,使分解的矩阵依赖于类,随
后使用迭代投影寻踪的方法计算类依赖矩阵的线性组合及其对应的权重。开放数据集实验表明,该方法在保持
一定分类准确率的前提下,平均降低了 35.23%的插补误差,优于传统协同过滤推荐算法。
关键词:协同过滤;矩阵分解;交替最小二乘法;迭代投影寻踪;监督学习
中图分类号:TP301.6 文献标志码:A 文章编号:10013695(2019)08011229403
doi:10.19734/j.issn.10013695.2018.01.0065
Collaborativefilteringrecommendationalgorithmbasedonlabelclassification
ZhuZhengyu,CaoXiaomei
(SchoolofComputer&Software,NanjingUniversityofPosts&Telecommunications,Nanjing210000,China)
Abstract:Traditionalcollaborativefilteringisoneofthemostwidelyusedrecommendationalgorithmsbasedontheuserbe
havior.However,withtherapidexpansionoftheuserscale,therearefewervaluableinformationsothatitleadstobadrecom
mendationqualitybecauseofmatrixsparsity.Tosolvethisproblem,thispaperproposedacollaborativefilteringrecommenda
tionalgorithmbasedonlabelclassification.Incompletedatasampleswerecategorizedaccordingtothelabelssothatthede
composedmatrixcoulddependontheclass.Thenitcalculatedthelinearcombinationofclassdependentmatricesanditscor
respondingweightsbyusingiterativeprojectionpursuit.Theexperimentsofopendatasetsshowthattheproposedmethodre
ducestheaverageinterpolationerrorby35.23% whilemaintainingcertainclassificationaccuracy.Thismethodisbetterthan
thetraditionalcollaborativefilteringrecommendationalgorithm.
Keywords:collaborativefiltering(CF);matrixfactorization;alternatingleastsquares(ALS);iterationprojectionpursuit;
supervisedlearning
0 引言
互联网的出现与发展使得人们生产、复制、传播信息的能
力大大增强,人们正在面临着前所未有的信息过载问题。在此
背景下,推荐系统应运而生。具体而言,推荐系统就是通过收
集和分析用户的各种数据来学习用户的兴趣和行为模式,从而
为用户在庞大的信息中推荐他所需要的信息或者服务
[1]
。目
前互联网的几大支柱产业包括电子商务和社交网络等,都不同
程度地使用了推荐系统技术
[2]
。
目前,在众多的推荐算法中,协同过滤(
collaborativefilte
ring,CF)算法是应用最广泛的推荐算法之一,它根据用户—项
目评分数据,计算用户(或项目)之间的相似度进行推荐。协
同过滤推荐算法主要包括基于邻域和基于模型两类。基于邻
域的协同过滤算法是根据用户的历史信息计算用户(产品)之
间的相似性,然后根据其偏好推荐相似的用户(产品)。基于
模型的协同过滤算法主要通过用户对产品的评分信息训练出
相应的模型,利用模型再进行未知数据的预测。由于其良好的
扩展性和可实践性,被广泛地使用,并且获得了巨大的成功。
但是随着用户和项目数量的急剧增加,基于协同过滤的推荐系
统面临用户—评分矩阵稀疏性的问题。
针对这个问题,传统方法主要是降维和基于聚类的方法,
国内外研究者提出了多种解决方案。文献[3]采用主成分分
析(
PCA)方法对用户项目评分矩阵进行降维处理,缓解了输入
数据的稀疏性问题。文献[
4]提出了一种基于聚类平滑联合
来减少数据稀疏的不良影响,但是这种方法丢失了部分用户评
价的数据。文献[5]提出的聚类方法不能反映用户之间的兴
趣差异,因此推荐结果的准确性并没有明显提高。文献[6]在
弱关系的社交网络中采用基于用户聚类的方法,提出两阶段聚
类的推荐算法,将图摘要方法与基于内容相似度的算法结合,
实现基于用户兴趣的主题推荐,有效缓解了矩阵稀疏性和冷启
动的问题。
交替最小二乘法(alternatingleastsquares,ALS)由 Zhou等
人
[7]
在 2008年提出。这种方法经常用于基于矩阵分解的协同
过滤推荐算法,属于基于模型的协同过滤。例如,用户评分矩
阵被分解成两个矩阵,一个是用户对商品的隐含特性的偏好矩
阵,另一个是隐含在商品中的特征矩阵。通过降维对缺失数据
进行插补,从而进行推荐
[8]
。
由于在推荐系统的应用场景中存在大量的缺失项,传统的
奇异值分解等矩阵分解算法在处理数据稀疏性时存在严重的
数据拟合化问题
[8]
,而 ALS可以很好地解决这个问题。为了
防止 ALS模型的过度分析,相关研究在进行矩阵分解时执行
了正则化。Paterek
[9]
通过在 cost函数上附加额外的误差来研
究 ALS模型,同时建立矩阵因子。Zhou等人提 出 了加权 的
ALS模型,其中两个岭参数在矩阵分解过程中分别施加于矩阵
因子
[10]
。这样的做法与岭回归(ridgeregression)类似。岭回
归在 1962年 由 Heer首 先 提 出,1970年 进 一 步 发 展 了 该 方
第 36卷第 8期
2019年 8月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol36No8
Aug.2019