Hadoop分布式下改进聚类协同过滤算法提升推荐效能

需积分: 10 182 浏览量更新于2024-08-11 收藏 1.22MB PDF 举报

本文主要探讨了在大数据时代背景下，针对协同过滤推荐算法在处理大规模稀疏数据时存在的问题，提出了一种基于Hadoop平台的分布式改进聚类协同过滤算法。该算法旨在解决传统协同过滤在面对海量数据时的效率和扩展性不足问题。首先，引言部分强调了个性化推荐系统在互联网中的重要性，指出推荐算法作为核心组件对推荐系统性能的影响。协同过滤，特别是基于聚类的和基于用户的版本，如Xue等人的工作，已经在一定程度上提高了推荐效果。然而，当用户和推荐对象数量急剧增加，单机协同过滤算法的局限性就显现出来，无法满足大数据处理的需求。作者针对这一问题，提出将Hadoop分布式计算的优势应用于改进的聚类协同过滤中。算法的关键步骤包括离线阶段的矩阵分解，通过交替最小二乘（ALS）方法对高维稀疏数据进行预处理，这有助于减少数据的稀疏性。接着，采用改进的项目聚类算法对预处理后的项目特征属性进行建模，这有助于发现数据内在的结构和模式。在线阶段，算法利用聚类模型和相似性度量来形成推荐候选空间，从而提高推荐的质量。这种方法不仅提升了推荐的准确性，还显著提高了推荐效率，特别是在云计算环境下，具有良好的可扩展性，能够适应不断增长的数据规模。论文作者孙天昊、黎安能等人通过实验证明，他们的分布式改进聚类协同过滤算法能够在大数据环境下有效提升推荐系统的性能，这对于处理现代互联网中的海量信息具有实际价值。通过Hadoop平台的应用，该算法克服了单机协同过滤的瓶颈，为未来的推荐系统设计提供了一个有效的解决方案。这项研究对于推动IT领域尤其是推荐系统工程的发展具有重要意义。

C omputer Engineering and Applications计算机工程与应用2015，51（15）

1 引言

随着个性化推荐系统的出现，使得用户在互联网中

获取喜爱的信息并找到兴趣点更便捷。其中推荐算法

是整个推荐系统中最核心和关键的部分，在很大程度上

决定了推荐系统类型和性能的优劣

[1]

，而协同过滤推荐

（Collaborative filtering recommendation）是推荐算法中

最成功的策略之一

[2]

。近年来一些高效的协同过滤推荐

研究被提出，如 Xue 等提出的基于聚类模型的协同过滤

算法

[3]

，Zhao 等提出的基于用户的 Hadoop 协同过滤算

法

[4]

，Pan等提出的基于 ALS（Alternating Least Squares）

的协同过滤算法

[5-6]

等。

然而随着大数据时代的来临，互联网中用户及推荐

对象的数量呈现几何倍数增长，使得海量数据的存储和

计算效率面临极大挑战。侧重于单机模式的协同过滤

算法已经无法满足超大数据量的运算需求，因此分布式

推荐算法成为推荐算法研究中一个新的研究方向

[7]

。

本文将设计一种基于 Hadoop 平台的分布式改进聚

类协同过滤推荐算法，结合分布式计算特点，离线通过

ALS 矩阵分解算法对稀疏数据预处理，在此基础上对项

目特征属性采用改进项目聚类算法构建模型，根据聚类

基于 Hadoop分布式改进聚类协同过滤推荐算法研究

孙天昊，黎安能，李明，朱庆生

SUN Tianhao, LI Anneng, LI Ming, ZHU Qingshe ng

重庆大学计算机学院，重庆 400044

College of Compute r Science, Chongqing Un iversity, Chongqing 400044, China

SUN Tianhao, LI Anneng, LI Ming, et al. Study on distributed improved clustering collaborative filtering algorithm

based on H adoop. Computer Engineering and Ap plications, 2015, 51（15）：124-128.

Abstract: In order t o i mprove the d ata sparsity and scalability of collaborati ve filtering recommendatio n algorithms in big

data, integrating matrix factorization with distributed computing, this paper p r oposes a distributed improved clustering collab-

orative filtering algorithm bas ed on Hadoop. It uses ALS mat rix factorization algorithm to fill sparse data offline. Fille d

matrix is clustered by im proved item clu stering algorithm. Then based on the clus ters and similarities it creates the candidate

set of recommendation. Recom mendations are accom plished online. Experime ntal results show that the proposed algo-

rithm can not only effic iently impro ve the quality of recommendation system, but also has good scalability in clouds.

Key words: collabo rative filtering; Hadoop; matrix factorization; clustering; di stributed computing

摘要：为了改善协同过滤推荐算法在大数据下的稀疏性和可扩展性问题，提出一种基于 Hadoop 平台的分布式改

进聚类协同过滤推荐算法。在分布式平台下，离线对高维稀疏数据采用矩阵分解算法预处理，改善数据稀疏性后通

过改进项目聚类算法构建聚类模型，根据聚类模型和相似性计算形成推荐候选空间，在线完成推荐。实验验证该算

法能够有效改善推荐系统的推荐质量并大大提高推荐效率，同时在云环境中具有良好可扩展性。

关键词：协同过滤；Hadoop；矩阵分解；聚类；分布式计算

文献标志码：A 中图分类号：TP301.6 doi：10.3778/j.issn.1002-8331.1405-0 415

◎数据库、数据挖掘、机器学习◎

基金项目：国家自然科学基金（No.61202347）；中央高校基本科研业务费项目（No.106112013CDJZR180007）。

作者简介：孙天昊（1979—），男，博士后，讲师，硕导，CCF 会员，主要研究方向为电子商务、机器学习；黎安能（1990—），男，硕士

研究生，主要研究方向为电子商务、推荐系统；李明（1990—），男，硕士研究生，主要研究方向为电子商务；朱庆生

（1956—），男，博士，教授，主要研究方向为虚拟植物生长可视化、面向服务的软件技术、电子商务与现代物流。

E-mail：sthing@cqu.edu.cn

收稿日期：2014-05-30 修回日期：2014-09-26 文章编号：1002-8331（2015）15-0124-05

CNKI网络优先出版：2014-12-11, http://www.cnki.net/kcms/detail/11.2127.TP.20141211.1526.048.html

124

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38749305

粉丝: 0

Hadoop分布式下改进聚类协同过滤算法提升推荐效能

Hadoop下基于聚类协同过滤推荐算法优化的研究

基于Hadoop的分布式聚类算法研究.pdf

Hadoop分布式下改进聚类协同过滤：提升大数据推荐效率与质量

基于Hadoop的并行化协同过滤推荐算法研究.docx

基于Hadoop的异构网络协同过滤推荐算法设计.docx

基于Hadoop MapReduce的分布式数据流聚类算法研究.pdf

基于MapReduce的分布式AP聚类算法.pdf

基于Hadoop分布式个性化推荐算法的设计与实现.pdf

基于Hadoop的改进型遗传聚类算法.docx

基于Hadoop分布式基础学习

最新资源