Spark驱动的实时电影推荐系统分析

需积分: 38 91 浏览量更新于2024-07-14 6 收藏 3.59MB PDF 举报

"该资源是一篇关于基于Spark的实时电影推荐系统研究的硕士学位论文，作者为安，由李军副教授指导，完成于2018年6月，授予单位为成都理工大学，专业为计算机科学与技术。论文探讨了如何利用Spark实现一个能够处理大数据的实时电影推荐系统，旨在提升推荐的准确性和时效性。" 本文主要围绕基于Spark的实时电影推荐系统展开深入研究。Spark作为一个强大的大数据处理框架，因其高效的数据处理能力和支持实时计算的特性，被广泛应用于各种实时数据分析场景，其中包括推荐系统。推荐系统已经成为现代在线服务中不可或缺的一部分，特别是在电影推荐领域，它能够根据用户的观影历史、偏好和行为数据，实时地为用户推荐符合他们口味的电影。在论文中，作者可能首先介绍了推荐系统的基础知识，包括协同过滤、基于内容的推荐以及混合推荐等算法。接着，详细讨论了如何利用Spark的弹性分布式数据集（RDD）和Spark Streaming组件来处理大规模的用户行为数据，实现快速的流式计算。此外，可能会探讨Spark MLlib库中的机器学习模型，如矩阵分解和深度学习模型，这些模型能用于构建更精确的用户和物品的相似度度量，从而提高推荐的准确性。论文还可能涉及了实时推荐系统的设计和实现细节，包括数据采集、预处理、特征工程、模型训练以及实时推荐的生成。在系统架构层面，可能会介绍如何结合Spark与Hadoop、Kafka等其他开源工具，构建一个完整的实时数据处理管道。此外，论文可能对系统性能进行了评估，包括处理速度、推荐准确率和召回率等指标。通过对模拟数据或真实数据的实验，展示了Spark在实时推荐系统中的优势，并可能对比分析了不同推荐算法的效果，以证明所提出的实时推荐系统在性能上的优越性。最后，论文可能讨论了系统存在的挑战和未来的研究方向，比如如何进一步优化推荐算法以处理稀疏数据、如何解决冷启动问题，以及如何在保护用户隐私的同时提升推荐质量。这篇论文为基于Spark的实时推荐系统提供了理论基础和实践指导，对于理解大数据环境下的实时推荐系统设计与实现具有重要的参考价值。

成都理工大学硕士学位论文

合推荐算法成为研究热点，国内学者宋文君等人提出了一种改进的混合推荐算法

(宋文君等，2015)，能极大地降低大数据量下的计算复杂性，并在 Netflix 数据

集上准确率提高了 4.22%，多样性提高了 13.74%。2017 年，王全民，谷实等提

出了一个独特的层叠混合推荐方法，利用评级数据、人口统计数据和特征数据来

计算物品之间的相似度(王全民等，2017)，实验表明，该方法相比传统的推荐

算法拥有更高的推荐质量。

最近几年，国际学术界也涌现出大量关于推荐系统的研究，ACM 几乎每年

都会设置关于推荐系统的研讨主题，并设立了推荐系统年会（ACM RecSys）。

除此之外还有一些计算机领域的顶级会议，例如 SIGIR、WWW、SIGCHI、KDD

等，每年都会收录大量与推荐系统相关的会议论文。许多国内期刊也积极收录相

关文章推动推荐系统的发展。

1.2.2 深度学习在推荐系统研究现状

Hinton 等人于 2006 年提出了深度学习的概念，从此有关深度学的研究和应

用就一直没有停止过。近三年，由于计算机硬件和软件技术的飞速发展，为深度

学习提供了必要的支持，当前已经在自然语言处理、人脸识别、语音识别、无人

驾驶等众多领域获得突破性进展。其基本原理是构建能够模拟人脑的神经元网

络，将训练样本输入到一个多层级的网络结构中，让数据在每个层的神经元上进

行计算、迭代、修正，最后在输出层得到输出结果。目前研究人员已经给出了反

馈深度神经网络、前馈深度神经网络和双向深度神经网络等模型(王涛等，

2017)。深度学习的实质是构建一个具有多个隐层的神经网络结构，利用大量的

数据进行训练，尽可能地得到数据的本质特征，进而对样本数据分类和预测，同

时提高精度。在 2007 年，Ruslan Salakhutdinov 等人最早提出基于受限玻尔兹曼

机的协同过滤(Ruslan Salakhutdinov,et al.，2007)，他们使用两个隐层的受限玻尔

兹曼机（RBM）来为用户的显式反馈建模，这项工作现在已经被扩展到利用评

级的自然顺序来为用户的显式反馈建模(T.T.Truyen,et al.，2009)。近些年，自动

编码机成为一种构建推荐系统的流行方式(S.Sedhain,et al.，2015)，基于用户的

自动编码机推荐系统是根据用户的历史评分来填充缺失评分，并将其作为输入来

学习隐语义结构，这与基于物品的自动编码思想相似，为了使自动编码机具有更

强的泛化能力，一种去噪的自动编码机(S.Li,et al.，2015；F.Strub and J.Mary，2015)

被提出。不久，Zheng 等对协同过滤算法提出了一种基于神经自回归的方法

(D.Q.Phung,et al.，2009)。这些工作已经证明了使用神经网络技术来解决协同过

滤算法的有效性，但是绝大部分都仅仅关注的是用户显式的反馈，很难利用隐式

反馈来为用户的偏好建模。2013 年，Aaron Van 等人提出深度基于内容的音乐推

荐(Aaron Van den Oord,et al.，2013)。2014 年，Xinxi Wang 等人提出了使用深度

第 1 章引言

学习技术来提高基于内容和混合的音乐推荐系统(Xinxi Wang and Ye Wang.，

2014)。在 2016 年 ACM 推荐系统大会上，Paul Covington, Jay Adams 提出了深

度神经网络在 YouTube 视频推荐上的应用(Paul Covington,et al.，2016)，并宣称

是史上最好的推荐系统。由此可见，将深度学习技术应用在推荐系统上是很有前

景的。主要原因得益于深度学习能够有效地捕捉非平凡和非线性的用户项关系，

还可以很容易地将复杂的抽象编码作为更高层的数据表示。另外，它还能从丰富

的数据源中捕获数据之间的复杂关系，进而提高推荐质量。因此本文第三章会尝

试运用深度学习技术来提高关于隐式反馈的推荐系统的推荐质量。

1.2.3 基于 Spark 的推荐系统研究现状

Spark 平台为机器学习的爱好者提供了一个算法实现库 Spark MLlib(Meng

X,et al.，2015)，里面包含有相应的测试代码和数据生成器。目前 Spark MLlib

在推荐系统方面，仅仅实现了基于模型的 ALS 协同过滤算法，其核心思想是分

解用户-物品矩阵，用两个低秩矩阵的内积来近似，在具体的训练过程中，利用

交替最小二乘法（ALS）获得局部最优解，这种做法有如下几点好处：

(1) 矩阵分解模型将原始高维矩阵分解为两个低秩矩阵，可以减少计算量，

提升训练性能。

(2) 采用交替二乘法求解，很容易将训练过程并行化，这与 Spark 天生支持

并行化不谋而合。

(3) 协同过滤算法能够同时在显式反馈和隐式反馈上工作得很好(Yifan

Hu,et al.，2008)。

(4) 可以很好地处理数据稀疏性、算法扩展性和可解释性等一系列问题。

2015 年徐新瑞等提出了一种基于 Spark 的时效化协同过滤推荐算法(徐新瑞

等，2015)。主要思想是在 CWOCF 基础上，加入软置信权重（Soft Confidence

Weighted），使得模型能在协同过滤中动态学习，从而提高推荐准确性和实时性。

杨志伟对 Spark 中的协同过滤算法进行了分析，并对算法的调度策略做了进一步

优化，提高了 job 的完成效率(杨志伟，2015)。李川、鄂海红等人提出了一种基

于 Storm、Hadoop 大数据平台的实时流计算推荐系统(李川等，2015)，充分利

用 Storm 高效的流式计算能力，解决推荐系统的实时性问题。但是在某些方面

Storm 并没有 Spark Streaming 优秀，比如容错性和与第三方框架整合等方面。

在工业界，推荐系统有许多基于 Spark 平台的成功案例，起初阿里巴巴技术

人员在解决淘宝广告投放或物品推荐等复杂的机器学习任务时，采用

Map-Reduce 解决方案，不支持实时处理，代码难以维护；后来采用新一代内存

计算框架 Spark 来替代原有解决方案，并经过多次迭代优化，取得了很好的效果。

在 2017 年的 Spark Summit 大会上，DB Tsai 介绍了 Netflix 是如何利用 Spark 来

成都理工大学硕士学位论文

构建推荐系统应用的。Spark 的使用让 Netflix 能够利用统一的框架 API 来完成例

如 ETL、特征生成、模型训练和验证等功能，利用 Spark MLlib 中的流式处理框

架，Netflix 推荐流程中的每一步（如标签生成、特征编码、模型训练和模型评估）

都被封装为转换器、计算器和评估器，从而实现了模块化。

1.3 论文研究内容

本论文主要就推荐系统的推荐质量和推荐实时性这两个方面展开研究。在推

荐质量方面，本文利用深度学习技术来提高基于隐式反馈的推荐系统的推荐质

量；就推荐系统的实时性方面，本文提出并设计了一种支持实时推荐的架构，并

在此架构上实现一个简易的电影推荐系统引擎。

(1) 为了探索能否通过深度学习技术来进一步提升推荐系统的质量，本文设

计了一种基于神经网络技术来解决推荐系统领域关于隐式反馈数据的协同过滤

模型。通过神经网络结构来替代隐特征向量的内积，从而在数据中学习出任意的

拟合函数，可以用来描述和推广矩阵分解模型。并使用一个多隐层的感知机来提

高神经网络模型模型的非线性拟合能力，学习用户-物品的交互函数。最后在

MoiveLens 数据集上，验证模型的推荐效果，并探索不同的激活函数、隐层数对

推荐质量的影响。

(2) 为了研究推荐系统的实时性问题，本文设计了一种支持实时推荐的架

构，并对整个推荐流程进行了分析。一般而言，推荐系统的架构应该同时支持离

线计算和实时计算两个部分，离线部分采用基于 Spark MLlib 的 ALS 算法实现基

于显式反馈的推荐，并采用网格参数的方式进行参数调优，找出最优模型，分析

参数对推荐性能的影响。实时部分基于 Spark Streaming 流式处理的特点，利用

消息队列模拟用户在线交互，为用户提供实时的推荐。

1.4 论文的组织结构

本文共分为四个大的章节，各章的具体安排如下：

第一章首先简要描述了课题的研究背景与意义；接着介绍神经网络技术在推

荐系统中的应用现状和基于 Spark 的推荐系统在国内外的研究现状；然后对本文

的研究内容和意义做了阐述；最后就本文的组织结构进行描述。

第二章首先介绍构建真实的推荐系统需要用到的相关技术，如 Spark 框架，

Kafka 框架等；接着介绍推荐系统相关算法，其中重点介绍了基于隐式反馈的协

同过滤；最后简单介绍了神经网络相关的知识为接下来的章节做准备。

第三章针对前文提到的推荐质量问题，用一种神经网络结构来实现基于隐式

剩余66页未读，继续阅读

qq_24516649

粉丝: 0
资源: 6

Spark驱动的实时电影推荐系统分析

基于spark的电影推荐系统的数据集

基于spark的电影推荐系统数据集

电影推荐系统：基于spark、hadoop、kafka、MongoDB、angular等大数据框架实现实时+离线推荐

基于Spark大数据处理的电影推荐系统设计与实现.pdf

基于Spark的Netflix Prize电影推荐系统（包括离线推荐与实时推荐）+数据集+算法文档pdf+源代码+文档说明

基于Apache Spark的Netflix电影推荐系统源码

基于最近邻的标签修正推荐算法.pdf

基于隐反馈的协同过滤推荐模型.pdf

大数据实训项目源码：电影推荐系统.zip

推荐系统手册.zip

最新资源