Hadoop架构下SVM并行增量学习算法在大数据分类中的应用

版权申诉

176 浏览量更新于2024-07-03 收藏 1.39MB PDF 举报

"这篇文献主要探讨了如何在大数据背景下，利用Hadoop架构提高支持向量机（SVM）的并行处理能力和增量学习效率。通过引入HBase进行数据存储，并设计遗忘因子控制器来优化学习过程，该研究旨在解决传统SVM在处理大规模数据时的计算瓶颈问题，同时保持较高的分类精度。文章指出，随着大数据时代的到来，数据的增长速度远超单机计算能力的增长，因此急需提升分类算法处理大规模数据的能力。在众多分类算法中，SVM因其良好的鲁棒性和稳定性而成为主流。SVM基于统计学习理论中的结构风险最小化原理，能有效克服高维数据处理中的维度灾难问题。然而，SVM算法本身计算密集型的特点使得传统的串行计算方法在处理大规模数据时显得力不从心。为了改善这一状况，研究者们将目光投向了分布式计算框架Hadoop。Hadoop能够提供并行计算能力，适应大数据的处理需求。结合HBase，一个基于Hadoop的数据存储系统，可以有效地存储和管理海量数据。通过在Hadoop上实现SVM的并行化，可以显著提升训练效率。此外，文献还提到了增量学习的概念。在数据持续增长的情况下，增量学习允许模型逐步更新，无需重新训练整个数据集，从而节约时间和计算资源。研究中引入的遗忘因子控制器是优化这一过程的关键，它能够动态调整学习速率，平衡新旧信息的影响，保持模型的泛化性能。实验结果显示，所提出的基于Hadoop架构的SVM并行增量学习算法在保持分类精度的同时，实现了优秀的加速比、扩展率和数据伸缩性。这意味着该算法在大规模数据集上表现出了高效的处理能力，对于解决当前SVM在大数据场景下的挑战具有重要的实践意义。" 关键词：Hadoop, HBase, SVM, 增量学习, 集成学习, 遗忘因子控制器这篇研究为大数据环境下的机器学习提供了新的思路，特别是在支持向量机的优化和并行化方面，为后续的SVM研究和应用提供了有价值的参考。

第一章

绪论

题。增量学习的特征是局部学习、局部更新，主要关注未曾学习过的样本数据，

减少对历史样例的重复学习，并且尽可能从算法的当前状态更新算法。目前对于

增量学习算法学术界尝试从以下几个侧面进行解决。

Syde 等

[13]

最早提出增量式 SVM 的概念，算法在每次训练过程中选择部分样

本进行学习，在学习完成后保存支持向量，之后当新样本加入时，一起训练直到

所有样本数据学习完成。该方法在训练精度上并不理想，因为丢弃的非支持向量

中同样存在对分类模型建立有所影响的重要信息，但是，不得不承认的是，该方

法在处理大规模训练数据时比传统方法表现更好。

仅支持增量加入样例的增量学习算法，容易造成样本过度累计，超出算法的

处理能力。Poggio T 等

[14]

提出一种仅支持增量加入样例的增量学习算法。该方法

仅仅支持处理样本数据向学习系统的增量加入操作，而不能实现无用历史样本数

据的淘汰。此类机制易造成以下问题：当新样本数据不断以增量方式加入学习系

统，学习系统不断积累历史样本数据，当数据规模达到某一阈值时终会超过 SVM

算法的学习能力。

支持旧样本淘汰的增量学习算法，存在淘汰样例的机制难以确定的难点，该

方法虽然可以通过有效减小训练样本规模的方式提高算法处理能力，但淘汰机制

设置不当会对分类精度造成一定损失。

Katagiri S

等

[15]

提出一种基于超球选择的

SVM 增量学习算法，该方法既实现了样本以增量方式加入系统，也实现了旧样

本中无用部分的淘汰。虽然该方法通过淘汰旧样本中的分类影响较小的部分大大

减小了训练样本规模，但是该方法不是热开始的。此外，该方法通过计算包围每

类样例的最小超球来确定候选 SV 集，因为这是一个二次规划问题，所以该计算

过程的时间复杂度较高，增量学习系统的训练时间也会大大增加。

支持热开始的增量学习算法以当前状态作为学习机更新的起点，使算法分类

模型从学习开始就接近于最优解，节约解的寻找时间。Shilton A 等

[16]

提出一种

支持热开始的增量学习算法，该算法可以在新增样本加入学习系统后，系统可以

以过去的解作出发点从而找到新的解。但是该算法需要访问历史样例，这就需要

保存已经学习完成的样本数据，当样本积累过多时，会给存储资源造成不小的负

担。

从以上研究成果可以看出，现有的增量学习算法对于增量学习算法三大特征

的支持是并不完全的，如何设计全面满足这些特征的高效增量学习算法是成为未

来研究的焦点。

万方数据

第一章

绪论

1.2.2 并行 SVM 算法

针对串行方法普遍存在空间消耗大和学习时间长的问题，学者们开始着眼于

如何将 SVM 算法并行化，目前并行求解 SVM 主要有两种思路：一是针对算法

本身进行并行，从算法计算步骤着手；二是采用多分类器实现并行化。相对而言，

后者更容易在分布式计算环境中实现。以下为目前出现的国内外的部分研究成

果。

Salleh N S M 等提出基于 MPI 的分布式 SVM 算法 CoDLib

[17]

，该方法在并行

效率表现不俗，但在分类精度上表现并不理想。

Graf H P 等提出一种并行级联 SVM 算法 The Cascade SVM

[18]

，虽然该算法

在分类精度上表现不俗，但由于算法要求事先定义网络拓扑结构，而且计算结点

数随着级联层数的增加呈指数增加，所以该方法在应用过程中缺乏灵活性和可扩

展性。

Zhang J P 等利用不完全 Cholesky 分解的方法实现了并行 SVM 算法

(PSVM)

[19]

，

PSVM

算法降低了传统

SVM

算法的空间复杂度为和时间复杂度，算

法空间复杂度由

( )o n

降低到

( / )o np m

，算法时间复杂度由

( )o n

降低到

( / )o np m

，其中，

为分解后的矩阵维数，且

的值远远小于

，

和

分别代

表训练样本数和并行计算节点数。该算法在保证分类精度与原有

SVM

算法持平

的基础上，在一定条件下可以实现呈线性加速。

Caruana G 等提出一种基于 Hadoop 框架实现的并行 SVM 算法

[20]

，但由于算

法中的

Reduce

操作无助于算法收敛，算法为了保证精度需要借助外界信息，导

致算法无法自动运行。

Roychowdhury V 等提出了基于可配置网络环境下分布式并行 SVM 训练机制

[21]

。在强连接网络中交换

，使得多个计算节点能以理想的训练速度和有效地

通信代价并发地处理样本数据。

Chu 等论证 MapReduce 计算模型适用于并行化 SVM 算法

[22]

。但是，由于标

准

MapReduce

框架默认通过执行一次

Map

和

Reduce

操作得到数据处理结果，

对迭代数据处理并不支持，而在许多数据挖掘场景中，迭代处理都是是必须的

[23]

。

1.2.3 并行增量式 SVM

目前，学者们也考虑到将增量学习与并行计算这两种提高算法运行效率的方

法相结合。提出并行增量 SVM 主要是为了使 SVM 算法可以实时处理海量动态

数据。

万方数据

剩余46页未读，继续阅读

programmh

粉丝: 4
资源: 2162

Hadoop架构下SVM并行增量学习算法在大数据分类中的应用

Hadoop平台上的SVM主动学习分类算法探索

Hadoop架构下的并行决策树挖掘算法SPRINT研究

Hadoop架构下的并行关联规则挖掘算法

Incremental-SVM

TalkingData如何应对大规模机器学习的挑战

【PSO-SVM并行计算】：加速模型训练与预测，专家告诉你怎么做

SVM在推荐系统中的应用：构建个性化推荐算法的秘诀

高级机器学习算法与模型构建

R语言e1071包大数据应用：并行计算与分布式处理，处理海量数据

数据挖掘中的集成学习：组合模型的力量，让你的数据分析更强大！

最新资源