Spark上的K-means与随机森林算法优化及应用框架

版权申诉

5星 · 超过95%的资源 179 浏览量更新于2024-07-04 1 收藏 4.03MB PDF 举报

"本文主要研究了基于Spark的机器学习应用框架，针对K-means和随机森林算法的局限性进行了分析，并提出改进方案，设计出一套能够自动预处理数据、优化算法和选择参数的框架，降低了用户使用的复杂性。在交通物流云计算平台建设项目中，这一框架得到了验证，并具有自适应K-means（AKM）和自适应随机森林（ARF）两大特点，能够有效处理数据集中的问题，提升算法性能。" 在机器学习领域，聚类分析和分类分析是非常关键的技术，其中K-means和随机森林是最常见的工具。然而，K-means算法要求用户预先设定群组数目K值，这对缺乏经验的用户来说是个挑战，可能导致K值设定不准确。而随机森林算法在分类决策时，所有决策树的权重相同，可能使准确性较差的决策树影响整体结果。 K-means算法在处理含有大量孤立点的数据集时，会增加迭代次数，提高复杂度，影响其准确性。同样，随机森林在面对包含噪声特征和冗余特征的数据集时，其分类准确性会下降。这些问题增加了用户使用这两种算法的难度。为了克服这些挑战，分布式计算的机器学习框架如Spark得到了广泛应用。然而，现有的框架要求用户具备深厚的机器学习算法知识，这成为应用的一大障碍。针对这些问题，本文提出了一种基于Spark的机器学习应用框架，它包含了自适应的数据预处理、算法优化和参数选择功能，使得用户无需深入理解算法细节即可使用。具体改进上，本文引入了AKM算法，解决了K-means的三个主要问题：特征权重不一致、孤立点干扰和K值设定。AKM算法能够自动规范化数据，检测并移除孤立点，还能自适应地确定最佳的K值，增强了聚类效果。另一方面，ARF算法被用来改善随机森林的性能。ARF算法可以识别并删除噪声特征和冗余特征，同时改进了分类决策投票策略，提高了分类的准确性和鲁棒性。通过交通物流领域的实际案例，这个框架的效能得到了验证，显示了在处理复杂数据集时的优越性能。相较于其他系统，本文提出的工作在自动化处理和算法适应性方面有显著优势，为机器学习在大数据环境下的应用提供了更便捷、高效的解决方案。

上海交通大学硕士学位论文第一章绪论

第 8 页

1.4 论文结构

本章首先介绍了机器学习和分布式计算框架的结合，提出了现有机器学习框架

使用门槛过高的问题，阐述了 K-means 算法和随机森林算法在实际使用中存在的限

制和缺点，分析了对于 K-means 算法和随机森林算法现有问题的国内外研究现状。

最后，提出了本文的研究目标和内容。

本文的后续章节概述如下：

 第二章，相关技术分析。介绍了聚类分析技术、分类分析技术和 Spark 框架

的相关技术和研究。

 第三章，AMLF 框架的需求分析与架构设计。详细介绍了 AMLF 框架的需

求、方案设计、设计目标和技术架构等。

 第四章，关键技术的研究与实现。详细介绍了 AMLF 框架的关键技术的研

究与实现，包括 K-means 聚类算法的优化与实现、随机森林分类算法的优化

与实现和 AMLF 框架核心模块的设计与实现等。

 第五章，实验验证。通过设计实验，对 AMLF 框架提出的改进算法进行验

证；通过面向交通物流的应用例子，对 AMLF 框架的可行性和有效性进行

验证。

 第六章，总结与展望。总结了本文的主要内容，并对之后的工作进行展望。

上海交通大学硕士学位论文第二章相关技术分析

第 9 页

第二章相关技术分析

本章将详细介绍和分析与本文工作相关的背景技术。本章主要从三个方面对相

关技术进行分析，包括：（1）聚类分析技术，包括聚类分析概述、K-means 聚类算法、

K-means 算法的数据预处理和聚类的有效性评价指标；（2）分类分析技术，包括分类

分析概述、随机森林分类算法、随机森林算法对于特征的重要性评分和随机森林算

法的特征选择等；（3）Spark 框架，包括 Spark 分布式计算框架的概述和 Spark 分布

式计算框架的架构分析。这些相关技术对于 AMLF 框架的设计具有指导性的帮助。

2.1 聚类分析技术

2.1.1 聚类分析概述

聚类分析(Clustering Analysis)，又称数据切割，是一种探查数据结构的工具。聚

类分析源于数学、计算机科学和经济学等多个领域，是一种重要的人类行为。聚类

分析广泛应用于目标客户推荐、市场划分、生物技术、人口统计学和教学辅导等多

个领域，大致可以分为数据精简、假设推断和预测等几类应用。

聚类分析在相似的基础上分析数据进行分类，然后通过单独分析每个类别中的

数据，获取数据中隐藏的知识和信息。然而，在大多数情况下，无法提前对数据类

别进行定义，需要应用聚类分析算法对数据集进行分类。

聚类分析的定义如下

[32]

：

设数据集 D = {



,



,…,



,…,



}，其中



(1im)是数据对象，聚类分析就是

根据数据对象之间的相似度进行划分，将数据对象划分为 k 个群组：



,



,...,



,…,



，

这些群组满足以下条件：









 

















 (2-1)

由于应用环境的不同，聚类分析的方式和步骤也不完全一样。但是，对于常见

的数据分析应用而言，其分析过程可以分为四个步骤，如图 2-1 所示：

上海交通大学硕士学位论文第二章相关技术分析

第 10 页

图 2-1 聚类分析过程

Fig.2-1 The Procedure of Clustering

第一步，提取待分析数据中需要分析的特征属性，选择合适的方法进行规范化

处理并存储；第二步，根据特征属性选择一个合适的相似度计算方法；第三步，选

择合适的聚类分析算法，将数据划分至多个群组；第四步，对算法的运行结果进行

评估，对数据进行解释和分析。其中，相似度是聚类分析的重要参数，其计算方法

的选择是聚类分析的重要步骤。主流的相似度计算方法都是基于距离公式计算数据

对象的空间距离作为对象之间的相似度

[33]

。常用的计算方法有欧氏距离和绝对距离。

2.1.2 K-means 聚类算法

“K-means”术语最早由 James MacQueen 于 1967 年提出，最早的标准 K-means

算法是由 Stuart Lloyd 于 1957 年提出并应用于脉码调制中，因此 K-means 算法常被

称为 Lloyd 算法。K-means 算法的目标是将待分区的数据对象，划分到 k 个簇中，这

些数据对象和其所属簇的中心的距离最近。虽然，聚类算法在计算时比较难于计算，

但是 K-means 算法是一个高效的启发式算法，通常采用快速收敛得到局部最优值。

K-means 算法的标准定义如下

[31]

：

给定一个数据对象集合 X={



,



,..,



}，其中每个对象



是一个 d 纬向量。

K-means 算法的目标是根据数据对象的特征将 n 个对象划分为 k 个群组，其中 kn，

使得各个群组内部的均方误差总和最小，记为 V。假设存在 k 个群组



, 其中 i=1,2,...,k，





是群组



内所有元素



的中心点。则 V 的计算公式为：





 



 



















(2-2)

具体而言，K-means 算法的详细步骤如下：

输入：群组个数 k 和 n 个数据对象

上海交通大学硕士学位论文第二章相关技术分析

第 11 页

输出：数据对象集合的 k 个划分

(1) 随机选择 k 个数据对象作为初始的群组中心点，并进行初始化；

(2) 遍历数据对象集合，计算数据对象和 k 个群组中心点的距离，将数据对象划

分到距离最小的中心点所属的群组中；

(3) 重新计算群组中心点，通过计算群组所含数据对象的平均值，得到中心点；

(4) 重复计算步骤(2)和(3)，直至得到的新的群组中心点和旧的中心点的差值低

于一个阈值，迭代计算结束。

聚类分析是机器学习中重要的研究方向和领域，K-means 算法是聚类分析中最重

要的算法之一。目前，K-means 算法是人们在科研生产应用中最常用的机器学习算法，

主要是利用 K-means 算法产生一些不相交的对象簇，然后再对这些对象簇中的数据

进行下一步处理，比如进行关联规则挖掘和知识推荐等。

在实际使用中，K-means 算法具有以下优点：

 算法比较简单，容易理解和实现；

 算法的时间和空间复杂度不高；

 算法能适应多种应用环境，具有一定的扩充性；

 算法能够产生更紧密的簇，特别是球状簇。

相应地，人们在使用 K-means 算法时，也发现 K-means 算法具有以下缺点：

 K-means 算法中的群组数目 K 值是使用者预先设定的，这对使用者提出了较

高的要求，经验不足的使用者设定的 K 值的准确性也存在一定的问题；

 包含较多孤立点的数据将会增加 K-means 算法的迭代次数，提高算法的复杂

度，降低算法的准确性；

 初始中心点的选择将会影响 K-means 算法的迭代次数以及算法能否取得全

局最优解。

2.1.3 K-means 算法的数据预处理

在电子商务、医学、物流和其他各个领域中，工程师和学者们使用了各种各样

的机器学习算法对数据进行分析和挖掘，提取隐藏在数据中的知识。例如，医学领

域的学者会对数据库中的数据进行分析用于推测用户的疾病类型。机器学习中使用

的原始数据来源于实际应用场景，存在各类难以避免的缺陷。例如，原始数据中总

会存在大量的空缺值，甚至错误的记录；同时，原始数据总会包含噪声数据和冗余

上海交通大学硕士学位论文第二章相关技术分析

第 12 页

数据。低质量的数据将导致低质量的挖掘结果，这些问题对于机器学习算法构成了

极大的挑战，也会影响机器学习算法的有效性和运行时间。从原始数据到待分析数

据的过程中，对数据进行的操作称为数据预处理。数据预处理是机器学习过程中的

一个重要步骤，尤其是对包含噪声和冗余，甚至不一致的数据进行机器学习时，更

需要对数据进行预处理，以提高数据的质量，并最终达到提高机器学习所获取知识

的质量的目的。

数据预处理主要包括以下三个步骤：数据清理、数据集成与变换和数据归约

[34]

。

以下分别对三个步骤进行详细说明。

(一) 数据清理

数据清理主要解决空缺值、错误数据和噪声等问题。

(1) 处理空缺值

处理空缺值的方法主要包括忽略元组、填补空缺值和推倒空缺值等。

(2) 处理错误数据

对于错误数据而言，首先需要识别包含错误数据的样本，然后进行更改或者删

除。错误数据的分辨与具体的问题相关。

(3) 处理噪声数据

噪声是指对于一个变量进行测量时，测量结果存在的偏差。如果偏差较大，即

为孤立点。噪声数据，包括孤立点，就是被测量变量的随机误差。处理噪声数据的

方法主要包括分箱、回归、聚类和人机结合等。

(二) 数据集成与变换

数据分析任务通常需要处理多个数据源中的数据，这涉及合并多个数据库或者

文件中的数据至一个一致的数据存储中，即数据集成。

数据变换是指将数据转换或者统一为适合挖掘的形式，例如数据规范化，主要

包括平滑、聚集和规范化等方法。以下将对规范化进行简单介绍。

数据规范化，又称特征缩放(Feature Scaling)，是指将特征数据按比例缩放后，

使特征落入一个较小的特定区间中。进行数据分析之前，通常需要对数据进行规范

化处理。数据规范化通常根据数据的具体情况，选择合适的规范化方法。对数据进

行规范化处理常用于涉及神经网络或者距离度量的分类算法和聚类算法中。对于基

于距离度量相异度或者相似度的方法，数据规范化可以让所有特征具有相同的权重。

常用的规范化方法包括小数定标规范化、最小-最大值规范化、Z-score 规范化、

极差标准化和极差正规化等。

剩余104页未读，继续阅读

「已注销」

粉丝: 841
资源: 3602

Spark上的K-means与随机森林算法优化及应用框架

基于Spark的机器学习-智能客户系统项目实战

基于Spark机器学习的电商推荐系统设计与实现.zip

基于spark的机器学习算法实现

计算机课程毕设：基于Spark机器学习的电商推荐系统设计与实现.zip

基于Spark机器学习的电商推荐系统.zip

电商推荐系统设计与实现：基于Spark机器学习技术

电商推荐系统基于Spark机器学习项目源码教程

使用Python开发Apache Spark机器学习应用

基于Spark的机器学习在微博的应用.pptx

基于Spark的大数据框架，以及机器学习算法整合.zip

最新资源