"云平台并行数据挖掘算法研究与应用：基于密度的聚类算法的并行化改进"

版权申诉

38 浏览量更新于2024-03-04 收藏 2.54MB PDF 举报

随着信息技术的不断创新，数据已然呈现出爆炸式增长的态势，互联网产业正面临着从 IT 到 DT 的巨大转变。如何提高挖掘海量数据背后所隐藏知识的能力，成为现阶段的一个难题。分布式计算架构的出现为海量数据挖掘提供了新的解决方案，将传统的数据挖掘算法迁移到云平台进行并行化改进，可使得处理数据的效率大大提高。本文从传统的数据挖掘算法无法应对海量数据挖掘的缺陷出发，研究了现阶段较为热门的开源分布式并行计算框架如 Hadoop、Spark 等，然后将传统的数据挖掘算法进行并行化改进，并将其移植到云平台上，利用云平台提升数据挖掘算法的计算能力，使之具有良好的可扩展性。主要工作有以下几个方面：首先，基于密度的聚类算法 DBSCAN 的并行化改进。现有的并行 DBSCAN 算法在进行数据分区时，通常是将原始数据库划分为若干个互不相交的子空间，随着数据维度的增加，对高维空间的切分与合并将消耗大量的时间。针对这一问题，本文提出了改进的并行基于密度的聚类算法(S_DBSCAN)，并在 Spark 上进行具体实现。经实验表明，改进的 S_DBSCAN 算法在保证一定正确聚类结果的同时，具有较高的计算效率和速度。其次，本文还探讨了基于云平台的数据挖掘并行算法在实际应用中的效果。在实际应用中，基于云平台的数据挖掘并行算法可以应用于各种领域，例如金融、医疗、电商等。通过并行化改进，可以更加高效地挖掘海量数据中的信息，为企业决策提供更加准确的数据支持。同时，基于云平台的数据挖掘算法还具有良好的扩展性和灵活性，可以根据不同的需求进行定制化开发，满足不同行业的需求。总的来说，基于云平台的数据挖掘并行算法是在当前信息技术快速发展的背景下应运而生的一种解决方案。通过将传统的数据挖掘算法与分布式计算框架相结合，可以有效提高数据挖掘的效率和精确度，为企业提供更好的数据分析和决策支持。未来随着云计算和大数据技术的不断发展，基于云平台的数据挖掘并行算法将会得到更广泛的应用和进一步的优化，为各行各业带来更多的创新和发展机遇。

第二章

相关知识介绍

第二章相关知识介绍

2.1

现有云平台概述

云计算

[3][4]

为用户提供海量数据的存储与计算服务，同时，用户可以在不了解

云计算底层实现、没有相关知识储备、没有设备操作能力的条件下，通过互联网

按需获取服务。云计算提供了从基础设施、平台服务到软件服务的三层服务类型，

分别为

IaaS

、

PaaS

以及

SaaS

。随着云计算技术的广泛应用，各大型互联网公司

也相继推出自主研发的云平台产品，比如

IBM

蓝云计算平台、亚马逊云计算平台、

Google

云平台等。此外，本节还将介绍由

Apache

基金会所开发的开源分布式计算

架构

Hadoop

，以及介绍基于云平台的

Hadoop

。

2.1.1

亚马逊云平台

亚马逊

[8]

是互联网上最大的在线零售商，每日在线交易量不计其数。因此，亚

马逊为独立开发人员以及开发商提供了云计算服务平台，并将其命名为弹性计算

云（

EC2

）。它最早为用户提供了远程云计算服务，用户能够通过

Elastic Compute

Cloud

的

Network UI

去操作每个实例，收费的方式是按使用量收费。用户数据的

安全一般是通过

HTTPS

协议来保障的，内部实例的交互可以通过客户端使用

SOAP over HTTPS

协议来确保。以用户的角度来看，

Elastic Compute Cloud

为用户

提供了基于虚拟机的灵活的集群环境，将用户从繁重的平台维护工作中解放了出

来。

Elastic Compute Cloud

架构如图

2-1

所示。

图

2-1

亚马逊弹性计算架构图

由图

2-1

所示，

Elastic Compute Cloud

中，在云端运行着的每台虚拟机都代表

万方数据

第二章

相关知识介绍

IBM

公司在

2007

年

月成功研发了为用户提供按需收费云服务的云计算平

台“蓝云”（

Blue Cloud

）

[10]

。它将服务支持与系统支持的标准化开源软件包括

linux

操作系统镜像、

PowerVM

虚拟化以及

Hadoop File System

结合在一起，对大规模

计算领域进行深入研究。“蓝云”通过实时的跨服务器资源分配，在保障极端环境

下的稳定性与加速性的同时，提升了用户的体验，这是由

IBMTivoli

软件支持的。

“蓝云”计算的高层架构是由数据库及数据中心、虚拟化组件、监控软件及应用

服务器组合构建。

“蓝云”的硬件平台并无特殊，但在海量数据处理

Apache Hadoop

的部署与

虚拟机的使用上，“蓝云”与其他云平台相比，表现出了差异性。在“蓝云”的结

构中使用了虚拟化技术，逻辑分区

LPAR

是通过使用

IBM p

系列服务器来获取的，

从而实现硬件的虚拟化。而软件虚拟化则是通过

Xen

虚拟化软件，它通过构建虚

拟机以简易的方式对软件进行操作与部署，同时能将其他许多操作系统很好地运

行在

Linux

上，因此平台具有很强的可移植性。另外，在存储方面，“蓝云”主要

使用的

Hadoop

的

HDFS

，在此基础上将磁盘封装在计算节点的内部，向外对用户

提供一个可共享的分布式文件系统，并通过多副本机制来实现冗余，以提高可靠

性。

2.1.4

Hadoop

2.1.4.1

Hadoop

生态系统

Hadoop

[11][12][13]

是一个由

Apache

基金会在

2006

年推出的开源分布式基础架构，

它能够分析海量非结构化数据，并为应用程序提供可管理的数据形式。基于

Hadoop,

用户能够快捷地构建应用程序来完成对海量数据的分析与处理。

Hadoop

的核心组

件

HDFS

、

MapReduce

以及

Hbase

。结合

MapReduce

分布式编程模型的特性，用

户可以轻松地编写程序来实现海量数据的处理。同时基于

Hadoop

，能通过简单的

方式对硬件进行扩展，能快速地对软、硬件故障以及系统故障进行搜索，并在应

用层快速地对故障进行修复，通过这种方式提高了集群的容错能力与高可用性。

由此可以看出

Hadoop

具有扩容能力强、成本低、效率高以及可靠性高等特性。

Hadoop

经过九年多的发展，越来越多的组件被加入到

Hadoop

中，构成了庞大的

Hadoop

生态系统，如图

2-3

所示。

万方数据

剩余81页未读，继续阅读

programyp

粉丝: 90

"云平台并行数据挖掘算法研究与应用：基于密度的聚类算法的并行化改进"

人工智能-数据挖掘-数据挖掘算法及其生产优化应用研究.pdf

人工智能-数据挖掘-SaaS平台数据挖掘研究与应用.pdf

人工智能-数据挖掘-Web数据挖掘算法研究.pdf

基于云平台的岭南通IC卡数据挖掘方法研究.pdf

基于云计算的大数据挖掘平台构建研究.pdf

基于Hadoop云平台的水利普查数据挖掘系统的设计和实现.pdf

基于云计算的数据挖掘技术研究.pdf

基于HADOOP的数据挖掘平台分析与设计.pdf

云计算的大数据挖掘平台研究.pdf

云计算环境下面向领域的数据挖掘服务平台研究.pdf

最新资源