Hadoop平台上的大规模数据并行随机抽样算法

需积分: 15 148 浏览量更新于2024-08-11 收藏 1.15MB PDF 举报

"本文提出了一种基于mapreduce框架的并行随机抽样算法，可以在清理脏数据的基础上，等概率地进行抽样。" 在当前信息化社会，数据的收集和存储技术的快速发展导致了海量数据的积累，这为数据挖掘带来了新的挑战。面对日益激烈的商业竞争，企业和组织急需从海量数据中提取有价值的信息。数据挖掘作为一种自动发现大数据存储中隐藏信息的技术，其重要性不言而喻。然而，随着数据规模的急剧增长，传统数据挖掘算法在性能上已经无法应对，因此，研究和开发并行化数据挖掘算法成为了研究的焦点。 Hadoop作为云计算平台的一个重要组件，以其独特的MapReduce编程模型，为处理大规模数据提供了可能。MapReduce的核心理念是“分而治之”，它将大任务拆分为多个小任务，分布到集群的各个节点上并行处理，然后再将结果合并。Map函数负责数据的预处理和分解，Reduce函数则负责将各个节点的处理结果聚合，形成最终结果。此外，MapReduce框架还处理了分布式环境中的诸多复杂问题，如数据存储、任务调度、负载均衡、容错处理和网络通信，极大地减轻了程序员的负担。本文针对海量数据并行处理的需求，提出了一种创新的MapReduce并行随机抽样算法。该算法在单次扫描数据的过程中，不仅能够清除数据集中的脏数据，还能实现等概率的随机抽样。与传统的随机抽样方法相比，这种并行抽样算法在时间效率上具有显著优势，极大地减少了处理数据的时间成本，为后续的数据分析提供了有效的数据样本。抽样是数据挖掘中的一个重要步骤，通过抽样可以缩小处理的数据规模，降低计算复杂度。在Hadoop平台上实现并行抽样，不仅可以提高数据处理速度，还能保证抽样的代表性和准确性。这种并行化策略对于推动数据挖掘在海量数据环境下的应用具有重要的实践意义，为未来的数据挖掘研究打下了坚实的基础。这篇论文探讨了在Hadoop平台上利用MapReduce实现海量数据的并行随机抽样，这种方法有助于解决大数据环境下数据挖掘的效率问题，为数据科学家提供了更高效的数据预处理工具，对于提升整个数据挖掘流程的效能有着积极的促进作用。

2014，50（20）

近几十年来，数据收集和数据存储技术的快速进步

使得各组织机构积累海量数据。当今社会商业竞争日

趋白热化，人们迫切需要从数据的矿山中挖掘出知识的

金子，由此产生数据挖掘技术。数据挖掘是在大型数据

存储中，自动地发现有用信息的过程。其从兴起以来，

一直是研究的热点问题。但是随着数据的海量化，需要

处理的数据规模越来越大，且由于数据分析内部的复杂

性，现有的数据挖掘算法在性能上已经没办法满足需

求。国内外很多学者在数据挖掘中引入云计算思维，实

现数据挖掘算法的并行化，很多数据挖掘算法被转移到

hadoop 上用 mpareduce 并行框架

[1]

实现。除此之外，很

自然想到并行化抽样算法，减小数据量集处理规模。本

文提出了一种基于 mapreduce 框架的并行随机抽样，可

以实现在清理脏数据的基础上，等概率地进行抽样。

1 mapreduce 编程模型

mapreduce 采用“分布治之”的思想，把对大规模数

据集的操作，分发给一个主节点管理下的各分节点共同

完成，然后能整合各分节点的中间结果，得到最终的结

果

[2]

。它有两个重要函数，可以由用户编写：map 和

reduce。map 负责把任务分解成多个任务，r educe 负责

把各个任务处理的结果汇总起来。至于在并行编程中

的其他种种复杂问题，如分布式存储、工作调度、负载均

衡、容错处理、网络通信等，均由 mapreduce 框架负责处

理

[3]

，可以不用程序员操心。

如图 1 所示，在 map 阶段，mapreduc e 框架将任务的

输入数据分割成固定大小的片段（splits），随后将每个

split 进一步分解成一批键值对

K1V1

。其作为 map

函数的输入，执行用户自定义的 Map 函数后，得到计算

Hadoop平台的海量数据并行随机抽样

宛婉，周国祥

WAN Wan, ZHOU Guoxiang

合肥工业大学计算机与信息学院，合肥 230009

School of Computer and Information, Hefei University of Technology, Hefei 230009, China

WAN Wan, ZHOU Guoxiang. Massive d ata parallel random sampling based on hadoop. Com puter Engineering

and Applications , 20 14 , 50（20）：115-118.

Abstract：In today’s“information explosion”soci ety, data mining, because of mass data, fa ces a new challenges. When

data mining turns to cloud computing platform to realize parallel, the study of parallel data random sampling further reduces

the size of the data si ze. This paper presents a mapreduce parallel sampling algorithm which not only can clean up dirty

data but also achie ves the goal of equal probability sampling. T he algorithm just needs to scan processed data only one

time. It runs this algorithm in th e hadoop platform and compares its performance with common random sampling. As a

result, this new algorithm obtains a very high time efficiency. It is a kind of effective method which lays a good founda-

tion for doing research o n sampling in future. It can also prom ote data mining in th e cond ition o f facin g mass data.

Key words：cloud computing; hadoop; mapreduce; parallel computing; data mining; random sampling

摘要：在“信息爆炸”的当今社会，海量数据对数据挖掘提出新的挑战。在数据挖掘转向云计算平台实现并行化的

同时，研究并行化数据随机抽样进一步降低处理的数据规模。提出一种单次扫描即可实现清理脏数据并实现等概

率抽样的 mapreduc e 并行抽样算法。在 hadoop 平台上实现并与普通随机抽样方法进行比较，得出其时间效率非常

高，是一种行之有效的方法。为以后数据挖掘中的抽样研究和推动数据挖掘在海量数据下的发展奠定良好基础。

关键词：云计算；hadoop；mapreduce；并行计算；数据挖掘；随机抽样

文献标志码：A 中图分类号：TP391. 12 doi：10.3778/j.issn.1002-8331.1210-0329

作者简介：宛婉（1988—），女，硕士生，主要研究方向：云计算；周国祥（1956—），男，博士，教授，硕士生导师，主要研究方向：信息

处理与智能决策、云计算。

收稿日期：2012-10-30 修回日期：2012-12-19 文章编号：1002-8331（2014）20-0115-04

CNKI网络优先出版：2013-01-11, http://www.cnki.net/kcms/detail /11.2127.TP.20130111.0953.025.htm l

C omputer Engineering and Applications 计算机工程与应用

115

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38587509

粉丝: 4

Hadoop平台上的大规模数据并行随机抽样算法

基于Hadoop的海量数据存储平台设计与开发

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云.pdf

基于Hadoop的海量数据处理模型研究和应用.pdf

基于Hadoop平台的海量数据处理应用

hadoop海量数据存储

如何在Hadoop平台上实现海量数据的高并发存储与查询，并通过TPC-DS测试验证其性能表现？

Hadoop海量数据处理pdf

Hadoop平台搭建与数据分析实验小结

在Hadoop平台中如何评估数据仓库的性能，并确保在高并发查询和海量数据存储场景下的表现？请根据TPC-DS测试标准分享测试流程和关键指标。

如何在Hadoop平台中评估数据仓库的性能，特别是在高并发查询和海量数据存储场景下的表现？请根据TPC-DS测试标准分享测试流程和关键指标。

最新资源