Storm驱动的海量数据实时聚类优化

版权申诉

150 浏览量更新于2024-08-10 收藏 357KB PDF 举报

"《基于Storm的海量数据实时聚类》一文由王铭坤、袁少光、朱永利和王德文四位作者撰写，发表于《计算机应用》2014年第11期。该研究针对现有平台在处理海量数据时实时响应能力不足的问题，提出了一种利用Apache Storm分布式实时计算框架进行大规模数据聚类分析的方法。DBSCAN算法被选中并在Storm框架下实现，该算法将处理流程划分为数据接入、聚类分析和结果输出三个阶段，每个阶段在预定义的Storm组件中编程执行，这些组件通过数据流连接形成任务实体，最终在集群中并行运行。 Storm以其高效处理大量数据流的能力，解决了单机环境下海量数据聚类存在的吞吐量小、实时性差的问题，适用于大数据背景下对实时分析性能的需求。文章强调了Storm平台在处理海量数据时的低延迟和高吞吐量优势，以及其良好的负载均衡性能，这意味着它可以有效地应对大数据挖掘任务，提供实时的数据处理能力。研究者通过对比分析和性能监测来验证他们的解决方案，结果显示Storm在处理海量数据时具有较高的实时性，能够适应大数据时代的挑战。关键词包括Storm、海量数据、聚类、实时分析。在技术层面，文中还提到了大数据处理的现状，指出Hadoop作为批处理平台的代表，而Storm则代表了实时流处理的新趋势，通过分布式计算模型提供更高效的数据处理路径。这篇文章对于那些关注大数据实时分析和分布式计算实践的读者来说，是一篇重要的参考资料，展示了如何利用Storm改进现有技术，提高数据处理的效率和实时性，尤其是在大数据环境中的应用潜力。"

龙源期刊网 http://www.qikan.com.cn

基于 Storm 的海量数据实时聚类

作者：王铭坤袁少光朱永利王德文

来源：《计算机应用》2014 年第 11 期

摘要：针对现有平台处理海量数据实时响应能力普遍较差的问题，引入Storm 分布式实

时计算平台进行大规模数据的聚类分析，设计了基于 Storm 框架的 DBSCAN 算法。该算法将

整个过程分为数据接入、聚类分析、结果输出等阶段，在框架预定义的组件中分别编程实现，

各组件通过数据流连通形成任务实体，提交到集群运行完成。通过对比分析和性能监测，验证

了所提方案具有低延迟和高吞吐量的优势，集群运行状况良好，负载均衡。实验结果表明

Storm 平台处理海量数据实时性较高，能够胜任大数据背景下的数据挖掘任务。

关键词：Storm；海量数据；聚类；实时分析

中图分类号： TP316.4；TP311.1 文献标志码：A

0 引言

聚类分析是数据挖掘中常用的分析手段，由于聚类算法的复杂度一般比较高[1]，利用现

有单机环境进行海量数据的聚类分析存在吞吐量小、实时性差、难以达到预期效果的缺陷

[2]，已难以满足大数据背景下的业务需求，通过集群处理的分布式计算模型为此类问题的解

决提供了新途径。

Storm 是开源的分布式实时计算框架，可以高效地处理大量数据流[3]。本文拟将 Storm 平

台应用到海量数据的聚类分析，设计 Storm 框架下的 DBSCAN（DensityBased Spatial

Clustering of Application with Noise）算法，搭建高性能的集群环境，对海量数据进行实时高效

的分析与处理。

1 相关研究

1.1 大数据处理研究现状

大数据是信息技术产业又一次颠覆性的技术变革，并已在多个领域证明了它的重要性和

价值，许多机构和公司都在利用大数据技术获取价值。

大数据研究的不断深入也带动了相关技术的发展，面向不同应用场景的大数据处理平台相

继出现。大数据的处理可以简单分为批处理与实时流处理两种模式。

Hadoop 是批处理平台的代表，它主要由分布式文件系统（Hadoop Distributed File

System， HDFS）、MapReduce 编程模型和 Habase 分布式数据库组成[4]。用户可以在不了解

分布式底层细节的情况下开发分布式程序，其强大的吞吐能力、高容错性以及良好的可扩展性

下载后可阅读完整内容，剩余7页未读，立即下载

赵鲁宾

粉丝: 0

Storm驱动的海量数据实时聚类优化

基于Storm的分布式实时数据流密度聚类算法.pdf

分布式实时日志密度数据流聚类算法及其基于Storm的实现.pdf

物联网中海量数据处理技术.pdf

基于Storm与Kafka集群的火电厂分布式流式数据建模与分析系统.pdf

海量数据处理课程教学大纲（质量标准）共5页.pdf.zi

基于分布式实时计算框架的电能量数据异常特征提取在线预警系统.pdf

基于改进SALS算法的大数据挖掘效率优化探究.pdf

数据挖掘工程师岗位职责.pdf

大数据分析及处理方法.pdf

大数据处理常用技术有哪些.pdf

最新资源