Storm：分布式实时计算系统的领导者

30 浏览量更新于2024-08-28 收藏 272KB PDF 举报

"Storm是一个开源的分布式实时计算系统，它为大数据实时处理提供了解决方案，弥补了Hadoop批量计算的不足。Storm的设计目标是简化实时处理的复杂性，允许开发者专注于业务逻辑，同时提供了高性能、低延迟、分布式、可扩展和容错的特性。在Storm中，开发人员无需过多关心消息传递，系统会自动处理并发和容错，确保消息不会丢失。然而，使用Storm时，用户还需自行处理数据源和产出、故障恢复、消息回退等细节问题。Storm与Hadoop的主要区别在于，Hadoop适合于批量离线处理，而Storm则专注于实时计算。" Storm作为实时计算的核心在于其强大的实时处理能力。它允许开发者用简单的编程模型实现复杂的实时流处理任务，如处理来自传感器、网站点击流或交易系统的实时数据流。Storm的工作原理基于拓扑结构，其中数据流被拆分成多个“tuples”，在不同的worker节点之间传递，每个节点执行特定的计算任务。在Storm中，每个worker都在一个独立的进程中运行，它们通过Zookeeper协调和管理，确保高可用性和容错性。当某个worker故障时，Storm会自动重新分配任务，保证系统的连续运行。此外，Storm支持 Trident API，这是一个高级接口，提供更强的容错性和状态管理，使得开发者能够更方便地实现窗口计算、精确一次状态更新等复杂操作。与Hadoop MapReduce相比，Storm的实时计算能力使其在需要快速响应的场景中更具优势。Hadoop的批处理模式意味着数据必须先存储再处理，而Storm则可以一边接收数据，一边进行处理，适用于广告定向、社交媒体分析、实时推荐系统等需要即时反馈的场景。然而，Storm并不提供完整的端到端解决方案。使用Storm时，需要集成其他组件来处理数据输入和输出，例如Kafka或RabbitMQ作为消息队列。此外，开发者需要实现故障恢复策略，确保消息处理的进度得以保存，以及处理处理失败的消息。这增加了系统的复杂性，但同时也提供了更大的灵活性，可以根据具体需求定制解决方案。 Storm作为实时计算的利器，为大数据实时处理带来了新的可能性。它的出现改变了大数据领域对实时分析的处理方式，简化了实时计算的实现，并且提供了与Hadoop互补的功能，共同构建起全面的大数据处理生态系统。

实时可靠的开源分布式实时计算系统实时可靠的开源分布式实时计算系统——Storm

在Hadoop生态圈中，针对大数据进行批量计算时，通常需要一个或者多个MapReduce作业来完成，但这种批量计算方式是满

足不了对实时性要求高的场景。

Storm是一个开源分布式实时计算系统，它可以实时可靠地处理流数据。

Storm特点

在Storm出现之前，进行实时处理是非常痛苦的事情，我们主要的时间都花在关注往哪里发消息，从哪里接收消息，消息如何

序列化，真正的业务逻辑只占了源代码的一小部分。一个应用程序的逻辑运行在很多worker上，但这些worker需要各自单独部

署，还需要部署消息队列。最大问题是系统很脆弱，而且不是容错的：需要自己保证消息队列和worker进程工作正常。

Storm完整地解决了这些问题。它是为分布式场景而生的，抽象了消息传递，会自动地在集群机器上并发地处理流式计算，让

你专注于实时处理的业务逻辑。

Storm有如下特点：

编程简单：开发人员只需要关注应用逻辑，而且跟Hadoop类似，Storm提供的编程原语也很简单；

高性能，低延迟：可以应用于广告搜索引擎这种要求对广告主的操作进行实时响应的场景；

分布式：可以轻松应对数据量大，单机搞不定的场景；

可扩展：随着业务发展，数据量和计算量越来越大，系统可水平扩展；

容错：单个节点挂了不影响应用；

消息不丢失：保证消息处理。

不过Storm不是一个完整的解决方案，使用Storm时你需要关注以下几点：

如果使用的是自己的消息队列，需要加入消息队列做数据的来源和产出的代码；

需要考虑如何做故障处理：如何记录消息处理的进度，应对Storm重启，挂掉的场景；

需要考虑如何做消息的回退：如果某些消息处理一直失败怎么办？

Storm与Hadoop区别

定义及架构

Hadoop是Apache的一个项目，是一个能够对大量数据进行分布式处理的软件框架。

Storm是Apache基金会的孵化项目，是应用于流式数据实时处理领域的分布式计算系统。

应用方面

Hadoop是分布式批处理计算，强调批处理，常用于数据挖掘和分析。

Storm是分布式实时计算，强调实时性，常用于实时性要求较高的地方。

计算处理方式

Hadoop是磁盘级计算，进行计算时，数据在磁盘上，需要读写磁盘；Hadoop应用MapReduce的思想，将数据切片计算来处

理大量的离线数据。Hadoop处理的数据必须是已经存放在HDFS上或者类似HBase的数据库中，所以Hadoop实现的时候是通

过移动计算到这些存放数据的机器上来提高效率的。

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38734993

粉丝: 3
资源: 938

Storm：分布式实时计算系统的领导者

分布式计算——原理、算法和系统

轻量级分布式实时计算框架light_drtc.pdf

基于Storm的Nginxlog实时监控系统

基于Java的Yahoo的分布式流计算平台 S4.zip

基于Storm的实时大数据处理.pdf

深入理解Storm：分布式实时计算系统解析

厦门大学林子雨：流计算详解——实时处理与Storm框架应用

Storm: 实时流处理框架-开源与应用详解

Storm实时流处理框架详解

风电行业实时流计算系统构建与应用

最新资源