Storm：分布式实时计算系统的领导者

55 浏览量更新于2024-08-27 收藏 272KB PDF 举报

"Storm是一个开源分布式实时计算系统，旨在解决Hadoop批量计算无法满足实时性需求的问题。它提供了一种简单、高性能、低延迟且具备容错能力的平台，允许开发者专注于实时处理逻辑，而无需过多关注底层消息传递和部署细节。与Hadoop相比，Storm更注重实时性，适合于需要快速响应的场景，如广告搜索引擎。虽然Storm简化了实时计算，但在使用时仍需考虑数据源、故障恢复策略和错误消息处理机制。" 在大数据处理领域，Hadoop MapReduce是经典的批量计算框架，但其处理速度无法满足许多实时应用场景的需求。这时，Apache Storm应运而生，它是一个设计精良的实时计算系统，能够高效、可靠地处理持续流入的数据流。Storm的出现极大地简化了实时处理的复杂性，通过提供一种分布式计算模型，使得开发者只需关注核心业务逻辑，而无需操心消息队列、worker部署或容错机制。 Storm的关键特性包括： 1. **编程简单**：Storm的API设计直观，类似于Hadoop，使得开发人员可以集中精力编写业务逻辑。 2. **高性能与低延迟**：Storm设计的目标是实现高吞吐量和低延迟，适合实时响应的应用场景。 3. **分布式处理**：可以处理大规模数据，通过分布式架构扩展计算能力。 4. **可扩展性**：随着业务增长，可以通过增加节点水平扩展系统。 5. **容错机制**：即使单个节点故障，也不会影响整体系统的稳定运行。 6. **消息不丢失**：通过保证消息的完全处理，确保数据完整性。然而，使用Storm并非没有挑战。用户需要自定义数据源和输出代码，处理故障恢复，例如记录处理进度，并考虑如何处理失败的消息。此外，Storm不提供完整的解决方案，需要与其他组件（如消息队列）集成以构建完整的实时处理管道。与Hadoop相比，Storm在架构和应用场景上有显著差异。Hadoop侧重于批量数据处理，适用于离线数据分析，数据处理过程中涉及磁盘读写，而Storm则专注于实时流数据处理，适合需要实时响应的在线服务。两者在计算模式上也有所不同，Hadoop通过MapReduce进行分片计算，而Storm则是内存级别的计算，提供了更快的处理速度。 Storm是应对实时大数据挑战的重要工具，它填补了Hadoop在实时计算领域的空白，为企业提供了更灵活、高效的实时数据分析能力。在实际应用中，理解并掌握Storm的特性和使用方法，对于构建高性能的实时数据处理系统至关重要。

实时可靠的开源分布式实时计算系统实时可靠的开源分布式实时计算系统——Storm

在Hadoop生态圈中，针对大数据进行批量计算时，通常需要一个或者多个MapReduce作业来完成，但这种批量计算方式是满

足不了对实时性要求高的场景。

Storm是一个开源分布式实时计算系统，它可以实时可靠地处理流数据。

Storm特点

在Storm出现之前，进行实时处理是非常痛苦的事情，我们主要的时间都花在关注往哪里发消息，从哪里接收消息，消息如何

序列化，真正的业务逻辑只占了源代码的一小部分。一个应用程序的逻辑运行在很多worker上，但这些worker需要各自单独部

署，还需要部署消息队列。最大问题是系统很脆弱，而且不是容错的：需要自己保证消息队列和worker进程工作正常。

Storm完整地解决了这些问题。它是为分布式场景而生的，抽象了消息传递，会自动地在集群机器上并发地处理流式计算，让

你专注于实时处理的业务逻辑。

Storm有如下特点：

编程简单：开发人员只需要关注应用逻辑，而且跟Hadoop类似，Storm提供的编程原语也很简单；

高性能，低延迟：可以应用于广告搜索引擎这种要求对广告主的操作进行实时响应的场景；

分布式：可以轻松应对数据量大，单机搞不定的场景；

可扩展：随着业务发展，数据量和计算量越来越大，系统可水平扩展；

容错：单个节点挂了不影响应用；

消息不丢失：保证消息处理。

不过Storm不是一个完整的解决方案，使用Storm时你需要关注以下几点：

如果使用的是自己的消息队列，需要加入消息队列做数据的来源和产出的代码；

需要考虑如何做故障处理：如何记录消息处理的进度，应对Storm重启，挂掉的场景；

需要考虑如何做消息的回退：如果某些消息处理一直失败怎么办？

Storm与Hadoop区别

定义及架构

Hadoop是Apache的一个项目，是一个能够对大量数据进行分布式处理的软件框架。

Storm是Apache基金会的孵化项目，是应用于流式数据实时处理领域的分布式计算系统。

应用方面

Hadoop是分布式批处理计算，强调批处理，常用于数据挖掘和分析。

Storm是分布式实时计算，强调实时性，常用于实时性要求较高的地方。

计算处理方式

Hadoop是磁盘级计算，进行计算时，数据在磁盘上，需要读写磁盘；Hadoop应用MapReduce的思想，将数据切片计算来处

理大量的离线数据。Hadoop处理的数据必须是已经存放在HDFS上或者类似HBase的数据库中，所以Hadoop实现的时候是通

过移动计算到这些存放数据的机器上来提高效率的。

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38685600

粉丝: 5
资源: 906

Storm：分布式实时计算系统的领导者

分布式计算——原理、算法和系统

轻量级分布式实时计算框架light_drtc.pdf

基于Storm的Nginxlog实时监控系统

基于Java的Yahoo的分布式流计算平台 S4.zip

Storm：分布式实时计算系统的领导者

深入理解Storm：分布式实时计算系统解析

厦门大学林子雨：流计算详解——实时处理与Storm框架应用

基于Storm的分布式数字标牌广告投放技术

Storm: 实时流处理框架-开源与应用详解

Storm实时流处理框架详解

最新资源