Twitter Storm：实时数据处理框架详解

115 浏览量更新于2024-08-27 1 收藏 545KB PDF 举报

"storm-简介" Storm是一个开源的实时数据处理框架，起源于BackType公司，后被Twitter收购并成为其实时数据分析的核心。它主要应用于实时数据处理，包括信息流处理、连续计算和分布式远程过程调用。在这些场景中，Storm能够高效地处理源源不断的实时数据，提供容错性和可扩展性，将处理结果存储到持久化存储中。 1. 信息流处理（Stream Processing） Storm在信息流处理中的应用主要体现在对实时新数据的处理和数据库的更新。它可以接收并处理大量实时消息，确保数据的准确性和一致性。通过分布式处理，Storm能够处理大规模的数据流，并将处理后的数据保存到数据库或其他持久化存储中，如HDFS或NoSQL数据库。 2. 连续计算（Continuous Computation）在连续计算领域，Storm能够持续分析数据并立即反馈结果。例如，在社交媒体分析中，它可以实时显示热门话题并推送到客户端。这种实时反馈的能力使得Storm在实时监控、在线分析等领域具有巨大价值。 3. 分布式远程过程调用（Distributed RPC） Storm的分布式RPC功能允许在节点间进行快速、高效的通信，执行分布式计算任务。这在需要实时响应的服务中，如精准广告推送，能够根据用户的实时行为进行快速的计算和决策。除了上述核心应用，Storm还广泛应用于实时日志处理、并行处理密集型查询等场景。例如，在实时日志处理中，Storm可以与分布式存储配合，从多个数据源收集日志，经过Bolt的逻辑处理后存储；在处理密集型查询时，Storm的拓扑结构可以快速响应查询并返回结果。 Storm集群的核心组件包括Spout和Bolt。Spout是数据流的来源，负责产生和发送数据；Bolt则执行具体的计算任务，如过滤、聚合、转换等。与Hadoop的MapReduce相比，Storm的Topology（拓扑）是持续运行的，而MapReduce Job则是有始有终的。这种持续运行的特性使得Storm更适合于需要持续监控和反应的实时计算任务。Storm集群的高可用性和容错性通过Zookeeper进行协调，保证了系统的稳定性和可靠性。 Storm是应对实时数据处理需求的关键工具，它的灵活性、高性能和容错机制使其在大数据实时处理领域占据重要地位。无论是电商的商品推荐、广告投放，还是复杂的数据分析任务，Storm都能提供强大的支持，实现数据的即时处理和智能响应。

storm-简介简介

一 Storm简介

Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架，它原来是由BackType开发，后BackType被Twitter收购，将

Storm作为Twitter的实时数据分析系统。

实时数据处理的应用场景很广泛，例如商品推荐，广告投放，它能根据当前情景上下文（用户偏好，地理位置，已发生的查询

和点击等）来估计用户点击的可能性并实时做出调整。

twitter列举了storm的三大作用领域：

1.信息流处理（Stream Processing）

Storm可以用来实时处理新数据和更新数据库，兼具容错性和可扩展性,它可以用来处理源源不断的消息，并将处理之后的结果

保存到持久化介质中。

2.连续计算（Continuous Computation）

Storm可以进行连续查询并把结果即时反馈给客户，比如将Twitter上的热门话题发送到客户端。

3.分布式远程过程调用（Distributed RPC）

除此之外，Storm也被广泛用于以下方面：

精确的广告推送在用户浏览产品的时候，将浏览记录实时性的搜集，发送到Bolt，由Bolt来根据用户的账户信息(如果有的话)

完成产品的分类统计，产品的相关性查询等逻辑计算之后，将计算结果推送给用户；

实时日志的处理 Storm可以和一个分布式存储结合起来，实时性的从多个数据源发送数据到处理逻辑Bolts，Bolts完成一些逻

辑处理之后，交给分布式存储框架进行存储，此时，Spout可以是多个；

Storm可以用来并行处理密集查询，Storm的拓扑结构是一个等待调用信息的分布函数，当它收到一条调用信息后，会对查询

进行计算，并返回查询结果

二 Storm 集群的基本组件

Storm是一个分布式、高容错的实时计算系统，Storm对于实时计算的意义相当于Hadoop对于批处理的意义。Hadoop提供了

Map和Reduce原语，使对数据进行批处理变的非常简单和优美。同样，Storm也对数据的实时计算提供了简单Spout和Bolt原

语。

Storm 集群表面上看和hadoop集群非常像，但是在Hadoop上面运行的是MapReduce的Job, 而在Storm上面运行的是

Topology(拓扑)，它们是非常不一样的 —关键的区别是：一个MapReduce Job最终会结束，而一个Topology永远运行（除非

显式的杀掉它）。

Storm集群里面有两种节点：控制节点(master node)和工作节点(worker node)

控制节点上面运行一个后台程序： Nimbus，它的作用类似Hadoop里面的JobTracker。Nimbus负责在集群里面分布代码，分

配工作给机器，并且监控状态。

每一个工作节点上面运行一个叫做Supervisor的节点（类似 TaskTracker）。Supervisor会监听分配给它那台机器的工作，根

据需要启动/关闭worker工作进程。

每一个工作进程执行一个Topology（类似 Job）的一个子集；一个运行的Topology由运行在很多机器上的多个工作进程

Worker（类似 Child）组成。

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38740144

粉丝: 1
资源: 972

Twitter Storm：实时数据处理框架详解

kafka-storm-starter-develop

apache-storm-1.0.2.tar.gz

storm-hbase集成

storm-test:storm相关测试

storm-sentiment:基于Storm的与请分析

item-storm-poc:项目只是一个要部署到Apache Storm的小项目

storm-focused-crawler:收集通过社交网络共享的多媒体内容

Storm-Print-3D:该存储库包含我来自CFGS的最终工作，即Storm Print 3D，该应用程序管理与3D打印相关的所有内容

01、Storm的集群搭建 01-storm简介.avi

Storm学习简介

最新资源