实时大数据利器：Storm实时计算解析

156 浏览量更新于2024-08-28 收藏 207KB PDF 举报

"使用Storm实现实时大数据分析！" Apache Storm是一个开源的实时计算系统，由Twitter开发并贡献给了社区，它被广泛用于处理大规模的流式数据。Storm的核心概念是topology，它定义了数据流的处理逻辑。与Hadoop的批处理模型不同，Storm专注于实时数据处理，能够在数据生成的瞬间进行分析，从而提供即时的洞察和响应。 Storm的实时处理能力使其在众多实时计算框架中脱颖而出。在处理大数据时，Storm能够保证每个数据项（tuple）都至少被处理一次，这被称为“至少一次”(at-least-once)语义，确保了数据处理的完整性。此外，Storm的分布式特性使得它可以将任务分散到多台机器上，提高处理速度和系统的可扩展性。它依赖Zookeeper来协调集群中的各个节点，确保高可用性和一致性。在"超速报警系统（SpeedingAlertSystem）"的例子中，Storm被用来实时分析车辆数据。当车辆的速度超过预设阈值时，系统会立即触发警报并将相关信息存储到数据库中。这个例子展示了Storm在实时监控和事件驱动应用中的应用潜力。安装和配置Storm相对简单，主要包括从官方站点下载最新版本的Storm，解压缩到适当位置，并确保bin目录下的storm脚本可执行。一旦安装完成，就可以开始构建和部署topologies。 Storm的主要组件包括： 1. **Nimbus**：类似于Hadoop中的JobTracker，负责任务调度和资源分配。 2. **Supervisor**：运行在每个工作节点上，管理worker进程。 3. **Worker**：执行实际的topology任务。 4. **Zookeeper**：协调集群状态，保证一致性。 5. ** Nimbus和Supervisor之间的通信基于Zookeeper，而worker之间的通信则使用零拷贝的TCP协议。 Storm的topology由多个bolt和spout组成。**Spouts**是数据源，它们负责产生或读取数据流；**Bolts**是对数据进行处理的组件，可以进行过滤、聚合、计算等操作。用户可以自由设计topology，使用任何支持的语言（如Java、Python、Clojure等）编写bolts和spouts。在实际应用中，Storm常与其他大数据工具如Hadoop HDFS、Cassandra、Kafka等结合使用，形成一个完整的实时数据处理生态系统。例如，可以将Kafka作为消息队列，接收实时数据流，然后通过Storm进行处理，最后将结果写入HDFS或Cassandra进行持久化存储。 Apache Storm为实时大数据分析提供了一个强大且灵活的平台，能够处理各种实时业务场景，包括实时日志分析、实时报表生成、物联网(IoT)数据处理、实时推荐系统等。它的易用性、可扩展性和高可靠性使得它成为实时数据处理领域的重要选择。

使用使用Storm实现实时大数据分析！实现实时大数据分析！

简单和明了，Storm让大数据分析变得轻松加愉快。

当今世界，公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据，网站、社交媒

体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量，实时处理成为了许多机构需要面对的首要挑战。

我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发，通常被比作“实时的Hadoop”。然而Storm远比

Hadoop来的简单，因为用它处理大数据不会带来新老技术的交替。

Shruthi Kumar、Siddharth Patankar共同效力于Infosys，分别从事技术分析和研发工作。本文详述了Storm的使用方法，例子

中的项目名称为“超速报警系统（Speeding Alert System）”。我们想实现的功能是：实时分析过往车辆的数据，一旦车辆数据

超过预设的临界值 —— 便触发一个trigger并把相关的数据存入数据库。

Storm

对比Hadoop的批处理，Storm是个实时的、分布式以及具备高容错的计算系统。同Hadoop一样Storm也可以处理大批量的数

据，然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时；也就是说，所有的信息都会被处理。Storm同样还具

备容错和分布计算这些特性，这就让Storm可以扩展到不同的机器上进行大批量的数据处理。他同样还有以下的这些特性：

易于扩展。对于扩展，你只需要添加机器和改变对应的topology（拓扑）设置。Storm使用Hadoop Zookeeper进行集群

协调，这样可以充分的保证大型集群的良好运行。

每条信息的处理都可以得到保证。

Storm集群管理简易。

Storm的容错机能：一旦topology递交，Storm会一直运行它直到topology被废除或者被关闭。而在执行中出现错误时，

也会由Storm重新分配任务。

尽管通常使用Java，Storm中的topology可以用任何语言设计。

当然为了更好的理解文章，你首先需要安装和设置Storm。需要通过以下几个简单的步骤：

从Storm官方下载Storm安装文件

将bin/directory解压到你的PATH上，并保证bin/storm脚本是可执行的。

Storm组件

Storm集群主要由一个主节点和一群工作节点（worker node）组成，通过 Zookeeper进行协调。

主节点：

主节点通常运行一个后台程序 —— Nimbus，用于响应分布在集群中的节点，分配任务和监测故障。这个很类似于Hadoop中

的Job Tracker。

工作节点：

工作节点同样会运行一个后台程序 —— Supervisor，用于收听工作指派并基于要求运行工作进程。每个工作节点都是

topology中一个子集的实现。而Nimbus和Supervisor之间的协调则通过Zookeeper系统或者集群。

Zookeeper

Zookeeper是完成Supervisor和Nimbus之间协调的服务。而应用程序实现实时的逻辑则被封装进Storm中的“topology”。

topology则是一组由Spouts（数据源）和Bolts（数据操作）通过Stream Groupings进行连接的图。下面对出现的术语进行更

深刻的解析。

Spout：

简而言之，Spout从来源处读取数据并放入topology。Spout分成可靠和不可靠两种；当Storm接收失败时，可靠的Spout会对

tuple（元组，数据项组成的列表）进行重发；而不可靠的Spout不会考虑接收成功与否只发射一次。而Spout中最主要的方法

就是nextTuple（），该方法会发射一个新的tuple到topology，如果没有新tuple发射则会简单的返回。

Bolt：

Topology中所有的处理都由Bolt完成。Bolt可以完成任何事，比如：连接的过滤、聚合、访问文件/数据库、等等。Bolt从

Spout中接收数据并进行处理，如果遇到复杂流的处理也可能将tuple发送给另一个Bolt进行处理。而Bolt中最重要的方法是

execute（），以新的tuple作为参数接收。不管是Spout还是Bolt，如果将tuple发射成多个流，这些流都可以通过

declareStream（）来声明。

Stream Groupings：

Stream Grouping定义了一个流在Bolt任务间该如何被切分。这里有Storm提供的6个Stream Grouping类型：

1. 随机分组（Shuffle grouping）：随机分发tuple到Bolt的任务，保证每个任务获得相等数量的tuple。

2. 字段分组（Fields grouping）：根据指定字段分割数据流，并分组。例如，根据“user-id”字段，相同“user-id”的元组总是

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38569651

粉丝: 4
资源: 908

实时大数据利器：Storm实时计算解析

使用Storm实现实时大数据分析.doc

实时大数据分析基于Storm、Spark技术的实时应用.zip

电商交易数据实时计算平台在哪个软件上实现

flink,storm,spark、storm对比分析

基于hadoop的网站大数据分析系统设计

Hadoop怎么实现实时搜索

使用Hadoop实现天气数据的统计

大数据实时处理技术参考文献

spark streaming与storm的对比分析

详细介绍一下分布式计算Storm

最新资源