Storm实时计算入门：Topology、Spout与Bolt解析

118 浏览量更新于2024-08-30 收藏 144KB PDF 举报

"本文主要介绍了Storm实时计算的基本概念，包括Topology、Spout和Bolt，以及StreamGrouping，这些都是Storm编程实践中的核心要素。" 在Storm实时计算框架中，流操作入门编程实践主要涉及以下几个关键概念： 1. Topology: 类似于Hadoop MapReduce的Job，Topology是Storm的核心计算单元，它由一系列的Spout和Bolt组件构成，并通过DAG（有向无环图）结构来定义它们之间的数据流关系。Topology在启动后将持续运行，直到手动停止或遇到异常情况才会终止。 2. Spout: 作为Topology的数据源，Spout负责产生数据流。它可以是各种数据输入源，如网络套接字服务器、消息队列消费者或者Flume Agent的接收端。Spout产生的数据以Tuple的形式在Topology中流动。 3. Bolt: Bolt组件承担了数据处理的任务，它可以对来自Spout或其他Bolt的Tuple进行任意复杂度的计算。Bolt可以接收并处理多来源的Tuple，同时，根据业务需求设置不同的StreamGrouping策略，来决定数据如何在Bolt间流动。 4. StreamGrouping: 这是控制数据流在不同组件间分发的关键机制。Storm提供了多种分发策略： - Shuffle Grouping: 随机将Tuple分发到目标Bolt的所有任务中，确保每个任务收到的数据均匀分布。 - Fields Grouping: 根据Tuple中的特定字段进行分组，相同字段值的Tuple会被分发到同一组。 - All Grouping: 每个Bolt的任务都会收到所有的Tuple副本，实现广播效果。 - Global Grouping: 所有的Tuple都将被发送到同一个Bolt任务，确保所有处理都在同一位置完成。 - None Grouping: 默认分组，通常用于传递控制消息，不保证特定的分发策略。在实际开发中，理解并灵活运用这些概念可以帮助我们构建高效、可靠的实时计算应用。例如，通过精心设计Topology结构和StreamGrouping策略，可以优化数据处理的并行性，提高系统的吞吐量和响应速度。此外，为了保证容错性和可扩展性，Storm还支持故障恢复和动态调整组件的并发度，使得实时计算系统能够应对大数据量和高实时性的挑战。

public static class WordSplitterBolt extends BaseRichBolt {

private static final long serialVersionUID = 1L;

private static final Log LOG = LogFactory.getLog(WordSplitterBolt.class);

private OutputCollector collector;

@Override

public void prepare(Map stormConf, TopologyContext context,

OutputCollector collector) {

this.collector = collector;

}

@Override

public void execute(Tuple input) {

String record = input.getString(0);

if(record != null && !record.trim().isEmpty()) {

for(String word : record.split("\\s+")) {

collector.emit(input, new Values(word, 1));

LOG.info("Emitted: word=" + word);

collector.ack(input);

}

@Override

public void declareOutputFields(OutputFieldsDeclarer declarer) {

declarer.declare(new Fields("word", "count"));

}

在execute方法中，传入的参数是一个Tuple，该Tuple就包含了上游（Upstream）组件ProduceRecordSpout所emit的数据，

直接取出数据进行处理。上面代码中，我们将取出的数据，按照空格进行的split，得到一个一个的单词，然后在emit到下一个

组件，声明的输出schema为2个Field：word和count，当然这里面count的值都为1。

进行统计词频的组件为WordCounterBolt，实现代码如下所示：

public static class WordCounterBolt extends BaseRichBolt {

private static final long serialVersionUID = 1L;

private static final Log LOG = LogFactory.getLog(WordCounterBolt.class);

private OutputCollector collector;

private final Map<String, AtomicInteger> counterMap = Maps.newHashMap();

剩余11页未读，继续阅读

weixin_38499706

粉丝: 2
资源: 906

Storm实时计算入门：Topology、Spout与Bolt解析

storm入门.pdf

实时计算开发 - Storm从入门到精通

storm和spark入门项目final

E-MapReduce提供的实时计算服务包括

Storm: 1.列举几个常见的流计算框架。 2.试述流数据的特点。 3.试列举几种Stream Groupings 的方式。

>> storm1984 错误: 文件: storm1984.m 行: 45 列: 1 非法使用保留关键字 "for"。 如何修改

web storm 报错error:0308010C:digital envelope routines::unsupported

storm架构的特点是什么

详细介绍一下分布式计算Storm

电商交易数据实时计算平台在哪个软件上实现

最新资源

>> storm1984 错误: 文件: storm1984.m 行: 45 列: 1 非法使用保留关键字 "for"。如何修改