Storm集群配置与Zookeeper问题解析

5 浏览量更新于2024-08-30 收藏 138KB PDF 举报

"本文主要探讨了在实际操作中遇到的Storm、Zookeeper集群以及Storm中tuple可靠处理的一些常见问题，并提供了相应的解决方案。" 在安装和配置分布式计算框架Storm时，环境变量配置是一个关键步骤。传统的做法是修改`/etc/profile`文件来设置环境变量，但这在处理多组件集群如JDK、Storm、Zookeeper和MetaQ时可能会引发问题。正确的方法是在`/etc/.bashrc`文件中添加环境变量，确保Java和Zookeeper集群能够正常工作。特别是在编写shell脚本来启动Storm集群时，如果Java环境变量未在`/etc/.bashrc`中设置，可能会导致启动失败。 Zookeeper作为Storm的核心组件，它的集群安装方式也常引发疑问。有人可能认为只需在nimbus节点上安装Zookeeper，其他supervisor节点通过nimbus获取任务。实际上，Zookeeper是以集群模式运行的，它有自己的通信机制，用于协调任务分配。每个Zookeeper节点都会接收到相同的任务信息，而supervisor仅需下载并执行分配给自己的任务部分。 Storm的一个核心特性是其可靠的tuple处理机制。为确保数据处理的完整性，Storm会存储tuple信息，这可能引发对内存泄漏的担忧。实际上，Storm通过acker节点来跟踪tuple的生命周期。acker会保存每个创建的tupleid的xor值（ackvalue），每次tuple被确认（ack），会将tupleid与ackvalue进行异或操作。当所有依赖的tuple都被确认后，ackvalue将变为0，表明整个任务处理完成，此时相关数据会被释放，避免内存泄漏。这种机制保证了数据处理的可靠性，同时也确保了系统的高效运行。总结来说，Storm的实战中需要注意环境变量的正确配置，理解Zookeeper集群的角色以及Storm的可靠处理机制，这些知识对于有效地部署和管理Storm集群至关重要。同时，对于遇到的问题，应该深入理解其背后的工作原理，以便找到合适的解决方案。

Storm实战常见问题及解决方案实战常见问题及解决方案

下面是一些经验总结，欢迎指出其中的缺点和不足：

1关于Storm集群

1.1关于storm集群的环境变量配置问题

安装好JDK后，需要配置环境变量，通常情况下出于经验，我们往往会修改/etc/profile的值进行环境变量配置，但这在安装

JDK以及后面安装的storm集群、zookeeper集群以及metaq集群时会出问题，这时候我们需要在/etc/.bashrc文件中加入环境变

量，不然安装的java和ZK集群等就无法使用，尤其这个问题在我用shell写调度脚本去启动storm集群的时候就遇到过，如果没

有将java的环境变量配置在/etc/.bashrc文件中，就会报一个错，这个问题在后面我会提到。

1.2关于zookeeper集群安装问题

记得刚刚接触storm，在安装zookeeper集群的时候有这样的考虑：为什么不可以把zookeeper只安装在nimbus上，然后让其

他的supervisor来它这里读取任务？如果在每台机器上都安装zookeeper，那nimbus分配任务的时候，是每台机器上的

zookeeper都收到同一份的任务，还是只是将分配给每个supervisor节点的那部分写到同一节点上的zookeeper中？

有朋友解答说：ZK也是以集群的方式工作的，ZK集群内部有他自己的一套相互通信机制，而storm正是要借助其通讯机制，例

如任务下发等，往往在执行一个任务的时候，storm会把任务及相关执行的代码经过序列化之后发送到各个ZK节点供

supervisor去下载，然后才会各自执行自己部分的代码或者任务。说的直接一点就是每个ZK节点收到的任务是一样的，而

supervisor只需要下载属于自己的任务即可。

1.3关于Storm中tuple 的可靠处理问题

Storm 为了保证tuple 的可靠处理，需要保存tuple 信息，这样会不会导致内存泄漏？

关于这个问题，其实网上是有资料进行了详细的解释的。这里只是大概将一下，如果还不明白，可以上网搜搜“storm可靠处

理”。Storm为了保证tuple 的可靠处理，acker 会保存该节点创建的tuple id的xor （异或）值，这个值称为ackvalue，那么每

ack 一次，就将tuple id 和ack value做异或(xor)。当所有产生的tuple 都被ack的时候，ack value 必定为0。这是个很简单的策

略，对于每一个tuple 也只要占用约20个字节的内存。对于100万tuple，也才20M 左右，所以一般情况下是不用考虑内存泄漏

问题的。

1.4关于storm计算结果的存放问题

很多人在刚刚学习Storm 的时候都会有这个问题：storm处理后的结果保存在哪里？内存中？还是其他地方？

官方解释说： Storm是不负责保存计算结果的，这是应用程序里需要负责的事情，如果数据不大，你可以简单地保存在内存

里，也可以每次都更新数据库，也可以采用NoSQL存储。storm并没有像s4 那样提供一个PersistAPI，根据时间或者容量来做

存储输出。这部分事情完全交给用户。数据存储之后的展现，也是你需要自己处理的，storm UI只提供对topology 的监控和统

计。

1.5关于Storm如何处理重复的tuple问题

有人问到Storm 是怎么处理重复的tuple？

因为Storm 要保证tuple 的可靠处理，当tuple 处理失败或者超时的时候，spout 会fail并重新发送该tuple，那么就会有tuple 重

复计算的问题。这个问题是很难解决的，storm也没有提供机制帮助你解决。不过也有一些可行的策略：

（1）不处理，这也算是种策略。因为实时计算通常并不要求很高的精确度，后续的批处理计算会更正实时计算的误差。

（2）使用第三方集中存储来过滤，比如利用MySQL、MemCached 或者Redis 根据逻辑主键来去重。

（3）使用bloom filter 做过滤，简单高效。

1.6关于task与executor的关系问题

在storm的学习过程中，有许多人问到task与executor的关系问题。

在我们安装配置storm的时候，不知大家是否主要到了一个问题，就是我们在配置的时候会加几个worker的端口

(supervisor.slots.ports:)，比如众多文档中提到的6700/6701等等类似的东西。没错，这就是我们定义了该supervisor最多的

worker数，worker中执行一个bolt或者spout线程，我们就称之为task，而executor是物理上的线程概念，我们可以将其称为执

行线程；而task更多是逻辑概念上的，有时候bolt与spout的task会共用一个executor，特别是在系统负荷比较高的时候。

1.7关于Storm UI显示内容的问题

Storm UI 里spout 统计的complete latency 的具体含义是什么？为什么emit 的数目会是acked的两倍？

简单地说，complete latency 表示了tuple 从emit 到被acked 经过的时间，可以认为是tuple以及该tuple 的后续子孙（形成一棵

树）整个处理时间。其次spout 的emit 和transfered 还统计了spout和acker 之间内部的通信信息，比如对于可靠处理的spout

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38655484

粉丝: 4
资源: 909

Storm集群配置与Zookeeper问题解析

Storm集群配置与Zookeeper问题解析

Storm实战：分布式实时计算模式

Java与Apache Storm实战教程全解析

03、storm项目实战课程-Kafka0.8Storm0.9.1Optr.rar

03、storm项目实战课程-Kafka0.8Optr2.rar

基于Storm流计算天猫双十一作战室项目实战

那些storm的坑坑

大数据面试精华：常见技术与实战问题详解

Hadoop大数据解决方案实战指南

实时大数据分析实战：Apache Storm与Spark SQL应用

最新资源