ZooKeeper:分布式协调利器与Hadoop HA集群搭建

需积分: 9 5 下载量 16 浏览量 更新于2024-07-18 收藏 1.74MB PDF 举报
"大数据时代zookeeper分布式协调工具" 在大数据时代,Zookeeper作为一个关键的分布式协调工具,扮演着至关重要的角色。本文将深入探讨分布式协调技术的概念,以及Zookeeper的概述、功能、工作角色,并通过实例展示如何利用Zookeeper搭建Hadoop的高可用(HA)集群。 一、分布式协调技术概述 分布式协调技术是解决分布式环境中多进程间同步和资源访问控制的核心技术。在一个分布式系统中,各个节点可能分布在不同的物理机器上,它们需要协作提供服务,而分布式协调就是确保这些进程能有序地访问共享资源,避免冲突和无序状态。例如,如果有三个进程分别在三台机器上运行,它们都需要访问同一资源,分布式协调器就会确保资源的访问顺序,保证系统的稳定运行。 二、Zookeeper概述 Zookeeper是由Apache软件基金会开发的开源项目,它是一个分布式的协调服务,源于Google的Chubby。Zookeeper提供了诸如分布式同步、配置管理、集群管理和命名服务等基础功能,使得开发者可以构建更复杂的应用程序。它的数据模型类似文件系统,使用znode(类似于文件或目录)来存储和管理数据,支持多种操作,如创建、删除、更新和查询znode。Zookeeper的设计目标是简化分布式应用的协调任务,提高系统的稳定性和效率。 三、Zookeeper提供的功能 1. 文件系统:Zookeeper以树形结构组织数据,允许动态创建和删除znode。 2. 分布式锁:通过创建临时znode实现分布式锁,确保资源的独占访问。 3. 配置管理:集中存储和更新分布式应用的配置,确保所有节点一致。 4. 集群管理:监控集群中节点的状态,自动处理故障恢复。 5. 命名服务:为分布式组件提供全局唯一的名字。 6. 队列管理:实现先进先出(FIFO)的队列,用于消息传递。 四、Zookeeper工作角色 Zookeeper作为一个中心化的服务器,维护了所有客户端的会话状态和数据变更记录。每个客户端与一个或多个Zookeeper服务器建立连接,发送请求并接收响应。服务器之间通过复制和选举机制保证数据的一致性和高可用性。 五、ZooKeeper搭建Hadoop的HA集群 在Hadoop中,Zookeeper常用于实现NameNode的HA,确保在主NameNode故障时能快速切换到备用NameNode,保证Hadoop集群的连续服务。具体步骤包括配置Zookeeper集群,设置Hadoop的HA参数,以及正确部署和启动所有组件。 六、案例:搭建Hadoop2.7.6结合Zookeeper-3.4.10完全分布式存储集群 实际操作中,会涉及安装Zookeeper和Hadoop,配置Hadoop的Zookeeper依赖,设置相关的配置文件如`core-site.xml`、`hdfs-site.xml`等,以及启动和测试HA功能。通过这样的实践,可以深入理解Zookeeper在Hadoop中的作用和配置过程。 Zookeeper作为分布式协调的重要工具,为复杂分布式环境下的资源管理和协同提供了强大的支持,是构建大规模、高可用系统不可或缺的一部分。掌握Zookeeper的原理和使用,对于理解和解决分布式系统中的问题至关重要。
2019-12-13 上传
什么是Zookeeper Zookeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。ZooKeeper本身可以以单机模式安装运行,不过它的长处在于通过分布式ZooKeeper集群(一个Leader,多个Follower),基于一定的策略来保证ZooKeeper集群的稳定性和可用性,从而实现分布式应用的可靠性。 1、Zookeeper是为别的分布式程序服务的 2、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务) 3、Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统> 一名称服务等 4、虽然说可以提供各种服务,但是zookeeper在底层其实只提供了两个功能: 管理(存储,读取)用户程序提交的数据(类似namenode中存放的metadata);  并为用户程序提供数据节点监听服务; Zookeeper集群机制 Zookeeper集群的角色: Leader 和 follower  只要集群中有半数以上节点存活,集群就能提供服务 Zookeeper特性 1、Zookeeper:一个leader,多个follower组成的集群 2、全局数据一致:每个server保存一份相同的数据副本,client无论连接到哪个server,数据都是一致的 3、分布式读写,更新请求转发,由leader实施 4、更新请求顺序进行,来自同一个client的更新请求按其发送顺序依次执行 5、数据更新原子性,一次数据更新要么成功,要么失败 6、实时性,在一定时间范围内,client能读到最新数据 Zookeeper数据结构 1、层次化的目录结构,命名符合常规文件系统规范(类似文件系统)    2、每个节点在zookeeper中叫做znode,并且其有一个唯一的路径标识  3、节点Znode可以包含数据和子节点(但是EPHEMERAL类型的节点不能有子节点) 节点类型  a、Znode有两种类型: 短暂(ephemeral)(create -e /app1/test1 “test1” 客户端断开连接zk删除ephemeral类型节点)  持久(persistent) (create -s /app1/test2 “test2” 客户端断开连接zk不删除persistent类型节点) b、Znode有四种形式的目录节点(默认是persistent ) PERSISTENT  PERSISTENT_SEQUENTIAL(持久序列/test0000000019 )  EPHEMERAL  EPHEMERAL_SEQUENTIAL c、创建znode时设置顺序标识,znode名称后会附加一个值,顺序号是一个单调递增的计数器,由父节点维护          d、在分布式系统中,顺序号可以被用于为所有的事件进行全局排序,这样客户端可以通过顺序号推断事件的顺序 Zookeeper应用场景 数据发布与订阅(配置中心) 发布与订阅模型,即所谓的配置中心,顾名思义就是发布者将数据发布到ZK节点上,供订阅者动态获取数据,实现配置信息的集中式管理和动态更新。例如全局的配置信息,服务式服务框架的服务地址列表等就非常适合使用。 负载均衡 这里说的负载均衡是指软负载均衡。在分布式环境中,为了保证高可用性,通常同一个应用或同一个服务的提供方都会部署多份,达到对等服务。而消费者就须要在这些对等的服务器中选择一个来执行相关的业务逻辑,其中比较典型的是消息中间件中的生产者,消费者负载均衡。 消息中间件中发布者和订阅者的负载均衡,linkedin开源的KafkaMQ和阿里开源的 metaq都是通过zookeeper来做到生产者、消费者的负载均衡。这里以metaq为例如讲下: 生产者负载均衡:metaq发送消息的时候,生产者在发送消息的时候必须选择一台broker上的一个分区来发送消息,因此metaq在运行过程中,会把所有broker和对应的分区信息全部注册到ZK指定节点上,默认的策略是一个依次轮询的过程,生产者在通过ZK获取分区列表之后,会按照brokerId和partition的顺序排列组织成一个有序的分区列表,发送的时候按照从头到尾循环往复的方式选择一个分区来发送消息。 消费负载均衡: 在消费过程中,一个消费者会消费一个或多个分区