CDH5.5.4集群自动化搭建：Hadoop-HA、YARN-HA、ZK、HBase、Hive等

需积分: 9 77 浏览量更新于2024-09-08 1 收藏 43KB TXT 举报

"该资源提供的是关于CDH5.5.4集群的自动化搭建过程，包括了Hadoop-HA（高可用）、YARN-HA、Zookeeper、HBase、Hive、Flume、Kafka和Spark等组件的安装与配置。提供的脚本可以帮助用户在三台机器上快速构建一套高可用环境，并且提供了自动化启动脚本，简化了部署流程。用户只需执行指定的命令即可完成搭建。资源中还包含了备用脚本如cmd_one.sh和scp_h1_h2.sh，用于在多台服务器间执行命令和传输文件。" 在CDH5.5.4集群搭建过程中，涉及的关键知识点有： 1. **CDH**: CDH是Cloudera Distribution Including Apache Hadoop的简称，是Cloudera公司提供的一个企业级大数据平台，包含了多个开源Apache项目，如Hadoop、HBase、Hive等。 2. **Hadoop-HA**: Hadoop高可用(High Availability, HA)是指通过设置NameNode的热备，确保即使主NameNode故障，系统也能继续运行。在CDH5中，这通常通过Active/Standby NameNode实现，配合JournalNode和Zookeeper进行故障转移。 3. **YARN-HA**: YARN（Yet Another Resource Negotiator）的高可用性同样是为了确保集群的稳定性。在YARN-HA中，ResourceManager被设计为高可用模式，存在一个Active和一个Standby状态，通过Zookeeper进行故障切换。 4. **Zookeeper**: Zookeeper是一个分布式协调服务，用于管理集群中的配置信息、命名服务、集群同步等。在HA环境中，Zookeeper扮演了关键角色，负责监控和协调NameNode和ResourceManager的状态。 5. **HBase**: 是一个分布式的、面向列的NoSQL数据库，基于Google的Bigtable设计。在CDH中，HBase可以与Hadoop集成，利用HDFS存储数据。 6. **Hive**: 是一个基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，使得处理大规模数据集变得简单。 7. **Flume**: Flume是一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统。它具有高度可定制性，可以方便地整合到大数据生态系统中。 8. **Kafka**: Kafka是一个分布式流处理平台，用于构建实时数据管道和流应用。它在消息队列的基础上增加了持久化、分区和复制等功能，适用于大数据实时处理场景。 9. **Spark**: Spark是一个快速、通用且可扩展的大数据处理框架，支持批处理、交互式查询、流处理和机器学习等多种计算任务。在CDH中，Spark可以与Hadoop生态系统无缝集成。这些组件的自动化搭建通过脚本实现，大大降低了集群部署的复杂性和时间成本。cmd_one.sh脚本用于在多台机器上远程执行命令，而scp_h1_h2.sh脚本则用于在不同节点间传输文件，这些都是在大规模分布式系统管理中常用的工具。通过这些自动化脚本，用户可以更高效地管理和维护CDH集群。

xx85340390

粉丝: 0

CDH5.5.4集群自动化搭建：Hadoop-HA、YARN-HA、ZK、HBase、Hive等

Spring boot集成Kafka+Storm的示例代码

HIVE HA高可用性及详细使用

CDH集群部署手册(For CDH5)

Docker+Spark-on-Yarn集群搭建与可视化教程

SparkStreaming：Spark Streaming + Flume + Kafka + HBase + Hadoop + Zookeeper实现实时日志分析统计； SpringBoot + Echarts实现数据可视化展示

Hadoop-2.0.0-cdh4.3.0安装手册(hbase-0.94.15-cdh4.6.0)

hadoop-2.6.0-cdh5.5.4.tar.gz

hadoop-2.5.0-cdh5.3.6集群搭建-附件资源

impala依赖cdh版本的hadoop-hbase-hive相关jar包.zip

CDH-5.9.1+Centos7+cloudera-manager-centos7-cm5.9.1.txt

最新资源