CDH5.5离线安装全攻略:避坑指南
需积分: 10 160 浏览量
更新于2024-07-18
收藏 1.1MB PDF 举报
"CDH5.5安装文档提供了一种完全离线的安装方法,适用于测试和生产环境,包括CDH及其依赖的Python、JDK、Mysql5.6、Cloudera Manager (CM)、Parcel、Mysql JDBC驱动等的下载链接。此外,还强调了确认主机安装环境的必要性,如硬件需求、磁盘空间和操作系统兼容性。"
CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司提供的一个开源大数据平台,它集成了Hadoop生态系统中的多个组件,如Hadoop、Spark、Storm等。在CDH5.5.0版本中,这个安装文档详细介绍了如何在没有网络连接的情况下进行安装。
1. **离线安装流程**
离线安装CDH通常包括以下几个步骤:
- 下载所有必要的软件包,包括Python、JDK、MySQL数据库、Cloudera Manager、CDH Parcel及对应的SHA1校验和文件和manifest.json。
- 将这些文件上传到所有目标主机,确保它们可以被所有节点访问。
- 安装JDK和Python,因为它们是CDH运行的基础。
- 安装MySQL,因为它是Hadoop元数据存储的常用数据库。
- 安装Cloudera Manager,这是一个图形化的管理工具,用于集群的配置、监控和管理。
- 使用Cloudera Manager来部署和配置CDH Parcel,Parcel是Cloudera分发的软件包格式,包含了CDH的各个组件。
- 配置Mysql JDBC驱动,以便CDH中的组件能与MySQL数据库通信。
2. **硬件和系统环境要求**
在安装CDH之前,需要确保服务器满足以下条件:
- 硬件资源:足够的内存、CPU和磁盘空间。例如,`/var`目录至少需要5GB的空间,`/usr`目录也需要足够的空间来安装软件。
- 操作系统兼容性:CDH5.5.0通常要求兼容El6或El7版本的Red Hat Enterprise Linux或其兼容版本。
- 其他依赖:确保系统上已经安装了所有必要的依赖库和工具,可能需要提前准备一个包含这些依赖的ISO镜像包。
3. **安装注意事项**
- 安装过程中,需要仔细规划和配置网络,特别是如果集群是分布式的话,确保节点间通信畅通。
- 为避免权限问题,可能需要以root用户身份执行某些操作。
- 安装后,记得更新配置文件以适应实际的业务需求,如HDFS的命名空间、YARN的资源管理等。
4. **Spark和Storm的集成**
CDH5.5.0包含了Spark和Storm这两个大数据处理框架。Spark提供了快速的内存计算,适合交互式查询和批量处理。而Storm则是一个实时流处理系统,适合处理连续的数据流。在CDH中,这两个组件都可以通过Cloudera Manager进行配置和管理。
CDH5.5.0的离线安装是一个涉及多步骤的过程,需要对Linux系统、Hadoop生态和Cloudera Manager有深入理解。这个文档提供了一个详细的指南,帮助用户避免在安装过程中遇到的问题,确保CDH能够在各种环境中顺利运行。
2016-01-25 上传
2018-04-20 上传
2017-08-23 上传
2018-12-07 上传
2019-10-16 上传
2016-06-09 上传
2016-06-09 上传
2021-10-12 上传
点击了解资源详情
zhty0417
- 粉丝: 1
- 资源: 5
最新资源
- C语言快速排序算法的实现与应用
- KityFormula 编辑器压缩包功能解析
- 离线搭建Kubernetes 1.17.0集群教程与资源包分享
- Java毕业设计教学平台完整教程与源码
- 综合数据集汇总:浏览记录与市场研究分析
- STM32智能家居控制系统:创新设计与无线通讯
- 深入浅出C++20标准:四大新特性解析
- Real-ESRGAN: 开源项目提升图像超分辨率技术
- 植物大战僵尸杂交版v2.0.88:新元素新挑战
- 掌握数据分析核心模型,预测未来不是梦
- Android平台蓝牙HC-06/08模块数据交互技巧
- Python源码分享:计算100至200之间的所有素数
- 免费视频修复利器:Digital Video Repair
- Chrome浏览器新版本Adblock Plus插件发布
- GifSplitter:Linux下GIF转BMP的核心工具
- Vue.js开发教程:全面学习资源指南