CDH5安装步骤详解

需积分: 50 17 下载量 150 浏览量 更新于2023-03-16 1 收藏 964KB DOCX 举报
"这是关于在Linux环境中安装Hadoop CDH5的详细步骤,主要涉及规划机器、创建用户、配置SSH无密码访问、设置sudo权限、安装Cloudera Manager以及后续的CDH集群配置和启动服务的过程。" 在安装Hadoop CDH5之前,首先要做一些准备工作。这包括规划好你的服务器集群,确保每台机器的角色明确,例如包含NameNode、DataNode、ResourceManager等组件。接下来,你需要创建一个名为"hadoop"的用户,这个用户将用于管理Hadoop集群。为了方便管理,要配置这个用户可以在所有节点间进行SSH无密码登录,这通常通过ssh-keygen和ssh-copy-id命令来实现。此外,还需要通过编辑visudo文件,赋予hadoop用户sudo权限,以便在必要时执行管理员操作。 安装过程由root用户执行,首先运行二进制安装程序。在安装过程中,需要确认和接受各种许可协议,包括Oracle JDK的安装。安装Cloudera Manager时,它会引导你完成一系列步骤,如选择安装的Cloudera版本(这里选择了Cloudera Express),指定主机,配置存储库,设置Java加密,提供SSH登录凭证,并进行主机正确性检测。在某些情况下,可能需要调整系统参数,例如降低/proc/sys/vm/swappiness值以优化内存使用。 安装完成后,使用创建的admin用户(默认密码为admin)登录Cloudera Manager。在这里,你可以选择要安装的CDH服务组件,如HDFS、YARN、MapReduce2等,并进行数据库设置。测试连接以确保一切正常后,可以开始创建服务。一旦服务创建完成,集群就准备就绪,可以开始使用了。 这个过程涉及到的关键概念有: 1. Hadoop CDH5:是Cloudera公司提供的Hadoop发行版,包含了多个Hadoop相关的开源项目,如HDFS、MapReduce、YARN等。 2. SSH无密码登录:通过SSH密钥对实现,提高安全管理并简化集群操作。 3. sudo权限:允许非root用户执行管理员级别的命令,提升用户体验。 4. Cloudera Manager:用于管理和监控CDH集群的中央管理工具,提供了直观的Web界面。 5. /proc/sys/vm/swappiness:Linux内核参数,控制系统何时使用内存交换到磁盘,值为0可减少不必要的交换操作。 6. 服务选择:根据实际需求,安装Hadoop集群所需的特定服务,如HDFS提供分布式存储,YARN负责任务调度。 通过以上步骤,你将成功部署一个基础的Hadoop CDH5集群,为大数据处理和分析提供了平台基础。后续还可以根据需要进一步配置和优化,例如添加更多节点、调整服务参数,或者集成其他数据处理框架如Spark或Hive。