Hadoop2.7.1伪分布式安装全攻略:环境配置与HDFS Shell

需积分: 45 4 下载量 83 浏览量 更新于2024-08-13 收藏 2.29MB PPT 举报
"本文主要介绍了如何在本地环境中搭建Hadoop的伪分布式环境,包括关键步骤、涉及的配置文件以及Hadoop的主要组件和架构。" 在Hadoop生态系统中,伪分布式模式是一个常用的学习和测试环境,它在一个单一节点上模拟分布式环境,集成了所有Hadoop服务。以下是安装伪分布式流程的详细步骤和相关知识点: 1. **关闭防火墙和禁用SELinux**:这是为了确保节点间的通信不受限制,避免防火墙或安全策略阻止Hadoop服务之间的交互。 2. **设置IP地址**:确保主机有一个清晰的IP地址,以便于集群内的通信。在多节点环境中,每个节点都需要有唯一的网络标识。 3. **配置hosts文件**:在`/etc/hosts`文件中添加主机名和IP地址的映射,这样Hadoop服务在寻找其他组件时可以通过主机名快速定位。 4. **安装JDK**:Hadoop依赖Java运行环境,因此需要先安装JDK。配置好`JAVA_HOME`环境变量,使得Hadoop可以找到Java运行时。 5. **安装Hadoop**:下载Hadoop二进制包,将其解压到指定目录,通常为 `/usr/local/hadoop` 或自定义路径。 6. **配置Hadoop**:配置文件位于 `HADOOP_HOME/etc/hadoop` 目录下,包括: - **hadoop-env.sh**:设置Hadoop相关环境变量,如`HADOOP_OPTS`用于添加JVM参数,`HADOOP_HOME`指向Hadoop安装目录。 - **core-site.xml**:定义Hadoop的基本配置,如默认的文件系统、命名空间和I/O设置。 - **hdfs-site.xml**:HDFS的相关配置,如副本数量、块大小等。 - **mapred-site.xml**:MapReduce的配置,如JobTracker/ResourceManager地址。 - **yarn-site.xml**:YARN相关的配置,包括ResourceManager和NodeManager的设置。 Hadoop2.x的核心组件包括: - **Hadoop Common**:提供公共服务,如网络通信、I/O和安全支持。 - **Hadoop Distributed File System (HDFS)**:是一个高度容错性的系统,适合部署在廉价硬件上。NameNode负责元数据管理,DataNode存储实际数据,Secondary NameNode则辅助NameNode进行元数据备份。 - **Hadoop MapReduce**:处理大规模数据的并行计算框架,分为两个阶段:Map阶段和Reduce阶段。 - **Hadoop YARN**:下一代MapReduce框架,分离了资源管理和作业调度,由ResourceManager全局调度资源,NodeManager管理节点资源,ApplicationMaster负责任务调度和监控。 YARN架构中的角色: - **ResourceManager**:全局资源调度中心,接收客户端请求,管理ApplicationMaster和NodeManager。 - **NodeManager**:每个节点的管理者,执行Container的启动和监控。 - **ApplicationMaster**:应用程序的管理者,负责数据切分、申请资源、任务调度和容错。 - **Container**:执行任务的资源容器,包含CPU、内存等资源和运行环境。 在完成以上步骤后,启动Hadoop服务,使用HDFS Shell命令进行操作,例如`hadoop fs -ls`查看文件系统,`hadoop fs -put`上传文件,`hadoop fs -get`下载文件等。 安装Hadoop伪分布式环境需要仔细配置各个组件,理解其工作原理,这为深入学习和应用Hadoop奠定了基础。