Hadoop2.x环境搭建:sh文件解析与服务启动

需积分: 45 4 下载量 117 浏览量 更新于2024-08-13 收藏 2.29MB PPT 举报
本文主要介绍了如何在Hadoop环境中浏览.sh文件内容,以及Hadoop2.x的全面学习,包括伪分布式安装步骤和关键组件的功能。首先,理解Hadoop的目录结构非常重要,它通常包含bin(执行脚本)、etc(配置文件)、include(头文件)、lib(库文件)、libexec(可执行脚本)、sbin(系统管理脚本)、share(共享文件)等目录,以及项目许可文件和说明文档。 Hadoop2.x的架构主要包括四个核心模块:Hadoop Common提供基础支持,Hadoop Distributed File System (HDFS) 是一个高可用和高性能的分布式文件系统,Hadoop MapReduce是一个分布式计算框架,而Hadoop YARN则是一个新的资源管理和调度框架,用于替代早期的MapReduce框架。HDFS系统由NameNode(存储元数据)和DataNode(存储实际数据)组成,SecondaryNameNode负责定期备份元数据。YARN架构中,ResourceManager负责资源管理和应用程序调度,NodeManager管理单机资源并执行来自ResourceManager和ApplicationMaster的命令,而ApplicationMaster负责应用程序的执行逻辑和资源分配,Container则是运行任务的抽象容器,封装了CPU、内存和其他资源。 在安装Hadoop2.7.1伪分布式版本时,需要先关闭防火墙,设置IP地址和hosts映射,安装Java Development Kit (JDK),然后安装Hadoop本身,并配置一系列关键配置文件,如hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml。安装前还需要确保防火墙已关闭和SELinux被禁用。 文章详细讲述了Hadoop启动流程,涉及读取环境变量文件和默认及自定义配置文件,最后通过执行sbin下的start-dfs.sh和start-yarn.sh脚本来启动Hadoop服务。这为读者提供了深入理解Hadoop环境搭建和管理的重要步骤。