Hadoop完全分布式环境搭建:脚本与配置详解

需积分: 0 2 下载量 133 浏览量 更新于2024-08-05 收藏 347KB PDF 举报
在Hadoop完全分布式环境搭建过程中,我们主要关注以下几个关键知识点: 1. **Hadoop的组成部分**: Hadoop分布式系统主要包括两个核心组件:Hadoop Distributed File System (HDFS) 和 YARN (Yet Another Resource Negotiator)。HDFS是分布式文件系统,由NameNode和DataNode组成,NameNode作为元数据存储节点,负责管理文件系统的命名空间和块分配,而DataNode则是数据实际存储节点。YARN则负责资源管理和任务调度,包含ResourceManager和NodeManager,前者协调整个集群的资源分配,后者负责管理单个计算节点的资源。 2. **脚本分发文件**: 通过编写bash脚本,可以实现高效地在多台主机(如master1、slave1和slave2)之间分发文件或文件夹。使用rsync命令配合循环结构,根据命令行参数(如文件名和主机名)执行同步操作,确保文件一致性。 3. **集群规划**: 集群规划的关键在于理解每个节点的角色和配置。在脚本中,首先检查命令行参数数量,然后获取文件名和上级目录的绝对路径,接着使用rsync命令将文件或文件夹复制到指定的slave主机。同时,需要注意主机的名称应与集群中的实际主机名匹配。 4. **配置文件**: 在Hadoop 2.7.2版本中,配置文件位于`/etc/hadoop`目录下,其中重要的配置项包括: - `core-site.xml`:设置通用的Hadoop配置,如`fs.defaultFS`属性,用于指定默认的文件系统,如`hdfs://hadoop102:9000`,表示NameNode的地址。 - `hdfs-site.xml`:HDFS特定配置,如存储路径和副本策略等。 - `yarn-env.sh` 和 `yarn-site.xml`:YARN环境变量和配置,涉及资源管理和作业调度。 5. **高级概念**: - **SecondaryNameNode**:是HDFS的辅助元数据存储节点,定期与NameNode进行交互,帮助维护数据一致性。 - **NodeManager和ResourceManager的职责**:NodeManager负责管理单个节点上的应用程序容器,而ResourceManager则是全局的资源调度中心,协调作业提交、运行和监控。 6. **自我提升理念**: 提到的"优于别人,并不高贵,真正的高贵应该是优于过去的自己",这句话强调了个人成长的重要性,暗示在Hadoop环境下的学习和提升不应仅限于追赶他人,而是要不断优化自己的技能和知识结构。 Hadoop完全分布式环境的搭建包括配置文件管理、节点角色理解、脚本编写以及集群的运行机制。理解并熟练运用这些知识,有助于构建健壮、高效的Hadoop集群。