CentOS上单机伪分布安装Hadoop详细教程

需积分: 16 0 下载量 152 浏览量 更新于2024-09-10 收藏 680KB PDF 举报
"这篇博客详细记录了如何在单台机器上通过虚拟机方式搭建Hadoop的伪分布式环境,包括安装JDK、配置Hadoop、设置SSH免密码登录、修改主机名、配置Hadoop核心参数、启动Hadoop服务,并介绍了如何通过Web界面监控Hadoop运行状态。" 在学习和部署Hadoop的初始阶段,单机伪分布式安装是一种常见的实践方法,它可以在不占用大量硬件资源的情况下,模拟分布式环境进行学习和测试。以下是对该安装过程的详细解析: 1. **前言** 作者使用的是Oracle VM VirtualBox 4.3.10作为虚拟机软件,运行的是64位的CentOS 6.5操作系统,同时选择Hadoop 1.2.1版本和JDK 7u45。 2. **下载并安装JDK** 首先需要确认系统中是否已经安装了JDK,如果有旧版本,需要使用`rpm -e --nodeps`命令进行卸载。然后,通过`rpm -ivh`命令安装下载好的JDK rpm包。 3. **配置Hadoop** - **下载Hadoop**:这里选用的是Hadoop 1.2.1版本,需要将下载后的tar.gz文件解压到合适的目录。 - **设置免密码SSH**:为了方便Hadoop进程间的通信,需要配置SSH无密码登录。这通常通过在所有节点上生成公钥并将其添加到每个节点的authorized_keys文件中来实现。 - **修改主机名**:在Hadoop的配置中,通常会将主机名设置为“master”,以便于后续的配置和理解。 - **配置core-site.xml**:这是Hadoop的核心配置文件,主要设定HDFS的默认FS(FileSystem)为本地文件系统,例如设置`fs.defaultFS`为`hdfs://localhost:9000`。 - **配置MapReduce**:可能还需要配置mapred-site.xml,指定JobTracker运行在本地,例如设置`mapreduce.jobtracker.address`为`localhost:8021`。 - **配置HDFS**:在hdfs-site.xml中,可以设定NameNode的数据存储位置和其他相关参数。 - **格式化NameNode**:首次启动Hadoop时,需要对NameNode进行格式化,以初始化HDFS的元数据。 4. **启动Hadoop** 通过执行Hadoop的启动脚本,如`start-dfs.sh`和`start-yarn.sh`,分别启动HDFS和YARN服务。 5. **监控Hadoop状态** 使用`jps`命令可以查看哪些Hadoop进程正在运行,如NameNode、DataNode、ResourceManager、NodeManager等。另外,可以通过Web界面进一步监控Hadoop的状态: - NameNode的Web UI: `http://localhost:50070`,可以查看HDFS的集群状态、文件系统信息等。 - JobTracker的Web UI: `http://localhost:50030`,在YARN中对应的是Resource Manager的Web UI,可以查看作业和任务的运行状态。 6. **关闭Hadoop** 使用`stop-dfs.sh`和`stop-yarn.sh`停止Hadoop服务,确保所有相关进程都被正确关闭。 这个安装笔记是Hadoop初学者的宝贵教程,通过这个过程,读者可以了解Hadoop的基本组件、配置以及启动流程,为进一步深入学习和使用Hadoop打下基础。