CentOS上单机伪分布安装Hadoop详细教程

需积分: 16 42 浏览量更新于2024-09-10 收藏 680KB PDF 举报

"这篇博客详细记录了如何在单台机器上通过虚拟机方式搭建Hadoop的伪分布式环境，包括安装JDK、配置Hadoop、设置SSH免密码登录、修改主机名、配置Hadoop核心参数、启动Hadoop服务，并介绍了如何通过Web界面监控Hadoop运行状态。" 在学习和部署Hadoop的初始阶段，单机伪分布式安装是一种常见的实践方法，它可以在不占用大量硬件资源的情况下，模拟分布式环境进行学习和测试。以下是对该安装过程的详细解析： 1. **前言** 作者使用的是Oracle VM VirtualBox 4.3.10作为虚拟机软件，运行的是64位的CentOS 6.5操作系统，同时选择Hadoop 1.2.1版本和JDK 7u45。 2. **下载并安装JDK** 首先需要确认系统中是否已经安装了JDK，如果有旧版本，需要使用`rpm -e --nodeps`命令进行卸载。然后，通过`rpm -ivh`命令安装下载好的JDK rpm包。 3. **配置Hadoop** - **下载Hadoop**：这里选用的是Hadoop 1.2.1版本，需要将下载后的tar.gz文件解压到合适的目录。 - **设置免密码SSH**：为了方便Hadoop进程间的通信，需要配置SSH无密码登录。这通常通过在所有节点上生成公钥并将其添加到每个节点的authorized_keys文件中来实现。 - **修改主机名**：在Hadoop的配置中，通常会将主机名设置为“master”，以便于后续的配置和理解。 - **配置core-site.xml**：这是Hadoop的核心配置文件，主要设定HDFS的默认FS（FileSystem）为本地文件系统，例如设置`fs.defaultFS`为`hdfs://localhost:9000`。 - **配置MapReduce**：可能还需要配置mapred-site.xml，指定JobTracker运行在本地，例如设置`mapreduce.jobtracker.address`为`localhost:8021`。 - **配置HDFS**：在hdfs-site.xml中，可以设定NameNode的数据存储位置和其他相关参数。 - **格式化NameNode**：首次启动Hadoop时，需要对NameNode进行格式化，以初始化HDFS的元数据。 4. **启动Hadoop** 通过执行Hadoop的启动脚本，如`start-dfs.sh`和`start-yarn.sh`，分别启动HDFS和YARN服务。 5. **监控Hadoop状态** 使用`jps`命令可以查看哪些Hadoop进程正在运行，如NameNode、DataNode、ResourceManager、NodeManager等。另外，可以通过Web界面进一步监控Hadoop的状态： - NameNode的Web UI: `http://localhost:50070`，可以查看HDFS的集群状态、文件系统信息等。 - JobTracker的Web UI: `http://localhost:50030`，在YARN中对应的是Resource Manager的Web UI，可以查看作业和任务的运行状态。 6. **关闭Hadoop** 使用`stop-dfs.sh`和`stop-yarn.sh`停止Hadoop服务，确保所有相关进程都被正确关闭。这个安装笔记是Hadoop初学者的宝贵教程，通过这个过程，读者可以了解Hadoop的基本组件、配置以及启动流程，为进一步深入学习和使用Hadoop打下基础。

jyd30

粉丝: 7
资源: 7

CentOS上单机伪分布安装Hadoop详细教程

传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)

传智播客hadoop资料文档和笔记

hadoop常识讲义+笔记.zip

IT十八掌徐培成HADOOP笔记

hadoop3.1.3学习资料

Hadoop的各种资源文件

尚硅谷大数据技术之Hadoop

Hadoop开发者第一期-带书签文字版.pdf

1大数据之Hadoop.rar_Java编程_Java__Java编程_Java_

hbase学习笔记.doc

最新资源