Hadoop 0.21.0安装配置及Wordcount实战教程

需积分: 11 7 下载量 85 浏览量 更新于2024-09-11 收藏 68KB DOC 举报
本文档详细介绍了Hadoop的安装与配置过程,以及一个典型的示例程序Wordcount的运行步骤。作者针对最新发布的Hadoop 0.21.0版本进行讲解,适用于Fedora操作系统,且涉及到3台机器:一台作为NameNode和JobTracker(hzau01),其余两台作为DataNode和TaskTracker(hzau02和hzau03)。以下是关键知识点的详细说明: 1. **机器配置**: - 操作系统:所有机器使用的是Linux 2.6.33.3-85.fc13.i686.PAE - JDK版本:推荐使用JDK 1.6.0_23,因为文档中提到的Hadoop版本支持此版本 - Hadoop版本:本文使用的是Hadoop 0.21.0 2. **基础操作**: - 确保机器间的通信正常:通过`ping`命令检查网络连通性。 - SSH服务设置:Fedora默认开启sshd服务,可通过`service sshd status`检查。 - 关闭防火墙:因为Hadoop需要开放特定端口,所以需要关闭NameNode和DataNode上的防火墙。 3. **Hadoop安装与配置**: - 安装步骤统一进行,首先确保JDK的正确安装。 - 分别配置`conf/core-site.xml`、`conf/hdfs-site.xml`和`conf/mapred-site.xml`三个核心配置文件,以适应Hadoop的运行需求。 - 将Hadoop配置复制到DataNode机器上,可通过scp或硬盘备份。 - 名称节点(NameNode)配置:在`masters`和`slaves`配置文件中添加机器列表,以定义集群结构。 4. **启动与验证**: - 格式化HDFS文件系统,这是首次启动Hadoop时的必要步骤。 - 启动Hadoop集群,包括NameNode、DataNode、JobTracker和TaskTracker。 - 使用`jps`命令检查各进程是否正确启动,确认NameNode的角色。 - 查看集群状态,确保各个组件运行正常。 5. **Wordcount示例**: - 在本地创建文件`f1`和`f2`,作为输入数据。 - 在HDFS上创建`input`目录,并将文件上传。 - 检查HDFS上文件的存在,确保输入目录准备就绪。 - 执行Wordcount程序,前提是没有`output`目录,输出结果将被写入到HDFS中。 - 运行完成后,检查结果以确认Wordcount的正确运行。 6. **注意事项**: - 文档是作者的学习笔记,可能存在错误或不完善之处,读者在参考时请结合官方文档和实际操作进行修正。 - 使用的是最新版本的Hadoop命令,以便于后续学习和实践。 通过以上步骤,读者可以了解到如何安装、配置和运行Hadoop及其Wordcount示例,这对于理解和应用Hadoop分布式计算框架具有重要的指导价值。