Hadoop配置与集群启动详解:从hdfs-site.xml到 Namenode/Datanode设置

0 下载量 131 浏览量 更新于2024-06-17 收藏 556KB PPTX 举报
Hadoop演示文稿2主要介绍了如何配置和管理Hadoop分布式文件系统(HDFS)以及MapReduce框架的基本操作步骤。在Hadoop的环境中,配置是至关重要的,以下是一些关键的配置和操作指导: 1. 配置环境变量: 首先,需要在`hadoop-env.sh`文件中设置Java的安装路径,以便Hadoop能正确识别: ``` export JAVA_HOME=/opt/module/jdk1.8.0_202 ``` 这确保了Hadoop能够使用指定版本的Java运行。 2. 核心配置(core-site.xml): - `<property>`标签定义了HDFS的主要配置项,如NameNode地址,这里设置为`fs.defaultFS`,值为`hdfs://hadoop301:9000`,这是Hadoop客户端访问HDFS的默认路径。 - 另一个配置是`hadoop.tmp.dir`,指定Hadoop在运行过程中临时文件的存储位置,这里是`/opt/module/hadoop-3.1.3/data/tmp`。 3. HDFS配置(hdfs-site.xml): - `dfs.replication`属性设置了HDFS中每个块的副本数量,这里设为1,意味着数据只有一个副本,可能会增加数据丢失的风险。实际应用中通常设置多个副本以提高容错性。 4. 启动HDFS集群: - 首次启动时,需要格式化NameNode:`bin/hdfs namenode -format` - 启动NameNode和DataNode服务:`hdfs-daemon start namenode` 和 `hdfs-daemon start datanode` - 检查进程是否启动:使用`jps`命令查看Hadoop相关的Java进程 - 查看日志:进入logs目录并检查日志文件,确认集群运行正常 - 网络访问:通过Web UI访问HDFS,地址为`http://192.168.1.101:9870` 5. 防火墙管理: - 如果无法访问Web UI,可能需要关闭防火墙,通过`systemctl status firewalld`检查状态,然后执行`systemctl stop firewalld`和`systemctl disable firewalld.service`来禁用防火墙。 6. 创建文件夹和上传文件: - 在HDFS文件系统上创建目录:`bin/hdfs dfs -mkdir -p user/ctt/mapreduce/wordcount/input` - 将本地文件上传到HDFS:`bin/hdfs dfs -put wc.input /user/ctt/mapreduce/wordcount/input` 此外,文档还提到了如果遇到问题,可以参考链接`http://www.cnblogs.com/zlslch/p/6604189.html`中的解决方案,以及使用`bin/hdfs dfsadmin safemode leave`来退出安全模式。 整个过程涉及到了Hadoop的安装、配置、基本操作以及故障排查,这对于理解和使用Hadoop生态系统至关重要。