Hadoop配置与集群启动详解:关键步骤与示例

0 下载量 144 浏览量 更新于2024-06-17 收藏 334KB PPTX 举报
本篇文档是关于Hadoop演示文稿,主要涉及了Hadoop配置与管理的详细步骤。首先,文档强调了对Hadoop环境变量的设置,特别是`hadoop-env.sh`文件,其中定义了JAVA_HOME路径,这对于Hadoop运行时环境至关重要。JAVA_HOME的值被设置为`/opt/module/jdk1.8.0_202`,确保了正确版本的Java环境被Hadoop所用。 接下来,核心配置文件`core-site.xml`中的两个关键配置被介绍: 1. `<property>`标签下的`fs.defaultFS`属性设置了HDFS NameNode的地址,这里设定为`hdfs://hadoop301:9000`,表示Hadoop集群的数据访问默认通过该NameNode进行。 2. `hadoop.tmp.dir`属性定义了Hadoop运行时临时文件的存储位置,设置为`/opt/module/hadoop-3.1.3/data/tmp`,用于存储作业执行过程中的临时文件。 `hdfs-site.xml`的配置展示了如何设置HDFS副本数量,通过`dfs.replication`属性,将默认的副本数量设置为1,这可能会影响数据冗余和容错性。 文档还介绍了如何初始化和启动HDFS集群的步骤: - 首次启动时,需要格式化NameNode,使用命令`bin/hdfsnamenode –format`。 - 启动NameNode和Datanode服务分别使用`hdfs--daemonstartnamenode`和`hdfs--daemonstartdatanode`。 - 通过`jps`命令检查进程以确认服务是否运行正常,同时,查看日志文件有助于诊断问题,日志文件位于`/opt/module/hadoop-2.7.2/logs`目录下。 - HDFS的Web界面可以通过`http://192.168.1.101:9870`访问,若无法打开,可以参考提供的博客链接解决可能的配置问题,并确保防火墙已关闭。 最后,文档演示了在HDFS文件系统上操作的基本步骤: - 创建一个名为`input`的文件夹,使用`bin/hdfs dfs -mkdir -p user/ctt/mapreduce/wordcount/input`。 - 将测试文件内容上传至这个文件夹,使用`bin/hdfs dfs -put wc.input/user/`。 通过以上内容,读者可以了解如何配置、初始化和管理Hadoop集群,以及基本的文件系统操作,这对于理解和使用Hadoop技术非常有帮助。