VMware上Hadoop环境
安装和配置 Hadoop 环境
下载并安装 VMware Workstation Pro
前往 VMware 官网获取适用于构建虚拟化环境的工作站软件[^1]。
准备 Linux 发行版镜像
选择合适的 Linux 版本作为操作系统基础,建议采用 CentOS 或 Ubuntu Server Edition 进行部署。
创建新的虚拟机实例
通过 VMware Workstation Pro 向导创建一个新的虚拟机,在此过程中指定之前准备好的 Linux ISO 文件用于初始化系统安装。
配置网络连接模式
为了便于后续操作以及集群间的通信,推荐将虚拟机的网络适配器设置为桥接模式(Bridged),从而让每台虚拟机能直接访问局域网资源并与物理主机处于同一子网内[^4]。
上传 JDK 及 Hadoop 压缩包至虚拟机
利用 SCP(Secure Copy Protocol)或其他工具将预先下载好的 Java Development Kit (JDK) 和 Apache Hadoop 的二进制分发版传送到各节点所在的 /software
目录下[^2]。
解压并移动到目标路径
针对已上传成功的压缩文件执行如下命令完成解档工作:
tar -zxvf jdk-8u161-linux-x64.tar.gz -C /opt/
tar -zxvf hadoop-3.2.0.tar.gz -C /opt/module/
上述指令会分别把 JDK 放置于 /opt/jdk1.8.0_161
,而 Hadoop 则会被放置于 /opt/module/hadoop-3.2.0
中。
设置环境变量
编辑 ~/.bashrc
文件加入必要的 PATH 和 JAVA_HOME 参数定义以便全局调用 java 和 hadoop 命令:
export JAVA_HOME=/opt/jdk1.8.0_161
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/opt/module/hadoop-3.2.0
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc
修改核心配置文件
进入 $HADOOP_HOME/etc/hadoop/
目录调整两个主要 XML 格式的配置文档——core-site.xml
和 hdfs-site.xml
来适应当前硬件条件下的最佳性能表现[^3]:
对于 core-site.xml
, 添加如下片段指明 NameNode 地址及其端口号:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
至于 hdfs-site.xml
, 插入下面的内容设定 DataNodes 存储位置以及其他参数:
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/tmp/nn</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/tmp/dn</value>
</property>
</configuration>
以上更改假设存在名为 "master" 的主服务器负责管理命名空间服务;同时假定副本因子被设为三份以增强数据冗余度。实际应用时需依据具体情况进行适当调整。
初始化 HDFS 文件系统
切换到超级用户权限运行格式化 namenode 操作:
sudo su -
cd $HADOOP_HOME
bin/hdfs namenode -format
启动 Hadoop 集群组件
依次启动各个守护进程确保整个分布式框架正常运作:
sbin/start-dfs.sh
sbin/start-yarn.sh
mr-jobhistory-daemon.sh start historyserver
此时应该可以通过浏览器查看 ResourceManager Web UI (http://<ResourceManager>:8088
) 和 NameNode Web UI (http://<NameNode>:50070
) 页面验证是否成功搭建起完整的 Hadoop 平台。
相关推荐


















