Centos7中Vmware Spark虚拟机配置详解及Java、Hadoop、YARN设置

需积分: 0 6 下载量 19 浏览量 更新于2024-06-30 1 收藏 2.18MB DOCX 举报
在Vmware的Centos7环境中配置Spark虚拟机,需要按照特定步骤进行操作。首先,确保以root用户身份登录,因为后续的安装和配置过程会涉及系统权限。以下是详细步骤: 1. **修改主机名**:为了提高识别性,首先更改虚拟机的主机名,可以通过`hostnamectl set-hostname 新的主机名`来实现。 2. **免密登录**:为了方便日常管理,需要设置SSH无密码登录,编辑`~/.ssh/authorized_keys`文件,添加公钥,或者使用`visudo`命令增加`root`用户的SSH免密登录权限。 3. **创建文件目录**:创建必要的文件夹,如`~/software`用于存放软件包,`~/app`用于安装Java和Hadoop。 4. **Java环境管理**:由于Centos7默认自带JDK1.8,但可能需要更高版本或特定版本,需要先卸载自带的`yum remove java-1.8.0-openjdk*`,然后解压并安装自定义的JDK到`~/app`,例如`tar -zvxf jdk-8u231-linux-x64.tar.gz -C ~/app`。接下来,设置JAVA_HOME环境变量指向新安装的JDK。 5. **安装Hadoop**:从source或预编译的包中下载Hadoop,解压到指定目录,修改`hadoop-env.sh`文件,移除原有JAVA_HOME引用,添加本地路径。同时,修改`core-site.xml`和`hadoop-site.xml`配置文件以适应环境。 6. **配置环境变量与DFS**:配置Hadoop环境变量,确保Hadoop和YARN能够正确找到Java库。通过`hadoop namenode -format`格式化HDFS文件系统,并启动Hadoop和YARN集群。 7. **防火墙管理**:关闭防火墙服务,如`systemctl stop firewalld.service`,以确保端口访问畅通。若需永久关闭,可以使用`systemctl disable firewalld.service`。 8. **YARN配置**:复制`mapred-site.xml`模板并修改为`yarn-site.xml`,配置YARN的资源管理和调度参数。 9. **启动YARN和测试**:启动YARN服务,可以通过命令`start-yarn.sh`。然后,通过Web界面查看状态,如通过`http://IP:8088`访问。测试YARN功能,比如运行Hadoop MapReduce例子。 10. **解决警告问题**:在Hadoop环境中,可能会遇到关于`NativeCodeLoader`的警告,这是因为在64位系统上Hadoop依赖的本地库文件是针对32位编译的。为解决此问题,在`hadoop-env.sh`和`yarn-env.sh`中添加指定的环境变量,以及在`log4j.properties`中设置日志级别为ERROR,以忽略这些警告。 通过以上步骤,您可以在Vmware的Centos7虚拟机上成功配置Spark环境,并进行相关数据处理和分析任务。务必根据实际情况调整和优化配置,以满足您的具体需求。