在vm虚拟机中搭建Hadoop和hive

### 安装和配置Hadoop #### 准备工作为了在VM虚拟机环境中成功安装和配置Hadoop，需确保操作系统已准备好。对于本案例中的`hadoop2`主机为例，建议使用CentOS 7作为基础操作系统[^1]。 #### 下载与解压Hadoop 下载适合版本的Hadoop压缩包至本地计算机，并将其传输到目标虚拟机中。之后通过SSH登录到该虚拟机并进入文件所在路径执行如下命令来解压： ```bash tar -zxvf hadoop-x.x.x.tar.gz -C /usr/local/ ``` 这里假设将Hadoop放置于`/usr/local/`目录下；其中`x.x.x`代表具体版本号，请替换为实际数值。 #### 设置环境变量编辑全局环境变量文件使系统能够识别Hadoop命令。这可以通过修改`/etc/profile`实现: ```bash vim /etc/profile ``` 向文件末尾追加以下内容以便设置必要的环境变量： ```bash export HADOOP_HOME=/usr/local/hadoop-x.x.x export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` 保存更改后运行下面这条指令让新的环境变量生效： ```bash source /etc/profile ``` #### 修改Hadoop配置文件接下来要调整几个重要的XML配置文件以适应集群需求。这些文件位于`${HADOOP_HOME}/etc/hadoop/`目录内。主要涉及的是`core-site.xml`, `hdfs-site.xml`, 和 `yarn-site.xml`. ##### core-site.xml 定义NameNode地址以及默认FS URI等基本信息： ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://namenode:9000</value> </property> </configuration> ``` ##### hdfs-site.xml 指定DataNodes存储数据的位置以及其他参数： ```xml <configuration> <property> <name>dfs.replication</name> <value>3</value> </property>  </configuration> ``` ##### yarn-site.xml 用于YARN框架的相关设定： ```xml <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>resourcemanager-hostname</value> </property>  </configuration> ``` 完成上述操作后重启所有服务使得新配置被加载应用。 --- ### 安装和配置Hive #### 安装MySQL数据库由于Derby数据库无法满足多客户端并发访问的要求，因此推荐采用更强大的关系型数据库管理系统——MySQL作为元数据仓库。按照官方文档或其他可靠资源指导完成MySQL服务器端软件包的安装过程[^2]。 #### 解压Hive分发版获取最新稳定发行版并将之上传到Master节点上的某个位置（比如`/usr/hive-4.0.1/`)。接着利用Linux tar工具解开归档文件： ```bash tar -xzvf apache-hive-x.y.z-bin.tar.gz -C /usr/ ``` 同样地，记得更新`.bashrc`或相应shell初始化脚本来包含Hive相关的环境变量声明： ```bash export HIVE_HOME=/usr/apache-hive-x.y.z-bin export PATH=$PATH:$HIVE_HOME/bin ``` 再次调用`souce ~/.bashrc`刷新当前会话内的可用命令列表。 #### 初始化Metastore Schema 首次启动之前应当创建好所需的表结构。切换到Hive根目录并通过JDBC连接器指向外部RDBMS实例执行DDL语句集： ```sql schematool -dbType mysql -initSchema ``` 此命令将会读取内置SQL模板并在远程MySQL Server里构建起完整的模式架构。 #### 编辑hive-site.xml 最后一步就是定制化核心选项集合了。打开`${HIVE_HOME}/conf/hive-site.xml`进行必要项填写，特别是关于JDBC URL、用户名密码等方面的信息： ```xml <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/metastore?createDatabaseIfNotExist=true&useSSL=false</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.cj.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>your_username</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>your_password</value> </property> </configuration> ``` 至此整个流程结束，现在应该可以在分布式计算平台上顺利运行MapReduce作业并且借助HiveQL查询分析大规模半结构化乃至非结构化的海量资料啦！

阅读全文

在vm虚拟机中搭建Hadoop和hive

相关推荐

Mac上搭建Hadoop与Hive环境指南

Centos上搭建Hadoop+Hive+HBase环境教程

Ubuntu环境下Hadoop+Hive集群详细搭建教程

Hadoop+Hive集群搭建步骤

从VMware中安装CentOS到Hadoop集群+ Hive+ MySQL搭建

Hadoop操作手册

5分钟搭建大数据学习环境.docx

vm安装高可以spark集群.rar

VM+CentaOS搭建Hadoop2.7分布式集群：实战指南

Hadoop课程设计：好友推荐系统与CentOS环境搭建教程

FusionManager在BOSS系统中的网络部署与功能规划

【Python云端并行计算实践】：AWS和Azure大规模计算解决方案

树莓派全攻略：安装 JDK、Hadoop 和 Hive

Hadoop与Hive在大数据分析中的应用实践

白色简洁风格的软件UI界面后台管理系统模板.zip

自动软包电芯极耳短路测试精切一体机sw17可编辑全套技术资料100%好用.zip

RuntimeException如何解决.md

云链客服需要注意的事项

白色简洁风格的室内设计案例源码下载.rar

(177373454)html+css+js学习代码.zip

大家在看

ORACLE_EBS用户 职责 菜单 预置文件

地图分幅制作生产方法

surfer教程

和利时macs3手册

多變異圖的概念-minitab的PPT简易教程

最新推荐

win10下搭建Hadoop环境（jdk+mysql+hadoop+scala+hive+spark） 3.docx

基于Hadoop的数据仓库Hive学习指南.doc

详解搭建ubuntu版hadoop集群

Hadoop在两台Ubuntu的VM虚拟机的集群配置

VM虚拟机下配Eclipse+JDK+Tomcat+Hadoop环境搭建

掌握HTML/CSS/JS和Node.js的Web应用开发实践

管理建模和仿真的文件

计算机体系结构概述：基础概念与发展趋势

int a[][3]={{1,2},{4}}输出这个数组

勒玛算法研讨会项目：在线商店模拟与Qt界面实现

ORACLE_EBS用户职责菜单预置文件