没有合适的资源?快使用搜索试试~ 我知道了~
首页8.Hadoop入门进阶课程_第8周_Hive介绍和安装部署.pdf
资源详情
资源评论
资源推荐
第 1 页 共 18 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
Hive 介绍和安装部署
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明
显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan 。
该系列课程是应邀实验楼整理编写的,这里需要赞一下实验楼提供了学习的新方式,可以边看博
客边上机实验,课程地址为
【注】该系列所使用到安装包、测试数据和代码均可在百度网盘下载,具体地址为
http://pan.baidu.com/s/10PnDs,下载该
https://www.shiyanlou.com/courses/237
PDF 文件
1 搭建环境
部署节点操作系统为 CentOS,防火墙和 SElinux 禁用,创建了一个 shiyanlou 用户并在系
统根目录下创建/app 目录,用于存放 Hadoop 等组件运行包。因为该目录用于安装 hadoop
等组件程序,用户对 shiyanlou 必须赋予 rwx 权限(一般做法是 root 用户在根目录下创建/app
目录,并修改该目录拥有者为 shiyanlou(chown –R shiyanlou:shiyanlou /app)。
Hadoop 搭建环境:
虚拟机操作系统: CentOS6.6 64 位,单核,1G 内存
JDK:1.7.0_55 64 位
Hadoop:1.1.2
2 Hive 介绍
Hive 是 Facebook 开发的构建于 Hadoop 集群之上的数据仓库应用,它提供了类似于 SQL
语法的 HQL 语句作为数据访问接口,这使得普通分析人员的应用 Hadoop 的学习曲线变小,
Hive 有如下特性:
Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据
库表,并使用 sql 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以
通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应
用,十分适合数据仓库的统计分析;
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进
行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大
第 2 页 共 18 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL
的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的
Mapper 和 Reducer 来处理内建的 Mapper 和 Reducer 无法完成的复杂的分析工
作。
2.1 Hive 与关系数据库的区别
使用 Hive 的命令行接口很像操作关系数据库,但是 Hive 和关系数据库还是有很大的不同,
Hive 与关系数据库的区别具体如下:
1. Hive 和关系数据库存储文件的系统不同,Hive 使用的是 Hadoop 的 HDFS(Hadoop 的分
布式文件系统),关系数据库则是服务器本地的文件系统;
2. Hive 使用的计算模型是 Mapreduce,而关系数据库则是自身的计算模型;
3. 关系数据库都是为实时查询的业务进行设计的,而 Hive 则是为海量数据做数据挖掘设计的,
实时性很差;实时性的区别导致 Hive 的应用场景和关系数据库有很大的不同;
4. Hive 很容易扩展自己的存储能力和计算能力,这个是继承 Hadoop 的,而关系数据库在这
个方面要比数据库差很多。
第 3 页 共 18 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
2.2 Hive 架构
由上图可知,Hadoop 的 mapreduce 是 Hive 架构的根基。Hive 架构包括如下组件:CLI
(command line interface)、 JDBC/ODBC、 Thrift Server、WEB GUI、metastore 和
Driver(Complier、Optimizer 和 Executor),这些组件分为两大类:服务端组件和客户端组件。
服务端组件:
Driver 组件:该组件包括 Complier、Optimizer 和 Executor,它的作用是将 HiveQL(类
SQL)语句进行解析、编译优化,生成执行计划,然后调用底层的 mapreduce 计算框架;
Metastore 组件:元数据服务组件,这个组件存储 Hive 的元数据,Hive 的元数据存储在
关系数据库里,Hive 支持的关系数据库有 derby 和 mysql。元数据对于 Hive 十分重要,
因此 Hive 支持把 metastore 服务独立出来,安装到远程的服务器集群里,从而解耦 Hive
服务和 metastore 服务,保证 Hive 运行的健壮性;
Thrift 服务:thrift 是 facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服
务的开发,Hive 集成了该服务,能让不同的编程语言调用 hive 的接口。
客户端组件:
第 4 页 共 18 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
CLI:command line interface,命令行接口。
Thrift 客户端:上面的架构图里没有写上 Thrift 客户端,但是 Hive 架构的许多客户端接
口是建立在 thrift 客户端之上,包括 JDBC 和 ODBC 接口。
WEBGUI:Hive 客户端提供了一种通过网页的方式访问 hive 所提供的服务。这个接口对
应 Hive 的 hwi 组件(hive web interface),使用前要启动 hwi 服务。
3 搭建 Hive 环境
3.1 安装 MySql 数据库
3.1.1 下载 mysql 安装文件
下载地址:http://dev.mysql.com/downloads/mysql/#downloads ,使用系统为CentOS选
择 Red Hat Enterprise Linux/Oracle系列,也可以在/home/shiyanlou/install-pack目录中找
到这些安装包:
操作系统为 64 位,选择对应安装包进行下载:
下载在本地目录如下图:
剩余17页未读,继续阅读
ansoncloud
- 粉丝: 5
- 资源: 31
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0