Hadoop之Hive数据仓库详解

需积分: 9 108 浏览量更新于2024-07-21 收藏 313KB DOCX 举报

“Hive学习笔记介绍了Hive作为基于Hadoop的数据仓库框架，提供了数据ETL工具和类SQL查询语言HQL，用于大规模数据分析。Hive的结构包括用户接口、元数据存储、解释器、编译器、优化器和执行器，以及依赖于Hadoop的存储和计算。用户接口主要包括CLI、Client和WUI，元数据通常存储在MySQL或Derby等关系数据库中。查询过程涉及解析器、语法分析器和逻辑计划生成器等步骤。” 在深入探讨Hive的知识点之前，首先理解Hive的核心概念是非常重要的。Hive作为一个数据仓库工具，其主要设计目标是为了简化对分布式存储的大规模数据集的查询和分析，尤其适合非结构化或半结构化的数据。Hive构建在Hadoop之上，利用HDFS进行数据存储，并通过MapReduce进行计算。 **Hive的主要组件及功能：** 1. **用户接口**：CLI（命令行接口）是最常用的交互方式，用户可以直接输入HQL查询；Client模式下，用户可以通过客户端连接到HiveServer；WUI（Web用户界面）允许用户通过浏览器访问Hive，进行可视化操作。 2. **元数据存储**：元数据包括表的信息，如表名、列名、分区信息、表的属性等，通常存储在独立的数据库系统如MySQL或Derby中，以便管理。 3. **解释器、编译器、优化器和执行器**：这些组件共同负责HQL查询的处理。解释器将查询语句解析为抽象语法树；语法分析器生成内部查询块并进行类型检查；逻辑计划生成器将这些查询块转化为操作符树，然后优化器对查询计划进行优化，以提高执行效率；最后，执行器将优化后的计划转化为MapReduce任务在Hadoop集群上运行。 **查询处理流程：** 1. **解析器**：解析器接收用户的HQL语句，将其转换为抽象语法树（AST）。AST是一种表示查询结构的数据结构，便于后续处理。 2. **语法分析器**：语法分析器对AST进行处理，生成内部查询块QueryBlock，同时进行列名验证、类型检查和隐式类型转换。对于分区表，会收集相关信息以减少不必要的分区扫描；对于采样操作，也会记录相关信息。 3. **逻辑计划生成器**：生成逻辑操作符树，这代表了查询的逻辑执行顺序。在此阶段，查询的结构被转化为可执行的形式。 4. **优化器**：对逻辑计划进行优化，例如选择最佳的join策略、减少数据扫描量、应用统计信息等，以提高查询性能。 5. **执行器**：将优化后的逻辑计划转化为物理操作，如MapReduce任务，这些任务在Hadoop集群上运行，处理实际的数据。除了上述基本组件，Hive还支持多种特性，如视图、分区、桶、索引、UDF（用户自定义函数）等，以增强其功能和灵活性。Hive的这些特性使得大数据分析变得更加便捷，尤其对于那些习惯于SQL语法的用户来说，Hive提供了一个熟悉的入口去探索和分析海量数据。

查询语言

 

数据存储

"#

*  "    

#

索引无有

执行





)

执行延迟高低

处理数据规模大小

$- 查询语言。由于 被广泛的应用在数据仓库中，因此，专门针对 的特性设计

了类 的查询语言 。熟悉 开发的开发者可以很方便的使用 进行开

发。

%- 数据存储位置。是建立在 之上的，所有 的数据都是存储在

"#中的。而数据库则可以将数据保存在块设备或者本地文件系统中。

&- 数据格式。中没有定义专门的数据格式，数据格式可以由用户指定，用户定义数

据格式需要指定三个属性：列分隔符（通常为空格、”LM、”L)@@$N）、行分隔符（”L

M）以及读取文件数据的方法（中默认有三个文件格式

)#， #以及 #）。由于在加载数据的过程中，不需要从用户

数据格式到 定义的数据格式的转换，因此，在加载的过程中不会对数据本

身进行任何修改，而只是将数据内容复制或者移动到相应的 "#目录中。而在数据

库中，不同的数据库有不同的存储引擎，定义了自己的数据格式。所有数据都会按照

一定的组织存储，因此，数据库加载数据的过程会比较耗时。

I- 数据更新。由于 是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。

因此，中不支持对数据的改写和添加，所有的数据都是在加载的时候中确定好的。

而数据库中的数据通常是需要经常进行修改的，因此可以使用 22/---:

C+添加数据，使用 <"+---修改数据。

E- 索引。之前已经说过，在加载数据的过程中不会对数据进行任何处理，甚至不会

对数据进行扫描，因此也没有对数据中的某些 7建立索引。要访问数据中满

足条件的特定值时，需要暴力扫描整个数据，因此访问延迟较高。由于 

的引入， 可以并行访问数据，因此即使没有索引，对于大数据量的访问，

仍然可以体现出优势。数据库中，通常会针对一个或者几个列建立索引，因此对于少

量的特定条件的数据的访问，数据库可以有很高的效率，较低的延迟。由于数据的访

问延迟较高，决定了 不适合在线数据查询。

O- 执行。中大多数查询的执行是通过 提供的 来实现的（类

似 J.!的查询不需要 ）。而数据库通常有自己的执行引

擎。

P- 执行延迟。之前提到，在查询数据的时候，由于没有索引，需要扫描整个表，因

此延迟较高。另外一个导致 执行延迟高的因素是 框架。由于

本身具有较高的延迟，因此在利用 执行 查询时，也

会有较高的延迟。相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数



据规模较小，当数据规模大到超过数据库的处理能力的时候，的并行计算显然能

体现出优势。

K- 可扩展性。由于 是建立在 之上的，因此 的可扩展性是和

的可扩展性是一致的（世界上最大的 集群在 8'Q，%@@R 年的

规模在 I@@@台节点左右）。而数据库由于 +"语义的严格限制，扩展行非常有限。

目前最先进的并行数据库 /在理论上的扩展能力也只有 $@@台左右。

R- 数据规模。由于 建立在集群上并可以利用 进行并行计算，因此可

以支持很大规模的数据；对应的，数据库可以支持的数据规模较小。

1.4HIVE 元数据库

将元数据存储在 ",中一般常用的有 8 和 ",8。

1.4.1 DERBY

启动 C 的元数据库

进入到 ' 的安装目录

Eg:

$、启动 ! 数据库

S'SSS'S!SS

运行 2*0?'@-@-@-@

%、连接 "! 数据库进行测试

查看S'SSS'S!SS.S'?.-)。

找到T(

T(U)-U--TS(

   T(U!!SS'$$E%PS;!64TS

(

T(1",>.1",TS(

TS(

进入 ! 安装目录

S'SSS'S!SS!?!?$@-I-$-&?!S!

输入-SU

VU!!SS'$$E%PS;!64V6

&、元数据库数据字典

表名说明关联键

,72=;

/

 表 ",8 字段信息3字段名，字段序

-M，>!7

M8



号5

/2;C%

 表字段信息3字段注释，字段名，字段类型，字段

序号5

";"

",

元数据库信息，保存 "# 中存放 ' 表的路径

",;"

<+/2;7

8

 分区表分区键

,;"

"

所有 ' 表、表分区所对应的 '. 数据目录和数据

格式。

";"";"

";<++

序列化反序列化信息，如行分隔符、列分隔符、2

的表示字符等

";"

2;

+,

保存了 ( 对象的下一个可用 ，

如’)(((&%&=!NB//，则

下一个新创建的 ( 表其 !.M 就是 //，同时

-A:>'M! . 表中 // 被更新为 //?这里每次都是

L 而不是预料中的L@。同样，'5.:=>，" !!5> 等都有相

应的记录

"

指定 52;5= !- 的类型，即序列化时的一些参数

";<++



序列化反序列化信息，如行分隔符、列分隔符、>:.. 的表示字

符等

　";"

/;/ 　　

+,;<++



表级属性，如是否外部表，表注释等

,;"

,

所有 ' 表的基本信息

,;"";"

这些表的内容在  里面是有很格式化的显示，在  里面输入 %0&O

M$&（是 ( 表名）；展示出来的信息就是表格中所有表 ?除了 >:'.:-M! .B

-A:>'M! . 这两张表@的信息，而且 64 值基本上和元数据的表字段名称一致。

从上面几张表的内容来看，' 整个创建表的过程已经比较清楚了

$- 解析用户提交 ' 语句，对其进行解析，分解为表、字段、分区等 ' 对象

%- 根据解析到的信息构建对应的表、字段、分区等对象，从 2;+, 中

获取构建对象的最新 "，与构建对象信息3名称，类型等5一同通过 "+/（"



剩余63页未读，继续阅读

莫然qq

粉丝: 4
资源: 17

Hadoop之Hive数据仓库详解

HIVE学习笔记详细教程

Hive学习笔记

Hive 学习笔记1

大数据 之 Hive 学习笔记

hive学习笔记精华版

Hive学习笔记整理.pdf

尚硅谷大数据技术hive学习笔记

阿里巴巴Hive学习笔记.docx

hive学习笔记(阿里巴巴)

Hive学习笔记（更新版）

最新资源

大数据之 Hive 学习笔记