学习Hive：基础知识、资源收集和分享，数据仓库与传统数据库的区别。

需积分: 9 105 浏览量更新于2024-02-02 收藏 522KB DOCX 举报

Hive是建立在Hadoop上的数据仓库基础构架，提供了一系列的工具用于进行数据提取转化加载（ETL）。它允许存储、查询和分析Hadoop中大规模数据的机制，并且定义了类SQL查询语言HQL，使得熟悉SQL的用户能够进行数据查询。Hive将SQL语句转译成Map/Reduce Job然后在Hadoop执行，其表实际上就是HDFS中的目录。数据仓库是为企业所有级别的决策制定过程提供所有类型数据支持的战略集合，出于分析性报告和决策支持目的而创建。Hive与传统数据库的区别在于其基础语法和功能使用方式，包括DDL（数据定义语言）用于定义数据库对象的关键字等。学习Hive需要收集各方资源，并对其稍加见解，同时包含Hive的基础知识，希望通过上传以分享并备忘。在学习Hive时，需要了解Hive的概念、基础语法以及其与传统数据库的区别。Hive的基础语法包括DDL用来定义数据库对象的关键字，包括create，drop，alter等，对于Hive的理解需要梳理Hive的概念，搭建Hive环境并进行基础操作实践，以及总结Hive和传统数据库之间的区别。除了基础语法之外，Hive还有一些特殊的概念，例如Hive的表实际上就是HDFS的目录，按表名将文件夹分开，如果是分区表，则分区值是子文件夹。对于学习Hive的人来说，需要对这些概念有一个清晰的认识，并且能够进行实际应用。同时，数据仓库的概念也需要被深入了解，作为为企业提供数据支持的战略集合，数据仓库对于企业的业务智能至关重要，因此了解数据仓库的概念以及其对企业决策制定过程的重要性是学习Hive的重要一环。了解Hive与传统数据库的区别同样重要，Hive是建立在Hadoop上的数据仓库基础构架，它的功能使用方式与传统数据库有一些区别，这些区别包括Hive的数据定义语言DDL用来定义数据库对象的关键字，以及它的基本查询语言HQL，对于熟悉SQL的用户来说，学习Hive需要适应这些新的语法和功能使用方式。此外，Hive将SQL语句转译成Map/Reduce Job然后在Hadoop执行，因此学习Hive需要了解Map/Reduce的基本概念以及其在Hadoop上的运行机制。总之，学习Hive是一个全面而深入的过程，需要对Hive的概念、基础语法、特殊概念以及与传统数据库的区别有一个清晰的认识。同时也需要搭建Hive环境并进行实际操作，以便将理论知识转化为实际应用能力。学习Hive的过程可能会比较繁琐，但是对于企业的业务智能和决策支持而言，掌握Hive的相关知识是非常重要的。通过学习Hive，可以更好地理解和分析存储在Hadoop中的大规模数据，并为企业的决策制定提供更加可靠的支持。

同名文件时，会保留之前的文件并且会重新命名新文件为“之前的文件名M序列号”。

分区过滤器

当我们在  子句中增加谓词来安装分区值进行过滤时，这些谓词被称为分

区过滤器。

6"01!!!!3

4#=="H判断条件I

查看表所有分区

,'

增加、修改和删除表分区

增加分区：

%  %  M""!  

""!(VR&:&::*:*R$""!M!6VK!#K$=====C

删除分区：

%  %  M""!    ""!  (VR&:&::*:*R$

""!(VR&:&::*:2R$=====C

二级分区

二级分区分区字段有两个。

:%02I6#044#=="B

4"1#)10"6#)

2

4#=="..#)1 "%##)2

#"$:"#0;0#.<?<

二级分区加载数据

（）加载数据到二级分区表中

:%02I0"0"604 

<@"4@"%0@ @@4BJBJJDJA!0")<"0

44#=="B4#=="./<BJBJJDJA<1 "%#/<AB<2

查询分区数据

:%02I06F:#"44#=="B$ #./<BJBJJDJA< "%#/<AB<

把数据直接上传到分区目录上，让分区表和数据产生关联的三种方

式

（）方式一：上传数据后修复

上传数据

8%I8D67D

)6(=M""!&(V&:&::*:V'C

8%I8D6%M&:&::*:=%#

)6(=M""!&(V&:&::*:V'C

查询数据（查询不到刚上传的数据）

8%I%Y86M""!&)(VR&:&::*:R!

VR'RC

执行修复命令

I6-#4#044#=="B

再次查询数据

8%I%Y86M""!&)(VR&:&::*:R!

VR'RC

（&）方式二：上传数据后添加分区

上传数据

8%I8D67D

)6(=M""!&(V&:&::*:V*C

8%I8D6%M&:&::*:=%#

)6(=M""!&(V&:&::*:V*C

执行添加分区

8%I0#044#=="B4#=="./<BJAKJL<1 "%#/<AD<2

查询数据

8%I%Y86M""!&)(VR&:&::*:R!

VR*RC

（'）方式三：创建文件夹后 %数据到分区

创建目录

8%I8D67D

)6(=M""!&(V&:&::*:V2C

上传数据

8%I%%%!

R6%M&:&::*:=%#R!%

M""!&4#=="./<BJBJJDJA<1 "%#/<AG<2

查询数据

8%I%Y86M""!&)(VR&:&::*:R!

VR2RC

分桶表

「分桶实际上是对文件（数据）的进一步切分；  默认关闭分桶；分桶的作

用」：在往分桶表中插入数据的时候，会根据 %(指定的字段进行  分组按照

分桶字段的  值去模除以分桶的个数对指定的 7 个数进行取余，进而可以将数据

分割成 7 个数个文件，以达到数据均匀分布，可以解决  端的“数据倾斜”问题，方

便我们取抽样数据，提高 Z! 效率；「分桶字段」需要根据业务进行设定

分桶是将数据集分解成更容易管理的若干部分的另一个技术。

分区针对的是数据的存储路径；分桶针对的是数据文件

剩余36页未读，继续阅读

dogplays

粉丝: 112
资源: 1

学习Hive：基础知识、资源收集和分享，数据仓库与传统数据库的区别。

"HIVE3技术点解读与应用对接建议-深度剖析【微信公众号：明哥的IT随笔】

编译Hive 3.x与Spark 3.x集成包的详细步骤

"Hive函数大全及大数据相关网络资源

hive优化.docx

Hive 教程.docx

Hive指南.docx

hive文档.docx

Hive优化.docx

Hive总结.docx

hive操作.docx

最新资源