Hive大数据处理工具详解

需积分: 0 170 浏览量更新于2024-07-15 1 收藏 6.63MB DOCX 举报

"该文档详细介绍了大数据技术中的Hive，主要涵盖了Hive的基本概念、优缺点以及架构原理。Hive是Facebook开源的数据仓库工具，基于Hadoop，通过类SQL语法进行数据统计和分析。它将HQL转化为MapReduce作业在HDFS上执行，适合处理大规模数据，但对实时性要求较高的场景表现不佳。此外，文档还提到了Hive的用户接口、元数据存储、与Hadoop的关系以及驱动器的工作流程，包括解析、编译和优化等步骤。" 在深入探讨Hive的技术细节之前，我们先理解Hive的核心价值。Hive作为大数据分析的工具，其主要目标是简化大数据处理，通过提供类似SQL的查询语言HQL（Hive Query Language），使得非专业程序员也能处理大规模的结构化数据。Hive将这些查询语句转换为MapReduce任务，利用Hadoop的分布式计算能力进行数据处理。 Hive的架构主要包括以下几个部分： 1. 用户接口：用户可以通过命令行界面CLI、JDBC/ODBC接口或WebUI与Hive交互。这使得Hive能被多种工具和应用所集成，方便不同类型的用户使用。 2. 元数据：元数据存储了关于数据表的信息，如表名、数据库、字段、表类型和数据存储位置。元数据默认存储在Derby数据库中，但为了提高性能和可靠性，通常建议使用更强大的数据库如MySQL来存储元数据。 3. Hadoop组件：Hive依赖于Hadoop生态系统，数据存储在HDFS中，计算任务通过MapReduce执行。随着Hadoop的发展，Hive也开始支持Spark和Tez等更高效的计算框架。 4. 驱动器：这是Hive处理查询的关键部分，包括解析器、编译器和优化器。解析器负责将SQL语句转化为抽象语法树，然后编译生成逻辑执行计划。优化器对执行计划进行优化，例如通过添加或删除操作以减少数据处理的复杂性和成本。 Hive的优点在于其易用性和灵活性，特别是对于那些熟悉SQL的开发人员。然而，它的缺点也很明显，如HQL的功能相对较弱，不适合复杂的迭代计算和数据挖掘任务。此外，Hive的执行效率较低，主要是因为自动生成的MapReduce作业通常缺乏优化，且调优过程较为复杂。在实际应用中，为了提升Hive的性能，可以采取以下策略： 1. 优化Hive的表分区策略，根据数据的访问模式进行合理分区，可以显著减少数据扫描量。 2. 使用外部表，当数据源发生变化时，外部表可以保留原有数据文件的链接，避免不必要的数据移动。 3. 编写自定义函数UDF（User Defined Functions），以实现Hive内置函数无法完成的特定功能。 4. 使用更高效的计算引擎，如Tez或Spark，以减少MapReduce的开销。 5. 适当调整Hadoop集群的配置，如增大Map任务和Reduce任务的数量，以适应大规模数据处理。 Hive作为大数据分析的利器，提供了对Hadoop生态系统的SQL化访问，简化了大数据处理流程，尽管存在一些性能问题，但通过合理的优化和使用策略，可以在许多场景下发挥其优势。



--hiveconf <property=value> Use value for given property

--hivevar <key=value> Variable subsitution to apply to hive

commands. e.g. --hivevar A=B

-i <filename> Initialization SQL file

-S,--silent Silent mode in interactive shell

-v,--verbose Verbose mode (echo executed SQL to the console)

）“

-e”

不进入

hive

的交互窗口执行

sql

语句

[lxx@hadoop102 hive]$ bin/hive -e "select id from student;"

）“

-f”

执行脚本中

sql

语句

（



）在

*&*#%*&4

目录下创建

.'4H%

文件

[lxx@hadoop102 datas]$ touch hivef.sql

（



）文件中写入正确的

4H%

语句

select *from student;

（



）执行文件中的

4H%

语句

[lxx@hadoop102 hive]$ bin/hive -f /opt/module/datas/hivef.sql

（



）执行文件中的

4H%

语句并将结果写入文件中

[lxx@hadoop102 hive]$ bin/hive -f /opt/module/datas/hivef.sql > /opt/module/datas/hive_result.txt

2.8 Hive

其他命令操作

）退出

hive

窗口：

hive(default)>exit;

hive(default)>quit;

在新版的

.

中没区别了，在以前的版本是有的：

:&?

先隐性提交数据，再退出；

H&?

不提交数据，退出；

）在

hive cli

命令窗口中如何查看

hdfs

文件系统

hive(default)>dfs -ls /;

）查看在

hive

中输入的所有历史命令

（



）进入到当前用户的根目录

*&

或

*.#*%::

（



）查看

..4&3

文件

[lxx@hadoop102 ~]$ cat .hivehistory

2.9 Hive

常见属性配置

2.9.1 Hive

运行日志信息配置

）

Hive

的

log

默认存放在

/tmp/lxx/hive.log

目录下（当前用户名下）

）修改

hive

的

log

存放日志到

/opt/module/hive/logs

（



）修改

*&*#%*.*'*.$%;-84&#%&

文件名称为



第

章

Hive

数据类型

3.1

基本数据类型



数据类型

(

数据类型长度例子

7"<"<7 3&

3&

有符号整数



6"<7 4.&

3&

有符号整数



"<7 &

3&

有符号整数



)"B"<7 %;

K3&

有符号整数



)++16< %

布尔类型，

&

或者

'%4

72161

+67 A&

单精度浮点数

 L

+2)1 %

双精度浮点数

 L

7"<B 4&;

字符系列。可以指定字符集。可以使

用单引号或者双引号。

M@4&.8#NO'%%;#P

7"1765

时间类型

)"<6

字节数组

对于



的

&;

类型相当于数据库的

.

类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储



的字符数。

3.2

集合数据类型

数据类型描述语法示例

72!7

和



语言中的

4&&

类似，都可以通过“点”符号访问元素内容。例如，如果某个列的数据

类型是

72!7QR4&7"<BS%4&7"<BTS

那么第



个元素可以通过字段

R4&

来引用。

4&&,/

例如

4&&J4&&?4&;S&3?4&;U

65

是一组键

值对元组集合，使用数组表示法可以访问数据。例如，如果某个列的数据

类型是

65

，其中键

值对是’

R4&N$UN(.N

和’

%4&N$UNN

，那么可以通过字段名

VM%4&NW

获取最后一个元

素

#,/

例如

#J4&;S&U

66

数组是一组具有相同类型和名称的变量的集合。这些变量称为数组的元素，每个数组元

素都有一个编号，编号从零开始。例如，数组值为

VM(.NSMNW

，那么第



个元素可以通过数组名

VW

进行引用。

63,/

例如

3J4&;U



有三种复杂数据类型

66

、

65

和

72!7

。

66

和

65

与

(

中的

63

和



类似，而

72!7

与

语言中的

&&

类似，它封装了一个

命名字段集合，复杂数据类型允许任意层次的嵌套。

）案例实操

（



）假设某表有如下一行，我们用

(+<

格式来表示其数据结构。在



下访问的格式为

{

"name": "songsong",

"friends": ["bingbing" , "lili"] , //

列表

Array,

"children": { //

键值

Map,

"xiao song": 18 ,

剩余63页未读，继续阅读

一个写湿的程序猿

粉丝: 1w+
资源: 14

Hive大数据处理工具详解

尚硅谷大数据技术之高频面试题8.0.9.docx

set mapred.reduce.tasks=100; set hive.exec.reducers.max=100; set hive.auto.convert.join=true; set hive.groupby.skewindata=true; set ngmr.safety.size.single.entry=-1;

列举 spark.sql.hive.metastore的所有配置项

hive.exec.dynamic.partition

org.apache.hive.jdbc.hivedrive

hive.mapred.mode

尚硅谷大数据技术之cm安装.pdf

最新资源