尚硅谷大数据技术解析：Hive基础与优缺点

hive

需积分: 12 40 浏览量更新于2024-07-09 收藏 2.13MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"大数据技术之Hive-01（基础）" Hive是大数据处理领域中的一个关键工具，它由Facebook开源，主要用于处理和分析大规模的结构化数据。Hive作为一个数据仓库工具，允许用户通过使用类SQL语言（称为HiveQL或HQL）对存储在Hadoop分布式文件系统（HDFS）上的数据进行查询和分析。它将用户的SQL查询转化为一系列MapReduce任务，从而简化了大数据分析的过程，降低了开发人员对MapReduce编程的复杂度。 1. Hive的基本概念： - **Hive的本质**：Hive的核心功能是将用户编写的HQL转换为MapReduce任务，然后在Hadoop集群上执行。它将SQL的常见操作如SELECT、WHERE、GROUP BY等转换为预定义的MapReduce模板，这些模板封装在Hive内部，使得用户无需直接编写MapReduce代码就能进行数据处理。 - **数据存储**：Hive处理的数据都存储在HDFS中，这保证了数据的可靠性和可扩展性。 - **执行环境**：Hive的MapReduce任务运行在YARN（Hadoop的资源管理系统）之上，以有效地管理和调度计算资源。 2. Hive的优缺点： - **优点**： - **易用性**：Hive提供了类SQL的接口，使得非程序员也能快速上手进行数据查询和分析。 - **降低学习成本**：通过Hive，开发人员无需掌握复杂的MapReduce编程，可以专注于业务逻辑。 - **适用于大数据处理**：Hive特别适合对大量数据进行离线分析，尤其在实时性要求不高的场景下。 - **自定义函数支持**：用户可以编写自己的UDF（用户自定义函数），满足特定的业务需求。 - **缺点**： - **HQL的局限性**：Hive的查询语言HQL在表达能力上不及传统的SQL，例如不能很好地支持迭代式算法和复杂的数据挖掘任务。 - **效率问题**：由于依赖于MapReduce，Hive的执行效率相对较低，且生成的MapReduce作业通常不够优化。 - **实时性差**：由于涉及MapReduce转换，Hive不适合实时或者近实时的数据处理需求。 Hive在大数据分析中的应用主要集中在离线批处理，它在大数据生态系统中扮演着数据仓库和数据查询的角色，为企业提供了强大的数据分析能力，尤其是在日志分析、报表生成等领域。尽管存在一定的局限性，但Hive仍然是许多企业和组织处理大规模数据的首选工具之一。通过与Spark、Tez等更高效的计算框架结合，Hive的性能和灵活性得到了显著提升，进一步增强了其在大数据处理领域的实用性。

资源详情

资源推荐

尚硅谷大数据技术之 Hive

—————————————————————————————————————

更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

例如：

[atguigu@hadoop103 hive]$ bin/hive -hiveconf mapred.reduce.tasks=10;

注意：仅对本次 hive 启动有效

查看参数设置：

hive (default)> set mapred.reduce.tasks;

（3）参数声明方式

可以在 HQL 中使用 SET 关键字设定参数

例如：

hive (default)> set mapred.reduce.tasks=100;

注意：仅对本次 hive 启动有效。

查看参数设置

hive (default)> set mapred.reduce.tasks;

上述三种设定方式的优先级依次递增。即配置文件<命令行参数<参数声明。注意某些系

统级的参数，例如 log4j 相关的设定，必须用前两种方式设定，因为那些参数的读取在会话

建立以前已经完成了。

第 3 章 Hive 数据类型

3.1 基本数据类型

Hive 数据类型

Java 数据类型

长度

例子

TINYINT

byte

1byte 有符号整数

SMALINT

short

2byte 有符号整数

INT

int

4byte 有符号整数

BIGINT

long

8byte 有符号整数

BOOLEAN

boolean

布尔类型，true 或者

false

TRUE FALSE

FLOAT

float

单精度浮点数

3.14159

DOUBLE

double

双精度浮点数

3.14159

STRING

string

字符系列。可以指定字

符集。可以使用单引号或者双

引号。

‘ now is the time ’

“for all good men”

TIMESTAMP

时间类型

BINARY

字节数组

对于 Hive 的 String 类型相当于数据库的 varchar 类型，该类型是一个可变的字符串，不

过它不能声明其中最多能存储多少个字符，理论上它可以存储 2GB 的字符数。

尚硅谷大数据技术之 Hive

—————————————————————————————————————

更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

3.2 集合数据类型

数据类型

描述

语法示例

STRUCT

和 c 语言中的 struct 类似，都可以通过“点”符号访

问元素内容。例如，如果某个列的数据类型是 STRUCT{first

STRING, last STRING},那么第 1 个元素可以通过字段.first 来

引用。

struct()

例如 struct<street:string,

city:string>

MAP

MAP 是一组键-值对元组集合，使用数组表示法可以

访问数据。例如，如果某个列的数据类型是 MAP，其中键

->值对是’first’->’John’和’last’->’Doe’，那么可以

通过字段名[‘last’]获取最后一个元素

map()

例如 map<string, int>

ARRAY

数组是一组具有相同类型和名称的变量的集合。这些

变量称为数组的元素，每个数组元素都有一个编号，编号从

零开始。例如，数组值为[‘John’, ‘Doe’]，那么第 2 个

元素可以通过数组名[1]进行引用。

Array()

例如 array<string>

Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的 Array

和 Map 类似，而 STRUCT 与 C 语言中的 Struct 类似，它封装了一个命名字段集合，复杂数据

类型允许任意层次的嵌套。

1）案例实操

（1）假设某表有如下一行，我们用 JSON 格式来表示其数据结构。在 Hive 下访问的格

式为

{

"name": "songsong",

"friends": ["bingbing" , "lili"] , //列表 Array,

"children": { //键值 Map,

"xiao song": 18 ,

"xiaoxiao song": 19

}

"address": { //结构 Struct,

"street": "hui long guan",

"city": "beijing"

}

（2）基于上述数据结构，我们在 Hive 里创建对应的表，并导入数据。

创建本地测试文件 test.txt

songsong,bingbing_lili,xiao song:18_xiaoxiao song:19,hui long

guan_beijing

yangyang,caicai_susu,xiao yang:18_xiaoxiao yang:19,chao yang_beijing

注意：MAP，STRUCT 和 ARRAY 里的元素间关系都可以用同一个字符表示，这里用“_”。

（3）Hive 上创建测试表 test

create table test(

name string,

friends array<string>,

尚硅谷大数据技术之 Hive

—————————————————————————————————————

更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

children map<string, int>,

address struct<street:string, city:string>

)

row format delimited fields terminated by ','

collection items terminated by '_'

map keys terminated by ':'

lines terminated by '\n';

字段解释：

row format delimited fields terminated by ',' -- 列分隔符

collection items terminated by '_' --MAP STRUCT 和 ARRAY 的分隔符(数据分割符号)

map keys terminated by ':' -- MAP 中的 key 与 value 的分隔符

lines terminated by '\n'; -- 行分隔符

（4）导入文本数据到测试表

load data local inpath '/opt/module/hive/datas/test.txt' into table test;

（5）访问三种集合列里的数据，以下分别是 ARRAY，MAP，STRUCT 的访问方式

hive (default)> select friends[1],children['xiao song'],address.city from

test

where name="songsong";

_c0 _c1 city

lili 18 beijing

Time taken: 0.076 seconds, Fetched: 1 row(s)

3.3 类型转化

Hive 的原子数据类型是可以进行隐式转换的，类似于 Java 的类型转换，例如某表达式

使用 INT 类型，TINYINT 会自动转换为 INT 类型，但是 Hive 不会进行反向转化，例如，某表

达式使用 TINYINT 类型，INT 不会自动转换为 TINYINT 类型，它会返回错误，除非使用 CAST

操作。

1）隐式类型转换规则如下

（1）任何整数类型都可以隐式地转换为一个范围更广的类型，如 TINYINT 可以转换成

INT，INT 可以转换成 BIGINT。

（2）所有整数类型、FLOAT 和 STRING 类型都可以隐式地转换成 DOUBLE。

（3）TINYINT、SMALLINT、INT 都可以转换为 FLOAT。

（4）BOOLEAN 类型不可以转换为任何其它的类型。

2）可以使用 CAST 操作显示进行数据类型转换

例如 CAST('1' AS INT)将把字符串'1' 转换成整数 1；如果强制类型转换失败，如执行

CAST('X' AS INT)，表达式返回空值 NULL。

尚硅谷大数据技术之 Hive

—————————————————————————————————————

更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

4.2.3 切换当前数据库

hive (default)> use db_hive;

4.3 修改数据库

用户可以使用 ALTER DATABASE 命令为某个数据库的 DBPROPERTIES 设置键-值对属性值，

来描述这个数据库的属性信息。

hive (default)> alter database db_hive

set dbproperties('createtime'='20170830');

在 hive 中查看修改结果

hive> desc database extended db_hive;

db_name comment location owner_name owner_type parameters

db_hive hdfs://hadoop102:9820/user/hive/warehouse/db_hive.db

atguigu USER {createtime=20170830}

4.4 删除数据库

1）删除空数据库

hive>drop database db_hive2;

2）如果删除的数据库不存在，最好采用 if exists 判断数据库是否存在

hive> drop database db_hive;

FAILED: SemanticException [Error 10072]: Database does not exist: db_hive

hive> drop database if exists db_hive2;

3）如果数据库不为空，可以采用 cascade 命令，强制删除

hive> drop database db_hive;

FAILED: Execution Error, return code 1 from

org.apache.hadoop.hive.ql.exec.DDLTask.

InvalidOperationException(message:Database db_hive is not empty. One or

more tables exist.)

hive> drop database db_hive cascade;

4.5 创建表

1）建表语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name

[(col_name data_type [COMMENT col_comment], ...)]

[COMMENT table_comment]

[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

[CLUSTERED BY (col_name, col_name, ...)

[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]

[ROW FORMAT row_format]

[STORED AS file_format]

[LOCATION hdfs_path]

[TBLPROPERTIES (property_name=property_value, ...)]

[AS select_statement]

2）字段解释说明

（1）CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；

用户可以用 IF NOT EXISTS 选项来忽略这个异常。

剩余85页未读，继续阅读

锦时素年

粉丝: 0
资源: 19

尚硅谷大数据技术解析：Hive基础与优缺点

大数据Hive.pdf

大数据技术之Hive.docx

13——大数据技术之Hive介绍与核心知识点.pdf

大数据技术之Hive-02（优化）.pdf

大数据技术之Hive-03（源码）.pdf

大数据平台-Hive培训.pdf

大数据学习：Hive数据操作语言.pdf

大数据学习：Hive数据查询语言.pdf

大数据学习：Hive数据定义语言.pdf

大数据简历--模板.pdf

hive-part1-基础知识.pdf

大数据面试宝典-精简版.pdf

大数据技术与应用基础-教学大纲.pdf

大数据技术及应用基础-教学大纲.pdf

大数据技术和应用基础-教学大纲.pdf

大数据--讲义.pdf

48-大数据技术教学大纲-大数据技术基础-宋旭东-清华大学出版社.pdf

大数据教程-Hive的安装与配置.pdf

最新资源