"Hive-v3.1.2详解：大数据技术应用概述、优缺点及基本概念"

需积分: 9 143 浏览量更新于2024-03-21 收藏 6.62MB DOCX 举报

1.2.2 缺点（1）Hive 的执行延迟较高，不适合实时性要求较高的场景。（2）对于小数据的处理没有优势，处理小规模数据时性能不佳。（3）Hive 查询不够灵活，无法支持复杂的数据处理需求。（4）Hive 底层依赖 MapReduce，性能受限于 MapReduce 的工作机制。第 2 章 Hive 安装部署 2.1 系统要求（1）要求安装了 JDK 环境（2）要求安装了 Hadoop （3）要求安装了 MySQL 或者 Derby 2.2 安装 Hive （1）解压 Hive 安装包（2）配置 Hive 环境变量（3）配置 Hive 配置文件（4）启动 Hive 第 3 章 Hive 基本操作 3.1 创建表（1）使用 CREATE TABLE 命令创建表（2）指定列名和数据类型（3）指定存储格式 3.2 加载数据（1）使用 LOAD DATA 命令加载数据到表（2）指定数据文件路径 3.3 查询数据（1）使用 SELECT 语句查询数据（2）支持常见的 SQL 查询功能 3.4 数据分析（1）支持数据聚合查询（2）支持数据排序（3）支持数据过滤第 4 章 Hive 高级功能 4.1 分区（1）通过分区可以提高查询效率（2）可以根据某一列的值进行分区 4.2 分桶（1）通过分桶可以进一步提高查询效率（2）可以将数据分成多个桶，每个桶可以存储一部分数据 4.3 UDF （1）支持用户自定义函数，可以扩展 Hive 的功能（2）可以通过编写自定义函数实现特定的数据处理逻辑通过以上内容可以看出，Hive 是一个基于 Hadoop 的数据仓库工具，可以进行数据存储、查询和分析。它提供了类似 SQL 的查询语言，使得用户能够通过简单的语句来操作海量结构化数据。虽然 Hive 在处理大数据量时具有明显优势，但在处理小数据和实时性要求高的场景下表现并不理想。为了提高查询效率，Hive 还提供了分区、分桶以及自定义函数等高级功能。通过学习和掌握这些功能，用户可以更加灵活地应用 Hive 来满足不同的数据处理需求。

—————————————————————————————————————

访问数据。例如，如果某个列的数据类型是 MAP，其中键->

值对是’first’->’John’和’last’->’Doe’，那么可以

通过字段名[‘last’]获取最后一个元素

例如 map<string, int>

ARRAY

数组是一组具有相同类型和名称的变量的集合。这些

变量称为数组的元素，每个数组元素都有一个编号，编号

从零开始。例如，数组值为[‘John’, ‘Doe’]，那么第 2

个元素可以通过数组名[1]进行引用。

Array()

例如 array<string>

Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的 Array

和 Map 类似，而 STRUCT 与 C 语言中的 Struct 类似，它封装了一个命名字段集合，复杂数据

类型允许任意层次的嵌套。

1）案例实操

（1）假设某表有如下一行，我们用 JSON 格式来表示其数据结构。在 Hive 下访问的格

式为

{

"name": "songsong",

"friends": ["bingbing" , "lili"] , //列表 Array,

"children": { //键值 Map,

"xiao song": 19 ,

"xiaoxiao song": 18

}

"address": { //结构 Struct,

"street": "hui long guan" ,

"city": "beijing"

}

（2）基于上述数据结构，我们在 Hive 里创建对应的表，并导入数据。

创建本地测试文件 test.txt

songsong,bingbing_lili,xiao song:18_xiaoxiao song:19,hui long

guan_beijing

yangyang,caicai_susu,xiao yang:18_xiaoxiao yang:19,chao yang_beijing

注意：MAP，STRUCT 和 ARRAY 里的元素间关系都可以用同一个字符表示，这里用“_”。

（3）Hive 上创建测试表 test

create table test(

name string,

friends array<string>,

children map<string, int>,

address struct<street:string, city:string>

)

row format delimited fields terminated by ','

collection items terminated by '_'

map keys terminated by ':'

lines terminated by '\n';

字段解释：

row format delimited fields terminated by ',' -- 列分隔符

—————————————————————————————————————

来描述这个数据库的属性信息。

hive (default)> alter database db_hive set

dbproperties('createtime'='20170830');

在 hive 中查看修改结果

hive> desc database extended db_hive;

db_name comment location owner_name owner_type parameters

db_hive hdfs://hadoop102:8020/user/hive/warehouse/db_hive.db

ityouxin USER {createtime=20170830}

4.4 删除数据库

1）删除空数据库

hive>drop database db_hive2;

2）如果删除的数据库不存在，最好采用 if exists 判断数据库是否存在

hive> drop database db_hive;

FAILED: SemanticException [Error 10072]: Database does not exist: db_hive

hive> drop database if exists db_hive2;

3）如果数据库不为空，可以采用 cascade 命令，强制删除

hive> drop database db_hive;

FAILED: Execution Error, return code 1 from

org.apache.hadoop.hive.ql.exec.DDLTask.

InvalidOperationException(message:Database db_hive is not empty. One or

more tables exist.)

hive> drop database db_hive cascade;

4.5 创建表

1）建表语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name

[(col_name data_type [COMMENT col_comment], ...)]

[COMMENT table_comment]

[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

[CLUSTERED BY (col_name, col_name, ...)

[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]

[ROW FORMAT row_format]

[STORED AS file_format]

[LOCATION hdfs_path]

[TBLPROPERTIES (property_name=property_value, ...)]

[AS select_statement]

2）字段解释说明

（1）CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；

用户可以用 IF NOT EXISTS 选项来忽略这个异常。

（2）EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时可以指定一个指向实

际数据的路径（LOCATION），在删除表的时候，内部表的元数据和数据会被一起删除，而

外部表只删除元数据，不删除数据。

（3）COMMENT：为表和列添加注释。

剩余87页未读，继续阅读

撸码的xiao摩羯

粉丝: 189
资源: 105

"Hive-v3.1.2详解：大数据技术应用概述、优缺点及基本概念"

含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-3.1.2-bin.tar.gz

hive-exec-3.1.2.jar

hive-jdbc-3.1.2.jar

cp: 无法获取"…/apache-hive-3.1.2/lib/hive-exec-3.1.2.jar" 的文件状态(stat): 没有那个文件或目录

apache-hive-3.1.2-bin.tar.gz

hive - nofile 1024000

尚硅谷大数据技术之高频面试题8.0.9.docx

hive --service hiveserver2 --hiveconf hive.server2.thrift.port=21066

hive-jdbc-3.1.2-standalone.jar

/usr/hive/apache-hive-3.1.2/lib

最新资源