HIVE SQL语法详解：大数据离线分析指南

需积分: 8 48 浏览量更新于2024-06-30 收藏 2.33MB PDF 举报

"这份文档是关于Hive在大数据离线处理中的应用，主要涵盖SQL语法参考，数据湖探索以及与华为技术有限公司相关的内容。" 在大数据分析领域，Hive是一个广泛使用的工具，它允许用户通过SQL（结构化查询语言）来查询和管理分布式存储的数据。Hive构建在Hadoop之上，提供了数据仓库的功能，使得处理大规模数据变得更加便捷。这份文档可能是针对初学者或需要了解Hive SQL语法的专业人士，旨在帮助他们理解和操作Hive进行大数据分析。 1. 批作业SQL语法 - 常用配置项：文档中提到了批作业SQL的常用配置项，这些配置可能涉及Hive的执行优化，如并行度、内存设置等，它们对于提升查询效率至关重要。 - 语法概览：这部分内容可能会包含基本的SQL操作，如SELECT、INSERT、UPDATE、DELETE等，以及Hive特有的DML（数据操纵语言）和DDL（数据定义语言）语句。 2. 数据库操作 - 创建数据库：使用CREATE DATABASE语句可以创建新的数据库，为数据组织提供逻辑上的分隔。 - 删除数据库：DROP DATABASE语句用于删除不再需要的数据库，但需要注意这将永久性地丢失数据库内的所有数据。 - 查看数据库：SHOW DATABASES命令用于显示当前环境中存在的所有数据库，或者可以指定特定的数据库进行查看。 - 查看所有数据库：展示所有可用的数据库列表，有助于管理和导航数据。 3. 表操作 - 创建OBS表和DLI表：OBS可能指的是对象存储服务，DLI可能是数据湖服务，文档介绍了如何使用DataSource语法和Hive语法创建这两种类型的表，以便将数据存储在不同的系统中。 - 删除表：DROP TABLE语句用于删除不再需要的表，同样需要注意数据的不可恢复性。 - 查看表：包括查看所有表、建表语句、表属性、所有列、所有分区及统计信息，这些都是管理和监控Hive表的关键操作。 4. 修改表 - 添加列：ALTER TABLE语句可以向已存在的表中添加新列，以适应数据模型的变化。 - 开启或关闭数据多版本：这可能涉及到Hive的ACID（原子性、一致性、隔离性、持久性）特性，允许控制数据的版本管理。 5. 分区表相关 - 分区是Hive中组织大量数据的一种策略，可以提高查询性能。文档详细介绍了如何针对OBS表进行分区操作，包括添加、重命名、删除和筛选条件删除分区，以及修改分区位置和更新分区信息。 - REFRESHTABLE：这个命令用于刷新表的元数据，确保最新的分区信息能够被查询引擎识别。 6. 数据湖探索 - 在大数据环境下，数据湖是一种存储和管理原始数据的方法，允许灵活的数据分析。文档中的"数据湖探索"可能涉及如何使用Hive SQL对数据湖中的数据进行查询和分析。总结来说，这份文档全面介绍了Hive在大数据离线处理中的核心功能，包括数据库管理、表的操作、分区以及SQL语法，是学习和使用Hive进行大数据分析的宝贵资料。对于想要深入理解和应用Hive的读者，这份文档提供了丰富的实战指导。

示例

1. 已参考示例中描述创建对应的数据库，如testdb。

2. 查看testdb数据库的相关信息。

DESCRIBE DATABASE testdb;

1.3.4 查看所有数据库

功能描述

查看当前工程下所有的数据库。

语法格式

SHOW [DATABASES | SCHEMAS] [LIKE regex_expression];

关键字

无。

参数说明

表 1-6 参数说明

参数

描述

regex_expressi

数据库名称。

注意事项

DATABASES与SCHEMAS是等效的，都将返回所有的数据库名称。

示例

查看当前的所有数据库。

SHOW DATABASES;

查看当前的所有以test开头的数据库。

SHOW DATABASES LIKE "test.*";

1.4 创建 OBS 表

1.4.1 使用 DataSource 语法创建 OBS 表

功能描述

使用DataSource语法创建OBS表。DataSource语法和Hive语法主要区别在于支持的表

数据存储格式范围、支持的分区数等有差异，详细请参考语法格式和注意事项说明。

数据湖探索

SQL 语法参考 1 批作业 SQL 语法

参数描述默认值

compressio

设置数据的压缩格式。目前支持gzip、bzip2、

deate压缩格式，若不希望压缩，则输入

none。

none

encoding 数据的编码格式。支持utf-8，gb2312，gbk三

种，如果不填写，则默认为utf-8。

utf-8

注意事项

● 表名与列名为大小写不敏感，即不区分大小写。

● 表名及列名的描述仅支持字符串常量。

● 创建表时要声明列名及对应的数据类型，数据类型为原生类型。

● 当OBS的目录下文件夹与文件同名时，创建OBS表指向的路径会优先指向文件而

非文件夹。

● 创建表时，若指定路径为OBS上的目录，且该目录下包含子目录（或嵌套子目

录），则子目录下的所有文件类型及其内容也是表内容。用户需要保证所指定的

目录及其子目录下所有文件类型和建表语句中指定的存储格式一致，所有文件内

容和表中的字段一致，否则查询将报错。用户可以在建表语句OPTIONS中设置

“multiLevelDirEnable”为true以查询子目录下的内容，此参数默认值为false

（注意，此配置项为表属性，请谨慎配置）(Hive表不支持此配置项)。

● OBS存储路径必须为OBS上的目录，该目录必须事先创建好，且为空。

● 创建分区表时，PARTITONED BY中指定分区列必须是表中的列，且必须在

Column列表中指定类型。分区列只支持string, boolean, tinyint, smallint, short,

int, bigint, long, decimal,

oat, double, date, timestamp类型。

● 创建分区表时，分区字段必须是表字段的最后一个字段或几个字段，且多分区字

段的顺序也必须对应。否则将出错。

● 单表分区数最多允许7000个。

● CTAS建表语句不能指定表的属性，不支持创建分区表。

示例

说明

执行创建表操作前，需要参考示例中先创建队列和数据库。再在“SQL编辑器”页面右侧的编辑

窗口上方，选择队列和数据库，执行以下SQL语句。

● 创建名为parquetTable的OBS表。

CREATE TABLE parquetTable (name string, id int) USING parquet OPTIONS (path "obs://bucketName/

lePath");

● 创建名为parquetZstdTable的OBS表，并指定压缩格式为zstd。

CREATE TABLE parquetZstdTable (name string, id string) USING parquet OPTIONS (path "obs://

bucketName/lePath",compression='zstd');

● 以班级号（classNo）为分区字段，创建一张名为student的表，包含姓名

（name）与分数（score）两个字段。

CREATE TABLE IF NOT EXISTS student(name STRING, score DOUBLE, classNo INT) USING csv

OPTIONS (PATH

'obs://bucketName/lePath') PARTITIONED BY (classNo);

数据湖探索

SQL 语法参考 1 批作业 SQL 语法

说明

“classNo”为分区字段，在表字段中要放在最后一个，即“student(name STRING, score

DOUBLE, classNo INT)”。

● 创建表t1，并将表t2的数据插入到表t1中。

CREATE TABLE t1 USING parquet OPTIONS(path 'obs://bucketName/tblPath') AS select * from t2;

1.4.2 使用 Hive 语法创建 OBS 表

功能描述

使用Hive语法创建OBS表。DataSource语法和Hive语法主要区别在于支持的表数据存

储格式范围、支持的分区数等有差异，详细请参考语法格式和注意事项说明。

语法格式

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

[(col_name1 col_type1 [COMMENT col_comment1], ...)]

[COMMENT table_comment]

[PARTITIONED BY (col_name2 col_type2, [COMMENT col_comment2], ...)]

[ROW FORMAT row_format]

[STORED AS

le_format]

LOCATION 'obs_path'

[TBLPROPERTIES (key = value)]

[AS select_statement];

row_format:

: SERDE serde_cls [WITH SERDEPROPERTIES (key1=val1, key2=val2, ...)]

| DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]]

[COLLECTION ITEMS TERMINATED BY char]

[MAP KEYS TERMINATED BY char]

[LINES TERMINATED BY char]

[NULL DEFINED AS char]

关键字

● EXTERNAL：指创建OBS表。

● IF NOT EXISTS：指定该关键字以避免表已经存在时报错。

● COMMENT：字段或表描述。

● PARTITIONED BY：指定分区字段。

● ROW FORMAT：行数据格式。

● STORED AS：指定所存储的文件格式，当前该关键字只支持指定TEXTFILE,

AVRO, ORC, SEQUENCEFILE, RCFILE, PARQUET格式。

● LOCATION：指定OBS的路径。创建OBS表时必须指定此关键字。

● TBLPROPERTIES：TBLPROPERTIES子句允许用户给表添加key/value的属性。

比如开启数据多版本功能，用于表数据的备份与恢复。开启多版本功能后，在进

行删除或修改表数据时（insert overwrite或者truncate操作），系统会自动备份

历史表数据并保留一定时间，后续您可以对保留周期内的数据进行快速恢复，避

免因误操作而丢失数据。多版本功能其他SQL语法请参考开启或关闭数据多版本

和多版本备份恢复数据章节描述。

创建OBS表时，通过指定TBLPROPERTIES ("dli.multi.version.enable"="true")

开启DLI数据多版本功能，具体可以参考示例说明。

数据湖探索

SQL 语法参考 1 批作业 SQL 语法

剩余296页未读，继续阅读

@anSon_

粉丝: 18
资源: 4

HIVE SQL语法详解：大数据离线分析指南

大数据技术文档.pdf

HIVE文档，大数据离线技术基础

大数据离线计算.pdf

滴滴大数据离线和实时平台架构和实践.pdf

大数据技术分享 大数据技术深入浅出 共39页.pdf

大数据技术框架.pdf

大数据技术白皮书.pdf

大数据技术——数据处理和分析.pdf

Hive编程指南 PDF 中文高清版

基于大数据平台数据分析技术选型调研.pdf

最新资源

大数据技术分享大数据技术深入浅出共39页.pdf