Hadoop数据仓库Hive SQL语法详解

5星 · 超过95%的资源 8 浏览量更新于2024-08-29 收藏 113KB PDF 举报

本文主要介绍了Hive SQL语法的总结，包括Hive在Hadoop中的角色、查询执行模型以及其适合的使用场景，并列举了一些常见的Hive SQL命令，如创建数据库、显示表、DDL操作等。 Hive是一个基于Hadoop的数据仓库工具，专门用于处理和分析结构化的海量数据。它通过提供SQL-like的语言（称为HiveQL）使熟悉SQL的用户能轻松地对分布式存储的数据进行查询和分析。Hive的查询操作遵循Hadoop的MapReduce作业执行模型，将Hive SQL语句解析为MapReduce任务，然后在Hadoop集群上运行，最终返回结果给用户。由于其设计目标，Hive并不适合实时查询或行级别的数据更新，而是适用于大数据集的批处理任务，比如网络日志分析。在Hive中，SQL语法的一些关键点包括： 1. 创建数据库：`CREATE DATABASE name;` 创建一个新的数据库。如果数据库已存在，可以使用`IF NOT EXISTS`选项避免错误。 2. 显示信息：`SHOW TABLES;` 显示当前数据库中的所有表，`SHOW DATABASES;` 显示所有数据库，`SHOW PARTITIONS table_name;` 显示表的分区，`SHOW FUNCTIONS;` 列出可用的函数。 3. 描述表：`DESCRIBE EXTENDED table_name.dot_col_name;` 提供表或特定列的详细信息。 4. DDL操作：`CREATE TABLE` 用于创建新表，可以指定是否为外部表（`EXTERNAL`），是否只创建表结构而不包含数据（`LIKE`），以及添加表和列的注释。`PARTITIONED BY` 用于创建分区表，`CLUSTERED BY` 和 `SORTED BY` 用于定义数据的排序和分桶，`ROW FORMAT` 和 `STORED AS` 定义行格式和存储文件格式，`LOCATION` 指定数据的实际存储位置。 5. 数据加载：Hive支持从文件系统或其他数据源加载数据，如`LOAD DATA LOCAL INPATH 'file_path' INTO TABLE table_name;` 从本地文件系统加载数据，或者`INSERT INTO TABLE table_name VALUES (value1, value2, ...);` 直接插入数据。 6. 查询操作：Hive支持各种查询操作，如`SELECT` 用于检索数据，`WHERE` 用于条件过滤，`GROUP BY` 和 `HAVING` 进行分组和聚合，`JOIN` 用于表间连接，`UNION ALL` 合并多条查询结果。 7. 数据修改：虽然Hive不支持传统的行级更新和删除，但可以通过`INSERT OVERWRITE TABLE` 或 `UPDATE`（在某些版本的Hive中）来实现数据的替换或更新。 8. 视图：`CREATE VIEW view_name AS SELECT ...;` 可以创建虚拟表，方便查询。 9. 索引：Hive支持创建基于列的索引，提高查询性能，但创建和维护索引需要额外的资源。 10. 分区和桶：分区是将大表逻辑上分割成更小的部分，每个部分对应于一个或多个值的组合。桶是基于列值的哈希函数将数据分桶，有助于并行处理和优化join操作。学习和掌握这些基本的Hive SQL语法，将极大地帮助用户在大数据环境中有效地管理和分析数据。不过，需要注意的是，Hive的性能受到Hadoop集群配置和数据分布的影响，因此在实际应用中需要考虑优化策略，如选择合适的分区策略、数据压缩方式等。

展开

Hive SQL语法总结语法总结

Hive是一个数据仓库基础的应用工具，在Hadoop中用来处理结构化数据，它架构在Hadoop之上，通过SQL来对数据进行操作，了解SQL的人，学起来毫不费力。

Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型，Hive 将用户的Hive SQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群

上，Hadoop 监控作业执行过程，然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计，Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的

最佳使用场合是大数据集的批处理作业，例如，网络日志分析。

下面我们就为大家总结了一些Hive的常用 SQL语法：

“[ ]”括起来的代表我们可以写也可以不写的语句。

创建数据库：

CREATE DATABASE name;

显示命令：

show tables;

show databases;

show partitions ;

show functions;

describe extended table_name dot col_name;

DDL(Data Defination Language)：数据库定义语言

建表：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name

[(col_name data_type [COMMENT col_comment], ...)]

[COMMENT table_comment]

[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

[CLUSTERED BY (col_name, col_name, ...)

[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]

[ROW FORMAT row_format]

[STORED AS file_format]

[LOCATION hdfs_path]

CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXIST 选项来忽略这个异常

EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION）

LIKE 允许用户复制现有的表结构，但是不复制数据

COMMENT可以为表与字段增加描述

ROW FORMAT

DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char]

[MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]

| SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

STORED AS

SEQUENCEFILE

| TEXTFILE

| RCFILE

| INPUTFORMAT input_format_classname OUTPUTFORMAT

output_format_classname

如果文件数据是纯文本，可以使用 STORED AS TEXTFILE。

如果数据需要压缩，使用 STORED AS SEQUENCE 。

创建简单表：

CREATE TABLE person(name STRING,age INT);

下载后可阅读完整内容，剩余5页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

weixin_38665629

粉丝: 4

Hadoop数据仓库Hive SQL语法详解

Hive_SQL语法大全

基于 Antlr4 的 Hive SQL 解析.zip

SQL、Hive SQL等SQL血缘解析工具

hive sql语法大全

HIVE SQL语法详解：大数据离线分析指南

深入解析Hive SQL语法及其版本兼容性

Hive SQL语法详解：创建、修改与操作指南

hive sql语法 如何优化成spark sql语法，具体操作

hive sql 语法树解析工具

hive sql语法和mysql区别

最新资源

hive sql语法如何优化成spark sql语法，具体操作