Hadoop Hive SQL详解：数据仓库分析利器

148 浏览量更新于2024-08-30 收藏 90KB PDF 举报

Hive是Hadoop生态系统中的重要组件，它作为一个数据仓库分析系统，旨在简化大数据处理过程，让非MapReduce专家也能利用SQL进行数据分析。Hive SQL是一种特殊类型的SQL，它建立在Hadoop分布式文件系统之上，允许用户处理大规模结构化数据。 Hive SQL的主要特性包括： 1. **数据映射**：Hive能够将非结构化的Hadoop文件系统中的数据文件转换成类似于关系型数据库的表结构，使得数据更容易管理和查询。通过CREATE TABLE语句，用户可以创建新的表，指定列名、数据类型和可能的注释，同时支持分区（PARTITIONED BY）和聚簇（CLUSTERED BY/SORTED BY）以优化数据存储和查询性能。 2. **DDL（数据定义语言）操作**：DDL操作是Hive SQL的基础，包括创建表（CREATE TABLE）、创建外部表（带有EXTERNAL关键字）等。这些命令允许用户定义表的存储格式（ROW FORMAT）、文件存储位置（LOCATION）以及文件格式（STORED AS）。 3. **查询支持**：Hive SQL支持大多数标准SQL语句，如DDL（如ALTER TABLE，DROP TABLE），DML（如INSERT, UPDATE, DELETE），以及聚合函数、连接查询和条件查询。这使得用户能够执行基本的数据分析和汇总任务。 4. **MapReduce集成**：Hive将SQL查询转换为MapReduce任务执行，这意味着它可以处理大规模数据集，并且具有良好的容错性和可扩展性。然而，Hive并不适合实时查询，而是更适合离线批处理作业，因为其设计目标是处理不可变的数据。 5. **特点与局限**：Hive的核心特点是可伸缩性，可以在Hadoop集群上动态添加资源。它具有容错性，能够处理节点故障。但是，由于不是为在线事务处理（OLTP）设计，Hive不支持复杂的并发读写操作，实时查询能力相对较弱。 6. **官方文档**：Hive的官方文档提供了详细的查询语言指南，是理解和学习Hive SQL的重要资源。用户在使用Hive时，应当参考这些文档并结合实践经验，注意处理潜在的差异和限制。 Hive SQL为大数据分析提供了一种简洁易用的接口，但开发者需要理解其与传统SQL的异同，以及在批处理场景下的适用性。随着Hadoop技术的发展，Hive继续扮演着连接Hadoop生态系统和数据分析的重要角色。

HadoopHivesql语法详解语法详解

Hive 是基于Hadoop 构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的

数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务

进行运行，通过自己的SQL 去查询分析需要的内容，这套SQL 简称Hive SQL，使不熟悉mapreduce 的用户很方便的利用SQL

语言查询，汇总，分析数据。而mapreduce开发人员可以把己写的mapper 和reducer 作为插件来支持Hive 做更复杂的数据分

析。

它与关系型数据库的SQL 略有不同，但支持了绝大多数的语句如DDL、DML 以及常见的聚合函数、连接查询、条件查询。

HIVE不适合用于联机，也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业。

HIVE的特点：可伸缩（在Hadoop的集群上动态的添加设备），可扩展，容错，输入格式的松散耦合。

Hive 的官方文档中对查询语言有了很详细的描述，请参考：http://wiki.apache.org/hadoop/Hive/LanguageManual ，本文的内

容大部分翻译自该页面，期间加入了一些在使用过程中需要注意到的事项。

1. DDL 操作

建表：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name

[(col_name data_type [COMMENT col_comment], ...)]

[COMMENT table_comment]

[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

[CLUSTERED BY (col_name, col_name, ...)

[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]

[ROW FORMAT row_format]

[STORED AS file_format]

[LOCATION hdfs_path]

CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXIST 选项来忽略

这个异常

EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION）

LIKE 允许用户复制现有的表结构，但是不复制数据

COMMENT可以为表与字段增加描述

ROW FORMAT

DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char]

[MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]

| SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW FORMAT 或者 ROW FORMAT

DELIMITED，将会使用自带的 SerDe。在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的

SerDe，Hive 通过 SerDe 确定表的具体的列的数据。

STORED AS

SEQUENCEFILE

| TEXTFILE

| RCFILE

| INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname

如果文件数据是纯文本，可以使用 STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCE 。

创建简单表：

hive> CREATE TABLE pokes (foo INT, bar STRING);

创建外部表：

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38694336

粉丝: 3
资源: 952

Hadoop Hive SQL详解：数据仓库分析利器

正则表达式主要语法详解+编程知识+技术开发

ABAP语法详解教材

C++ 语法详解

protobuf3 自定义option_Protobuf3语法详解

ansible playbook 语法详解

\COPY命令语法详解

python的切片语法详解

mybatis的语法详解

doris上互斥锁语法详解

cv2.findContours()语法详解

最新资源