Hadoop Hive SQL基础教程：快速入门与核心语法解析

需积分: 10 23 浏览量更新于2024-07-21 收藏 307KB PDF 举报

"这篇文档主要介绍了Hive的基础语法，包括HiveSQL、DDL操作，适合Hadoop环境下的数据仓库分析，适合新手入门学习。" 在大数据处理领域，Hive是一个非常重要的工具，它基于Hadoop构建，允许用户通过SQL-like语言（HiveQL或HiveSQL）来处理和分析存储在Hadoop文件系统(HDFS)中的大量数据。Hive的主要优点在于其简单易用的查询接口，使得即使是对MapReduce不熟悉的用户也能方便地进行数据分析。虽然Hive的SQL语法与传统的关系型数据库SQL有所差异，但它支持许多相似的语句，如数据定义语言(DDL)、数据操纵语言(DML)，以及聚合函数、连接查询和条件查询等。 1. DDL（Data Definition Language）操作是Hive的基础，主要包括以下几类： - **建表**: CREATE TABLE语句用于创建新的表。例如： ```sql CREATE TABLE IF NOT EXISTS employees (id INT, name STRING, salary FLOAT) ``` 如果表已存在，`IF NOT EXISTS`会避免抛出错误。`EXTERNAL`关键字表示表的数据存储在HDFS外部，而非Hive管理。 - **删除表**: 使用`DROP TABLE`语句，例如： ```sql DROP TABLE employees; ``` - **修改表结构**: Hive不支持直接修改表结构，但可以通过创建新表并迁移数据来实现。 - **创建/删除视图**: 视图是逻辑上的表，通过`CREATE VIEW`创建，`DROP VIEW`删除，可以简化复杂的查询。 - **创建数据库**: `CREATE DATABASE db_name;` 创建新的数据库。 - **显示命令**: `SHOW TABLES;` 显示当前数据库中的表，`SHOW DATABASES;` 显示所有数据库。 2. Hive的表可以被分区（PARTITIONED BY）以优化查询性能，例如： ```sql CREATE TABLE sales (trans_id INT, product STRING, amount FLOAT) PARTITIONED BY (year INT, month INT); ``` 分区使得在处理大规模数据时，只读取所需部分，提高效率。 3. 表还可以被分桶（BUCKETED BY），这有助于并行化处理，提高查询速度。分桶与分区不同，它是在每个分区内部进行的。 4. Hive支持多种数据格式，如TEXTFILE、SEQUENCEFILE、ORC、PARQUET等，可以通过`STORED AS`指定存储格式。 5. HiveSQL中的DML（Data Manipulation Language）包括INSERT、UPDATE（不完全支持）、DELETE（仅限分区表）等操作，以及SELECT查询，用于数据分析和报表生成。 6. Hive不适合实时查询或在线事务处理（OLTP），它的设计目标是批处理大量静态数据，适用于离线分析和大数据处理场景。 Hive是大数据分析的重要工具，它的SQL语法使得非编程背景的用户也能高效地进行数据处理。通过掌握Hive的基础语法，可以轻松地在Hadoop生态系统中进行数据探索和分析。在实际工作中，结合Hive的DDL和DML操作，能够有效地管理和处理海量数据。

hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds

STRING);

复制一个空表

CREATE TABLE empty_key_value_store

LIKE key_value_store;

例子

create table user_info (user_id int, cid string, ckid string, username

string)

row format delimited

fields terminated by '\t'

lines terminated by '\n';

导入数据表的数据格式是：字段之间是 tab 键分割，行之间是断行。

及要我们的文件内容格式：

100636 100890 c5c86f4cddc15eb7 yyyvybtvt

100612 100865 97cc70d411c18b6f gyvcycy

100078 100087 ecd6026a15ffddf5 qa000100

显示所有表：

hive> SHOW TABLES;

按正条件（正则表达式）显示表，

hive> SHOW TABLES '.*s';

修改表结构

•增加分区、删除分区

•重命名表

剩余18页未读，继续阅读

qq_28166869

粉丝: 0
资源: 2

Hadoop Hive SQL基础教程：快速入门与核心语法解析

Hive简介、Hive基础语法、Hive编程

Hive SQL语法总结

hive词法语法分析草稿0.3

Hive基础，详解介绍HIVESQL中的语法

hive笔记，干货满满，基础语法，分桶分区等

Hive高级语法与性能调优入门

Hadoop Hive基础：SQL语法与数据仓库应用

Hive SQL语法详解：创建、修改与操作指南

Hive查询语法进阶与优化

Hive查询语句入门：SELECT基础语法解析

最新资源