Hive基础与进阶：分桶分区、查询操作解析

需积分: 50 81 浏览量更新于2024-09-07 收藏 4KB TXT 举报

"这篇笔记主要介绍了Hive的基础语法，包括数据加载、分区、分桶以及一些常用命令。适合初学者入门学习。" 在Hive中，数据存储是基于HDFS的，这意味着所有Hive的数据都会被保存在/user/hive/warehouse目录下。你需要指定一个特定的目录作为表的存储位置，这可以通过创建表时定义`LOCATION`属性来完成。如果在创建表时不指定，Hive会默认在仓库目录下创建一个新的目录。 Hive支持对数据进行分区（Partitioning）和分桶（Bucketing）。分区是将大表逻辑上划分为多个较小的、更易管理的部分，通常基于某个或某些列的值。这有助于优化查询性能，因为你可以只查询感兴趣的分区，而不是整个表。例如，你可以创建一个按日期分区的订单表，只处理最近的日期分区，避免扫描全部历史数据。分桶则是通过哈希函数将数据分布到预定义数量的桶中，以实现数据的均匀分布和提高JOIN操作的效率。设置分桶时，需要使用`BUCKETS`关键字指定桶的数量，并使用`CLUSTERED BY`指定分桶列。分桶的另一个好处是，它可以与样本数据一起用于统计分析。加载数据到Hive有两种基本方式：`LOAD DATA`和`INSERT INTO/OVERWRITE TABLE`。`LOAD DATA`命令通常用于将数据从HDFS的一个位置移动到另一个，而`INSERT INTO/OVERWRITE`则用于将查询结果写入表中，可以是追加数据，也可以覆盖原有数据。对于外部表（EXTERNAL TABLE），数据加载不会删除原始数据，因为外部表只保存数据的引用。在处理数据时，你可以使用HQL（Hive Query Language）执行各种SQL操作，如SELECT、WHERE、GROUP BY、JOIN等。Hive还支持动态分区（Dynamic Partitioning），在插入数据时，可以根据查询表达式动态生成分区值，无需预先知道所有分区。对于表的修改，Hive提供了`ALTER TABLE`语句，可以用来添加、删除或重命名分区，或者更改表的其他属性。此外，还有`DESCRIBE`命令用于查看表结构，`DROP TABLE`删除表，`SHOW TABLES`显示所有表等基本操作。 Hive提供了一种方便的方式来管理和分析大规模的分布式数据，其语法接近SQL，易于上手。但需要注意的是，Hive是基于批处理的，因此对于实时查询和低延迟的处理可能不是最佳选择。在实际使用中，需要根据业务需求和数据规模选择合适的操作方式和优化策略。

1.Hive 建立一张表，跟已经存在的结构化的数据文件产生映射关系
映射成功后，就可以通过写sql语句来分析这结构化的数据避免了写mr程序的麻烦

2.数据库 /user/hive/warehouse 下的一个文件夹对应
表数据库文件夹下面的子文件夹
表的数据位置目前不能随便存放一定要在指定的数据库表的文件夹下面
建立表的时候可能还需要指定分隔符否则有可能映射失败

3.建表的时候一定要根据结构化文件的分隔符，指定分隔符
建表的字段个数和字段类型，要跟结构化数据中的类型个数一致。
分隔符一般使用内置的来指定 row format delimited 分割字段还是分割集合还是键值对。
1）字段分割 fields terminated by '字段分隔符'
2）集合（array<类型>）分割 collection items terminated by '集合分隔符'
3）键值对（map<类型,类型>）分割 map keys terminated by '键值分隔符'

4.分区表字段不能够在表中已经存在
分区字段是一个虚拟的字段不存放任何数据
分区字段的数据来源于转载分区表数据的时候指定的
语法：partitioned by(分区字段) 【放在指定分隔符语句之前】
加载：load data local【加的话就是本地Linux文件路径，不加就是hadoop路径】
inpath '路径' into table 表名 partition(分区字段名=“名字”);
【insert into table 表名 partition(字段名=值) select ***】
【from 表名 insert overwrite table 表名 partition(字段名=值)
select ...where....insert overwrite table 表名 partition(字段名=值)select ..where....一次性将两个分区的数据完成插入】
分区表的字段在hdfs上的效果就是在建立表的文件夹下面又创建了子文件夹
这样的目的把数据的划分更加的细致，减少了查询时全表扫描的成本，只需要按照指定的分区扫描数据并显示结果即可

5.分桶表创建之前，需要开启分桶功能（set hive.enforce.bucketing = true;）
分桶表（分簇表）创建的时候，分桶字段必须是表中已经存在的字段
也就是说按照哪个字段分开

下载后可阅读完整内容，剩余3页未读，立即下载

忙着活！

粉丝: 1

Hive基础与进阶：分桶分区、查询操作解析

hive sql语句查询

Hive的分区表

hive分区表分通表建表语句详解和例子

Hive分区/分桶

hive基础语法

Hive简介、Hive基础语法、Hive编程

Hive分桶与分区实战解析

Hive实战：分桶与分区操作指南

Hive动态分区与分桶详解

Hive查询语句入门：SELECT基础语法解析

最新资源