Hive基础操作指南:数据类型、表操作、函数使用和JDBC配置
需积分: 13 63 浏览量
更新于2024-08-04
收藏 1.3MB PDF 举报
Hive基础操作教学
Hive是一个基于Hadoop的数据仓库工具,主要用于对结构化数据进行分析和处理。本篇文章将对Hive的基础操作进行教学,包括Hive的基本概念、数据类型、表创建、内外部表、分区分桶表、内置函数、UDTF、UDAF函数、数据导入导出和JDBC配置等。
Hive基本概念:
Hive是基于Hadoop的数据仓库工具,用于对结构化数据进行分析和处理。Hive提供了类SQL的查询语言HQL,通过HQL可以对存储在HDFS上的数据进行查询和分析。Hive的元数据库是存储Hive的元数据信息,包括数据库、表、视图、索引、分区、分桶等信息。
Hive元数据库相关表:
* VERSION:存储Hive版本的元数据表
* DBS:存储数据库信息的元数据表
* DATABASE_PARAMS:存储数据库创建时的指定参数的元数据表
* TBLS:存储Hive表、视图、索引表的基本信息的元数据表
* TABLE_PARAMS:存储表/视图的属性信息的元数据表
* TBL_PRIVS:存储表/视图的授权信息的元数据表
* SDS:存储文件存储信息的元数据表
* SD_PARAMS:存储文件存储参数的元数据表
* SERDES:存储序列化和反序列化信息的元数据表
* SERDE_PARAMS:存储序列化和反序列化参数的元数据表
* COLUMNS_V2:存储表对应的字段信息的元数据表
* PARTITIONS:存储表分区信息的元数据表
* PARTITION_KEYS:存储表分区键信息的元数据表
* PARTITION_KEY_VALS:存储表分区键值信息的元数据表
* PARTITION_PARAMS:存储表分区参数信息的元数据表
Hive基本操作:
* 创建数据库:CREATE DATABASE IF NOT EXISTS test;
* 创建数据库和位置:CREATE DATABASE IF NOT EXISTS schooltest '/test.db';
* 显示数据库:SHOW DATABASES;
* 过滤显示查询的数据库:SHOW DATABASES LIKE 'te*';
* 显示数据库信息:DESC DATABASE test;
* 切换当前数据库:USE test;
* 删除数据库:DROP DATABASE test;
Hive表创建:
* 创建内部表:CREATE TABLE test (id int, name string);
* 创建外部表:CREATE EXTERNAL TABLE test (id int, name string) LOCATION '/path/to/data';
* 创建分区表:CREATE TABLE test (id int, name string) PARTITIONED BY (dt string);
* 创建桶表:CREATE TABLE test (id int, name string) CLUSTERED BY (id) INTO 4 BUCKETS;
Hive内置函数:
* 数学函数:ABS、CEIL、FLOOR、ROUND、TRUNC
* 字符串函数:CONCAT、INITCAP、LENGTH、LOWER、UPPER
* 日期函数:CURRENT_DATE、CURRENT_TIMESTAMP、DATE_ADD、DATE_SUB
* 聚合函数:AVG、COUNT、MAX、MIN、SUM
UDTF函数:
* explode:将数组或Map类型的数据展开成多行
* posexplode:将数组或Map类型的数据展开成多行,并带有行号
* lateral view:将查询结果与表进行关联
UDAF函数:
* COLLECT_SET:将多行数据合并成一个集合
* COLLECT_LIST:将多行数据合并成一个列表
* GROUPING SETS:将多个分组合并成一个结果集
Hive数据导入导出:
* 导入数据:LOAD DATA INPATH '/path/to/data' INTO TABLE test;
* 导出数据:INSERT OVERWRITE DIRECTORY '/path/to/data' SELECT * FROM test;
JDBC配置:
* 配置JDBC连接:jdbc:hive2://localhost:9083
* 配置JDBC驱动:org.apache.hive.jdbc.HiveDriver
* 配置JDBC用户名和密码:username='username', password='password'
通过本篇文章,读者可以了解Hive的基础操作,包括Hive的基本概念、数据类型、表创建、内外部表、分区分桶表、内置函数、UDTF、UDAF函数、数据导入导出和JDBC配置等。
1138 浏览量
309 浏览量
3337 浏览量
2022-07-11 上传
519 浏览量
2022-07-11 上传
2023-05-03 上传
870 浏览量
1153 浏览量
Tomasyoung
- 粉丝: 1
- 资源: 2
最新资源
- c33
- matlab开发-复杂数字的错误功能
- STM32F103ZET6之AD采集利用IIC通过OLED显示波形
- wet-boew-php:Web Experience Toolkit(WET)PHP变体
- 橘色汽车 流行壁纸 高清汽车 新标签页 主题-crx插件
- 组合python
- htmlonly_projects
- pony-libxml2:您不应该使用此功能(尚未)。有关原因,请参阅自述文件
- 毕业论文-源代码- J2EE版网络问卷调查系统(程序SQLServer数据库)论文字数:23443字.zip
- matlab开发-渔业科学数字测量河流
- 行业教育软件-学习软件-2018年江西干部网络学院学习小程序软件 1014.zip
- REDHotOMOP:该工具将使研究人员能够利用HL7 FHIR和OMOP CDM这两种领先标准的优势,提高观测研究的质量并将发现结果与EHR整合在一起
- 陕西电信光纤猫配置参数.rar
- Kenny Chesney HD Wallpapers Music Theme-crx插件
- React画廊
- Android-Debug-Keyboard:安卓 APP 测试辅助工具,可快速截图、录屏、查看信息、查看日志、安装、卸载、monkey测试等功能