Hive SQL入门实践：配置与操作教程

需积分: 43 113 浏览量更新于2024-09-08 1 收藏 12KB TXT 举报

本资源主要介绍了如何通过Hive SQL进行数据库管理和数据分析的基本操作。首先，你需要对Hive进行安装和配置，包括上传Hive压缩包、安装MySQL数据库并配置Hive环境变量，确保Hive与MySQL的连接。配置过程中，涉及到修改`hive-env.sh`和`hive-site.xml`文件，设置JDBC连接信息，以及解决JLine版本不一致问题。 Hive安装完成后，可以通过以下方式进行操作： 1. **交互shell**：使用`bin/hive`命令启动Hive交互式环境，可以直接输入SQL命令进行查询。 2. **JDBC服务**：Hive提供JDBC服务，可以使用Java连接到Hive数据库，这对于在其他应用程序中集成Hive查询非常有用。 3. **启动Hive服务器**：通过`bin/hiveserver2`命令以守护进程模式启动Hive服务器，允许远程连接，如通过`bin/beeline`客户端连接。 4. **数据库管理**： - 创建数据库：使用`createdatabase`命令创建新数据库，例如`createdatabaseifnotexists mydb`。 - 显示数据库：`showdatabases`列出所有可用数据库。 - 删除数据库：`dropdatabaseifexists db_name [restrict|cascade]`，`cascade`选项用于强制删除包含表的数据库。 5. **分区表**： - 分区表支持单分区和多分区，如单分区`day_table`按日期分区，双分区`day_hour_table`按日期和小时分区。 - 数据导入：使用`LOADDATA`命令，如`LOADDATA local INPATH '/path/to/data.txt' INTO TABLE day_table PARTITION(dt='2017-07-07')`。这些步骤详细介绍了Hive的环境配置、基本操作和数据库管理，对于初学者理解和实践Hive SQL非常有帮助。通过实践这些命令和配置，你将能够更有效地处理和分析大数据。

----------------------------------------------------------------------------------------------------
数据库相关操作
Hive配置单元包含一个名为 default 默认的数据库.

create database [if not exists] <database name>；---创建数据库

show databases; --显示所有数据库

drop database if exists <database name> [restrict|cascade]; --删除数据库，默认情况下，hive不允许删除含有表的数据库，要先将数据库中的表清空才能drop，否则会报错
--加入cascade关键字，可以强制删除一个数据库,默认是restrict，表示有限制的
eg. hive> drop database if exists users cascade;

use <database name>; --切换数据库

----------------------------------------------------------------------------------------------------
分区表（PARTITIONED BY）
分区建表分为2种，一种是单分区，也就是说在表文件夹目录下只有一级文件夹目录。另外一种是多分区，表文件夹下出现多文件夹嵌套模式。

单分区建表语句：create table day_table (id int, content string) partitioned by (dt string);单分区表，按天分区，在表结构中存在id，content，dt三列。

双分区建表语句：create table day_hour_table (id int, content string) partitioned by (dt string, hour string);双分区表，按天和小时分区，在表结构中新增加了dt和hour两列。

导入数据
LOAD DATA local INPATH '/root/hivedata/dat_table.txt' INTO TABLE day_table partition(dt='2017-07-07');

LOAD DATA local INPATH '/root/hivedata/dat_table.txt' INTO TABLE day_hour_table PARTITION(dt='2017-07-07', hour='08');

基于分区的查询：

SELECT day_table.* FROM day_table WHERE day_table.dt = '2017-07-07';

剩余12页未读，继续阅读

奔走的五花肉

粉丝: 0
资源: 1

Hive SQL入门实践：配置与操作教程

hive练习数据和练习题及答案

Hive面试题SQL测试题目1数据

hive sql语句查询

hive sql在线练习

Hive SQL练习题库

HiveSQL实战题目.docx

Hive SQL初学者练习题库：环境准备和数据准备

hive sql练习题目

hive sql 合计

hive sql 外连接

最新资源