Hive SQL系统学习指南：数据仓库解决方案

版权申诉

89 浏览量更新于2024-06-25 6 收藏 1.17MB PDF 举报

Hive SQL是基于Hadoop的数仓解决方案之一，它提供了类似于SQL的数据操作语言和丰富的数据处理函数，可以帮助我们快速地从大量的非结构化和半结构化数据中提取有意义的信息。Hive SQL主要包括建表语句、数据加载语句、数据查询语句、数据转换语句和数据导出语句等。 Hive是一个基于Apache Hadoop的数据仓库基础设施，提供了大规模扩展和兼容能力。Hive的设计可以方便地对大量数据进行数据摘要、即席查询和分析。它提供了SQL，使用戶可以方便地进行即席查询、摘要和数据分析。 HiveSQL是Hive提供的一个SQL方言，严谨来说是HiveQL，简称Hql。Hive查询操作过程严格遵守Hadoop MapReduce的作业执行模型，Hive将用户的HiveSQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上，Hadoop监控作业执行过程，然后返回作业执行结果给用户。 Hive的SQL提供了基本的SQL操作，如使用WHERE子句从表中筛选行的能力、使用select子句从表中选择特定列的能力、在两个表之间进行等联接、评估多个“分组依据”列上存储在表中的数据的聚合、将查询结果存储到另一个表中、将表的内容下载到本地目录、在hadoopdfs目录中存储查询结果、管理表和分区（创建、删除和更改）、为自定义map/reduce作业插入所选语言的自定义脚本等。 Hive SQL与SQL的区别在于，Hive SQL是基于Hadoop的数仓解决方案，使用类似于SQL的语法，同时又能够利用Hadoop的分布式计算能力对海量数据进行处理，而SQL是一种特定于领域的语言，用于编程，用于管理关系数据库管理系统（也称为RDBMS）中的数据。 Hive SQL的优点包括： * 可以快速地从大量的非结构化和半结构化数据中提取有意义的信息 * 提供了丰富的数据处理函数 * 可以利用Hadoop的分布式计算能力对海量数据进行处理 * 提供了基本的SQL操作，如使用WHERE子句从表中筛选行的能力、使用select子句从表中选择特定列的能力等 * 可以管理表和分区（创建、删除和更改） Hive SQL的应用场景包括： * 大数据集的批处理作业 * 数据仓库任务 * 数据分析和即席查询 Hive SQL是一个功能强大且灵活的数据操作语言，它可以帮助我们快速地从大量的非结构化和半结构化数据中提取有意义的信息，并且可以利用Hadoop的分布式计算能力对海量数据进行处理。

以下 Where 子句中的逻辑操作符号：

操作

条件说明

SQL 样例

=, !=, <>, < <=, >, >=

数字及逻辑

class != 3; math > 80

IS NULL

值为 NULL

name IS NULL

IS NOT NULL

值不为 NULL

name IS NOT NULL

BETWEEN … AND …

包含两端的数字范围

math BETWEEN 60 AND 80

NOT BETWEEN … AND …

上述的不包含

math NOT BETWEEN 60 AND 80

IN (…)

内容在指定的列表中

class IN (1,2)

NOT IN (…)

不在指定的列表中

class NOT IN (1,2)

LIKE …

按内容搜索匹配

name LIKE "张%"

NOT LIKE …

不匹配此规则

name NOT LIKE "张%"

注：

 != 和 <> 都是不等于

 判断是空字符串为 a = ''

 LIKE 可以用 % 和 _ 通配符等进行匹配

 In 不能滥用，in 里面只能有几个（如枚举），不能有几千几万几十万个，容易卡

死系统。更好的办法是不用 in ，使用 join 处理

通配符：

 %：匹配不定长，"%AT%" (匹配 "AT", "ATTIC", "CAT" 及 "BATS")

 _：匹配 1 个定长，"AN_" (匹配 "AND", 但不匹配 "AN")

 Hive 可以使用 RLIKE 使用正则进行匹配 // TODO

注：如果需要匹配 % 和 _ 本身，需要进行转义，如 8\%%（8%，8%9），my\_code_（my_codes）。

对比及操作

-- 一班的

select name,class

from students

where class = 1

'''name|class|----+-----+张涛 | 1|赵丹丹 | 1|田迪 | 1|周平 |

1|'''

剩余122页未读，继续阅读

MetaTrade

粉丝: 1478
资源: 76

Hive SQL系统学习指南：数据仓库解决方案

最强HiveSQL开发指南.pdf

hive数仓、hive SQL 、 hive自定义函数 、hive参数深入浅出

HiveSQL基础教程：从入门到精通

Hive SQL基础教程：创建表与常用操作

Hadoop Hive SQL基础教程：快速入门与核心语法解析

我该怎么学习hive sql

TutorialsPoint Excel Hadoop HighCharts Golang Hive HBase Foundation Git 教程

Hive SQL编程权威指南：入门与提升宝典

Hadoop大数据分析：HiveSQL详解与优化指南

Facebook Hive数据仓库教程：SQL查询与数据模型详解

最新资源

hive数仓、hive SQL 、 hive自定义函数、hive参数深入浅出