hive 的排序方式对比

时间: 2023-08-02 12:32:18 浏览: 110

Hive常用函数大全.pdf

### Hive常用函数详解 #### 一、关系运算在Hive中，关系运算是非常基础且重要的部分，它包括但不限于等值比较、不等值比较、大小比较等。这些操作对于进行数据筛选、条件判断等都非常关键。 ##### 1. 等值比较 (:=) **语法:** `A = B` - **操作类型:** 所有基本类型 - **描述:** 如果表达式`A`与表达式`B`相等，则为`TRUE`；否则为`FALSE`。 - **示例:** ```sql hive> SELECT 1 FROM test WHERE 1 = 1; 1 ``` ##### 2. 不等值比较 (<>) **语法:** `A <> B` - **操作类型:** 所有基本类型 - **描述:** 如果表达式`A`为`NULL`，或者表达式`B`为`NULL`，返回`NULL`；如果表达式`A`与表达式`B`不相等，则为`TRUE`；否则为`FALSE`。 - **示例:** ```sql hive> SELECT 1 FROM test WHERE 1 <> 2; 1 ``` ##### 3. 小于比较 (<) **语法:** `A < B` - **操作类型:** 所有基本类型 - **描述:** 如果表达式`A`为`NULL`，或者表达式`B`为`NULL`，返回`NULL`；如果表达式`A`小于表达式`B`，则为`TRUE`；否则为`FALSE`。 - **示例:** ```sql hive> SELECT 1 FROM test WHERE 1 < 2; 1 ``` ##### 4. 小于等于比较 (<=) **语法:** `A <= B` - **操作类型:** 所有基本类型 - **描述:** 如果表达式`A`为`NULL`，或者表达式`B`为`NULL`，返回`NULL`；如果表达式`A`小于或等于表达式`B`，则为`TRUE`；否则为`FALSE`。 - **示例:** ```sql hive> SELECT 1 FROM test WHERE 1 <= 1; 1 ``` ##### 5. 大于比较 (>) **语法:** `A > B` - **操作类型:** 所有基本类型 - **描述:** 如果表达式`A`为`NULL`，或者表达式`B`为`NULL`，返回`NULL`；如果表达式`A`大于表达式`B`，则为`TRUE`；否则为`FALSE`。 - **示例:** ```sql hive> SELECT 1 FROM test WHERE 2 > 1; 1 ``` ##### 6. 大于等于比较 (>=) **语法:** `A >= B` - **操作类型:** 所有基本类型 - **描述:** 如果表达式`A`为`NULL`，或者表达式`B`为`NULL`，返回`NULL`；如果表达式`A`大于或等于表达式`B`，则为`TRUE`；否则为`FALSE`。 - **示例:** ```sql hive> SELECT 1 FROM test WHERE 1 >= 1; 1 ``` ##### 7. 空值判断 (IS NULL) **语法:** `A IS NULL` - **操作类型:** 所有类型 - **描述:** 如果表达式`A`的值为`NULL`，则为`TRUE`；否则为`FALSE`。 - **示例:** ```sql hive> SELECT 1 FROM test WHERE NULL IS NULL; 1 ``` ##### 8. 非空判断 (IS NOT NULL) **语法:** `A IS NOT NULL` - **操作类型:** 所有类型 - **描述:** 如果表达式`A`的值为`NULL`，则为`FALSE`；否则为`TRUE`。 - **示例:** ```sql hive> SELECT 1 FROM test WHERE 1 IS NOT NULL; 1 ``` ##### 9. LIKE比较 **语法:** `A LIKE B` - **操作类型:** strings - **描述:** 如果字符串`A`或者字符串`B`为`NULL`，则返回`NULL`；如果字符串`A`符合表达式`B`的正则语法，则为`TRUE`；否则为`FALSE`。`B`中字符`"_"`表示任意单个字符，而字符`"%"`表示任意数量的字符。 - **示例:** ```sql hive> SELECT 1 FROM test WHERE 'football' LIKE 'foot%'; 1 hive> SELECT 1 FROM test WHERE 'football' LIKE 'foot____'; 1 ``` ##### 10. JAVA的LIKE操作 (RLIKE) **语法:** `A RLIKE B` - **操作类型:** strings - **描述:** 如果字符串`A`或者字符串`B`为`NULL`，则返回`NULL`；如果字符串`A`符合JAVA正则表达式`B`的正则语法，则为`TRUE`；否则为`FALSE`。 - **示例:** ```sql hive> SELECT 1 FROM test WHERE 'footbar' RLIKE '^f.*r$'; 1 ``` ##### 11. REGEXP操作 **语法:** `A REGEXP B` - **操作类型:** strings - **描述:** 功能与`RLIKE`相同。 - **示例:** ```sql hive> SELECT 1 FROM test WHERE 'footbar' REGEXP '^f.*r$'; 1 ``` #### 二、数学运算除了关系运算外，数学运算也是Hive中的重要组成部分，用于实现各种数值计算需求。 ##### 1. 加法操作 (+) **语法:** `A + B` - **操作类型:** 所有数值类型 - **说明:** 返回`A`与`B`相加的结果。结果的数值类型等于`A`的类型和`B`的类型的最小父类型（详见数据类型的继承关系）。比如，`int + int`一般结果为`int`类型，而`int + double`一般结果为`double`类型。 - **示例:** ```sql -- 假设表test中有列a和b hive> SELECT a, b, a+b FROM test; ``` ##### 2. 减法操作 (-) **语法:** `A - B` - **操作类型:** 所有数值类型 - **说明:** 返回`A`与`B`相减的结果。结果的数值类型等于`A`的类型和`B`的类型的最小父类型（详细的数据类型继承关系参见Hive官方文档）。 - **示例:** ```sql -- 假设表test中有列a和b hive> SELECT a, b, a-b FROM test; ``` 通过上述内容，我们可以看到Hive提供了丰富的关系运算符和数学运算符来帮助我们处理复杂的数据查询需求。在实际应用中，合理利用这些运算符能够大大提高数据分析的效率和准确性。

在 Hive 中，常见的排序方式有以下三种： 1. MapReduce 排序：使用 MapReduce 框架的默认排序方式，即按照 key 进行排序。该方式需要将数据进行全局排序，因此适用于需要对数据进行全局排序的场景。 2. Bucket 排序：将表按照指定的 key 进行分桶，然后在每个分桶内部进行排序。该方式可以减少数据的移动和排序操作，因此适用于数据量较大的场景。 3. Sort By 排序：在查询语句中使用 SORT BY 子句指定需要排序的字段，Hive 会在 Map 端对数据进行局部排序，然后在 Reduce 端对数据进行全局排序。该方式适用于需要对部分数据进行排序的场景，但可能会导致 Reduce 端的数据倾斜问题。总的来说，Bucket 排序适用于数据量较大的场景，MapReduce 排序适用于需要对数据进行全局排序的场景，Sort By 排序适用于需要对部分数据进行排序的场景。在实际应用中，需要根据具体的业务需求和数据规模选择合适的排序方式。

阅读全文

hive 的排序方式对比

相关推荐

HBase与Hive整合：性能对比与查询优化

Apache Hive入门精要

hive 自定义排序

大数据Linux VM期末复习题集：Hive与Impala对比详解

Hive表的分区与桶排序：提升查询性能

HIVE使用ROW NUMBER排序后 显示最大值

hive窗口函数如何比较大小

hive性能优化

hive函数大全

Hive性能优化

大数据组件 Hive 面试题 + Hive 高频面试题

HIVE函数详解大全

hive函数.docx

Hadoop与Hive优化实战：MapReduce调优与Hive技巧

hive窗口函数如何比较两个数据大小

hiveSQL，按照imei，ID分组，时间排序，拿出组内第一条时间数据单独做一列，然后比较时间列和新增时间间隔小于十分钟

hiveSQL，按照imei，ID分组，时间排序，拿出组内第一条时间数据分别与组内其他时间做比较，要求筛选时间间隔小于十分钟的数据

HiveSQL窗口函数详解

Hive开发入门与实战操作详解

最新推荐

精细金属掩模板(FMM)行业研究报告 显示技术核心部件FMM材料产业分析与市场应用

Angular实现MarcHayek简历展示应用教程

管理建模和仿真的文件

深入剖析：内存溢出背后的原因、预防及应急策略（专家版）

Java中如何对年月日时分秒的日期字符串作如下处理：如何日期分钟介于两个相连的半点之间，就将分钟数调整为前半点

Crossbow Spot最新更新 - 获取Chrome扩展新闻

"互动学习：行动中的多样性与论文攻读经历"

【Java内存管理终极指南】：一次性解决内存溢出、泄漏和性能瓶颈

c 语言return用法

量子管道网络优化与Python实现

HIVE使用ROW NUMBER排序后显示最大值

精细金属掩模板(FMM)行业研究报告显示技术核心部件FMM材料产业分析与市场应用