Hive大数据窗口函数详解及实战应用

需积分: 0 93 浏览量更新于2024-08-03 收藏 468KB PDF 举报

在Hive的大数据处理环境中，窗口函数是一种强大的工具，它允许我们在分析数据时对一组相关的行进行操作，而不仅仅是简单的聚合。窗口函数与传统的聚合函数如SUM、COUNT等的主要区别在于，窗口函数会为每行数据返回一个结果，而非汇总所有数据得到单一值。窗口函数的应用场景广泛，例如在时间序列分析、排名、滑动平均等场景中。窗口函数的基础语法在Hive中可能受限于版本，因为Mysql8开始支持窗口函数。窗口函数通常包含以下几个关键部分： 1. **OVER()函数**：这是窗口定义的核心，用来指定窗口的范围。窗口范围可以根据不同的条件设定，如按照某个字段（如`partitionby`）进行分组，或者按照`ORDERBY`进行排序。`partitionby`类似于SQL中的GROUP BY，但不会压缩行数，保留了原数据的完整度；而`ORDERBY`则控制了窗口内数据的排序顺序。 2. **PARTITION BY**：用于将数据集分割成多个窗口，每个窗口基于指定的字段进行分组。例如，`partitionby cid, sname`将数据根据`cid`和`sname`字段进行分组。 3. **ORDER BY**：确定窗口内的行按哪些列进行排序。如果不指定，默认为升序，也可以用`ASC`明确表示。`DESC`用于降序排列。`ORDERBY null`表示不排序，保持原始顺序。 4. **ROWS/RANGE BETWEEN**：窗口的移动范围，可以指定从哪一行开始到哪一行结束。例如： - `ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW`表示从当前行之前的全部行开始，直到当前行。 - `ROWS BETWEEN 2 PRECEDING AND CURRENT ROW`指向前两行到当前行。 - `RANGE BETWEEN CURRENT ROW AND 1 FOLLOWING`表示从当前行到下一行。 5. **移动范围的起始和终止行**：可以用`npreceding`或`unbounded preceding`指定开始位置，用`nfollowing`或`unbounded following`指定结束位置。例如，在一个名为`sales`的表中，我们可以计算销售金额的累积总和，使用窗口函数`SUM(amount) OVER (ORDER BY sale_date ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW)`，这将为每个销售日期提供截止到当前日期的所有先前销售额的累计值。窗口函数在Hive中可以帮助我们进行更复杂的数据分析，如计算滑动统计值、动态分区等，这对于时间序列分析和实时数据流处理特别有用。掌握这些功能对于在大数据环境中优化查询性能和生成复杂报告至关重要。

窗口函数

1.什么是窗口函数：

可以像聚合函数一样对一组数据进行分析并返回结果，二者的不同之处在于，窗口函数不是将一组数据

汇总成单个结果，而是为每一行数据都返回一个结果。聚合函数和窗口函数的区别如下图所示，窗口函

数可以在不改变原始查询结果的情况下，通过增加一列来进行排序和聚合操作。

2.窗口函数的基础语法：注意Mysql8才支持窗口函数

.XX函数() ：聚合型窗口函数/分析型窗口函数/取值型窗口函数

.OVER() ：窗口函数

.partition by：后跟分组的字段，划分的范围被称为窗口;后面可以跟很多列，如：partition by

cid,sname;

注意 partition by与group by的区别

1）前者不会压缩行数但是后者会

2）后者只能选取分组的列和聚合的列

也就是说group by 后生成的结果集与原表的行数和列数都不同

.ORDER BY ：决定窗口范围内数据的排序方式。不排序可以写成order by null 或者直接不写

asc或不写表示升序，desc表示降序后面可以跟多个列，如 order by cid, sname.

移动范围： ROWS 和 RANGE

常用的语法：

1）起始行：n preceding/unbounded preceding(窗口的第一行（起点)

2) 当前行：current row

<窗口函数> over (partition by <用于分组的列名>

       order by <用于排序的列名>

       ROWS/RANGE BETWEEN 开始位置 AND 结束置);)

下载后可阅读完整内容，剩余5页未读，立即下载

粉丝: 7
资源: 1

Hive大数据窗口函数详解及实战应用

hive高级分析函数与优化.rar_hive_hive 函数优化_hive 分析 大数据_hive高级优化_oldwlc

Hive SQL大厂必考常用窗口函数及面试题.pdf

hive开窗函数知识点总结.txt

大数据hive离线计算开发实战教案

hive窗口函数详解

hive开窗函数使用

druid 不支持的hive语句

hive group by 占比

Hive获取上一行的函数

hive和clickhouse区别

最新资源

hive高级分析函数与优化.rar_hive_hive 函数优化_hive 分析大数据_hive高级优化_oldwlc