hive窗口排序row_number,rank,dense_rnk的区别?
时间: 2023-07-14 16:12:16 浏览: 128
Hive窗口排序函数`ROW_NUMBER()`, `RANK()`, `DENSE_RANK()`都是用于在分组内对数据进行排序,并且对排序后的结果进行编号。它们的区别如下:
1. ROW_NUMBER(): 对每行数据进行编号,不会跳过相同的值,即相同的值会被分配不同的编号。
2. RANK(): 对相同的值进行排名,如果有两个或以上的值相同时,它们的排名会相同,下一个排名会跳过这些排名。
3. DENSE_RANK(): 与RANK()类似,但是它不会跳过排名,即相同的值会被分配相同的排名。
举个例子:
假设有如下表:
| name | score |
| ---- | ----- |
| Tom | 80 |
| John | 90 |
| Jane | 80 |
| Mike | 70 |
如果我们使用以下窗口排序函数:
```sql
SELECT name, score, ROW_NUMBER() OVER (ORDER BY score DESC) AS row_num,
RANK() OVER (ORDER BY score DESC) AS rank_num,
DENSE_RANK() OVER (ORDER BY score DESC) AS dense_rank_num
FROM table_name;
```
则会得到如下结果:
| name | score | row_num | rank_num | dense_rank_num |
| ---- | ----- | ------- | --------| -------------- |
| John | 90 | 1 | 1 | 1 |
| Tom | 80 | 2 | 2 | 2 |
| Jane | 80 | 3 | 2 | 2 |
| Mike | 70 | 4 | 4 | 3 |
可以看到,ROW_NUMBER()为每行数据分配了不同的编号,而RANK()和DENSE_RANK()则对相同的值进行了不同的排名。同时,RANK()跳过了相同排名的值,而DENSE_RANK()则不会跳过。
阅读全文