Hive SQL面试题解析：连续活跃用户计算

版权申诉

5星 · 超过95%的资源 25 浏览量更新于2024-08-10 收藏 63KB DOCX 举报

“高频HIVE-SQL笔试题详解（一）.docx”文档主要涵盖了Hive SQL的相关面试题目，特别是关于连续活跃用户的问题，旨在帮助准备跳槽的IT专业人士应对可能遇到的面试挑战。文档中提到了两个问题，一个是找出连续活跃3天及以上的用户数，另一个是查询每个用户的最大连续活跃天数，这两个问题都涉及到对窗口函数`lead()`和`lag()`的运用。首先，我们要理解Hive SQL是Apache Hive提供的数据仓库工具，它允许通过SQL-like语法进行大数据分析。在Hadoop生态系统中，Hive常用于处理和存储大规模数据集。对于第一个问题，我们需要计算连续活跃3天及以上的用户数。这里可以使用窗口函数`lag()`来获取当前行之前一行的值，比较当前日期与前一日日期的差异，以此判断连续活跃状态。通过创建一个自定义的计数列，当用户连续活跃时计数加1，否则重置为0。然后筛选出连续计数达到3的用户。第二个问题是找出每个用户的最大连续活跃天数，这需要在第一个问题的基础上进一步扩展。我们可以维护一个连续活跃天数的序列，每次遇到非连续日期时更新最大连续天数。同样使用`lag()`函数，结合条件判断和累计计算，可以得到每个用户的最长连续活跃天数。在示例代码中，创建了一个虚拟的测试数据集，通过`WITH`子句构建了一个临时表。这个表包含了用户ID（uid）和活跃日期（dt），用于演示如何解决这两个问题。实际操作时，我们不需要在Hive中创建新表，而是可以直接在查询语句中使用这些数据。这份文档提供了一种实践窗口函数的方法，这对于理解和掌握Hive SQL中的复杂查询非常有帮助，尤其是处理时间序列数据和分析用户行为时。了解并熟练运用`lead()`和`lag()`函数，不仅可以解决这类问题，还能在其他涉及序列分析的场景中发挥作用，如用户留存分析、销售趋势预测等。

高频 HIVE-SQL 笔试题详解（一）

最近身边有不少小伙伴在考虑跳槽的事情，免不了的会遇到一些 SQL 的面试题。根据过往的

经历和大伙儿的反馈，我们整理归纳了一些问题出来，以供大家参考。

连续活跃问题

这个问题有两个变形：

（1）某 APP 用户活跃记录表 active，有 uid（用户 id）、dt（活跃日期）字段，求出连续出勤

3 天及以上的用户数；（2）某 APP 用户活跃记录表 active，有 uid（用户 id）、dt（活跃日

期）字段，求每个用户的最大连续活跃天数。以上两个问题要求输出的数据不同，但都是要考察对

于窗口函数 lead、lag 的掌握能力。第二个是在第一个问题基础上的延伸，也可以作为此类问题的

通解。我们按照顺序分别来进行解答。

首先，我们构建一个表以供测试说明，形如下图：

考虑到权限问

题，这里就不单独新建 hive 表了，直接在 with 子句中 union 出来一个临时表：



下载后可阅读完整内容，剩余3页未读，立即下载

jane9872

粉丝: 109
资源: 7797

Hive SQL面试题解析：连续活跃用户计算

含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-3.1.2-bin.tar.gz

apache-hive-3.1.2-bin.tar.gz.zip

Apache Hive（apache-hive-3.1.3-bin.tar.gz）

apache-hive-1.2.1-bin.tar.gz.zip

apache-hive-2.1.1-bin.tar.gz.zip

apache-hive-2.0.0-bin.tar.gz.zip

HIVE-SQL开发规范.docx

apache-hive-1.2.2-bin.tar.gz

apache-hive-3.1.2-src.tar.gz

apache-hive-3.1.2-bin.tar.zip

最新资源