蚂蚁森林植物申领Top10统计及减排差距

152 浏览量更新于2024-08-30 收藏 48KB PDF 举报

在Hive的面试题训练中，涉及了一个与蚂蚁森林低碳生活记录相关的场景。面试者需要运用Hive SQL来处理和分析数据，以解决关于蚂蚁森林植物申领的统计问题。以下是针对这个场景的详细解析： 1. **蚂蚁森林植物申领统计** - 首先，题目要求统计的是2017年1月1日至10月1日期间用户的低碳数据。在这个时间段内，假设所有在规定日期前满足申领条件的用户都已申领了一颗p004-胡杨。接下来的任务是找出在10月1日当天累计申领沙柳（p002-沙柳）排名前10的用户，并计算他们相对于倒数第11名用户多领了多少颗沙柳。 - **步骤1**：首先，将`data_dt`列中的日期格式转换为标准的'YYYY-MM-DD'格式，这通过`date_format()`函数和正则表达式实现。例如：`select user_id, date_format(regexp_replace(data_dt, '/', '-'), 'YYYY-MM-DD') as dat, low_carbon from user_carbon;` - **步骤2**：计算用户在2017年10月1日前的总排放量，并按排放量降序排列，选取前11名用户。使用子查询、分组和`limit`语句完成：`select user_id, sum(low_carbon) as sumcarbon from (select user_id, date_format(regexp_replace(data_dt, '/', '-'), 'YYYY-MM-DD') as dat, low_carbon from user_carbon) t1 where dat <= '2017-10-1' group by user_id order by sumcarbon desc limit 11;` - **步骤3**：在第二步的基础上，进一步对用户进行排名，每个用户的总排放量加上一个行号（rank()函数），以便于后续的比较。这将生成一个包含用户ID、总排放量和排名的列表：`select user_id, sumcarbon, rank() over(order by sumcarbon desc) as rown from (query from step2);` 最终的目标是从这些数据中筛选出前10名用户及其相对于倒数第11名用户的沙柳申领数量差。这项任务要求面试者具备良好的SQL查询能力，尤其是窗口函数（如`rank()`）的运用，以及对时间序列数据的处理，能够根据业务逻辑进行数据筛选、汇总和排名。在实际面试中，面试官可能会询问如何处理更复杂的数据，比如不同时间段的申领情况，或者考虑不同类型的植物申领条件等。

Hive 蚂蚁森林面试题训练蚂蚁森林面试题训练

背景说明：

以下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。

table_name：user_carbon

user_id data_dt low_carbon

用户日期减少碳排放（g）

蚂蚁森林植物换购表，用于记录申领环保植物所需要减少的碳排放量

table_name: plant_carbon

plant_id plant_name low_carbon

植物编号植物名换购植物所需要的碳

—-题目

1.蚂蚁森林植物申领统计

问题：假设2017年1月1日开始记录低碳数据（user_low_carbon），假设2017年10月1日之前满足申领条件的用户都申领了一

颗p004-胡杨，

剩余的能量全部用来领取“p002-沙柳” 。

统计在10月1日累计申领“p002-沙柳” 排名前10的用户信息；以及他比后一名多领了几颗沙柳。

得到的统计结果如下表样式：

user_id plant_count less_count(比后一名多领了几颗沙柳)

u_101 1000 100

u_088 900 400

u_103 500 …

1,将日期修改成date日期

select

user_id,date_format(regexp_replace(data_dt,’/’,’-’),‘YYYY-MM-DD’) dat,low_carbon

from

user_carbon;t1

2,选择使用者在2017-10-1以前,前11的总排放量,并排序.

select

user_id,sum(low_carbon) sumcarbon

from

(select

user_id,date_format(regexp_replace(data_dt,’/’,’-’),‘YYYY-MM-DD’) dat,low_carbon

from

user_carbon)t1

where

dat<=‘2017-10-1’

group by

user_id

order by

sumcarbon desc

limit 11;

3,在2的基础上进行排序

select

user_id,sumcarbon,rank()over(order by sumcarbon desc) rown

from

(select

user_id,sum(low_carbon) sumcarbon

from

(select

user_id,date_format(regexp_replace(data_dt,’/’,’-’),‘YYYY-MM-DD’) dat,low_carbon

from

user_carbon)t1

where

dat<=‘2017-10-1’

group by

user_id

order by

sumcarbon desc) t2

limit 11;t3

4,计算每人领取树的数量

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38637665

粉丝: 4
资源: 951

蚂蚁森林植物申领Top10统计及减排差距

2018年工作日sql语句

Hive面试题SQL测试题目1数据

hivesql优化面试题

hive数据仓库面试题

hive的高频面试题

hive 高级 面试题

hivesql面试题

大数据spark、hadoop、hive、hbase面试题及解析

HIVE 面试题 理论

出几道hive sql面试题

最新资源

hive 高级面试题

HIVE 面试题理论