大数据开发工程师面试实战：项目经验与技术栈分享

版权申诉

83 浏览量更新于2024-06-22 收藏 658KB DOCX 举报

在这个文档中，我们深入探讨了一个关于大数据项目的详细介绍，包括面试辅导的相关内容。首先，面试者进行了自我介绍，他拥有丰富的IT行业背景，从Java后端开发转型至大数据开发，经历了一段适应期，熟悉了分布式计算框架如Hadoop、Spark和Flink等。他的主要职责涉及大数据平台的搭建，包括用户行为和业务数据采集平台，以及数据仓库的维度建设，涵盖了100多个统计报表指标。工作职能方面，他负责项目需求的制定，包括搭建数据仓库，涵盖数据采集、传输、存储、计算等多个环节。具体技术框架中，他使用了Hadoop、MySQL、Flume、Kafka、Sqoop、HBase、Redis、Hive、Tez、Spark和Flink等工具，处理的数据量巨大，如日活跃用户产生的数据量每天达到10亿条，需考虑存储和备份策略，如设立18T的存储空间，同时保留3个副本。数据仓库设计采用分层架构，包括ODS层（原始数据）、DWD层（清洗和维度降维）、DWS层（按天汇总）、DWT层（主题汇总）和ADS层（报表数据）。分层设计的主要目的是为了复杂问题的简化处理，便于问题定位和性能优化。此外，文档还提到项目规模的考量，例如针对不同数据量的存储需求和扩展性计划，这显示了面试者对于大数据项目全生命周期管理的深入理解。通过这份项目介绍，我们可以看出面试者不仅具备扎实的技术基础，而且对大数据项目的实施策略和架构设计有着实战经验，这对于面试者来说是非常有价值的信息。

4.1.3 concat_ws 函数

concat_ws 函数在连接字符串的时候，只要有一个字符串不是 NULL，就不会返回

NULL。concat_ws 函数需要指定分隔符。

hive> select concat_ws('-','a','b');

a-b

hive> select concat_ws('-','a','b',null);

a-b

hive> select concat_ws('','a','b',null);

4.1.4 STR_TO_MAP 函数

（1）语法描述

STR_TO_MAP(VARCHAR text, VARCHAR listDelimiter, VARCHAR keyValueDelimiter)

（2）功能描述

使用 listDelimiter 将 text 分隔成 K-V 对，然后使用 keyValueDelimiter 分隔每个 K-V 对，

组装成 MAP 返回。默认 listDelimiter 为（，），keyValueDelimiter 为（=）。

（3）案例

str_to_map('1001=2020-06-14,1002=2020-06-14', ',' , '=')

输出

{"1001":"2020-06-14","1002":"2020-06-14"}

5 ODS 层

5.1 日志通道 Flume 采集过来的日志表统一建立日志表建立，指定

inputformat,Outputformat 的分区表并补充 LZO 索引

5.2 业务表处理策略

订单表（增量及更新）

订单详情表（增量）

剩余27页未读，继续阅读

AIMaynor

粉丝: 7w+
资源: 173

大数据开发工程师面试实战：项目经验与技术栈分享

04、项目介绍.doc

项目说明.docx

项目说明-.docx

项目介绍7.docx

项目介绍5.docx大数据项目+项目介绍+面试辅导

项目介绍8.docx 大数据项目+项目介绍+面试辅导

IT项目管理复习.docx

软件项目计划模板.docx

APP项目计划书.docx

美团项目部考试.docx

最新资源