大数据项目经验分享：自我介绍与面试辅导

版权申诉

5星 · 超过95%的资源 146 浏览量更新于2024-08-04 收藏 90KB DOC 举报

“自我介绍及项目串讲.doc 大数据项目+项目介绍+面试辅导”文档主要涵盖了大数据领域的项目经验和求职面试技巧，包括自我介绍、大数据项目实战以及服务器和集群规划的相关知识。一、自我介绍部分这位求职者具有四年的大数据开发经验，曾在两家公司任职。他在第一家公司的主要任务是参与大数据平台的从零搭建，采用了阿里巴巴的数仓架构，成功建立了离线数仓，并在后期进行了升级优化，增加了DWT层。在第二家公司，他负责实时模块的开发，利用Flume采集数据，Kafka作为中间件，SparkStreaming处理数据，最终将结果存储在HBase中，同时也支持数据写入ES和MySQL进行可视化展示。个人方面，他热衷于技术学习，积极主动，周末喜欢与同行交流新技术。二、大数据项目经验 1. 离线数仓项目：基于阿里数仓架构，从无到有搭建大数据平台，经过半年的努力实现稳定运行，后期进行了升级优化，增加了DWT层，提升了数据查询效率。 2. 实时数据处理项目：设计并实施了实时数据处理系统，使用Flume收集用户行为数据，Canal监控MySQL变化，通过SparkStreaming进行实时计算，数据存储在HBase中，同时支持数据展示在ES和MySQL上。三、服务器购买及集群规划针对预计的120万活跃用户每天产生的120GB数据量，规划了包含10台物理机的集群，每台配置8TB SSD硬盘和128GB内存。集群设计如下： 1. ResourceManager (RM) 和 NodeManager (NM) 分开，确保资源管理与任务执行的分离，提高效率。 2. ZooKeeper (ZK) 三节点部署，提供高可用的服务注册和发现。 3. Kafka 三节点部署，处理数据传输，与Flume形成紧密的数据流。 4. Flume 三节点部署，负责数据采集和传输。 5. HBase 部署多个节点，用于海量数据的存储和快速查询。 6. Hive 提供数据仓库功能，便于数据分析。 7. MySQL 存储部分数据，支持业务操作。 8. Redis 作为缓存服务，提高数据访问速度。 9. Spark 用于大数据处理，包括实时计算。 10. Elasticsearch (ES) 提供数据的搜索和分析能力。集群规划考虑了服务的冗余和负载均衡，确保系统的稳定性和可扩展性。总结来说，这个文档为求职者提供了全面的大数据项目经验和面试准备，涵盖了从基础架构设计到具体技术应用的各个环节，对于理解大数据开发的工作流程和技术栈有着重要的参考价值。

第一部分：自我介绍

各位面试官好!

我叫 XXXX，有四年的大数据开发经验。之前一共在两家公司工作过(两家公司名字)；

第一家公司主要负责的是离线数仓的部分；由于刚去公司的时候，公司刚刚准备做大数据相

关工作，所以我们是从零开始的；大数据平台从开始搭建到运行稳定，我们花了半年左右的

时间；领导看我表现的不错，决定让我做离线数仓的项目；经过我的调研，我们决定依照阿

里的数仓架构，搭建自己的数仓；数仓搭建起来之后，稳定运行了一年多之后，由于公司业

务升级，部门经理对之前的离线数仓，进行了升级优化，增加了 dwt 层，用于保存一些累积

型指标，方便后续查询；

第二家公司主要做的是跨境电商，我主要负责的是实时模块，我们公司的实时模块系统

结构是这样的，我们采用 flume 采集用户行为数据，发送到 kafka；用 canal 实时监控 mysql

中业务数据的变化同步到 kafka，再用 sparkStreaming 消费 kafka 中的数据，经过处理，最后

写入到 hbase 中保存，方便查询；也可以写到 es 和 mysql，进行可视化展示（flink 部分省略

几十字，还没有讲，不知道咋写 T^T）。

我个人呢，平时喜欢看看技术方面的书和博客来提升自己；也比较喜欢加班，工作积极

向上；周末的时候喜欢和朋友坐在一起讨论讨论问题，探讨一下最近的新技术等等；

第二部分：服务器的购买及集群的规划

项目经理预估每天活跃用户 120 万，每人平均每天 100 条，所以每天的用户行为数据大

概有 120g。经过计算，最后得出我们需要准备 10 台 8TSSD * 128G 的物理机。

集群规划大致如下：

kafka

flume

hbase

hive

mysql

redis

spark

1）消耗内存的 rm 和 nn 分开

2）kafka 、zk 、flume 传输数据比较紧密的放在一起

3）客户端尽量放在同一台服务器上，方便外部访问

另外还要准备 3 台专门用作测试环境的服务器。3 * 128 * 8TSSD

第三部分：项目搭建过程中遇到的问题及解决方案

平台项目：所有框架的搭建

数仓项目：离线数仓

实时项目：sparkStreaming/flink

下载后可阅读完整内容，剩余5页未读，立即下载

AIMaynor

粉丝: 7w+
资源: 173

大数据项目经验分享：自我介绍与面试辅导

往年设计原理串讲.doc

自考计算机网络原理串讲.doc

二级C语言串讲.doc

四级单词串讲.doc

Html基本标签串讲.doc

自考物理工教材公式+知识点串讲.doc

高一化学化学计量串讲.doc

统计学原理知识点串讲.doc

09财务管理考前串讲.doc

基础护理学考点串讲.doc

最新资源