大数据项目经验分享：从零到一的数仓搭建与实战

版权申诉

172 浏览量更新于2024-06-22 1 收藏 225KB DOCX 举报

"该项目介绍主要是一位拥有大数据分析背景的求职者分享其个人经历和在大数据项目中的实践经验，包括自我介绍、项目经验以及服务器规划等关键点。这位求职者自学了多种大数据相关技术，并在实际工作中应用，如Flume、Kafka、HDFS、HBase、Yarn、Hive、MapReduce和Spark Streaming等。他曾在电商项目中负责数据平台搭建、数仓项目的离线计算系统和实时分析系统的构建。此外，他还涉及到了大数据集群规模的规划，包括物理机与云主机的选择，以及数据量的估算和数仓层级的设计。" 【大数据项目经验】大数据项目通常涵盖多个层次的技术应用。在这个项目中，求职者提到了他在电商项目中的工作内容，包括从零开始搭建数据平台，建立数仓项目，并实施离线计算系统和实时分析系统。数据平台的建设涉及到服务器选型、项目架构设计和框架版本选择，这些都是大数据项目实施的基础。而数仓项目则涵盖了数据建模、指标分析和数据质量监控，这些都是确保数据准确性和有效性的关键步骤。【大数据技术栈】求职者提到的大数据技术栈包括数据传输层的Flume和Kafka，用于收集和传输大规模数据流。数据存储层的HDFS和HBase提供了分布式存储解决方案，其中HDFS适合大规模批量数据处理，HBase则支持高效随机读写操作。资源管理层的Yarn管理计算资源，确保任务调度高效运行。在数据计算层，Hive提供了SQL接口进行数据查询，MapReduce用于离线批处理，Spark Streaming则支持实时数据处理。此外，Azkaban作为一个作业调度工具，确保大数据任务的自动化执行。【服务器规划与集群规模】在规划大数据集群时，求职者讨论了物理机与云主机的比较。虽然物理机可能需要额外的运维成本，但其初期硬件投入可能更低。他选择了阿里云作为云服务提供商，考虑到同等配置下云主机的年成本相对较高。根据用户行为数据的统计，计算出每天大约100GB的数据量，这在确定集群规模时至关重要。数仓层级的规划包括ODS层、DWD层、DWS层以及DWT/ADS层，每个层级都有不同的压缩和存储策略，以优化数据处理效率和存储空间。【面试辅导】对于求职者来说，能够清晰地阐述自己的项目经验和掌握的技术栈，尤其是在大数据领域，将极大地提升其在求职面试中的竞争力。展示实际操作能力和解决问题的经验，如服务器选型、集群规划和数仓设计，都是面试官所看重的能力。同时，展示持续学习和适应新技术的态度，也是求职者专业素养的体现。

2. 遇到的问题及解决措施

2.1 Flume 相关

2.1.1 常规配置

1）Flume 内存配置为 4G（flume-env.sh 修改）。备注:默认是 2g，一般提高到 4-6g。

2）FileChannel 优化

通过配置 dataDirs 指向多个路径，每个路径对应不同的硬盘，增大 Flume 吞吐量。

checkpointDir 和 backupCheckpointDir 也尽量配置在不同硬盘对应的目录中，保证 checkpoint

坏掉后，可以快速使用 backupCheckpointDir 恢复数据

3）Sink：HDFS Sink 小文件处理

通过设置参数 hdfs.rollInterval、hdfs.rollSize、hdfs.rollCount，达到多长时间或着文件大小达

到多少，再滚动生成下一个文件

2.1.2 Flume 挂掉

Source、sink、Channel 三部分分别查找原因。

1、如果选择的是 taildir source，taildir source 挂了，

因为有断点续传功能，所以不会丢数。但可能会有一条或一批重复数据。一般我们生产环境

通常不处理这些重复数据。

2、Channel 类型中 memory channel 是把 event 存储在内存中，如果挂掉了，可能丢失一些 event，

可能是 100 个(默认)。如果不是金钱相关或对正确性要求很高的 event 话，一般忽略。

3、Sink 处挂掉，排除配置文件和脚本问题后，在下游解决。

2.2 Kafka 相关

2.2.1 Kafka 数据丢失？

Ack:

0 发送过去就不等应答，很有可能丢数

1：leader 应答，主要注重的效率，在企业中用的比较多

-1：leader 和 follower 共同应答，可靠性高，效率低；对数据比较敏感的行业适用。

2.2.2Kafka 有重复数据？

1）不处理

2）处理

剩余33页未读，继续阅读

AIMaynor

粉丝: 7w+
资源: 173

大数据项目经验分享：从零到一的数仓搭建与实战

大数据面试题及答案.docx

"信息系统维护运行项目计划方案.docx详细分析

NET智能docx模板引擎TemplateEngine.Docx使用教程

项目介绍5.docx大数据项目+项目介绍+面试辅导

项目介绍2.docx 大数据项目+项目介绍+面试辅导

项目介绍6.docx大数据项目+项目介绍+面试辅导

自我介绍13.docx大数据项目+项目介绍+面试辅导

如何面试2.docx 大数据项目+项目介绍+面试辅导

如何面试1.docx 大数据项目+项目介绍+面试辅导

项目介绍7.docx

最新资源