没有合适的资源?快使用搜索试试~ 我知道了~
首页大数据项目开发与面试经验分享
大数据项目开发与面试经验分享
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
![](https://csdnimg.cn/release/wenkucmsfe/public/img/star.98a08eaa.png)
在这个文档中,主要介绍了作者的大数据项目经历和求职面试准备。首先,作者是一名非计算机专业背景的数据分析师,他通过自学Java和软件开发相关知识,转行进入了软件测试领域,并在此过程中接触到了大数据。在认识到大数据的潜力后,他决定进一步深入学习并转型。 在项目介绍部分,作者详细讲述了自己学习的大数据技术栈,包括数据传输层的Flume和Kafka,数据存储层的HDFS和HBase,资源管理的YARN,以及数据计算层的Hive、MapReduce和Spark Streaming。他还提到了任务调度工具Azkaban的应用,这显示了他对大数据开发的全面掌握。 在实际工作中,作者参与了电商项目的数据平台搭建,包括服务器选型(选择了阿里云的物理机,每台配置高,但成本较高),项目架构设计,以及数仓项目的离线计算和实时分析系统构建。对于数据量处理,作者强调了不同层级(ODS、DWD、DWS、DWT/ADS)的数据压缩和存储策略,如LZO压缩和Parquet存储,以优化存储空间。 在面试辅导方面,这份文档可能会讨论如何将这些技术能力和项目经验转化为面试中的亮点,比如解释技术选择背后的逻辑,展示解决大规模数据处理问题的能力,以及团队合作和项目管理的经验。面试者可能会被问及对大数据发展趋势的理解,如何处理海量数据的挑战,以及如何用数据驱动决策等问题。 这份文档提供了一个清晰的个人发展路径和丰富的技术实践经验,对于求职者在大数据领域的面试具有很高的参考价值。面试时,候选人应重点突出自己的自学能力、技术专长和项目实战经验,以展现其适应大数据行业的潜力。
资源详情
资源推荐
![](https://csdnimg.cn/release/download_crawler_static/88189743/bg8.jpg)
户前台活跃、用户后台活跃、消息通知、广告、点赞、收藏、评论、错误日志。ETL 拦截器
用于过滤时间戳不合法和 Json 数据不完整的日志。分区拦截器用于将启动日志和事件日志
区分开来。
为了将 flume 中的数据发往 Kafka 的不同 Topic,我们还使用了 flume 的 mutiplexing
channel 选择器 。
Channel 在 FileChannel/MemoryChannel/KafkaChannel 中 采 用 Kafka Channel , memory
channel,虽然说速度快,但是挂掉之后容易丢失数据,而 file channel,虽然说数据的存储
量大并且可靠性得到了保证,但是效率太低了,综合考虑之后我们选择了 kafka channel,这
样既能保证可靠性又能保证效率,因为省去了 sink,它的效率还高于 memory channel。
(4)Kafka => Flume => HDFS
选用第二层 flume 消费 kafka 中的数据,flume 的 source 选择的是 KafkaSource,channel
选择的是 FileChannel,FileChannel 传输速度相对于 Memory 慢,但数据安全保障高,Agent
进程挂掉也可以从失败中恢复数据。为了提高其吞吐量,我们对 FileChannel 进行了优化,
通过配置 dataDirs 指向多个路径,每个路径对应不同的硬盘,增大 Flume 吞吐量。Sink 选择
的是 HDFS,把数据存储按照日期储存在 hdfs 上。
(5)MySQL => HDFS
关于业务数据,是从 mysql 中使用 sqoop 每天定时导入到 hdfs 上。
2. 遇到的问题及解决措施
2.1 Flume 相关
2.1.1 常规配置
1)Flume 内存配置为 4G(flume-env.sh 修改)。备注:默认是 2g,一般提高到 4-6g。
2)FileChannel 优化
通过配置 dataDirs 指向多个路径,每个路径对应不同的硬盘,增大 Flume 吞吐量。
checkpointDir 和 backupCheckpointDir 也尽量配置在不同硬盘对应的目录中,保证 checkpoint
坏掉后,可以快速使用 backupCheckpointDir 恢复数据
![](https://csdnimg.cn/release/download_crawler_static/88189743/bg9.jpg)
3)Sink:HDFS Sink 小文件处理
通过设置参数 hdfs.rollInterval、hdfs.rollSize、hdfs.rollCount,达到多长时间或着文件大小达
到多少,再滚动生成下一个文件
2.1.2 Flume 挂掉
Source、sink、Channel 三部分分别查找原因。
1、如果选择的是 taildir source,taildir source 挂了,
因为有断点续传功能,所以不会丢数。但可能会有一条或一批重复数据。一般我们生产环境
通常不处理这些重复数据。
2、Channel 类型中 memory channel 是把 event 存储在内存中,如果挂掉了,可能丢失一些 event,
可能是 100 个(默认)。如果不是金钱相关或对正确性要求很高的 event 话,一般忽略。
3、Sink 处挂掉,排除配置文件和脚本问题后,在下游解决。
2.2 Kafka 相关
2.2.1 Kafka 数据丢失?
Ack:
0 发送过去就不等应答,很有可能丢数
1:leader 应答,主要注重的效率,在企业中用的比较多
-1:leader 和 follower 共同应答,可靠性高,效率低;对数据比较敏感的行业适用。
2.2.2Kafka 有重复数据?
1)不处理
2)处理
幂等性 + 事务 + ack=-1
下一级处理
hive dwd sparkstreaming (groupby、开窗取窗口第一条、redis)
精确一次消费
剩余40页未读,继续阅读
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/810f26d14cb84d5eb7a62a980f9bb8ea_xianyu120.jpg!1)
![](https://csdnimg.cn/release/wenkucmsfe/public/img/user-vip.1c89f3c5.png)
AIMaynor
- 粉丝: 7w+
- 资源: 171
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 利用迪杰斯特拉算法的全国交通咨询系统设计与实现
- 全国交通咨询系统C++实现源码解析
- DFT与FFT应用:信号频谱分析实验
- MATLAB图论算法实现:最小费用最大流
- MATLAB常用命令完全指南
- 共创智慧灯杆数据运营公司——抢占5G市场
- 中山农情统计分析系统项目实施与管理策略
- XX省中小学智慧校园建设实施方案
- 中山农情统计分析系统项目实施方案
- MATLAB函数详解:从Text到Size的实用指南
- 考虑速度与加速度限制的工业机器人轨迹规划与实时补偿算法
- Matlab进行统计回归分析:从单因素到双因素方差分析
- 智慧灯杆数据运营公司策划书:抢占5G市场,打造智慧城市新载体
- Photoshop基础与色彩知识:信息时代的PS认证考试全攻略
- Photoshop技能测试:核心概念与操作
- Photoshop试题与答案详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)