没有合适的资源?快使用搜索试试~ 我知道了~
首页大数据开发工程师的实战经历与项目构建
大数据开发工程师的实战经历与项目构建
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 64 浏览量
更新于2024-06-22
收藏 597KB DOCX 举报
在这个文档中,主要介绍了一个拥有大数据开发经验的应聘者的项目介绍和个人经历。该应聘者名为XXX,本科毕业于XXXX大学通信工程专业,但在大学期间对计算机科学产生了浓厚兴趣,特别是在大数据领域。他在大三时接触到大数据相关讲座,随后深入学习了Hadoop框架(包括Mapreduce、HDFS、YARN和Hive)、数据采集工具Flume和Kafka,以及实时计算框架Flink和Spark Streaming。 毕业后,他成为了一名数据开发工程师,入职一家电商公司,公司正处于数据部门初期阶段。在这里,他经历了从零开始的项目开发过程,涵盖了数据平台的搭建、数仓建设,包括选择阿里云主机作为服务器解决方案。对比物理机,云主机在成本和运维上具有优势,例如阿里云的主机每年费用大约为5W,且运维工作更高效,减轻了运维团队的负担。 项目重点在于处理公司电商平台的业务数据和日志数据,其中用户行为分析是关键部分。每日大约有100万活跃用户,每用户平均产生100条日志,总日志量达到1亿条,每条日志大小在0.5至2KB之间。因此,他们需要设计合理的数据仓库模型,进行离线指标分析和实时计算,并实施数据质量监控,确保数据的有效性和准确性。 这位应聘者通过实际项目的历练,不仅掌握了大数据技术栈,还具备了从需求分析到数据处理的全流程能力,这对于大数据开发岗位的面试来说是非常有价值的实践经验。面试官可能会关注他的技术深度、问题解决能力和团队协作经验,这些都是衡量其是否适合大数据开发角色的重要指标。
资源详情
资源推荐
![](https://csdnimg.cn/release/download_crawler_static/88189733/bg9.jpg)
达到每隔一小时或者每批次文件大小达到 128M 的时候才滚动生成新文件传
输到 hdfs 当中
2.遇到的问题及解决措施
2.1 Flume 相关
2.1.1 Flume 常规配置
1)Flume 内存配置为 4G(flume-env.sh 修改)。备注:默认是 2g,一般提高到
4-6g。
2)FileChannel 优化
通过配置 dataDirs 指向多个路径,每个路径对应不同的硬盘,增大 Flume 吞
吐量。
checkpointDir 和 backupCheckpointDir 也尽量配置在不同硬盘对应的目录中,
保证 checkpoint 坏掉后,可以快速使用 backupCheckpointDir 恢复数据
2.1.2 Flume 挂掉
Flume 如果挂掉,项目主要从以下方面找的原因:
(1)如果是 taildirsource 挂掉了,因为该 source 支持断点续传和多目录存储,
因此数据不会丢失,但有可能会出数据重复,但是不做处理,一般在数据的下游
数 仓 ods->dwd 的 时 候 去 重 或 者 使 用 SparkStreaming 去 重 。 所 以 如 果 是
taildirsource 挂了,重启恢复工作就可以了;
(2)如果是 memorychannel 挂了,因为 memorychannel 每批次传输的数据
量为 100 个 event,所以影响不大,一般也是重启 flume 即可;
(3)如果是 sink 挂掉了,需要排查对应配置文件的参数或者配置文件本身
的问题,然后在数据下游进行解决;
2.1.4 拦截器
Flume 在项目里我们使用了 2 个拦截器,一个是 ETL 拦截器,另一个则是区
![](https://csdnimg.cn/release/download_crawler_static/88189733/bga.jpg)
分日志类型的拦截器;
(1)ETL 拦截器:主要用于过滤一些不符合 Json 数据格式和一些关键字段
为空值的数据;
(2)日志分类拦截器,根据日志的启动类型,通过拦截器给让数据发送
到 kafka 的不同主题当中;
(3)拦截器实现步骤:通过继承 Interceptor 接口并实现四个方法,一个是
初始化资源、一个是关闭资源、一个是处理单个 event 的方法、还有一个是处理
多个 event 方法,然后再实现静态内部类 Interceptor.Builder,然后打包上传到
Flume 的 lib 目录下,并在配置文件中进行关联拦截器
2.1.3 Ganglia 监控
(1)Ganglia 监控 Flume 发现尝试提交的次数大于最终成功的次数
(2)增加 Flume 内存 4-6G
(3)增加 Flume 台数(增加日志服务器)618、双 11
2.2 Kafka 相关
2.2.1 Kafka 数据会不会丢失?
Ack:
0 发送过去就不等应答,很有可能丢数
1:leader 应答,主要注重的效率,在企业中用的比较多
-1:leader 和 follower 共同应答,可靠性高,效率低;在金融场景比较多。
2.2.2Kafka 有重复数据?
处理:关于 Kafka 数据得重负,可以幂等性得机制使得 kafka 的数据实现分
区内不重复,再通过与支持事物的 mysql 进行绑定,实现全局数据不重复;
不处理:因为考虑到上游数据传输的效率,我们项目中并没有使用幂等性和
事物来实现 Kafka 数据的不重复,因为这回降低整个传输平台的性能,我们采用
的去重措施实在数据的下一级进行处理。再数仓中数据从 ods 层传输到 dwd 层
剩余46页未读,继续阅读
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/810f26d14cb84d5eb7a62a980f9bb8ea_xianyu120.jpg!1)
![](https://csdnimg.cn/release/wenkucmsfe/public/img/user-vip.1c89f3c5.png)
AIMaynor
- 粉丝: 7w+
- 资源: 171
![](https://csdnimg.cn/release/wenkucmsfe/public/img/vip-rights-1.c8e153b4.png)
下载权益
![](https://csdnimg.cn/release/wenkucmsfe/public/img/vip-rights-2.8b825a4e.png)
电子书特权
![](https://csdnimg.cn/release/wenkucmsfe/public/img/vip-rights-3.fc5e5fb6.png)
VIP文章
![](https://csdnimg.cn/release/wenkucmsfe/public/img/vip-rights-4.320a6894.png)
课程特权
![](https://csdnimg.cn/release/wenkucmsfe/public/img/vip-rights-icon.fe0226a8.png)
开通VIP
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)