大数据项目面试攻略:集群搭建与数仓架构解析
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
本文档主要围绕大数据项目进行深入讨论,涉及了集群搭建规划、数据量估算、数仓架构原型设计以及数仓分析。以下是主要内容的详细解读: 1. 集群搭建规划 - 集群规模:项目计划使用10台服务器构建大数据处理集群。 - 机器配置:每台机器配备128GB内存、8TB机械硬盘、2TB固态硬盘,以及20核40线程处理器,成本大约在4万多元一台。 - 数据量预估: - 用户行为数据:每日产生120000万条数据,平均单条数据大小1KB,总计约120GB。 - 数仓层级数据: - ODS层采用LZO压缩,占用12GB; - DWD层用Parquet(LZO)存储,占用12GB; - DWS/DWT层由于快速计算需求,不压缩,占用60GB; - ADS层数据量小,忽略不计。 - 总体估算,加上备份,半年不扩容的数据量约为65T,预留30%空间后为85.5T。 2. Kafka数据: - 2个副本占用240GB,保存2天数据为720GB,预留30%后约为1.1TB。 - Flume数据未提及,但其在整体计算中可能较少。 3. 业务数据: - 每天产生2GB业务数据,考虑到数仓五层存储,3个副本总计18GB,半年不扩容为3.2T,预留30%后为4T。 4. 数仓架构原型设计: - 选择Apache框架,具体版本根据CDH官网的兼容性信息确定。 - 节点分配:根据数据量和性能需求合理划分不同组件的运行位置。 5. 数仓分析: - 使用Flume进行数据收集,其中taildirsource选择Apache 1.7版本,具备实时监控和断点续传功能。 - Channel类型考虑到了filechannel(磁盘IO多但可靠)、memorychannel(内存高但可能存在数据丢失风险)以及kafkachannel(性能高但可靠性依赖于Kafka)。 这份文档为准备面试者提供了大数据项目中的关键知识点,包括集群配置、数据处理策略、技术框架选择以及数据流动的详细设计,这对于理解大数据项目管理和实施至关重要。对于求职者来说,掌握这些内容有助于他们在面试中展示自己的专业能力和对大数据项目的全面理解。
![](https://csdnimg.cn/release/download_crawler_static/88189744/bg4.jpg)
剩余18页未读,继续阅读
![doc](https://img-home.csdnimg.cn/images/20210720083327.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/810f26d14cb84d5eb7a62a980f9bb8ea_xianyu120.jpg!1)
![](https://csdnimg.cn/release/wenkucmsfe/public/img/user-vip.1c89f3c5.png)
- 粉丝: 7w+
- 资源: 171
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 京瓷TASKalfa系列维修手册:安全与操作指南
- 小波变换在视频压缩中的应用
- Microsoft OfficeXP详解:WordXP、ExcelXP和PowerPointXP
- 雀巢在线媒介投放策划:门户网站与广告效果分析
- 用友NC-V56供应链功能升级详解(84页)
- 计算机病毒与防御策略探索
- 企业网NAT技术实践:2022年部署互联网出口策略
- 软件测试面试必备:概念、原则与常见问题解析
- 2022年Windows IIS服务器内外网配置详解与Serv-U FTP服务器安装
- 中国联通:企业级ICT转型与创新实践
- C#图形图像编程深入解析:GDI+与多媒体应用
- Xilinx AXI Interconnect v2.1用户指南
- DIY编程电缆全攻略:接口类型与自制指南
- 电脑维护与硬盘数据恢复指南
- 计算机网络技术专业剖析:人才培养与改革
- 量化多因子指数增强策略:微观视角的实证分析
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)