大数据项目经验：电商数仓建设与云主机选择

版权申诉

36 浏览量更新于2024-06-22 收藏 404KB DOC 举报

该文档是关于一个大数据项目的经验分享，主要涵盖了项目介绍、个人学习历程以及实际项目中的服务器规划和数据存储策略。在大数据领域，本项目是一个电商数仓项目，涉及数据平台、数据仓库和实时计算系统的构建。在个人经历部分，作者提到通过学习Hadoop、Hive、Flume、Kafka、Spark、HBase和Flink等技术，逐渐深入理解大数据，并在实际工作中积累了经验。作者特别强调了大数据行业的前景和兴趣，这是他选择投身该领域的动机。项目中，对于大数据环境的搭建，首先从服务器规划开始。公司选择了阿里云的云主机，而非物理机，考虑到云服务的运维便利性和成本效益。服务器配置包括128GB内存、8TB机械硬盘、2TB固态硬盘以及20核40线程的处理能力。与物理机相比，云服务器的年费用更为合理，并且运维工作由阿里云负责。接下来是集群规划。通过对用户行为日志数据的估算，每天产生的数据量约为100GB。在数仓层级设计中，ODS层、DWD层、DWS/DWT层和ADS层分别进行了数据压缩和存储优化。考虑到冗余备份，总存储需求约为540TB，预留30%的扩展空间，实际需要75TB左右。此外，Kafka中保存的数据量约为1T，而Flume数据则相对较小，可以忽略不计。业务数据部分，每天100万活跃用户中，10万进行下单，产生约1GB的业务数据，同样按照数仓五层存储策略进行管理。这个项目体现了大数据处理中的典型步骤，包括数据收集、清洗、转换、存储和分析。同时，也展示了在实际操作中如何根据业务需求和成本效益来规划和配置大数据基础设施。这样的经验分享对于准备面试或者想要进一步了解大数据项目实施的人来说具有很高的参考价值。

（2）Nginx >>日志服务器/业务服务器

采集过来的数据通过 nginx 均匀的分布到日志服务器和业务服务器上。

（3）日志服务器 >> Flume >> Kafka

Flume 实时的读取采集过来的数据，三台 Flume 分别采集三台日志服务器上

的数据，souce 使用的是 tailDir Source，TailDir Source 优点是断点续传、多目录。

针对采集过来的数据，自定义了两个 Flume 的拦截器，分别是 ETL 拦截器和

分区拦截器。

ETL 拦截器:过滤时间戳不合法和 Json 数据不完整的日志

分区拦截器:将启动日志和普通页面埋点日志分开来。

（4）Kafka >>Flume >> HDFS

选用第二层 flume 消费 kafka 中的数据， flume 的 source 选择的是

KafkaSource，channel 选择的是 FileChannel，FileChannel 传输速度相对于 Memory

慢，但数据安全保障高，Agent 进程挂掉也可以从失败中恢复数据。为了提高其

吞吐量，我们对 FileChannel 进行了优化，通过配置 dataDirs 指向多个路径，每

个路径对应不同的硬盘，增大 Flume 吞吐量。Sink 选择的是 HDFS，把数据存储

按照日期储存在 hdfs 上。

（5）MySQL >> HDFS

关于业务数据，是从 mysql 中使用 sqoop 每天定时导入到 hdfs 上。

2. 遇到的问题及解决措施(备注:留了问题:mysql 元数据备

份)

2.1 Flume 相关

2.1.1 常规配置

1）Flume 内存配置为 4G（flume-env.sh 修改）。备注:默认是 2g，一般提高到

4-6g。

2）FileChannel 优化

通过配置 dataDirs 指向多个路径，每个路径对应不同的硬盘，增大 Flume 吞吐量。

checkpointDir 和 backupCheckpointDir 也尽量配置在不同硬盘对应的目录中，保

证 checkpoint 坏掉后，可以快速使用 backupCheckpointDir 恢复数据

3）Sink：HDFS Sink 小文件处理

这三个参数配置写入 HDFS 后会产生小文件，hdfs.rollInterval、hdfs.rollSize、

hdfs.rollCount

剩余34页未读，继续阅读

AIMaynor

粉丝: 7w+
资源: 173

大数据项目经验：电商数仓建设与云主机选择

项目说明.docx

04、项目介绍.doc

信息化管理系统项目建议书.doc.doc

奶牛自动化饲养控制系统项目策划介绍.doc

flex开源项目介绍.doc

应聘项目经理自我介绍精选.doc

3dsMAX9自学教程9项目管理教程.doc

项目立项申请.doc

项目启动会议.doc

软件开发项目经理自我介绍精选.doc

最新资源