没有合适的资源?快使用搜索试试~ 我知道了~
首页基于阿里云搭建数据仓库(离线).pdf
资源详情
资源评论
资源推荐
基于阿里云搭建数据仓库(离线)
阿里云大学 & 尚硅谷 联合出品
- 1 -
基于阿里云搭建数据仓库(离线)
(阿里云大学 & 尚硅谷 联合出品)
版本:V2.0
课程目标
0
课程目标
1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、
输出、展示的整个业务流程。
2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个
组件之间如何配合联动。
3)前置知识要求
熟练掌握SQL语法
熟悉Linux命令
对Hadoop大数据体系有一定的了解
第 1 章 数据仓库概念
0
第1章 数据仓库概念
数据仓库定义( Data Warehouse ),
是为企业所有决策制定过程,提供所有系统
数据支持的战略集合。
数据仓库好处:可以帮助企业,改进
业务流程、控制成本、提高产品质量等。
数据仓库做什么:清洗,转义,分类,
重组,合并,拆分,统计等。
数据仓库输出到哪:报表系统、用户
画像、推荐系统、机器学习、风控系统等
数据仓库
报表系统
推荐系统 机器学习 风控系统
日志采集系统
业务系统数据库
爬虫系统等
用户画像
基于阿里云搭建数据仓库(离线)
阿里云大学 & 尚硅谷 联合出品
- 2 -
第 2 章 项目需求及架构设计
2.1 项目需求分析
0
2.1 项目需求分析
1)采集埋点日志数据
2)采集业务数据库中数据
3)数据仓库的搭建(用户行为数仓、业务数仓)
4)分析统计业务指标
5)对结果进行可视化展示
2.2 项目框架
0
2.2 阿里云技术框架
阿里云产品 简介 类比
DataHub
数据总线
Kafka +各种服务接口
MaxCompute
大数据计算框架
Hadoop+Hive+调度器
DataWorks
可视化MaxCompute的
开发管理平台
目前没有
RDS
关系型数据库
MySql
QuickBI
可视化数据展示工具
Tableau、Echarts、Kibana
ECS
弹性服务器
Linux服务器
基于阿里云搭建数据仓库(离线)
阿里云大学 & 尚硅谷 联合出品
- 3 -
2.2.1 技术选型
0
2.2.1 技术选型
数据存储:
数据计算:
数据可视化:
开源框架阿里云框架
Flume、Kafka、Sqoop 、DataX
Flume、DataHub、RDS
MySql、Hadoop、HBase
MaxCompute、DataWorks
QuickBI
Hive、Spark、Flink
MaxCompute、DataWorks
数据采集传输:
Tableau、Echarts、Kibana
2.2.2 系统数据流程设计
0
2.2.2 系统数据流程设计
DataHub
日志生产服务器ECS
(用户行为日志)
QuickBI
业务系统
RDS
RDS
分析结果
Flume采集
source
channal
MaxCompute/
DataWorks
ODS(Operational Data Store)
原始数据层
DWD(Data Warehouse Detail)
明细数据层
DWS(Data Warehouse Service)
服务数据层
ADS (Application Data Store)
数据应用层
DataHub
Connector
DataHub
Sink
基于阿里云搭建数据仓库(离线)
阿里云大学 & 尚硅谷 联合出品
- 4 -
2.2.3 服务器选型
0
2.2.3 服务器选型
服务器选择物理机还是云主机?
1)机器成本考虑:
物理机:以128G内存,20核物理CPU,40线程,8THDD和2TSSD硬盘,戴尔品牌单台报价4W出
头,需考虑托管服务器费用。一般物理机寿命5年左右。
云主机:以阿里云为例,差不多相同配置,每年5W。
2)运维成本考虑:
物理机:需要有专业的运维人员,平均每月15000元;
云主机:很多运维工作都由阿里云完成,运维相对较轻松。
2.2.4 集群资源规划设计
28.7 30.7
0
2.2.4 集群规模
1)用户行为数据
(1)每天日活跃用户100万,每人一天平均100条:100万*100条=10000万条
(8)半年内不扩容服务器来算:210g*180天=约37T
(7)保存3副本:70g*3=210g
(9)预留20%~30%Buf=37T/0.7=53T
6)算到这:约8T*7台服务器
4)业务数据
(2)每条日志1K左右,每天1亿条:100000000 / 1024 / 1024 = 约100G
2)DataHub中数据
(1)每天约100G数据*副本(2)=200g
(2)保存3天*200g=600g
(3)预留30%buf=600g/0.7=857g=约1T
(3)数仓ODS层采用LZO+parquet存储:100g压缩为10g左右
(4)数仓DWD层采用LZO+parquet存储:10g左右
(5)数仓DWS层轻度聚合存储(为了快速运算,不压缩):50g左右
(6)数仓ADS层数据量很小:忽略不计
(1)每天活跃用户100万,每天下单的用户10万,每人每天产生的业务数据
10条,每条日志1k左右:10万*10条*1k=1g左右
(2)数仓四层存储:1g*3=3g
(3)保存3副本:3g*3=9g
(4)半年内不扩容服务器来算:9g*180天=约1.6T
(5)预留20%~30%Buf=1.6T/0.7=2T
5)集群总规模:53T+1T+2T=56T
3)Flume中默认缓存的数据比较小:暂时忽略不计
基于阿里云搭建数据仓库(离线)
阿里云大学 & 尚硅谷 联合出品
- 5 -
2.2.5 购买服务器建议
28.7 30.7
0
2.2.5 购买服务器建议
以日均100G(日志+数据)为例
购买服务 建议配置 年成本 备注
DataHub medium 目前免费中 medium: 5000record/s
MaxCompute 32CU*7 342720.00 1CU=1cpu+4G内存
RDS 4核8G 10,914.00 存放离线统计结果
QuickBI 高级版(企业) 38,207.00
年总成本 391841.41
月均成本 32653.42
第 3 章 数据生成模块
0
系统数据流程设计
DataHub
日志生产服务器ECS
(用户行为日志)
QuickBI
业务系统
RDS
RDS
分析结果
Flume采集
source
channal
MaxCompute/
DataWorks
ODS(Operational Data Store)
原始数据层
DWD(Data Warehouse Detail)
明细数据层
DWS(Data Warehouse Service)
服务数据层
ADS (Application Data Store)
数据应用层
DataHub
Connector
DataHub
Sink
3.1 埋点数据基本格式
1)公共字段:基本所有安卓手机都包含的字段
2)业务字段:埋点上报的字段,有具体的业务类型
下面就是一个示例,表示业务字段的上传。
{
"ap":"xxxxx",//项目数据来源 app pc
剩余202页未读,继续阅读
行走的可乐
- 粉丝: 2
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0