![](https://csdnimg.cn/release/download_crawler_static/86399924/bg5.jpg)
2. BI 开发数据流程图
[该类型的内容暂不支持下载]
注解:
1:BI 任务开发流程:上图序号 1、2、3、4 为 BI 任务开发流程,第一步将外部数据导入生产
数仓,第二步同步部分数据到测试数仓,同步数仓尽量有代表性,第三步进行 superset 与数
据连接验证并开发图表,第四步切换数据源让图表展示真实的数据。第一步中要求同步前先确
定要同步数据是否有敏感字段,如果有要做好脱敏或加密处理。
2:ETL1 是指从外部数据源(要求是结构数据)通过 ETL 同步数据到生产数仓。
当前选用的工具是 datax 和 streamsets,datax 用于做全量同步,streamsets 用于做增量
同步。目前同步的数据有两类,一类是业务数据库下 renova、nitrogen、dmas、nile 四个库
的数据,另一类是 fep 下的 task 和 project 表。当前全部采用全量同步。
此处的同步方式有两种全量同步和增量同步,增量同步又分两种,一种是根据增量字段
,例如自增主键或日期类型字段做查询增量数据同步,另一种是根据 cdc 日志进行增量数据
同步。如何选取同步方式如下图。