没有合适的资源?快使用搜索试试~ 我知道了~
首页数据中台:宜信敏捷数据中台建设实践
数据中台:宜信敏捷数据中台建设实践
254 浏览量
更新于2023-05-30
评论
收藏 26.26MB PDF 举报
为什么我们要在数据中台前加上“敏捷”呢?了解我们的朋友都知道我所在的团队是宜信敏捷大数据团队,我们倡导“敏捷平民化”,把敏捷思想融入到系统建设中,并且研发了四个开源平台:DBus、Wormhole、Moonbox、Davinci。宜信的数据中台是由我们敏捷大数据团队基于四大开源平台开发建设的,因此我们将宜信的数据中台称之为“敏捷数据中台”。本次分享分为三个部分:宜信敏捷数据中台的顶层设计。数据中台是一个公司级的平台系统,所以不能只从技术层面去设计,还要考虑包括流程、标准化等在内的顶层设计。从中间件工具到平台介绍宜信是如何设计建设敏捷数据中台的。结合典型案例介绍宜信敏捷数据中台支持哪些数据方面的
资源详情
资源评论
资源推荐

数据中台:宜信敏捷数据中台建设实践数据中台:宜信敏捷数据中台建设实践
一、导语
为什么我们要在数据中台前加上“敏捷”呢?了解我们的朋友都知道我所在的团队是宜信敏捷大数据团队,我们倡导“敏捷平民
化”,把敏捷思想融入到系统建设中,并且研发了四个开源平台:DBus、Wormhole、Moonbox、Davinci。宜信的数据中台是
由我们敏捷大数据团队基于四大开源平台开发建设的,因此我们将宜信的数据中台称之为“敏捷数据中台”。
本次分享分为三个部分:
宜信敏捷数据中台的顶层设计。数据中台是一个公司级的平台系统,所以不能只从技术层面去设计,还要考虑包括流程、标准
化等在内的顶层设计。
从中间件工具到平台介绍宜信是如何设计建设敏捷数据中台的。
结合典型案例介绍宜信敏捷数据中台支持哪些数据方面的应用和实践。
二、宜信敏捷数据中台的顶层设计
2.1 特点和需求
关于数据中台的建设,目前并没有一个标准的解决方案,也没有一个数据中台能适用于所有的公司,每个公司都应该结合自己
的业务规模及数据需求现状来研发适合自己公司的数据中台。
在介绍宜信敏捷数据中台的顶层设计之前,我们先来了解其背景:
业务板块和业务条线众多。宜信的业务大体可分为四大板块:普惠金融板块、财富管理板块、资产管理板块、金融科技板块,
拥有近百条业务线和产品线。
技术选型众多。不同业务方有不同的数据需求,技术选型时依据这些客观需求及主观偏好,会选择不同的数据组件,包括 :
MySQL、Oracle、HBase、KUDU、Cassandra、Elasticsearch、MongoDB、Hive、Spark、Presto、Impala、Clickhouse
等。
数据需求多样。业务线多样,导致数据需求多样,包括:报表、可视化、服务、推送、迁移、同步、数据应用等。
数据需求多变。为顺应互联网的快速变化,业务方的数据需求也是多变的,经常有周级产出数据需求和数据应用。
数据管理考虑。要求数据元信息可查,数据定义和流程标准化,数据管理可控等。
数据安全考虑。宜信作为一家同时拥有互联网属性和金融属性的公司,对数据安全和权限的要求很高,我们在数据安全方面做
了很多工作,包括:多级数据安全策略、数据链路可追溯、敏感数据不可泄露等。
数据权限考虑。在数据权限方面的工作包括:表级、列级、行级数据权限,组织架构、角色、权限策略自动化。
数据成本考虑。包括集群成本、运维成本、人力成本、时间成本、风险成本等。
2.2 定位
关于数据中台的定位,每个公司都不太一样。有的公司业务比较专注,只有一条业务线,那它在建设数据中台的时候,可能需
要一个垂直的平台,直达前线,更好地支持前线的运作。
前文提到宜信业务线很多,且在众多业务中没有一个主体业务,这就相当于所有业务线都是主体。基于这样的背景,我们需要
一个平台化的数据中台,来支撑所有业务线的需求和运作。

图1 定位
如上图所示,绿色的部分是宜信敏捷数据中台,我们称之为“ADX数据中台平台”,“A”即“Agile(敏捷)”,之所以称为“平台”,
是因为我们希望将其打造成一个服务于全业务线的平台系统,助力业务发展。
敏捷数据中台处于中间位置,最底下是各种数据集群,最上端是各个业务领域数据团队。数据中台通过整合处理数据集群的数
据,为业务领域数据团队提供自助化、实时化、统一化、服务化、管理化、可溯化的数据服务。
右边三个蓝色的板块分别是数据管理委员会、数据运维团队和数据安全团队。前文提到宜信对数据安全的要求非常高,所以设
置了专门的数据安全团队来规划公司数据安全的流程和策略;数据管理委员会负责数据的标准化、流程化,补齐技术型驱动的
数据中台的推动效率,保证有效沉淀和呈现数据资产。
我们对宜信敏捷数据中台的定位是:从数据技术和计算能力复用,到数据资产和数据服务复用,敏捷数据中台会以更大价值带
宽,快、准、精让数据直接赋能业务。
2.3 价值
宜信敏捷数据中台的价值集中表现为三个方面:快、准、省。
图2 价值

2.4 模块架构维度
如图所示,宜信敏捷数据中台的建设也是基于“小前台,大中台”的共识。整个中间部分都属于敏捷数据中台包含的内容,左边
绿色部分是基于数据维度来看整个中台,右边蓝色部分则是基于平台维度来看中台。
数据维度。各种内部数据、外部数据先归集到数据源层,再以统一化、实时化、标准化、安全化等方式存储起来形成数据湖
层,数据湖对这些原始数据进行处理和体系化归类,转化为数据资产;数据资产层包括数仓体系、指标体系、标签体系、特征
体系、主数据等;最后将沉淀的这些可复用的数据资产提供给数据应用层,供BI、AI、数据产品应用。
平台维度。每个蓝色的方框都代表一个技术模块,整个宜信敏捷数据中台就是由这些技术模块组合而成。其中DataHub数据枢
纽,可以帮助用户完成自助数据申请、发布、脱敏、清洗和服务等;DataWorks数据工坊,可以对数据进行自助查询、作业、
可视化等处理;还有DataStar数据模型、DataTag数据标签、DataMgt 数据管理、ADXMgt 中台管理等。
值得一提的是,这些模块都不是从0开发的,而是基于我们已有的开源工具。首先,基于成熟的中间件工具来进行开发,可以
节约开发的时间和成本;其次,开源工具成为引擎,可以共同合力支撑更大的一站式平台。
2.5 数据能力维度

图4 数据能力维度
将上述架构模块重新按照能力维度划分,可以分成若干层,每一层都包含若干能力。如图所示,可以清晰地看到建设数据中台
需要具备哪些数据能力,这些能力都对应哪些功能模块,分别能解决什么问题。此处不再展开赘述。
三、从中间件工具到平台
3.1 ABD总览
图5 ABD总览
中间件工具指DBus、Wormhole、Moonbox、Davinci四大开源平台,它们从敏捷大数据(ABD,Agile BigData)理念中抽象
而出,组成ABD平台栈,敏捷数据中台则被我们称为ADX(Agile Data X Platform)。也就是说我们经历了从ABD到ADX的过
程。
一开始,基于对业务需求共性的抽象和总结,我们孵化出若干个通用的中间件,去解决各种各样的问题。当出现更为复杂的需
求,我们尝试将这些通用的中间件进行组合运用。实践中,我们发现经常会使用到某些特定的组合,同时,从用户角度来看,
他们更希望能实现自助化,直接拿过来就能用,而不是每次都要自己去选择和组合。基于这两点,我们对这几个开源工具进行
了封装。
3.1.1 ABD-DBus
DBus(数据总线平台),是一个DBaaS(Data Bus as a Service)平台解决方案。
DBus面向大数据项目开发和管理运维人员,致力于提供数据实时采集和分发解决方案。平台采用高可用流式计算框架,提供
海量数据实时传输,可靠多路消息订阅分发,通过简单灵活的配置,无侵入接入源端数据,对各个IT系统在业务流程中产生的
数据进行汇集,并统一处理转换成通过JSON描述的UMS格式,提供给不同下游客户订阅和消费。DBus可充当数仓平台、大
数据分析平台、实时报表和实时营销等业务的数据源。
开源地址:https://github.com/BriData

图6 DBus功能及定位
如图所示,DBus可以无侵入地对接各种数据库的数据源,实时抽取增量数据,做统一清洗和处理,并以UMS的格式存储到
Kafka中。
DBus的功能还包括批量抽取、监控、分发、多租户,以及配置清晰规则等,具体功能特性如图所示。
上图右下角展示的是DBus的一个截图,用户在DBus上可以通过一个可视化页面,拉取增量数据,配置日志和清洗方式,完成
实时数据抽取等工作。
图7 DBus架构
从如上架构图可以看到DBus包括若干不同的处理模块,支持不同的功能。(GitHub有具体介绍,此处不作展开。)
3.1.2 ABD-Wormhole
Wormhole(流式处理平台),是一个SPaaS(Stream Processing as a Service)平台解决方案。
Wormhole面向大数据项目开发和管理运维人员,致力于提供数据流式化处理解决方案。平台专注于简化和统一开发管理流
程,提供可视化的操作界面,基于配置和SQL的业务开发方式,屏蔽底层技术实现细节,极大的降低了开发门槛,使得大数据
流式处理项目的开发和管理变得更加轻量敏捷、可控可靠。
开源地址:?https://github.com/edp963/wormhole
剩余20页未读,继续阅读



安全验证
文档复制为VIP权益,开通VIP直接复制

评论0