蚂蚁金服数据分析平台:演进历程与关键应用

需积分: 16 8 下载量 59 浏览量 更新于2024-07-09 收藏 9.12MB PDF 举报
本资源主要讨论的是蚂蚁金服的数据分析平台及其演进历程,以及在实际应用中的关键组件和技术。首先,演讲者杨军来自蚂蚁金服的数据平台部,他将分享关于数据分析平台的发展、功能和核心能力。 1. 平台演进历史:演讲将回顾数据分析平台从早期到3.0版本的演变过程,探讨了各个阶段的技术进步和功能升级,包括数据工作台(如数据门户、数据采集、资产管理、研发、决策和实验平台)的建设。 2. 数据分析平台3.0详解:重点介绍数据分析平台的最新特性,如数据研发平台的一站式设计,支持ODPS、Spark、Raya等批处理和实时流式计算,以及PAI、TensorFlow等机器学习工具,实现数据的深度分析和挖掘预测。 3. 数据领域简介:涵盖数据分析领域的基本概念和角色,包括业务运营分析师、数据科学家等在平台中的作用,以及报表展示、数据分析和决策支持的工具如知数据APP、DeepInsight、DecisionX等。 4. 数据治理和核心能力:强调数据安全、隐私保护、数据质量和元数据管理的重要性,以及数据治理在整体数据生态系统中的核心地位。此外,平台还包含任务执行与调度、数据科学和决策服务引擎,确保数据的高效处理和应用。 5. 数据采集与传输、存储与计算:平台覆盖了数据的完整生命周期,从外部数据采集、全球数据爬取,到内部的数据存储和计算,以及多环境适应性和租户/账户管理体系。 6. 数据应用与消费:通过数据资产管理、数据决策支持和实验平台,实现数据驱动的业务洞察和敏捷决策,同时结合蚂蚁金服的多个业务线,如支付、网商、财富管理等。 7. 数据基础设施:平台背后的基础框架,如RDS、OB、日志系统、OSS、DataX和DTM等工具,以及Data OS这样的核心数据操作系统,提供了一站式的数据处理和开发环境。 本资源深入剖析了蚂蚁金服的数据分析平台,展示了其在大数据、云计算背景下如何通过不断演进和整合各种技术和工具,提升数据价值,驱动业务发展。
2021-06-16 上传
1、基础框架:基础框架里面有什么东西,为什么有他,比如说多环境适配,因为我们整套数据平台的解决方案是对外输出的,有公有云环境,有专有云环境,这些环境底下的基础设施都不一样,比如说包括租户和账户体系,权限体系,流程体系,审批流这类东西,所以正是通过基础框架搭我们底层的环境。最主要目的其实是提供一些我们上层数据应用的通用能力以及把底层的数据环境的差异给屏蔽掉。 2、核心能力: ① 数据安全:数据安全就会涉及到数据资产的分类、分级。不同类别的资产,他的安全等级是不一样的,他在安全里面需要有权限的话,他的审批策略是不一样的,这是数据安全这一块,可能还涉及一些比如脱敏,我们消费端接触到这些数据怎么脱敏; ② 隐私保护:隐私保护更偏重,比如说隐私保护还有一个叫法是数据安全、数据合规,我们想要做什么事情,就是我们要去透明化的看到各个公司数据流通,比如有哪些数据,这些数据的安全等级是什么样的,涉及到用户哪些数据; ③ 数据质量:主要是在我们数据研发过程当中,数据周期从发布到线上调度,调度完了怎么去做数据质量的监测,检测完了以后,比如说我们做离线调度的时候最重要的一个就是数据产出时效,所以有一个基线。这都是怎么去保障我们任务的基线; ④ 元数据中心:元数据中心大家都知道,因为我们下面有各种各样不同的引擎,有Spark,有ODPS,有MySQL这些东西,怎么去把它当中的数据统一的元数据中心; ⑤ 数据治理:数据治理的逻辑就是配合数据质量把我们现有的数据给盘清楚。 3、数据引擎 ① 任务执行与调度引擎:我们在做ETL的时候大多数都是这种任务执行与调度; ② 数据科学引擎:数据科学引擎主要是做分析,做业务洞察这一类,今天的数据业务平台可能更多的就是依赖于数据科学引擎,后面会详细介绍; ③ 决策服务引擎:决策引擎比如说给大家举一个场景,芝麻分大家都知道,那首先假如我有一个业务在线上,在线上做策略的时候,或者给大家看不同的页面的时候,不同的芝麻分的等级看到的页面或者等级是不一样的,这种东西是需要数据决策的,或者直白的来说,是需要这个人的芝麻分,这个通过统计数据服务会去配一个决策规则,相当于这里的决策引擎里面支持一种决策的DSL配置,简单来讲就是if……else……,if…else……,能够配置这样一套规则后,给在线业务场景提供服务,这是决策服务引擎。整个数据内核就这么多东西。