阿里巴巴大数据开发平台:赋能、开放与质量管控

需积分: 0 2 下载量 99 浏览量 更新于2024-07-22 收藏 3.09MB PDF 举报
“阿里巴巴资深技术专家强琦在云计算大会上分享了关于大数据开发平台的主题,涵盖了大数据开发的背景、平台构建及应用探索。阿里巴巴大数据平台旨在解决数据管理、计算能力及数据质量问题,通过建立开放体系和数据市场,促进数据共享与价值挖掘。” 在大数据开发的背景下,阿里巴巴面临的数据规模十分庞大,包括数百万张表的结构化数据,总计80P(拍字节)的数据量,每月新增3P的数据,覆盖所有业务线,并涉及外部数据。在这样的背景下,企业面临着数据管理、计算能力和数据质量的挑战。 为了解决这些挑战,阿里巴巴构建了大数据开发平台。在数据管理方面,平台提供了元数据管理和数据地图,建立了质量体系,如血缘分析,以及数据探索功能,使得数据可以被轻松找到。在大数据处理平台上,他们实现了大规模批量计算系统、流计算服务化、数据同步中心、实时数据中心以及在线KV存储服务,以提供经济高效的计算能力和数据服务。此外,平台还包括调度服务、即时计算服务、监控、计量、审计和安全服务,以及一个开发者门户IDE,方便用户进行开发和算法研究。 在数据质量和易用性的提升上,阿里巴巴采用了DQC(数据质量管理)工具,结合血缘分析来保证数据质量。平台的设计理念是成为“赋能者”,通过提供易用的工具和服务,让所有用户都能充分挖掘大数据的价值。平台采用星型架构,设立统一中间层ODS和通用数据层,避免重复建设,提高数据质量,并通过数据市场机制推动数据的共享和共建。 在实施策略上,平台以业务落地为导向,构建开放体系。这包括组件API服务,接入标准如元数据、安全、计量、血缘和授权,以及对内外部的开放策略。阿里巴巴数据交换平台服务于各个业务领域,如信用、金融、社会化、物流、管理、SaaS等,支持淘宝、天猫、一淘、阿里云等业务。平台还包含了基础数据体系、安全体系、监控系统、审计系统、计量体系、开发者平台等关键组成部分,以及调度系统、工作流、资源调度、数据同步、数据管理、流式处理等功能,确保数据的高效流转和处理。 阿里巴巴大数据开发平台是一个全面的数据管理和分析生态系统,旨在优化数据管理流程,提升计算效率,保障数据质量,并通过开放和共享机制,激发大数据的潜在价值,为企业和开发者提供强大的数据服务支持。