PB级数据服务平台：架构设计与实践

120 浏览量更新于2024-08-27 1 收藏 468KB PDF 举报

"PB级海量数据服务平台架构设计实践" 在设计PB级海量数据服务平台时，我们需要考虑的关键因素包括实践背景、技术选型和架构设计。首先，实践背景涉及当前现状、业务需求和架构需求。当前现状描述了数据服务平台的基础。数据收集和基础处理由专门的团队负责，而我们的任务是在此基础上进行二次加工，整合各种业务属性数据，例如引入第三方POI数据。每天新增的数据量约为30~40TB，这要求平台具备强大的存储和处理能力。计算集群采用Spark on YARN部署，拥有约400个节点，处理围绕40亿移动设备ID产生的大量数据。研发团队需要快速适应跨行业的多样化数据需求。业务需求方面，平台主要服务于内部业务人员，他们可能缺乏技术背景，因此平台需要简洁易用。核心功能包括设备ID的大规模匹配、PB级数据的快速探索和过滤，以及提供批量计算、多维度统计和可视化输出。平台还应支持服务化，以便开发人员在其他系统中调用数据服务。架构需求则关注未来的可扩展性和组件复用。平台需能在业务模式变化时轻松扩展，并确保核心组件的高效复用。此外，面向开发人员开放数据业务服务，可以增强平台的灵活性和利用率。在技术选型上，考虑到大数据处理的挑战，可能会选择Hadoop、Spark等分布式计算框架，用于数据的存储、处理和分析。HBase或Cassandra可能用于存储大规模的设备ID数据，以支持快速查询。为了提供Web服务，可能采用微服务架构，利用Docker和Kubernetes进行容器化和编排，确保服务的稳定性和可扩展性。同时，可能采用RESTful API设计原则，使数据服务易于被其他系统调用。在架构设计阶段，会考虑数据的分层处理，如数据湖和数据仓库的构建，以分离实时分析和离线批处理。流处理技术如Apache Flink或Kafka可以用于实时数据接入和处理。此外，安全性和隐私保护也是设计的重要部分，可能采用数据加密和访问控制策略来保护敏感信息。 PB级海量数据服务平台的构建是一项复杂而全面的工作，涉及到数据的全生命周期管理，包括采集、存储、处理、分析和服务化。通过合理的技术选型和架构设计，可以有效应对海量数据带来的挑战，满足业务需求，并为未来的发展打下坚实基础。

PB级海量数据服务平台架构设计实践级海量数据服务平台架构设计实践

基于PB级海量数据实现数据服务平台，需要从各个不同的角度去权衡，主要包括实践背景、技术选型、架构设计，我们基于

这三个方面进行了架构实践，下面分别从这三个方面进行详细分析讨论：

实践背景

该数据服务平台架构设计之初，实践的背景可以从三个维度来进行说明：当前现状、业务需求、架构需求，分别如下所示：

当前现状

收集了当前已有数据、分工、团队的一些基本情况，如下所示：

数据收集和基础数据加工有专门的Team在做，我们是基于收集后并进行过初步加工的基础数据，结合不同行业针对特定数据

的需求进行二次加工的。

数据二次加工，会集成基础数据之外的其它有业务属性的数据，比如引入第三方POI数据等。

原始数据每天增量大约30~40TB左右。

计算集群采用Spark on YARN部署模式，大约400个节点。

所有数据各种属性、行为信息，都是围绕大约40亿的移动设备ID进行很多倍膨胀，比如每天使用微信App的设备的行为信息。

参与该平台的研发人员，对实际数据业务需求了解不会非常深入，因为跨多个行业及其不同数据需求的变化较快。

业务需求

另外，实现的该数据服务平台，需要满足当前的基本数据业务需求，主要包括使用平台的人员特点，需要支撑的各种基本数据

需求，经过梳理，如下所示：

平台初期面向内部业务人员使用，几乎没有技术背景。

40亿+的移动设备大表，包含各类设备ID及其设备属性，需要提供批量匹配功能：给定一类或多类设备ID的批量文件，从大表

中获取到匹配上的设备信息（ID及多个属性信息）。

对PB级数据进行各种快速探索，输入各种过滤条件，如地域（国家/省/市/区）、地理围栏（地图圈选/上传文件/直接输入）、

使用的App及分类（安装/活跃）、时间范围（日/周/月）、POI及分类等等，理论上不限制条件个数，经验值最多在5~6个左

右。

输出主要包括明细信息、多维度统计（画像）、图表（热力图）等。

平台提供的数据服务，都是批量模式的计算，所以需要为用户提交的数据作业，给予准确的状态变化反馈。

有小部分面向开发人员的需求：将在数据平台Web系统操作进行的数据匹配、提取、探索等操作，进行服务化以供其他系统

中的服务调用。

架构需求

在未来业务模式变化的情况下，能够非常容易地扩展，并尽量复用大部分核心组件。同时，还要面向开发人员复用数据平台的

数据业务服务，以增加平台利用率，间接产出数据价值。考虑如下一些当前需要以及未来可能演变的架构需求：

定义作业和任务的概念：作业是用户为满足一次业务需要而提交的数据获取请求，最终输出想要的数据结果；任务是为满足输

出一个作业结果，从逻辑上拆分成的基本计算单元。一个作业由多个任务的计算组合而完成。

对于一个作业输入的多个过滤条件，如果作为一个单独的计算任务，根本无法在PB量级的数据上输出结果，所以需要将作业

拆分成多个任务进行分别计算，最后输出结果。

对用户作业状态的管理，具有一定的业务含义，基本不能在公司级别进行复用，具体涉及内容包括：排队、组成作业的任务列

表管理、作业优先级管理。

任务是最基本的计算单位，设计能够协调整个任务计算的架构，可以分离出任何业务状态，实现为无状态的任务计算架构，在

公司级别可以复用，比如大量基于Spark的计算可以抽象为任务计算。

由于时间范围条件跨度需要支持几年（如1~3年），计算依赖的数据量级在TB甚至PB级别，所以一定要通过预计算的方式压

缩数据，并能提供支持快速计算的方式。

预计算可以使用Spark计算集群，每天通过控制计算所需资源进行大规模ETL处理。

ETL处理，迫切需要一个简单、轻量的ETL作业调度系统，可以从开源产品中甄选。

采用原生Spark计算基本无法为平台上用户提供快速计算的体验，可能会考虑列式分布式数据库，或基于Bitmap结构的分布式

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38699302

粉丝: 2
资源: 922

PB级数据服务平台：架构设计与实践

PB级海量数据服务平台：背景、需求与架构设计详解

淘宝海量数据服务平台：架构揭秘与实战深度解析

淘宝数据服务平台：海量数据处理与应用实践

在Hadoop生态中大数据平台架构与实践.rar

企业级云端数据仓库的架构实践.pptx

海量数据分析架构

【2012淘宝ADC技术嘉年华】淘宝数据服务平台-架构与实践下载

基于云计算的边防信息资源管理服务平台架构设计.pdf

海量数据时代：Hadoop驱动的数据分析平台架构

淘宝海量数据云：架构、服务与关键组件

最新资源