PB级海量数据服务平台：背景、需求与架构设计详解

171 浏览量更新于2024-08-29 收藏 468KB PDF 举报

PB级海量数据服务平台架构设计实践是一项复杂的任务，它涉及到处理大规模数据处理、高效查询以及适应不断变化的业务需求。以下是对架构设计的关键要素的深入解析： 1. 实践背景： - 当前现状：平台处理的数据源每日增量高达30~40TB，主要集中在40亿个移动设备ID相关的数据上，这些数据经过基础数据收集和初步加工后，还需根据各行业的特定需求进行二次加工，如整合第三方POI数据。 - 数据分工：数据收集和初步加工由专门团队负责，他们负责提供已加工的基础数据，后续的二次加工则需要结合业务特性。 - 团队能力：由于数据业务需求快速变化，参与研发的人员可能对具体数据业务需求了解不深入，需要灵活应对行业动态。 2. 业务需求： - 目标用户：初期主要服务于内部业务人员，他们缺乏技术背景，因此平台需提供直观易用的批量匹配功能，支持快速查询设备信息。 - 功能需求：平台需支持多种数据探索，包括地理位置筛选、应用类别、时间范围、POI信息等复杂条件，输出形式多样，如明细信息、统计报告和图表。 - 用户体验：对于用户提交的数据作业，平台应提供实时状态反馈，确保用户了解任务进度。 - 开发者接口：为满足部分开发者的需求，平台需要将操作服务化，便于外部系统调用。 3. 架构设计： - 技术选型：计算集群采用Spark on YARN部署模式，具备处理PB级数据的性能。这种模式有助于提高计算效率和资源利用率。 - 扩展性与复用性：设计时考虑了未来业务变化的灵活性，强调核心组件的可扩展性和复用性。这意味着平台应能轻松添加或调整服务，同时保持大部分基础功能不变。 - 开发者友好：为了方便开发者，数据平台不仅要提供API，还要考虑如何使数据业务服务更容易被其他系统集成，以促进整体开发效率。 PB级海量数据服务平台的架构设计需兼顾数据的高效处理、易用的用户界面和未来的可扩展性，通过合理的技术选型和精细的业务需求理解，构建出能满足多元化需求的稳定平台。

PB级海量数据服务平台架构设计实践级海量数据服务平台架构设计实践

基于PB级海量数据实现数据服务平台，需要从各个不同的角度去权衡，主要包括实践背景、技术选型、架构设计，我们基于

这三个方面进行了架构实践，下面分别从这三个方面进行详细分析讨论：

实践背景

该数据服务平台架构设计之初，实践的背景可以从三个维度来进行说明：当前现状、业务需求、架构需求，分别如下所示：

当前现状

收集了当前已有数据、分工、团队的一些基本情况，如下所示：

数据收集和基础数据加工有专门的Team在做，我们是基于收集后并进行过初步加工的基础数据，结合不同行业针对特定数据

的需求进行二次加工的。

数据二次加工，会集成基础数据之外的其它有业务属性的数据，比如引入第三方POI数据等。

原始数据每天增量大约30~40TB左右。

计算集群采用Spark on YARN部署模式，大约400个节点。

所有数据各种属性、行为信息，都是围绕大约40亿的移动设备ID进行很多倍膨胀，比如每天使用微信App的设备的行为信息。

参与该平台的研发人员，对实际数据业务需求了解不会非常深入，因为跨多个行业及其不同数据需求的变化较快。

业务需求

另外，实现的该数据服务平台，需要满足当前的基本数据业务需求，主要包括使用平台的人员特点，需要支撑的各种基本数据

需求，经过梳理，如下所示：

平台初期面向内部业务人员使用，几乎没有技术背景。

40亿+的移动设备大表，包含各类设备ID及其设备属性，需要提供批量匹配功能：给定一类或多类设备ID的批量文件，从大表

中获取到匹配上的设备信息（ID及多个属性信息）。

对PB级数据进行各种快速探索，输入各种过滤条件，如地域（国家/省/市/区）、地理围栏（地图圈选/上传文件/直接输入）、

使用的App及分类（安装/活跃）、时间范围（日/周/月）、POI及分类等等，理论上不限制条件个数，经验值最多在5~6个左

右。

输出主要包括明细信息、多维度统计（画像）、图表（热力图）等。

平台提供的数据服务，都是批量模式的计算，所以需要为用户提交的数据作业，给予准确的状态变化反馈。

有小部分面向开发人员的需求：将在数据平台Web系统操作进行的数据匹配、提取、探索等操作，进行服务化以供其他系统

中的服务调用。

架构需求

在未来业务模式变化的情况下，能够非常容易地扩展，并尽量复用大部分核心组件。同时，还要面向开发人员复用数据平台的

数据业务服务，以增加平台利用率，间接产出数据价值。考虑如下一些当前需要以及未来可能演变的架构需求：

定义作业和任务的概念：作业是用户为满足一次业务需要而提交的数据获取请求，最终输出想要的数据结果；任务是为满足输

出一个作业结果，从逻辑上拆分成的基本计算单元。一个作业由多个任务的计算组合而完成。

对于一个作业输入的多个过滤条件，如果作为一个单独的计算任务，根本无法在PB量级的数据上输出结果，所以需要将作业

拆分成多个任务进行分别计算，最后输出结果。

对用户作业状态的管理，具有一定的业务含义，基本不能在公司级别进行复用，具体涉及内容包括：排队、组成作业的任务列

表管理、作业优先级管理。

任务是最基本的计算单位，设计能够协调整个任务计算的架构，可以分离出任何业务状态，实现为无状态的任务计算架构，在

公司级别可以复用，比如大量基于Spark的计算可以抽象为任务计算。

由于时间范围条件跨度需要支持几年（如1~3年），计算依赖的数据量级在TB甚至PB级别，所以一定要通过预计算的方式压

缩数据，并能提供支持快速计算的方式。

预计算可以使用Spark计算集群，每天通过控制计算所需资源进行大规模ETL处理。

ETL处理，迫切需要一个简单、轻量的ETL作业调度系统，可以从开源产品中甄选。

采用原生Spark计算基本无法为平台上用户提供快速计算的体验，可能会考虑列式分布式数据库，或基于Bitmap结构的分布式

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38506182

粉丝: 3
资源: 942

PB级海量数据服务平台：背景、需求与架构设计详解

【2012淘宝ADC技术嘉年华】淘宝数据服务平台-架构与实践下载

基于云计算的边防信息资源管理服务平台架构设计.pdf

pb9 http服务

形象说明GB、TB、甚至PB级数据到底多大

采用PB的压缩数据存储，原理及详细过程

pb excel导入数据窗口

pb 数据窗口显示图片

pb httppost json

pb 接收十六进数据

pb 动态创建数据窗口

最新资源