有赞大数据实践：从Hive到SparkSQL的迁移与优化

147 浏览量更新于2024-08-28 收藏 391KB PDF 举报

"有赞大数据平台的架构与SparkSQL的迁移实践" 有赞数据平台的架构设计是一个典型的大型企业级大数据处理系统。该平台的核心组件包括数据导入、计算框架和数据平台服务三个层次。 1. 数据导入层：利用DataY（有赞内部开发的工具）进行Mysql到Hive的增量同步，它不仅处理全量数据，还能有效地合并历史数据与增量数据。DataX作为开源工具用于数据同步，而Flume则主要负责日志数据的收集，同时作为Mysqlbinlog到HDFS的同步工具。 2. 计算框架层：涵盖了分布式存储计算和实时计算两个子领域。Hadoop和Hbase作为存储基础，ETL过程主要依赖Hive和Spark。实时计算框架包括JStorm、Spark Streaming和新引入的Flink。此外，Spark和Presto用于交互式查询，实时OLAP系统采用了Druid以提供高效的日志聚合查询。 3. 数据平台层：面向数据开发者，提供了数据开发平台（包括调度、数据传输和数据质量系统）以及数据查询平台（包含ad-hoc查询和元数据查询），确保数据开发和分析的高效进行。 2017年，有赞开始尝试将Hive替换为SparkSQL，主要是因为Hive在处理大规模数据和复杂SQL时表现乏力，而SparkSQL随着技术的发展，展现出更优的性能和架构。SparkSQL在处理速度、资源利用率以及SQL优化方面都有显著提升，尤其是在处理大量业务数据增长的背景下，能更好地满足服务承诺。在迁移过程中，有赞面临并解决了一系列问题，包括但不限于： - SQL兼容性：确保SparkSQL能够处理Hive中的所有查询逻辑，可能需要对部分SQL进行调整。 - 性能调优：针对特定查询场景进行性能优化，如内存管理、并行度调整等。 - 系统稳定性：在大规模部署中保证SparkSQL作业的稳定运行，防止资源争抢和作业失败。 - 监控和报警：建立完善的监控体系，对异常作业及时报警和恢复。 - 用户培训：帮助开发人员适应新的查询语言和工具。通过这次迁移，有赞数据平台成功实现了资源效率的提升，提高了作业执行速度，并为未来的大数据处理需求打下了坚实的基础。这一实践经验对于其他考虑从Hive迁移到SparkSQL的企业具有重要的参考价值。

从从Hive迁移到迁移到SparkSQL，有赞的大数据实践，有赞的大数据实践

前言

有赞数据平台从 2017 年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量

5000 个，占离线作业数目的 55%，消耗的 cpu 资源占集群总资源的 50% 左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到

的问题以及处理经验和优化建议，包括以下方面的内容：

有赞数据平台的整体架构。

SparkSQL 在有赞的技术演进。

从 Hive 到 SparkSQL 的迁移之路。

一. 有赞数据平台介绍

首先介绍一下有赞大数据平台总体架构：

如下图所示，底层是数据导入部分，其中 DataY 区别于开源届的全量导入导出工具 alibaba/DataX，是有赞内部研发的离线

Mysql 增量导入 Hive 的工具，把 Hive 中历史数据和当天增量部分做合并。DataX / DataY 负责将 Mysql 中的数据同步到数仓

当中，Flume 作为日志数据的主要通道，同时也是 Mysql binlog 同步到 HDFS 的管道，供 DataY 做增量合并使用。

第二层是大数据的计算框架，主要分成两部分：分布式存储计算和实时计算，实时框架目前主要支持 JStorm，Spark

Streaming 和 Flink，其中 Flink 是今年开始支持的；而分布式存储和计算框架这边，底层是 Hadoop 和 Hbase，ETL 主要使

用 Hive 和 Spark，交互查询则会使用 Spark，Presto，实时 OLAP 系统今年引入了 Druid，提供日志的聚合查询能力。

第三层是数据平台部分，数据平台是直接面对数据开发者的，包括几部分的功能，数据开发平台，包括日常使用的调度，数据

传输，数据质量系统；数据查询平台，包括 ad-hoc 查询以及元数据查询。有关有赞数据平台的详细介绍可以参考往期有赞数

据平台的博客内容。

二. SparkSQL 技术演进

从 2017 年二季度，有赞数据组的同学们开始了 SparkSQL 方面的尝试，主要的出发点是当时集群资源是瓶颈，Hive 跑任务

已经逐渐开始乏力，有些复杂的 SQL，通过 SQL 的逻辑优化达到极限，仍然需要几个小时的时间。业务数据量正在不断增

大，这些任务会影响业务对外服务的承诺。同时，随着 Spark 以及其社区的不断发展，Spark 及 Spark SQL 本身技术的不断

成熟，Spark 在技术架构和性能上都展示出 Hive 无法比拟的优势。

从开始上线提供离线任务服务，再到 Hive 任务逐渐往 SparkSQL 迁移，踩过不少坑，也填了不少坑，这里主要分两个方面介

绍，一方面是我们对 SparkSQL 可用性方面的改造以及优化，另一方面是 Hive 迁移时遇到的种种问题以及对策。

2.1 可用性改造

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38663151

粉丝: 3
资源: 897

有赞大数据实践：从Hive到SparkSQL的迁移与优化

有赞大数据实践：敏捷数据仓库构建与挑战

有赞大数据实践：Presto的高性能查询与应用

有赞大数据实践：Presto的高性能与应用场景解析

SparkSQL大数据平台实践.pptx

Facebook Hive迁移至SparkSQL的经验与挑战

暴风指数：Hive数据仓库与Hadoop大数据实践

SparkSQL与大数据平台实战

有赞大数据开发平台最佳实践：调度优化与监控体系

从Hive到SparkSQL的迁移经验分享

Hive：Hadoop上的大数据仓库工具

最新资源