SparkonPADDLE：百度的异构分布式深度学习系统

77 浏览量更新于2024-08-27 收藏 350KB PDF 举报

百度基于Spark构建了一个异构分布式深度学习平台，名为SparkonPADDLE，该平台将Spark与深度学习平台PADDLE相结合，解决了PADDLE与其他业务逻辑间的数据传输问题，并利用GPU和FPGA的异构计算能力提升了处理效率。此外，平台采用YARN对异构资源进行分配，支持多租户（Multi-Tenancy），优化了资源利用率。深度学习平台PADDLE由百度深度学习实验室开发，设计重点在于优化训练算法，支持多GPU/CPU并行训练，尤其适合处理大规模的稀疏特征数据。PADDLE的并行训练策略包括数据并行和模型并行，其中数据并行是常见的分布式训练方法，通过拆分大数据集并在多个机器上同时训练，确保模型的同步和收敛性，通常采用参数服务器架构来实现。 SparkonPADDLE的创新之处在于它将PADDLE集成到Spark生态系统中，使得深度学习成为Spark的一个功能模块，从而便于与其他业务逻辑协同工作。在应对大规模数据需求时，平台增加了对GPU和FPGA的异构计算支持，以显著提高数据处理速度。通过YARN进行资源管理，可以有效地分配和调度GPU、FPGA等异构资源，实现更高效的任务执行。在深度学习中，GPU因其并行计算能力而被广泛用于加速计算密集型任务，如神经网络的前向传播和反向传播。FPGA（现场可编程门阵列）则提供了定制化计算的能力，可以根据特定算法进行优化，进一步提升计算效率。在SparkonPADDLE中，这两种硬件资源的结合使得平台能够处理更大规模的数据集，同时保持高效率，这对于在语音识别、图像处理、自然语言理解和自动驾驶等领域的深度学习应用至关重要。 SparkonPADDLE是百度应对深度学习大规模分布式训练挑战的解决方案，它融合了Spark的灵活性和PADDLE的高性能训练能力，通过异构计算和资源管理优化，提升了深度学习在百度内部各业务线的应用效率和普及程度。这一平台的建立，不仅解决了现有深度学习平台与业务逻辑间的协作问题，也为其他企业提供了借鉴，展示了如何构建一个高效、灵活且适应性强的深度学习环境。

基于基于Spark的异构分布式深度学习平台的异构分布式深度学习平台

导读：本文介绍百度基于Spark的异构分布式深度学习系统，把Spark与深度学习平台PADDLE结合起来解决PADDLE与业务

逻辑间的数据通路问题，在此基础上使用GPU与FPGA异构计算提升每台机器的数据处理能力，使用YARN对异构资源做分

配，支持Multi-Tenancy，让资源的使用更有效。

深层神经网络技术最近几年取得了巨大的突破，特别在语音和图像识别应用上有质的飞跃，已经被验证能够使用到许多业务

上。如何大规模分布式地执行深度学习程序，使其更好地支持不同的业务线成为当务之急。在过去两年，百度深度学习实验室

在徐伟的带领下开发了分布式深度学习平台PADDLE（Parallel Asynchronous Distributed Deep Learning），很好地满足了许

多业务需求。但由于PADDLE是独立的深度学习平台，不能很好地跟其他业务逻辑结合，导致PADDLE与其他业务逻辑间的数

据通路成为了性能的瓶颈。为了让更多的业务使用上深度学习技术，我们开发了Spark on PADDLE平台，让PADDLE变成百

度Spark生态系统的一个功能模块。在第一版完成之后，我们发现CPU计算能力已经满足不了百度巨大的数据量需求，于是我

们在Spark on PADDLE的基础上增加了对异构的支持，充分利用了GPU和FPGA等资源去加速PADDLE上的作业。

深度学习系统PADDLE的设计

PADDLE是一个成熟的分布式深度学习平台，广泛应用于百度的图像识别、自然语言理解、语音、无人车等领域，其主要的特

点是训练算法高度优化，支持多GPU/CPU训练，训练效率高，对稀疏特征有独特的优化。

现有的深度学习平台，一般都是通过单机方式进行训练，如开源的Caffe平台也是通过单机多卡的方式进行训练。但当数据或

者模型规模上去以后，要提高训练效率，必然要进行分布式训练，主要有数据并行和模型并行两种方法。

数据并行是分布式深度学习用得最多的并行方法。所谓数据并行，就是因为训练数据规模非常大，需要把数据拆分，把模型分

布到N个机器训练。但是因为最终训练的是一个模型，同时每个机器只能分配到一部分数据，训练的同步和收敛性必须得到保

证。最经典的做法是在《Parameter Server for Distributed Machine Learning》中提到的用参数服务器（Parameter Server）

的方法。具体的想法是用模型参数服务的方法来同步参数的更新，每个参数服务器只负责同步公共参数的一部分。举个例子来

说，如果模型M，被分布到N个机器上面训练，每个机器拿到一部分数据.

假设训练的参数集合是W，每个机器首先进行本地训练，假设他们初始化参数都是

根据

每台机器都能算出相应的代价函数的梯度，一般按照单机神经网络反向传播的方式，每个层都可以梯度来得到参数的修正值，

这样参数就变成

因为是多机，每个节点对参数的修正量不同，就会多了一个步骤把各自参数的修正量push给参数服务器，由它统一决策下个

训练循环的修正量，这样大家的训练模型就会被统一起来。

图1 数据并行

图1展示了深度学习数据并行的部署架构。一般分为以下步骤；

1.训练数据预处理，把数据切分为data shards；

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38734200

粉丝: 6
资源: 914

SparkonPADDLE：百度的异构分布式深度学习系统

Angel^ ：基于Angel的分布式机器学习平台.pdf

胡克秋-TonY：原生于Hadoop的深度学习执行框架-脱敏.pdf

网络游戏-基于异构信息网络的推荐方法及装置[1].zip

spark伪分布式是什么

spark伪分布式集群

介绍一下Spark 的分布式计算引擎

如何在spark分布式平台上训练深度学习模型？

联邦学习和spark分布式学习

spark伪分布式环境搭配

spark伪分布式安装

最新资源