Horovod驱动的深度分布式学习：加速Uber工程中的大规模模型训练

需积分: 32 173 浏览量更新于2024-07-15 收藏 2.42MB PDF 举报

分布式深度学习与Horovod：优化大规模并行训练 Horovod是一款专为深度学习设计的分布式训练插件，它基于Ring-AllReduce算法，旨在简化在多个流行深度学习框架（如TensorFlow、Keras和PyTorch）上实现模型并行和数据并行训练的过程。其核心优势在于提供了一致且易于管理的配置选项，使平台开发者无需为每种架构单独调整设置，从而降低了复杂性。在深度学习领域，随着算法的不断改进，即使在数据饱和的情况下，仍能提升模型的准确性和性能。这使得深度学习在诸如自动驾驶、旅行预测、欺诈检测等多个领域展现了巨大的潜力。然而，大规模数据集和复杂模型往往会带来训练时间的挑战，特别是在单台机器上的内存限制成为瓶颈时。例如，AWS的p3.x16large实例提供了128GB的GPU内存，而NVIDIA DGX-2则拥有惊人的512GB内存，但大部分模型仍然可以受益于数据并行训练，即将数据分割到多台设备上同时处理，而非完全依赖单一设备的计算能力。这种策略有助于提高训练效率，将原本可能耗时数周的任务缩短至可接受的时间范围。在选择数据并行训练方法时，有许多策略可供选择，但这些方法的实现方式和用户体验差异较大。Horovod的目标是解决这两个问题： 1. 对于基础设施工程师，他们需要处理的问题包括服务器选择、网络配置、容器环境和优化分布式训练性能的参数调整。Horovod通过标准化接口和底层优化，使得这些任务更加简便。 2. ML工程师的关注点则集中在构建高效且易用的模型上，他们希望能够在保持高性能的同时，专注于模型的设计和创新。有了Horovod，他们可以专注于模型开发，而无需过多关注底层的分布式训练细节。 Horovod作为深度学习的分布式训练解决方案，不仅解决了硬件资源的有效利用问题，还提高了开发者的工作效率，推动了Uber在自动驾驶、预测分析和安全监控等业务场景中的深度学习应用。通过简化分布式训练流程，它促进了深度学习技术在大规模应用中的普及和发展。

Meet Horovod

● Library for distributed deep learning.

● Works with stock TensorFlow, Keras, PyTorch,

and Apache MXNet.

● Installs on top via `pip install horovod`.

● Uses advanced algorithms & can leverage

features of high-performance networks (RDMA,

GPUDirect).

● Separates infrastructure from ML engineers:

○ Infra team provides container & MPI environment

○ ML engineers use DL frameworks that they love

○ Both Infra team and ML engineers have consistent

expectations for distributed training across frameworks

horovod.ai

剩余40页未读，继续阅读

舒克与贝克

粉丝: 3w+
资源: 5

Horovod驱动的深度分布式学习：加速Uber工程中的大规模模型训练

用Horovod实现大规模分布式深度学习.pdf

CRC.Press.-.Creating.Components.-.Object.Oriented,.Concurrent,.and.Distributed.Computing.in.Java.-.2004.chm

WARD方法matlab代码-Distributed-Compressive-Sensing-A-Deep-Learning-Approach

Tensorflow-for-Distributed-Deep-Learning:使用Google Cloud Machine Learning Engine的TensorFlow（1.8+）数据集，功能列，估计量和分布式培训

Distributed-Deep-Learning-Sovrin:团队43

distributed-deep-q:CME 323 项目

2. distributed-programming-in-hadoop.md

HotSDN-paper-2014-ONOS-Towards-an-Open-Distributed-SDN-OS.pdf

Python库 | pymilvus_distributed-0.0.63-py3-none-any.whl

Distributed-Frontend-Arch--Ahmad Amireh.pdf

最新资源