XDL训练系统演进：深度学习与海量挑战

版权申诉

60 浏览量更新于2024-07-05 收藏 3.18MB PDF 举报

本文档探讨了6-3+XDL训练系统的演进历程，重点关注了推荐系统与深度学习在该领域的融合及其所面临的一系列挑战和优化实践。6-3+XDL系统起源于2016年至2018年间，随着业务需求的增长，从最初的各个业务线独立使用MPI+MXNet和DIN/Crossmedia技术，逐步发展到广告统一的框架，如Psplus配合TensorFlow/MXNet，以及引入DIEN/TDM模型。在这个过程中，推荐系统的典型特点是海量数据，高维且稀疏的Embedding，这导致了数据处理的复杂性和内存效率问题。人工特征工程曾是主要手段，但模型的泛化能力相对较弱，对实时性和计算效率有高要求。系统设计面临的工程挑战包括分布式计算的扩展性（如通过HybridBackend@PAI进行图优化）、高效的数据预取流水线、列式存储零拷贝技术，以及支持稀疏计算的算子，如Unique+Partition、SparseSegmentSum/Mean/Tile和HashtableLookup等。针对异构计算环境中的稀疏矩阵操作，提出了一种稀疏融合策略，如CoalescedFeatureColumn，以提高训练效率。为了充分利用集群资源，系统采用了多种分布式训练模式，如ASP（全参数同步）、BSP（块同步）和SSP（准同步），以及Scale-out（水平扩展）和Scale-up（垂直扩展）方法，以实现PS高并发训练和HPC高性能训练。通信效率也是关键挑战之一，通过ACCL@AIS提供加速，如利用RDMA（RoCEv2）、TCP优化以及CPU offload等技术来减少网络延迟。为了提升模型的泛化能力，文中提及了多专家（Star）体系结构、在线学习（ODL）和预训练（ModelBank）的概念，以应对大规模训练和规模效应带来的复杂性。 XDL系统本身也在不断进化，从最初的XDL0.1版本到XDL2.X，伴随着业务的深入整合和技术的迭代，系统更加适应大规模互联网应用的需求，强调易用性和实时性，同时通过持续的优化，提升了训练效率和模型性能。整个系统的发展展示了从单机到分布式、从简单到复杂的技术变迁，以及在面对海量数据和稀疏特性时寻求最优解决方案的过程。

领域特点和问题 - 沉默？大多数？

科研成果相对少

从其他领域借鉴技术

Follow NLP

模型拟合强泛化弱

时效性

海量样本

超大规模稀疏参数

总算力巨大

迭代频繁

互联网应用标配

商业动力

人工特征工程

剩余14页未读，继续阅读

普通网友

粉丝: 13w+
资源:
9195

XDL训练系统演进：深度学习与海量挑战

Python-XDeepLearning简称XDL是阿里开源的深度学习框架包括核心训练引擎及算法解决方案

CH005.7 工程实践xdl.pdf

TEncBinCoderCABAC_1.rar_3D-HEVC_TEncSearch_xdl

应用聚类和粗糙集的FPGA底层数据挖掘.pdf

一种用于FPGA连线资源测试的配置方法.pdf

一种用perl编写FPGA内建测试向量的方法.pdf

一种XDL网表电路到有向超图的转换系统.docx

众邦 XDL小电流系统接地微机选线装置说明书.rar

《淘系千人千面分发体系全拆解》 (1).pdf

一种SRAM型FPGA单粒子故障注入实验集的筛选方法.pdf

最新资源