XDL训练系统演进:深度学习与海量挑战

版权申诉
0 下载量 80 浏览量 更新于2024-07-05 收藏 3.18MB PDF 举报
本文档探讨了6-3+XDL训练系统的演进历程,重点关注了推荐系统与深度学习在该领域的融合及其所面临的一系列挑战和优化实践。6-3+XDL系统起源于2016年至2018年间,随着业务需求的增长,从最初的各个业务线独立使用MPI+MXNet和DIN/Crossmedia技术,逐步发展到广告统一的框架,如Psplus配合TensorFlow/MXNet,以及引入DIEN/TDM模型。 在这个过程中,推荐系统的典型特点是海量数据,高维且稀疏的Embedding,这导致了数据处理的复杂性和内存效率问题。人工特征工程曾是主要手段,但模型的泛化能力相对较弱,对实时性和计算效率有高要求。系统设计面临的工程挑战包括分布式计算的扩展性(如通过HybridBackend@PAI进行图优化)、高效的数据预取流水线、列式存储零拷贝技术,以及支持稀疏计算的算子,如Unique+Partition、SparseSegmentSum/Mean/Tile和HashtableLookup等。 针对异构计算环境中的稀疏矩阵操作,提出了一种稀疏融合策略,如CoalescedFeatureColumn,以提高训练效率。为了充分利用集群资源,系统采用了多种分布式训练模式,如ASP(全参数同步)、BSP(块同步)和SSP(准同步),以及Scale-out(水平扩展)和Scale-up(垂直扩展)方法,以实现PS高并发训练和HPC高性能训练。 通信效率也是关键挑战之一,通过ACCL@AIS提供加速,如利用RDMA(RoCEv2)、TCP优化以及CPU offload等技术来减少网络延迟。为了提升模型的泛化能力,文中提及了多专家(Star)体系结构、在线学习(ODL)和预训练(ModelBank)的概念,以应对大规模训练和规模效应带来的复杂性。 XDL系统本身也在不断进化,从最初的XDL0.1版本到XDL2.X,伴随着业务的深入整合和技术的迭代,系统更加适应大规模互联网应用的需求,强调易用性和实时性,同时通过持续的优化,提升了训练效率和模型性能。整个系统的发展展示了从单机到分布式、从简单到复杂的技术变迁,以及在面对海量数据和稀疏特性时寻求最优解决方案的过程。