阿里DeepRec:大规模稀疏模型训练与 Serving 解决方案

版权申诉
0 下载量 193 浏览量 更新于2024-07-05 收藏 23.52MB PDF 举报
"DeepRec是一个专为大规模稀疏模型设计的训练引擎,由阿里云计算平台事业部PAI的高级技术专家刘童璇开发。它基于TensorFlow分布式训练框架,旨在解决稀疏模型在训练性能、部署及在线服务中的挑战。主要功能包括: 1. **稀疏功能**:DeepRec针对稀疏数据进行优化,通过特征淘汰和准入策略,根据特征频率动态调整维度,如低频特征使用较低维度,高频特征则使用较高维度,以提高存储和计算效率。 2. **训练性能提升**:采用异步训练框架StarServer,如RunToCompletion和Lockless模式,以及图执行(GraphExecution)方法,支持数千个工作节点和数百个参数服务器,实现高效训练。同时,通过Runtime优化,如PRMalloc针对高维稀疏特征的大批量访问进行了优化,图优化方面强调了结构化特征的存储节省和用户网络计算开销的降低。 3. **部署及Serving**:支持多级混合存储和多Backend支持,能够处理超大稀疏模型,并提供高效的分布式 Serving。对于在线学习,DeepRec还实现了模型的增量导出和加载,以及Embedding的存储优化。 4. **通信协议与数据传输**:通过通信协议优化和用户态零拷贝数据传输,提高了通信效率。此外,基于图拓扑序的图Fusion技术进一步提升了系统性能。 5. **业务场景**:DeepRec适用于多种推荐系统场景,如猜你喜欢、推荐、主搜索、搜索、直通车定向广告等,充分体现了其在实际商业应用中的价值。 6. **开源与合作**:DeepRec是阿里核心搜索引擎推广业务的成果,得到了Intel和Nvidia的支持,并且是一个开放的平台,欢迎更多的外部公司合作。它不仅代表了阿里在稀疏模型领域的技术积累,也为整个社区提供了宝贵的训练和推理引擎资源。 DeepRec是一个综合性的解决方案,致力于解决大规模稀疏模型训练中的复杂问题,通过一系列优化技术,提升模型的训练效率和部署灵活性,为推荐系统的实时性和准确性提供了强大支持。"