联想HPC&AI GPU服务器:优化人工智能计算与平台架构

需积分: 13 27 下载量 133 浏览量 更新于2023-05-13 收藏 7.65MB PPTX 举报
本文档主要围绕联想的HPC&AI技术平台解决方案展开讨论,焦点集中在人工智能计算系统框架、联想GPU服务器以及利用GPU加速计算的应用介绍上。首先,介绍的是人工智能计算系统框架,指出目前主流框架如HDFS、YARN、MapReduce和TensorFlow在处理人工智能任务时存在的问题,如缺乏任务监控、故障恢复机制,且不便于在多台机器上部署和管理服务。这些问题导致了在训练和部署过程中缺乏自动化管理。 联想GPU服务器被推荐为高性能计算的理想选择,因为它能提供所需的算力支持。针对人工智能的特定需求,选择GPU时,应优先考虑单精度运算速度,因为AI对双精度性能要求不高。推荐配置2-4个单精度性能较高的GPU,例如来自LeoStor的产品。对于CPU,由于AI任务中的大部分工作由GPU承担,CPU主要用于管理、参数处理和结果汇总,因此建议选择E52650级别以下,以满足基本的系统管理和调度需求。 内存方面,由于大量数据预加载到内存再转入显存的需求,对于大训练数据集,内存与显存比例至少1:4,预算充足时可适当增加。存储方面,虽然本地磁盘的IO性能需求不高,但在大规模并行环境和数据共享情况下,推荐使用并发性好的分布式文件系统如GPFS或对象存储,而非仅依赖本地硬盘。至于网络,TensorFlow目前不支持InfiniBand(IB)网络,但Caffe支持,为了兼容性和灵活性,建议选择10Gb或40Gb以太网。如果使用Caffe on Spark这样的架构,可能需要考虑更高带宽的IB或OPA网络。 在构建人工智能平台的物理架构时,服务器配置包括2个E5级CPU,内存容量需大于等于GPU显存容量的两倍,通常配置2-4个GPU,配备1个10Gb或40Gb的NIC用于计算框架通信,另一个1G NIC用于接入网络。此外,结合使用分布式文件系统(如PNFS或GPFS)来优化数据存储性能。 该文档详细介绍了联想在AI计算和服务器硬件配置上的技术策略,旨在帮助用户构建高效、稳定的人工智能服务平台。通过优化GPU选型、CPU性能和网络配置,可以显著提升人工智能应用的处理能力和效率。