NSCC AI系统入门指南:DGX-1节点与GPU资源管理
版权申诉
188 浏览量
更新于2024-06-13
收藏 1.25MB PDF 举报
本资源是一份名为《AI系统快速入门.pdf》的文档,主要介绍了NSCC(National Supercomputing Centre)的AI系统配置和使用指南。该文档针对想要快速掌握AI系统技术的用户,提供了一个实用的入门路径。
首先,文档强调了NSCC的DGX-1节点的特点,这些节点特别适合处理大规模、批处理任务,如训练复杂模型,因为它们配备了大容量的硬件,能够处理大数据集。开发者被鼓励在本地资源上进行初步开发和测试,以便熟悉系统,并利用NVIDIA提供的GPU云Docker镜像进行优化,这有助于提高效率并减少潜在问题。
在资源的利用方面,用户需要通过PBS(Portable Batch System)作业调度器来访问AI系统。系统设计鼓励工作负载能够充分利用每个节点的8个GPU,或者跨多个节点运行。如果请求的GPU数量少于8个,多个任务将共享一个节点上的资源,通过cgroups实现GPU资源隔离,用户只会看到自己所请求的GPU数量。
系统架构部分概述了登录节点、存储、InfiniBand网络、DGX-1节点以及NSCC网络的具体构成。登录节点如nscc0[3-4]等负责用户登录和管理,而 DGX-1节点(如dgx410[1-6])则专注于高性能计算。对于外部通信,NUS和NTU的登录节点提供SSH连接,使用特定的网络接口如ib0,并且可以通过NSCC的专用VPNs(如aspire.nscc.sg和aspire.nscc.sg)进行访问。
值得注意的是,登录节点没有直接的互联网接入,这意味着用户的操作主要集中在内部网络环境中。对于外部出站访问,如ntu.nscc.sg和nus.nscc.sg,用户需要通过预定义的网络通道进行。
《AI系统快速入门.pdf》文档提供了关于NSCC AI系统的关键信息,包括硬件配置、资源管理、作业调度以及网络访问规则,对希望在NSCC平台上高效利用AI资源的用户具有很高的实用价值。对于学习者和开发人员来说,这是一个快速理解和上手NSCC AI系统的宝贵资源。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2014-02-18 上传
2021-10-27 上传
2009-07-01 上传
2012-02-25 上传
2023-11-06 上传
百态老人
- 粉丝: 1w+
- 资源: 2万+
最新资源
- CtfGit:Pagina Del Curso de Programacion
- 340-project-3
- 资产服务器2
- Accuinsight-1.0.34-py2.py3-none-any.whl.zip
- Motion-Detector-with-OpenCV:Python OpenCV项目
- ProcessX:使用C#8.0中的异步流来简化对外部进程的调用
- BELabCodes:这些是我在 BE 期间作为实验室实验编写的代码集合
- screwdriver:Dart包,旨在提供有用的扩展和辅助功能,以简化和加速开发
- cliffordlab.github.io:实验室网站
- 每日报告
- Meter:与MetricKit进行交互的库
- nova-api:新资料库
- marketplace_stat:虚幻市场统计可视化工具
- Blanchard__课程
- 2P_cellAttached_pipeline:2P单元贴记录管道
- kalkulator