"天河二号"超级计算机的使用指南和常见问题解答
在使用"天河二号"超级计算机时,用户可能会遇到一系列问题,这些问题涉及到网络连接、资源分配、作业提交等多个方面。以下是对这些问题的详细解析:
1. **VPN账号连接成功但无法连接到“天河二号”终端**:这可能是因为终端工具配置不正确或者存在网络问题。确保使用正确的用户名、密码和服务器地址,并检查网络设置。
2. **查询机时和磁盘限额**:用户可以通过系统提供的工具或服务来查询自己当前的机时使用情况和剩余磁盘空间。
3. **重新生成Private Key**:如果SSH密钥对丢失或损坏,需要重新生成Private Key以保证安全连接。
4. **“Invalid partition name specified”错误**:提交作业时,指定的分区名称无效,检查作业脚本中的分区设置是否与系统允许的分区匹配。
5. **“Failed to allocate resources: User's group not permitted to use this partition”**:用户所在的组没有权限使用指定的分区,需要确认用户组权限设置和作业分区策略。
6. **运行时找不到库**:确保编译时链接的库文件路径正确,且在运行环境中可访问。可能需要添加库路径到LD_LIBRARY_PATH环境变量。
7. **yhrun提交作业后被Killed**:可能是由于资源限制或作业执行时间过长导致。检查作业设置和系统资源策略。
8. **“ls”等操作缓慢**:这可能与网络延迟、磁盘I/O性能或文件系统负载有关,优化操作或选择合适的时间进行大文件操作。
9. **yhbatch提交多结点作业失败**:检查作业脚本,特别是资源请求部分,确保符合系统要求,同时注意节点间的通信设置。
10. **计算节点无法登录**:可能是因为节点正在运行作业,或者节点出现故障,需要联系管理员协助。
11. **yhalloc分配资源后作业中断**:退出yhalloc可能导致作业中断,确保在退出前正确处理作业状态。
12. **作业报错处理**:查看错误日志,分析问题原因,可能需要调整代码、编译选项或资源请求。
13. **“天河二号”作业提交模式**:理解不同分区(如“nsfc”,“BIGJOB”)的使用规则,正确编写和提交作业脚本。
14. **CG状态影响作业退出**:CG状态可能是指作业还在清理过程中,不影响正常退出,但如果持续,应查找原因。
15. **作业完成后部分进程被killed**:这可能是由于资源限制或异常情况,检查系统日志以获取更多细节。
使用"天河二号"时,用户需要注意机时计费方式,合理利用资源,遵循分区使用规定,并且了解软件安装、使用和版权问题。对于CPU+MIC的特殊需求,以及商业软件的使用,需提前向超算中心申请。此外,用户应妥善处理软件问题和可能产生的损失,以避免对超算中心造成影响。超算中心提供一定支持,但部分问题(如算法优化、软件自身问题)需要用户自行解决。用户应熟悉登录、文件传输、环境变量管理以及编译器的使用,这些都是高效使用"天河二号"的基础。