"这篇文档是关于SGE(Sun Grid Engine)的安装和使用,作者为崔再续,创建于2011年8月21日。文档详细介绍了如何搭建NFS网络文件系统,SGE集群的规划和安装,以及在使用SGE过程中遇到的问题和解决方案,包括主机和作业的状态管理,还有用户管理和NFS相关的用户共享问题。"
在集群计算环境中,SGE(Sun Grid Engine)是一个关键的资源调度系统,它允许管理员有效地管理和分配集群的计算资源。文档中提到的知识点包括:
1. **NFS搭建**:
- NFS是一种网络文件系统,它允许不同计算机之间的文件共享,使得用户和程序可以像访问本地文件一样访问远程文件。
- 在文档的需求部分,NFS被用于实现磁盘容量共享,每台机器创建/data目录,并通过NFS挂载和共享文件夹,以便所有节点都能访问。
2. **SGE介绍**:
- SGE是一个分布式资源管理器,用于管理集群中的计算作业和资源。
- 文档提到了SGE的需求,主要是为了实现集群中多个节点间的资源调度和作业管理。
3. **SGE安装**:
- 安装过程中包括了主控主机上主控进程的安装,执行节点的安装,以及解决相关问题。
- SGE的启动过程和客户端(gridengine-client)的安装也进行了说明。
4. **主机状态管理**:
- 文档详细列举了主机的不同状态,如'au'(报警且无法到达)、'u'(不可达,通常是因为SGE或机器故障)、'a'(报警,可能是资源耗尽)、'as'(报警并暂停)、'd'(禁用)和'E'(错误状态,需要使用`qmod -c`清除)。
5. **作业状态管理**:
- 作业状态包括'qw'(等待队列)、'w'(等待)、's'(暂停)、't'(传输中,即将开始)、'r'(运行中)、'h'(保持)、'R'(重启)、'd'(标记删除)和'Eqw'(作业错误)。
6. **SGE与NFS用户管理问题**:
- SGE使用用户名标识用户,当在不同节点上有相同用户名时,可能会有权限或访问冲突的问题。
- 解决方案可能涉及正确配置NFS共享,确保用户身份验证和权限设置的一致性。
7. **扩展集群**:
- 文档还简述了如何向已有的SGE集群中添加新的执行节点。
这些知识点对于理解如何构建和管理一个基于SGE的集群计算环境至关重要。通过NFS和SGE的配合,可以高效地利用集群资源,为科学计算、大数据处理和其他计算密集型任务提供强大的支持。