Sun公司大型机:从安装到管理的SGE集群指南

需积分: 0 0 下载量 102 浏览量 更新于2024-09-20 收藏 133KB PDF 举报
本文档主要介绍了如何在Sun公司大型机上使用Sun Grid Engine (SGE)集群管理系统,这是一个强大的工具,专为高性能计算而设计。SGE由多个核心守护程序组成,它们协同工作以实现高效的任务调度和资源管理。 1. **安装与权限管理**: 首先,通过Linux的shell命令行进行基本的目录操作,如创建安装目录、改变所有权和权限(`mkdir-p`, `chown`, `chmod`),确保只有管理员能够访问这些关键路径。 2. **NIS服务集成**: 如果系统已启用NIS (Network Information Service) 或 NIS+,需要将`sge_commd535/tcp`服务添加到服务数据库中。如果未运行NIS,应将其添加到各主机的`/etc/services`文件里。 3. **安装和启动组件**: - `sge_qmaster`是群集活动的主控守护程序,仅在主控主机上运行,负责群集管理和协调。 - `sge_schedd`用于任务分配,同样只在主控主机上运行。 - `sge_execd`在执行主机上执行作业,每个作业都会运行一个`sge_shepherd`实例来监控作业进程和收集统计信息。 - `sge_commd`是群集网络通信的关键组件,运行在所有主机上,包括主控和执行主机。 4. **管理命令与权限**: SGE提供了多种命令行工具,如`qconf`系列命令,用于配置、查看、修改系统状态。例如: - `qconf`用于系统配置,如查看和修改群集设置。 - `qacct`和`qalter`用于账户管理和作业权限。 - `qdel`用于删除作业。 - `qstat`展示作业状态和队列信息。 - `qsub`用于提交作业到队列。 这些命令通常需要特定的权限,如仅限于作业所有者执行的`qdel`和`qmod`。 5. **文件和配置管理**: - `/<sge根目录>/<单元>/common/act_qmaster`文件存储了当前主控主机的信息。 - `qconf-sel`和`qconf-se`用于显示执行主机列表和指定主机的详细信息。 - `qhost`显示管理主机列表,`qconf-sh`显示提交主机列表。 - `qconf-ss`列出可请求的属性列表,`qconf-scl`用于属性的管理。 本文档详细讲解了在Sun公司的大型机环境中设置和维护Sun Grid Engine集群的关键步骤,包括安装、权限控制、服务集成以及日常管理命令的使用。理解并熟练掌握这些内容对于有效管理和优化大型机的计算资源至关重要。