如何将SLURM QoS与LiCO配合使用

1. 用户组

HPC系统用户组由本地OpenLDAP服务来管理,如要使用Slurm QoS功能,则管理员需要手动同步用户组信息到Slurm中。

对用户组的操作可以通过LiCO Web界面来操作。

1.1 添加用户组

1.2 删除用户组

2. 用户

HPC系统用户信息存储在管理节点的OpenLDAP服务中,如要使用Slurm QoS功能,则管理员需要手动同步用户信息到Slurm中。

2.1 添加用户

2.2 调整用户分组

Note: OldGroupName可以通过下面命令获得:

2.3 删除用户

3. 队列

队列是指Slurm调度器中的Partition,系统管理员可以通过LiCO Web界面来进行基本的队列管理。 Note: 由于作业相关的限制条件均由QoS来配置,所以不建议使用界面来修改队列的Max Time值。

3.1 新增队列

3.2 调整队列

4. QoS

QoS是Slurm提供的用来定义集群计算资源限制规则的方法。 管理员可以通过Slurm命令来动态的调整QoS,来实现对集群的运维。 为了使QoS规则生效,需要通过与队列(Parition),用户组(Account),用户(User)建立关系。常见的QoS配置有:

4.1 新增QoS

Options的具体用法请参考Slurm官方文档。下面是常见的QoS配置举例:

Note: 如需要取消某个资源上的限制,可设置为-1。

4.2 调整QoS

Options的使用方法与新增QoS命令相同,具体用法请参考Slurm官方文档。

4.3 设置QoS与队列的关联

4.4 设置QoS与用户组的关联

4.5 删除QoS