如何解决slurm常见问题

  • 使用命令 sinfo 检查节点状态的时候:

    若节点状态是 drain

    使用如下命令把节点的状态设置为正常状态
    $ sudo scontrol update NodeName=<hostname> State=RESUME
    

    若节点状态是 down

    1. 使用如下命令查看节点的详细信息,在输出信息中重点关注 reason 的信息

    $ sudo scontrol show nodes
    
    1. 检查文件 /etc/slurm/slurm.conf 在所有节点是否相同。

    2. 检查所有节点是否启动了 slurmdmunge 服务,在管理节点检查是否启动了 slurmctld 服务

    3. 检查所有节点是否配置了 时钟同步,且 ntpd 服务是否启动。

  • 如果您在使用srun/prun运行mpi程序时遇到以下警告文本:

    Failed to create a completion queue (CQ):
    ......
    Error: Cannot allocate memory
    
    请分别检查管理节点和计算节点上的文件 /etc/security/limits.confsoft memlockhard memlock 是否为 unlimited。如果没有,则应该将其设置为 unlimited,并重新启动节点:
    * soft memlock unlimited
    * hard memlock unlimited