如何解决slurm常见问题
使用命令 sinfo 检查节点状态的时候:
若节点状态是
drain
:$ sudo scontrol update NodeName=<hostname> State=RESUME
若节点状态是
down
:使用如下命令查看节点的详细信息,在输出信息中重点关注 reason 的信息
$ sudo scontrol show nodes
检查文件
/etc/slurm/slurm.conf
在所有节点是否相同。检查所有节点是否启动了 slurmd 和 munge 服务,在管理节点检查是否启动了 slurmctld 服务
检查所有节点是否配置了 时钟同步,且 ntpd 服务是否启动。
如果您在使用srun/prun运行mpi程序时遇到以下警告文本:
Failed to create a completion queue (CQ): ...... Error: Cannot allocate memory
* soft memlock unlimited * hard memlock unlimited