Initialize Hybird HPC

初始化Hybrid HPC

注意:此功能仅支持操作系统为RedHat 9.4的LiCO集群

  1. 安装Hybrid HPC–Azure. 请依据您部署LiCO集群的方式,选择下方的步骤:

    # 配置EPEL源
    dnf install -y https://dl.fedoraproject.org/pub/epel/epel-release-latest-9.noarch.rpm
    # 安装
    dnf install -y lico-core-cloudscheduling-azure
    # 配置EPEL源
    dnf install -y https://dl.fedoraproject.org/pub/epel/epel-release-latest-9.noarch.rpm
    # 安装依赖包
    dnf install -y openvpn easy-rsa sshpass
  2. 修改配置文件/etc/lico/lico.ini.d/cloudscheduling.ini

  3. 管理节点共享/opt/lico/cloud

    echo "/opt/lico/cloud *(ro,sync,no_subtree_check,no_root_squash)" >> /etc/exports 
    exportfs -a
  4. 修改LiCO管理节点slurm配置文件/etc/slurm/slurm.conf, 在文件的最后添加如下内容:

    include /opt/lico/cloud/azure/slurm.conf
  5. 配置Hybrid HPC的自动调整功能

  6. 修改脚本和目录权限 ```shell chown -R slurm:slurm /opt/lico/pub/slurm/

    chmod 755 /opt/lico/pub/slurm/*.sh ```

  7. 运行如下命令重启LiCO管理节点slurmctld服务:

    systemctl restart slurmctld
  8. 创建Azure身份认证程序:

  9. 执行如下命令将azure身份认证信息导入lico中:

    # 将6中获取的应用程序(客户端) ID,目录(租户) ID及客户端密码跟随提示依次进行导入
    lico azure_secret import
  10. 新建公共IP地址

故障排查:云节点部署后页面异常

在部署云节点完成后,如果页面出现异常问题,可以按照以下步骤进行排查和解决

检查云节点状态

在lico管理员页面,点击监控 -> 列表视图,查看云节点的监控信息是否正确

同步云节点信息

如果列表视图页面中,云节点的监控信息不正确,执行以下命令同步云节点信息

    lico sync_node