logo

什么是高性能计算集群?百度智能云 CHPC 集群概述

作者:xxinjiang2024.12.25 15:48浏览量:2896

简介:本文将介绍 CHPC 集群涉及的基本概念。

集群指运行高性能计算的节点集合,可以提供单节点不能提供的强大计算能力,拥有高性能、弹性扩展、稳定可靠等优点。

本文将介绍 CHPC 集群涉及的基本概念。

节点

CHPC 集群中的每个节点是一台BCC实例。
按节点功能分类,可以分为 登录及管控节点、计算节点。各节点功能如下表所示:

登录及管控节点:

  • 用于远程登录集群,进行操作包括软件调试、编译和安装,以及作业提交等。
  • 用于管理集群,部署调度服务和域账号服务。

  • 调度服务:主要作用是运行 Slurm 等调度工具的服务端,处理作业提交、管理调度等。

  • 域账号服务:集中管理 CHPC 集群内用户信息。

重要:管控节点负责作业的管理调度和域账号解析,在管控节点谨慎进行编译软件、上传下载打包数据等操作,以免影响业务稳定性。

计算节点:

用于执行高性能计算作业的节点。

对于不同规模的集群,建议的管控节点配置和作业执行数量如下:image.png

调度器

调度器是集群上调度作业的软件。CHPC支持的调度器如下:
image.png

域账号服务

域账号服务用于管理集群用户。CHPC 支持 LDAP 域账号服务:

  • LDAP:轻型目录访问协议(Lightweight Directory Access Protocol),在CHPC中,LDAP被用来对用户进行身份权限认证。您可以在LDAP中对用户进行授权,分组,以创建具有不同的访问权限的用户。

共享存储

百度智能云 CHPC 集群的用户数据、调度器信息、作业共享数据等信息均会存储在文件系统,以供集群所有节点共享访问。
百度智能云 CHPC 支持支持 CPFS-NFS 方式挂载 CFS 文件系统。

用户

创建集群用户后,您才能在集群上提交、调试、运行作业。您可以创建两种不同权限的用户来使用集群。

  • 普通权限组:适用于只有提交、调试作业需求的普通用户。
  • sudo 权限组:适用于需要管理集群的管理员,除提交、调试作业外,还可以执行sudo命令进行安装软件、重启节点等操作。
  • 重要 root 用户仅能在创建集群时初始化创建,不推荐使用root用户提交任何作业,避免作业脚本中的误操作导致CHPC集群数据遭受破坏。 更多信息,请参见创建用户。

集群状态

创建中:集群创建初始状态,对应 BCC 实例创建和安装软件状态。
运行中:集群创建完成后处于正常可用状态。
异常:当管理节点被删除或停止、调度器软件退出时,集群状态为异常。您可以尝试修复集群,若修复无效后,请提交工单。
释放中:集群在停机释放过程中。

欢迎了解 CHPC

相关文章推荐

发表评论